前 言写作背景
在第1版的基础上,本书对近几年大数据领域最新出现的各种流行组件,逐个进行介绍,并以离线大数据和流式大数据两个具体示例贯穿本书的第二、三部分内容,对组件之间的协同工作关系进行剖析。这里新增了大数据平台的架构选型及最佳实践案例、大数据治理、流计算开发、基于Docker的大数据运维部署等部分。书中所使用的示例程序,是基于笔者在进行企业培训时,企业提出的业务需求而展开的,从而使得示例程序更有代表性。
本书特色
• 在本书第1版的基础上,按照离线大数据和流式大数据两个场景进行划分,这样更有针对性。
• 在代码实现上由本书第1版的以Java为主变为现在第2版的以Python为主,紧贴主流编程语言。
• 代码的可用性增强。对于本书第1版的爬虫部分代码,随着目标网站的样式变更,书中的那些代码无法继续运行。现在第2版的爬虫目标网站为作者制作的模拟站点,这样就保证了读者运行书中爬虫代码时的持续可用。
• 提供和本书配套的示例程序运行地址。读者可以登录http://www.broadview.com.cn/38202,运行书中所提供的示例程序,并下载书中有关章节的源码。
• 提供和本书配套的大数据组件Docker的文件下载,以便读者可以在本机运行书中所讲解的示例程序。
• 提供QQ读者群(群号:50926571)在线答疑。
读者人群
• Python编程爱好者
• 在校学生
• 想转行从事大数据工作的在职IT人员
序 言
从2016年10月本书第1版和读者见面,至今已经过去3年多了。在这3年多里,区块链、人工智能、物联网等领域的风头早已盖过了大数据。虽然我们的写作团队在这些方面也出了几本书,但却一直关注着大数据领域的新技术和新趋势。企业都在用哪些大数据组件?这些组件分别适用于何种场景?虚拟化技术目前最流行的又是什么?本书围绕以上3个问题展开讨论,希望能向读者呈现一个相对完整的大数据架构图。
“自己动手做”——不仅体现在书名中,更是学习、实践大数据技术的主要方法。大数据领域包含了架构、应用、开发和运维等多个环节的工作,初学者往往会感觉门槛太高。本书选取了最常用的几种大数据组件,用一个并不复杂的例子把这些组件串起来使用,目的是想降低学习门槛,让读者学有所得。
非习劳无以进业,IT领域的知识积累就是一个不断“踩坑”的过程。除了要有正确的途径,更要有个人不懈的努力。别人看似轻描淡写的几句指点,可能是其背后多次尝试的总结;而自己觉得爬过的几个“坑”,在别人看来可能根本不算什么事。我们期待着读者能和我们积极互动,共同学习、共同提高!
写书是一件费时费力的事情,写作团队的每一点进步,都是和家人的理解、支持分不开的。在此,我代表其他3位作者,向我们的家人表示感谢!特别感谢我的妻子吴芳,她的无私奉献,使我在困逆之境仍能蹒跚前行。
最后,感谢博文视点符隆美女士及其他编辑人员的辛勤劳动。
刘未昕
2020年3月