本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
本书以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括了Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。本书从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外本书还应用了大量的图表进行说明,通过这种方式让读者能够更加直观地理解Spark 相关原理。
郭景瞻,现就职京东商城,开源技术爱好者,对Spark等大数据系统有较为深入的研究,对Spark应用开发、运维和测试有较多的经验,喜欢深入阅读Spark源代码,分析其核心原理和运行机制。
Spark的流行不是一个偶然性,它像黏合剂一样整合了百花齐放的大数据生态系统的众多功能。无论你是想学习使用Spark,还是想深入了解Spark的内核原理,这本书都是你入门的较好选择。
-- 常雷博士,Apache HAWQ创始人
Apache Spark作为大数据的后起之秀,以其高效的迭代计算和完备的生态圈成为大数据处理的翘楚。本书从源代码角度深入浅出分析了Spark的核心原理,同时能够结合实例进行讲解,让读者能够理论联系实际,相信本书对于大数据及分布式系统研究,以及Spark系统学习人员是个很好的选择。
-- 祝军,中油瑞飞大数据架构师
Spark是一个优秀的大数据计算框架,随着云时代的来临,大数据的存储、处理、分析、应用逐渐成为各个行业必须要具备的能力。本书以图形化方式全面讲解了Spark生态系统,从入门应用到内核原理解析,并配合大量的实例,相信对你的学习总结和实际工作都有很好的帮助。
--付彩宝 京东服饰家居事业部商家研发部负责人
全书编排合理,初学者可以根据作者的引导一步步成长为Spark的开发高手,有经验的开发者也可以通过本书进一步了解Spark的内在机制,从而帮助读者去解决实际工作中的棘手问题,或者深入地优化应用的性能,在当前的市场上能做到如此深入浅出而又紧跟Spark社区步伐的图书实在不多,为此特向广大技术爱好力荐此书。
--何云龙,大规模机器学习专家 京东大数据架构师