作 者:(印)亚达夫(Rishi Yadav) 著;顾星竹,刘见康 译
定 价:45
出 版 社:人民邮电出版社
出版日期:2016年10月01日
页 数:190
装 帧:平装
ISBN:9787115429667
●第1章开始使用Apache Spark 1
●1.1简介1
●1.2使用二进制文件安装Spark2
●1.3通过Maven构建Spark源码5
●1.4在 EC2上部署Spark7
●1.5在集群上以独立模式部署
●Spark13
●1.6在集群上使用Mesos部署Spark18
●1.7在集群上使用YARN部署19
●1.8使用Tachyon作为堆外存储层22
●第2章使用Spark开发应用27
●2.1简介27
●2.2探索Spark shell27
●2.3在Eclipse中使用Maven开发Spark应用29
●2.4在Eclipse中使用SBT开发Spark应用33
●2.5在Intellij IDEA中使用Maven开发Spark应用34
●2.6在Intellij IDEA中使用SBT开发Spark应用36
●第3章外部数据源38
●3.1简介38
●3.2从本地文件系统加载数据39
●部分目录
Spark是一个基于内存计算的开源集群计算系统,它很好小巧玲珑,让数据分析更加快速,已逐渐成为新一代大数据处理平台中的佼佼者。
本书内容分为12章,从认识Apache Spark开始讲解,陆续介绍了Spark的使用、外部数据源、Spark SQL、Spark Streaming、机器学习、监督学习中的回归和分类、无监督学习、推荐系统、图像处理、优化及调优等内容。
本书适合大数据领域的技术人员,可以帮助他们更好地洞悉大数据,本书也适合想要学习Spark进行大数据处理的人员,它将是一本不错的参考教程。
(印)亚达夫(Rishi Yadav) 著;顾星竹,刘见康 译
亚达夫,拥有17年设计和开发企业级应用的经验。他是一位开源软件专家,引领了美国公司的大数据趋势。Rish被评为2014年40位40岁以下硅谷杰出工程师之一。他于1998年获得杰出的印度理工学院(Indian Institute of Technology,IIT)德里分校的学士学位。大约在10年前,Rishi创办了InfoObjects,这是一家以深度探索数据为宗旨的企业。该公司已连续4年被列入发展快公司5000强。InfoObjects也被授予了2014及2015年度湾区杰出工作地点首名的桂冠。Rishi还是一位开源社区贡献者和活跃的博主。