本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
基本信息
书名:大数据Spark企业级实战 定价:129.00元 ISBN:9787121247446
作者:Spark亚太研究院 王家林 编著 出版社:电子工业出版社
参考信息(以实物为准)
出版日期:2015-01-01 字数:1136800
页码:812 版次:1
装帧:平装 开本:16开
编辑
内容提要
Spark
是当今大数据领域活跃、热门、效的大数据通用计算平台,是Apache
软件基金会下所有开源项目中三大开源项目之一。
在“One Stack to rule them all
”理念的指引下,Spark
基于RDD
成功地构建起了大数据处理的一体化解决方案,将MapReduce
、Streaming
、SQL
、Machine Learning
、Graph Processing
等大数据计算模型统一到一个技术堆栈中,开发者使用一致的API
操作Spark
中的所有功能;更为重要的是Spark
的Spark SQL
、MLLib
、GraphX
、Spark Streaming
等四大子框架之间可以在内存中的无缝集成并可以互相操作彼此的数据,这不仅打造了Spark
在当今大数据计算领域其他任何计算框架都无可匹敌的优势,更使得Spark
正在加速成为大数据处理中心的和的计算平台。
《大数据Spark
企业级实战》详细解析了企业级Spark
开发所需的几乎所有技术内容,涵盖Spark
的架构设计、Spark
的集群搭建、Spark
内核的解析、Spark SQL
、MLLib
、GraphX
、Spark Streaming
、Tachyon
、SparkR
、Spark
多语言编程、Spark
常见问题及调优等,并且结合Spark
源码细致的解析了Spark
内核和四大子框架,在附录中提供了的Spark
的开发语言Scala
快速入门实战内容,学习完此书即可胜任绝大多数的企业级Spark
开发需要。
《大数据Spark
企业级实战》从零起步,完全从企业处理大数据业务场景的角度出发,基于实战代码来组织内容,对于一名大数据爱好者来说,《大数据Spark
企业级实战》内容可以帮助您一站式地完成从零起步到进行Spark
企业级开发所需要的核心内容和实战需要。
目录
第章 编程模型
:一体化、多元化的高速
大数据通用计算平台和库
为什么需要使用
技术生态系统简介
大数据处理框架
速度为何如此之快
:分布式函数式编程
子框架解析
图计算框架
实时流处理框架()
交互式处理框架
机器学习框架()
第章 构建分布式集群
搭建单机版本和伪分布式开发环境
开发需要的基本软件
安装每个软件
配置单机模式并运行示例
配置伪分布模式并运行示例
搭建分布式集群的
在中准备第二、第三台运行系统的机器
按照配置伪分布式模式的方式配置新创建运行系统的机器
配置分布式集群环境
测试分布式集群环境
集群的动手搭建
集群需要的软件
安装每个软件
启动并查看集群的状况
构建单机版本和伪分布式环境
通过的测试的工作
使用的机制观察一下效率的提升
第章 开发环境及其测试
搭建和设置开发环境
构建的开发环境
配置的开发环境
测试环境
实战:在中开发代码,并运行在集群中
第章 与编程实战
深度解析
动手实战
动手实战
综合实战
第章 运行模式深入解析
运行模式概述
的运行模式列表
的基本工作流程
模式
部署及程序运行
内部实现原理
模式
部署及程序运行
内部实现原理
模式
部署及运行程序
内部实现原理
第章 内核解析
内核初探
内核核心术语解析
集群概览
核心组件
任务调度系统初见
内核核心源码解读
核心源码解析初体验
启动源码解析初体验
源码解读初体验
的监控页面
以的操作为例触发全生命周期源码研究
驱动下的、、
中的源码解析
注册
中启动过程源代码解析
第章 大规模图计算与图挖掘实战
概览
设计实现的核心原理
和
、、
以原始的方式构建
动手编写个代码实例并进行、、操作
在集群上使用文件中的数据加载成为并进行操作
作者介绍
亚太研究院首席专家,中国移动互联网和云计算大数据集大成者。在、、等方面有丰富的源码、实务和性能优化经验。研究了从到共个版本的源码,并已完成年月日发布的源码研究。
源码级专家,曾负责某知名公司的类框架开发工作,专注于一站式解决方案的提供,同时也是云计算分布式大数据处理的早实践者之一。
架构师、工程师、咨询顾问、培训专家。
通晓、、、,迷恋英语播音和健美。
文摘
序言