书籍详情
《Spark编程基础林子雨,赖永炫,陶继平》[43M]百度网盘|亲测有效|pdf下载
  • Spark编程基础林子雨,赖永炫,陶继平

  • 出版社:辽海出版社图书专营店
  • 出版时间:2018-08
  • 热度:12164
  • 上架时间:2024-06-30 09:38:03
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

   图书基本信息
图书名称   Spark编程基础(Scala版)
作者   林子雨,赖永炫,陶继平
定价   49.8元
出版社   人民邮电出版社
ISBN   9787115488169
出版日期   2018-08-01
字数   428000
页码   246
版次   
装帧   平装
开本   16开
商品重量   

   内容提要
本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Spark MLlib等。

   目录
   章大数据技术概述1

1.1大数据的概念与关键技术2

1.1.1大数据的概念2

1.1.2大数据关键技术2

1.2代表性大数据技术4

1.2.1Hadoop4

1.2.2Spark8

1.2.3Flink10

1.2.4Beam11

1.3编程语言的选择12

1.4在线资源13

1.5本章小结14

1.6习题14

实验1Linux系统的安装和常用命令15

一、实验目的15

二、实验平台15

三、实验内容和要求15

四、实验报告16

第2章Scala语言基础17

2.1Scala语言概述18

2.1.1计算机的缘起18

2.1.2编程范式19

2.1.3Scala简介20

2.1.4Scala的安装21

2.1.5HelloWorld21

2.2Scala基础知识23

2.2.1基本数据类型和变量23

2.2.2输入/输出26

2.2.3控制结构28

2.2.4数据结构31

2.3面向对象编程基础37

2.3.1类37

2.3.2对象42

2.3.3继承47

2.3.4参数化类型50

2.3.5特质52

2.3.6模式匹配55

2.3.7包58

2.4函数式编程基础59

2.4.1函数的定义与使用60

2.4.2高阶函数61

2.4.3闭包62

2.4.4偏应用函数和Curry化62

2.4.5针对容器的操作64

2.4.6函数式编程实例69

2.5本章小结70

2.6习题70

实验2Scala编程初级实践71

一、实验目的71

二、实验平台71

三、实验内容和要求72

四、实验报告75

第3章Spark的设计与运行原理76

3.1概述77

3.2Spark生态系统78

3.3Spark运行架构79

3.3.1基本概念79

3.3.2架构设计80

3.3.3Spark运行基本流程81

3.3.4RDD的设计与运行原理82

3.4Spark的部署方式91

3.5本章小结92

3.6习题93

第4章Spark环境搭建和使用方法94

4.1安装Spark95

4.1.1基础环境95

4.1.2下载安装文件95

4.1.3配置相关文件96

4.1.4Spark和Hadoop的交互97

4.2在spark-shell中运行代码97

4.2.1spark-shell命令98

4.2.2启动spark-shell99

4.3开发Spark独立应用程序99

4.3.1安装编译打包工具100

4.3.2编写Spark应用程序代码101

4.3.3编译打包101

4.3.4通过spark-submit运行程序104

4.4Spark集群环境搭建104

4.4.1集群概况105

4.4.2搭建Hadoop集群105

4.4.3在集群中安装Spark106

4.4.4配置环境变量106

4.4.5Spark的配置106

4.4.6启动Spark集群107

4.4.7关闭Spark集群107

4.5在集群上运行Spark应用程序108

4.5.1启动Spark集群108

4.5.2采用独立集群管理器108

4.5.3采用HadoopYARN管理器109

4.6本章小结110

4.7习题111

实验3Spark和Hadoop的安装111

一、实验目的111

二、实验平台111

三、实验内容和要求111

四、实验报告112

第5章RDD编程113

5.1RDD编程基础114

5.1.1RDD创建114

5.1.2RDD操作115

5.1.3持久化121

5.1.4分区122

5.1.5一个综合实例126

5.2键值对RDD128

5.2.1键值对RDD的创建128

5.2.2常用的键值对转换操作129

5.2.3一个综合实例133

5.3数据读写134

5.3.1文件数据读写135

5.3.2读写HBase数据137

5.4综合实例141

5.4.1求TOP值141

5.4.2文件排序143

5.4.3二次排序144

5.5本章小结146

实验4RDD编程初级实践146

一、实验目的146

二、实验平台146

三、实验内容和要求146

四、实验报告148

第6章SparkSQL149

6.1SparkSQL简介150

6.1.1从Shark说起150

6.1.2SparkSQL架构151

6.1.3为什么推出SparkSQL152

6.2DataFrame概述152

6.3DataFrame的创建153

6.4DataFrame的保存154

6.5DataFrame的常用操作155

6.6从RDD转换得到DataFrame156

6.6.1利用反射机制推断RDD模式157

6.6.2使用编程方式定义RDD模式158

6.7使用SparkSQL读写数据库160

6.7.1通过BC连接数据库160

6.7.2连接Hive读写数据162

6.8本章小结166

6.9习题166

实验5SparkSQL编程初级实践167

一、实验目的167

二、实验平台167

三、实验内容和要求167

四、实验报告168

第7章SparkStreaming169

7.1流计算概述170

7.1.1静态数据和流数据170

7.1.2批量计算和实时计算171

7.1.3流计算概念171

7.1.4流计算框架172

7.1.5流计算处理流程173

7.2SparkStreaming174

7.2.1SparkStreaming设计174

7.2.2SparkStreaming与Storm的对比175

7.2.3从“Hadoop+Storm”架构转向Spark架构176

7.3DStream操作概述177

7.3.1SparkStreaming工作机制177

7.3.2编写SparkStreaming程序的基本步骤178

7.3.3创建StreamingContext对象178

7.4基本输入源179

7.4.1文件流179

7.4.2套接字流181

7.4.3RDD队列流186

7.5不错数据源187

7.5.1Kafka简介188

7.5.2Kafka准备工作188

7.5.3Spark准备工作189

7.5.4编写SparkStreaming程序使用Kafka数据源190

7.6转换操作194

7.6.1DStream无状态转换操作194

7.6.2DStream有状态转换操作195

7.7输出操作199

7.7.1把DStream输出到文本文件中199

7.7.2把DStream写入到关系数据库中200

7.8本章小结202

7.9习题202

实验6SparkStreaming编程初级实践203

一、实验目的203

二、实验平台203

三、实验内容和要求203

四、实验报告204

第8章SparkMLlib205

8.1基于大数据的机器学习206

8.2机器学习库MLlib概述207

8.3基本数据类型208

8.3.1本地向量208

8.3.2标注点208

8.3.3本地矩阵209

8.4机器学习流水线210

8.4.1流水线的概念210

8.4.2流水线工作过程211

8.5特征提取、转换和选择212

8.5.1特征提取213

8.5.2特征转换215

8.5.3特征选择220

8.5.4局部敏感哈希221

8.6分类算法222

8.6.1逻辑斯蒂回归分类器222

8.6.2决策树分类器226

8.7聚类算法229

8.7.1K-Means聚类算法230

8.7.2GMM聚类算法232

8.8协同过滤算法234

8.8.1推荐算法的原理235

8.8.2ALS算法235

8.9模型选择和超参数调整239

8.9.1模型选择工具239

8.9.2用交叉验证选择模型240

8.10本章小结242

8.11习题242

实验7Spark机器学习库MLlib编程实践243

一、实验目的243

二、实验平台243

三、实验内容和要求243

四、实验报告244

参考文献245

   作者介绍
林子雨,厦门大学计算机科学系教师。2013年度和2017年度厦门大学教学类奖教金获得者。中国计算机学会数据库专业委员会委员,中国计算机学会信息系统专业委员会委员,厦门大学数据库实验室负责人,数据中国“百校工程”专家组成员。靠前高校“数字教师”的提出者和建设者,编著出版了靠前高校系统介绍大数据知识的专业教材《大数据技术原理与应用》,成为靠前众多高校开课教材,同时建设了靠前高校大数据课程公共服务平台,为教师教学和学生学习大数据课程免费提供多方面、一站式服务,平台每年访问量超过100万次,成为靠前高校大数据教学。