大规模数据分析和建模:基于Spark与R哈维尔·卢拉辛凯文·北方城 pdf下载pdf下载

大规模数据分析和建模:基于Spark与R哈维尔·卢拉辛凯文·北方城百度网盘pdf下载

作者:
简介:本篇提供书籍《大规模数据分析和建模:基于Spark与R哈维尔·卢拉辛凯文·北方城》百度网盘pdf下载
出版社:北方图书城卖场店
出版时间:2020-07
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

书名:大规模数据分析和建模:基于Spark与R

定价:89元

作者:[美]哈维尔·卢拉辛(JavierLuraschi)凯文·郭(Kevin

出版社:机械工业出版社

出版日期:2020-07-01

ISBN:9787111661016

字数:

页码:260

版次:

装帧:平装

开本:16开

商品重量:

编辑推荐


如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。
作者会展示如何将Spark和R结合起来进行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及高级用户会感兴趣的问题。
?在Apache Spark环境下,使用R来分析、探索、转换、可视化数据。
?构建统计模型来提取信息并预测输出,自动化生产级的工作流程。
?使用分布式计算技术在多台机器上进行分析和建模。
?轻松使用Spark处理多个数据源和格式的大规模数据。
?学习其他用于大规模图处理、地理空间分析和基因组学分析的建模框架。
?深入高级话题,包括定制转换、实时数据处理和创建定制化Spark扩展。

内容提要


这本书的目的是帮助所有人通过R使用Apache Spark。章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。0章~3章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。

目录


序言1
前言3
章 引言9
1.1 概述10
1.2 Hadoop10
1.3 Spark12
1.4 R16
1.5 sparklyr19
1.6 小结20
第2章 开始21
2.1 概述21
2.2 预备操作22
2.2.1 安装sparklyr23
2.2.2 安装Spark23
2.3 连接24
2.4 使用Spark25
2.4.1 网络接口25
2.4.2 分析28
2.4.3 建模28
2.4.4 数据30
2.4.5 扩展30
2.4.6 分布式R31
2.4.7 流式数据31
2.4.8 日志32
2.5 断开连接33
2.6 使用RStudio33
2.7 资源35
2.8 小结36
第3章 分析37
3.1 概述37
3.2 数据导入40
3.3 数据整理41
3.3.1 内置函数42
3.3.2 相关性43
3.4 可视化45
3.4.1 使用ggplot246
3.4.2 使用dbplot47
3.5 建模49
3.6 沟通51
3.7 小结54
第4章 建模56
4.1 概述56
4.2 探索性数据分析58
4.3 特征工程65
4.4 监督式学习68
4.4.1 广义线性回归72
4.4.2 其他模型73
4.5 非监督式学习73
4.5.1 数据准备74
4.5.2 主题建模75
4.6 小结77
第5章 管道操作78
5.1 概述78
5.2 创建工作80
5.3 用例81
5.4 操作模式83
5.5 交互性84
5.6 部署86
5.6.1 批打分87
5.6.2 实时打分88
5.7 小结90
第6章 集群92
6.1 概述92
6.2 本地化94
6.2.1 管理器94
6.2.2 发行版98
6.3 云端100
6.3.1 101
6.3.2 Databricks102
6.3.3 谷歌103
6.3.4 IBM105
6.3.5 微软106
6.3.6 Qubole107
6.4 Kuberes107
6.5 工具108
6.5.1 RStudio108
6.5.2 Jupyter109
6.5.3 Livy110
6.6 小结111
第7章 连接112
7.1 概述112
7.1.1 边缘节点114
7.1.2 Spark主目录114
7.2 本地模式115
7.3 单机模式116
7.4 YARN116
7.4.1 YARN客户端117
7.4.2 YARN集群117
7.5 Livy118
7.6 Mesos120
7.7 Kuberes121
7.8 云模式121
7.9 批量模式122
7.10 工具123
7.11 多次连接123
7.12 故障排除124
7.12.1 记录日志124
7.12.2 Spark Submit124
7.12.3 Windows126
7.13 小结126
第8章 数据127
8.1 概述127
8.2 读取数据129
8.2.1 路径129
8.2.2 模式130
8.2.3 内存131
8.2.4 列132
8.3 写入数据133
8.4 复制数据134
8.5 文件格式135
8.5.1 CSV136
8.5.2 JSON137
8.5.3 Parquet138
8.5.4 其他139
8.6 文件系统140
8.7 存储系统140
8.7.1 Hive141
8.7.2 Cassandra142
8.7.3 BC142
8.8 小结143
第9章 调试144
9.1 概述144
9.1.1 计算图146
9.1.2 时间线148
9.2 配置148
9.2.1 连接设置150
9.2.2 提交设置151
9.2.3 运行时设置152
9.2.4 sparklyr设置153
9.3 分区156
9.3.1 隐式分区156
9.3.2 显式分区157
9.4 缓存158
9.4.1 检查点159
9.4.2 内存159
9.5 重洗160
9.6 序列化161
9.7 配置文件161
9.8 小结162
0章 扩展163
10.1 概述163
10.2 H2O165
10.3 图模型169
10.4 XGBoost173
10.5 深度学习176
10.6 基因组学179
10.7 空间数据181
10.8 故障排除183
10.9 小结183
1章 分布式R185
11.1 概述185
11.2 用例187
11.2.1 定制解析器188
11.2.2 分区建模189
11.2.3 网格搜索191
11.2.4 Web API192
11.2.5 模拟193
11.3 分区194
11.4 分组195
11.5 列196
11.6 context参数197
11.7 函数198
11.8 程序包199
11.9 集群需求200
11.9.1 安装R200
11.9.2 Apache Arrow201
11.10 故障排除203
11.10.1 工作节点日志204
11.10.2 解决超时205
11.10.3 检查分区206
11.10.4 调试工作节点206
11.11 小结207
2章 数据流208
12.1 概述208
12.2 转换211
12.2.1 分析212
12.2.2 建模213
12.2.3 管道214
12.2.4 分布式R215
12.3 Kafka216
12.4 Shiny218
12.5 小结220
3章 社区贡献221
13.1 概述221
13.2 Spark API223
13.3 Spark扩展224
13.4 使用Scala代码226
13.5 小结228
附录A 补充参考代码229

作者介绍


Javier Luraschi是大规模数据科学诸多库的发明者,包括sparklyr、r2d3、pins和cloudml。
Kevin Kuo构建了机器学习库,并领导了Kasa AI的开放保险研究。
Edgar Ruiz构建了企业级的数据解决方案工具,包括dbplot、tidypredict和modeldb。

序言