《Hadoop大数据实战权威指南》[53M]百度网盘|pdf下载|亲测有效
《Hadoop大数据实战权威指南》[53M]百度网盘|pdf下载|亲测有效

Hadoop大数据实战权威指南 pdf下载

出版社 博道图书专营店
出版年 2019-08
页数 390页
装帧 精装
评分 8.8(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供Hadoop大数据实战权威指南电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

基本信息

  • 商品名称:Hadoop大数据实战 指南(第2版)/大数据科学与应用丛书
  • 作者:编者:黄东军
  • 定价:79
  • 出版社:电子工业
  • 书号:9787121370335

其他参考信息(以实物为准)

  • 出版时间:2019-08-01
  • 印刷时间:2019-08-01
  • 版次:2
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:320
  • 字数:508千字

内容提要

基于\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\"深入分析组件原理、充分展示搭建过程、详细指导应用开发”的理念,以 版Hadoop及其生态组件为对象,采用理论与应用高度融合的方法,介绍大数据的概念、技术、方法、应用、以及项目开发。全书分为三篇, 篇为大数据的基本概念和技术综述,第二篇为平台搭建与基本应用,内容设计Linux、HDFS、MapReduce、Yarn、Hive、HBase、Sqoop、Kafka、Spark、Phoenix等;第三篇为数据处理与项目开发,综合运用各类组件进行实际数据处理,包括交互式应用、决策、 算法、销售数据分析系统等。

作者简介

黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会 会员, 计算机科学与技术专业教学指导委员会\\\\\\\\\\\\\\\"物联网工程专业教学研究专家组”成员。

目录

目 录
篇 大数据的基本概念和技术1
第1章 绪论3
1.1 大数据的时代背景3
1.1.1 大数据浪潮3
1.1.2 我国的大数据战略5
1.2 大数据的基本概念和特征6
1.2.1 基本概念6
1.2.2 基本特征7
1.3 大数据系统的技术支撑体系7
1.3.1 技术支撑体系概览7
1.3.2 大数据系统的采集层8
1.3.3 大数据系统的存储层9
1.3.4 大数据系统的分析层9
1.3.5 大数据系统的应用层9
1.3.6 大数据系统的垂直层10
1.4 大数据领域的主要职位及其能力要求11
1.4.1 首席数据官11
1.4.2 数据科学家11
1.4.3 大数据开发工程师12
1.4.4 大数据运维工程师13
1.5 本章小结13
第2章 Hadoop大数据关键技术15
2.1 Hadoop大数据应用生态系统15
2.1.1 架构的基本理论15
2.1.2 Hadoop大数据应用生态系统的主要组件及其关系16
2.2 大数据采集技术19
2.2.1 结构化数据采集工具19
2.2.2 日志收集工具与技术20
2.3 大数据存储技术23
2.3.1 相关概念23
2.3.2 分布式存储系统27
2.3.3 数据库(HBase)与数据仓库(Hive)30
2.4 分布式计算框架35
2.4.1 离线计算框架35
2.4.2 实时流计算平台40
2.5 数据分析平台与工具45
2.5.1 面向大数据的数据挖掘与分析工具45
2.5.2 机器学习49
2.6 本章小结52
第二篇 Hadoop大数据平台搭建与基本应用55
第3章 Linux操作系统与集群搭建57
3.1 Linux操作系统57
3.1.1 概述57
3.1.2 特点58
3.1.3 Linux操作系统的组成59
3.2 Linux集群的搭建62
3.2.1 安装VMware Workstation62
3.2.2 在VMware Workstation Pro 12上安装Linux(CentOS 7)65
3.3 集群的配置77
3.3.1 设置主机名77
3.3.2 网络设置79
3.3.3 关闭防火墙83
3.3.4 安装JDK84
3.3.5 免密钥登录配置87
3.4 Linux基本命令89
3.5 本章小结96
第4章 HDFS安装与基本应用97
4.1 HDFS概述97
4.1.1 特点97
4.1.2 主要组件与架构97
4.2 HDFS架构分析98
4.2.1 数据块98
4.2.2 NameNode98
4.2.3 DataNode99
4.2.4 SecondaryNameNode100
4.2.5 数据备份100
4.2.6 通信协议101
4.2.7 可靠性保证101
4.3 文件操作过程分析101
4.3.1 读文件101
4.3.2 写文件102
4.3.3 删除文件103
4.4 Hadoop的安装与配置104
4.4.1 解压Hadoop安装包104
4.4.2 配置Hadoop环境变量105
4.4.3 配置Yarn环境变量106
4.4.4 配置核心组件106
4.4.5 配置文件系统107
4.4.6 配置yarn site.xml文件108
4.4.7 配置MapReduce计算框架文件109
4.4.8 配置Master中的workers文件111
4.4.9 将Master上的Hadoop复制到Slave111
4.5 Hadoop集群的启动112
4.5.1 配置操作系统的环境变量112
4.5.2 创建Hadoop数据目录113
4.5.3 格式化文件系统113
4.5.4 启动和关闭Hadoop114
4.5.5 验证Hadoop是否成功启动115
4.6 Hadoop集群的基本应用117
4.6.1 HDFS基本命令117
4.6.2 在Hadoop集群中运行程序120
4.7 本章小结122
第5章 MapReduce与Yarn123
5.1 MapReduce程序的概念123
5.1.1 基本编程模型123
5.1.2 计算过程分析124
5.2 深入理解Yarn126
5.2.1 Yarn的基本架构126
5.2.2 Yarn的工作流程130
5.3 在Linu 台安装Eclipse130
5.3.1 Eclipse简介130
5.3.2 安装并启动Eclipse131
5.4 开发MapReduce程序的基本方法133
5.4.1 为Eclipse安装Hadoop插件133
5.4.2 WordCount: 个MapReduce程序137
5.5 本章小结150
第6章 Hive和HBase的安装与应用151
6.1 在CentOS 7下安装MySQL151
6.1.1 下载或复制MySQL安装包151
6.1.2 执行安装命令152
6.1.3 启动MySQL153
6.1.4 登录MySQL153
6.1.5 使用MySQL154
6.1.6 问题与解决办法156
6.2 Hive安装与应用157
6.2.1 下载并解压Hive安装包158
6.2.2 配置Hive158
6.2.3 启动并验证Hive161
6.2.4 Hive的基本应用162
6.3 ZooKeeper集群安装163
6.3.1 ZooKeeper简介163
6.3.2 安装ZooKeeper164
6.3.3 配置ZooKeeper165
6.3.4 启动和测试166
6.4 HBase的安装与应用168
6.4.1 解压并安装HBase168
6.4.2 配置HBase169
6.4.3 启动并验证HBase171
6.4.4 HBase的基本应用173
6.4.5 HBase应用中常见问题及其解决办法175
6.5 本章小结176
第7章 Sqoop和Kafka的安装与应用177
7.1 安装部署Sqoop177
7.1.1 下载或复制Sqoop安装包177
7.1.2 解压并安装Sqoop177
7.1.3 配置Sqoop178
7.1.4 启动并验证Sqoop180
7.1.5 测试Sqoop与MySQL的连接180
7.2 安装部署Kafka集群182
7.2.1 下载或复制Kafka安装包182
7.2.2 解压缩Kafka安装包182
7.2.3 配置Kafka集群183
7.2.4 Kafka的初步应用184
7.3 本章小结188
第8章 Spark集群的安装与开发环境的配置189
8.1 深入理解Spark189
8.1.1 Spark的系统架构189
8.1.2 Spark的关键概念191
8.2 Scala的安装与配置193
8.2.1 下载Scala安装包194
8.2.2 安装Scala194
8.2.3 启动并应用Scala195
8.3 Spark集群的安装与配置195
8.3.1 安装模式195
8.3.2 Spark的安装196
8.3.3 启动并验证Spark198
8.3.4 几点说明202
8.4 IDEA开发环境的安装与配置203
8.4.1 IDEA简介203
8.4.2 IDEA的安装204
8.4.3 IDEA的配置205
8.5 本章小结208
第9章 Spark应用基础209
9.1 Spark应用程序的运行模式209
9.1.1 Spark on Yarn-cluster-209
9.1.2 Spark on Yarn-client210
9.2 Spark的应用设计211
9.2.1 分布式估算圆周率211
9.2.2 基于Spark MLlib的贷款风险预测226
9.3 本章小结242
第三篇 大数据处理与项目开发243
0章 交互式数据处理245
10.1 数据预处理245
10.1.1 查看数据245
10.1.2 数据扩展247
10.1.3 数据过滤247
10.1.4 数据上传248
10.2 创建数据仓库249
10.2.1 创建Hive数据仓库的基本命令249
10.2.2 创建Hive分区表251
10.3 数据分析253
10.3.1 基本统计253
10.3.2 用户行为分析254
10.3.3 实时数据256
10.4 本章小结256
1章 协同过滤 系统257
11.1 算法概述257
11.1.1 基于人口统计学的 257
11.1.2 基于内容的 258
11.1.3 协同过滤 258
11.2 协同过滤 算法分析259
11.2.1 基于用户的协同过滤 259
11.2.2 基于物品的协同过滤 261
11.3 Spark MLlib 算法应用262
11.3.1 ALS算法原理262
11.3.2 ALS的应用设计264
11.4 本章小结277
2章 销售数据分析系统279
12.1 数据采集279
12