本篇主要提供大数据原理与实战电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
本书覆盖完整的大数据
生态圈体系,主要包括
Hadoop生态圈体系、Spark
生态圈体系、Flink生态圈体
系、NoSQL数据库及相关组
件。本书侧重动手实操,提
供完整并详细的实验步骤,
可以让读者真实模拟大数据
平台体系的运行环境,在虚
拟机上构建自己的大数据集
群。同时,本书也兼顾必要
的理论讲解,深入浅出,让
读者在了解大数据基本架构
和原理机制的基础上,能够
通过实验真正掌握大数据平
台体系中的技术组件。
本书适合具有一定Java
编程基础的人员阅读,如平
台架构师、开发人员、运维
管理人员等。本书内容详尽
,不仅可以作为初学者的学
习用书,而且可以作为工作
中的参考手册。
第1章 大数据核心理论基础与架构
1.1 大数据概述
1.1.1 大数据的基本概念和特性
1.1.2 大数据平台所要解决的核心问题
1.1.3 数据仓库与大数据
1.2 大数据的理论基础
1.2.1 Google文件系统
1.2.2 MapReduce分布式计算模型
1.2.3 BigTable分布式数据库
1.3 大数据生态圈组件
1.3.1 Hadoop生态圈
1.3.2 Spark生态圈
1.3.3 Flink生态圈
1.4 基于大数据组件的平台架构
第2章 部署大数据环境
2.1 准备大数据平台环境
2.1.1 安装Linux操作系统
2.1.2 配置Linux环境
2.2 部署Hadoop环境
2.2.1 Hadoop的目录结构
2.2.2 部署Hadoop本地模式
2.2.3 部署Hadoop伪分布模式
2.2.4 部署Hadoop全分布模式
2.3 部署 Spark环境
2.3.1 部署Spark伪分布模式
2.3.2 部署Spark全分布模式
2.4 部署Flink环境
2.4.1 部署Flink伪分布模式
2.4.2 部署Flink全分布模式
2.5 大数据体系的单点故障问题
第3章 HDFS
3.1 HDFS体系架构详解
3.1.1 NameNode
3.1.2 DataNode
3.1.3 SecondaryNameNode
3.2 使用不同方式操作HDFS
3.2.1 HDFS令令行
3.2.2 Java API
3.2.3 Web Console
3.3 HDFS的 特性
3.3.1 回收站
3.3.2 快照
3.3.3 配额管理
3.3.4 安全模式
3.3.5 权限管理
3.4 联盟
3.4.1 联盟概述
3.4.2 联盟的架构
3.4.3 部署联盟
3.5 HDFS的底层通信方式RPC