《Spark与Hadoop大数据分析文卡特·安卡姆大数据技术丛书机械工业》[85M]百度网盘|pdf下载|亲测有效
《Spark与Hadoop大数据分析文卡特·安卡姆大数据技术丛书机械工业》[85M]百度网盘|pdf下载|亲测有效

Spark与Hadoop大数据分析文卡特·安卡姆大数据技术丛书机械工业 pdf下载

出版社 学源图书专营店
出版年 2025
页数 390页
装帧 精装
评分 9.3(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供Spark与Hadoop大数据分析文卡特·安卡姆大数据技术丛书机械工业电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

基本信息

书    名

    Spark与Hadoop大数据分析 

外文书名

  

出版社

  机械工业出版社

作    者

  [美]文卡特·安卡姆(Venkat Ankam)  

定   价 

  59.00元

出版时间

   2017-07-01

I S B N

  9787111569411

套装书

   否

引*版

  否

装    帧

   平装

版    次

 1

字    数

 

配套资源  

页    数

  234

开    本

  16开

内容简介

本书比较系统地讲解了利用Hadoop和Spark及其生态系统里的一系列工具*行大数据分析的方法,既涵盖ApacheSpark和Hadoop的基础知识,又深入探讨所有Spark组件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、MapReduce和Yarn)等,并配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考。全书共10章,第1章从宏观的角度讲解大数据分析的概念,并介绍在Hadoop和Spark平台上使用的工具和技术,以及一些*常见的用例;第2章介绍Hadoop和Spark平台的基础知识;第3章深入探讨并学习Spark;第4章主要介绍DataSourcesAPI、DataFrameAPI和新的DatasetAPI;第5章讲解如何用SparkStreaming*行实时分析;第6章介绍Spark和Hadoop配套的笔记本和数据流;第7章讲解Spark和Hadoop上的机器学习技术;第8章介绍如何构建推荐系统;第9章介绍如何使用GraphX*行图分析;第10章介绍如何使用SparkR。

目    录

译者序

前言
第1章 从宏观视角看大数据分析1
1.1大数据分析以及Hadoop和Spark在其中承担的角色3
1.1.1典型大数据分析项目的生命周期4
1.1.2Hadoop和Spark承担的角色6
1.2大数据科学以及Hadoop和Spark在其中承担的角色6
1.2.1从数据分析到数据科学的根本性转变6
1.2.2典型数据科学项目的生命周期8
1.2.3Hadoop和Spark承担的角色9
1.3工具和技术9
1.4实际环境中的用例11
1.5小结12
第2章Apache Hadoop和Apache Spark入门13
2.1Apache Hadoop概述13
2.1.1Hadoop分布式文件系统14
2.1.2HDFS的特性15
2.1.3MapReduce 16
2.1.4MapReduce的特性17
2.1.5MapReduce v1与MapReduce v2对比17
2.1.6YARN 18
2.1.7Hadoop上的存储选择20
2.2Apache Spark概述24
2.2.1Spark的发展历史24
2.2.2Apache Spark是什么25
2.2.3Apache Spark不是什么26
2.2.4MapReduce的问题27
2.2.5Spark的架构28
2.3为何把Hadoop和Spark结合使用31
2.3.1Hadoop的特性31
2.3.2Spark的特性31
2.4安装Hadoop和Spark集群33
2.5小结36
第3章 深入剖析Apache Spark 37
3.1启动Spark守护*程37
3.2学习Spark的核心概念39
3.3Spark程序的生命周期55
3.4Spark应用程序59
3.5持久化与缓存62
3.6Spark资源管理器:Standalone、YARN和Mesos 63
3.7小结67
第4章 利用Spark SQL、Data-Frame和Dataset*行大数据分析69
4.1Spark SQL的发展史70
4.2Spark SQL的架构71
4.3介绍Spark SQL的四个组件72
4.4DataFrame和Dataset的演变74
4.5为什么要使用Dataset和DataFrame 75
4.6何时使用RDD、Dataset和DataFrame 78
4.7利用DataFrame*行分析78
4.8利用Dataset API*行分析85
4.9Data Sources API 87
4.10把Spark SQL作为分布式SQL引擎97
4.11Hive on Spark 100
4.12小结100
第5章 利用Spark Streaming和Structured Streaming*行实时分析102
5.1实时处理概述103
5.2Spark Streaming的架构104
5.3Spark Streaming的变换和动作109
5.4输入数据源和输出存储111
5.5使用Kafka和HBase的Spark Streaming 113
5.6Spark Streaming的高级概念118
5.7监控应用程序122
5.8结构化流概述123
5.9小结129
第6章 利用Spark和Hadoop的笔记本与数据流130
6.1基于网络的笔记本概述130
6.2Jupyter概述131
6.3Apache Zeppelin概述135
6.4Livy REST作业服务器和Hue笔记本140
6.5用于数据流的Apache NiFi概述148
6.6小结152
第7章 利用Spark和Hadoop*行机器学习153
7.1机器学习概述153
7.2在Spark和Hadoop上*行机器学习154
7.3机器学习算法155
7.4机器学习算法示例160
7.5构建机器学习流水线163
7.6利用H2O和Spark*行机器学习167
7.7Hivemall概述169
7.8Hivemall for Spark概述170
7.9小结170
第8章 利用Spark和Mahout构建推荐系统171
8.1构建推荐系统171
8.2推荐系统的局限性173
8.3用MLlib实现推荐系统173
8.4Mahout和Spark的集成181
8.5小结189
第9章 利用GraphX*行图分析190
9.1图处理概述190
9.2GraphX入门193
9.3利用GraphX分析航班数据205
9.4GraphFrames概述209
9.5小结212
第10章 利用SparkR*行交互式分析213
10.1R语言和SparkR概述213
10.2SparkR入门216
10.3在SparkR里使用DataFrame 223
10.4在RStudio里使用SparkR 228
10.5利用SparkR*行机器学习230
10.6在Zeppelin里使用SparkR 233
10.7小结234