3本 Spark快速大数据分析+Hive编程指南+Hadoop数据分析pdf下载pdf下载

3本 Spark快速大数据分析+Hive编程指南+Hadoop数据分析百度网盘pdf下载

作者:
简介:本篇主要提供3本 Spark快速大数据分析+Hive编程指南+Hadoop数据分析pdf下载
出版社:
出版时间:2018-05
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍


..........


9787115403094

9787115479648

9787115333834



内容简介

  《Spark快速大数据分析》由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。

目录

推荐序  xi


译者序  xiv


序  xvi


前言  xvii


第1章 Spark数据分析导论  1


1.1 Spark是什么  1


1.2 一个大一统的软件栈  2


1.2.1 Spark Core  2


1.2.2 Spark SQL  3


1.2.3 Spark Streaming  3


1.2.4 MLlib  3


1.2.5 GraphX  3


1.2.6 集群管理器  4

........



内容简介

通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,* 一部分从非常高的层次介绍分布式计算,讨论如何在集群上运行计算;* 二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。

作者简介

Benjamin Bengfort,数据科学家,目前正在马里兰大学攻读博士学位,方向为机器学习和分布式计算;熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。

 

Jenny Kim,经验丰富的大数据工程师,不仅进行商业软件的开发,在学术界也有所建树,在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前任职于Cloudera的Hue团队。

目录

前言 ix

 

* 一部分 分布式计算入门

 

* 1章 数据产品时代 2

 

1.1 什么是数据产品 2

 

1.2 使用Hadoop构建大规模数据产品 4

 

1.2.1 利用大型数据集 4

 

1.2.2 数据产品中的Hadoop 5

 

1.3 数据科学流水线和Hadoop生态系统 6

 

1.4 小结 8

 

* 2 章 大数据操作系统 9

 

2.1 基本概念 10

 

2.2 Hadoop架构 11

 

2.2.1 Hadoop集群 12

 

...


内容简介

  《Hive编程指南》是一本ApacheHive的编程指南,旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。《Hive编程指南》通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,演示Hive如何在Hadoop生态系统进行工作。


  《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。

目录

第1章 基础知识


1.1 Hadoop和MapReduce综述


1.2 Hadoop生态系统中的Hive


1.2.1 Pig


1.2.2 HBase


1.2.3 Cascading、Crunch及其他


1.3 Java和Hive:词频统计算法


1.4 后续事情



第2章 基础操作


2.1 安装预先配置好的虚拟机


2.2 安装详细步骤


2.2.1 装Java

.....................................