Python大数据处理库PySpark实战pdf下载pdf下载

Python大数据处理库PySpark实战百度网盘pdf下载

作者:
简介:本篇主要提供Python大数据处理库PySpark实战pdf下载
出版社:清华大学出版社
出版时间:2021-02
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

内容简介

我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。

本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。

本书内容全面、示例丰富,可作为广大PySpark入门读者必备的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。


作者简介

汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。

前言/序言

前 言

PySpark是Apache Spark为Python开发人员提供的编程API接口,以便开发人员用Python语言对大数据进行分布式处理,可降低大数据处理的门槛。

PySpark优势有哪些?首先PySpark是基于Python语言的,简单易学。其次,PySpark可以非常方便地对大数据进行处理,其中可用SQL方便地从Hadoop、Hive及其他文件系统中读取数据并进行统计分析。最后,PySpark编写的大数据处理程序,容易维护,且部署方便。

PySpark可以从多种数据源中读取数据,并可以对数据进行统计分析和处理,其中包括批处理、流处理、图计算和机器学习模型构建等。它还可以将数据处理的结果持久化到多种文件系统中,为大数据UI展现提供数据支持。PySpark比Java/Scala更容易学习,借助IDE开发工具,可以非常方便地进行代码编写和调试。

如果你对大数据处理有一定兴趣,了解基本的编程知识,立志构建大数据处理的相关应用,那么本书将适合你。本书作为PySpark的入门教材,由浅入深地对PySpark大数据处理方法进行介绍,特别对常用的操作、ETL处理和机器学习进行详细的说明,最后结合实战项目将各个知识点有机整合,做到理论联系实际。

本书特点

(1)理论联系实际,先从大数据基本概念出发,然后对Hadoop生态、Spark架构和部署方式等知识点进行讲解,并结合代码进行阐述,最后通过一个实战项目来说明如何从头到尾搭建一个实时的大数据处理演示程序。

(2)深入浅出、轻松易学,以实例为主线,激发读者的阅读兴趣,让读者能够真正学习到PySpark最实用、最前沿的技术。

(3)技术新颖、与时俱进,结合时下最热门的技术,如Spark、Python和机器学习等,让读者在学习PySpark的同时,熟悉更多相关的先进技术。

(4)贴心提醒,本书根据需要在各章使用了很多“注意”小栏目,让读者可以在学习过程中更轻松地理解相关知识点及概念。

源码下载

本书配套的源码,请用微信扫描右边二维码获取(可以击页面上的“推送到我的邮箱”,填入自己的邮箱,到邮箱中下载)。如果阅读中存在疑问,请联系booksaga@163.com,邮件主题为“Python大数据处理库PySpark实战”。

本书运行环境说明

本书使用的系统为Windows 7宿主操作系统上安装VMware Workstation 15.5,再安装CentOS 7。PySpark运行环境搭建在CentOS 7上。读者学习本书需要有CentOS 7系统管理的基础知识。

本书读者

 有一定Python编程基础的初学者

 大数据处理与分析人员

 从事后端开发,对大数据开发有兴趣的人员

 想用Python构建大数据处理应用的人员

 想要掌握大数据处理技术的高等院校师生

 大数据技术培训学校的师生

本书作者

汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。



著者

2021年1月