前 言
PySpark是Apache Spark为Python开发人员提供的编程API接口,以便开发人员用Python语言对大数据进行分布式处理,可降低大数据处理的门槛。
PySpark优势有哪些?首先PySpark是基于Python语言的,简单易学。其次,PySpark可以非常方便地对大数据进行处理,其中可用SQL方便地从Hadoop、Hive及其他文件系统中读取数据并进行统计分析。最后,PySpark编写的大数据处理程序,容易维护,且部署方便。
PySpark可以从多种数据源中读取数据,并可以对数据进行统计分析和处理,其中包括批处理、流处理、图计算和机器学习模型构建等。它还可以将数据处理的结果持久化到多种文件系统中,为大数据UI展现提供数据支持。PySpark比Java/Scala更容易学习,借助IDE开发工具,可以非常方便地进行代码编写和调试。
如果你对大数据处理有一定兴趣,了解基本的编程知识,立志构建大数据处理的相关应用,那么本书将适合你。本书作为PySpark的入门教材,由浅入深地对PySpark大数据处理方法进行介绍,特别对常用的操作、ETL处理和机器学习进行详细的说明,最后结合实战项目将各个知识点有机整合,做到理论联系实际。
本书特点
(1)理论联系实际,先从大数据基本概念出发,然后对Hadoop生态、Spark架构和部署方式等知识点进行讲解,并结合代码进行阐述,最后通过一个实战项目来说明如何从头到尾搭建一个实时的大数据处理演示程序。
(2)深入浅出、轻松易学,以实例为主线,激发读者的阅读兴趣,让读者能够真正学习到PySpark最实用、最前沿的技术。
(3)技术新颖、与时俱进,结合时下最热门的技术,如Spark、Python和机器学习等,让读者在学习PySpark的同时,熟悉更多相关的先进技术。
(4)贴心提醒,本书根据需要在各章使用了很多“注意”小栏目,让读者可以在学习过程中更轻松地理解相关知识点及概念。
源码下载
本书配套的源码,请用微信扫描右边二维码获取(可以击页面上的“推送到我的邮箱”,填入自己的邮箱,到邮箱中下载)。如果阅读中存在疑问,请联系booksaga@163.com,邮件主题为“Python大数据处理库PySpark实战”。
本书运行环境说明
本书使用的系统为Windows 7宿主操作系统上安装VMware Workstation 15.5,再安装CentOS 7。PySpark运行环境搭建在CentOS 7上。读者学习本书需要有CentOS 7系统管理的基础知识。
本书读者
有一定Python编程基础的初学者
大数据处理与分析人员
从事后端开发,对大数据开发有兴趣的人员
想用Python构建大数据处理应用的人员
想要掌握大数据处理技术的高等院校师生
大数据技术培训学校的师生
本书作者
汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。
著者
2021年1月