前言随着物联网、移动互联网、智能终端、Web 2.0和云计算等新兴信息技术的快速发展,以社交网络、社区、博客和电子商务为代表的新型应用得到广泛使用,这些应用不断产生大量的数据。人们希望了解大数据中所隐含的有价值的知识和数据间有价值的潜在联系,“数据挖掘”是实现这些期盼的有力工具。
数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏的、被忽略的因素,因而被认为是在这个数据爆炸时代深层次认识数据、有效利用数据的一种有效方法。
Python具有开源、简洁易读、快速上手、多场景应用以及完善的生态和服务体系等优点,使其在数据挖掘领域中的地位显得尤为突出,Python已经当仁不让地成为了数据挖掘人员的一把“利器”。
1. 本书编写特色
内容系统全面: 全面介绍数据挖掘的经典和主流算法。
原理浅显易懂: 循序渐进阐述各类数据挖掘算法原理。
配套视频教程: 提供配套视频讲解数据挖掘算法实现。
算法代码实现: 使用Python 3.6.x实现书中所有算法。
2. 本书内容组织
第1章绪论。本章主要讲解什么是数据挖掘以及数据挖掘的相关概念。先讲解数据挖掘的相关概念,以及数据挖掘算法的分类。然后,讲解数据挖掘的步骤,以及数据挖掘的两种典型应用。最后,讲解数据挖掘面临的主要挑战。
第2章pandas数据处理。本章主要讲解pandas数据处理库。先对pandas的一维数组型的Series数据结构和二维表格型的DataFrame数据结构进行讲解。然后讲解DataFrame对象的基本运算,具体包括数据筛选、数据预处理、数据运算与排序、数学统计、数据分组与聚合。接着,讲解pandas数据可视化。最后,讲解了pandas读写csv文件、读取txt文件、读写Excel文件。
第3章认识数据。先讲解数据类型,具体包括属性类型和数据对象的类型。然后讲解数据质量分析,具体包括缺失值分析、异常值分析、一致性分析。最后,讲解数据特征分析,具体包括分布特征、统计量特征、周期性特征和相关性特征。
第4章数据预处理。先讲解数据清洗,具体包括缺失值处理、噪声数据处理。接着,讲解数据集成,具体包括实体识别、属性冗余处理、元组重复处理、属性值冲突处理,数据规范化。然后,讲解数据离散化。之后讲解数据归约,具体包括过滤法归约、包装法归约、嵌入法归约。最后,讲解主成分分析法和线性判别分析法两种数据降维方法。
第5章决策树分类。先讲解数据对象间的相似性和相异性的度量。然后,讲解分类的相关概念和分类的一般流程。接着,讲解决策树分类的相关概念,ID3决策树的工作原理,以及C4.5决策树的工作原理。最后,讲解CART决策树。
第6章贝叶斯分类。先讲解概率基础和贝叶斯定理。然后,讲解朴素贝叶斯分类原理与分类流程。最后,讲解高斯朴素贝叶斯分类、多项式朴素贝叶斯分类、伯努利朴素贝叶斯分类。
第7章支持向量机分类。先讲解支持向量机分类原理。然后,讲解线性可分支持向量机的线性决策边界、线性分类器边缘、模型训练。最后,讲解sklearn机器学习库提供的三种支持向量机分类模型。
第8章感知器分类。先讲解人工神经元与激活函数。然后,讲解感知器模型和感知器学习算法。最后,讲解Python实现感知器学习算法和使用感知器分类鸢尾花数据。
第9章回归。先讲解回归的相关概念。然后,讲解一元线性回归方程的参数求解过程,多元线性回归方程的参数求解过程,以及非线性回归方程的参数求解过程。最后,讲解逻辑回归。
第10章聚类。先讲解聚类的相关概念、聚类方法类型、聚类应用领域。然后,讲解k均值聚类原理,并给出鸢尾花k均值聚类的Python实现。接着,讲解层次聚类原理,并给出凝聚层次聚类的Python实现、BIRCH聚类的Python实现。最后,讲解密度聚类原理,并给出DBSCAN密度聚类的Python实现。
第11章关联规则挖掘。先讲解关联规则的相关概念、关联规则类型。接着,讲解频繁项集产生的先验原理、Apriori算法产生频繁项集的过程,并给出频繁项集及其支持度的Python实现。然后,讲解关联规则产生的原理,并给出Apriori算法产生关联规则的方式及其算法实现。最后,讲解构建FP树,并给出FP树的挖掘过程。
第12章推荐系统。先讲解推荐系统的相关概念、推荐系统的类型。接着,讲解基于内容的推荐,并给出基于内容的推荐的Python实现。然后,讲解基于用户的协同过滤推荐,并给出基于用户的协同过滤推荐的Python实现。最后,讲解基于物品的协同过滤推荐,并给出基于物品的协同过滤推荐的Python实现。
第13章电商评论网络爬取与情感分析。先讲解网页的概念、网络爬虫的工作流程。然后,讲解如何使用BeautifulSoup库提取网页信息。接着,讲解如何使用urllib库编写简单的网络爬虫,以及爬取京东小米手机评论的整个过程。最后,讲解对手机评论文本进行情感分析。
3. 本书适用范围
(1) 高等院校各专业的数据挖掘、数据分析课程教材。
(2) 数据挖掘、数据分析人员的参考书。
在本书编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,在此表示感谢。
在本书的撰写过程中,参考了大量专业书籍和网络资料,在此向这些作者表示感谢。
参与本书编写的有曹洁、邓璐娟、郝水侠、刘字、李现伟、崔霄、郑倩、张世征、李祖贺。
由于编写时间仓促,编者水平有限,书中肯定会有不少缺点和不足,热切期望得到专家和读者的批评指正,在此表示感谢。您如果遇到任何问题,或有更多的宝贵意见,欢迎发送邮件至邮箱bailj@tup.com.cn,期待能够收到您的真挚反馈。
编者2021年2月