Python数据挖掘技术及应用pdf下载pdf下载

Python数据挖掘技术及应用百度网盘pdf下载

作者:
简介:本篇主要提供Python数据挖掘技术及应用pdf下载
出版社:科技生活自营旗舰店
出版时间:2021-07
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

内容简介

  《Python数据挖掘技术及应用(微课版)/清华开发者书库·Python》特点:
  内容系统全面:
  全面介绍数据挖掘的经典和主流算法。
  原理浅显易懂:
  循序渐进阐述各类数据挖掘算法原理。
  配套视频教程:
  提供配套视频讲解数据挖掘算法实现。
  算法代码实现:
  使用Python3.6.2实现书中所有算法。
  配套资源丰富:
  配有教学课件、数据集和源代码。
  《Python数据挖掘技术及应用(微课版)/清华开发者书库·Python》是一本全面介绍数据挖掘技术的专业书籍,系统地阐述了数据挖掘的相关概念、原理、算法思想和算法的Python代码实现。
  《Python数据挖掘技术及应用(微课版)/清华开发者书库·Python》共分13章,各章相对独立成篇,以利于读者选择性学习。13章内容分别为绪论、pandas数据处理、认识数据、数据预处理、决策树分类、贝叶斯分类、支持向量机分类、感知器分类、回归、聚类、关联规则挖掘、推荐系统、电商评论网络爬取与情感分析。
  《Python数据挖掘技术及应用(微课版)/清华开发者书库·Python》可作为高等院校计算机科学与技术、数据科学与大数据及相关专业的数据挖掘、数据分析课程教材,亦可作为数据挖掘、数据分析人员的参考书。

作者简介

曹洁 男,博士,现为郑州轻工业大学软件学院校聘副教授。主讲《Python语言程序设计》、《数据挖掘》。主编出版《Python语言程序设计》、《Python数据分析》、《大数据技术》等多本教材。

内页插图

精彩书评

  ★本书选择的案例涵盖了主要的数据挖掘技术,给出的Python数据挖掘代码可以方便地复制或者改编后应用于自己的实际问题中,以该书作为基础进阶相当合适。
  ——王伟,华东师范大学数据科学与工程学院计算机科学教育教学部主任、博士生导师
  
  ★本书内容翔实,通俗易懂,涉及面广。对医工交叉和需要融合数据挖掘领域的读者而言,本书是一个难得的宝库,对培养新时期复合型创新人才很有帮助。
  ——许金超,上海交通大学中国医院发展研究院医学智能发展研究所总工程师
  
  ★数据挖掘领域,Python是目前非常广泛使用的编程语言。本书虽然定位为一本数据挖掘入门读物,但书中的数据挖掘与分析思想对其他行业来说也具备较高的参考价值。
  ——胡克坤,浪潮高效能服务器和存储技术国家重点实验室体系结构研究部研究员

目录

目录




第1章绪论1

1.1数据挖掘的相关概念1

1.2数据挖掘的步骤2

1.3数据挖掘的典型应用3

1.3.1数据挖掘在市场营销中的应用3

1.3.2数据挖掘在企业危机管理中的应用3

1.4数据挖掘的主要挑战3

1.4.1数据挖掘查询语言3

1.4.2用户交互4

1.4.3并行、分布和增量挖掘算法4

1.4.4数据类型的多样化4

1.5本章小结5

第2章pandas数据处理6

2.1Series对象6

2.1.1Series对象的创建6

2.1.2Series对象的属性8

2.1.3Series对象的查看和修改8

2.2Series对象的基本运算9

2.2.1算术运算与函数运算9

2.2.2Series对象之间的运算10

2.3DataFrame对象10

2.3.1DataFrame对象的创建10

2.3.2DataFrame对象的属性12

2.3.3查看和修改DataFrame对象的元素14

2.3.4判断元素是否属于DataFrame对象16

2.4DataFrame对象的基本运算17

2.4.1数据筛选17

2.4.2数据预处理19

2.4.3数据运算与排序33

2.4.4数学统计38

2.4.5数据分组与聚合44

2.5pandas数据可视化51

2.5.1绘制折线图52

2.5.2绘制条形图53

2.6pandas读写数据55

2.6.1读写csv文件56

2.6.2读取txt文件59

2.6.3读写Excel文件60

2.7本章小结64

第3章认识数据65

3.1数据类型65

3.1.1属性类型65

3.1.2数据集的类型66

3.2数据质量分析67

3.2.1缺失值分析68

3.2.2异常值分析69

3.2.3一致性分析72

3.3数据特征分析72

3.3.1分布特征72

3.3.2统计量特征73

3.3.3周期性特征78

3.3.4相关性特征80

3.4本章小结81

第4章数据预处理82

4.1数据清洗82

4.1.1处理缺失值82

4.1.2噪声数据处理89

4.2数据集成90

4.2.1实体识别问题90

4.2.2属性冗余问题91

4.2.3元组重复问题91

4.2.4属性值冲突问题92

4.3数据规范化92

4.3.1最小最大规范化92

4.3.2z分数规范化94

4.3.3小数定标规范化94

4.4数据离散化94

4.4.1无监督离散化95

4.4.2监督离散化96

4.5数据归约96

4.5.1过滤法97

4.5.2包装法99

4.5.3嵌入法99

4.6数据降维100

4.6.1主成分分析法101

4.6.2线性判别分析法101

4.7学生考试成绩预处理102

4.8本章小结106

第5章决策树分类107

5.1相似性和相异性的度量107

5.1.1数据对象之间的相异度107

5.1.2数据对象之间的相似度109

5.2分类概述111

5.2.1分类的基本概念111

5.2.2分类的一般流程112

5.3决策树分类概述113

5.3.1决策树的工作原理113

5.3.2选择最佳划分属性的度量117

5.3.3决策树分类待测样本的过程120

5.4ID3决策树120

5.4.1ID3决策树的工作原理120

5.4.2Python实现ID3决策树122

5.4.3使用ID3决策树预测贷款申请130

5.4.4ID3决策树的缺点131

5.5C4.5决策树的分类算法131

5.5.1C4.5决策树的工作原理131

5.5.2Python实现C4.5决策树133

5.5.3使用C4.5决策树预测鸢尾花类别139

5.6CART决策树139

5.6.1CART决策树的工作原理139

5.6.2Python实现CART决策树139

5.7本章小结143

第6章贝叶斯分类144

6.1贝叶斯定理144

6.1.1概率基础144

6.1.2贝叶斯定理简介146

6.1.3先验概率与后验概率147

6.2朴素贝叶斯分类的原理与分类流程147

6.2.1贝叶斯分类原理147

6.2.2朴素贝叶斯分类的流程147

6.3高斯朴素贝叶斯分类150

6.3.1scikitlearn实现高斯朴素贝叶斯分类150

6.3.2Python实现iris高斯朴素贝叶斯分类151

6.4多项式朴素贝叶斯分类156

6.5伯努利朴素贝叶斯分类157

6.6本章小结157

第7章支持向量机分类158

7.1支持向量机概述158

7.1.1支持向量机的分类原理158

7.1.2最大边缘超平面158

7.2线性支持向量机159

7.2.1线性决策边界159

7.2.2线性分类器边缘160

7.2.3训练线性支持向量机模型161

7.3Python实现支持向量机163

7.3.1SVC支持向量机分类模型164

7.3.2NuSVC支持向量机分类模型166

7.3.3LinearSVC支持向量机分类模型167

7.4本章小结168

第8章感知器分类169

8.1人工神经元169

8.1.1神经元概述169

8.1.2激活函数170

8.2感知器171

8.2.1感知器模型171

8.2.2感知器学习算法172

8.3Python实现感知器学习算法概述174

8.3.1Python实现感知器学习算法174

8.3.2使用感知器分类鸢尾花数据175

8.4本章小结177

第9章回归178

9.1回归概述178

9.1.1回归的概念178

9.1.2回归处理流程178

9.1.3回归的分类178

9.2一元线性回归178

9.2.1一元线性回归模型178

9.2.2使用一元线性回归预测房价182

9.3多元线性回归185

9.3.1多元线性回归模型185

9.3.2使用多元线性回归分析广告媒介与销售额之间的关系187

9.3.3多元线性回归模型预测电能输出188

9.4非线性回归191

9.4.1多项式回归191

9.4.2非多项式的非线性回归195

9.5逻辑回归198

9.5.1逻辑回归模型199

9.5.2对鸢尾花数据进行逻辑回归分析201

9.6本章小结203

第10章聚类204

10.1聚类概述204

10.1.1聚类的概念204

10.1.2聚类方法类型205

10.1.3聚类应用领域206

10.2k均值聚类206

10.2.1k均值聚类的原理206

10.2.2Python实现对鸢尾花的k均值聚类208

10.3层次聚类方法211

10.3.1层次聚类的原理211

10.3.2Python实现凝聚层次聚类214

10.3.3BIRCH聚类的原理217

10.3.4Python实现BIRCH聚类220

10.4密度聚类221

10.4.1密度聚类的原理221

10.4.2Python实现DBSCAN密度聚类224

10.5本章小结227

第11章关联规则挖掘228

11.1关联规则挖掘概述228

11.1.1购物篮分析228

11.1.2关联规则相关概念229

11.1.3关联规则类型231

11.2频繁项集的产生232

11.2.1先验原理233

11.2.2Apriori算法产生频繁项集233

11.2.3候选项集的产生与剪枝236

11.2.4频繁项集及其支持度的Python实现237

11.3关联规则的产生239

11.3.1关联规则产生的原理239

11.3.2Apriori算法产生关联规则的方式240

11.3.3频繁项集的紧凑表示241

11.4FP增长算法242

11.4.1构建FP树243

11.4.2FP树的挖掘245

11.5本章小结247

第12章推荐系统248

12.1推荐系统的概念248

12.1.1基本概念248

12.1.2推荐系统的类型249

12.2基于内容的推荐250

12.2.1文本表示251

12.2.2文本相似度257

12.2.3Python实现基于内容的推荐258

12.3基于用户的协同过滤推荐261

12.3.1收集用户偏好262

12.3.2寻找相似的用户262

12.3.3为相似的用户推荐商品266

12.4基于物品的协同过滤推荐267

12.4.1获取用户对物品的评分267

12.4.2计算物品共同出现的次数和一个物品被多少个用户购买268

12.4.3计算物品之间的相似度268

12.4.4给用户推荐物品269

12.5本章小结270

第13章电商评论网络爬取与情感分析271

13.1网络爬虫概述271

13.1.1网页的概念271

13.1.2网络爬虫的工作流程271

13.2使用BeautifulSoup库提取网页信息272

13.2.1BeautifulSoup的安装272

13.2.2BeautifulSoup库的导入272

13.2.3BeautifulSoup类的基本元素273

13.2.4HTML内容搜索274

13.3使用urllib库编写简单的网络爬虫277

13.3.1发送不带参数的GET请求277

13.3.2模拟浏览器发送带参数的GET请求278

13.3.3URL解析279

13.4爬取京东小米手机评论280

13.4.1京东网站页面分析280

13.4.2编写京东小米手机评论爬虫代码283

13.5对手机评论文本进行情感分析286

13.5.1文本情感倾向分析的层次286

13.5.2中文文本情感倾向分析287

13.5.3评论文本情感倾向分析288

13.5.4评论文本分词290

13.5.5去除停用词291

13.5.6评论文本的LDA主题分析292

13.6本章小结297

参考文献298


前言/序言

前言随着物联网、移动互联网、智能终端、Web 2.0和云计算等新兴信息技术的快速发展,以社交网络、社区、博客和电子商务为代表的新型应用得到广泛使用,这些应用不断产生大量的数据。人们希望了解大数据中所隐含的有价值的知识和数据间有价值的潜在联系,“数据挖掘”是实现这些期盼的有力工具。

数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏的、被忽略的因素,因而被认为是在这个数据爆炸时代深层次认识数据、有效利用数据的一种有效方法。

Python具有开源、简洁易读、快速上手、多场景应用以及完善的生态和服务体系等优点,使其在数据挖掘领域中的地位显得尤为突出,Python已经当仁不让地成为了数据挖掘人员的一把“利器”。

1. 本书编写特色

内容系统全面: 全面介绍数据挖掘的经典和主流算法。

原理浅显易懂: 循序渐进阐述各类数据挖掘算法原理。

配套视频教程: 提供配套视频讲解数据挖掘算法实现。

算法代码实现: 使用Python 3.6.x实现书中所有算法。

2. 本书内容组织

第1章绪论。本章主要讲解什么是数据挖掘以及数据挖掘的相关概念。先讲解数据挖掘的相关概念,以及数据挖掘算法的分类。然后,讲解数据挖掘的步骤,以及数据挖掘的两种典型应用。最后,讲解数据挖掘面临的主要挑战。

第2章pandas数据处理。本章主要讲解pandas数据处理库。先对pandas的一维数组型的Series数据结构和二维表格型的DataFrame数据结构进行讲解。然后讲解DataFrame对象的基本运算,具体包括数据筛选、数据预处理、数据运算与排序、数学统计、数据分组与聚合。接着,讲解pandas数据可视化。最后,讲解了pandas读写csv文件、读取txt文件、读写Excel文件。

第3章认识数据。先讲解数据类型,具体包括属性类型和数据对象的类型。然后讲解数据质量分析,具体包括缺失值分析、异常值分析、一致性分析。最后,讲解数据特征分析,具体包括分布特征、统计量特征、周期性特征和相关性特征。

第4章数据预处理。先讲解数据清洗,具体包括缺失值处理、噪声数据处理。接着,讲解数据集成,具体包括实体识别、属性冗余处理、元组重复处理、属性值冲突处理,数据规范化。然后,讲解数据离散化。之后讲解数据归约,具体包括过滤法归约、包装法归约、嵌入法归约。最后,讲解主成分分析法和线性判别分析法两种数据降维方法。

第5章决策树分类。先讲解数据对象间的相似性和相异性的度量。然后,讲解分类的相关概念和分类的一般流程。接着,讲解决策树分类的相关概念,ID3决策树的工作原理,以及C4.5决策树的工作原理。最后,讲解CART决策树。

第6章贝叶斯分类。先讲解概率基础和贝叶斯定理。然后,讲解朴素贝叶斯分类原理与分类流程。最后,讲解高斯朴素贝叶斯分类、多项式朴素贝叶斯分类、伯努利朴素贝叶斯分类。

第7章支持向量机分类。先讲解支持向量机分类原理。然后,讲解线性可分支持向量机的线性决策边界、线性分类器边缘、模型训练。最后,讲解sklearn机器学习库提供的三种支持向量机分类模型。

第8章感知器分类。先讲解人工神经元与激活函数。然后,讲解感知器模型和感知器学习算法。最后,讲解Python实现感知器学习算法和使用感知器分类鸢尾花数据。

第9章回归。先讲解回归的相关概念。然后,讲解一元线性回归方程的参数求解过程,多元线性回归方程的参数求解过程,以及非线性回归方程的参数求解过程。最后,讲解逻辑回归。

第10章聚类。先讲解聚类的相关概念、聚类方法类型、聚类应用领域。然后,讲解k均值聚类原理,并给出鸢尾花k均值聚类的Python实现。接着,讲解层次聚类原理,并给出凝聚层次聚类的Python实现、BIRCH聚类的Python实现。最后,讲解密度聚类原理,并给出DBSCAN密度聚类的Python实现。

第11章关联规则挖掘。先讲解关联规则的相关概念、关联规则类型。接着,讲解频繁项集产生的先验原理、Apriori算法产生频繁项集的过程,并给出频繁项集及其支持度的Python实现。然后,讲解关联规则产生的原理,并给出Apriori算法产生关联规则的方式及其算法实现。最后,讲解构建FP树,并给出FP树的挖掘过程。

第12章推荐系统。先讲解推荐系统的相关概念、推荐系统的类型。接着,讲解基于内容的推荐,并给出基于内容的推荐的Python实现。然后,讲解基于用户的协同过滤推荐,并给出基于用户的协同过滤推荐的Python实现。最后,讲解基于物品的协同过滤推荐,并给出基于物品的协同过滤推荐的Python实现。

第13章电商评论网络爬取与情感分析。先讲解网页的概念、网络爬虫的工作流程。然后,讲解如何使用BeautifulSoup库提取网页信息。接着,讲解如何使用urllib库编写简单的网络爬虫,以及爬取京东小米手机评论的整个过程。最后,讲解对手机评论文本进行情感分析。

3. 本书适用范围

(1) 高等院校各专业的数据挖掘、数据分析课程教材。

(2) 数据挖掘、数据分析人员的参考书。

在本书编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,在此表示感谢。

在本书的撰写过程中,参考了大量专业书籍和网络资料,在此向这些作者表示感谢。

参与本书编写的有曹洁、邓璐娟、郝水侠、刘字、李现伟、崔霄、郑倩、张世征、李祖贺。

由于编写时间仓促,编者水平有限,书中肯定会有不少缺点和不足,热切期望得到专家和读者的批评指正,在此表示感谢。您如果遇到任何问题,或有更多的宝贵意见,欢迎发送邮件至邮箱bailj@tup.com.cn,期待能够收到您的真挚反馈。


编者2021年2月