本篇主要提供Python机器学习算法与实战电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
本书基于Python语言,结合实际的数据集,介绍如何使用机器学习与深度学习算法,对数据进行实战分析。本书在内容上循序渐进,先介绍了Python的基础内容,以及如何利用Python中的第三方库对数据进行预处理和探索可视化的相关操作,然后结合实际数据集,分章节介绍了机器学习与深度学习的相关算法应用。本书为读者提供了源程序和使用的数据集,方便读者在阅读时同步运行程序,在增强学习效果的同时为读者节省了编写程序的时间。源程序使用Notebook的形式进行组织,每个小节注释清晰,讲解透彻。同时为程序配备了相应的视频讲解,辅助读者对程序能很好地理解和消化。本书在简明扼要地介绍算法原理的同时, 加注重实战应用和对结果的解读。
余本国,博士,硕士研究生导师。2001年毕业于石河子大学数学系,同年到中北大学(原华北工学院)任教,主讲线性代数、高等数学、微积分、概率统计、数学实验、Python语言、大数据分析基础等课程。2012年到加拿大York University做访问学者。现工作于海南医学院生物医学信息与工程学院。作品有《Python数据分析基础》《基于Python的大数据分析基础及实战》等书。
第1章 Python机器学习入门1
1.1 机器学习简介1
1.1.1 机器学习是什么1
1.1.2 机器学习算法分类2
1.2 安装Anaconda(Python)6
1.2.1 Spyder7
1.2.2 Jupyter Notebook8
1.2.3 JupyterLab8
1.3 Python快速入门10
1.3.1 列表、元组和字典10
1.3.2 条件判断、循环和函数15
1.4 Python基础库入门实战18
1.4.1 NumPy库应用入门18
1.4.2 pandas库应用入门25
1.4.3 Matplotlib库应用入门34
1.5 机器学习模型初探40
1.6 本章小结43
第2章 数据探索与可视化44
2.1 缺失值处理45
2.1.1 简单的缺失值处理方法46
2.1.2 复杂的缺失值填充方法52
2.2 数据描述与异常值发现55
2.2.1 数据描述统计55
2.2.2 发现异常值的基本方法61
2.3 可视化分析数据关系63
2.3.1 连续变量间关系可视化分析63
2.3.2 分类变量间关系可视化分析68
2.3.3 连续变量和分类变量间关系可视化分析71
2.3.4 其他类型数据可视化分析77
2.4 数据样本间的距离80
2.5 本章小结84
第3章 特征工程86
3.1 特征变换87
3.1.1 数据的无量纲化处理87
3.1.2 数据特征变换93
3.2 特征96
3.2.1 分类特征重新编码97
3.2.2 数值特征重新编码98
3.2.3 文本数据的特征构建102
3.3 特征选择105
3.3.1 基于统计方法106
3.3.2 基于递归消除特征法107
3.3.3 基于机器学习的方法108
3.4 特征提取和降维109
3.4.1 主成分分析109
3.4.2 核主成分分析111
3.4.3 流形学习113
3.4.4 t-SNE114
3.4.5 多维尺度分析115
3.5 数据平衡方法116
3.5.1 基于过采样算法117
3.5.2 基于欠采样算法119
3.5.3 基于过采样和欠采样的综合算法121
3.6 本章小结122
第4章 模型选择和评估124
4.1 模型拟合效果124
4.1.1 欠拟合与过拟合表现方式124
4.1.2 避免欠拟合与过拟合的方法126
4.2 模型训练技巧127
4.2.1 交叉验证128
4.2.2 参数网络搜索132
4.3 模型的评价指标134
4.3.1 分类效果评价134
4.3.2 回归效果评价135
4.3.3 聚类效果评价137
4.4 本章小结138
第5章 假设检验和回归分析139
5.1 假设检验141
5.1.1 数据分布检验141
5.1.2 t检验144
5.1.3 方差分析145
5.2 一元回归149
5.2.1 一元线性回归149
5.2.2 一元非线性回归151
5.3 多元回归154
5.3.1 多元线性回归155
5.3.2 逐步回归161
5.3.3 多元自适应回归样条164
5.4 正则化回归分析166
5.4.1 Ridge回归分析169
5.4.2 LASSO回归分析172
5.4.3 弹性网络回归176
5.5 Logistic回归分析178
5.5.1 数据准备与可视化179
5.5.2 逻辑回归分类181
5.6 本章小结185
第6章 时间序列分析186
6.1 时间序列数据的相关检验187
6.1.1 白噪声检验188
6.1.2 平稳性检验189
6.1.3 自相关分析和偏自相关分析192
6.2 移动平均算法196
6.2.1 简单移动平均法197
6.2.2 简单指数平滑法198
6.2.3 霍尔特线性趋势法199
6.2.4 Holt-Winters季节性预测模型201
6.3 ARIMA模型202
6.3.1 AR模型202
6.3.2 ARMA模型205
6.3.3 ARIMA模型209
6.4 SARIMA模型213
6.5 Prophet模型预测时间序列215
6.5.1 数据准备216
6.5.2 模型建立与数据预测216
6.6 多元时间序列ARIMAX模型220
6.6.1 数据准备与可视化220
6.6.2 ARIMAX模型建立与预测223
6.7 时序数据的异常值检测227
6.7.1 数据准备与可视化228
6.7.2 时序数据异常值检测228
6.8 本章小结230
第7章 聚类算法与异常值检测232
7.1 模型简介232
7.1.1 常用的聚类算法232
7.1.2 常用的异常值检测算法234
7.2 数据聚类分析236
7.2.1 K-均值与K-中值聚类算法236
7.2.2 层次聚类243
7.2.3 谱聚类与模糊聚类245
7.2.4 密度聚类(DBSCAN)249
7.2.5 高斯混合模型聚类253
7.2.6 亲和力传播聚类255
7.2.7 BIRCH聚类258
7.3 数据异常值检测分析261
7.3.1 LOF和COF算法262
7.3.2 带有异常值的高维数据探索267
7.3.3 基于PCA与SOD的异常值检测方法270
7.3.4 孤立森林异常值检测274
7.3.5 支持向量机异常值检测276
7.4 本章小结279
第8章 决策树和集成学习280
8.1 模型简介与数据准备280
8.1.1 决策树与集成学习算法思想280
8.1.2 数据准备和探索284
8.2 决策树模型290
8.2.1 决策树模型数据分类291
8.2.2 决策树模型数据回归295
8.3 随机森林模型302
8.3.1 随机森林模型数据分类302
8.3.2 随机森林模型数据回归306
8.4 AdaBoost模型310
8.4.1 AdaBoost模型数据分类310
8.4.2 AdaBoost模型数据回归314
8.5 梯度提升树(GBDT)317
8.5.1 GBDT模型数据分类317
8.5.2 GBDT模型数据回归319
8.6 本章小结321
第9章 贝叶斯算法和K-近邻算法322
9.1 模型简介322
9.2 贝叶斯分类算法325
9.2.1 文本数据准备与可视化325
9.2.2 朴素贝叶斯文本分类327
9.3 贝叶斯网络数据分类334
9.3.1 自定义贝叶斯网络结构334
9.3.2 搜索所有网络结构336
9.3.3 启发式搜索网络结构339
9.4 K-近邻算法340
9.4.1 K-近邻数据分类340
9.4.2 K-近邻数据回归353
9.5 本章小节357
0章 支持向量机和人工神经网络358
10.1 模型简介358
10.2 支持向量机模型362
10.2.1 支持向量机数据分类363
10.2.2 支持向量机数据回归369
10.3 全连接神经网络模型374
10.3.1 单隐藏层全连接神经网络数据分类375
10.3.2 多隐藏层全连接神经网络数据分类379
10.3.3 全连接神经网络数据回归382
10.4 本章小结387
1章 关联规则与文本挖掘388
11.1 模型简介388
11.1.1 关联规则388
11.1.2 文本挖掘390
11.2 数据关联规则挖掘392
11.2.1 FPGrowth关联规则挖掘393
11.2.2 Apriori关联规则挖掘396
11.3 文本数据预处理403
11.3.1 英文文本预处理403
11.3.2 《三国演义》文本预处理406
11.4 文本聚类分析410
11.4.1 文本数据特征获取410
11.4.2 常用的聚类算法412
11.4.3 LDA主题模型416
11.5 《三国演义》人物关系分析422
11.5.1 人物重要性时序分析422
11.5.2 人物关系可视化分析425
11.6 本章小节429
2章 深度学习入门430
12.1 深度学习介绍431
12.1.1 卷积和池化431
12.1.2 卷积神经网络432
12.1.3 循环神经网络432
12.1.4 自编码网络433
12.2 PyTorch入门434
12.2.1 张量的使用434
12.2.2 常用的层438
12.3 卷积神经网络识别草书441
12.3.1 草书数据预处理与可视化441
12.3.2 ResNet18网络识别草书446
12.4 循环神经网络新闻分类452
12.4.1 数据准备452
12.4.2 LSTM网络文本分类454
12.5 自编码网络重构图像460
12.5.1 数据准备461
12.5.2 自编码网络重构手写数字462
12.6 本章小结467
参考文献468