Python数据挖掘实战pdf下载pdf下载

Python数据挖掘实战百度网盘pdf下载

作者:
简介:本篇主要提供Python数据挖掘实战pdf下载
出版社:电子工业出版社
出版时间:2021-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐

适读人群 :从事大数据、数据科学等领域的研究人员,计算机及相关专业高年级在校生

讲解每个算法的原理时,尽可能避免使用晦涩难懂的统计术语或模型公式。

在每个算法的后面演示一个实用的案例,方便大家理解和掌握每种算法的使用。

力求解决工作中的数据挖掘典型业务问题。


内容简介

从解决工作实际问题出发,提炼总结工作中Python 常用的数据处理、数据挖掘实战方法与技巧。本书通俗易懂地介绍数据挖掘过程中可能用到的回归模型、分类模型、聚类、关联、时间序列分析等技术。在不影响学习理解的前提下,尽可能地避免使用晦涩难懂的Python 编程、统计术语或模型公式。 本书定位是带领Python 数据分析初学者入门,并能解决学习、工作中大部分的问题或需求。入门后如还需要进一步进阶学习,可自行扩展阅读相关书籍或资料,学习是永无止境的,正所谓"师傅领进门,修行在个人”。

作者简介

方小敏,资深机器学习工程师;中山大学数字治理研究中心技术顾问;曾服务于腾讯等知名互联网企业,熟练掌握Python、R、Spark、Hive、TensorFlow等工具进行机器学习。《谁说菜鸟不会数据分析(Python篇)》作者。

精彩书评

整个社会步入大数据时代后,数据分析能力逐步成为每一个组织、个体需要的重要能力构成,也是日常工作、学习中基本的能力要求。

作者方小敏从业多年,在多家知名互联网公司担任资深数据挖掘工程师,在多个政府、企业和高校开展数据分析的系列讲座,对该领域有系统的认知和实操经验,能从初学者角度出发来对知识点进行清晰的梳理和讲解,为掌握和应用数据分析提供有效的方向和路径。

这本书涵盖基于Python数据挖掘的理论基础、回归分析、分类、特征工程、聚类、关联分析等,思路清晰、数据和案例丰富,是初学者学习数据挖掘的重要工具书。


郑跃平博士,中山大学副教授


目录

第1章 数据挖掘基础 /1
1.1 数据挖掘是什么 /1
1.1.1 数据挖掘算法的类型 /2
1.1.2 数据挖掘需要的技能 /4
1.1.3 数据挖掘的常见误区 /6
1.2 数据挖掘的常见问题 /8
1.2.1 预测问题 /9
1.2.2 分类问题 /9
1.2.3 聚类问题 /11
1.2.4 关联问题 /12
1.3 数据挖掘的标准流程 /13
1.3.1 商业理解 /14
1.3.2 数据理解 /14
1.3.3 数据准备 /14
1.3.4 模型构建 /15
1.3.5 模型评估 /15
1.3.6 模型部署 /15
1.4 数据分析和数据挖掘的区别 /16
1.4.1 数据分析 /16
1.4.2 数据挖掘 /17

第2章 回归模型 /18
2.1 回归模型简介 /18
2.2 相关分析 /20
2.2.1 依存关系 /20
2.2.2 相关系数的计算 /21
2.2.3 相关系数的方向与大小 /22
2.2.4 居民购物习惯相关分析案例 /23
2.3 简单线性回归分析 /25
2.3.1 线性回归方程解读 /25
2.3.2 使用最小二乘法求解回归方程 /26
2.3.3 使用广告投放费用预测销售额案例 /28
2.4 多重线性回归分析 /33
2.4.1 使用最小二乘法求解多重线性回归方程 /33
2.4.2 使用广告投放费用与客流量预测销售额案例 /36
2.5 一元非线性回归 /39
2.5.1 一元非线性回归模型 /39
2.5.2 一元非线性回归模型求解 /40
2.5.3 使用上线天数预测活跃用户数案例 /41

第3章 分类模型 /48
3.1 分类模型基础 /48
3.1.1 分类模型的建模五步骤 /49
3.1.2 分类模型评估指标 /50
3.1.3 K折交叉验证 /53
3.2 KNN模型 /54
3.2.1 KNN模型原理 /54
3.2.2 使用商户数据预测是否续约案例 /55
3.3 贝叶斯分类 /64
3.3.1 贝叶斯分类的核心概念 /65
3.3.2 朴素贝叶斯分类 /67
3.3.3 朴素贝叶斯分类算法在离散型特征上的求解 /68
3.3.4 朴素贝叶斯分类算法在连续型特征上的求解 /71
3.3.5 使用议员在议案上的投票记录预测其所属党派案例 /83
3.3.6 根据商户数据预测其是否续约案例 /85
3.3.7 根据新闻文本预测其所属分类案例 /86
3.4 决策树 /89
3.4.1 决策树分类 /89
3.4.2 决策树分类算法原理 /91
3.4.3 使用高中生基本信息预测其是否计划升学案例 /93
3.4.4 案例解读 /102
3.5 随机森林 /104
3.5.1 随机森林的特点 /104
3.5.2 网格搜索 /106
3.5.3 使用随机森林算法提升决策树算法效果案例 /107
3.6 支持向量机 /111
3.6.1 支持向量机的核心原理 /111
3.6.2 根据葡萄酒成分数据预测其分类案例 /116
3.7 逻辑回归 /118
3.7.1 逻辑回归的核心概念 /118
3.7.2 逻辑回归的数学推导 /119
3.7.3 使用住户信息预测房屋是否屋主所有案例 /120

第4章 特征工程 /124
4.1 描述性统计分析 /125
4.2 数据标准化 /127
4.2.1 Min-Max标准化 /128
4.2.2 Z-Score 标准化 /129
4.2.3 Normalizer归一化 /131
4.3 数据变换 /132
4.3.1 二值化 /132
4.3.2 分桶 /135
4.3.3 幂变换 /138
4.4 缺失值处理 /139
4.4.1 删除缺失值所在的行 /140
4.4.2 均值/众数/中值填充 /141
4.4.3 模型填充 /142
4.5 降维 /143
4.5.1 主成分分析 /143
4.5.2 因子分析 /154

第5章 聚类算法 /160
5.1 K均值算法 /161
5.1.1 K均值算法的核心概念 /161
5.1.2 电信套餐制定案例 /164
5.2 DBSCAN算法 /169
5.2.1 DBSCAN算法核心概念 /170
5.2.2 用户常活动区域挖掘案例 /173
5.3 层次聚类算法 /175
5.3.1 演示:聚类层次的计算过程 /175
5.3.2 基于运营商基站信息挖掘商圈案例 /178

第6章 关联算法 /184
6.1 关联规则 /185
6.1.1 关联规则的核心概念 /186
6.1.2 超市关联规则挖掘案例 /188
6.1.3 超市关联规则解读 /192
6.2 协同过滤 /192
6.2.1 协同过滤算法的实现 /193
6.2.2 安装scikit-surprise模块 /196
6.2.3 基于电影数据的协同过滤案例 /197
6.3 奇异值分解 /201

第7章 时间序列 /206
7.1 时间序列分解 /206
7.1.1 非季节性时间序列分解 /207
7.1.2 季节性时间序列 /211
7.2 序列预测 /214
7.2.1 把不平稳的时间序列转换成平稳的时间序列 /214
7.2.2 自回归模型 /219
7.2.3 移动平均模型 /220
7.2.4 自回归移动平均模型 /221

第8章 模型持久化 /226
8.1 保存模型 /226
8.2 恢复模型 /228
8.3 管道模型 /229

前言/序言

前 言

随着云计算、互联网、电子商务和物联网的飞速发展,世界已经迈入大数据时代,数据分析、数据挖掘、机器学习等数据科学技术也相应流行起来。作为数据科学家最常用的工具,Python语言也越来越被大家熟悉和认可,特别是在互联网行业,Python已经成为数据科学家的宠儿。

技术的飞速发展,使得互联网公司的业务越来越多,需要处理的数据也越来越大。如果还是使用传统的数据分析方法,依靠数据分析师来分析业务数据,然后再产生决策,显然已经满足不了互联网业务快速发展的新需求。因此,在大数据时代,通过机器从大量的数据中发现有价值的规律和信息,是我们面临的挑战与必须解决的问题。

近年来,落地应用的大数据解决方案层出不穷。随着对互联网业务与技术的不停探索,数据科学家逐渐在不同的业务场景,使用不同的算法或者模型,解决了一个又一个业务问题。而这些针对特定的业务场景提出的算法和模型,就是本书要介绍的数据挖掘方法与技术。

笔者阅读过大量目前市面上关于Python数据挖掘的书籍,它们大多数都涉及了很多在日常工作中基本不会使用到的晦涩难懂的Python语言编程、统计术语或模型公式。这无疑增加了此类书籍的阅读难度,提高了学习数据挖掘的门槛,让非专业的朋友学起来较为吃力和痛苦。

鉴于此,笔者于2015年开始提炼和总结工作中常用的Python数据挖掘实战方法与技巧,并录制成了视频课程《Python数据挖掘实战》发布于网易云课堂。课程上线后,得到了大量学员的支持与肯定。随后,笔者又根据热心学员提出的宝贵反馈意见,对课程进行了升级更新。

正是在《Python数据挖掘实战》视频课程的录制、升级过程中,笔者沉淀了大量的Python数据挖掘实战教学经验。学员与读者们不断来信咨询希望早日出版《Python数据挖掘实战》一书。经过三年时间的打磨,本书终于与读者见面了。整个写作过程是艰辛的,但是也很有成就感。

本书的定位是带领有一定Python数据分析基础的同学入门数据挖掘,如果你还没有掌握数据分析技巧,可以阅读《谁说菜鸟不会数据分析(Python篇)》一书,掌握了基础的数据分析技巧后,再学习本书的内容。


本书结构

本书以笔者在数据挖掘工作中遇到的各种业务问题为主线,介绍如何用Python进行数据挖掘。

第1章 数据挖掘基础。主要介绍数据挖掘的概念和本书将要学习的内容,通过对比数据分析与数据挖掘的不同,让读者了解与认识数据挖掘。

第2章 回归模型。主要介绍回归模型的理论与实践,首先介绍线性模型基础,然后拓展到非线性回归模型的理论与实践。每个模型都配有实战案例,方便读者在工作中灵活掌握回归模型的使用方法。

第3章 分类模型。主要介绍分类模型的理论与实践,首先介绍分类模型的评估方法,然后再从简单的KNN模型开始,详细介绍了朴素贝叶斯模型、决策树模型、随机森林模型、SVM模型以及逻辑回归模型。每个模型都配有实战案例,方便读者在工作中灵活掌握分类模型的使用方法。

第4章 特征工程。主要介绍特征工程的理论与实践,首先介绍特征工程的概念与意义,然后探讨每种特征工程的技巧并验证它对模型效果的提升,每种方法都配有实战案例,方便读者在工作中灵活掌握开展特征工程的技巧。

第5章 聚类算法。主要介绍聚类算法的理论与实践,首先针对不同类型的业务场景提出适配的聚类算法,并讲解每种聚类算法的使用方法,以及如何通过平行坐标图来解读聚类算法的结果。

第6章 关联算法。主要介绍关联算法的理论与实践,首先介绍关联算法的理论与实践,然后介绍协同过滤算法在推荐系统中的使用方法,每个方法都配有实战案例,方便读者在工作中灵活掌握关联算法使用技巧。

第7章 时间序列。主要介绍时间序列的理论与实践,首先介绍时间序列的分解,

如何对时间序列进行分析,然后详细介绍ARIMA算法如何对时间序列进行预测。每个方法都配有实战案例,方便读者在工作中灵活掌握时间序列算法使用技巧。

第8章 模型持久化。主要介绍模型持久化的方法与实践,首先介绍如何把训练好的模型保存为文件,然后介绍如何导入模型文件以恢复模型。每个方法都配有实战案例,方便读者在工作中灵活掌握模型持久化的方法。


适合人群

? 需要提升自身竞争力的数据分析师

? 从事咨询、研究、分析等工作的专业人士

? 在产品、市场、用户、渠道、品牌等工作中需要进行数据挖掘的人士