前 言
随着云计算、互联网、电子商务和物联网的飞速发展,世界已经迈入大数据时代,数据分析、数据挖掘、机器学习等数据科学技术也相应流行起来。作为数据科学家最常用的工具,Python语言也越来越被大家熟悉和认可,特别是在互联网行业,Python已经成为数据科学家的宠儿。
技术的飞速发展,使得互联网公司的业务越来越多,需要处理的数据也越来越大。如果还是使用传统的数据分析方法,依靠数据分析师来分析业务数据,然后再产生决策,显然已经满足不了互联网业务快速发展的新需求。因此,在大数据时代,通过机器从大量的数据中发现有价值的规律和信息,是我们面临的挑战与必须解决的问题。
近年来,落地应用的大数据解决方案层出不穷。随着对互联网业务与技术的不停探索,数据科学家逐渐在不同的业务场景,使用不同的算法或者模型,解决了一个又一个业务问题。而这些针对特定的业务场景提出的算法和模型,就是本书要介绍的数据挖掘方法与技术。
笔者阅读过大量目前市面上关于Python数据挖掘的书籍,它们大多数都涉及了很多在日常工作中基本不会使用到的晦涩难懂的Python语言编程、统计术语或模型公式。这无疑增加了此类书籍的阅读难度,提高了学习数据挖掘的门槛,让非专业的朋友学起来较为吃力和痛苦。
鉴于此,笔者于2015年开始提炼和总结工作中常用的Python数据挖掘实战方法与技巧,并录制成了视频课程《Python数据挖掘实战》发布于网易云课堂。课程上线后,得到了大量学员的支持与肯定。随后,笔者又根据热心学员提出的宝贵反馈意见,对课程进行了升级更新。
正是在《Python数据挖掘实战》视频课程的录制、升级过程中,笔者沉淀了大量的Python数据挖掘实战教学经验。学员与读者们不断来信咨询希望早日出版《Python数据挖掘实战》一书。经过三年时间的打磨,本书终于与读者见面了。整个写作过程是艰辛的,但是也很有成就感。
本书的定位是带领有一定Python数据分析基础的同学入门数据挖掘,如果你还没有掌握数据分析技巧,可以阅读《谁说菜鸟不会数据分析(Python篇)》一书,掌握了基础的数据分析技巧后,再学习本书的内容。
本书结构
本书以笔者在数据挖掘工作中遇到的各种业务问题为主线,介绍如何用Python进行数据挖掘。
第1章 数据挖掘基础。主要介绍数据挖掘的概念和本书将要学习的内容,通过对比数据分析与数据挖掘的不同,让读者了解与认识数据挖掘。
第2章 回归模型。主要介绍回归模型的理论与实践,首先介绍线性模型基础,然后拓展到非线性回归模型的理论与实践。每个模型都配有实战案例,方便读者在工作中灵活掌握回归模型的使用方法。
第3章 分类模型。主要介绍分类模型的理论与实践,首先介绍分类模型的评估方法,然后再从简单的KNN模型开始,详细介绍了朴素贝叶斯模型、决策树模型、随机森林模型、SVM模型以及逻辑回归模型。每个模型都配有实战案例,方便读者在工作中灵活掌握分类模型的使用方法。
第4章 特征工程。主要介绍特征工程的理论与实践,首先介绍特征工程的概念与意义,然后探讨每种特征工程的技巧并验证它对模型效果的提升,每种方法都配有实战案例,方便读者在工作中灵活掌握开展特征工程的技巧。
第5章 聚类算法。主要介绍聚类算法的理论与实践,首先针对不同类型的业务场景提出适配的聚类算法,并讲解每种聚类算法的使用方法,以及如何通过平行坐标图来解读聚类算法的结果。
第6章 关联算法。主要介绍关联算法的理论与实践,首先介绍关联算法的理论与实践,然后介绍协同过滤算法在推荐系统中的使用方法,每个方法都配有实战案例,方便读者在工作中灵活掌握关联算法使用技巧。
第7章 时间序列。主要介绍时间序列的理论与实践,首先介绍时间序列的分解,
如何对时间序列进行分析,然后详细介绍ARIMA算法如何对时间序列进行预测。每个方法都配有实战案例,方便读者在工作中灵活掌握时间序列算法使用技巧。
第8章 模型持久化。主要介绍模型持久化的方法与实践,首先介绍如何把训练好的模型保存为文件,然后介绍如何导入模型文件以恢复模型。每个方法都配有实战案例,方便读者在工作中灵活掌握模型持久化的方法。
适合人群
? 需要提升自身竞争力的数据分析师
? 从事咨询、研究、分析等工作的专业人士
? 在产品、市场、用户、渠道、品牌等工作中需要进行数据挖掘的人士