Python商业数据挖掘pdf下载pdf下载

Python商业数据挖掘百度网盘pdf下载

作者:
简介:本篇主要提供Python商业数据挖掘pdf下载
出版社:清华大学出版社
出版时间:2021-11
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

通过学习《Python商业数据挖掘(第6版)》,读者将掌握使用Python实现数据挖掘的各种方法,并深入理解在将这些方法应用于数据挖掘的过程中存在的商业问题和机遇。

内容简介

本书前5版好评如潮,作为第6版,本书首次使用了Python语言。本书除了介绍用于统计和机器学习等领域的预测、分类、可视化、降维、推荐系统、聚类、文本挖掘、网络分析等方法之外,内容还包括:

● 新加入的合著者Peter Gedeck拥有使用Python讲解商业分析课程的丰富经验以及将机器学习应用于新药发现过程的专业技能。在本书中,他十分乐于将这些经验和技能与读者分享。

● 讨论数据挖掘中的伦理问题。

● 根据教师和学生的反馈意见对内容做了更新。

● 通过多个案例展示数据挖掘技术的实际应用。

● 每章后面的习题有助于读者评估和加深对该章内容的理解。

● 在线支持网站提供了数据集、教学资料、习题答案、PPT教案和案例解决方案。


作者简介

Galit Shmueli博士自2004年以来,一直在美国马里兰大学、statistics.com统计网站、印度商学院设计并指导数据挖掘课程。Shmueli的研究领域包括信息系统的统计方法和数据挖掘,她以研究和擅长讲授商业分析而闻名,并发表了100多篇文章。

  

Peter C. Bruce是statistics.com统计网站的统计教育研究院的主席和创办人,他发表了多篇学术论文,还开发了Resampling Stats软件。

  

Peter Gedeck博士是Collabrative Drug Discovery公司的高级数据科学家,他为这家公司开发了一款基于云的软件来管理新药发现过程中用到的海量数据,他还在statistics.com统计网站上教授数据挖掘课程。

  

Nitin R. Patel博士是位于马萨诸塞州剑桥市的Cytel公司的共同创始人和董事,是美国统计协会会员,同时还是麻省理工学院和哈佛大学的客座教授。

 


目录

第I 部分 预备知识

第1 章 引言............................................................3

1.1 商业分析简介...........................................3

1.2 什么是数据挖掘......................................4

1.3 数据挖掘及相关术语..............................4

1.4 大数据........................................................5

1.5 数据科学...................................................6

1.6 为什么有这么多不同的方法.................6

1.7 术语与符号...............................................7

1.8 本书的线路图...........................................8

第2 章 数据挖掘过程概述................................11

2.1 引言..........................................................11

2.2 数据挖掘的核心思想............................11

2.2.1 分类.................................................11

2.2.2 预测.................................................12

2.2.3 关联规则与推荐系统........................12

2.2.4 预测分析..........................................12

2.2.5 数据规约与降维技术........................12

2.2.6 数据探索和可视化...........................12

2.2.7 监督学习与无监督学习....................13

2.3 数据挖掘步骤.........................................13

2.4 前期步骤.................................................15

2.4.1 数据集的组织...................................15

2.4.2 预测West Roxbury 小区的房价........15

2.4.3 在Python 程序中载入并浏览数据....16

2.4.4 Python 包的导入...............................18

2.4.5 从数据库获得采样数据....................18

2.4.6 在分类任务中对小概率事件的

过采样.............................................19

2.4.7 数据预处理和数据清理....................19

2.5 预测力和过拟合.................................... 24

2.5.1 过拟合............................................. 24

2.5.2 数据分区的创建和使用.................... 26

2.6 建立预测模型........................................ 28

2.7 在本地计算机上用Python 实现

数据挖掘................................................. 32

2.8 自动化数据挖掘解决方案................... 33

2.9 数据挖掘中的伦理规范....................... 33

2.10 习题........................................................ 37

第Ⅱ部分 数据探索与降维技术

第3 章 数据可视化.............................................43

3.1 引言.......................................................... 43

3.2 数据实例................................................. 45

3.3 基本图形:条形图、折线图和

散点图..................................................... 46

3.3.1 分布图:箱线图和直方图................ 48

3.3.2 热图:可视化相关性和缺失值......... 51

3.4 多维数据的可视化................................ 53

3.4.1 添加变量:颜色、大小、形状、

多面板和动画.................................. 53

3.4.2 数据操作:重定标、聚合与层次

结构、缩放与过滤........................... 56

3.4.3 趋势线和标签.................................. 59

3.4.4 扩展到大型数据集........................... 60

3.4.5 多变量图:平行坐标图.................... 62

3.4.6 交互式可视化.................................. 63

3.5 专用的可视化技术................................ 65

3.5.1 网络数据可视化............................... 65

3.5.2 层次数据可视化:树状结构图......... 66

3.5.3 地理数据可视化:地图.................... 68

3.6 小结..........................................................71

3.7 习题..........................................................71


第11 章 神经网络............................................221

11.1 引言......................................................221

11.2 神经网络的概念和结构...................222

11.3 在数据上拟合神经网络...................222

11.3.1 计算节点的输出结果..................223

11.3.2 训练模型....................................225

11.3.3 对事故的严重程度进行分类.......229

11.3.4 避免过拟合................................231

11.3.5 把神经网络的输出结果用于

预测和分类................................231

11.4 要求用户输入.....................................231

11.5 探索预测变量与因变量的关系......232

11.6 深度学习.............................................232

11.6.1 卷积神经网络............................233

11.6.2 局部特征图................................234

11.6.3 层次特征....................................234

11.6.4 学习过程....................................235

11.6.5 无监督学习................................235

11.6.6 结论...........................................236

11.7 神经网络的优缺点............................236

11.8 习题......................................................237

第12 章 判别分析............................................ 239

12.1 引言......................................................239

12.2 记录与类别的距离...........................241

12.3 Fisher 线性分类函数........................242

12.4 判别分析的分类性能.......................245

12.5 先验概率.............................................245

12.6 误分类成本不均等...........................246

12.7 多类别情形下的分类.......................246

12.8 判别分析的优缺点...........................249

12.9 习题......................................................250

第13 章 组合方法:集成学习和增益

模型.................................................... 253

13.1 集成学习.............................................253

13.1.1 为什么集成学习可以改进

预测能力...................................254

13.1.2 集成学习的优缺点.....................257

13.2 增益(说服)模型.................................257

13.2.1 建立一个简单的预测模型..........260

13.2.2 建立增益模型............................260

13.2.3 使用Python 程序计算增益.........261

13.2.4 应用增益模型的结果.................262

13.3 小结......................................................262

13.4 习题......................................................263

第Ⅴ部分 挖掘记录之间的关系

第14 章 关联规则和协同过滤...................... 267


第15 章 聚类分析............................................289

第Ⅵ部分 时间序列预测

第16 章 时间序列分析...................................313


第17 章 基于回归的预测...............................325


第18 章 平滑法................................................349


第Ⅶ部分 数据分析


21.7 直邮捐赠.............................................416

21.7.1 背景..........................................416

21.7.2 数据..........................................416

21.7.3 任务..........................................417

21.8 产品目录交叉销售...........................417

21.8.1 背景分析...................................417

21.8.2 任务..........................................418

21.9 预测公共交通需求...........................418

21.9.1 背景分析...................................418

21.9.2 问题描述...................................418

21.9.3 数据..........................................418

21.9.4 目标..........................................419

21.9.5 任务..........................................419

21.9.6 提示和步骤................................419

附录 Python 工具函数.................................... 421


前言/序言

前 言




本书最早出版于2007年年初,已被众多学生、从业人员和任课老师采用,包括我本人,在过去15 年里,在线授课和面对面授课都以本书为重要参考书。本书的第1 版是基于Excel 加载项(加载程序是Analytic Solver Data Mining,早先的名称是XLMiner)的,此后不断推出JMP 版本、R 版本和现在的Python 版本,并推出了本书的合作站点——www.dataminingbook.com。

新推出的Python 版本使用了免费开源的Python 程序设计语言。本书提供了Python 程序的输出结果以及生成这些结果的代码,也包含相关程序包和函数的使用说明,其中的核心是scikit-learn 包。不同于计算机科学教材或统计学教材,本书的重点在于数据挖掘的基本概念以及如何用Python 实现相关算法。我们假设读者基本熟悉Python 语言。

对于新推出的Python 版本,增加了另一位共同作者——Peter Gedeck,他在商业领域里具有丰富的数据科学经验。除了提供Python 代码和输出结果外,本书也增加了最新内容和反馈意见。这些意见来自教授MBA 课程、MS 课程、本科生课程、文凭课程和经理人培训课程的老师及学生。最重要的是,本书首次引入了有关数据伦理的内容(详见2.9 节)。

本书还包含原书第3 版新增的如下内容:

● 社交网络分析

● 文本挖掘

● 集成方法

● 增益模型协同过滤

自第2 版开始(基于Analytic Solver),以本书为教材的课程大量增加。最初,本书主要用于一学期的MBA 选修课,现在已被用在许多商业分析学位课的教学大纲里和证书课程的教学计划里。从本科生教学计划到研究生和经理人培训计划,这些项目里的课程、时间长短不一,深浅不同。在很多情形

下,本书可用在多门课程里。本书的设计思想是继续支持通用的“预测分析”或“数据挖掘”课程,但是也支持专用的商业分析教学大纲。

在专用的商业分析教学大纲中,以下课程曾使用本书。

● 预测分析——监督学习:在专用的商业分析项目里,对于预测分析主题,通常包括一系列课程。第一门课程包括本书的第Ⅰ部分至第Ⅳ部分内容。教授这门课程的老师通常根据课时适当地选择第Ⅳ部分的内容。在这类课程中,建议包括第13 章的集成学习和第Ⅶ部分的数据分析。

● 预测分析——无监督学习:本课程介绍数据探索和可视化、降维、挖掘关系和聚类(第Ⅲ部分和第Ⅴ部分)。如果这门课程也按照“预测分析——监督学习”课程的教学计划,那么有必要分析综合应用无监督学习和监督学习的例子和方法。

● 预测分析:专门用于时间序列预测的课程需要用到第Ⅵ部分的内容。

● 高级分析:本课程综合了全部的预测分析内容(包括监督学习和无监督学习)。这门课程的重点应放在第Ⅶ部分。这部分包含了社交网络分析和文本挖掘。有的老师也会在这类课程中选择第21 章中的案例。

在以上所有课程中,我们强烈建议增加课程设计项目,要求学生自己收集数据,或利用老师提供的数据(例如,现在有很多供数据挖掘使用的数据集)。根据我们和其他老师的经验,这些项目可让学生巩固所学的知识,并且能给学生提供一个机会,以便更好地理解数据挖掘的强大功能以及在挖掘过程中遇到的问题。

——Galit Shmueli、Peter C. Bruce、Peter Gedeck 和Nitin R. Patel

2019 年