..........
第1章 导论1
1.1 数据科学的发展历史1
1.2 数据科学研究的主要问题3
1.3 数据科学的主要方法5
1.4 R语言的优势7
第2章 数据读/写9
2.1 数据的读入9
2.1.1 直接输入数据9
2.1.2 读入R包中的数据10
2.1.3 从外部文件读入数据10
2.1.4 批量读入数据15
2.1.5 R语言读取文件的几个常错的问题15
2.2 写出数据17
2.3 习题18
第3章 数据清洗与预处理19
3.1 数据分类19
3.2 数据清洗20
3.2.1 处理缺失数据20
3.2.2 处理噪声数据23
3.3 数据变换23
3.4 R语言实现25
3.4.1 数据集的基本操作25
3.4.2 数据集间的操作28
3.4.3 连接数据库数据29
3.5 习题30
第4章 数据可视化31
4.1 高阶绘图工具——ggplot231
4.1.1 快速绘图32
4.1.2 使用图层构建图像34
4.1.3 分面37
4.2 ECharts239
4.2.1 安装39
4.2.2 使用40
4.3 习题48
第5章 线性回归49
5.1 问题的提出49
5.2 一元线性回归50
5.2.1 一元线性回归概述50
5.2.2 一元线性回归的参数估计52
5.2.3 一元线性回归模型的检验55
5.2.4 一元线性回归的预测56
5.3 多元线性回归分析57
5.3.1 多元线性回归模型及假定58
5.3.2 参数估计59
5.3.3 模型检验60
5.3.4 预测61
5.4 R语言实现63
5.4.1 一元线性回归63
5.4.2 多元线性回归66
5.5 习题67
第6章 线性分类69
6.1 问题的提出69
6.2 Logistic模型70
6.2.1 线性概率模型70
6.2.2 Probit模型71
6.2.3 Logit模型原理72
6.2.4 边际效应分析73
6.2.5 *大似然估计(MLE)73
6.2.6 似然比检验74
6.3 判别分析74
6.3.1 Na?ve Bayes判别分析75
6.3.2 线性判别分析76
6.3.3 二次判别分析78
6.4 分类问题评价准则78
6.5 R语言实现80
6.5.1 描述统计80
6.5.2 Logistic模型81
6.5.3 判别分析87
6.5.4 模型比较90
6.6 习题92
第7章 重抽样94
7.1 问题的提出94
7.2 基本概念94
7.2.1 训练误差和测试误差95
7.2.2 偏差和方差95
7.3 交叉验证法96
7.3.1 验证集方法97
7.3.2 留一交叉验证法97
7.3.3 K折交叉验证法98
7.4 自助法99
7.5 R语言实现100
7.5.1 验证集方法100
7.5.2 留一交叉验证法102
7.5.3 K折交叉验证法102
7.5.4 自助法103
7.6 习题104
第8章 模型选择与正则化105
第9章 决策树与组合学习129
第10章 支持向量机156
第11章 神经网络180
第12章 无监督学习205
第13章 **算法243
第14章 文本挖掘264
第15章 社交网络分析279
第16章 并行计算309