第I部分 数据约简 章 数据科学概述 3 1.1 什么是数据科学? 3 1.2 美国的糖尿病数据 5 1.3 《联邦党人文集》的作者数据 6 1.4 预测纳斯达克股价 8 1.5 述评 9 1.6 关于本书 10 1.7 算法 12 1.8 Python语言 13 1.9 R语言 13 1.10 术语和符号 14 1.11 本书网站 16 第2 章 数据映射和数据字典 17 2.1 数据约简 17 2.2 政治捐款 18 2.3 字典 19 2.4 教程:大金主 20 2.5 数据约简 24 2.5.1 符号和术语 24 2.5.2 政治捐款示例 25 2.5.3 映射 26 2.6 教程:选举周期捐款 27 2.7 相似度度量 33 2.8 教程:计算相似度 37 2.9 关于字典的总结性述评 41 2.10 练习 41 2.10.1 概念练习 41 2.10.2 计算练习 42 第3 章 可扩展算法和联合统计 45 3.1 引言 45 3.2 示例:美国的肥胖症数据 46 3.3 关联统计数据 47 3.4 单变量观测 48 3.4.1 直方图 50 3.4.2 直方图的构建 51 3.5 函数 52 3.6 教程:直方图的构建 53 3.7 多变量数据 65 3.7.1 符号和术语 65 3.7.2 估计量 66 3.7.3 增广“矩”矩阵 69 3.7.4 述评 70 3.8 教程:计算相关矩阵 70 3.9 线性回归简介 77 3.9.1 线性回归模型 77 3.9.2 β的估计值 78 3.9.3 准确性评估 81 3.9.4 计算 82 3.10 教程:计算 83 3.11 练习 89 3.11.1 概念练习 89 3.12.2 计算练习 90 第4 章 Hadoop和MapReduce 93 4.1 引言 93 4.2 Hadoop生态系统 94 4.2.1 Hadoop分布式文件系统 94 4.2.2 MapReduce 95 4.2.3 映射 96 4.2.4 约简 97 4.3 开发Hadoop应用程序 98 4.4 医疗保险支付 98 4.5 命令行环境 99 4.6 教程:编程实现MapReduce算法 100 4.6.1 映射器 102 4.6.2 约简器 105 4.6.3 概要 108 4.7 教程:使用网络服务 109 4.8 练习 113 4.8.1 概念练习 113 4.8.2 计算练习 113 第II部分 从数据中提取信息 第5 章 数据可视化 117 5.1 引言 117 5.2 数据可视化的原则 118 5.3 做出正确选择 121 5.3.1 单变量数据 122 5.3.2 双变量和多变量数据 125 5.4 利用好这台机器 132 5.4.1 绘制图5.2 134 5.4.2 绘制图5.3 135 5.4.3 绘制图5.4 136 5.4.4 绘制图5.5 136 5.4.5 绘制图5.8 138 5.4.6 绘制图5.10 139 5.4.7 绘制图5.11 140 5.5 练习 141 第6 章 线性回归方法 143 6.1 引言 143 6.2 线性回归模型 144 6.2.1 示例:抑郁症、宿命论和简单化 145 6.2.2 小二乘法 147 6.2.3 置信区间 149 6.2.4 分布条件 150 6.2.5 假设检验 151 6.2.6 警示语 154 6.3 R语言简介 155 6.4 教程:R语言 156 6.5 教程:大数据集和R语言 159 6.6 因子 164 6.6.1 交互 166 6.6.2 扩展平方和F检验 168 6.7 教程:共享单车 171 6.8 残差分析 175 6.8.1 线性 176 6.8.2 示例:共享单车问题 177 6.8.3 独立性 179 6.9 教程:残差分析 182 6.10 练习 185 6.10.1 概念练习 185 6.10.2 计算练习 185 第7 章 医疗分析 189 7.1 引言 189 7.2 行为风险因素监测系统 190 7.2.1 患病率的估计 192 7.2.2 发病率的估计 193 7.3 教程:糖尿病的患病率和发病率 194 7.4 预测具有患病风险的个人 203 7.5 教程:确认具有患病风险的个体 208 7.6 非寻常的人口特征 213 7.7 教程:构建近邻集合 215 7.8 练习 219 7.8.1 概念练习 219 7.8.2 计算练习 220 第8 章 聚类分析 223 8.1 引言 223 8.2 凝聚层次聚类 224 8.3 各州间的对比 225 8.4 教程:各州的层次聚类 228 8.5 k均值算法 235 8.6 教程:k均值算法 236 8.7 练习 242 8.7.1 概念练习 242 8.7.2 计算练习 242 第III部分 预测分析 第9 章 k近邻预测函数 247 9.1 引言 247 9.2 符号和术语 249 9.3 距离度量 251 9.4 k近邻预测函数 252 9.5 指数加权k近邻 253 9.6 教程:数字识别 255 9.7 准确性估计 262 9.8 k近邻回归 264 9.9 预测标准普尔500指数 265 9.10 教程:利用模式回归进行预测 266 9.11 交叉验证 273 9.12 练习 275 9.12.1 概念练习 275 9.12.2 计算练习 275 0 章 多项式朴素贝叶斯预测函数 279 10.1 引言 279 10.2 联邦党人文集 280 10.3 多项式朴素贝叶斯预测函数 281 10.4 教程:约简《联邦党人文集》 285 10.5 教程:预测有争议的《联邦党人文集》的作者 291 10.6 教程:客户细分 294 10.6.1 加法平滑 295 10.6.2 数据 296 10.6.3 述评 303 10.7 练习 303 10.7.1 概念练习 303 10.7.2 计算练习 304 1 章 预报 307 11.1 引言 307 11.2 教程:处理时间 309 11.3 分析方法 313 11.3.1 符号 313 11.3.2 均值和方差的估计 313 11.3.3 指数预报 315 11.3.4 自相关 316 11.4 教程:计算 318 11.5 漂移和预报 322 11.6 Holt-Winters指数型预报 323 11.7 教程:Holt-Winters预报 326 11.8 基于回归的股价预报 330 11.9 教程:基于回归的预报 331 11.10 时变回归预报器 336 11.11 教程:时变回归预报器 337 11.12 练习 339 11.12.1 概念练习 339 11.12.2 计算练习 339 2 章 实时分析 343 12.1 引言 343 12.2 用纳斯达克报价数据流进行预报 344 12.3 教程:预报Apple公司信息流 346 12.4 Twitter信息流API 351 12.5 教程:访问Twitter数据流 352 12.6 情感分析 357 12.7 教程:主题标签分组的情感分析 358 12.8 练习 360 附录 A 练习答案 363 附录 B 使用Twitter API 377 参考文献 379 |