本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
本书是一本面向计算机科学专业学生的概率统计教材。书中全面介绍了定性和定量数据分析、概率论、随机变量以及包括机器学习在内的统计方法。 全书包含丰富的图示,重点章节都包含大量的实例,以及许多其他教学元素,如流程、定义、有用的事实及注记(小技巧)。部分章节末尾附有“问题”和“编程练习”,帮助读者巩固应该掌握的要点。 本书特色 ·侧重介绍离散情形的随机变量和期望。 ·以实用的方式介绍仿真,表明有多少感兴趣的概率和期望可以被提取,并着重介绍马尔可夫链。 ·简明而清晰地阐释简单情形的点推断策略(极大似然、贝叶斯推断),并将其扩展到有放回随机抽样的置信区间、样本和总体,以及 简单的假设检验。 ·深入浅出地讲解分类,解释分类为什么有用,如何用随机梯度下降法训练SVM分类器,如何用随机森林和 近邻等 的方法实现分类。 ·详细介绍回归,说明如何建立并使用线性回归和 近邻回归解决实际问题。 ·通过大量实例详细讲解主成分分析,并通过主坐标分析简要概述多维放缩。 ·详细介绍如何通过聚合方法和k均值进行聚类,以及如何构建复杂信号的向量量化特征。
本书针对计算机科学专业的本科生,旨在揭示概率和统计的思想。全书共分为五部分,第I部分数据集的描述,涵盖各种描述性统计量(均值、标准差、方差)、一维数据集的可视化方法,以及散点图、相关性和二维数据集的描述;第II部分概率,内容涵盖离散型概率、条件概率、连续型概率、Markov不等式、Chebyshev不等式及弱大数定律等;第III部分推断,涵盖样本、总体、置信区间、统计显著性、试验设计、方差分析和简单贝叶斯推断等;第IV部分工具,涵盖主成分分析、zui近邻分类、朴素贝叶斯分类、K均值聚类、线性回归、隐Markov模型等;第V部分零散的数学知识,汇总了一些有用的数学事实。
大卫·福赛斯(David Forsyth) 曾在艾奥瓦大学任教3年,在加州大学伯克利分校任教10年,之后到伊利诺伊大学任教。他是2000、2011、2018年IEEE计算机视觉和模式识别会议(CVPR)的程序委员会共同 ,2006年CVPR和2019年IEEE 计算机视觉会议(ICCV)的大会共同 ,2008年欧洲计算机视觉会议(ECCV)的程序委员会共同 ,而且是所有主要的计算机视觉 会议的程序委员会成员。此外,他还在SIGGRAPH程序委员会任职了6届。他于2006年获得IEEE技术成就奖,并分别于2009年和2014年成为IEEE会士和ACM会士。
前言<br/>致谢<br/>作者简介<br/>符号和约定<br/> 部分 数据集的描述<br/>第1章 查看数据的 个工具 2<br/>1.1 数据集 2<br/>1.2 正在发生什么?绘制数据的图形 3<br/>1.2.1 条形图 5<br/>1.2.2 直方图 5<br/>1.2.3 如何制作直方图 6<br/>1.2.4 条件直方图 7<br/>1.3 汇总一维数据 8<br/>1.3.1 均值 8<br/>1.3.2 标准差 9<br/>1.3.3 在线计算均值和标准差 12<br/>1.3.4 方差 13<br/>1.3.5 中位数 13<br/>1.3.6 四分位距 15<br/>1.3.7 合理使用汇总数据 16<br/>1.4 图形和总结 16<br/>1.4.1 直方图的一些性质 17<br/>1.4.2 标准坐标和正态数据 19<br/>1.4.3 箱形图 21<br/>1.5 谁的 大?澳大利亚比萨调查 22<br/>问题 26<br/>编程练习 26<br/>第2章 关注关系 28<br/>2.1 二维数据绘图 28<br/>2.1.1 分类数据、计数和图表 28<br/>2.1.2 序列 32<br/>2.1.3 空间数据散点图 33<br/>2.1.4 用散点图揭示关系 33<br/>2.2 相关 37<br/>2.2.1 相关系数 40<br/>2.2.2 用相关性预测 43<br/>2.2.3 相关性带来的困惑 46<br/>2.3 野生马群中的不育公马 47<br/>问题 49<br/>编程练习 51<br/>第二部分 概率<br/>第3章 概率论基础 56<br/>3.1 实验、结果和概率 56<br/>3.2 事件 57<br/>3.2.1 通过计数结果来计算事件概率 58<br/>3.2.2 事件概率 60<br/>3.2.3 通过对集合的推理来计算概率 62<br/>3.3 独立性 64<br/>3.4 条件概率 68<br/>3.4.1 计算条件概率 69<br/>3.4.2 检测罕见事件是困难的 71<br/>3.4.3 条件概率和各种独立形式 73<br/>3.4.4 警示例子:检察官的谬论 74<br/>3.4.5 警示例子:Monty Hall 问题 75<br/>3.5 多实例 77<br/>3.5.1 结果和概率 77<br/>3.5.2 事件 78<br/>3.5.3 独立性 78<br/>3.5.4 条件概率 79<br/>问题 81<br/>第4章 随机变量与期望 86<br/>4.1 随机变量 86<br/>4.1.1 随机变量的联合概率与条件概率87<br/>4.1.2 只是一个小的连续概率 90<br/>4.2 期望和期望值 92<br/>4.2.1 期望值 92<br/>4.2.2 均值、方差和协方差 94<br/>4.2.3 期望和统计 96<br/>4.3 弱大数定律 97<br/>4.3.1 独立同分布样本 97<br/>4.3.2 两个不等式 98<br/>4.3.3 不等式的证明 98<br/>4.3.4 弱大数定律的定义 100<br/>4.4 弱大数定律应用 101<br/>4.4.1 你应该接受下注吗 101<br/>4.4.2 赔率、期望与博彩:文化转向 102<br/>4.4.3 提前结束比赛 103<br/>4.4.4 用决策树和期望做决策 104<br/>4.4.5 效用 105<br/>问题 107<br/>编程练习 110<br/>第5章 有用的概率分布 112<br/>5.1 离散分布 112<br/>5.1.1 均匀分布 112<br/>5.1.2 伯努利随机变量 112<br/>5.1.3 几何分布 113<br/>5.1.4 二项分布 113<br/>5.1.5 多项分布 115<br/>5.1.6 泊松分布 115<br/>5.2 连续分布 117<br/>5.2.1 均匀分布 117<br/>5.2.2 贝塔分布 117<br/>5.2.3 伽马分布 118<br/>5.2.4 指数分布 119<br/>5.3 正态分布 119<br/>5.3.1 标准正态分布 120<br/>5.3.2 正态分布 120<br/>5.3.3 正态分布的特征 121<br/>5.4 逼近参数为$N$的二项式 122<br/>5.4.1 当$N$取值很大时 124<br/>5.4.2 正态化 125<br/>5.4.3 二项分布的正态逼近 127<br/>问题 127<br/>编程练习 132<br/>第三部分 推断<br/>第6章 样本和总体 136<br/>6.1 样本均值 136<br/>6.1.1 样本均值是对总体均值的估计 136<br/>6.1.2 样本均值的方差 137<br/>6.1.3 罐子模型的应用 140<br/>6.1.4 分布就像总体 140<br/>6.2 置信区间 141<br/>6.2.1 构造置信区间 141<br/>6.2.2 估计样本均值的方差 142<br/>6.2.3 样本均值的概率分布 144<br/>6.2.4 总体均值的置信区间 145<br/>6.2.5 模拟的标准误差估计 147<br/>问题 149<br/>编程练习 151<br/>第7章 显著性检验 153<br/>7.1 显著性 154<br/>7.1.1 评估显著性 154<br/>7.1.2 p值 156<br/>7.2 比较两个总体的均值 159<br/>7.2.1 假定总体的标准差已知 159<br/>7.2.2 假定总体有相同但未知的标准差 161<br/>7.2.3 假定总体的标准差未知且不同 161<br/>7.3 其他有用的显著性检验 163<br/>7.3.1 F检验和标准差 163<br/>7.3.2 模型拟合的x2检验 164<br/>7.4 p 值操控和其他危险行为 168<br/>问题 169<br/>第8章 实验 172<br/>8.1 简单实验:一种处理方法的影响 172<br/>8.1.1 随机平衡实验 173<br/>8.1.2 分解预测中的误差 174<br/>8.1.3 估计噪声的方差 174<br/>8.1.4 方差分析表 176<br/>8.1.5 非平衡实验 177<br/>8.1.6 显著性差异 178<br/>8.2 双因素实验 180<br/>8.2.1 误差分解 182<br/>8.2.2 交互效应 184<br/>8.2.3 单个因素的影响 184<br/>8.2.4 建立方差分析表 185<br/>问题 188<br/>第9章 基于数据推断概率模型 191<br/>9.1 用极大似然估计模型参数 192<br/>9.1.1 极大似然原理 192<br/>9.1.2 二项分布、几何分布和多项分布 193<br/>9.1.3 泊松分布和正态分布 195<br/>9.1.4 模型参数的置信区间 198<br/>9.1.5 关于极大似然的注意事项 200<br/>9.2 结合贝叶斯推断的先验概率 200<br/>9.2.1 共轭 202<br/>9.2.2 MAP推断 204<br/>9.2.3 贝叶斯推断的注意事项 205<br/>9.3 正态分布的贝叶斯推断 205<br/>9.3.1 示例:测量钻孔深度 205<br/>9.3.2 通过正态先验分布和正态似然函数得出正态后验分布206<br/>9.3.3 过滤 208<br/>问题 210<br/>编程练习 213<br/>第四部分 工具<br/> 0章 高维状态下的相关性分析 218<br/>10.1 数据汇总与简单的统计图 218<br/>10.1.1 均值 219<br/>10.1.2 茎叶图和散点图矩阵 219<br/>10.1.3 协方差 222<br/>10.1.4 协方差矩阵 223<br/>10.2 通过均值和协方差来理解高维数据 224<br/>10.2.1 仿射变换下的均值和协方差 225<br/>10.2.2 特征向量与对角化 226<br/>10.2.3 旋转团来对角化协方差 227<br/>10.2.4 近似团 228<br/>10.2.5 示例:身高--体重数据团转换 229<br/>10.3 主成分分析 231<br/>10.3.1 低维度的表示方法 232<br/>10.3.2 降维引起的误差 233<br/>10.3.3 示例:用主成分表示颜色 234<br/>10.3.4 示例:用主成分表示面孔 236<br/>10.4 多维放缩 236<br/>10.4.1 使用高维距离选择低维点 237<br/>10.4.2 分解点积矩阵 239<br/>10.4.3 示例:使用多维放缩的地图 240<br/>10.5 示例:了解身高与体重 241<br/>问题 245<br/>编程练习 245<br/> 1章 分类学习 248<br/>11.1 分类 248<br/>11.1.1 错误率和其他性能总结 249<br/>11.1.2 详细的评估 249<br/>11.1.3 过度拟合和交叉验证 250<br/>11.2 用 近邻分类 251<br/>11.3 用朴素贝叶斯分类 253<br/>11.4 支持向量机 256<br/>11.4.1 铰链损失 257<br/>11.4.2 正则化 258<br/>11.4.3 用随机梯度下降法查找分类器 259<br/>11.4.4 搜索λ 261<br/>11.4.5 示例:用随机梯度下降法训练支持向量机 262<br/>11.4.6 支持向量机的多类分类 265<br/>11.5 用随机森林分类 265<br/>11.5.1 构建决策树:通用算法 267<br/>11.5.2 构建决策树:选择拆分 267<br/>11.5.3 森林 269<br/>编程练习 271<br/>MNIST练习 274<br/> 2章 聚类:高维数据模型 277<br/>12.1 维度灾难 277<br/>12.1.1 幂次维数 277<br/>12.1.2 灾难:数据未在预想范围出现 278<br/>12.2 聚类数据 279<br/>12.2.1 聚合聚类与分裂聚类 279<br/>12.2.2 聚类与距离 282<br/>12.3 k均值算法及其变体 282<br/>12.3.1 确定k值 285<br/>12.3.2 软分配 285<br/>12.3.3 高效聚类和分层k均值 287<br/>12.3.4 k中心点算法 288<br/>12.3.5 示例:葡萄牙杂货铺 288<br/>12.3.6 关于k均值的评价 291<br/>12.4 用向量量化描述重复 291<br/>12.4.1 向量量化 292<br/>12.4.2 示例:基于加速计数据的行为 294<br/>12.5 多元正态分布 297<br/>12.5.1 仿射变换和高斯分布 298<br/>12.5.2 绘制二维高斯分布:协方差椭圆 298<br/>编程练习 299<br/>CIFAR-10和向量量化练习 300<br/> 3章 回归 301<br/>13.1 回归预测 301<br/>13.2 回归趋势 303<br/>13.3 线性回归与 小二乘 304<br/>13.3.1 线性回归 304<br/>13.3.2 β的选择 305<br/>13.3.3 小二乘问题求解 305<br/>13.3.4 残差 306<br/>13.3.5 R2 306<br/>13.4 优化线性回归模型 308<br/>13.4.1 变量转换 309<br/>13.4.2 问题数据点有显著影响 311<br/>13.4.3 单解释变量函数 313<br/>13.4.4 线性回归的正则化 314<br/>13.5 利用近邻进行回归分析 317<br/>附录:数据 319<br/>问题 319<br/>编程练习 324<br/> 4章 马尔可夫链与隐马尔可夫链 326<br/>14.1 马尔可夫链 326<br/>14.1.1 转移概率矩阵 328<br/>14.1.2 平稳分布 330<br/>14.1.3 示例:马尔可夫链文本模型 331<br/>14.2 马尔可夫链的性质估计 334<br/>14.2.1 模拟 334<br/>14.2.2 模拟结果为随机变量 335<br/>14.2.3 模拟马尔可夫链 337<br/>14.3 示例:通过模拟马尔可夫链对Web进行排名 338<br/>14.4 隐马尔可夫模型与动态规划 340<br/>14.4.1 隐马尔可夫模型 340<br/>14.4.2 用网格进行图形推理 341<br/>14.4.3 HMM的动态规划 344<br/>14.4.4 示例:简单通信报错 344<br/>问题 347<br/>编程练习 347<br/>第五部分 其他数学知识<br/> 5章 资源和附加资料 350<br/>15.1 有关矩阵的内容 350<br/>15.1.1 奇异值分解 351<br/>15.1.2 逼近一个对称矩阵 351<br/>15.2 特殊函数 353<br/>15.3 在决策树中拆分节点 354<br/>15.3.1 用熵计算信息 355<br/>15.3.2 利用信息增益来选择拆分 356<br/>索引 358