统计挖掘与机器学习 pdf下载pdf下载

统计挖掘与机器学习百度网盘pdf下载

作者:
简介:本篇提供书籍《统计挖掘与机器学习》百度网盘pdf下载
出版社:木垛图书旗舰店
出版时间:2021-09
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

  • 商品名称:统计挖掘与机器学习(大数据预测建模和分析技术原书第3版)/数据科学与工程技术丛书
  • 作者:(美)布鲁斯·拉特纳|责编:王春华//孙榕舒|译者:郑磊//刘子未//石仁达//郑扬洋
  • 定价:149
  • 出版社:机械工业
  • 书号:9787111689942

其他参考信息(以实物为准)

  • 出版时间:2021-09-01
  • 印刷时间:2021-09-01
  • 版次:1
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:523

编辑推荐语

本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。本书为数据挖掘领域新晋的数据科学家所面临的共同问题提供了适当的解决方案,并侧重于数据科学家的需求,提供了实用且强大、简单而富有洞察力的量化技术,其中大部分使用了受新机器学习影响改进的“旧”统计方法。 在这本畅销书的新版里,作者大幅修改并重新组织章节内容,新增了一些富有创意且用途广泛的机器学习数据挖掘技术方面的内容。简单而有针对性的量化处理方法使得本书在数据挖掘图书领域别具一格。

内容提要

本书是一本区分统计数据挖掘和机器学习数据挖掘的图书。它创造性地汇编了数据挖掘技术,解决了对经典和现代统计方法框架的扩展,用于预测建模和大数据分析。SM-DM为数据挖掘领域新晋的数据科学家所面临的共同问题提供了适当的解决方案。它的展示侧重于数据科学家(通常被称为统计学家、数据采矿者和数据分析师)的需求,提供实用但又强大的、简单而又有洞察力的量化技术,其中大部分使用了新机器学习影响改进的“旧”统计方法。

目录

第3版前言<br/>第2版前言<br/>致谢<br/>关于作者<br/>第1章 引论 1<br/>1.1 个人计算机与统计学 1<br/>1.2 统计学和数据分析 2<br/>1.3 EDA简介 3<br/>1.4 EDA范式 4<br/>1.5 EDA的弱点 5<br/>1.6 小数据和大数据 5<br/>1.6.1 数据规模特征 6<br/>1.6.2 数据规模:个人观点 7<br/>1.7 数据挖掘范式 7<br/>1.8 统计学和机器学习 8<br/>1.9 统计数据挖掘 9<br/>参考资料 9<br/>第2章 数据处理相关学科:统计学和数据科学 11<br/>2.1 引言 11<br/>2.2 背景 11<br/>2.3 统计学与数据科学的比较 12<br/>2.4 讨论:统计学与数据科学的不同之处 18<br/>2.5 本章小结 19<br/>2.6 结语 19<br/>参考资料 19<br/>第3章 变量评估的两种基本数据挖掘方法 21<br/>3.1 引言 21<br/>3.2 相关系数 21<br/>3.3 散点图 22<br/>3.4 数据挖掘 24<br/>3.4.1 示例3.1 24<br/>3.4.2 示例3.2 24<br/>3.5 平滑散点图 25<br/>3.6 一般关联性检验 27<br/>3.7 本章小结 28<br/>参考资料 29<br/>第4章 用于评估成对变量的基于CHAID的数据挖掘方法 30<br/>4.1 引言 30<br/>4.2 散点图 30<br/>4.3 平滑散点图 31<br/>4.4 CHAID入门 32<br/>4.5 用 平滑的散点图进行基于CHAID的数据挖掘 33<br/>4.6 本章小结 36<br/>参考资料 37<br/>第5章 校直数据的简单性和可取性对建模十分重要 38<br/>5.1 引言 38<br/>5.2 数据的直度和对称度 38<br/>5.3 数据挖掘是 概念 39<br/>5.4 相关系数 39<br/>5.5 (xx3,yy3)散点图 40<br/>5.6 挖掘(xx3,yy3)关系 41<br/>5.7 基于遗传算法的数据挖掘如何处理数据 43<br/>5.8 校直多个变量 43<br/>5.9 本章小结 44<br/>参考资料 44<br/>第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法 45<br/>6.1 引言 45<br/>6.2 量度范围 45<br/>6.3 茎叶图 47<br/>6.4 箱线图 47<br/>6.5 排序数据对称处理方法的图示 47<br/>6.5.1 示例1 48<br/>6.5.2 示例2 50<br/>6.6 本章小结 56<br/>参考资料 56<br/>第7章 主成分分析:多变量评估的统计数据挖掘方法 57<br/>7.1 引言 57<br/>7.2 EDA重新表述范式 57<br/>7.3 关键点 58<br/>7.4 PCA基础 58<br/>7.5 示例详解 58<br/>7.6 PCA的代数特征 59<br/>7.7 一个不常见示例 60<br/>7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析 61<br/>7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果 61<br/>7.8 用PCA构造准交互变量 62<br/>7.9 本章小结 66<br/>第8章 市场份额估算:一个特殊的数据挖掘案例 67<br/>8.1 引言 67<br/>8.2 背景 67<br/>8.3 一个特殊的数据挖掘案例 68<br/>8.4 构建RAL的YUM市场份额模型 69<br/>8.4.1 市场份额模型的十分位分析 76<br/>8.4.2 YUM_3mos市场份额模型的结论 76<br/>8.5 本章小结 77<br/>附录8.A  生成 PROMO_Code哑变量 77<br/>附录8.B PROMO_Code哑变量的PCA 77<br/>附录8.C PROMO_Code哑变量上的逻辑斯谛回归YUM_3mos 78<br/>附录8.D 生成YUM_3mos_wo_PROMO_CodeEff 78<br/>附录 8.E 将变量标准化为位于[0, 1]内 78<br/>参考资料 79<br/>第9章 相关系数在[-1,+1]内取值,是这样吗 80<br/>9.1 引言 80<br/>9.2 相关系数的基础知识 80<br/>9.3 计算相关系数 81<br/>9.4 重新配对 82<br/>9.5 计算经调整的相关系数 84<br/>9.6 重新配对的意义 84<br/>9.7 本章小结 84<br/> 0章 逻辑斯谛回归:回应建模方法 85<br/>10.1 引言 85<br/>10.2 逻辑斯谛回归模型 86<br/>10.2.1 示例 86<br/>10.2.2 为LRM打分 87<br/>10.3 案例分析 88<br/>10.4 logit值和logit散点图 89<br/>10.5 校直数据的重要性 90<br/>10.6 校直数据的重述 91<br/>10.6.1 幂阶梯法 91<br/>10.6.2 突起规则 91<br/>10.6.3 测量校直数据 92<br/>10.7 校直示例数据 92<br/>10.7.1 FD2_OPEN的重述 93<br/>10.7.2 INVESTMENT的重述 94<br/>10.8 在突起规则不适用的情况下选用的技术 95<br/>10.8.1 拟合logit值散点图 95<br/>10.8.2 平滑预测值与实际值散点图 96<br/>10.9 MOS_OPEN的重述 96<br/>10.10 评估变量的重要性 99<br/>10.10.1 计算G统计量 99<br/>10.10.2 单变量的重要性 100<br/>10.10.3 变量子集合的重要性 100<br/>10.10.4 不同变量子集合的重要性比较 100<br/>10.11 案例的重要变量 101<br/>10.12 变量的相对重要性 102<br/>10.13 案例变量的 子集合 103<br/>10.14 模型预测准确性的可视化指标 104<br/>10.14.1 得分组的平滑残差散点图 104<br/>10.14.2 基于十分位组的平滑预测与实际值散点图 106<br/>10.14.3 基于得分组的平滑预测与实际值散点图 108<br/>10.15 评估数据挖掘工作 110<br/>10.15.1 基于得分组的平滑残差分布图:EDA模型与非EDA模型对比 110<br/>10.15.2 基于十分位组的平滑预测与实际值散点图:EDA模型与非EDA模型对比 112<br/>10.15.3 基于得分组的平滑预测与实际值散点图:EDA模型与非EDA模型对比 113<br/>10.15.4 数据挖掘工作小结 113<br/>10.16 平滑一个类别变量 114<br/>10.16.1 用CHAID平滑FD_TYPE 115<br/>10.16.2 CH_FTY_1和CH_FTY_2的重要性 116<br/>10.17 本案例的其他数据挖掘工作 117<br/>10.17.1 基于得分组的平滑残差散点图:4变量EDA模型与3变量EDA模型对比 117<br/>10.17.2 基于十分位组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比 119<br/>10.17.3 基于得分组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比 120<br/>10.17.4 其他数据挖掘工作的总结 121<br/>10.18 本章小结 121<br/> 1章 无抽样调研数据预测钱包份额 122<br/>11.1 引言 122<br/>11.2 背景 122<br/>11.3 SOW_q计算过程 123<br/>11.3.1 有趣的问题 124<br/>11.3.2 金额和总金额 124<br/>11.4 为AMPECS构建SOW_q模型 126<br/>11.5 SOW_q模型的定义 127<br/>11.6 本章小结 129<br/>附录11.A 六步法 129<br/>附录11.B 七步法 131<br/>参考资料 134<br/> 2章 普通回归:利润建模的强大工具 135<br/>12.1 引言 135<br/>12.2 普通回归模型 135<br/>12.2.1 说明 135<br/>12.2.2 为OLS利润模型评分 136<br/>12.3 迷你案例 137<br/>12.3.1 校直迷你案例的数据 137<br/>12.3.2 平滑预测值散点图与实际值散点图 141<br/>12.3.3 评估变量的重要性 142<br/>12.4 迷你案例的重要变量 144<br/>12.4.1 变量的相对重要性 144<br/>12.4.2 选择 子集合 144<br/>12.5 案例变量的 子集合 145<br/>12.5.1 用gINCOME和AGE构建PROFIT模型 146<br/>12.5.2  PROFIT模型 148<br/>12.6 抑制变量AGE 148<br/>12.7 本章小结 149<br/>参考资料 149<br/> 3章 回归变量选择方法:可忽略的问题和重要解决方案 150<br/>13.1 引言 150<br/>13.2 背景 150<br/>13.3 常用的变量选择方法 152<br/>13.4 分步法的缺陷 153<br/>13.5 改进的变量选择方法 154<br/>13.6 本章小结 155<br/>参考资料 155<br/> 4章 用CHAID解读逻辑斯谛回归模型 157<br/>14.1 引言 157<br/>14.2 逻辑斯谛回归模型 157<br/>14.3 数据库营销回应模型案例研究 158<br/>14.4 CHAID 159<br/>14.5 多变量CHAID树 161<br/>14.6 CHAID市场细分 165<br/>14.7 CHAID树状图 165<br/>14.8 本章小结 168<br/> 5章 回归系数的重要性 169<br/>15.1 引言 169<br/>15.2 普通回归模型 169<br/>15.3 四个问题 169<br/>15.4 重要预测变量 170<br/>15.5 p值与大数据 171<br/>15.6 回到问题1 171<br/>15.7 预测变量对预测结果的影响 171<br/>15.8 提示 172<br/>15.9 回到问题2 173<br/>15.10 按照对预测的影响对预测变量排序 173<br/>15.11 回到问题3 174<br/>15.12 回到问题4 175<br/>15.13 本章小结 175<br/>参考资料 176<br/> 6章 相关系数均值:评估预测模型和预测变量重要性的统计数据挖掘指标 177<br/>16.1 引言 177<br/>16.2 背景 177<br/>16.3 可靠度和效度的区别 178<br/>16.4 可靠度和效度的关系 178<br/>16.5 平均相关系数 179<br/>16.5.1 图示LTV5模型的平均相关系数 179<br/>16.5.2 LTV5模型的平均相关系数 183<br/>16.5.3 LTV5模型比较 183<br/>16.6 本章小结 184<br/>参考资料 184<br/> 7章 交互变量 CHAID模型 185<br/>17.1 引言 185<br/>17.2 交互变量 185<br/>17.3 交互变量建模策略 185<br/>17.4 基于特殊点的策略 186<br/>17.5 交互变量的回应模型示例 186<br/>17.6 用CHAID找出关系 187<br/>17.7  模型的CHAID 188<br/>17.8 探索 191<br/>17.9 数据库含义 191<br/>17.10 本章小结 192<br/>参考资料 193<br/> 8章 市场细分:逻辑斯谛回归建模 194<br/>18.1 引言 194<br/>18.2 二值逻辑斯谛回归 194<br/>18.3 多分类逻辑斯谛回归模型 195<br/>18.4 使用PLR建模 196<br/>18.5 市场细分的分类模型 196<br/>18.5.1 移动电话用户调研 196<br/>18.5.2 CHAID分析 197<br/>18.5.3 CHAID树状图 199<br/>18.5.4 市场细分分类模型 201<br/>18.6 本章小结 202<br/> 9章 市场细分:时间序列数据LCA 203<br/>19.1 引言 203<br/>19.2 背景 203<br/>19.2.1 k均值聚类分析 203<br/>19.2.2 主成分分析 204<br/>19.2.3 因素分析 204<br/>19.2.4 LCA与FA图示 205<br/>19.3 LCA 206<br/>19.4 LCA与k均值聚类分析 208<br/>19.5 用LCA对时间序列数据进行市场细分 210<br/>19.5.1 目标 210<br/>19.5.2  LCA模型 212<br/>19.6 本章小结 216<br/>附录19.A 建立UNITS的趋势3 217<br/>附录19.B POS-ZER-NEG建立趋势4 219<br/>参考资料 220<br/>第20章 市场细分:理解细分群体的便捷途径 221<br/>20.1 引言 221<br/>20.2 背景 221<br/>20.3 示例 221<br/>20.4 解读各个细分市场 222<br/>20.5 本章小结 223<br/>附录 20.A SAMPLE数据集 223<br/>附录 20.B 分类变量的均值 224<br/>附录 20.C 指数化数据 224<br/>参考资料 225<br/>第21章 统计回归模型:理解模型的简单方法 226<br/>21.1 引言 226<br/>21.2 背景 226<br/>21.3 用于逻辑斯谛回归模型的EZ法 227<br/>21.4 逻辑斯谛回归的EZ法示例的讨论 228<br/>21.5 本章小结 231<br/>附录21.A 基于M65分布的X10~X14均值 231<br/>附录21.B 建立10个数据集(每个十分位区间一个) 232<br/>附录21.C 十分位的指数化信息 233<br/>第22章 CHAID:填充缺失值的方法 238<br/>22.1 引言 238<br/>22.2 数据缺失问题 238<br/>22.3 与数据缺失相关的假设 240<br/>22.4 CHAID填充法 241<br/>22.5 示例 242<br/>22.5.1 连续变量的CHAID均值填充 242<br/>22.5.2 面向连续变量的大量缺失值CHAID均值填充 243<br/>22.5.3 LIFE_DOL的回归树填充 244<br/>22.6 CHAID面向单个类别变量的 似然类别填充 246<br/>22.6.1 填充性别变量的CHAID 似然类别法 246<br/>22.6.2 填充性别变量的分类树法 248<br/>22.7 本章小结 250<br/>参考资料 251<br/>第23章 大数据建模 252<br/>23.1 引言 252<br/>23.2 背景 252<br/>23.3 CCA-PCA分析法:具体案例 253<br/>23.4 用完整数据集构建回应模型 255<br/>23.5 用不完整数据集构建回应模型 256<br/>23.6 基于PCA-BICA数据构建回应模型 258<br/>23.6.1 基于主成分分析并经二值转换的不完整数据回应模型分析结果 259<br/>23.6.2 综合CCA与PCA-BICA的回应模型结果 259<br/>23.7 本章小结 260<br/>附录23.A NMISS 261<br/>附录23.B 测试完整样本分析法的样本大小 261<br/>附录23.C CCA-CIA数据集 261<br/>附录23.D 1和0 262<br/>参考资料 262<br/>第24章 艺术、科学、数字和诗歌 263<br/>24.1 引言 263<br/>24.2 零和一 264<br/>24.3 思考的力量 264<br/>24.4 统计黄金法则:衡量统计实践的艺术和科学 266<br/>24.5 本章小结 268<br/>参考资料 268<br/>第25章 识别 客户:描述性、预测性和相似性描述 269<br/>25.1 引言 269<br/>25.2 相关概念 269<br/>25.3 对有缺陷的客户进行描述 269<br/>25.4 清晰有效的客户定位 270<br/>25.5 预测性分析 272<br/>25.6 连续变量树状图 275<br/>25.7 相似人群扩展分析 277<br/>25.8 相似树状图的特点 279<br/>25.9 本章小结 279<br/>第26章 营销模型评估 281<br/>26.1 引言 281<br/>26.2 回应模型的准确度 281<br/>26.3 利润模型的准确度 282<br/>26.4 回应模型的十分位分析与累积提升度 283<br/>26.5 利润模型的十分位分析与累积提升度 284<br/>26.6 回应模型的 度 286<br/>26.7 利润模型的 度 287<br/>26.8 回应模型和利润模型的分离性 288<br/>26.9 累积提升度、HL/SWMAD指数以及离散系数的应用指南 288<br/>26.10 本章小结 289<br/>第27章 十分位分析:视角与效果 290<br/>27.1 引言 290<br/>27.2 背景 290<br/>27.3 性能评估:回应模型与随机选择 293<br/>27.4 性能评估:十分位分析 293<br/>27.5 本章小结 298<br/>附录 27.A 计算准确度收益:模型与随机 298<br/>附录27.B 计算 度收益:模型与随机 300<br/>附录27.C 回应模型PROB_est值的十分位分析 301<br/>附录27.D 2×2 十分位表 302<br/>参考资料 305<br/>第28章 T-C净提升度模型:评估试验组与对照组的营销效果 306<br/>28.1 引言 306<br/>28.2 背景 306<br/>28.3 试验营销与对照营销回应模型的建模 308<br/>28.3.1 试验组回应模型建模 308<br/>28.3.2 对照组回应模型建模 310<br/>28.4 T-C净提升度模型 311<br/>28.5 本章小结 315<br/>附录28.A 用Xs做TEST Logistic 315<br/>附录28.B 用Xs做CONTROL Logistic 318<br/>附录28.C 合并计算 320<br/>附录28.D T-C净提升度十分位分析 321<br/>参考资料 325<br/>第29章 自助法在营销中的应用:一种新的模型验证方法 327<br/>29.1 引言 327<br/>29.2 传统模型验证 327<br/>29.3 示例 327<br/>29.4 三个问题 329<br/>29.5 自助法 329<br/>29.6 如何使用自助法 330<br/>29.7 自助法十分位分析验证 332<br/>29.8 其他问题 333<br/>29.9 用自助法评估模型性能 334<br/>29.10 用自助法评估模型效力 337<br/>29.11 本章小结 338<br/>参考资料 339<br/>第30章 用自助法验证逻辑斯谛回归模型 340<br/>30.1 引言 340<br/>30.2 逻辑斯谛回归模型 340<br/>30.3 如何用自助法进行验证 340<br/>30.4 本章小结 341<br/>参考资料 341<br/>第31章 营销模型可视化:用数据深度挖掘模型 342<br/>31.1 引言 342<br/>31.2 图形简史  342<br/>31.3 星形图基础 343<br/>31.4 单变量星形图 345<br/>31.5 多变量星形图 346<br/>31.6 剖面曲线法 346<br/>31.6.1 剖面曲线基础 347<br/>31.6.2 剖面分析 347<br/>31.7 示例 348<br/>31.7.1 回应模型的剖面曲线 349<br/>31.7.2 十分位组剖面曲线 351<br/>31.8 本章小结 353<br/>附录31.A 十分位各人口变量的星形图 353<br/>附录31.B 人口变量各十分位的星形图 355<br/>附录31.C 剖面曲线:各十分位 358<br/>参考资料 360<br/>第32章 预测贡献系数:预测重要性的度量 361<br/>32.1 引言 361<br/>32.2 背景 361<br/>32.3 判定规则示例 362<br/>32.4 预测贡献系数 364<br/>32.5 预测贡献系数的计算 365<br/>32.6 预测贡献系数的另一示例 366<br/>32.7 本章小结 369<br/>参考资料 369<br/>第33章 建模是艺术、科学与诗的结合 370<br/>33.1 引言 370<br/>33.2 灵感来源于莎士比亚的诗 370<br/>33.3 解读 371<br/>33.4 本章小结 373<br/>参考资料 373<br/>第34章 献给数据狂的数据分析12步法 375<br/>34.1 引言 375<br/>34.2 背景 375<br/>34.3 步骤 376<br/>34.4 标记 376<br/>34.5 本章小结 377<br/>附录34.A 数据集IN 377<br/>附录34.B Samsize+ 378<br/>附录34.C 可粘贴副本 378<br/>附录34.D 缺失数据 378<br/>参考资料 379<br/>第35章 遗传回归模型与统计回归模型 380<br/>35.1 引言 380<br/>35.2 背景 380<br/>35.3 目标 380<br/>35.4 GenIQ模型:遗传逻辑斯谛回归 381<br/>35.5 遗传编程法的发展 383<br/>35.6 GenIQ模型的目标及重要特性 384<br/>35.7 GenIQ模型工作原理 385<br/>35.8 本章小结 387<br/>参考资料 388<br/>第36章 数据重用:GenIQ模型的强大数据挖掘技术 389<br/>36.1 引言 389<br/>36.2 数据重用 389<br/>36.3 示例 389<br/>36.3.1 GenIQ利润模型 390<br/>36.3.2 数据重用变量简介 391<br/>36.3.3 数据重用变量GenIQvar_1和GenIQvar_2 392<br/>36.4 调整数据重用定义:GenIQ强化版回归模型 393<br/>36.5 本章小结 395<br/>第37章 数据挖掘技术——离群值的调整 396<br/>37.1 引言 396<br/>37.2 背景 396<br/>37.3 离群值的调整 397<br/>37.3.1 调整离群值的示例 397<br/>37.3.2 GenIQ模型在调整离群值中的作用 399<br/>37.4 本章小结 399<br/>参考资料 399<br/>第38章 过拟合的全新解决方案 400<br/>38.1 引言 400<br/>38.2 背景 400<br/>38.3 利用GenIQ模型解决过拟合问题 402<br/>38.3.1 RANDOM_SPLIT的GenIQ模型 403<br/>38.3.2 RANDOM_SPLIT的GenIQ模型十分位分析 404<br/>38.3.3 类N层分析 405<br/>38.4 本章小结 406<br/>第39章 回顾:为何校直数据如此重要 407<br/>39.1 引言 407<br/>39.2 重申校直数据的重要性 407<br/>39.3 回顾:重述收入变量 408<br/>39.4 回顾:挖掘(xx3,yy3)关系 409<br/>39.5 本章小结 410<br/>第40章 GenIQ 模型的定义与应用 411<br/>40.1 引言 411<br/>40.2 何为优化 411<br/>40.3 何为遗传建模 412<br/>40.4 遗传建模示例 412<br/>40.4.1 复制 414<br/>40.4.2 交叉 414<br/>40.4.3 突变 415<br/>40.5 控制遗传模型运行的参数 416<br/>40.6 遗传建模的优势与限制 416<br/>40.7 营销建模的目标 416<br/>40.8 GenIQ回应模型 417<br/>40.9 GenIQ利润模型 417<br/>40.10 案例研究:回应模型 418<br/>40.11 案例研究:利润模型 420<br/>40.12 本章小结 423<br/>参考资料 423<br/>第41章 如何为营销模型选择 变量 424<br/>41.1 引言 424<br/>41.2 背景 424<br/>41.3 变量选择方法的缺陷 425<br/>41.4 营销模型的目标 427<br/>41.5 用GenIQ进行变量选择 427<br/>41.5.1 GenIQ建模 429<br/>41.5.2 GenIQ模型结构的辨别 430<br/>41.5.3 GenIQ模型变量选择 433<br/>41.6 逻辑斯谛回归模型的非线性替代方法 434<br/>41.7 本章小结 436<br/>参考资料 437<br/>第42章 解读无系数模型 438<br/>42.1 引言 438<br/>42.2 线性回归系数 438<br/>42.2.1 简单普通回归模型示例 439<br/>42.2.2 简单逻辑斯谛回归模型示例 439<br/>42.3 简单回归模型的准回归系数 440<br/>42.3.1 简单回归模型的准回归系数示例 440<br/>42.3.2 简单逻辑斯谛回归模型的准回归系数示例 440<br/>42.3.3 非线性预测中的准回归系数示例 441<br/>42.4 偏准回归系数 443<br/>42.4.1 普适型偏回归系数的计算方法 443<br/>42.4.2 多元逻辑斯谛回归模型示例 444<br/>42.5 无系数模型的准回归系数 449<br/>42.6 本章小结 454<br/>第43章 文本挖掘:入门、示例及TXTDM软件 455<br/>43.1 引言 455<br/>43.2 背景 455<br/>43.3 文本挖掘入门 457<br/>43.4 与文本相关的统计量 458<br/>43.5 文本转换中的二进制数据集 459<br/>43.6 TXTDM文本挖掘程序示例 459<br/>43.7 对文本挖掘模型GenIQ_FAVORED的分析 467<br/>43.7.1 用文字描述 喜欢GenIQ模型的受访者 468<br/>43.7.2 用文字描述 喜欢其他两种模型的受访者 468<br/>43.8 对TXTDM程序加权 469<br/>43.9 文档聚类 469<br/>43.10 本章小结 475<br/>附录43.A 加载Corpus TEXT数据集 476<br/>附录43.B 创建二进制词的中间步骤 476<br/>附录43.C 创建 终的二进制词 477<br/>附录43.D 计算统计量TF、DF、NUM_DOCS和N 478<br/>附录43.E 将GenIQ_FAVORED加入WORDS数据集 479<br/>附录43.F GenIQ_FAVORED的逻辑斯谛分析模型 480<br/>附录43.G 计算字词之间的关系数均值 481<br/>附录43.H 创建TF-IDF 482<br/>附录43.I 用WORDS和TF-IDF的Concat计算WORD_TF-IDF权重 484<br/>附录43.J WORD_RESP与WORD_TF-IDF RESP 485<br/>附录43.K 词干提取 486<br/>附录43.L WORD乘以TF-IDF 486<br/>附录43.M 用剖面的字词对数据集赋权 487<br/>附录43.N 两类法VARCLUS 487<br/>附录43.O 双集群法VARCLUS 488<br/>附录43.P 集群1字词的指向 489<br/>附录43.Q 比较GenIQ模型和随机模型的表现 490<br/>附录43.R 比较自由集群模型和随机模型的表现 491<br/>参考资料 491<br/>第44章 一些我比较喜欢的统计子程序 492<br/>44.1 子程序列表 492<br/>44.2 第5章的平滑散点图(平均值和中位数)—X1和X2 492<br/>44.3  0章的平滑散点图—logit值和概率 496<br/>44.4  6章的平均相关系数—变量Var1、Var2、Var3 499<br/>44.5 第29章的自助法十分位分析—数据来自表23.4(表44.2) 500<br/>44.6 第42章的H幅度共有区域 508<br/>44.7 选项排序、垂直输出的相关性分析 510<br/>44.8 回应模型十分位分析 511<br/>44.9 利润模型十分位分析 515<br/>44.10 平滑时间序列分析数据(三变量的动态中位数) 518<br/>44.11 大量高偏度变量的分析 522<br/>译后记 524