基本信息
书名:统计强化学习:现代机器学习方法
定价:79.00元
作者:[日]杉山将(MasashiSugiyama),高阳等
出版社:机械工业出版社
出版日期:2019-05-01
ISBN:9787111622451
字数:
页码:188
版次:188
装帧:平装
开本:16开
商品重量:
编辑推荐
内容提要
本书从现代机器学习的视角介绍了统计强化学习的基本概念和实用算法。它涵盖了各种类型的强化学习方法,包括基于模型的方法和与模型无关的方法,策略迭代和策略搜索方法。
目录
译者序 n
序 n
前言 n
作者简介 n
部分 简介 n
章 强化学习介绍3 n
1.1 强化学习3 n
1.2 数学形式化8 n
1.3 本书结构11 n
1.3.1 模型无关策略迭代11 n
1.3.2 模型无关策略搜索12 n
1.3.3 基于模型的强化学习13 n
第二部分 模型无关策略迭代 n
第2章 基于值函数近似的策略迭代17 n
2.1 值函数17 n
2.1.1 状态值函数17 n
2.1.2 状态-动作值函数18 n
2.2 小二乘策略迭代19 n
2.2.1 瞬时奖赏回归20 n
2.2.2 算法21 n
2.2.3 正则化23 n
2.2.4 模型选择25 n
2.3 本章小结26 n
第3章 值函数近似中的基函数设计27 n
3.1 图中的高斯核27 n
3.1.1 MDP-诱导图27 n
3.1.2 通用高斯核28 n
3.1.3 测地线高斯核29 n
3.1.4 扩展到连续状态空间30 n
3.2 图解说明30 n
3.2.1 配置30 n
3.2.2 测地线高斯核31 n
3.2.3 通用高斯核33 n
3.2.4 图拉普拉斯特征基33 n
3.2.5 扩散小波35 n
3.3 数值示例35 n
3.3.1 机器人手臂控制35 n
3.3.2 机器人导航39 n
3.4 本章小结46 n
第4章 策略迭代中的样本重用47 n
4.1 形式化47 n
4.2 离策略值函数近似48 n
4.2.1 片段重要性加权49 n
4.2.2 每次决策的重要性加权50 n
4.2.3 自适应的每次决策重要性加权50 n
4.2.4 图解说明51 n
4.3 展平参数的自动选择54 n
4.3.1 重要性加权交叉验证54 n
4.3.2 图解说明55 n
4.4 样本重用策略迭代56 n
4.4.1 算法56 n
4.4.2 图解说明56 n
4.5 数值示例58 n
4.5.1 倒立摆58 n
4.5.2 小车爬山61 n
4.6 本章小结64 n
第5章 策略迭代中的主动学习65 n
5.1 主动学习的高效探索65 n
5.1.1 问题配置65 n
5.1.2 泛化误差的分解66 n
5.1.3 估计泛化误差67 n
5.1.4 设计采样策略68 n
5.1.5 图解说明69 n
5.2 主动策略迭代72 n
5.2.1 具有主动学习的样本重用策略迭代72 n
5.2.2 图解说明73 n
5.3 数值示例74 n
5.4 本章小结76 n
第6章 鲁棒策略迭代79 n
6.1 策略迭代中的鲁棒性和可靠性79 n
6.1.1 鲁棒性79 n
6.1.2 可靠性80 n
6.2 小策略迭代81 n
6.2.1 算法81 n
6.2.2 图解说明81 n
6.2.3 性质82 n
6.3 数值示例83 n
6.4 可能的拓展88 n
6.4.1 Huber损失88 n
6.4.2 pinball损失89 n
6.4.3 deadzone-linear损失90 n
6.4.4 切比雪夫逼近90 n
6.4.5 条件风险值91 n
6.5 本章小结92 n
第三部分 模型无关策略搜索 n
第7章 梯度上升的直接策略搜索95 n
7.1 形式化95 n
7.2 梯度方法96 n
7.2.1 梯度上升96 n
7.2.2 方差约简的基线减法98 n
7.2.3 梯度估计量的方差分析99 n
7.3 自然梯度法101 n
7.3.1 自然梯度上升101 n
7.3.2 图解说明103 n
7.4 计算机图形中的应用:艺术家智能体104 n
7.4.1 东方山水画绘画104 n
7.4.2 状态、动作和瞬时奖赏的设计106 n
7.4.3 实验结果111 n
7.5 本章小结113 n
第8章 期望化的直接策略搜索117 n
8.1 期望化方法117 n
8.2 样本重用119 n
8.2.1 片段重要性加权119 n
8.2.2 每次决策的重要性加权122 n
8.2.3 自适应的每次决策重要性加权123 n
8.2.4 展平参数的自动选择123 n
8.2.5 样本重用的加权奖赏回归125 n
8.3 数值示例125 n
8.4 本章小结131 n
第9章 策略优先搜索133 n
9.1 形式化133 n
9.2 基于参数探索的策略梯度134 n
9.2.1 策略优先的梯度上升134 n
9.2.2 方差约简的基线减法135 n
9.2.3 梯度估计量的方差分析136 n
9.2.4 数值示例138 n
9.3 策略优先搜索中的样本重用142 n
9.3.1 重要性加权142 n
9.3.2 基线减法的方差约简144 n
9.3.3 数值示例146 n
9.4 本章小结153 n
第四部分 基于模型的强化学习 n
0章 转移模型估计157 n
10.1 条件密度估计157 n
10.1.1 基于回归的方法157 n
10.1.2 ε-邻域核密度估计158 n
10.1.3 小二乘条件密度估计159 n
10.2 基于模型的强化学习161 n
10.3 数值示例162 n
10.3.1 连续型链条游走162 n
10.3.2 人形机器人控制167 n
10.4 本章小结171 n
1章 转移模型估计的维度约简173 n
11.1 充分维度约简173 n
11.2 平方损失条件熵173 n
11.2.1 条件独立174 n
11.2.2 利用SCE进行维度约简175 n
11.2.3 SCE与平方损失互信息的关系176 n
11.3 数值示例176 n
11.3.1 人工和标准数据集176 n
11.3.2 人形机器人179 n
11.4 本章小结182 n
参考文献183
作者介绍
杉山将(Masashi Sugiyama) 东京大学教授,研究兴趣为机器学习与数据挖掘的理论、算法和应用。2007年获得IBM学者奖,以表彰其在机器学习领域非平稳性方面做出的贡献。2011年获得日本信息处理协会颁发的Nagao特别研究员奖,以及日本文部科学省颁发的青年科学家奖,以表彰其对机器学习密度比范型的贡献。
序言