统计强化学习pdf下载pdf下载

统计强化学习百度网盘pdf下载

作者:
简介:本篇主要提供统计强化学习pdf下载
出版社:博库网旗舰店
出版时间:2019-05
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

  • 商品名称:统计强化学习(现代机器学习方法)/智能科学与技术丛书
  • 作者:(日)杉山将|译者:高阳
  • 定价:79
  • 出版社:机械工业
  • ISBN号:9787111622451

其他参考信息(以实物为准)

  • 出版时间:2019-05-01
  • 印刷时间:2019-05-01
  • 版次:1
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:188

编辑 语

本书为强化学习算法引入了一种发人深省的统计处理方法,反映了作者在该领域的工作和研究状态,为快速发展的机器学习文献补充了 新的资料。初学者和经验丰富的研究人员都会发现此书是理解 新强化学习技术的重要来源。

作者简介

杉山将(Masashi Sugiyama)东京大学教授,拥有东京工业大学计算机科学博士学位,研究兴趣包括机器学习与数据挖掘的理论、算法和应用,涉及信号处理、图像处理、机器人控制等。2007年获得IBM学者奖,以表彰其在机器学习领域非平稳性方面做出的贡献。2011年获得日本信息处理协会颁发的Nagao特别研究员奖,以及日本文部科学省颁发的青年科学家奖,以表彰其对机器学习密度比范型的贡献。

目录

译者序

前言
作者简介
部分 简介
第1章 强化学习介绍
1.1 强化学习
1.2 数学形式化
1.3 本书结构
1.3.1 模型无关策略迭代
1.3.2 模型无关策略搜索
1.3.3 基于模型的强化学习
第二部分 模型无关策略迭代
第2章 基于值函数近似的策略迭代
2.1 值函数
2.1.1 状态值函数
2.1.2 状态-动作值函数
2.2 小二乘策略迭代
2.2.1 瞬时奖赏回归
2.2.2 算法
2.2.3 正则化
2.2.4 模型选择
2.3 本章小结
第3章 值函数近似中的基函数设计
3.1 图中的高斯核
3.1.1 MDP-诱导图
3.1.2 通用高斯核
3.1.3 测地线高斯核
3.1.4 扩展到连续状态空间
3.2 图解说明
3.2.1 配置
3.2.2 测地线高斯核
3.2.3 通用高斯核
3.2.4 图拉普拉斯特征基
3.2.5 扩散小波
3.3 数值示例
3.3.1 机器人手臂控制
3.3.2 机器人导航
3.4 本章小结
第4章 策略迭代中的样本重用
4.1 形式化
4.2 离策略值函数近似
4.2.1 片段重要性加权
4.2.2 每次决策的重要性加权
4.2.3 自适应的每次决策重要性加权
4.2.4 图解说明
4.3 展平参数的自动选择
4.3.1 重要性加权交叉验证
4.3.2 图解说明
4.4 样本重用策略迭代