本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
图书基本信息 | |||
图书名称 | 深度强化学习原理与实践 | 作者 | 陈仲铭,何明 著 |
定价 | 99.00元 | 出版社 | 人民邮电出版社 |
ISBN | 9787115505323 | 出版日期 | 2019-05-01 |
字数 | 页码 | 341 | |
版次 | 装帧 | 平装 | |
开本 | 16开 | 商品重量 |
内容提要 | |
本书构建了一个完整的深度强化学习理论和实践体系:从马尔可夫决策过程开始,根据价值函数、策略函数求解贝尔曼方程,到利用深度学习模拟价值网络和策略网络。书中详细介绍了深度强化学习相关算法,如Rainbow、Ape-X算法等,并阐述了相关算法的具体实现方式和代表性应用(如AlphaGo)。此外,本书还深度剖析了强化学习各算法之间的联系,有助于读者举一反三。 n 本书分为四篇:初探强化学习、求解强化学习、求解强化学习进阶和深度强化学习。涉及基础理论到深度强化学习算法框架的各方面内容,反映了深度强化学习领域过去的发展历程和研究进展,有助于读者发现该领域中新的研究问题和方向。 |
目录 | |
第 一篇 初探强化学习 n n 第 1章 强化学习绪论 3 n 1.1 初探强化学习 4 n 1.1.1 强化学习与机器学习 5 n 1.1.2 强化学习与监督学习的区别 6 n 1.1.3 历史发展 8 n 1.2 基础理论 10 n 1.2.1 组成元素 11 n 1.2.2 环境模型 12 n 1.2.3 探索与利用 12 n 1.2.4 预测与控制 13 n 1.2.5 强化学习的特点 14 n 1.3 应用案例 14 n 1.4 强化学习的思考 18 n 1.4.1 强化学习待解决问题 18 n 1.4.2 强化学习的突破点 23 n 1.5 小结 25 n 第 2章 数学基础及环境 26 n 2.1 简介 27 n 2.2 马尔可夫决策过程 27 n 2.2.1 马尔可夫性质 27 n 2.2.2 马尔可夫决策过程 27 n 2.3 强化学习的数学基础理论 29 n 2.3.1 策略 30 n 2.3.2 奖励 30 n 2.3.3 价值函数 31 n 2.4 求解强化学习 31 n 2.4.1 贝尔曼方程 31 n 2.4.2 值函数 32 n 2.4.3 策略 32 n 2.4.4 求解策略 33 n 2.5 示例:HelloGrid迷宫环境 36 n 2.5.1 初识OpenAI Gym库 37 n 2.5.2 建立HelloGrid环境 38 n 2.6 小结 43 n n 第二篇 求解强化学习 n n 第3章 动态规划法 47 n 3.1 动态规划 48 n 3.1.1 动态规划概述 48 n 3.1.2 动态规划与贝尔曼方程 48 n 3.2 策略评估 49 n 3.2.1 策略评估算法 49 n 3.2.2 策略评估算法实现 50 n 3.3 策略改进 54 n 3.4 策略迭代 56 n 3.4.1 策略迭代算法 57 n 3.4.2 策略迭代算法实现 58 n 3.5 值迭代 60 n 3.5.1 值迭代算法 61 n 3.5.2 值迭代算法实现 62 n 3.6 异步动态规划 64 n 3.6.1 In-Place动态规划 65 n 3.6.2 加权扫描动态规划 65 n 3.6.3 实时动态规划 66 n 3.7 讨论 66 n 3.8 小结 67 n 第4章 蒙特卡洛法 68 n 4.1 认识蒙特卡洛法 69 n 4.1.1 经验轨迹 69 n 4.1.2 蒙特卡洛法数学原理 74 n 4.1.3 蒙特卡洛法的特点 74 n 4.2 蒙特卡洛预测 74 n 4.2.1 蒙特卡洛预测算法 75 n 4.2.2 蒙特卡洛预测算法的实现 76 n 4.3 蒙特卡洛评估 80 n 4.4 蒙特卡洛控制 81 n 4.4.1 蒙特卡洛控制概述 82 n 4.4.2 起始点探索 84 n 4.4.3 非起始点探索 85 n 4.4.4 非固定策略 90 n 4.5 小结 96 n 第5章 时间差分法 98 n 5.1 时间差分概述 99 n 5.2 时间差分预测 99 n 5.2.1 时间差分预测原理 99 n 5.2.2 TD(λ)算法 101 n 5.2.3 时间差分预测特点 104 n 5.2.4 CartPole游戏 104 n 5.3 时间差分控制Sarsa算法 106 n 5.3.1 Sarsa算法原理 106 n 5.3.2 Sarsa算法实现 108 n 5.4 时间差分控制Q-learning算法 114 n 5.4.1 Q-learning算法原理 114 n 5.4.2 Q-learning算法实现 115 n 5.5 扩展时间差分控制法 121 n 5.5.1 期望Sarsa算法 121 n 5.5.2 Double Q-learning算法 121 n 5.6 比较强化学习求解法 123 n 5.7 小结 126 n n 第三篇 求解强化学习进阶 n n 第6章 值函数近似法 129 n 6.1 大规模强化学习 130 n 6.2 值函数近似法概述 131 n 6.2.1 函数近似 131 n 6.2.2 值函数近似的概念 133 n 6.2.3 值函数近似的类型 133 n 6.2.4 值函数近似的求解思路 134 n 6.3 值函数近似法原理 135 n 6.3.1 梯度下降算法 135 n 6.3.2 梯度下降与值函数近似 137 n 6.3.3 线性值函数近似法 138 n 6.4 值函数近似预测法 139 n 6.4.1 蒙特卡洛值函数近似预测法 139 n 6.4.2 时间差分TD(0)值函数近似预测法 140 n 6.4.3 TD(λ)值函数近似预测法 141 n 6.5 值函数近似控制法 142 n 6.5.1 值函数近似控制原理 143 n 6.5.2 爬山车游戏 143 n 6.5.3 Q-learning值函数近似 145 n 6.6 小结 156 n 第7章 策略梯度法 157 n 7.1 认识策略梯度法 158 n 7.1.1 策略梯度概述 158 n 7.1.2 策略梯度法与值函数近似法的区别 159 n 7.1.3 策略梯度法的优缺点 160 n 7.2 策略目标函数 161 n 7.2.1 起始价值 162 n 7.2.2 平均价值 162 n 7.2.3 时间步平均奖励 162 n 7.3 优化策略目标函数 163 n 7.3.1 策略梯度 163 n 7.3.2 评价函数 163 n 7.3.3 策略梯度定理 165 n 7.4 有限差分策略梯度法 165 n 7.5 蒙特卡洛策略梯度法 165 n 7.5.1 算法原理 166 n 7.5.2 算法实现 166 n 7.6 演员-评论家策略梯度法 177 n 7.6.1 算法原理 177 n 7.6.2 算法实现 179 n 7.7 小结 185 n 第8章 整合学习与规划 187 n 8.1 基于模型的强化学习概述 188 n 8.1.1 基于模型的强化学习 188 n 8.1.2 基于模型的优点 188 n 8.1.3 基于模型的缺点 189 n 8.2 学习与规划 189 n 8.2.1 学习过程 189 n 8.2.2 规划过程 191 n 8.3 架构整合 192 n 8.3.1 Dyna算法 193 n 8.3.2 优先遍历算法 194 n 8.3.3 期望更新和样本更新 196 n 8.4 基于模拟的搜索 196 n 8.4.1 蒙特卡洛搜索 197 n 8.4.2 蒙特卡洛树搜索 197 n 8.4.3 时间差分搜索 199 n 8.5 示例:国际象棋 199 n 8.5.1 国际象棋与强化学习 200 n 8.5.2 蒙特卡洛树搜索示例 201 n 8.6 小结 203 n n 第四篇 深度强化学习 n n 第9章 深度强化学习 207 n 9.1 深度学习概述 208 n 9.1.1 深度表征 208 n 9.1.2 深度神经网络 208 n 9.1.3 网络可训练 208 n 9.1.4 权值共享 210 n 9.2 深度神经网络(DNN) 210 n 9.2.1 基本单元——神经元 210 n 9.2.2 线性模型与激活函数 211 n 9.2.3 多层神经网络 212 n 9.2.4 训练与预测 213 n 9.3 卷积神经网络(N) 214 n 9.3.1 概述 214 n 9.3.2 卷积神经网络的核心操作 215 n 9.3.3 卷积神经网络的核心思想 218 n 9.4 循环神经网络(RNN) 220 n 9.4.1 序列数据建模 220 n 9.4.2 循环神经网络基本结构 221 n 9.4.3 循环神经网络模型详解 222 n 9.5 回顾强化学习 223 n 9.5.1 智能体和环境 224 n 9.5.2 基于价值的强化学习 225 n 9.5.3 基于策略的强化学习 225 n 9.5.4 基于模型的强化学习 225 n 9.6 深度强化学习 225 n 9.6.1 深度强化学习框架 226 n 9.6.2 深度强化学习应用 227 n 9.7 小结 230 n 第 10章 深度Q网络 231 n 10.1 DQN概述 232 n 10.1.1 深度学习与强化学习的差异对比 232 n 10.1.2 DQN算法简述 232 n 10.2 DQN算法核心思想 235 n 10.2.1 目标函数 235 n 10.2.2 目标网络 236 n 10.2.3 经验回放 236 n 10.3 DQN核心算法 237 n 10.3.1 DQN网络模型 237 n 10.3.2 DQN算法流程 239 n 10.3.3 DQN算法实现 243 n 10.4 DQN扩展 256 n 10.4.1 Double DQN 257 n 10.4.2 Prioritized DQN 257 n 10.4.3 Dueling DQN 258 n 10.5 小结 259 n 第 11章 深度强化学习算法框架 260 n 11.1 DDPG算法 261 n 11.1.1 背景介绍 261 n 11.1.2 基本概念及算法原理 262 n 11.1.3 DDPG实现框架及流程 264 n 11.2 A3C算法 268 n 11.2.1 背景介绍 269 n 11.2.2 A3C算法原理 269 n 11.2.3 异步实现框架及流程 272 n 11.2.4 实验效果 274 n 11.3 Rainbow算法 275 n 11.3.1 背景介绍 275 n 11.3.2 Rainbow算法流程 279 n 11.3.3 实验效果 280 n 11.4 Ape-X 算法 280 n 11.4.1 背景介绍 281 n 11.4.2 Ape-X算法架构 281 n 11.4.3 Ape-X算法流程 282 n 11.4.4 实验效果 284 n 11.5 小结 285 n 第 12章 从围棋AlphaGo到AlphaGo Zero 287 n 12.1 人工智能与围棋 288 n 12.1.1 强化学习与围棋 288 n 12.1.2 AlphaGo进化阶段 289 n 12.1.3 AlphaGo版本对比 290 n 12.2 AlphaGo算法详解 292 n 12.2.1 策略网络 293 n 12.2.2 价值网络 295 n 12.2.3 蒙特卡洛树搜索 296 n 12.2.4 实验结果 298 n 12.3 AlphaGo Zero算法详解 299 n 12.3.1 问题定义 299 n 12.3.2 联合网络 299 n 12.3.3 强化学习过程 300 n 12.3.4 蒙特卡洛树搜索 301 n 12.3.5 实验结果 303 n 12.4 思考 305 n 12.5 小结 305 n n 附录部分 n n 附录A 激活函数 309 n 附录B 损失函数 314 n 附录C 深度学习的超参数 319 n 附录D 深度学习的技巧 322 n 附录E 反向传播算法 329 n 参考文献 336 |
作者介绍 | |
陈仲铭,西安电子科技大学硕士,OPPO研究院人工智能算法研究员。主要研究方向为强化学习与深度学习、数据挖掘、图像算法及其应用。曾参与激光点云三维扫描、个性化推荐系统、多传感器融合系统等大型项目,多次获创新项目奖,并在外发表多篇相关论文。此外,作为技术顾问为多家科研机构和企业提供关于数学建模、深度学习等方面的咨询和培训。著有《深度学习原理与实践》一书。 n n 何明,重庆大学学士,中国科学技术大学博士,曾于美国北卡罗来纳大学夏洛特分校访问交流,目前为上海交通大学电子科学与技术方向博士后研究人员、OPPO研究院人工智能算法研究员。主要研究方向为深度强化学习、数据挖掘与知识发现、机器学习方法及其应用,侧重于移动端用户行为分析与建模。在TIP、TWEB、DASFAA、IEEE Access等国际学术会议和期刊共发表论文10余篇,曾获数据挖掘领域国际会议KSEM2018论文奖。 |
编辑推荐 | |
1.中国科学院院士张景中,中国科学技术大学大数据学院常务副院长陈恩红,OPPO研究院院长刘畅,倾情作序推荐! n 2.内容系统详实:本书构建了一个完整的强化学习知识体系,不仅涵盖经典强化学习的内容,还包括深度强化学习的重要成果——DQN算法、A3C算法、Rainbow算法等。使读者了解强化学习的发展历史和重要成果,助力其在强化学习领域进行创新研究和应用实践,进而找到更有价值的研究课题和应用方向。 n 3.兼顾理论与实践:深入全面讲解掌握深度强化学习的理论知识,并结合Pytho3代码案例,将算法快速落地,降低读者的学习门槛和入门难度。 n 4.读者受众广泛:在结构布局和逻辑梳理上,兼顾了学术界和工业界读者的不同需求,既适用于技术工程师,也适用于研究人员和学生群体。 n 5.贴近技术前沿:详细介绍近年来在强化学习领域的研究进展和成果,尽可能保证本书的时效性,对学术研究和实际工作都具有很高的参考和应用价值。 n 6.配套源码资源:本书提供分章的配套源码,读者可到异步社区中下载并使用。 |