《新书动手学强化学机器学实战人工智能深度学程序设计*经网络前端开发书籍python强化学PyTorch框架编程程序设计》[68M]百度网盘|pdf下载|亲测有效
《新书动手学强化学机器学实战人工智能深度学程序设计*经网络前端开发书籍python强化学PyTorch框架编程程序设计》[68M]百度网盘|pdf下载|亲测有效

新书动手学强化学机器学实战人工智能深度学程序设计*经网络前端开发书籍python强化学PyTorch框架编程程序设计 pdf下载

出版社 云聚算图书专营店
出版年 2022-05
页数 390页
装帧 精装
评分 8.7(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供新书动手学强化学机器学实战人工智能深度学程序设计*经网络前端开发书籍python强化学PyTorch框架编程程序设计电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com


内容介绍

本书系统地介绍了强化学的原理和实现,是*本理论扎实、落地性强的图书。 本书*含3个*分:第**分为强化学基础,讲解强化学的基础概念和表格型强化学方法;第二*分为强化学进*,讨论深度强化学的思维方式、深度*值函数和深度策略学方法;第三*分为强化学前沿,介绍学术界在深度强化学*域的主要关注方向和前沿算法。同时,本书提供配套的线上代码实践平台,展示源码的编写和运行过程,让读者进*步掌握强化学算法的运行机制。 本书理论与实践并重,在介绍强化学理论的同时,辅之以线上代码实践平台,帮助读者通过实践加深对理论的理解。本书适合对强化学感兴趣的*校学生、教师,以及相关行业的开发和研究人员阅读、实践。
目录

第 **分 强化学基础
第 * 章 初探强化学            2
*.* 简介                        2
*.2 什么是强化学                 2
*.3 强化学的环境                 4
*.4 强化学的目标                 4
*.5 强化学中的数据               5
*.6 强化学的**性               6
*.7 小结                        6
第 2 章 多臂老虎机问题           7
2.* 简介                        7
2.2 问题介绍                      7
2.2.* 问题定义                   7
2.2.2 形式化描述                 8
2.2.3 累积懊悔                    8
2.2.4 估计期望奖励                8
2.3 探索与利用的平衡                *0
2.4  -贪婪算法                   **
2.5 上置信界算法                   *4
2.6 汤普森采样算法                 *6
2.7 小结                         *8
2.8 参考文献                      *8
第 3 章 马尔可夫决策过程         *9
3.* 简介                        *9
3.2 马尔可夫过程                   *9
3.2.* 随机过程                  *9
3.2.2 马尔可夫性质               *9
3.2.3 马尔可夫过程               20
3.3 马尔可夫奖励过程                2*
3.3.* 回报                       2*
3.3.2 *值函数                   22
3.4 马尔可夫决策过程               24
3.4.* 策略                       25
3.4.2 状态*值函数               25
3.4.3 动作*值函数               25
3.4.4 贝尔曼期望方程              25
3.5 蒙*卡洛方法                  28
3.6 占用度量                      3*
3.7 最*策略                     32
3.8 小结                        33
3.9 参考文献                     33
第 4 章 动态规划算法             34
4.* 简介                        34
4.2 悬崖漫步环境                  34
4.3 策略迭代算法                  36
4.3.* 策略评估                    36
4.3.2 策略提*                   36
4.3.3 策略迭代                   37
4.4 *值迭代算法                  40
4.5 冰湖环境                     42
4.6 小结                        45
4.7 扩展阅读:收敛性证明            45
4.7.* 策略迭代                  45
4.7.2 *值迭代                   45
4.8 参考文献                     46
第 5 章 时序差分算法           47
5.* 简介                       47
5.2 时序差分                     48
5.3 Sarsa 算法                   48
5.4 多步 Sarsa 算法               53
5.5 Q-learning 算法               56
5.6 小结                        60
5.7 扩展阅读:Q-learning 收敛性证明    6*
5.8 参考文献                     62
第 6 章 Dyna-Q 算法           63
6.* 简介                        63
6.2 Dyna-Q                    63
6.3 Dyna-Q 代码实践             64
6.4 小结                        69
6.5 参考文献                     69

第二*分 强化学进*
第 7 章 DQN算法              72
7.* 简介                       72
7.2 车杆环境                     72
7.3 DQN                      73
7.3.* 经验回放                  74
7.3.2 目标网络                   74
7.4 DQN代码实践                75
7.5 以图像作为输入的DQN算法       79
7.6 小结                        80
7.7 参考文献                     80
第 8 章 DQN改进算法            8*
8.* 简介                        8*
8.2 Double DQN                 8*
8.3 Double DQN代码实践          82
8.4 Dueling DQN                88
8.5 Dueling DQN代码实践          90
8.6 小结                        93
8.7 扩展阅读:对Q值过*估计的定量分析    93
8.8 参考文献                     94
第 9 章 策略梯度算法           95
9.* 简介                       95
9.2 策略梯度                     95
9.3 REINFORCE                 96
9.4 REINFORCE代码实践          97
9.5 小结                        *00
9.6 扩展阅读:策略梯度证明          *00
9.7 参考文献                     *02
第 *0 章 Actor-Critic算法       *03
*0.* 简介                      *03
*0.2 Actor-Critic                *03
*0.3 Actor-Critic代码实践          *05
*0.4 小结                       *08
*0.5 参考文献                   *08
第 ** 章 TRPO算法            *09
**.* 简介                       *09
**.2 策略目标                    *09
**.3 近似求解                     ***
**.4 共轭梯度                   **2
**.5 线性搜索                    **2
**.6 广义*势估计                 **3
**.7 TRPO代码实践              **4
**.8 小结                      *22
**.9 参考文献                   *23
第 *2 章 PPO算法             *24
*2.* 简介                      *24
*2.2 PPO-惩罚                  *24
*2.3 PPO-截断                  *25
*2.4 PPO代码实践               *25
*2.5 小结                      *3*
*2.6 参考文献                   *32
第 *3 章 DDPG算法           *33
*3.* 简介                       *33
*3.2 DDPG                    *33
*3.3 DDPG代码实践               *35
*3.4 小结                      *40
*3.5 扩展阅读:确定性策略梯度定理的证明    *40
*3.6 参考文献                   *4*
第 *4 章 SAC算法             *42
*4.* 简介                      *42
*4.2 *大熵强化学               *42
*4.3 Soft策略迭代                *43
*4.4 SAC                      *43
*4.5 SAC代码实践               *45
*4.6 小结                      *54
*4.7 参考文献                   *55

第三*分 强化学前沿
第 *5 章 模仿学              *58
*5.* 简介                       *58
*5.2 行为克隆                   *59
*5.3 生成对抗模仿学             *59
*5.4 代码实践                   *60
*5.4.* 生成*家数据               *60
*5.4.2 行为克隆的代码实践         *63
*5.4.3 生成对抗模仿学的代码实践        *65
*5.5 小结                      *67
*5.6 参考文献                   *68
第 *6 章 模型预测控制           *69
*6.* 简介                      *69
*6.2 打靶法                     *69
*6.2.* 随机打靶法                *70
*6.2.2 交叉熵方法                *70
*6.3 PETS算法                 *7*
*6.4 PETS算法实践              *72
*6.5 小结                      *79
*6.6 参考文献                   *79
第 *7 章 基于模型的策略*化      *80
*7.* 简介                      *80
*7.2 MBPO算法                 *80
*7.3 MBPO代码实践             *8*
*7.4 小结                      *92
*7.5 拓展阅读:MBPO理论分析      *92
*7.5.* 性能提*的单调性*障      *92
*7.5.2 模型推演长度              *92
*7.6 参考文献                   *93
第 *8 章 离线强化学          *94
*8.* 简介                      *94
*8.2 批量限制 Q-learning算法       *95
*8.3 *守 Q-learning算法          *97
*8.4 CQL代码实践               *99
*8.5 小结                     208
*8.6 扩展阅读                  208
*8.7 参考文献                   2*0
第 *9 章 目标导向的强化学       2**
*9.* 简介                      2**
*9.2 问题定义                   2**
*9.3 HER算法                  2*2
*9.4 HER代码实践               2*3
*9.5 小结                      22*
*9.6 参考文献                   22*
第 20 章 多智能体强化学入门    222
20.* 简介                     222
20.2 问题建模                   223
20.3 多智能体强化学的基本求解范式  223
20.4 IPPO算法                 223
20.5 IPPO代码实践              224
20.6 小结                      228
20.7 参考文献                   229
第 2* 章 多智能体强化学进*    230
2*.* 简介                      230
2*.2 MADDPG算法             230
2*.3 MADDPG代码实践          232
2*.4 小结                     240
2*.5 参考文献                  240
总结与展望                  24*
总结                           24*
展望:克服强化学的落地挑战          24*
中英文术语对照表与符号表         244
中英文术语对照表                  244
符号表                        246


作者介绍

张伟楠,上海交通大学副教授,博士生导师,ACM班机器学、强化学课程授课老师,吴文俊人工智能*秀青年奖、达摩院青橙奖得主,获得中*科协“青年人才托举工程”支持。他的科研*域*括强化学、数据挖掘、知识图谱、深度学以及这些技术在推荐系统、搜索引擎、文本分析等场景中的应用。他在*际会议和期刊上发表了*00余篇相关*域的学术论文,于20*6年在英*伦敦大学学院(UCL)计算机系获得博士学位。 沈键,上海交通大学APEX实验室博士生,师从俞勇教授,研究方向为深度学、强化学和教育数据挖掘。在攻读博士期间,他以第*作者身份发表机器学*际会议NeurIPS、AAAI论文,参与发表多篇机器学和数据挖掘*际会议(*括ICML、IJCAI、SIGIR、KDD、AISTATS等)论文,并担任多个*际会议和SCI学术期刊的审稿人。 俞勇,享受*务院*殊津贴*家,教学*,上海交通大学*聘教授,APEX实验室主任,上海交通大学ACM班*始人。俞勇教授曾获得“*家*层次人才*殊支持计划”教学*、“上海市教学*奖”“**师德标兵”“上海交通大学校长奖”和“最受学生欢迎教师”等荣誉。他于20*8年*办了伯禹人工智能学院,在上海交通大学ACM班人工智能*业课程体系的基础上,对AI课程体系进行*新,*力于培养*越的AI算法工程师和研究员。

^_^:60ddae69c49af2a7b6106ad801bd44d4