深度强化学习基础、研究与应用pdf下载pdf下载

深度强化学习基础、研究与应用百度网盘pdf下载

作者:
简介:本篇主要提供深度强化学习基础、研究与应用pdf下载
出版社:文轩网旗舰店
出版时间:2021-07
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

作  者:董豪 等 著
定  价:129
出 版 社:电子工业出版社
出版日期:2021年07月01日
页  数:520
装  帧:平装
ISBN:9787121411885
主编推荐
"本书重在为企业开发者和决策者提供Flutter的完整解决方案。 面向企业级应用场景下的绝大多数问题和挑战,都能在本书中获得答案。 注重单点问题的深耕与解决,如针对行业内挑战较大的、复杂场景下的性能问题。 本书通过案例与实际代码传达实践过程中的主要思路和关键实现。 本书采用全彩印刷,提供良好阅读体验。 "
目录
基础部分1
章深度学习入门2
1.1简介2
1.2感知器3
1.3多层感知器7
1.4激活函数9
1.5损失函数11
1.6优化13
1.6.1梯度下降和误差的反向传播13
1.6.2随机梯度下降和自适应学习率15
1.6.3超参数筛选17
1.7正则化18
1.7.1过拟合18
1.7.2权重衰减18
1.7.3Dropout20
1.7.4批标准化20
1.7.5其他缓和过拟合的方法21
1.8卷积神经网络22
1.9循环神经网络25
1.10深度学实现样例28
1.10.1张量和梯度28
1.10.2定义模型29
1.10.3自定义层31
1.10.4多层感知器:MNIST数据集上的图像分类33
1.10.5卷积神经网络:CIFAR-10数据集上的图像分类35
1.10.6序列到序列模型:聊天机器人36
第2章强化学习入门43
2.1简介43
2.2在线预测和在线学习46
2.2.1简介46
2.2.2随机多臂48
2.2.3对抗多臂50
2.2.4上下文51
2.3马尔可夫过程52
2.3.1简介52
2.3.2马尔可夫奖励过程54
2.3.3马尔可夫决策过程57
2.3.4贝尔曼方程和优性61
2.3.5其他重要概念
2.4动态规划
2.4.1策略迭代65
2.4.2价值迭代67
2.4.3其他DPs:异步DP、近似DP和实时DP68
2.5蒙特卡罗70
2.5.1蒙特卡罗预测70
2.5.2蒙特卡罗控制71
2.5.3增量蒙特卡罗72
2.6时间差分学习73
2.6.1时间差分预测73
2.6.2Sarsa:在线策略TD控制77
2.6.3Q-Learning:离线策略TD控制80
2.7策略优化80
2.7.1简介80
2.7.2基于价值的优化84
2.7.3基于策略的优化89
2.7.4结合基于策略和基于价值的方法105
第3章强化学习算法分类110
3.1基于模型的方法和无模型的方法111
3.2基于价值的方法和基于策略的方法113
3.3蒙特卡罗方法和时间差分方法114
3.4在线策略方法和离线策略方法115
第4章深度Q网络119
4.1Sarsa和Q-Learning121
4.2为什么使用深度学习:价值函数逼近121
4.3DQN123
4.4Double DQN124
4.5Dueling DQN125
4.6优先经验回放127
4.7其他改进内容:多步学习、噪声网络和值分布强化学习128
4.8DQN代码实例131
第5章策略梯度146
5.1简介146
5.2REINFORCE:初版策略梯度147
5.3Actor-Critic149
5.4生成对抗网络和Actor-Critic150
5.5同步优势Actor-Critic152
5.6异步优势Actor-Critic153
5.7信赖域策略优化154
5.8近端策略优化157
5.9使用Kronecker因子化信赖域的Actor-Critic159
5.10策略梯度代码例子162
5.10.1相关的Gym环境162
5.10.2REINFORCE:AtariPong和CartPole-V0165
5.10.3AC:CartPole-V0173
5.10.4A3C:BipedalWalker-v2176
5.10.5TRPO:Pendulum-V0181
5.10.6PPO:Pendulum-V0192
第6章深度Q网络和Actor-Critic的结合200
6.1简介200
6.2深度确定性策略梯度算法201
6.3孪生延迟DDPG算法203
柔性Actor-Critic算法206
.1柔性策略迭代206
.2SAC207
6.5代码例子209
6.5.1相关的Gym环境209
6.5.2DDPG:Pendulum-V0209
6.5.3TD3:Pendulum-V0215
6.5.4SAC:Pendulum-v0225
研究部分236
第7章深度强化学挑战237
7.1样本效率237
7.2学习稳定性240
7.3灾难性遗忘242
7.4探索243
7.5元学习和表征学习245
7.6多智能体强化学习246
7.7模拟到现实247
7.8大规模强化学习251
7.9其他挑战252
第8章模仿学习258
8.1简介258
8.2行为克隆方法260
8.2.1行为克隆方法的挑战260
8.2.2数据集聚合261
8.2.3Variational Dropout262
8.2.4行为克隆的其他方法262
8.3逆向强化学习方法263
8.3.1简介263
8.3.2逆向强化学习方法的挑战2
8.3.3生成对抗模仿学习265
8.3.4生成对抗网络指导性代价学习266
8.3.5对抗性逆向强化学习268
8.4从观察量进行模仿学习269
8.4.1基于模型方法269
8.4.2无模型方法272
8.4.3从观察量模仿学挑战277
8.5概率性方法277
8.6模仿学习作为强化学初始化279
8.7强化学习中利用示范数据的其他方法280
8.7.1将示范数据导入经验回放缓存280
8.7.2标准化Actor-Critic281
8.7.3用示范数据进行奖励塑形282
8.8总结282
第9章集成学习与规划289
9.1简介289
9.2基于模型的方法290
9.3集成模式架构292
9.4基于模拟的搜索293
9.4.1朴素蒙特卡罗搜索294
9.4.2蒙特卡罗树搜索294
9.4.3时间差分搜索295
0章分层强化学习298
10.1简介298
10.2选项框架299
10.2.1战略专注作家300
10.2.2选项-批判者结构303
10.3封建制强化学习305
10.3.1封建制网络305
10.3.2离线策略修正307
10.4其他工作309
1章多智能体强化学习315
11.1简介315
11.2优化和均衡316
11.2.1纳什均衡317
11.2.2关联性均衡318
11.2.3斯塔克尔伯格博弈320
11.3竞争与合作321
11.3.1合作321
11.3.2零和博弈321
11.3.3同时决策下的竞争322
11.3.4顺序决策下的竞争323
11.4博弈分析架构324
2章并行计算326
12.1简介326
12.2同步和异步327
12.3并行计算网络329
12.4分布式强化学习算法330
12.4.1异步优势Actor-Critic330
12.4.2GPU/CPU混合式异步优势Actor-Critic332
12.4.3分布式近端策略优化333
12.4.4重要性加权的行动者-学习者结构和可扩展高效深度强化学习336
12.4.5Ape-X、回溯-行动者和分布式深度循环回放Q网络338
12.4.6Gorila340
12.5分布式计算架构340
应用部分343
3章Learning to Run344
13.1NeurIPS 2017挑战:Learning to Run344
13.1.1环境介绍344
13.1.2安装346
13.2训练智能体347
13.2.1并行训练348
13.2.2小技巧351
13.2.3学习结果352
4章鲁棒的图像增强354
14.1图像增强354
14.2用于鲁棒处理的强化学习356
5章AlphaZero366
15.1简介366
15.2组合博弈367
15.3蒙特卡罗树搜索370
15.4AlphaZero:棋类游戏的通用算法376
6章模拟环境中机器人学习388
16.1机器人模拟389
16.2强化学习用于机器人任务405
16.2.1并行训练407
16.2.2学习效果407
16.2.3域随机化408
16.2.4机器人学习基准409
16.2.5其他模拟器409
7章Arena:多智能体强化学台412
17.1安装413
17.2用Arena开发游戏413
17.2.1简单的单玩家游戏414
17.2.2简单的使用奖励机制的双玩家游戏416
17.2.3不错设置420
17.2.4导出二进制游戏424
17.3MARL训练427
17.3.1设置X-Server427
17.3.2进行训练429
17.3.3可视化431
17.3.4致谢431
8章深度强化学习应用实践技巧433
18.1概览:如何应用深度强化学习433
18.2实现阶段434
18.3训练和调试阶段440
总结部分445
附录A算法总结表446
附录B算法速查表451
B.1深度学习451
B.1.1随机梯度下降451
B.1.2Adam优化器452
B.2强化学习452
B.2.1452
B.2.2动态规划453
B.2.3蒙特卡罗454
B.3深度强化学习458
B.4高等深度强化学习467
B.4.1模仿学习467
B.4.2基于模型的强化学习468
B.4.3分层强化学习470
B.4.4多智能体强化学习471
B.4.5并行计算472
附录C中英文对照表476
内容简介
深度强化学习结合深度学习与强化学习算法各自的优势解决复杂的决策任务。得益于DeepMind AlphaGo和OpenAI Five成功的案例,深度强化学习受到大量的关注,相关技术广泛应用于不同的领域。本书分为三大部分,覆盖深度强化学全部内容。分介绍深度学习和强化学入门知识、一些很好基础的深度强化学习算法及其实现细节,包括~6章。第二部分是一些精选的深度强化学习研究题目,这些内容对准备开展深度强化学习研究的读者很好有用,包括第7~12章。第三部分提供了丰富的应用案例,包括AlphaZero、让机器人学习跑步等,包括3~17章。本书是为计算机科学专业背景、希望从零开始学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适合没有很强的机器学习背景、但是希望快速学习深度强化学习并将其应用到具体产品中的软件工程师阅读。