《强化学习:原理与Python实战》[40M]百度网盘|pdf下载|亲测有效
《强化学习:原理与Python实战》[40M]百度网盘|pdf下载|亲测有效

强化学习:原理与Python实战 pdf下载

出版社 机械工业出版社京东自营官方旗舰店
出版年 2023-08
页数 390页
装帧 精装
评分 9.0(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供强化学习:原理与Python实战电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

产品特色

编辑推荐

适读人群 :本书适合于以下读者:?想系统学习强化学习的人士;?想运用强化学习解决实际问题的人士;?想在强化学习领域工作的人士。读者需要了解概率论。对于深度强化学习部分,读者需要

携七大优势,带你一书学透强化学习,掌握ChatGPT背后的关键技术。

1)内容完备:完整地介绍了主流强化学习理论,全面覆盖主流强化学习算法,包括了资格迹等经典算法和MuZero等深度强化学习算法,且给出主要定理的证明过程。让你参透ChatGPT背后的关键技术。

2)表述一致:全书采用统一的数学符号,并兼容主流强化学习教程。

3)配套丰富:每章都配有知识点总结、代码和习题。

4)环境全面:既有Gym的内置环境,也有在Gym基础上进一步扩展的第三方环境,还带领读者一起实现了自定义的环境。

5)兼容广泛:所有代码均可在Windows、macOS、Linux上运行,提供安装和配置方法。同时,为深度强化学习相关算法提供了TensorFlow和PyTorch的对照实现,学习方案任你选择。

6)硬件要求低:所有代码均可在没有GPU的个人计算机上运行,也可以在线查阅运行结果。

7)版权输出:本书内容受到国际知名出版社Springer和评审专家认可,英文版同步输出,以飨读者。


内容简介

本书从原理和实战两个方面介绍了强化学习。原理方面,深入介绍了主流强化学习理论和算法,覆盖资格迹等经典算法和MuZero等深度强化学习算法;实战方面,每章都配套了编程案例,以方便读者学习。

全书从逻辑上分为三部分。

第1章:从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。

第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,还给出了深度强化学习算法的TensorFlow和PyTorch对照实现。

第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型、半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。


作者简介

肖智清

强化学习一线研发人员,清华大学工学博士。在国内外出版多本人工智能专著,在知名期刊和会议上发表多篇第一作者论文。他是开源项目Gym的源码贡献者,并在国内外多项程序设计和数据科学竞赛上获得冠军。


目录

目录

数学符号表

前言

第1章初识强化学习111强化学习及其关键元素1

1.2强化学习的应用3

1.3智能体/环境接口4

1.4强化学习的分类6

1.4.1按任务分类6

1.4.2按算法分类8

1.5强化学习算法的性能指标9

1.6案例:基于Gym库的智能体/环境接口10

1.6.1安装Gym库11

1.6.2使用Gym库11

1.6.3小车上山13

1.7本章小结18

1.8练习与模拟面试19

第2章Markov决策过程2121Markov决策过程模型21

2.1.1离散时间Markov决策过程21

2.1.2环境与动力24

2.1.3策略26

2.1.4带折扣的回报26

2.2价值27

2.2.1价值的定义28

2.2.2价值的性质28

2.2.3策略的偏序和改进34

2.3带折扣的分布35

2.3.1带折扣的分布的定义35

2.3.2带折扣的分布的性质37

2.3.3带折扣的分布和策略的等价性39

2.3.4带折扣的分布下的期望40

2.4最优策略与最优价值41

2.4.1从最优策略到最优价值41

2.4.2最优策略的存在性42

2.4.3最优价值的性质与Bellman

最优方程43

2.4.4用线性规划法求解最优价值48

2.4.5用最优价值求解最优策略51

2.5案例:悬崖寻路52

2.5.1使用环境52

2.5.2求解策略价值53

2.5.3求解最优价值54

2.5.4求解最优策略55

2.6本章小结55

2.7练习与模拟面试57

第3章有模型数值迭代5931Bellman算子及其性质59

3.2有模型策略迭代64

3.2.1策略评估65

3.2.2策略改进66

3.2.3策略迭代67

3.3价值迭代68

3.4自益与动态规划69

3.5案例:冰面滑行70

3.5.1使用环境71

3.5.2有模型策略迭代求解73

3.5.3有模型价值迭代求解76

3.6本章小结76

3.7练习与模拟面试77

第4章回合更新价值迭代78

4.1同策回合更新79

4.1.1同策回合更新策略评估79

4.1.2带起始探索的同策回合更新84

4.1.3基于柔性策略的同策回合更新86

4.2异策回合更新89

4.2.1重要性采样89

4.2.2异策回合更新策略评估92

4.2.3异策回合更新最优策略求解93

4.3实验:21点游戏94

4.3.1使用环境94

4.3.2同策策略评估96

4.3.3同策最优策略求解98

4.3.4异策策略评估101

4.3.5异策最优策略求解102

4.4本章小结103

4、5练习与模拟面试104

第5章时序差分价值迭代10651时序差分目标106

5.2同策时序差分更新109

5.2.1时序差分更新策略评估109

5.2.2SARSA算法113

5.2.3期望SARSA算法115

5.3异策时序差分更新117

5.3.1基于重要性采样的异策算法117

5.3.2Q学习119

5.3.3双重Q学习120

5.4资格迹121

5.4.1λ回报122

5.4.2TD(λ)算法123

5.5案例:的士调度125

5.5.1使用环境126

5.5.2同策时序差分学习127

5.5.3异策时序差分学习130

5.5.4资格迹学习132

56本章小结134

57练习与模拟面试135

第6章函数近似方法137

6.1函数近似原理138

6.2基于梯度的参数更新139

6.2.1随机梯度下降139

6.2.2半梯度下降141

6.2.3带资格迹的半梯度下降142

6.3函数近似的收敛性144

6.3.1收敛的条件144

6.3.2Baird反例145

6.4深度Q网络147

6.4.1经验回放148

6.4.2目标网络151

6.4.3双重深度Q网络152

6.4.4决斗深度Q网络153

6.5案例:小车上山154

6.5.1使用环境155

6.5.2用线性近似求解最优策略156

6.5.3用深度Q网络求解最优策略161

6.6本章小结172

6.7练习与模拟面试172

第7章回合更新策略梯度方法17471策略梯度算法的原理174

7.1.1函数近似策略174

7.1.2策略梯度定理175

7.1.3策略梯度和极大似然估计的关系179

7.2同策回合更新策略梯度算法179

7.2.1简单的策略梯度算法180

7.2.2带基线的简单策略梯度算法180

7.3异策回合更新策略梯度算法182

7.4案例:车杆平衡183

7.4.1用同策策略梯度算法求解最优策略184

7.4.2用异策策略梯度算法求解最优策略189

7.5本章小结195

7.6练习与模拟面试196

第8章执行者/评论者197

8.1执行者/评论者方法197

8.2同策执行者/评论者算法198

8.2.1动作价值执行者/评论者算法198

8.2.2优势执行者/评论者算法199

8.2.3带资格迹的执行者/评论者算法200

8.3基于代理优势的同策算法201

8.3.1性能差别引理201

8.3.2代理优势202

8.3.3邻近策略优化203

8.4自然梯度和信赖域算法205

8.4.1KL散度与Fisher信息矩阵206

8.4.2代理优势的信赖域208

8.4.3自然策略梯度算法209

8.4.4信赖域策略优化212

8.5重要性采样异策执行者/评论者算法213

8.6案例:双节倒立摆214

8.6.1用同策执行者/评论者算法求解最优策略216

8.6.2用基于代理优势的同策算法求解最优策略226

8.6.3用自然策略梯度和信赖域算法求解最优策略230

8.6.4用重要性采样异策执行者/评论者算法求解最优策略242

8.7本章小结246

8.8练习与模拟面试247

第9章连续动作空间的确定性策略248

9.1确定性策略梯度定理248

9.2同策确定性算法250

9.3异策确定性算法251

9.3.1基本的异策确定性执行者/评论者算法251

9.3.2深度确定性策略梯度算法253

9.3.3双重延迟深度确定性策略梯度算法254

9.4探索过程255

9.5案例:倒立摆的控制256

9.5.1用深度确定性策略梯度算法求解257

9.5.2用双重延迟深度确定性算法求解263

9.6本章小结268

9.7练习与模拟面试268

第10章最大熵强化学习270101最大熵强化学习与柔性强化学习理论270

10.1.1奖励工程和带熵的奖励270

10.1.2柔性价值272

10.1.3柔性策略改进定理和最大熵强化学习的迭代求解273

10.1.4柔性最优价值275

10.1.5柔性策略梯度定理276

10.2柔性强化学习算法281

10.2.1柔性Q学习281

10.2.2柔性执行者/评论者算法282

10.3自动熵调节284

10.4案例:月球登陆器286

10.4.1环境安装286

10.4.2使用环境287

10.4.3用柔性Q学习求解LunarLander289

10.4.4用柔性执行者/评论者求解LunarLander292

10.4.5自动熵调节用于LunarLander297

10.4.6求解LunarLander Continuous302

10.5本章小结308

10.6练习与模拟面试309

第11章基于策略的无梯度算法310

11.1无梯度算法310

11.1.1进化策略算法310

11.1.2增强随机搜索算法311

11.2无梯度算法和策略梯度算法的比较312

11.3案例:双足机器人313

11.3.1奖励截断314

11.3.2用进化算法求解315

11.3.3用增强随机搜索算法求解317

11.4本章小结318

11.5练习与模拟面试319

第12章值分布强化学习320121价值分布及其性质320

12.2效用最大化强化学习323

12.3基于概率分布的算法326

12.3.1类别深度Q网络算法326

12.3.2带效用的类别深度Q网络算法328

12.4基于分位数的值分布强化学习329

12.4.1分位数回归深度Q网络算法331

12.4.2含蓄分位网络算法333

12.4.3带效用的分位数回归算法334

12.5类别深度Q网络算法和分位数回归算法的比较335

12.6案例:Atari电动游戏Pong336

12.6.1Atari游戏环境的使用336

12.6.2Pong游戏338

12.6.3包装Atari游戏环境339

12.6.4用类别深度Q网络算法玩游戏340

12.6.5用分位数回归深度Q网络算法玩游戏345

12.6.6用含蓄分位网络算法玩游戏349

12.7本章小结356

12.8练习与模拟面试356

第13章最小化遗憾358

13.1遗憾358

13.2多臂赌博机360

13.2.1多臂赌博机问题描述360

13.2.2ε贪心算法361

13.2.3置信上界361

13.2.4Bayesian置信上界算法365

13.2.5Thompson采样算法368

13.3置信上界价值迭代368

13.4案例:Bernoulli奖励多臂赌博机376

13.4.1创建自定义环境377

13.4.2用ε贪心策略求解378

13.4.3用第一置信上界求解379

13.4.4用Bayesian置信上界求解380

13.4.5用Thompson采样求解381

13.5本章小结382

13.6练习与模拟面试382

第14章树搜索384

14.1回合更新树搜索385

14.1.1选择387

14.1.2扩展和评估388

14.1.3回溯389

14.1.4决策390

14.1.5训练回合更新树搜索用到的神经网络390

14.2回合更新树搜索在棋盘游戏中的应用393

14.2.1棋盘游戏393

14.2.2自我对弈398

14.2.3针对棋盘游戏的网络399

14.2.4从AlphaGo到MuZero401

14.3案例:井字棋403

14.3.1棋盘游戏环境boardgame2403

14.3.2穷尽式搜索408

14.3.3启发式搜索410

14.4本章小结418

14.5练习与模拟面试418

第15章模仿学习和人类反馈强化学习420

15.1模仿学习420

15.1.1f散度及其性质421

15.1.2行为克隆427

15.1.3生成对抗模仿学习429

15.1.4逆强化学习431

15.2人类反馈强化学习和生成性预训练变换模型432

15.3案例:机器人行走433

15.3.1扩展库PyBullet433

15.3.2用行为克隆模仿学习435

15.3.3用生成对抗模仿学习438

15.4本章小结444

15.5练习与模拟面试445

第16章更多智能体/环境接口模型446

16.1平均奖励离散时间Markov决策过程446

16.1.1平均奖励447

16.1.2差分价值450

16.1.3最优策略453

16.2连续时间Markov决策过程456

16.3非齐次Markov决策过程459

16.3.1非齐次状态表示460

16.3.2时间指标有界的情况461

16.3.3时间指标无界的情况462

16.4半Markov决策过程463

16.4.1半Markov决策过程及其价值463

16.4.2最优策略求解466

16.4.3分层强化学习466

16.5部分可观测Markov决策过程467

16.5.1离散时间部分可观测Markov决策过程467

16.5.2信念469

16.5.3信念Markov决策过程473

16.5.4信念价值476

16.5.5有限部分可观测Markov决策过程的信念价值479

16.5.6使用记忆481

16.6案例:老虎482

16.6.1带折扣回报期望与平均奖励的比较482

16.6.2信念Markov决策过程484

16.6.3非齐次的信念状态价值485

16.7本章小结487

16.8练习与模拟面试489


前言/序言

为什么要写作本书

强化学习正在改变人类社会的方方面面:基于强化学习的游戏AI已经在围棋、《星际争霸》等游戏上全面碾压人类顶尖选手,基于强化学习的控制算法已经运用于机器人、无人机等设备,基于强化学习的交易算法已经部署在金融平台上并取得了超额收益。由于同一套强化学习代码在同一套参数设置下能解决多个看起来毫无关联的问题,因此强化学习常被认为是迈向通用人工智能的重要途径。

本书特色

本书完整地介绍了主流强化学习理论。

选用现代强化学习理论体系,突出主干,主要定理均给出证明过程。基于理论讲解强化学习算法,全面覆盖主流强化学习算法,包括资格迹等经典算法和MuZero等深度强化学习算法。

全书采用完整的数学体系各章内容循序渐进。全书采用一致的数学符号,并兼容主流强化学习教程。

本书各章均提供Python代码,实战性强。

简洁易懂:全书代码统一规范,简约完备,与算法讲解直接对应。

查阅、运行方便:所有代码及运行结果均在GitHub上展示,既可以在浏览器上查阅,也可以下载到本地运行。各算法实现放在单独的文件里,可单独查阅和运行。

环境全面:既有Gym的内置环境,也有在Gym基础上进一步扩展的第三方环境,还带领读者一起实现自定义的环境。

兼容性好:所有代码在三大操作系统(Windows、macOS、Linux)上均可运行,书中给出了环境的安装和配置方法。深度强化学习代码还提供了TensorFlow 2和PyTorch对照代码。读者可任选其一。

版本新:全书代码基于最新版本的Python及其扩展库。作者会在GitHub上更新代码以适应版本升级。

硬件要求低:所有代码均可在没有GPU的个人计算机上运行。

本书主要内容

本书介绍强化学习理论及其Python实现。

第1章:从零开始介绍强化学习的背景知识,以及环境库Gym的使用。

第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的深度强化学习算法。Python实现和算法讲解一一对应,对于深度强化学习算法还给出了基于TensorFlow 2和PyTorch的对照实现。

第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型、半Markov模型、部分可观测模型等,以便让读者更好地了解强化学习研究的全貌。

勘误与支持

致谢

在此感谢为本书出版做出贡献的所有工作人员。本书还采纳了童峥岩、赵永进、黄永杰、李伟、马云龙、黄俊峰、李岳铸、李柯、龙涛、陈庆虎等专家的意见。向他们表示感谢。

特别要感谢我父母的无私支持,感谢我的上司与同事对本书出版的关心和支持。

感谢你选择本书。祝学习快乐!

肖智清