《强化学习精要：核心算法与TensorFlow实现(博文视点出品)》[58M]百度网盘|亲测有效|pdf下载

书籍详情

强化学习精要：核心算法与TensorFlow实现(博文视点出品)
出版时间:2018-05
热度:6578
上架时间:2024-06-30 09:38:03

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

适读人群：希望获得深度学习进阶知识，强化学习技术及其应用实践的学生、从业者，特别是对立志从事AI相关行业，成为数据科学家的人来说，本书是非常实用的工具书。

√剖析强化学习基本概念，以马尔可夫决策过程、值函数、策略梯度为思想的一系列算法，以及HRL、HER、MCTS、iLQR、反向强化学习等算法，结合计算框架TensorFlow、Gym、算法集合Baselines给予实战指导

√作者先介绍自己理解的算法精髓，再结合TensorFlow具体实现讲解，使读者快速将算法应用到实践中，上手不再困难

√为读者构建一个完整的强化学习知识体系

√很特别的一章讲解了TensorFlow的内部原理，同时对编程过程提出了建议，非常值得学习。若想在AI路上走得更远，内功扎实是制胜关键

√掌握用强化学习思想解决实际问题的能力

√配书源代码供下载

内容简介

《强化学习精要：核心算法与TensorFlow 实现》用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现，为读者构建了一个完整的强化学习知识体系，同时介绍了这些算法的具体实现方式。从基本的马尔可夫决策过程，到各种复杂的强化学习算法，读者都可以从本书中学习到。本书除了介绍这些算法的原理，还深入分析了算法之间的内在联系，可以帮助读者举一反三，掌握算法精髓。书中介绍的代码可以帮助读者快速将算法应用到实践中。

《强化学习精要：核心算法与TensorFlow 实现》内容翔实，语言简洁易懂，既适合零基础的人员入门学习，也适合相关科研人员研究参考。

内页插图

精彩书评

近年来强化学习在学术界和工业界都受到了极大关注，很多工业界的巨头都在不断探索强化学习的实际应用。滴滴出行作为全球大的移动出行公司，已经把强化学习应用到多个业务场景中，帮助用户和司机解决出行问题，构建城市智慧大脑。本书介绍了强化学习的经典算法及近年来发展中的一些卓越成果，同时将理论联系实际，深入分析了这些算法的具体实现。作为一本内容丰富的强化学习科普书籍，希望无论是强化学习领域的初学者还是有经验的研发人员，均可从书中得到收获。

—— 王征，滴滴出行AI Labs时空数据组负责人

本书的特色之一是紧跟强化学习技术发展的前沿，从基于值函数的算法、基于策略梯度的算法，一直介绍到生成对抗模仿学习算法，内容涵盖了近年来深度强化学习研究的众多突破性算法；特色之二是结合开源的深度学习框架TensorFlow、强化学习仿真框架Gym及在这些框架上实现的算法集合Baselines，针对性地讲解了核心算法的代码实现，出色地将算法理论和实践结合起来。对强化学习领域的科研人员而言，这是一本不可多得的优秀读物。

—— 章宗长，苏州大学副教授

机器学习特别是强化学习，是近年和将来的学术研究重点，也是业界热点问题。本书作者通过对强化学习的概述和用Python实现的具体实例的讲解，为读者指明了一条通过编程理解和实践强化学习算法的道路。本书适合刚开始接触强化学习的初学者入门或者有经验的从业者巩固和借鉴。

—— 李可，美国微软公司高级数据科学家

这几年，机器学习因为深度学习的突飞猛进有了激动人心的进展，强化学习技术由于建模和环境的互动及延迟的反馈获得了较高的学术地位。本书全面而实用，对强化学习感兴趣的朋友来说是难得的教材。

—— 吴双，依图科技研究科学家

前言/序言

本书的主要内容

强化学习在机器学习中的难度不低，它需要很多方面的知识辅助，同时自身也已经形成了一个庞大的体系。本书不是一本科普读物，想要阅读本书需要具备一定的基础知识，如微积分、线性代数等。部分章节也会梳理这些基础知识，以确保读者掌握这些知识的核心思想。本书各章节的核心内容如下。

第一部分主要介绍与强化学习有关的基础知识，例如数学基础、对应的程序开发基础、强化学习的基本计算方法等。

第1章已经介绍了强化学习的基本概念，相信读者对强化学习的目标、特点已经有了一定的了解。

第2章介绍相关的数学知识，如线性代数、概率论、重要性采样、信息论等，帮助读者快速回顾即将用到的数学知识。

第3章介绍强化学习中会用到的优化知识，主要介绍常见的梯度下降法（Gradient Descent）、共轭梯度法和自然梯度法，这三种方法将出现在后面的算法中。

第4章介绍书中代码使用的计算框架TensorFlow。TensorFlow 是一款使用十分广泛的框架，很多强化学习的算法选择使用它进行实现，因此我们有必要学习它。本章将简单介绍它的使用方法和一些基本原理，熟悉TensorFlow 的读者可以跳过本章。

第5章介绍本书使用的另一个框架Gym 及在此框架上实现的算法集合Baselines。Gym 集成了大量的强化学习仿真环境，Baselines 则基于TensorFlow 和Gym 实现了一些经典的算法。本章将简单介绍这两个框架的基础知识。

第6章介绍强化学习的基础知识。例如马尔可夫决策过程（Markov Decision Process），以及在简单问题上的两种经典动态规划求解法：策略迭代法和价值迭代法。这些方法是强化学习算法的基石，绝大多数强化学习方法都是根据这些知识演变来的。

第二部分介绍以最优值函数为思想的一系列算法，其中的代表算法为Deep Q Network和Rainbow。

第7章介绍蒙特卡罗（Monte-Carlo）和时序差分（Temporal-Difference）两种求解Model-free 问题的方法，并介绍Deep Q Network 算法的细节。

第8章介绍Deep Q-Learning 的一些改进算法，如Priority Replay Buffer、Duel Network等，并介绍改进的集成算法Rainbow。

第三部分介绍以策略梯度（Policy Gradient）为思想的一系列算法，其中的代表算法为Actor-Critic。

第9章介绍策略梯度法和Actor-Critic 算法的原理，同时介绍A2C 算法的实现细节。

第10章介绍使策略单调提升的算法，其中的代表为Trust Region Policy Optimization（TRPO）算法。

第11章介绍高样本使用率的策略梯度算法，其中的代表算法为ACER 算法和确定策略梯度法（Deterministic Policy Gradient）。

第四部分介绍强化学习其他方面的内容。

第12章介绍回报稀疏情况下的一些求解方法，其中包括基于层次的强化学习和基于课程学习（Curriculum Learning）思想的方法。

第13 章介绍模型已知的一些算法，如基于蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS）的强化学习算法和iLQR 算法的原理。

第五部分介绍反向强化学习的基础知识。

第14章介绍反向强化学习的基础，以及基本的求解方法。

第15 章介绍最大熵反向强化学习（Max Entropy Inverse Reinforcement Learning）和生成对抗模仿学习（Generative Adversarial Imitation Learning）算法的内容。

由于本人才疏学浅，行文间难免有所纰漏，望各位读者多多包涵，不吝赐教。

作者

查看全部↓

相关推荐

从零开始学TensorFlow 2.0

从数据到Excel自动化报表：Power Query和Power Pivot实战(博文视点出品)

solidworks教程书籍中文版SOLIDWORKS 2018从入门到精通实战案例版

强化学习精要：核心算法与TensorFlow实现(博文视点出品)