本书对使用函数逼近器的强化学习和动态规划方法由浅入深地展开讨论。首先对经典的DP和RL进行简要介绍,这一部分是本书后续章节的基础。然后对基于函数逼近的DP和RL最新方法做了比较详尽的阐述,对所得到的解给出了理论上的保证,并使用数值算例,通过比较来说明各种方法的性能。第4~6章分别介绍了三大类主要技术中的代表性算法,其中的三大类技术包括值迭代、策略迭代和策略搜索,通过一系列控制应用方面的仿真和实验研究,进一步体现出了这些算法的特点和性能。
本书的每一章节都力求做到实用算法、理论分析、综合实例等方面相辅相成。这使得本书不仅适合于最优和自适应控制、机器学习和人工智能等领域的研究者、教师和研究生,还适合于解决现实控制问题的从业者,为他们在解决具有挑战性的问题时提供一些创新思路。
这本书可以采取以下几种方式来阅读。针对不熟悉该领域的读者,建议从第 1章一般性的介绍开始,然后继续阅读第 2章(讨论经典的DP和RL)和第3章(考虑基于近似的方法)。针对熟悉RL和DP基本概念的读者,可以先参考本书末尾给出的缩略语,然后直接从第3章开始。本书的第一部分(1~3章)是一个对该领域非常全面的概述。读者可以根据自己的兴趣选择性地阅读第4~6章的内容:近似值迭代(第4章)、近似策略迭代和在线学习(第5章)以及近似策略搜索(第6章)。
与本书有关的一些补充材料,包括在实验研究中使用的计算机代码及完整的文档,可在网站上获得。欢迎对本书或网站提出您的意见、建议或问题,也希望有兴趣的读者通过网站上的联系人信息与作者联系。
多年来,本书的几位作者一直受到许多科学家的鼓励和启发,因此,这些科学家无疑也在这本书上留下了他们的印记。他们是:Louis Wehenkel、Pierre Geurts、GuyBart Stan、Rémi Munos、Martin Riedmiller以及Michail Lagoudakis。Pierre Geurts还提供了用于构建回归树集合的计算机程序,在本书中有几个例子用到了这些程序。如果没有我们的同事及学生的支持和帮助,没有荷兰代尔夫特理工大学代尔夫特系统与控制中心、比利时列日大学蒙特菲尔学院和法国雷恩高等电力学院为我们提供的优质的专业环境,这项工作也不可能顺利完成。在代尔夫特的同事中,需要重点提出的是Justin Rice,他对本书的手稿做了认真的校对。对于在本书出版过程中给予支持和帮助的所有朋友,在此一并表示感谢。
感谢Sam Ge给了我们在泰勒弗朗西斯出版集团(CRC)出版该书的机会,同时也感谢泰勒弗朗西斯集团的编辑和制作团队给予我们的帮助。我们诚挚地感谢BSIKICIS项目“交互式协作信息系统”(批准号:BSIK03024)以及荷兰资助组织NWO和STW的经费支持。Damien Ernst是FRS-FNRS的助理研究员,感谢FRS- FNRS对他的经费支持。感谢IEEE提供的许可,允许我们从以前的著作中复制相应的内容。
最后,感谢我们的家人一贯的理解、耐心和支持。