内容提要

本书是继《Easy RL:强化学习教程》(俗称“蘑菇书”)之后,为强化学习的读者专门打造的一本深入实践的全新教程。全书大部分内容基于3位作者的实践经验,涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法进阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容,旨在帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架“JoyRL”,便于读者适应业界应用研究风格的代码。

与“蘑菇书”不同,本书针对强化学习核心理论进行提炼,并串联知识点,重视强化学习代码实践的指导而不是对于理论的详细讲解。本书适合具有一定编程基础且希望快速进入实践应用阶段的读者阅读。