第1章 绪论

在正式介绍具体的强化学习(reinforcement learning,RL)算法之前,本章先从宏观角度讨论强化学习的相关概念及应用等,帮助读者更好地“观其大略”。对于想利用强化学习做一些交叉研究的读者来说,更应该先通过本章了解强化学习是什么、大概能做什么、能实现什么样的效果等,而不是直接从一个个算法开始学习。

强化学习发展至今,尽管算法已经有成百上千种样式,但实际上从大类来看要掌握的核心算法并不多,大多数算法都只是在核心算法的基础上做了一些较小的改进。举个例子,如图1-1所示,我们知道水和咖啡豆通过一定的方法就能调制成咖啡,水加上糖块就能变成糖水,它们虽然看起来形式不同,但本质上都是饮品,只是有不同的口味而已。

图1-1 咖啡与糖水的示例