- Joy RL:强化学习实践教程
- 江季 王琦 杨毅远
- 1062字
- 2025-05-19 16:15:08
1.2 强化学习的应用
从1.1节中我们了解了强化学习大概是用来做什么的,那么它能实现什么样的效果呢?本节我们就来看看强化学习的一些实际应用。强化学习的应用场景非常广泛,其中最为典型的场景之一就是游戏,以AlphaGo为代表的围棋AI就是强化学习的代表作之一,也是其为人们广泛熟知的得意之作。除了部分棋类游戏,以AlphaStar为代表的《星际争霸》AI、以AlphaZero为代表的通用游戏AI,以及以近年的OpenAI Five为代表的Dota 2 AI,这些都是强化学习在游戏领域的典型应用。
除了游戏领域之外,强化学习在机器人抓取(robot manipulation)领域也有所应用。举个例子,图1-3演示了Nico机器人学习抓取任务。该任务的目标是将桌面上的物体抓取到指定的位置,机器人通过每次输出相应关节的参数来活动手臂,然后通过摄像头观测当前的状态,最后通过人为设置的奖励(例如接近目标就给奖励)来学习到正确的抓取策略。

图1-3 Nico机器人学习抓取任务
不同于游戏领域,在机器人抓取领域中实现强化学习的成本往往较为高昂,一方面是观测环境的状态需要大量的传感器,另一方面则是试错学习带来的实验成本较高,在训练过程中如果机器人决策稍有失误就有可能导致设备损坏,因此在实际应用中往往需要结合其他的方法来辅助强化学习进行决策。其中最典型的方法之一就是建立仿真环境,通过仿真环境来模拟真实环境,这样就可以大大降低实验成本。
如图1-4所示,该仿真环境模拟了真实的机器人抓取任务的环境。通过仿真环境免去大量视觉传感器的搭建过程,从而可以大大降低实验成本,同时由于仿真环境中机器人关节响应速度更快,进而算法的迭代速度更快,可以更快地得到较好的策略。

图1-4 机器人抓取任务的仿真环境
当然,仿真环境也并不是万能的,因为仿真环境和真实环境之间往往存在一定的差异,这就需要我们在设计仿真环境的时候尽可能全面地考虑到真实环境的各种因素,这是一个非常重要的研究方向。除了简单的抓取任务之外,研究者们还在探索将强化学习应用于更加复杂的机器人任务,例如仓储搬运、机器人足球以及自动驾驶等。
除了游戏和机器人抓取领域之外,强化学习在金融领域也有所应用,例如股票交易、期货交易、外汇交易等。在股票交易中,我们的目标是通过买卖股票来最大化我们的资产。在这个过程中,我们需要不断地观测当前的股票价格,然后根据当前的价格来决定买入或卖出股票的数量,最后通过股票价格的变化来更新我们的资产。在这个过程中,我们的资产会随着股票价格的变化而变化,这就是奖励或惩罚,每次的买卖就是决策。当然,强化学习的应用还远远不止如此,例如自动驾驶、推荐系统、交通派单、广告投放以及近年来大火的ChatGPT等,这些都是强化学习的典型应用。