1.3.3 探索策略

在强化学习中,探索策略(exploration strategy)是一个非常重要的问题,即如何在探索和利用之间进行权衡。在探索的过程中,智能体会尝试一些未知的动作,从而可能获得更多的奖励,但同时可能会受到较多的惩罚。而在利用的过程中,智能体会选择已知的动作,从而可能获得较少的奖励,但同时可能会受到较少的惩罚。因此,如何在探索和利用之间进行权衡是一个非常重要的问题。目前比较常用的方法有ε-greedy(ε贪心)和上置信界(upper confidence bound,UCB)等。

此外,提高探索效率的目的是避免局部最优问题,从而增强智能体的鲁棒性。近年来,有研究结合进化算法来提高探索效率,例如NEAT(neuro evolution of augmenting topologies,增强拓扑的神经进化)和PBT(population based training,基于种群的训练)等算法,当然这些算法在提高探索效率的同时会带来一定的计算成本。