通过新奇代理群体改进对深度强化学习进化策略的探索

的一部分神经信息处理系统进展31(NeurIPS 2018)

Biptex公司 元数据 纸类 评论 补充的

作者

Edoardo Conti、Vashisht Madhavan、Felipe Petroski Soke、Joel Lehman、Kenneth Stanley、Jeff Clune

摘要

进化策略(ES)是一系列黑盒优化算法,能够大致训练深层神经网络以及Q-学习和策略梯度方法,以解决具有挑战性的深层强化学习(RL)问题,但速度更快(例如,小时与天),因为它们的并行性更好。然而,许多RL问题需要定向探索,因为它们具有稀疏或欺骗性的奖励函数(即包含局部最优值),并且不知道如何使用ES鼓励这种探索。在这里,我们表明,通过探索代理群体,特别是新颖性搜索(NS)和质量多样性(QD)算法,在小规模进化神经网络中促进定向探索的算法可以与ES混合,以提高其在稀疏或欺骗性深层RL任务中的性能,同时保持可扩展性。我们的实验证实,合成的新算法NS-ES和两个QD算法NSR-ES和NSRA-ES避免了ES遇到的局部优化,从而在Atari和模拟机器人学习绕过欺骗陷阱时获得更高的性能。因此,本文介绍了一系列快速、可扩展的强化学习算法,这些算法能够进行定向探索。它还将这一新的探索算法家族添加到RL工具箱中,并提出了一种有趣的可能性,即具有多个同时探索路径的类似算法也可能与ES之外的现有RL算法很好地结合。