Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

Conti, Edoardo; Madhavan, Vashisht; Petroski Such, Felipe; Lehman, Joel; Stanley, Kenneth; Clune, Jeff

通过新奇代理群体改进对深度强化学习进化策略的探索

的一部分神经信息处理系统进展31（NeurIPS 2018）

Biptex公司元数据纸类评论补充的

作者

Edoardo Conti、Vashisht Madhavan、Felipe Petroski Soke、Joel Lehman、Kenneth Stanley、Jeff Clune

摘要

进化策略（ES）是一系列黑盒优化算法，能够大致训练深层神经网络以及Q-学习和策略梯度方法，以解决具有挑战性的深层强化学习（RL）问题，但速度更快（例如，小时与天），因为它们的并行性更好。然而，许多RL问题需要定向探索，因为它们具有稀疏或欺骗性的奖励函数（即包含局部最优值），并且不知道如何使用ES鼓励这种探索。在这里，我们表明，通过探索代理群体，特别是新颖性搜索（NS）和质量多样性（QD）算法，在小规模进化神经网络中促进定向探索的算法可以与ES混合，以提高其在稀疏或欺骗性深层RL任务中的性能，同时保持可扩展性。我们的实验证实，合成的新算法NS-ES和两个QD算法NSR-ES和NSRA-ES避免了ES遇到的局部优化，从而在Atari和模拟机器人学习绕过欺骗陷阱时获得更高的性能。因此，本文介绍了一系列快速、可扩展的强化学习算法，这些算法能够进行定向探索。它还将这一新的探索算法家族添加到RL工具箱中，并提出了一种有趣的可能性，即具有多个同时探索路径的类似算法也可能与ES之外的现有RL算法很好地结合。

通过新奇代理群体改进对深度强化学习进化策略的探索

作者

摘要

名称更改策略