Heterogeneous-Agent Reinforcement Learning

Yifan Zhong; Jakub Grudzien Kuba; Xidong Feng; Siyi Hu; Jiaming Ji; Yaodong Yang

智能机器之间合作的必要性使协作多智能体强化学习（MARL）在人工智能研究中得到了广泛应用。然而，许多研究工作严重依赖于agent之间的参数共享，这使得它们仅限于同质agent设置，导致训练不稳定和缺乏收敛保证。为了在一般的异构代理环境中实现有效的协作，我们提出了解决上述问题的异构代理强化学习（HARL）算法。我们发现的核心是多智能体优势分解引理和顺序更新方案。在此基础上，我们发展了可证明正确的异构代理信任域学习（HATRL），并通过可处理的近似导出了HATRPO和HAPPO。此外，我们还发现了一个新的框架，称为异构代理镜像学习（HAML），它加强了HATRPO和HAPPO的理论保证，并为协作MARL算法设计提供了通用模板。我们证明了从HAML导出的所有算法内在地具有联合收益的单调改进和收敛到纳什均衡的特性。作为其自然结果，HAML除了验证HATRPO和HAPPO之外，还验证了更新颖的算法，包括HAA2C、HADDPG和HATD3，这些算法的性能通常优于其现有的MA计数器。我们在六个具有挑战性的基准上对HARL算法进行了全面测试，并与强大的基准（如MAPPO和QMIX）相比，证明了它们在协调异构代理方面的卓越有效性和稳定性。

异构Agent强化学习

摘要