部分可观测多智能体环境中的行动者-批判策略优化

的一部分神经信息处理系统进展31(NeurIPS 2018)

Biptex公司 元数据 纸类 评论

作者

Sriram Srinivasan、Marc Lanctot、Vinicius Zambaldi、Julien Perolat、Karl Tuyls、Remi Munos、Michael Bowling

摘要

强化学习参数化策略的优化是人工智能领域的一个重要而富有挑战性的问题。最常见的方法是基于表示折现收益的分数函数的梯度上升的算法。在本文中,我们研究了这些策略梯度和actor-critic算法在部分可观测的多智能体环境中的作用。我们展示了几个候选策略更新规则,并将它们与一次性和表格式情况下的后悔最小化和多智能体学习技术的基础联系起来,从而得到了以前未知的收敛保证。我们将我们的方法应用于对抗性序贯决策问题(零和不完全信息博弈)中的无模型多智能体强化学习,使用RL型函数近似。我们在常用的基准扑克域上进行了评估,显示了针对固定策略的性能和经验收敛性,以接近自玩中的纳什均衡,速率类似于或优于零和游戏的基线无模型算法,而没有任何特定于域的状态空间缩减。