的一部分神经信息处理系统进展31(NeurIPS 2018)
Sriram Srinivasan、Marc Lanctot、Vinicius Zambaldi、Julien Perolat、Karl Tuyls、Remi Munos、Michael Bowling
强化学习参数化策略的优化是人工智能领域的一个重要而富有挑战性的问题。最常见的方法是基于表示折现收益的分数函数的梯度上升的算法。在本文中,我们研究了这些策略梯度和actor-critic算法在部分可观测的多智能体环境中的作用。我们展示了几个候选策略更新规则,并将它们与一次性和表格式情况下的后悔最小化和多智能体学习技术的基础联系起来,从而得到了以前未知的收敛保证。我们将我们的方法应用于对抗性序贯决策问题(零和不完全信息博弈)中的无模型多智能体强化学习,使用RL型函数近似。我们在常用的基准扑克域上进行了评估,显示了针对固定策略的性能和经验收敛性,以接近自玩中的纳什均衡,速率类似于或优于零和游戏的基线无模型算法,而没有任何特定于域的状态空间缩减。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。