计算机科学>机器学习
标题: 用于深度多智能体强化学习的单调值函数分解
摘要: 在许多现实世界中,代理团队必须在分散行事的同时协调其行为。 同时,通常有可能以集中的方式对代理进行培训,这样可以获得全球状态信息并解除通信限制。 学习以额外国家信息为条件的联合行动价值观是利用集中学习的一种有吸引力的方式,但提取分散政策的最佳策略尚不明确。 我们的解决方案是QMIX,这是一种新的基于价值的方法,可以以集中的端到端方式培训分散的政策。 QMIX使用一个混合网络,将联合作用值估计为每个代理值的单调组合。 通过在混合网络中使用非负权重,我们在结构上强制执行联合行动价值在每个代理人的价值中是单调的,这保证了中央和分散政策之间的一致性。 为了评估QMIX的性能,我们提出星际争霸多智能体挑战(SMAC)作为深度多智能体强化学习的新基准。 我们在一组具有挑战性的SMAC场景上评估了QMIX,并表明它显著优于现有的多智能体强化学习方法。