Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

Rashid, Tabish; Samvelyan, Mikayel; de Witt, Christian Schroeder; Farquhar, Gregory; Foerster, Jakob; Whiteson, Shimon

计算机科学>机器学习

arXiv:2003.08839号（cs）

【提交日期：2020年3月19日(第1版)，上次修订日期：2020年8月27日（本版本，v2）]

标题：用于深度多智能体强化学习的单调值函数分解

作者：塔比什·拉希德，米卡耶尔·桑维利安，克里斯蒂安·施罗德·德维特，格雷戈里·法夸尔，雅各布·福斯特，西蒙·怀特森

查看PDF

摘要：在许多现实世界中，代理团队必须在分散行事的同时协调其行为。同时，通常有可能以集中的方式对代理进行培训，这样可以获得全球状态信息并解除通信限制。学习以额外国家信息为条件的联合行动价值观是利用集中学习的一种有吸引力的方式，但提取分散政策的最佳策略尚不明确。我们的解决方案是QMIX，这是一种新的基于价值的方法，可以以集中的端到端方式培训分散的政策。QMIX使用一个混合网络，将联合作用值估计为每个代理值的单调组合。通过在混合网络中使用非负权重，我们在结构上强制执行联合行动价值在每个代理人的价值中是单调的，这保证了中央和分散政策之间的一致性。为了评估QMIX的性能，我们提出星际争霸多智能体挑战（SMAC）作为深度多智能体强化学习的新基准。我们在一组具有挑战性的SMAC场景上评估了QMIX，并表明它显著优于现有的多智能体强化学习方法。

评论：	ICML 2018年会议文件的扩展版本(arXiv:1803.11485年)
学科：	机器学习（cs.LG）; 多智能体系统（cs.MA）；机器学习（stat.ML）
引用为：	arXiv:2003.08839号【cs.LG】
	（或 arXiv:2003.08839v2【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2003.08839
日志参考：	机器学习研究杂志21（178）：1-512020

提交历史记录

发件人：Mikayel Samvelyan[查看电子邮件]
[第1版]2020年3月19日星期四16:51:51 UTC（18960 KB）
[版本2]2020年8月27日星期四13:45:29 UTC（9144 KB）

计算机科学>机器学习

标题：用于深度多智能体强化学习的单调值函数分解

提交历史记录

访问纸张：

参考文献和引文

DBLP公司-CS书目

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐程序和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：用于深度多智能体强化学习的单调值函数分解

提交历史记录

访问纸张：

参考文献和引文

DBLP公司-CS书目

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐程序和搜索工具

arXivLabs：与社区合作者合作的实验项目