基于回报传播的协作多智能体强化学习
Jelle R.Kok、Nikos Vlassis; 7(65):1789−1828, 2006.
摘要
在本文中,我们描述了一组用于在协作中学习一组代理的行为多代理设置。作为基础,我们使用协调框架Guestrin、Koller和Parr(2002a)的图表,利用了代理将全局支付函数分解为局部支付函数的和条款。首先,我们处理单状态情况,并描述一个计算单个动作的支付传播算法使全局收益函数近似最大化。方法可以看作是信念传播的决策模拟贝叶斯网络。其次,我们专注于学习顺序决策任务中的代理。我们介绍统一使用不同的无模型强化学习技术称为稀疏合作社问-学习,接近全球基于坐标图拓扑的作用值函数,并使用各个代理的贡献执行更新到最大全局动作值。组合使用基于edge的动作值函数分解与收益有效动作选择的传播算法,产生只在问题大小上线性扩展的方法。我们提供实验证据表明,我们的方法优于相关的多智能体基于时间差异的强化学习方法。
[腹肌]
[pdf格式][围兜]