用于深度多智能体强化学习的贝叶斯动作解码器

雅各布·福斯特、弗朗西斯·宋、爱德华·休斯、尼尔·伯奇、伊恩·邓宁、西蒙·怀特森、马修·博特维尼克、迈克尔·鲍林
第36届机器学习国际会议论文集,PMLR 97:1942-19512019年。

摘要

当观察他人的行为时,人类会推断出他们为什么会这样做,以及这对世界意味着什么;人类还利用这样一个事实,即他们的行为将以这种方式被解释,从而允许他们以信息方式行动,从而与他人有效沟通。尽管学习算法最近在一些两层零和游戏中取得了超人的性能,但可扩展的多智能体强化学习算法已被证明难以在复杂、部分可观察的环境中发现有效的策略和约定。我们展示贝叶斯动作解码器(BAD)是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有智能体所采取行动的条件的信任。BAD引入了一种新的马尔可夫决策过程公众信仰MDP其中,动作空间由所有确定的部分策略组成,并且利用了这样一个事实,即如果将动作空间扩展为将私有信息映射到环境动作的全部部分策略,那么仅作用于该公共信念状态的代理仍然可以学习使用其私有信息。贝叶斯更新与心理理论人类观察他人行为时进行的推理。我们首先在一个证明原理的两步矩阵对策上验证了BAD,其中它优于策略梯度方法;然后,我们对具有挑战性的、合作性的部分信息卡游戏Hanabi进行了评估,其中,在两层设置中,它超越了所有以前发布的学习和手工编码方法,建立了一个新的技术水平。

引用本文


BibTeX公司
@会议记录{pmlr-v97-ferster19a,标题={{B} 阿依西亚人深度多智能体强化学习的动作解码器},author={Foerster、Jakob和Song、Francis和Hughes、Edward和Burch、Neil和Dunning、Iain和Whiteson、Shimon和Botvinick、Matthew和Bowling、Michael},booktitle={第36届机器学习国际会议论文集},页数={1942--1951},年份={2019},editor={乔杜里、卡马利卡和萨拉库丁诺夫、鲁斯兰},体积={97},series={机器学习研究论文集},月份={09--15Jun},publisher={PMLR},pdf={http://proceedings.mlr.press/v97/ferster19a/foerster19a.pdf},url={https://proceedings.mlr.press/v97/ferster19a.html},abstract={当观察他人的行为时,人类会推断出他们为什么会这样做,以及这对世界意味着什么;人类还利用这样一个事实,即他们的行为将以这种方式被解释,从而允许他们以信息方式行动,从而与他人有效沟通。尽管学习算法最近在一些两层零和游戏中取得了超人的性能,但可扩展的多智能体强化学习算法已被证明难以在复杂、部分可观察的环境中发现有效的策略和约定。我们提供贝叶斯动作解码器(BAD)是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有智能体所采取行动的条件的信任。BAD引入了一种新的马尔可夫决策过程公众信仰MDP其中,动作空间由所有确定的部分策略组成,并且利用了这样一个事实,即如果将动作空间扩展为将私有信息映射到环境动作的全部部分策略,那么仅作用于该公共信念状态的代理仍然可以学习使用其私有信息。贝叶斯更新与心智理论人类观察他人行为时进行的推理。我们首先在一个证明原理的两步矩阵对策上验证了BAD,其中它优于策略梯度方法;然后,我们对具有挑战性的、合作性的部分信息卡游戏Hanabi进行了评估,其中,在两层设置中,它超越了所有以前发布的学习和手工编码方法,建立了一种新的技术水平。}}
尾注
%0会议论文%用于深度多智能体强化学习的T贝叶斯动作解码器%雅各布·福斯特%弗朗西斯之歌%爱德华·休斯%尼尔·伯奇%伊恩·邓宁%西蒙·怀特森%马修·博特维尼克%迈克尔·保龄球%第36届机器学习国际会议论文集%C机器学习研究论文集%D 2019年%E卡马利卡·乔杜里%E Ruslan Salakhutdinov公司%对于pmlr-v97-forester 19a%我PMLR%P 1942-1951年%U型https://proceedings.mlr.press/v97/ferster19a.html%97伏%X当观察他人的行为时,人类会推断出他们为什么会这样做,以及这对世界意味着什么;人类还利用这样一个事实,即他们的行为将以这种方式被解释,从而允许他们以信息方式行动,从而与他人有效沟通。尽管学习算法最近在一些两层零和游戏中取得了超人的性能,但可扩展的多智能体强化学习算法已被证明难以在复杂、部分可观察的环境中发现有效的策略和约定。我们提供贝叶斯动作解码器(BAD)是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有智能体所采取行动的条件的信任。BAD引入了一种新的马尔可夫决策过程公众信仰MDP其中,动作空间由所有确定的部分策略组成,并且利用了这样一个事实,即如果将动作空间扩展为将私有信息映射到环境动作的全部部分策略,那么仅作用于该公共信念状态的代理仍然可以学习使用其私有信息。贝叶斯更新与心理理论人类观察他人行为时进行的推理。我们首先在一个证明原理的两步矩阵对策上验证了BAD,其中它优于策略梯度方法;然后,我们对具有挑战性的、合作性的部分信息卡游戏Hanabi进行了评估,其中,在两层设置中,它超越了所有以前发布的学习和手工编码方法,建立了一个新的技术水平。
亚太地区
Foerster,J.、Song,F.、Hughes,E.、Burch,N.、Dunning,I.、Whiteson,S.、Botvinick,M.和Bowling,M.(2019年)。用于深度多智能体强化学习的贝叶斯动作解码器。第36届机器学习国际会议论文集,英寸机器学习研究论文集97:1942-1951网址:https://proceedings.mlr.press/v97/ferster19a.html。

相关材料