×

重新思考部分可观察多智能体决策的形式化模型。 (英文) Zbl 07482898号

摘要:部分可观测环境中的多智能体决策通常被建模为博弈论中的扩展形式博弈(EFG)或多智能体强化学习(MARL)中的部分可观测随机博弈(POSG)。当前情况的一个问题是,虽然大多数实际问题都可以用两种形式建模,但这两种模型的关系并不明确,这阻碍了两个社区之间的思想交流。第二个问题是,虽然EFG最近在算法方面取得了重大进展,但其经典形式化不适合有效地表示底层思想,例如分解思想。为了解决第一个问题,我们引入了因子观测随机博弈(FOSG),这是对POSG形式主义的一个微小修改,它区分了私人观测和公共观测,从而大大简化了分解。为了解决第二个问题,我们表明FOSG和POSG与EFG是自然连接的:通过将FOSG“展开”为其树形式,我们可以获得EFG。相反,任何完全可重新调用的定时EFG都会以这种方式对应于一些潜在的FOSG。此外,这种关系证明了对经典EFG形式化的几项微小修改是合理的,后者最近作为对模型分解问题的隐式响应出现。最后,我们通过介绍FOSG框架中的三种关键EFG技术,即反事实后悔最小化、序列形式和分解,来说明EFG和MARL之间的思想传递。

MSC公司:

68泰克 人工智能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Badia,A.P。;皮奥,B。;Kapturowski,S。;Sprechmann,P。;Vitvitskyi,A。;郭,D。;Blundell,C.,Agent57:优于atari人类基准(2020),arXiv预印本
[2] Billings,D。;伯奇,北。;戴维森。;霍尔特,R。;谢弗,J。;Schauenberg,T。;Szafron,D.,全面扑克的近似博弈论最优策略,(IJCAI(2003)),661-668
[3] Boutiler,C。;迪尔登,R。;Goldszmidt,M.,带因子表示的随机动态规划,Artif。智力。,121, 49-107 (2000) ·Zbl 0948.68167号
[4] Brown,N。;巴赫金,A。;Lerer,A。;龚,Q.,《深度强化学习与搜索不完美信息游戏的结合》(2020),arXiv预印本
[5] Brown,N。;Sandholm,T.,不完全信息游戏的安全和嵌套子游戏求解,(神经信息处理系统进展(2017)),689-699
[6] Brown,N。;Sandholm,T.,《超人AI为头戴式无限制扑克:天秤座击败顶级专业人士》,《科学》,文章eaao1733 pp.(2017)
[7] Brown,N。;Sandholm,T.,多人扑克的超人AI,《科学》,365885-890(2019)·Zbl 1433.68316号
[8] Brown,N。;桑德霍姆,T。;Amos,B.,不完全信息博弈的深度有限解,(第32届神经信息处理系统国际会议论文集(2018)),7674-7685
[9] 伯奇,N.,《时间与空间:为什么不完美的信息游戏很难》(2017),阿尔伯塔大学博士论文
[10] 伯奇,N。;Johanson,M。;Bowling,M.,《使用分解解决不完美信息游戏》(AAAI(2014)),602-608
[11] 乔马克,J。;博桑斯克,B。;Lisí,V.,《一种构建和求解大型扩展形式游戏不完全召回抽象的算法》,(第26届国际人工智能联合会议论文集(2017),AAAI出版社),936-942
[12] Davis,T。;施密德,M。;Bowling,M.,广泛形式游戏的低方差和零方差基线(2019),arXiv预印本
[13] Dibangoye,J.S。;阿马托,C。;O.自助餐。;Charpillet,F.,《将Dec-POMDP最优解为连续状态MDP》,J.Artif。智力。决议,55,443-497(2016)·Zbl 1352.68220号
[14] Emery Montemerlo,R。;戈登·G。;施耐德,J。;Thrun,S.,具有共同回报的部分可观测随机博弈的近似解,(第三届自治代理和多代理系统国际联合会议论文集,2004年)。第三届自主代理和多代理系统国际联合会议论文集,2004年,AAMAS 2004(2004),IEEE),136-143
[15] 埃弗里特,T。;Hutter,M.,《利用价值强化学习避免线头攻击》(人工智能国际会议(2016),施普林格),12-22
[16] 费金,R。;摩西,Y。;Halpern,J.Y。;M.Y.Vardi,《知识推理》(2003),麻省理工出版社·Zbl 1060.03008号
[17] Foerster,J。;宋,F。;Hughes,E。;伯奇,N。;邓宁,I。;怀特森,S。;博特维尼克,M。;Bowling,M.,深度多智能体强化学习的贝叶斯动作解码器,(机器学习国际会议,PMLR(2019)),1942-1951
[18] Hansen,E.A。;伯恩斯坦,D.S。;Zilberstein,S.,部分可观测随机博弈的动态规划,(AAAI(2004)),709-715
[19] 哈特,S。;Mas-Colell,A.,《导致相关平衡的简单适应性程序》,《计量经济学》,68,1127-1150(2000)·Zbl 1020.91003号
[20] 霍拉克,k。;Bošanskí,B.,用公共观测解部分可观测随机博弈,(AAAI人工智能会议论文集(2019)),2029-236
[21] 雅各布森,S.K。;瑟伦森,T.B。;Conitzer,V.,《扩展形式游戏的时间性》,(2016年ACM理论计算机科学创新会议论文集(2016),ACM),191-199·Zbl 1335.91026号
[22] Johanson,M。;Waugh,K。;保龄球,M。;Zinkevich,M.,《在大型大型游戏中加速最佳响应计算》(IJCAI(2011)),258-265
[23] 科瓦西克,V。;Lisí,V.,《EFG形式主义的问题:使用观测的解决方案尝试》(2019年),arXiv预印本
[24] Kroer,C。;Sandholm,T.,《游戏中有边界的不完美重新调用抽象》(2016年ACM经济与计算会议论文集(2016)),459-476
[25] Kuhn,H.W.,简化的两人扑克,(对游戏理论1的贡献(1950))·Zbl 0041.25601号
[26] 拉古达基斯,M.G。;Parr,R.,使用因子值函数的零和团队马尔可夫博弈中的学习,高级神经网络信息过程。系统。,15, 1659-1666 (2002)
[27] Lanctot,M。;伯奇,北。;Zinkevich,M。;保龄球,M。;Gibson,R.G.,在具有不完全回忆的广泛形式游戏中学习不后悔,(第29届国际机器学习大会论文集(ICML-12)(2012)),65-72
[28] Lerer,A。;胡,H。;Foerster,J.N。;Brown,N.,《通过合作部分可观察游戏中的搜索改进政策》(AAAI(2020)),7187-7194
[29] 李,H。;胡克。;张,S。;Wang,L。;周,J。;Qi,Y.先生。;Song,L.,通过新的矢量化采样政策和探索最小化后悔(2020年),预打印URL
[30] 莫拉维克,M。;施密德,M。;伯奇,N。;李斯,V。;莫里尔,D。;巴德,N。;Davis,T。;Waugh,K。;Johanson,M。;Bowling,M.,《Deepstack:头戴式无限制扑克中的专家级人工智能》,《科学》,356508-513(2017)·Zbl 1403.68202号
[31] 莫拉维克,M。;施密德,M。;Ha,K。;Hladik,M。;Gaukrodger,S.J.,在大型不完全信息游戏中精炼子游戏,(第三十届AAAI人工智能会议(2016)),572-578
[32] Nayyar,A。;Mahajan,A。;Teneketzis,D.,《部分历史共享的分散随机控制:公共信息方法》,IEEE Trans。自动。控制,581644-1658(2013)·Zbl 1369.90187号
[33] 冯·诺依曼,J。;Morgenstern,O.,《博弈论与经济行为》(1953),普林斯顿大学出版社·Zbl 0053.09303号
[34] 尼桑,N。;拉夫加登,T。;塔尔多斯,E。;Vazirani,V.V.,《算法博弈论》(2007),剑桥大学出版社·Zbl 1130.91005号
[35] Oliehoek,F.A.,《分散POMDP的充分计划时间统计》(第二十届国际人工智能联合会议(2013)),302-308
[36] Oliehoek,F.A。;麻省理工斯潘。;弗拉西斯,N。;Whiteson,S.,利用因子化Dec-POMDP中的交互局部性,(自治代理和多代理系统国际联合会议(2008)),517-524
[37] Oliehoek,F.A。;怀特森,S。;Spaan,M.T.,分散POMDP中历史的无损聚类,(第八届自治代理和多代理系统国际会议论文集——第1卷(2009年),国际自治代理和多重代理系统基金会),577-584
[38] Oliehoek,F.A。;怀特森,S。;Spaan,M.T.,具有多个代理的系数化Dec-POMDP的近似解决方案,(AAMAS(2013)),563-570
[39] 佩希金,L。;Kim,K.E。;Meuleau,北卡罗来纳州。;Kaelbling,L.P.,《通过政策搜索学习合作》,(第十六届人工智能不确定性会议论文集(2000年),摩根-考夫曼出版社),489-496
[40] Russell,S.,《人类相容性:人工智能和控制问题》(2019年),企鹅出版社
[41] Schrittwieser,J。;安东尼奥卢,I。;休伯特,T。;Simonyan,K。;Sifre,L。;施密特,S。;A.盖兹。;洛克哈特,E。;哈萨比斯,D。;Graepel,T.,通过学习模型规划掌握atari、围棋、国际象棋和shogi(2019年),arXiv预印本
[42] 塞茨,D。;科瓦西克,V。;李斯,V。;鲁道夫,J。;Sun,S。;Ha,K.,扑克以外的不完全信息游戏中深度有限解的值函数(2019),arXiv预印本
[43] 肖姆,Y。;Leyton-Brown,K.,《多智能体系统:算法、博弈论和逻辑基础》(2008),剑桥大学出版社·Zbl 1163.91006号
[44] 西尔弗·D。;Schrittwieser,J。;Simonyan,K。;安东尼奥卢,I。;黄,A。;A.盖兹。;休伯特,T。;贝克,L。;赖,M。;博尔顿,A.,《在没有人类知识的情况下掌握围棋游戏》,《自然》,550,354(2017)
[45] 麻省理工斯潘。;Oliehoek,F.A。;Vlassis,N.,具有随机通信延迟的不确定性下的多智能体规划,(第十八届自动规划与调度国际会议论文集(ICAPS 2008)(2008),338-345)
[46] Srinivasan,S。;Lanctot,M。;赞巴尔迪,V。;Pérolat,J。;Tuyls,K。;穆诺斯,R。;Bowling,M.,部分可观测多智能体环境中的行为关键型策略优化(2018),arXiv预印本
[47] Šustr,M。;科瓦西克,V。;Lisí,V.,Monte Carlo继续解决不完美信息游戏中的在线策略计算,(第18届自治代理和多代理系统国际会议(2019年),国际自治代理和多重代理系统基金会),224-232
[48] Wichardt,P.C.,具有不完全回忆的有限广义博弈中Nash均衡的存在性:反例,博弈经济学。行为。,63, 366-369 (2008) ·Zbl 1134.91327号
[49] 维基百科,常识(逻辑)(2020)
[50] 德维特,C.S。;Foerster,J。;Farquhar,G。;托尔,P。;Boehmer,W。;Whiteson,S.,多智能体公共知识强化学习,(神经信息处理系统进展(2019)),9927-9939
[51] Zinkevich,M。;约翰森,M。;保龄球,M。;Piccione,C.,《不完全信息博弈中的后悔最小化》,(神经信息处理系统进展20(NIPS)(2007)),905-912
[52] 津克维奇,M。;Johanson,M。;保龄球,M。;Piccione,C.,《不完全信息博弈中的后悔最小化》,(神经信息处理系统进展(2008)),1729-1736
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。