×

使用深度强化学习进行团队组建谈判。 (英语) Zbl 1504.68236号

摘要:当自治代理在同一环境中交互时,它们必须经常合作以实现其目标。代理人有效合作的一种方式是组建一个团队,就联合计划达成具有约束力的协议,并予以执行。然而,当代理人出于自身利益时,必须适当分配团队组建的收益,以激励达成协议。已经提出了多种多代理协商方法,但通常只适用于特定的协商协议。更通用的方法通常需要人工输入或特定领域的数据,因此无法进行缩放。为了解决这个问题,我们提出了一个框架,用于培训代理使用深度强化学习进行谈判和组建团队。重要的是,我们的方法不对具体的谈判协议进行假设,而是完全由经验驱动的。我们在非空间和空间扩展的团队组建谈判环境中评估了我们的方法,证明了我们的代理击败了手工机器人,并达成了与合作博弈理论预测的公平解决方案一致的谈判结果。此外,我们还研究了代理人的物理位置如何影响谈判结果。

MSC公司:

第68页第42页 Agent技术与人工智能
68T05型 人工智能中的学习和自适应系统
2017年10月68日 人工神经网络与深度学习
91A12号机组 合作游戏
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿齐兹,哈里斯;巴赫拉赫、约拉姆;伊迪丝·埃尔金;Paterson,Mike,《加权投票游戏中的假名操纵》,J.Artif。智力。决议,40,57-93(2011年)·兹比尔1210.91011
[2] 哈里斯·阿齐兹;费利克斯·勃兰特;Harrenstein,Paul,Monotone合作游戏及其阈值版本,(第九届自治代理和多代理系统国际会议论文集,第1卷(2010年),国际自治代理和多重代理系统基金会),1107-1114
[3] 阿米纳达夫,古尔;巴赫拉赫、约拉姆;Kosenko,Konstantin;Jeffrey S.Rosenschein。;Wilf,Yoav,《重建大金字塔:识别复杂所有权结构中控制关系的方法》(2011年),见SSRN 1903941
[4] 尼尔·安德尔曼;米查尔·费尔德曼;Mansour,Yishay,无政府状态的巨大代价,游戏经济。行为。,65, 2, 289-317 (2009) ·Zbl 1156.91419号
[5] 罗伯特·奥曼(Robert J.Aumann)。;Hart,Sergiu,《经济应用博弈论手册》,第1卷(1992年),北荷兰:北荷兰阿姆斯特丹·Zbl 0874.00032号
[6] 艾格蒙,诺亚;克劳斯,萨里特;Gal A.Kaminka,《对抗环境中的多机器人周边巡逻》(IEEE机器人与自动化国际会议,2008年)。IEEE机器人与自动化国际会议,2008年,ICRA 2008(2008),IEEE,2339-2345
[7] 安、波;Lesser,Victor;大卫·欧文;Zink,Michael,云计算中动态资源分配的自动协商和退役,(第九届自治代理和多代理系统国际会议论文集,第1卷(2010年),国际自治代理和多代理系统基金会),981-988
[8] 哈里斯·阿齐兹;拉基什,奥德;Mike Paterson;Savani,Rahul,跨越连接游戏中的功率指数,(管理算法应用国际会议(2009),Springer),55-67·Zbl 1246.91009号
[9] 罗伯特·奥曼(Robert J.Aumann)。;Michael Maschler,《合作游戏的谈判集》(1961年),普林斯顿大学·Zbl 0132.14003号
[10] 阿巴普尔,赛义德;纳扎里·赫利斯(Nazari-Heris)、莫特萨(Morteza);穆罕默德·伊瓦特卢(Mohammadi-Ivatloo),贝纳姆(Behnam);Hagh,Mehrdad Tarafdar,《电力系统问题解决的博弈论方法:综合评述》,Arch。计算。方法工程,27,1,81-103(2020)
[11] 萨米尔·阿克宁;苏珊·平森(Suzanne Pinson);Shakun,Melvin F.,一种扩展的多代理协商协议,Auton。代理多代理系统。,8,1,5-45(2004年)
[12] Rummery,G.A。;Niranjan,Mahesan,《使用连接系统进行在线Q-Learning》,第11卷(1994年)
[13] 罗伯特·奥曼(Robert J.Aumann)。;Shapley,Lloyd S.,《非原子游戏的价值观》(2015),普林斯顿大学出版社
[14] Aumann,Robert J.,《无附带支付合作博弈的核心》,Trans。美国数学。《社会学杂志》,98,3,539-552(1961)·Zbl 0099.36602号
[15] Aumann,Robert J.,《具有连续交易者的市场价值》,计量经济学:J.Econometric Soc.,611-646(1975)·Zbl 0325.90082号
[16] Bachrach,Yoram,《小偷之间的荣誉:多单元拍卖中的共谋》,(第九届自治代理和多代理系统国际会议论文集,第1卷(2010年)),617-624
[17] 卢西安·布;罗伯特巴布;De Schutter,Bart,《多智能体强化学习的综合调查》,IEEE Trans。系统。人类网络。,C部分,申请。修订版,38、2、156-172(2008)
[18] 布洛克,吉迪恩;巴赫拉赫、约拉姆;Key,Peter,《共享分配游戏和云计算定价应用》(2014年自治代理和多代理系统国际会议论文集,国际自治代理和多重代理系统基金会),605-612
[19] 迪伦·巴纳斯;巴赫拉赫、约拉姆;刘思奇;杠杆,盖伊;尼古拉斯·海斯;克莉桑塔·费尔南多;Kohli,Pushmeet;Graepel,Thore,《机构不是给定的:联合代理政策学习和形态演变》,(第18届自治代理和多代理系统国际会议记录(2019年),国际自治代理和多重代理系统基金会),1134-1142
[20] Bengio,Yoshua,基于梯度的超参数优化,神经计算。,12, 8, 1889-1900 (2000)
[21] 塞缪尔·鲍尔斯(Samuel Bowles);金蒂斯,赫伯特,人类合作的起源,(合作的遗传和文化进化(2003)),429-443
[22] 伯恩斯坦,D。;Givan,R。;Immerman,N。;Zilberstein,S.,马尔可夫决策过程分散控制的复杂性(2002)·Zbl 1082.90593号
[23] 巴赫拉赫、约拉姆;格雷佩尔、托尔;Gjergji Kasneci;米夏尔·科辛斯基;Van Gael,Jurgen,《群组智商:聚合意见以提高绩效》,(《第11届自主代理和多代理系统国际会议论文集》,第1卷(2012)),535-542
[24] Tim Baarslag;Hindriks,Koen;天主教Jonker;克劳斯,萨里特;Lin,Raz,《第一届自动谈判代理竞赛》(ANAC 2010),(基于代理的复杂自动谈判新趋势(2012),施普林格出版社),113-135
[25] 约翰·班扎夫(John F.Banzhaf),《加权投票不起作用:数学分析》,《罗格斯法律评论》(Rutgers Law Rev.),19317(1964)
[26] 巴赫拉赫、约拉姆;Kohli,Pushmeet;Graepel,Thore,Rip-off:玩合作谈判游戏,(第十届自治代理和多代理系统国际会议,第3卷(2011年),国际自治代理和多重代理系统基金会),1179-1180
[27] 巴赫拉赫、约拉姆;Meir,Reshef;米查尔·费尔德曼;Tennenholtz,Moshe,《解决合作可靠性游戏》(2012),arXiv预印本
[28] 迈克尔·鲍林(Michael Bowling),《多智能体学习中的收敛与不收敛》(Convergence and no-regre in multi-agent learning),(神经信息处理系统进展(2005)),209-216
[29] 巴赫拉赫、约拉姆;Porat,Ely,《路径中断游戏》,(第九届自治代理和多代理系统国际会议论文集,第1卷(2010年)),1123-1130
[30] 巴赫拉赫、约拉姆;戴维·帕克斯(David C.Parkes)。;Rosenschein,Jeffrey S.,《联合技能游戏中的计算合作解决方案概念》,Artif。智力。,204, 1-21 (2013) ·Zbl 1334.91007号
[31] 巴赫拉赫、约拉姆;Rosenschein,Jeffrey S.,阈值网络流游戏中的功率,Auton。代理多代理系统。,18, 1, 106 (2009) ·Zbl 1173.91304号
[32] Adam Brandenburger,《合作博弈论》(2007),纽约大学,教材·Zbl 1298.91021号
[33] 乔治·W·布朗(George W.Brown),《通过虚拟游戏迭代求解游戏》(Act)。分析。产品分配,13,1,374-376(1951)·Zbl 0045.09902号
[34] 巴赫拉赫、约拉姆;Jeffrey S.Rosenschein。;Porat,Ely,《连接游戏中的力量和稳定性》,(第七届自主代理和多代理系统国际联合会议论文集,第2卷(2008年)),999-1006
[35] 巴赫拉赫、约拉姆;Shah,Nisarg,可靠性加权投票游戏,(算法博弈理论国际研讨会(2013),Springer),38-49·Zbl 1319.91019号
[36] 巴赫拉赫、约拉姆;锡拉卡尼斯,瓦西里斯;埃瓦塔尔多斯;Vojnović,米兰,无政府状态、效用博弈和联盟动力学的强劲价格,(算法博弈论国际研讨会(2014),斯普林格),218-230·Zbl 1403.91054号
[37] 迈克尔·鲍林(Michael Bowling);Veloso,Manuela,《多智能体强化学习的随机博弈理论分析》(2000),卡内基梅隆大学计算机科学学院:卡内基梅隆大学计算机学院,宾夕法尼亚州匹兹堡,技术报告·Zbl 0995.68075号
[38] 巴赫拉赫、约拉姆;Zadimoghaddam,Morteza;Key,Peter,《拍卖中共谋的合作方法》,ACM SIGecom Exch。,2011年10月1日至22日
[39] 乔治奥斯·查尔基亚基斯(Georgios Chalkiadakis);Boutilier,Craig,《不确定条件下联盟形成的贝叶斯强化学习》,(第三届自治代理和多代理系统国际联合会议论文集,第三届自主代理和多智能体系统国际联合大会论文集,AAMAS 2004,第3卷(2004)),1090-1097
[40] 陈曦;邓晓铁,解决双层纳什均衡的复杂性,(第47届IEEE计算机科学基础研讨会论文集(2006)),261-272
[41] 乔治奥斯·查尔基亚基斯(Georgios Chalkiadakis);伊迪丝·埃尔金;Michael Wooldridge,《合作博弈论的计算方面》,Synth。莱克特。Artif公司。智力。机器。学习。,5, 6, 1-168 (2011) ·Zbl 1258.91005号
[42] Christopher,Martin,物流与供应链管理(2016),英国培生
[43] 曹,克里斯;Angeliki Lazaridou;马克·兰科特;Joel Z.Leibo。;卡尔·图尔斯(Karl Tuyls);克拉克·斯蒂芬(Clark,Stephen),《通过谈判实现紧急沟通》(2018),arXiv预印本
[44] 曹,克里斯;Angeliki Lazaridou;马克·兰科特;Joel Z.Leibo。;卡尔·图尔斯(Karl Tuyls);克拉克·斯蒂芬(Clark,Stephen),《通过谈判进行紧急沟通》(2018年),CoRR
[45] 文森特·科尼策;Sandholm,Tuomas,计算Shapley值,操作值划分方案,检查多问题域中的核心成员,(AAAI,第4卷(2004)),219-225
[46] 文森特·科尼策;Sandholm,Tuomas,AWESOME:一种通用的多智能体学习算法,在自我游戏中收敛,并学习对静止对手Mach的最佳响应。学习。,67, 1-2, 23-43 (2007) ·Zbl 1471.91075号
[47] Pradeep Dubey;John Geanakoplos,通过Shapley-Shubik,J.Math从Nash到Walras。经济。,39, 5-6, 391-400 (2003) ·Zbl 1052.91010号
[48] Pradeep Dubey;Shapley,Lloyd S.,Banzhaf幂指数的数学性质,数学。操作。研究,4,2,99-131(1979)·Zbl 0409.90008号
[49] Domhan,托拜厄斯;Jost Tobias的Springenberg;Hutter,Frank,通过学习曲线外推加速深层神经网络的自动超参数优化,(第二十四届国际人工智能联合会议(2015))
[50] Dubey,Pradeep,《论Shapley值的唯一性》,《国际博弈论》,4,3,131-139(1975)·兹比尔0352.90085
[51] 汤姆·埃克勒斯(Tom Eccles);巴赫拉赫、约拉姆;杠杆,盖伊;Angeliki Lazaridou;Graepel,Thore,《多智能体强化学习中紧急通信的偏见》(Advances in Neural Information Processing Systems,2019),13111-13121
[52] 伊迪丝·埃尔金;Leslie Ann Goldberg;保罗·戈德伯格(Paul W.Goldberg)。;Michael Wooldridge,《加权投票游戏的计算复杂性》,Ann.Math。Artif公司。智力。,56, 2, 109-131 (2009) ·Zbl 1185.91081号
[53] 托马斯·埃尔斯克(Thomas Elsken);梅岑,扬·亨德里克;Hutter,Frank,《神经架构搜索:调查》(2018),arXiv预印本·Zbl 1485.68229号
[54] L.Espeholt、H.Soyer、R.Munos、K.Simonyan、V.Mnih、T.Ward、Y.Doron、V.Firoiu、T.Harley、I.Dunning、S.Legg、K.Kavukcuoglu、IMPALA:具有重要性加权学习者架构的可扩展分布式深度学习语言,arXiv电子版,2018年2月。
[55] Foerster,Jakob N。;Chen,Richard Y。;Al-Shedivat,Maruan;西蒙·怀特森(Shimon Whiteson);彼得·阿比尔(Pieter Abbeel);Mordatch,Igor,《学习与机会学习意识》(2017),CoRR
[56] 费斯特,伊斯托克;杨新社;费斯特,伊斯托克;珍妮斯·布雷斯特(Janez Brest);Fister,Dušan,《自然启发优化算法简评》(2013),arXiv预印本·Zbl 1301.65045号
[57] Felsenthal,Dan S。;马乔夫,莫什,《投票权的衡量》(1998年),图书·Zbl 0954.91019号
[58] 菲利波维奇,V。;Nedic,N。;Stojanovic,V.,真实情况下气动伺服执行器的鲁棒识别,Forsch。Ingenieurwes.、。,75, 4, 183-196 (2011)
[59] Michael Fisher;Michael Wooldridge,《关于多智能体系统的形式化规范和验证》,国际合作组织。信息系统。,6, 01, 37-65 (1997)
[60] 雅克·费伯;Gerhard Weiss,《多代理系统:分布式人工智能简介》,第1卷(1999年),Addison-Wesley:Addison-Whesley阅读
[61] Greif,A.,《制度与现代经济之路:中世纪贸易的教训》,《制度和决策的政治经济学》(2006年),剑桥大学出版社
[62] 卡利罗·乔治拉(Kallirroi Georgila)、大卫·特劳姆(David Traum),《谈判中论证对话政策的强化学习》,摘自:《国际言语传播协会第十二届年会》(The 12th Annual Conference of The International Speech Communication Association),意大利佛罗伦萨,2011年8月。
[63] Gul,Faruk,沙普利价值的讨价还价基础,计量经济学,57,1,81-95(1989)·兹比尔0677.90011
[64] 爱德华·休斯;托马斯·安东尼。;汤姆·埃克勒斯(Tom Eccles);Joel Z.Leibo。;戴维·巴尔杜齐(David Balduzzi);巴赫拉赫、约拉姆,《学会解决多人零和游戏中的联盟困境》(AAMAS(2020))
[65] 哈拉里,尤瓦尔·诺亚,《智人:人类简史》(2014),兰登书屋
[66] 约瑟夫·亨里奇(Joseph Henrich),《我们成功的秘诀:文化如何推动人类进化、驯化我们的物种并使我们更聪明》(2017),普林斯顿大学出版社
[67] Ralf Herbrich、Thore Graepel、Yoram Bachrach,《社交广告定价》,美国专利94135572016年8月9日。
[68] 爱德华·休斯;Joel Z.Leibo。;菲利普斯,Matthew G。;卡尔·图尔斯(Karl Tuyls);杜涅兹·古兹曼(Edgar A.Duéñez-Guzmán)。;安东尼奥·加西亚·卡斯塔涅达;伊恩·邓宁;朱,蒂娜;凯文·麦基(Kevin R.McKee)。;Koster,Raphael,《不平等厌恶改善跨期社会困境中的合作》,(神经信息处理系统进展)。神经信息处理系统(NIPS)进展,加拿大蒙特利尔(2018))
[69] 罗恩·霍尔兹曼;劳恩,日产,拥堵游戏中的强均衡,游戏经济。行为。,21, 1-2, 85-101 (1997) ·Zbl 0899.90169号
[70] Manfred J.Holler,《组建联盟和衡量投票权》,《政治研究》,第30、2、262-271页(1982年)·Zbl 0519.00015号
[71] 约瑟夫·霍夫鲍尔;Sandholm,William H.,《论随机虚拟博弈的全球收敛》,计量经济学,70,62265-2294(2002)·Zbl 1141.91336号
[72] 伊藤、Takayuki;平光服部;Klein,Mark,《代理的多问题协商协议:探索非线性效用空间》(IJCAI,第7卷(2007)),1347-1352
[73] Leong,Samuel;Shoham,Yoav,《边际贡献网:联盟游戏的紧凑表示方案》,(第六届ACM电子商务会议论文集(2005),ACM),193-202
[74] 马克斯·贾德伯格(Max Jaderberg);Czarnecki,沃伊切赫M。;伊恩·邓宁;卢克·马里斯;杠杆,盖伊;安东尼奥·加西亚·卡斯塔内达;查尔斯·比蒂(Charles Beattie);Neil C.Rabinowitz。;阿里·莫科斯(Ari S.Morcos)。;Ruderman,Avraham,《基于人群的深度强化学习在第一人称多人游戏中的人性化表现》(2018),arXiv预印本
[75] 尼古拉斯·R·詹宁斯(Nicholas R.Jennings)。;法拉廷,佩曼;阿莱西奥·洛穆西奥(Alessio R.Lomuscio)。;西蒙·帕森斯;Michael J.Wooldridge。;Sierra,Carles,《自动谈判:前景、方法和挑战》,Group Decis。黑人。,199-215年10月2日(2001年)
[76] 大卫·约翰逊(David W.Johnson)。;罗杰·约翰逊,《合作与竞争:理论与研究》(1989),互动图书公司
[77] Kingma,Diederik P。;Ba,Jimmy,Adam:随机优化方法(2014),arXiv预印本
[78] 卡拉瓦里(Kravari)、卡利奥皮(Kalliopi);Nick Bassiliades,《代理平台调查》,J.Artif。Soc.Soc.仿真。,18, 1, 11 (2015)
[79] 拉杰夫·科利(Rajeev Kohli);Park,Heungsoo,数量折扣的合作博弈模型,Manag。科学。,351693-707(1989年)·Zbl 0721.90030号
[80] Samuel S.Komorita。;帕克斯,克雷格D。,《人际关系:混合动力互动》,年。精神病学牧师。,46, 1, 183-207 (1995)
[81] Kraus,Sarit,多智能体环境中的谈判与合作,人工智能。智力。,94, 1-2, 79-97 (1997) ·Zbl 0904.68168号
[82] 平崎北野;佐藤忠雄;野田佳彦;松原,Hitoshi;高桥、友爱;Shinjou,Atsuhi;Susumu Shimada,《RoboCup Rescue:大规模灾难中的搜索和救援:作为自治代理研究领域》(1999年IEEE系统、人和控制论国际会议,1999年会议记录,第6卷)。1999年IEEE系统、人和控制论国际会议,1999年会议记录,第6卷,IEEE SMC'99(1999),IEEE),739-743
[83] Lewenberg,尤德;巴赫拉赫、约拉姆;桑普林斯基,约纳坦;阿维夫·佐哈尔;Rosenschein,Jeffrey S.,比特币开采池:合作博弈分析,(2015年自治代理和多代理系统国际会议论文集(2015),Citeser),919-927
[84] Dennis Leech,《为欧盟理事会设计投票系统》,公共选择,113,3-4,437-464(2002)
[85] 李、舒;范飞;芮涵、窦;于、水;窦万春,基于联盟博弈分析的拼车服务动态定价方法,(2016年IEEE第18届高性能计算与通信国际会议;IEEE第14届智能城市国际会议;第二届IEEE数据科学与系统国际会议(HPCC/SmartCity/DSS)(2016),IEEE),78-85
[86] Littman,Michael L.,Markov博弈作为多智能体强化学习的框架,(第十一届机器学习国际会议论文集(1994),Morgan Kaufmann),157-163
[87] Lin,Raz;克劳斯,萨里特,自动化代理能熟练地与人类谈判吗?,Commun公司。ACM,53,1,78-88(2010)
[88] Lin,Raz;克劳斯,萨里特;乔纳森·威尔肯菲尔德;James Barry,在信息不完整的环境中使用自动化代理Artif与有限理性代理进行谈判。智力。,172, 6, 823 (2008) ·Zbl 1182.68311号
[89] 亚当·莱勒(Adam Lerer);Alexander Peysakhovich,《利用深度强化学习在复杂社会困境中保持合作》(2017),CoRR
[90] Angeliki Lazaridou;亚历山大·佩萨科维奇(Peysakhovich,Alexander);Baroni,Marco,《多主体合作与(自然)语言的出现》(2016),CoRR
[91] 奥梅尔列夫;波卢卡罗夫,玛丽亚;巴赫拉赫、约拉姆;Rosenschein,Jeffrey S.,《全日制拍卖和众包竞赛中的合并与共谋》(2013年)
[92] 迈克·刘易斯;雅茨、丹尼斯;Yann N.多芬。;迪瓦·帕里赫;巴特拉,德鲁夫,成交还是不成交?谈判对话的端到端学习(2017),arXiv预印本
[93] 马克·兰科特;桑巴尔迪,维尼修斯;格鲁斯莱斯、奥德鲁纳斯;Angeliki Lazaridou;卡尔·图尔斯(Karl Tuyls);佩罗拉,朱利安;Silver,David;Thore Graepel,《多智能体强化学习的统一游戏理论方法》(神经信息处理系统进展(2017)),4190-4203
[94] Joel Z.Leibo。;桑巴尔迪,维尼修斯;马克·兰科特;雅努斯·马雷基(Janusz Marecki);Graepel,Thore,《序贯社会困境中的多智能体强化学习》,(《第十六届自主智能体和多智能体系统会议论文集》(2017),国际自主智能体与多智能体基金会),464-473
[95] 埃里克·马斯金(Eric Maskin),《实施与强纳什均衡》(1978)·兹比尔0453.90007
[96] 沃洛德迈尔·姆尼赫(Volodymyr Mnih);阿德里·普伊格多梅内克·巴迪亚;迈赫迪·米尔扎;亚历克斯·格雷夫斯;Timothy P.Lillicrap。;哈雷,蒂姆;Silver,David;Kavukcuoglu,Koray,深度强化学习的异步方法(2016),CoRR
[97] Meir,Reshef;巴赫拉赫、约拉姆;Rosenschein,Jeffrey S.,费用分摊游戏中的最低补贴,(算法博弈论国际研讨会(2010),Springer),347-358·Zbl 1310.91024号
[98] 莫什·马什;巴赫拉赫、约拉姆;Zick,Yair,《如何在混合人机环境中形成获胜联盟》,(第26届国际人工智能联合会议论文集(2017)),465-471
[99] 道戈尔·麦克劳林(Dougal Maclaurin);大卫·杜维诺(David Duvenaud);Adams,Ryan,通过可逆学习实现基于梯度的超参数优化,(国际机器学习会议(2015)),2113-2122
[100] 蒂姆·马修斯(Tim Matthews)、萨瓦帕利·拉姆特尔(Sarvapali Ramtur)、乔治奥斯·查尔基亚达克斯(Georgios Chalkiadakis),《在梦幻足球中与人类竞争:大型部分可观察领域中的球队组成》,2012年1月2日。
[101] 乔治·梅拉斯(George J.Mailath)。;彼得·泽姆斯基(Peter Zemsky),《与异质投标人共谋二价拍卖》(Games Econ)。行为。,3, 4, 467-486 (1991) ·兹比尔0752.90014
[102] Nash,John,n人博弈中的平衡点,Proc。国家。阿卡德。科学。美国,36,1,48-49(1950)·Zbl 0036.01104号
[103] 辛西娅·尼古莱;Madey,Gregory,《贸易工具:对各种基于代理的建模平台的调查》,J.Artif。Soc.Soc.仿真。,12, 2, 2 (2009)
[104] 诺瓦克·奈迪奇;Prsic、Dragan;卢比萨杜邦吉克;弗拉基米尔·斯托亚诺维奇;Djordjevic,Vladimir,《并联机器人平台的最佳级联液压控制》,PSO,Int.J.Adv.Manuf.Technol.著。,72, 5-8, 1085-1098 (2014)
[105] Oliver,Jim R.,《自动化谈判的机器学习方法和电子商务前景》,J.Manag。信息系统。,第13、3、83-112页(1996年)
[106] 马丁·J·奥斯本。;Ariel Rubinstein,《博弈论课程》(1994),麻省理工出版社·Zbl 1194.91003号
[107] 朱利安·佩罗拉特(Julien Perolat);Joel Z.Leibo。;桑巴尔迪,维尼修斯;查尔斯·比蒂(Charles Beattie);卡尔·图尔斯(Karl Tuyls);Graepel,Thore,公共工具资源分配的多智能体强化学习模型,(神经信息处理系统(NIPS)进展)。神经信息处理系统(NIPS)进展,加利福尼亚州长滩(2017))
[108] 普雷西奇,德拉甘;奈迪奇,诺瓦克;弗拉基米尔·斯托亚诺维奇(Vladimir Stojanović),气动驱动并联机器人平台的自然优化控制,Proc。仪器机械。工程师,C部分,J.Mech。工程科学。,231, 1, 59-71 (2017)
[109] Ariel D.普罗卡西亚。;尼萨尔·沙阿;Lee Tucker,Max,《关于合作游戏中协同效应的结构》(第二十届AAAI人工智能会议(2014))
[110] 以斯拉·雷斯尼克;巴赫拉赫、约拉姆;Meir,Reshef;Jeffrey S.Rosenschein,《网络流游戏中的稳定性成本》(2009年计算机科学数学基础国际研讨会,Springer),636-650·Zbl 1250.68121号
[111] 大卫·G·兰德。;马丁·诺瓦克(Martin A.Nowak),《人类合作》(Human cooperation),《趋势认知》(Trends Cogn)。科学。,17, 8, 413-425 (2013)
[112] Jeffrey S.Rosenschein。;吉拉德·兹洛特金(Gilad Zlotkin),《遭遇规则:计算机间自动协商的设计约定》(1994),麻省理工学院出版社
[113] Jeff S.Shamma。;Arslan,Gürdal,动态虚拟游戏,动态梯度游戏,以及纳什均衡的分布式收敛,IEEE Trans。自动。控制,50,3,312-327(2005)·Zbl 1366.91028号
[114] 萨顿,R。;Barto,A.,《强化学习:导论》(2018),麻省理工学院出版社·Zbl 1407.68009号
[115] David Schmeidler,《特征函数博弈的核仁》,SIAM J.Appl。数学。,17, 6, 1163-1170 (1969) ·兹比尔0191.49502
[116] 胡安·苏里斯(Juan E.Suris)。;Luiz A.DaSilva。;韩、朱;MacKenzie,Allen B.,分布式频谱共享的合作博弈论,(2007 IEEE国际通信会议(2007),IEEE),5282-5287
[117] Shapley,Lloyd,《随机游戏》,Proc。国家。阿卡德。科学。美国,39,1095-1100(1953)·Zbl 0051.35805号
[118] Shapley,Lloyd S.,n人游戏的一个值,Contrib.理论游戏,2,28,307-317(1953)·Zbl 0050.14404号
[119] 劳埃德·沙普利(Lloyd S.Shapley),《大型游戏的价值——第VII章:货币的一般交换经济》(1964年)
[120] 安大略省谢霍里;Kraus,Sarit,通过代理联盟形成的任务分配方法,Artif。智力。,101, 1, 165-200 (1998) ·Zbl 0908.68032号
[121] Peter Stone,Gal A.Kaminka,Sarit Kraus,Jeffrey S.Rosenschein,《Ad hoc autonomous agent teams:collaboration without pre-cordination》,载于《第二十四届人工智能会议论文集》,2010年7月·Zbl 1329.68252号
[122] 肖姆,Y。;Leyton-Brown,K.,《多智能体系统:算法、博弈论和逻辑基础》(2009),剑桥大学出版社·Zbl 1163.91006号
[123] 弗拉基米尔·斯托亚诺维奇;Nedic,Novak,随机非线性系统的联合状态和参数鲁棒估计,国际鲁棒非线性控制杂志,26,14,3058-3074(2016)·Zbl 1346.93367号
[124] 弗拉基米尔·斯托亚诺维奇;Nedic,Novak,液压驱动并联机器人平台级联控制的自然启发参数调整方法,J.Optim。理论应用。,168, 1, 332-347 (2016) ·Zbl 1352.93077号
[125] 弗拉基米尔·斯托亚诺维奇;诺瓦克·奈迪奇;Prsic、Dragan;Dubonjic,Ljubisa,非高斯噪声中输出受限ARX模型辨识的优化实验设计,应用。数学。型号。,第40页,第13页,第14页,第6676-6689页(2016年)·Zbl 1465.62136号
[126] Yoav Shoham、Rob Powers、Trond Grenager,《多智能体强化学习:批判性调查》,网络手稿,2003年·Zbl 1168.68493号
[127] Shapley,Lloyd S。;马丁·舒比克(Martin Shubik),《评估委员会系统中权力分配的方法》,《美国政治科学》。修订版,48,3787-792(1954年)
[128] 斯特拉芬,P.,Shapley-Shubik和Banzhaf功率指数作为概率,(Shapley值,劳埃德·S·Shapley荣誉论文(1988)),71-81·兹比尔0754.90078
[129] Tambe,Milind,《安全与博弈论:算法,部署系统,经验教训》(2011),剑桥大学出版社·Zbl 1235.91005号
[130] 詹姆斯·托马斯;西蒙·柯比(Simon Kirby),《自我归化与语言的进化》,《生物》(Biol)。菲洛斯。,33、1、9(2018年3月)
[131] 阿德琳德·M·乌尔马赫。;Danny Weyns,《多代理系统:模拟和应用》(2009),CRC出版社
[132] van den Brink,René,合作游戏和网络中的效率和共谋中立性,games Econ。行为。,76, 1, 344-348 (2012) ·Zbl 1274.91057号
[133] 沃勒德米奇克,Yevgeniy;Wellman,Michael P.,模拟游戏中纳什均衡近似的随机搜索方法,(第七届自治代理和多代理系统国际联合会议论文集,第2卷(2008年),国际自治代理和多重代理系统基金会),1055-1062
[134] Michael Wooldridge,《多智能体系统简介》(2009),John Wiley&Sons
[135] 向晓荣;瑞安·肯尼迪;格雷戈里·麦迪(Gregory Madey);Cabanis,Steve,《基于代理的科学仿真模型的验证与确认》,(agent-Directed simulation Conference,vol.47(2005)),55
[136] Yang,Xin-She,《自然启发的元启发式算法》(2010),Luniver出版社·Zbl 1277.68252号
[137] 迈克尔·扎克曼;彼得·法利舍夫斯基(Piotr Faliszewski);巴赫拉赫、约拉姆;埃尔金德,伊迪丝,在加权投票游戏中操纵配额,人工制品。智力。,180, 1-19 (2012) ·兹比尔1238.91056
[138] 佐夫,巴雷特;Le,Quoc V.,神经架构搜索与强化学习(2016),arXiv预印本
[139] 吉拉德·兹洛特金;Rosenschein,Jeffrey S.,合作领域中自治代理之间的协商和任务共享(IJCAI,第89卷(1989)),20-25·Zbl 0713.68084号
[140] 杰弗里·兹维贝尔(Jeffrey Zwiebel),《块状投资和公司控制的部分利益》(Block investment and partial benefits of corporate control),《经济评论》(Rev.Econ)。双头螺栓,62,2161-185(1995)·Zbl 0829.90048号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。