文件Zbl 1504.68236-zbMATH Open

尤拉姆·巴赫拉赫；理查德·埃弗雷特；爱德华·休斯；安吉利基·拉扎里杜；Joel Z.雷波。；马克·兰科特；迈克尔·约翰逊；沃伊切赫·M·恰尔内茨基。；索尔·格雷佩尔

使用深度强化学习进行团队组建谈判。（英语） Zbl 1504.68236号

Artif公司。智力。 288，文章ID 103356，20 p.（2020）.

摘要：当自治代理在同一环境中交互时，它们必须经常合作以实现其目标。代理人有效合作的一种方式是组建一个团队，就联合计划达成具有约束力的协议，并予以执行。然而，当代理人出于自身利益时，必须适当分配团队组建的收益，以激励达成协议。已经提出了多种多代理协商方法，但通常只适用于特定的协商协议。更通用的方法通常需要人工输入或特定领域的数据，因此无法进行缩放。为了解决这个问题，我们提出了一个框架，用于培训代理使用深度强化学习进行谈判和组建团队。重要的是，我们的方法不对具体的谈判协议进行假设，而是完全由经验驱动的。我们在非空间和空间扩展的团队组建谈判环境中评估了我们的方法，证明了我们的代理击败了手工机器人，并达成了与合作博弈理论预测的公平解决方案一致的谈判结果。此外，我们还研究了代理人的物理位置如何影响谈判结果。

引用于2文件

MSC公司：

第68页第42页	Agent技术与人工智能
68T05型	人工智能中的学习和自适应系统
2017年10月68日	人工神经网络与深度学习
91A12号机组	合作游戏

关键词：

多智能体系统；团队组建；联盟形成；强化学习；深度学习；合作博弈；夏普里值

软件：

黑斑羚；亚当；令人惊叹的

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	阿齐兹，哈里斯；巴赫拉赫、约拉姆；伊迪丝·埃尔金；Paterson，Mike，《加权投票游戏中的假名操纵》，J.Artif。智力。决议，40，57-93（2011年）·兹比尔1210.91011
[2]	哈里斯·阿齐兹；费利克斯·勃兰特；Harrenstein，Paul，Monotone合作游戏及其阈值版本，（第九届自治代理和多代理系统国际会议论文集，第1卷（2010年），国际自治代理和多重代理系统基金会），1107-1114
[3]	阿米纳达夫，古尔；巴赫拉赫、约拉姆；Kosenko，Konstantin；Jeffrey S.Rosenschein。；Wilf，Yoav，《重建大金字塔：识别复杂所有权结构中控制关系的方法》（2011年），见SSRN 1903941
[4]	尼尔·安德尔曼；米查尔·费尔德曼；Mansour，Yishay，无政府状态的巨大代价，游戏经济。行为。，65, 2, 289-317 (2009) ·Zbl 1156.91419号
[5]	罗伯特·奥曼（Robert J.Aumann）。；Hart，Sergiu，《经济应用博弈论手册》，第1卷（1992年），北荷兰：北荷兰阿姆斯特丹·Zbl 0874.00032号
[6]	艾格蒙，诺亚；克劳斯，萨里特；Gal A.Kaminka，《对抗环境中的多机器人周边巡逻》（IEEE机器人与自动化国际会议，2008年）。IEEE机器人与自动化国际会议，2008年，ICRA 2008（2008），IEEE，2339-2345
[7]	安、波；Lesser，Victor；大卫·欧文；Zink，Michael，云计算中动态资源分配的自动协商和退役，（第九届自治代理和多代理系统国际会议论文集，第1卷（2010年），国际自治代理和多代理系统基金会），981-988
[8]	哈里斯·阿齐兹；拉基什，奥德；Mike Paterson；Savani，Rahul，跨越连接游戏中的功率指数，（管理算法应用国际会议（2009），Springer），55-67·Zbl 1246.91009号
[9]	罗伯特·奥曼（Robert J.Aumann）。；Michael Maschler，《合作游戏的谈判集》（1961年），普林斯顿大学·Zbl 0132.14003号
[10]	阿巴普尔，赛义德；纳扎里·赫利斯（Nazari-Heris）、莫特萨（Morteza）；穆罕默德·伊瓦特卢（Mohammadi-Ivatloo），贝纳姆（Behnam）；Hagh，Mehrdad Tarafdar，《电力系统问题解决的博弈论方法：综合评述》，Arch。计算。方法工程，27，1，81-103（2020）
[11]	萨米尔·阿克宁；苏珊·平森（Suzanne Pinson）；Shakun，Melvin F.，一种扩展的多代理协商协议，Auton。代理多代理系统。，8，1，5-45（2004年）
[12]	Rummery，G.A。；Niranjan，Mahesan，《使用连接系统进行在线Q-Learning》，第11卷（1994年）
[13]	罗伯特·奥曼（Robert J.Aumann）。；Shapley，Lloyd S.，《非原子游戏的价值观》（2015），普林斯顿大学出版社
[14]	Aumann，Robert J.，《无附带支付合作博弈的核心》，Trans。美国数学。《社会学杂志》，98，3，539-552（1961）·Zbl 0099.36602号
[15]	Aumann，Robert J.，《具有连续交易者的市场价值》，计量经济学：J.Econometric Soc.，611-646（1975）·Zbl 0325.90082号
[16]	Bachrach，Yoram，《小偷之间的荣誉：多单元拍卖中的共谋》，（第九届自治代理和多代理系统国际会议论文集，第1卷（2010年）），617-624
[17]	卢西安·布；罗伯特巴布；De Schutter，Bart，《多智能体强化学习的综合调查》，IEEE Trans。系统。人类网络。，C部分，申请。修订版，38、2、156-172（2008）
[18]	布洛克，吉迪恩；巴赫拉赫、约拉姆；Key，Peter，《共享分配游戏和云计算定价应用》（2014年自治代理和多代理系统国际会议论文集，国际自治代理和多重代理系统基金会），605-612
[19]	迪伦·巴纳斯；巴赫拉赫、约拉姆；刘思奇；杠杆，盖伊；尼古拉斯·海斯；克莉桑塔·费尔南多；Kohli，Pushmeet；Graepel，Thore，《机构不是给定的：联合代理政策学习和形态演变》，（第18届自治代理和多代理系统国际会议记录（2019年），国际自治代理和多重代理系统基金会），1134-1142
[20]	Bengio，Yoshua，基于梯度的超参数优化，神经计算。，12, 8, 1889-1900 (2000)
[21]	塞缪尔·鲍尔斯（Samuel Bowles）；金蒂斯，赫伯特，人类合作的起源，（合作的遗传和文化进化（2003）），429-443
[22]	伯恩斯坦，D。；Givan，R。；Immerman，N。；Zilberstein，S.，马尔可夫决策过程分散控制的复杂性（2002）·Zbl 1082.90593号
[23]	巴赫拉赫、约拉姆；格雷佩尔、托尔；Gjergji Kasneci；米夏尔·科辛斯基；Van Gael，Jurgen，《群组智商：聚合意见以提高绩效》，（《第11届自主代理和多代理系统国际会议论文集》，第1卷（2012）），535-542
[24]	Tim Baarslag；Hindriks，Koen；天主教Jonker；克劳斯，萨里特；Lin，Raz，《第一届自动谈判代理竞赛》（ANAC 2010），（基于代理的复杂自动谈判新趋势（2012），施普林格出版社），113-135
[25]	约翰·班扎夫（John F.Banzhaf），《加权投票不起作用：数学分析》，《罗格斯法律评论》（Rutgers Law Rev.），19317（1964）
[26]	巴赫拉赫、约拉姆；Kohli，Pushmeet；Graepel，Thore，Rip-off:玩合作谈判游戏，（第十届自治代理和多代理系统国际会议，第3卷（2011年），国际自治代理和多重代理系统基金会），1179-1180
[27]	巴赫拉赫、约拉姆；Meir，Reshef；米查尔·费尔德曼；Tennenholtz，Moshe，《解决合作可靠性游戏》（2012），arXiv预印本
[28]	迈克尔·鲍林（Michael Bowling），《多智能体学习中的收敛与不收敛》（Convergence and no-regre in multi-agent learning），（神经信息处理系统进展（2005）），209-216
[29]	巴赫拉赫、约拉姆；Porat，Ely，《路径中断游戏》，（第九届自治代理和多代理系统国际会议论文集，第1卷（2010年）），1123-1130
[30]	巴赫拉赫、约拉姆；戴维·帕克斯（David C.Parkes）。；Rosenschein，Jeffrey S.，《联合技能游戏中的计算合作解决方案概念》，Artif。智力。，204, 1-21 (2013) ·Zbl 1334.91007号
[31]	巴赫拉赫、约拉姆；Rosenschein，Jeffrey S.，阈值网络流游戏中的功率，Auton。代理多代理系统。，18, 1, 106 (2009) ·Zbl 1173.91304号
[32]	Adam Brandenburger，《合作博弈论》（2007），纽约大学，教材·Zbl 1298.91021号
[33]	乔治·W·布朗（George W.Brown），《通过虚拟游戏迭代求解游戏》（Act）。分析。产品分配，13，1，374-376（1951）·Zbl 0045.09902号
[34]	巴赫拉赫、约拉姆；Jeffrey S.Rosenschein。；Porat，Ely，《连接游戏中的力量和稳定性》，（第七届自主代理和多代理系统国际联合会议论文集，第2卷（2008年）），999-1006
[35]	巴赫拉赫、约拉姆；Shah，Nisarg，可靠性加权投票游戏，（算法博弈理论国际研讨会（2013），Springer），38-49·Zbl 1319.91019号
[36]	巴赫拉赫、约拉姆；锡拉卡尼斯，瓦西里斯；埃瓦塔尔多斯；Vojnović，米兰，无政府状态、效用博弈和联盟动力学的强劲价格，（算法博弈论国际研讨会（2014），斯普林格），218-230·Zbl 1403.91054号
[37]	迈克尔·鲍林（Michael Bowling）；Veloso，Manuela，《多智能体强化学习的随机博弈理论分析》（2000），卡内基梅隆大学计算机科学学院：卡内基梅隆大学计算机学院，宾夕法尼亚州匹兹堡，技术报告·Zbl 0995.68075号
[38]	巴赫拉赫、约拉姆；Zadimoghaddam，Morteza；Key，Peter，《拍卖中共谋的合作方法》，ACM SIGecom Exch。，2011年10月1日至22日
[39]	乔治奥斯·查尔基亚基斯（Georgios Chalkiadakis）；Boutilier，Craig，《不确定条件下联盟形成的贝叶斯强化学习》，（第三届自治代理和多代理系统国际联合会议论文集，第三届自主代理和多智能体系统国际联合大会论文集，AAMAS 2004，第3卷（2004）），1090-1097
[40]	陈曦；邓晓铁，解决双层纳什均衡的复杂性，（第47届IEEE计算机科学基础研讨会论文集（2006）），261-272
[41]	乔治奥斯·查尔基亚基斯（Georgios Chalkiadakis）；伊迪丝·埃尔金；Michael Wooldridge，《合作博弈论的计算方面》，Synth。莱克特。Artif公司。智力。机器。学习。，5, 6, 1-168 (2011) ·Zbl 1258.91005号
[42]	Christopher，Martin，物流与供应链管理（2016），英国培生
[43]	曹，克里斯；Angeliki Lazaridou；马克·兰科特；Joel Z.Leibo。；卡尔·图尔斯（Karl Tuyls）；克拉克·斯蒂芬（Clark，Stephen），《通过谈判实现紧急沟通》（2018），arXiv预印本
[44]	曹，克里斯；Angeliki Lazaridou；马克·兰科特；Joel Z.Leibo。；卡尔·图尔斯（Karl Tuyls）；克拉克·斯蒂芬（Clark，Stephen），《通过谈判进行紧急沟通》（2018年），CoRR
[45]	文森特·科尼策；Sandholm，Tuomas，计算Shapley值，操作值划分方案，检查多问题域中的核心成员，（AAAI，第4卷（2004）），219-225
[46]	文森特·科尼策；Sandholm，Tuomas，AWESOME：一种通用的多智能体学习算法，在自我游戏中收敛，并学习对静止对手Mach的最佳响应。学习。，67, 1-2, 23-43 (2007) ·Zbl 1471.91075号
[47]	Pradeep Dubey；John Geanakoplos，通过Shapley-Shubik，J.Math从Nash到Walras。经济。，39, 5-6, 391-400 (2003) ·Zbl 1052.91010号
[48]	Pradeep Dubey；Shapley，Lloyd S.，Banzhaf幂指数的数学性质，数学。操作。研究，4，2，99-131（1979）·Zbl 0409.90008号
[49]	Domhan，托拜厄斯；Jost Tobias的Springenberg；Hutter，Frank，通过学习曲线外推加速深层神经网络的自动超参数优化，（第二十四届国际人工智能联合会议（2015））
[50]	Dubey，Pradeep，《论Shapley值的唯一性》，《国际博弈论》，4，3，131-139（1975）·兹比尔0352.90085
[51]	汤姆·埃克勒斯（Tom Eccles）；巴赫拉赫、约拉姆；杠杆，盖伊；Angeliki Lazaridou；Graepel，Thore，《多智能体强化学习中紧急通信的偏见》（Advances in Neural Information Processing Systems，2019），13111-13121
[52]	伊迪丝·埃尔金；Leslie Ann Goldberg；保罗·戈德伯格（Paul W.Goldberg）。；Michael Wooldridge，《加权投票游戏的计算复杂性》，Ann.Math。Artif公司。智力。，56, 2, 109-131 (2009) ·Zbl 1185.91081号
[53]	托马斯·埃尔斯克（Thomas Elsken）；梅岑，扬·亨德里克；Hutter，Frank，《神经架构搜索：调查》（2018），arXiv预印本·Zbl 1485.68229号
[54]	L.Espeholt、H.Soyer、R.Munos、K.Simonyan、V.Mnih、T.Ward、Y.Doron、V.Firoiu、T.Harley、I.Dunning、S.Legg、K.Kavukcuoglu、IMPALA：具有重要性加权学习者架构的可扩展分布式深度学习语言，arXiv电子版，2018年2月。
[55]	Foerster，Jakob N。；Chen，Richard Y。；Al-Shedivat，Maruan；西蒙·怀特森（Shimon Whiteson）；彼得·阿比尔（Pieter Abbeel）；Mordatch，Igor，《学习与机会学习意识》（2017），CoRR
[56]	费斯特，伊斯托克；杨新社；费斯特，伊斯托克；珍妮斯·布雷斯特（Janez Brest）；Fister，Dušan，《自然启发优化算法简评》（2013），arXiv预印本·Zbl 1301.65045号
[57]	Felsenthal，Dan S。；马乔夫，莫什，《投票权的衡量》（1998年），图书·Zbl 0954.91019号
[58]	菲利波维奇，V。；Nedic，N。；Stojanovic，V.，真实情况下气动伺服执行器的鲁棒识别，Forsch。Ingenieurwes.、。，75, 4, 183-196 (2011)
[59]	Michael Fisher；Michael Wooldridge，《关于多智能体系统的形式化规范和验证》，国际合作组织。信息系统。，6, 01, 37-65 (1997)
[60]	雅克·费伯；Gerhard Weiss，《多代理系统：分布式人工智能简介》，第1卷（1999年），Addison-Wesley：Addison-Whesley阅读
[61]	Greif，A.，《制度与现代经济之路：中世纪贸易的教训》，《制度和决策的政治经济学》（2006年），剑桥大学出版社
[62]	卡利罗·乔治拉（Kallirroi Georgila）、大卫·特劳姆（David Traum），《谈判中论证对话政策的强化学习》，摘自：《国际言语传播协会第十二届年会》（The 12th Annual Conference of The International Speech Communication Association），意大利佛罗伦萨，2011年8月。
[63]	Gul，Faruk，沙普利价值的讨价还价基础，计量经济学，57，1，81-95（1989）·兹比尔0677.90011
[64]	爱德华·休斯；托马斯·安东尼。；汤姆·埃克勒斯（Tom Eccles）；Joel Z.Leibo。；戴维·巴尔杜齐（David Balduzzi）；巴赫拉赫、约拉姆，《学会解决多人零和游戏中的联盟困境》（AAMAS（2020））
[65]	哈拉里，尤瓦尔·诺亚，《智人：人类简史》（2014），兰登书屋
[66]	约瑟夫·亨里奇（Joseph Henrich），《我们成功的秘诀：文化如何推动人类进化、驯化我们的物种并使我们更聪明》（2017），普林斯顿大学出版社
[67]	Ralf Herbrich、Thore Graepel、Yoram Bachrach，《社交广告定价》，美国专利94135572016年8月9日。
[68]	爱德华·休斯；Joel Z.Leibo。；菲利普斯，Matthew G。；卡尔·图尔斯（Karl Tuyls）；杜涅兹·古兹曼（Edgar A.Duéñez-Guzmán）。；安东尼奥·加西亚·卡斯塔涅达；伊恩·邓宁；朱，蒂娜；凯文·麦基（Kevin R.McKee）。；Koster，Raphael，《不平等厌恶改善跨期社会困境中的合作》，（神经信息处理系统进展）。神经信息处理系统（NIPS）进展，加拿大蒙特利尔（2018））
[69]	罗恩·霍尔兹曼；劳恩，日产，拥堵游戏中的强均衡，游戏经济。行为。，21, 1-2, 85-101 (1997) ·Zbl 0899.90169号
[70]	Manfred J.Holler，《组建联盟和衡量投票权》，《政治研究》，第30、2、262-271页（1982年）·Zbl 0519.00015号
[71]	约瑟夫·霍夫鲍尔；Sandholm，William H.，《论随机虚拟博弈的全球收敛》，计量经济学，70，62265-2294（2002）·Zbl 1141.91336号
[72]	伊藤、Takayuki；平光服部；Klein，Mark，《代理的多问题协商协议：探索非线性效用空间》（IJCAI，第7卷（2007）），1347-1352
[73]	Leong，Samuel；Shoham，Yoav，《边际贡献网：联盟游戏的紧凑表示方案》，（第六届ACM电子商务会议论文集（2005），ACM），193-202
[74]	马克斯·贾德伯格（Max Jaderberg）；Czarnecki，沃伊切赫M。；伊恩·邓宁；卢克·马里斯；杠杆，盖伊；安东尼奥·加西亚·卡斯塔内达；查尔斯·比蒂（Charles Beattie）；Neil C.Rabinowitz。；阿里·莫科斯（Ari S.Morcos）。；Ruderman，Avraham，《基于人群的深度强化学习在第一人称多人游戏中的人性化表现》（2018），arXiv预印本
[75]	尼古拉斯·R·詹宁斯（Nicholas R.Jennings）。；法拉廷，佩曼；阿莱西奥·洛穆西奥（Alessio R.Lomuscio）。；西蒙·帕森斯；Michael J.Wooldridge。；Sierra，Carles，《自动谈判：前景、方法和挑战》，Group Decis。黑人。，199-215年10月2日（2001年）
[76]	大卫·约翰逊（David W.Johnson）。；罗杰·约翰逊，《合作与竞争：理论与研究》（1989），互动图书公司
[77]	Kingma，Diederik P。；Ba，Jimmy，Adam：随机优化方法（2014），arXiv预印本
[78]	卡拉瓦里（Kravari）、卡利奥皮（Kalliopi）；Nick Bassiliades，《代理平台调查》，J.Artif。Soc.Soc.仿真。，18, 1, 11 (2015)
[79]	拉杰夫·科利（Rajeev Kohli）；Park，Heungsoo，数量折扣的合作博弈模型，Manag。科学。，351693-707（1989年）·Zbl 0721.90030号
[80]	Samuel S.Komorita。；帕克斯，克雷格D。，《人际关系：混合动力互动》，年。精神病学牧师。，46, 1, 183-207 (1995)
[81]	Kraus，Sarit，多智能体环境中的谈判与合作，人工智能。智力。，94, 1-2, 79-97 (1997) ·Zbl 0904.68168号
[82]	平崎北野；佐藤忠雄；野田佳彦；松原，Hitoshi；高桥、友爱；Shinjou，Atsuhi；Susumu Shimada，《RoboCup Rescue:大规模灾难中的搜索和救援：作为自治代理研究领域》（1999年IEEE系统、人和控制论国际会议，1999年会议记录，第6卷）。1999年IEEE系统、人和控制论国际会议，1999年会议记录，第6卷，IEEE SMC'99（1999），IEEE），739-743
[83]	Lewenberg，尤德；巴赫拉赫、约拉姆；桑普林斯基，约纳坦；阿维夫·佐哈尔；Rosenschein，Jeffrey S.，比特币开采池：合作博弈分析，（2015年自治代理和多代理系统国际会议论文集（2015），Citeser），919-927
[84]	Dennis Leech，《为欧盟理事会设计投票系统》，公共选择，113，3-4，437-464（2002）
[85]	李、舒；范飞；芮涵、窦；于、水；窦万春，基于联盟博弈分析的拼车服务动态定价方法，（2016年IEEE第18届高性能计算与通信国际会议；IEEE第14届智能城市国际会议；第二届IEEE数据科学与系统国际会议（HPCC/SmartCity/DSS）（2016），IEEE），78-85
[86]	Littman，Michael L.，Markov博弈作为多智能体强化学习的框架，（第十一届机器学习国际会议论文集（1994），Morgan Kaufmann），157-163
[87]	Lin，Raz；克劳斯，萨里特，自动化代理能熟练地与人类谈判吗？，Commun公司。ACM，53，1，78-88（2010）
[88]	Lin，Raz；克劳斯，萨里特；乔纳森·威尔肯菲尔德；James Barry，在信息不完整的环境中使用自动化代理Artif与有限理性代理进行谈判。智力。，172, 6, 823 (2008) ·Zbl 1182.68311号
[89]	亚当·莱勒（Adam Lerer）；Alexander Peysakhovich，《利用深度强化学习在复杂社会困境中保持合作》（2017），CoRR
[90]	Angeliki Lazaridou；亚历山大·佩萨科维奇（Peysakhovich，Alexander）；Baroni，Marco，《多主体合作与（自然）语言的出现》（2016），CoRR
[91]	奥梅尔列夫；波卢卡罗夫，玛丽亚；巴赫拉赫、约拉姆；Rosenschein，Jeffrey S.，《全日制拍卖和众包竞赛中的合并与共谋》（2013年）
[92]	迈克·刘易斯；雅茨、丹尼斯；Yann N.多芬。；迪瓦·帕里赫；巴特拉，德鲁夫，成交还是不成交？谈判对话的端到端学习（2017），arXiv预印本
[93]	马克·兰科特；桑巴尔迪，维尼修斯；格鲁斯莱斯、奥德鲁纳斯；Angeliki Lazaridou；卡尔·图尔斯（Karl Tuyls）；佩罗拉，朱利安；Silver，David；Thore Graepel，《多智能体强化学习的统一游戏理论方法》（神经信息处理系统进展（2017）），4190-4203
[94]	Joel Z.Leibo。；桑巴尔迪，维尼修斯；马克·兰科特；雅努斯·马雷基（Janusz Marecki）；Graepel，Thore，《序贯社会困境中的多智能体强化学习》，（《第十六届自主智能体和多智能体系统会议论文集》（2017），国际自主智能体与多智能体基金会），464-473
[95]	埃里克·马斯金（Eric Maskin），《实施与强纳什均衡》（1978）·兹比尔0453.90007
[96]	沃洛德迈尔·姆尼赫（Volodymyr Mnih）；阿德里·普伊格多梅内克·巴迪亚；迈赫迪·米尔扎；亚历克斯·格雷夫斯；Timothy P.Lillicrap。；哈雷，蒂姆；Silver，David；Kavukcuoglu，Koray，深度强化学习的异步方法（2016），CoRR
[97]	Meir，Reshef；巴赫拉赫、约拉姆；Rosenschein，Jeffrey S.，费用分摊游戏中的最低补贴，（算法博弈论国际研讨会（2010），Springer），347-358·Zbl 1310.91024号
[98]	莫什·马什；巴赫拉赫、约拉姆；Zick，Yair，《如何在混合人机环境中形成获胜联盟》，（第26届国际人工智能联合会议论文集（2017）），465-471
[99]	道戈尔·麦克劳林（Dougal Maclaurin）；大卫·杜维诺（David Duvenaud）；Adams，Ryan，通过可逆学习实现基于梯度的超参数优化，（国际机器学习会议（2015）），2113-2122
[100]	蒂姆·马修斯（Tim Matthews）、萨瓦帕利·拉姆特尔（Sarvapali Ramtur）、乔治奥斯·查尔基亚达克斯（Georgios Chalkiadakis），《在梦幻足球中与人类竞争：大型部分可观察领域中的球队组成》，2012年1月2日。
[101]	乔治·梅拉斯（George J.Mailath）。；彼得·泽姆斯基（Peter Zemsky），《与异质投标人共谋二价拍卖》（Games Econ）。行为。，3, 4, 467-486 (1991) ·兹比尔0752.90014
[102]	Nash，John，n人博弈中的平衡点，Proc。国家。阿卡德。科学。美国，36，1，48-49（1950）·Zbl 0036.01104号
[103]	辛西娅·尼古莱；Madey，Gregory，《贸易工具：对各种基于代理的建模平台的调查》，J.Artif。Soc.Soc.仿真。，12, 2, 2 (2009)
[104]	诺瓦克·奈迪奇；Prsic、Dragan；卢比萨杜邦吉克；弗拉基米尔·斯托亚诺维奇；Djordjevic，Vladimir，《并联机器人平台的最佳级联液压控制》，PSO，Int.J.Adv.Manuf.Technol.著。，72, 5-8, 1085-1098 (2014)
[105]	Oliver，Jim R.，《自动化谈判的机器学习方法和电子商务前景》，J.Manag。信息系统。，第13、3、83-112页（1996年）
[106]	马丁·J·奥斯本。；Ariel Rubinstein，《博弈论课程》（1994），麻省理工出版社·Zbl 1194.91003号
[107]	朱利安·佩罗拉特（Julien Perolat）；Joel Z.Leibo。；桑巴尔迪，维尼修斯；查尔斯·比蒂（Charles Beattie）；卡尔·图尔斯（Karl Tuyls）；Graepel，Thore，公共工具资源分配的多智能体强化学习模型，（神经信息处理系统（NIPS）进展）。神经信息处理系统（NIPS）进展，加利福尼亚州长滩（2017））
[108]	普雷西奇，德拉甘；奈迪奇，诺瓦克；弗拉基米尔·斯托亚诺维奇（Vladimir Stojanović），气动驱动并联机器人平台的自然优化控制，Proc。仪器机械。工程师，C部分，J.Mech。工程科学。，231, 1, 59-71 (2017)
[109]	Ariel D.普罗卡西亚。；尼萨尔·沙阿；Lee Tucker，Max，《关于合作游戏中协同效应的结构》（第二十届AAAI人工智能会议（2014））
[110]	以斯拉·雷斯尼克；巴赫拉赫、约拉姆；Meir，Reshef；Jeffrey S.Rosenschein，《网络流游戏中的稳定性成本》（2009年计算机科学数学基础国际研讨会，Springer），636-650·Zbl 1250.68121号
[111]	大卫·G·兰德。；马丁·诺瓦克（Martin A.Nowak），《人类合作》（Human cooperation），《趋势认知》（Trends Cogn）。科学。，17, 8, 413-425 (2013)
[112]	Jeffrey S.Rosenschein。；吉拉德·兹洛特金（Gilad Zlotkin），《遭遇规则：计算机间自动协商的设计约定》（1994），麻省理工学院出版社
[113]	Jeff S.Shamma。；Arslan，Gürdal，动态虚拟游戏，动态梯度游戏，以及纳什均衡的分布式收敛，IEEE Trans。自动。控制，50，3，312-327（2005）·Zbl 1366.91028号
[114]	萨顿，R。；Barto，A.，《强化学习：导论》（2018），麻省理工学院出版社·Zbl 1407.68009号
[115]	David Schmeidler，《特征函数博弈的核仁》，SIAM J.Appl。数学。，17, 6, 1163-1170 (1969) ·兹比尔0191.49502
[116]	胡安·苏里斯（Juan E.Suris）。；Luiz A.DaSilva。；韩、朱；MacKenzie，Allen B.，分布式频谱共享的合作博弈论，（2007 IEEE国际通信会议（2007），IEEE），5282-5287
[117]	Shapley，Lloyd，《随机游戏》，Proc。国家。阿卡德。科学。美国，39，1095-1100（1953）·Zbl 0051.35805号
[118]	Shapley，Lloyd S.，n人游戏的一个值，Contrib.理论游戏，2，28，307-317（1953）·Zbl 0050.14404号
[119]	劳埃德·沙普利（Lloyd S.Shapley），《大型游戏的价值——第VII章：货币的一般交换经济》（1964年）
[120]	安大略省谢霍里；Kraus，Sarit，通过代理联盟形成的任务分配方法，Artif。智力。，101, 1, 165-200 (1998) ·Zbl 0908.68032号
[121]	Peter Stone，Gal A.Kaminka，Sarit Kraus，Jeffrey S.Rosenschein，《Ad hoc autonomous agent teams:collaboration without pre-cordination》，载于《第二十四届人工智能会议论文集》，2010年7月·Zbl 1329.68252号
[122]	肖姆，Y。；Leyton-Brown，K.，《多智能体系统：算法、博弈论和逻辑基础》（2009），剑桥大学出版社·Zbl 1163.91006号
[123]	弗拉基米尔·斯托亚诺维奇；Nedic，Novak，随机非线性系统的联合状态和参数鲁棒估计，国际鲁棒非线性控制杂志，26，14，3058-3074（2016）·Zbl 1346.93367号
[124]	弗拉基米尔·斯托亚诺维奇；Nedic，Novak，液压驱动并联机器人平台级联控制的自然启发参数调整方法，J.Optim。理论应用。，168, 1, 332-347 (2016) ·Zbl 1352.93077号
[125]	弗拉基米尔·斯托亚诺维奇；诺瓦克·奈迪奇；Prsic、Dragan；Dubonjic，Ljubisa，非高斯噪声中输出受限ARX模型辨识的优化实验设计，应用。数学。型号。，第40页，第13页，第14页，第6676-6689页（2016年）·Zbl 1465.62136号
[126]	Yoav Shoham、Rob Powers、Trond Grenager，《多智能体强化学习：批判性调查》，网络手稿，2003年·Zbl 1168.68493号
[127]	Shapley，Lloyd S。；马丁·舒比克（Martin Shubik），《评估委员会系统中权力分配的方法》，《美国政治科学》。修订版，48，3787-792（1954年）
[128]	斯特拉芬，P.，Shapley-Shubik和Banzhaf功率指数作为概率，（Shapley值，劳埃德·S·Shapley荣誉论文（1988）），71-81·兹比尔0754.90078
[129]	Tambe，Milind，《安全与博弈论：算法，部署系统，经验教训》（2011），剑桥大学出版社·Zbl 1235.91005号
[130]	詹姆斯·托马斯；西蒙·柯比（Simon Kirby），《自我归化与语言的进化》，《生物》（Biol）。菲洛斯。，33、1、9（2018年3月）
[131]	阿德琳德·M·乌尔马赫。；Danny Weyns，《多代理系统：模拟和应用》（2009），CRC出版社
[132]	van den Brink，René，合作游戏和网络中的效率和共谋中立性，games Econ。行为。，76, 1, 344-348 (2012) ·Zbl 1274.91057号
[133]	沃勒德米奇克，Yevgeniy；Wellman，Michael P.，模拟游戏中纳什均衡近似的随机搜索方法，（第七届自治代理和多代理系统国际联合会议论文集，第2卷（2008年），国际自治代理和多重代理系统基金会），1055-1062
[134]	Michael Wooldridge，《多智能体系统简介》（2009），John Wiley&Sons
[135]	向晓荣；瑞安·肯尼迪；格雷戈里·麦迪（Gregory Madey）；Cabanis，Steve，《基于代理的科学仿真模型的验证与确认》，（agent-Directed simulation Conference，vol.47（2005）），55
[136]	Yang，Xin-She，《自然启发的元启发式算法》（2010），Luniver出版社·Zbl 1277.68252号
[137]	迈克尔·扎克曼；彼得·法利舍夫斯基（Piotr Faliszewski）；巴赫拉赫、约拉姆；埃尔金德，伊迪丝，在加权投票游戏中操纵配额，人工制品。智力。，180, 1-19 (2012) ·兹比尔1238.91056
[138]	佐夫，巴雷特；Le，Quoc V.，神经架构搜索与强化学习（2016），arXiv预印本
[139]	吉拉德·兹洛特金；Rosenschein，Jeffrey S.，合作领域中自治代理之间的协商和任务共享（IJCAI，第89卷（1989）），20-25·Zbl 0713.68084号
[140]	杰弗里·兹维贝尔（Jeffrey Zwiebel），《块状投资和公司控制的部分利益》（Block investment and partial benefits of corporate control），《经济评论》（Rev.Econ）。双头螺栓，62，2161-185（1995）·Zbl 0829.90048号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用深度强化学习进行团队组建谈判。（英语） Zbl 1504.68236号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

使用深度强化学习进行团队组建谈判。 （英语） Zbl 1504.68236号

MSC公司：

关键词：

软件：

参考文献：

使用深度强化学习进行团队组建谈判。（英语） Zbl 1504.68236号