×

并发游戏的激励工程。 (英语) Zbl 07810626号

Verbrugge,Rineke(编辑),《第十九届理性与知识理论方面会议记录》,TARK,英国牛津,2023年6月28日至30日。滑铁卢:开放出版协会(OPA)。电子。程序。西奥。计算。科学。(EPTCS)379344-358(2023年)。
摘要:我们考虑通过税收方案在多代理系统中激励期望行为的问题。我们的研究采用了并发博弈模型:在该模型中,每个主体主要被激励寻求目标的满足,用线性时序逻辑(LTL)公式表示;其次,代理人寻求最小化成本,根据代理人在游戏的不同状态下采取的行动强加成本。在这种情况下,我们考虑一个外部委托人,他可以通过对不同州的代理人选择的行为征税(额外成本)来影响代理人的偏好。委托人实施税收计划,以激励代理人选择能够满足其目标的行动方案,也可表示为长期贷款公式。然而,税收计划影响代理人偏好的能力有限:代理人总是倾向于满足其目标,而不是相反,无论成本如何。我们研究的基本问题是,委托人是否可以实施一种税收方案,以便在最终的博弈中,委托人的目标在选择遵循博弈理论均衡策略的代理人可能出现的至少一次或全部博弈中得到满足。我们考虑两种不同类型的税收方案:静止的方案中,在所有情况下都对状态-操作配置文件对征收相同的税,而在动态方案中,委托人可以根据情况选择不同的税收。我们研究了该模型的主要博弈理论性质以及相关决策问题的计算复杂性。
关于整个系列,请参见[Zbl 1522.68043号].

MSC公司:

91A20型 多阶段重复游戏
91磅43 委托代理模型
03B44号 时间逻辑
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Natasha Alechina、Giuseppe De Giacomo、Brian Logan和Giusepbe Perelli(2022):多智能体系统动态范数的自动合成。摘自:第19届知识表示和推理原则国际会议,KR 2022:KR 2022,doi:10.24963/KR.2022/2·doi:10.24963/kr.2022/2
[2] Rajeev Alur、Thomas A.Henzinger和Orna Kupferman(2002):交替时间时序逻辑。J.ACM 49(5),第672-713页,doi:10.1145/585265.585270·Zbl 1326.68181号 ·doi:10.1145/585265.585270
[3] Jan Balaguer、Raphael Koster、Christopher Summerfield和Andrea Tacchetti(2022):好牧羊人:机构设计的甲骨文代理。arXiv预打印arXiv:2202.10135,doi:10.48550/arXiv.2202.10135·doi:10.48550/arXiv.2202.10135
[4] Michael Bräuring、Eyke Hüllermier、Tobias Keller和Martin Glaum(2017):人类决策预测建模的词汇偏好:一种新的机器学习方法及其在会计中的应用。《欧洲运筹学杂志》258(1),第295-306页,doi:10.1016/j.ejor.2016.08.055·兹比尔1380.91070 ·doi:10.1016/j.ejor.2016.08.055
[5] Nils Bulling&Mehdi Dastani(2016):基于规范的机制设计。人工智能239,第97-142页,doi:10.1016/j.artint.2016.07.001·Zbl 1386.68178号 ·doi:10.1016/j.artint.2016.07.001
[6] Henrique Lopes Cardoso和Eugénio Oliveira(2009):规范框架中的适应性威慑制裁。2009 IEEE/WIC/ACM网络智能和智能代理技术国际联合会议,第2期,第36-43页,doi:10.1109/WI-IAT.2009.123·doi:10.1109/WI-IAT.2009.123
[7] Roberto Centeno和Holger Billhardt(2011):使用激励机制对开放多智能体系统进行自适应监管。在:第二十二届国际人工智能联合会议,doi:10.5591/978-1-57735-516-8/IJCAI11-035·doi:10.5591/978-1-57735-516-8/IJCAI11-035
[8] Krishnendu Chatterjee、Thomas A.Henzinger和Marcin Jurdzinski(2005):公平游戏的公平回报。摘自:第20届IEEE计算机科学逻辑研讨会(LICS 2005),2005年6月26-29日,美国伊利诺伊州芝加哥,IEEE计算机学会论文集,第178-187页,doi:10.1109/LICS.2005.26·doi:10.1109/LICS.2005.26
[9] Davide Dell'Anna、Mehdi Dastani和Fabiano Dalpiaz(2020):规范性多代理系统中制裁的运行时修订。自治代理和多代理系统34(2),doi:10.1007/s10458-020-09465-8·doi:10.1007/s10458-020-09465-8
[10] 马哈茂德·埃尔巴哈、弗洛伦特·德尔格兰奇、伊沃·弗利米伦、基里亚科斯·埃夫蒂米亚迪斯、布拉姆·范德博特和安·诺韦(2022):灵活指导学习代理的框架。《神经计算与应用》,第1-17页,doi:10.1007/s00521-022-07396-x·doi:10.1007/s00521-022-07396-x
[11] E.Allen Emerson(1990):时间和模态逻辑。简·范·列文(Jan van Leeuwen)主编:《理论计算机科学手册》(Handbook of Theoretical Computer Science),第B卷:形式模型和语义,爱思唯尔和麻省理工学院出版社,第995-1072页,doi:10.1016/b978-0-444-88074-1.50021-4·Zbl 0900.03030号 ·doi:10.1016/b978-0-444-88074-1.50021-4
[12] Dana Fisman、Orna Kupferman和Yoad Lustig(2010):理性合成。摘自:《系统构建和分析工具和算法国际会议》,Springer,第190-204页,doi:10.1007/978-3642-12002-2_16·Zbl 1284.68396号 ·doi:10.1007/978-3642-12002-2_16
[13] 桑福德·J·格罗斯曼和奥利弗·D·哈特(1992):委托代理问题分析。收录于:《保险经济学基础》,施普林格,第302-340页,doi:10.1007/978-94-015-7957-5_16·doi:10.1007/978-94-015-7957-5_16
[14] 朱利安·古铁雷斯(Julian Gutierrez)、保罗·哈伦斯坦(Paul Harrenstein)和迈克尔·伍尔德里奇(Michael J.Wooldridge)(2017):游戏式并发系统中平衡的推理。《纯粹与应用逻辑年鉴》169(2),第373-403页,doi:10.1016/j.apal.2016.10.009·Zbl 1400.03057号 ·doi:10.1016/j.apal.2016.10.009
[15] 朱利安·古铁雷斯(Julian Gutierrez)、阿尼埃洛·穆拉诺(Aniello Murano)、朱塞佩·佩雷利(Giuseppe Perelli)、萨沙·鲁宾(Sasha Rubin)、托马斯·斯蒂普斯(Thomas Steeples)和迈克尔·伍尔德里奇(Michael J.Wooldridge)(2021年):。《信息学报》58(6),第585-610页,doi:10.1007/s00236-020-00385-4·Zbl 1483.68193号 ·doi:10.1007/s00236-020-00385-4
[16] 朱利安·古铁雷斯(Julian Gutierrez)、穆罕默德·纳吉布(Muhammad Najib)、朱塞佩·佩雷利(Giuseppe Perelli)和迈克尔·J·伍尔德里奇(Michael J.Wooldridge)(2019):《并行游戏的均衡流设计》。收录于:第30届并发理论国际会议,doi:10.4230/LIPIcs。合同2019.22·Zbl 07649930号 ·doi:10.4230/LIPIcs。合同2019.22
[17] 朱利安·古铁雷斯(Julian Gutierrez)、穆罕默德·纳吉布(Muhammad Najib)、朱塞佩·佩雷利(Giuseppe Perelli)和迈克尔·伍尔德里奇(Michael J.Wooldridge)(2020):自动时间均衡分析:多层游戏的验证和合成。人工智能287,第103353页,doi:10.1016/j.artint.2020.103353·Zbl 1493.68360号 ·doi:10.1016/j.artint.2020.103353
[18] Paul Harrenstein、Paolo Turrini和Michael J.Wooldridge(2014):布尔游戏中的硬平衡和软平衡。Ana L.C.Bazzan、Michael N.Huhns、Alessio Lomuscio和Paul Scerri,编辑:《关于自治代理和多代理系统的国际研讨会》,2014年5月5日至9日,法国巴黎,2014年,IFAA-MAS/ACM,第845-852页,doi:10.5555/2615731.2615867。可在http://dl.acm.org/citation.cfm?id= 2615867. ·doi:10.5555/2615731.2615867
[19] 保罗·哈伦斯坦(Paul Harrenstein)、保罗·图里尼(Paolo Turrini)和迈克尔·伍尔德里奇(Michael J.Wooldridge)(2017):《布尔游戏的可操作性特征》(Characteristing the Manipulability of Boolean Games)。Carles Sierra主编:《第二十六届国际人工智能联合会议论文集》,2017年8月19日至25日,澳大利亚墨尔本,2017年,IJCAI.org,第1081-1087页,doi:10.24963/IJCAI.2017/150·doi:10.24963/ijcai.2017/150
[20] Bengt Holmstrom(1982):团队中的道德风险。《贝尔经济学杂志》,第324-340页,doi:10.2307/3003457·doi:10.2307/3003457
[21] 黄晓伟,阮纪良,陈庆良,苏凯乐(2016):规范多智能体系统:动态推广。摘自:《第二十五届国际人工智能联合会议论文集》,IJCAI’16,AAAI出版社,第1123-1129页。
[22] Kenneth S.Lyon和Dug Man Lee(2001):庇古税和拥堵外部性:一种利益方方法。经济研究所研究论文10,第1页。
[23] Moamin A.Mahmoud、Mohd Sharifuddin Ahmad、Mohd-Zaliman Mohd-Yusoff和Aida Mustapha(2014):规范和规范多智能体系统综述。《科学世界杂志》2014,doi:10.1155/2014/684587·doi:10.1155/2014/684587
[24] 格雷戈里·曼昆(2009):精明税收:公开邀请加入庇古俱乐部。《东方经济杂志》35(1),第14-23页,doi:10.1057/EEJ.2008.43·doi:10.1057/EEJ.2008.43
[25] Bastien Maubert、Munyque Mittelmann、Aniello Murano和Laurent Perrussel(2021):自动化机构设计中的战略推理。摘自:《知识表示和推理原则国际会议论文集》,18,第487-496页,doi:10.24963/kr.2021/46·doi:10.24963/kr.2021/46
[26] David Mguni、Joel Jennings、Emilio Sison、Sergio Valcarcel Macua、Sofia Ceppi和Enrique Munoz de Cote(2019):《协调人群:在非合作系统中诱导理想均衡》。摘自:第18届国际自治代理和多代理系统会议记录,AAMAS’19,国际自治代理与多代理系统基金会,南卡罗来纳州里奇兰,第386-394页。
[27] David Mguni和Marcin Tomczak(2019):高效加固动态机制设计。参加:GAIW:在加拿大蒙特利尔AAMAS举办的奥运会、代理商和激励研讨会。
[28] Munyque Mittelmann、Bastien Maubert、Aniello Murano和Laurent Perrussel(2022):机制的自动合成。参见:第31届国际人工智能联合会议(IJCAI-22),国际人工智能组织联合会议,第426-432页,doi:10.24963/IJCAI.2022/61·doi:10.24963/ijcai.2022/61
[29] Sai Kiran Narayanaswami、Swarat Chaudhuri、Moshe Vardi和Peter Stone(2022):自动化机构设计与程序综合。程序。自适应和学习代理研讨会(ALA 2022)。
[30] David C Parkes、Ruggiero Cavallo、Florin Constantin和Satinder Singh(2010):动态激励机制。艾杂志31(4),第79-94页,doi:10.1609/aimag.v31i4.2316·doi:10.1609/aimag.v31i4.2316
[31] Giuseppe Perelli(2019):在多智能体系统中实现平衡。载于:《第18届自主智能体和多智能体系统国际会议论文集》,第188-196页,doi:10.5555/3306127.3331692·doi:10.5555/3306127.3331692
[32] Arthur C.Pigou和Nahid Aslanbeigui(2017):福利经济学。劳特利奇,doi:10.4324/9781351304368·数字标识代码:10.4324/9781351304368
[33] Amir Pnueli(1977):程序的时间逻辑。摘自:第18届计算机科学基础年度研讨会,1977年10月31日至11月1日,美国罗德岛州普罗维登斯,IEEE计算机学会,第46-57页,doi:10.1109/SFCS.1977.32·doi:10.1109/SFCS.1977.32
[34] Amir Pnueli和Roni Rosner(1989):关于异步反应模块的合成。在Giorgio Ausiello,Mariangiola Dezani Ciancaglini和Simona Ronchi Della Rocca,编辑:自动机,语言和编程,第16届国际学术讨论会,ICALP89,意大利斯特雷萨,1989年7月11日至15日,《计算机科学讲义》372,施普林格,652-671页,doi:10.1007/BFB035790·Zbl 0686.68015号 ·doi:10.1007/BFb0035790
[35] Lillian J Ratliff、Roy Dong、Shreyas Sekar和Tanner Fiez(2019):激励设计的视角:挑战与机遇。《控制、机器人和自治系统年鉴2》,第305-338页,doi:10.1146/ANNUREV-Control-053018-023634·doi:10.1146/ANNUREV-CONTROL-053018-023634
[36] Lillian J Ratliff&Tanner Fiez(2020):适应性激励设计。IEEE自动控制汇刊66(8),第3871-3878页,doi:10.1109/tac.2020.3027503·Zbl 1471.91083号 ·doi:10.1109/tac.2020.3027503
[37] 沈伟然(Weiran Shen)、唐平忠(Pingzhong Tang)和宋佐(Song Zuo)(2019):基于神经网络的自动机械设计。摘自:《第18届国际自治代理和多代理系统会议记录》,AAMAS’19,国际自治代理与多代理系统基金会,Richland,SC,p.215-223,doi:10.5555/3306127.3331696·doi:10.5555/3306127.3331696
[38] A.Prasad Sistla和Edmund M.Clarke(1985):命题线性时间逻辑的复杂性。J.ACM 32(3),第733-749页,doi:10.1145/3828.3837·Zbl 0632.68034号 ·数字对象标识代码:10.1145/3828.3837
[39] Michael Ummels和Dominik Wojtczak(2011):极限平均游戏中纳什均衡的复杂性。收录于:并发理论国际会议,Springer,第482-496页,doi:10.1007/978-3642-23217-6_32·Zbl 1343.68177号 ·文件编号:10.1007/978-3-642-23217-6_32
[40] Michael J.Wooldridge、Ulle Endriss、Sarit Kraus和Jéróme Lang(2013):布尔游戏的激励工程。Artif公司。智力。195,第418-439页,doi:10.1016/j.artint.2012.11.003·Zbl 1270.68340号 ·doi:10.1016/j.artint.2012.11.003
[41] Michael J.Wooldridge、Julian Gutierrez、Paul Harrenstein、Enrico Marchioni、Giuseppe Perelli和Alexis Toumi(2016):理性验证:从模型检查到均衡检查。Dale Schuurmans和Michael P.Wellman,编辑:《第三十届AAAI人工智能会议论文集》,2016年2月12-17日,美国亚利桑那州凤凰城,AAAI出版社,第4184-4191页,doi:10.1016/J.ARTINT.2017.04.003。可在http://www.aaai.org/ocs/index.php/aaai/AAAI16/paper/view/12268。 ·doi:10.1016/J.ARTINT.2017.04.003
[42] 杨佳晨,Ethan Wang,Rakshit Trivedi,Tuo Zhao&Zha Hongyuan(2021):多智能体元梯度强化学习的自适应激励设计。arXiv预打印arXiv:2121.10859,doi:10.5555/3535850.3536010·数字对象标识代码:10.5555/3535850.3536010
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。