×

Stackelberg游戏的稳健解决方案:解决人类认知中的有限理性和有限观察。 (英语) Zbl 1237.91065号

摘要:我们如何构建代理与人类对手交互的算法?Stackelberg游戏是许多涉及人类互动的重要应用的自然模型,例如寡头垄断市场和安全领域。在Stackelberg游戏中,一名玩家,领导者,致力于一项战略,而追随者在知道领导者承诺的情况下做出决定。Stackelberg游戏的现有算法可以有效地找到最优解(领队策略),但它们严格地假设跟随者的游戏是最优的。不幸的是,在许多应用程序中,代理都会遇到人类追随者(对手),由于他们的有限理性和对领导者策略的有限观察,他们可能会偏离预期的最佳响应。换句话说,人类对手的决策由于其有限的理性和有限的观察而具有偏见。在与人类对手打交道时,如果不考虑这些可能的偏差,可能会导致领导者的奖励降低到无法接受的程度,尤其是在部署了这些算法的安全应用程序中。因此,本文的目的是研究如何构建智能体与人类对手交互的算法。为了解决这个关键问题,本文为Stackelberg游戏引入了一种新的混合整数线性规划(MILP)来考虑人类对手,其中包括:(i)关于人类感知概率分布的新锚定理论和(ii)MILP解决人类不精确性的鲁棒性方法。由于这种新方法考虑了人类的敌人,传统的正确性或最佳性证明是不够的;相反,有必要依靠经验验证。为此,本文基于洛杉矶国际机场实际部署的安全系统考虑了四种设置,并在4种不同的可观测条件下,比较了6种不同的方法(三种基于我们的新方法和三种以前的方法),共有218名受试者玩了2960场游戏。最后的结论是,一个结合了稳健性和锚定思想的模型可以获得统计意义上更高的回报,并且与现有方法相比,它还可以保持同等或更快的求解速度。

MSC公司:

91A65型 分级游戏(包括Stackelberg游戏)
91A26型 博弈论中的理性与学习
91E10型 认知心理学

软件:

IRIS公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aghassi,M。;Bertsimas,D.,稳健博弈论,数学。程序。,107, 1-2, 231-273 (2006) ·Zbl 1134.91309号
[4] Bagwell,K.,游戏中的承诺和可观察性,游戏和经济行为,8,2,271-280(1995)·Zbl 0821.90148号
[5] 布雷顿,M。;Alg,A。;Haurie,A.,二人博弈中的序列Stackelberg均衡,最优化理论与应用,59,1,71-97(1988)·Zbl 0631.90100号
[6] 布朗,G。;卡莱尔,M。;Salmerón,J。;Wood,K.,《保护关键基础设施,接口》,36,6,530-544(2006)
[7] Brunner,E。;乌尔里奇,M。;Puri,M.,重复测量析因设计中的秩核检验,多元分析杂志,70,2,286-317(1999)·Zbl 0955.62043号
[8] 卡梅勒,C.,《行为博弈论:战略互动实验》(2003),普林斯顿出版社·Zbl 1019.91001号
[9] 卡迪纳尔,J。;拉贝,M。;兰格曼,S。;Palop,B.,《几何运输网络的定价》(第17届加拿大计算几何会议(2005))·Zbl 1181.90033号
[11] van Damme,E。;Hurkens,S.,《承诺不完全可观察的博弈》,《博弈与经济行为》,第21期,第282-308页(1997年)·Zbl 0899.90168号
[13] 福克斯,C。;Clemen,R.,《决策分析中的主观概率评估:对无知先验的划分依赖和偏见》,《管理科学》,51,9,1417-1432(2005)
[14] 福克斯,C。;Rottenstreich,Y.,《不确定性下判断中的分区启动》,《心理科学》,第14期,195-200页(2003年)
[15] Friedman,M.,《使用秩来避免方差分析中隐含的正态性假设》,《美国统计协会杂志》,32100675-701(1937)·JFM 63.1098.02号
[16] 福登堡,D。;Tirole,J.,《博弈论》(1991),麻省理工学院出版社·Zbl 1339.91001号
[18] Harsanyi,J.C。;Selten,R.,《不完全信息下两人谈判博弈的广义Nash解》,《管理科学》,第18、5、80-106页(1972年)·兹比尔0262.90087
[19] 戈德史密斯,J。;Junker,U.,《人工智能偏好处理》,AI杂志,9-12(2008)
[20] Kahneman,D。;特维斯基,A.,《主观概率:代表性的判断》,认知心理学,3430-454(1972)
[22] 科勒,D.J。;James,G.,《不确定性下选择的概率匹配:直觉与慎重》,《认知》,113123-127(2009)
[24] Larson,R.C.,城市应急服务设施选址和再划分的超立方体排队模型,计算机与手术室,1,167-95(1974)
[25] Leitmann,G.,《广义Stackelberg策略、优化理论与应用》,26,4,637-643(1978)·Zbl 0372.90137号
[26] 林·R。;克劳斯,S。;Wilkenfeld,J。;Barry,J.,《使用自动化代理在信息不完整的环境中与有限理性代理谈判》,《人工智能》,172,6-7823-851(2008)·Zbl 1182.68311号
[27] McKelvey,R。;Palfrey,T.,正规形式博弈的量子响应平衡,博弈与经济行为,X,6-38(1995)·Zbl 0832.90126号
[28] 冯·诺依曼(von Neumann,J.),《数学年鉴》(Mathematische Annalen),第100期,第295-320页(1927年)·JFM 54.0543.02型
[31] 奥斯本,M.J。;Rubinstein,A.,《博弈论课程》(1994),麻省理工出版社·Zbl 1194.91003号
[37] Rubinstein,A.,《有限理性建模》(1998),麻省理工学院出版社
[38] 参见,K.E。;福克斯·C·R。;Rottenstreich,Y.S.,《无知与真理之间:不确定性下判断中的分割依赖和学习》,《实验心理学杂志:学习、记忆和认知》,32,1385-1402(2006)
[39] Selton,R.,《对广泛博弈均衡点完备性概念的重新审视》,《国际博弈论杂志》,4,25-55(1975)·Zbl 0312.90072号
[40] Selton,R.,《广泛的两人游戏中的进化稳定性——修正和进一步发展》,数学。社会科学。,16, 223-266 (1988) ·Zbl 0666.90095号
[41] Simon,H.,《理性选择与环境结构》,《心理学评论》,第63期,第129-138页(1956年)
[42] Simon,H.,《人工科学》(1969),麻省理工学院出版社
[43] Starmer,C.,《非预期效用理论的发展:风险下选择描述性理论的探索》,《经济文献杂志》,第三十八期,第332-382页(2000年)
[44] Tijs,S.,正态非合作n人博弈的纳什均衡,SIAM评论,23,2225-237(1981年4月)·Zbl 0456.90091号
[46] A.特维斯基。;Koehler,D.J.,《支持理论:主观概率的非外延表征》,《心理学评论》,101547-567(1994)
[47] Vardy,F.,Stackelberg博弈中的承诺价值与观察成本,博弈与经济行为,49,2,374-400(2004)·兹比尔1085.91005
[49] Wilcox,R.R.,忽略现代统计方法,损失了多少发现?,美国心理学家,53,3,300-314(1998)
[50] Wilcox,R.R.,《稳健估计和假设检验导论》(2005),学术出版社·Zbl 1113.62036号
[52] Yuen,K.K.,针对不相等群体方差的两样本修剪T,Biometrika,61165-170(1974)·Zbl 0277.62009年
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。