×

比较重复Stackelberg安全游戏中的人类行为模型:一项扩展研究。 (英语) Zbl 1390.91079号

摘要:在重复的Stackelberg安全游戏(SSG)中,提出了几种相互竞争的人类行为模型来模拟有界理性的对手。然而,这些现有模型未能解决三个对防守队员表现不利的主要问题。首先,当他们试图从对手过去的行动(“对目标的攻击”)中学习对手的行为模型时,他们没有考虑到对手基于这些过去行动的成功或失败的未来适应。其次,除非通过暴露足够多的攻击面来收集足够的数据,否则现有算法无法学习对手的可靠模型,这种情况通常出现在重复SSG的初始回合中。第三,尽管众所周知,人类对概率的加权通常是非线性的,但目前领先的模型未能包含概率加权函数。{}为了解决现有模型的这些局限性,本文提供了三个主要贡献。我们的第一个贡献是一个新的人类行为模型SHARP,它缓解了以下三个局限性:(i)基于对手过去在攻击面暴露部分的行动成功或失败的SHARP原因,以模拟对手的适应性;(ii)关于攻击面暴露区域和未暴露区域之间相似性的SHARP原因,还包括一个折扣参数,以缓解对手暴露于足够攻击面的不足;和(iii)SHARP集成了非线性概率加权函数,以捕获对手的真实概率加权。我们的第二个贡献是第一次“重复测量研究”——至少在SSG的背景下——对相互竞争的人类行为模型进行研究。这项研究在Amazon Mechanical Turk平台上对每组人体受试者进行了为期数周的实验,说明了不同模型的优缺点,并展示了SHARP的优势。我们的第三个主要贡献是通过在印尼布吉巴里桑国家公园对野生动物安全专家进行真实的人体实验来证明SHARP的优越性。

MSC公司:

91A65型 分级游戏(包括Stackelberg游戏)
91A20型 多阶段重复游戏
91A26型 博弈论中的理性与学习
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)

软件:

PRMLT公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 乌干达人害怕石油财富的诅咒,因为它可能会毁掉“非洲珍珠”,访问日期:2014年11月8日
[2] 阿巴斯,Y.D。;肖特,M。;辛哈,A。;新墨西哥州辛托夫。;张,C。;Tambe,M.,《机会主义犯罪安全游戏中的人类对手:评估竞争的有限理性模型》(认知系统进步会议(2015))
[3] Abdellaoui,M。;O.L'Haridon。;Zank,H.,分离曲率和高程:参数概率加权函数,J.风险不确定性。,41, 1, 39-65 (2010) ·Zbl 1280.91065号
[4] 阿哈罗诺维奇,E。;Amrhein,P.C。;比萨加,A。;Nunes,E.V。;Hasin,D.S.,《可可碱依赖患者的认知承诺语言和行为改变》,心理医学。瘾君子。行为。,22, 4, 557-567 (2008)
[5] 阿拉里,Y。;Dionne,G.,彩票决策和概率加权函数,J.风险不确定性。,22, 1, 21-33 (2001) ·Zbl 1113.62359号
[6] Azaria,A。;Gal,Y。;克劳斯,S。;Goldman,C.,《重复人机交互中的战略建议规定》,Auton。代理多代理系统。,1-26 (2015)
[7] 巴卡·莫特斯,K。;A.布朗。;Gneezy,A。;基南,E.A。;Nelson,L.D.,《承诺与行为改变:来自现场的证据》,J.Consume。研究,39,5,1070-1084(2013)
[8] Bagwell,K.,《游戏中的承诺和可观察性》(1992),大学,经济和管理科学数学研究中心,技术报告·Zbl 0821.90148号
[9] 巴尔坎,M.-F。;Blum,A。;哈特拉布,N。;Procaccia,A.D.,《无怨无悔的承诺:Stackelberg安全游戏中的在线学习》(《第十六届ACM经济与计算会议论文集》,第十六届AC经济与计算大会论文集,EC’15(2015))
[10] 贝克,J。;Forstmeier,W.,《迷信和信仰是适应性学习策略不可避免的副产品》,《Hum.Nat.》,第18、1、35-46页(2007年)
[11] Beggs,A.W.,《强化学习的收敛性》,《国际经济学杂志》。理论,122,1,1-36(2005)·Zbl 1118.91025号
[12] A.J.贝林斯基。;G.A.Huber。;Lenz,G.S.,为实验研究评估在线劳动力市场:亚马逊网站的机械土耳其,《政治分析》。,20, 3, 351-368 (2012)
[13] Bishop,C.,模式识别和机器学习(2007),施普林格
[14] Blum,A。;哈特拉布,N。;Procaccia,A.,《学习克服不安全感的最佳承诺》,(第28届神经信息处理系统年会论文集。第28届神经元信息处理系统年度会议论文集,NIPS(2014))
[15] Brunswik,E.,《心理学的概念框架》(国际统一科学百科全书,第1卷(1952年),芝加哥大学出版社),第10期
[16] 卡拉沃拉斯,M。;Hulme,C。;斯诺林,M.J.,《拼写能力的基础:一项为期三年的纵向研究的证据》,J.Mem。Lang.,45,4,751-774(2001)
[17] 塞伦,R。;Doshi,P。;梅塞尔,M。;古迪,A。;Hall,D.,《利用延迟强化在连续游戏中模拟人类学习》(2013年IEEE系统、人与控制论国际会议论文集(2013)),3108-3113
[18] 查布里斯,C。;莱布森,D。;Schuldt,J.,《跨时代选择》(《新帕尔格雷夫经济学词典》,第2卷(2006年))
[19] 科米内蒂,R。;梅洛,E。;Sorin,S.,《基于支付的学习程序及其在交通游戏中的应用》,《游戏经济》。行为。,70, 1, 71-83 (2010) ·Zbl 1244.91012号
[20] 科尼策,V。;Sandholm,T.,计算承诺的最佳策略,(第七届ACM电子商务会议论文集。第七届AC电子商务会议文献集,EC’06(2006)),82-90
[21] 科特,R.B。;Burke,J.D。;Stouthamer-Loeber,M。;Loeber,R.,联系参与者进行跟进:在纵向研究中留住参与者需要付出多少努力?,评估。项目计划,28,1,15-21(2005)
[22] 崔,J。;John,R.,《Stackelberg安全游戏中描述性多目标对手模型的实证比较》,(安全决策与博弈论会议,安全决策与游戏理论会议,GameSec(2014))·Zbl 06623577号
[23] 邓,Y。;Hillygus,D.S。;Reiter,J.P。;Si,Y。;Zheng,S.,《纵向研究中的损耗处理:茶点样品案例》,Stat.Sci。,28238-256(2013年)·Zbl 1331.62135号
[24] Devenport,L.,《迷信棒压迫海马和隔大鼠》,《科学》,第18、1、35-46页(1979年)
[25] Dietterich,T.G.,用于比较监督分类学习算法的近似统计测试,神经计算。,10, 7, 1895-1923 (1998)
[26] Dudani,S.A.,距离加权k近邻规则,IEEE Trans。系统。人类网络。系统。,SMC-6,4325-327(1976年4月)
[27] Elster,J.,《对机制的诉求》(《社会机制:社会理论的分析方法》,2005年)
[28] 埃雷夫,I。;Roth,A.,《预测人们如何玩游戏:具有独特混合策略均衡的实验游戏中的强化学习》,美国经济学。修订版,88、4、848-881(1998年9月)
[29] 埃斯特拉达,M。;Woodcock,A。;Schultz,P.W.,《量身定制的小组管理:建立和维持参与者对纵向研究承诺的基于理论的方法》(Evaluation Review(2014))
[30] Etchart-Vincent,N.,《概率权重以及结果的水平和间距:损失的实验研究》,J.风险不确定性。,39, 1, 45-63 (2009) ·Zbl 1187.91039号
[31] 方,F。;斯通,P。;Tambe,M.,《当安全游戏走向绿色:设计防御策略以防止偷猎和非法捕鱼》,(国际人工智能联合会议,国际人工智能联席会议,IJCAI(2015))
[32] 法林顿,D。;勒伯,R。;Welsh,B.,纵向实验研究,(定量犯罪学手册(2010),Springer:Springer New York)
[33] Feltovich,N.,实验性非对称信息游戏中基于强化与基于信念的学习模型,《计量经济学》,68,3,605-641(2000)·Zbl 1022.91014号
[34] 福特,B。;Nguyen,T。;Tambe,M。;新墨西哥州辛托夫。;Fave,F.D.,《当心占卜者:从攻击预测准确性到安全游戏中的预测可靠性》(《安全决策与博弈论会议》,《安全决策和博弈论会议,GameSec》(2015))·Zbl 06520119号
[35] 甘斯,N。;诺克斯·G。;Croson,R.,《离散选择的简单模型及其在强盗实验中的性能》,Manuf.Serv。操作。管理。,9, 4, 383-408 (9, 2007)
[36] Goldstein,H.,处理纵向数据中的损耗和无响应,Longitud。生命课程研究,1,1,63-72(2009)
[37] Gonzalez,R。;Wu,G.,关于概率加权函数的形状,Cogn。心理医生。,38, 129-166 (1999)
[38] Hamisi,M.,《识别和绘制斑马偷猎风险区域:坦桑尼亚塔兰吉尔国家公园案例》(2008),国际贸易中心,论文
[39] Hammond,G.,《反应速率相关性》,《美国化学杂志》。《社会学杂志》,77,2(1955)
[40] Haskell,W。;卡尔·D·。;方,F。;Tambe,M。;张,S。;Denicola,E.,《罗盘对渔业的有力保护》(《人工智能的创新应用》,人工智能创新应用,IAAI(2014))
[41] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),施普林格出版社
[42] 海曼,G.W.,《心理学研究方法》(2002),霍顿-米夫林公司:霍顿-米夫林公司波士顿和纽约
[43] 霍普金斯,E.,《人们如何在游戏中学习的两种竞争模型》(2001),大卫·K·莱文,《技术报告》
[44] 汉弗莱,S.J。;Verschoor,A.,《概率加权函数:来自乌干达、印度和埃塞俄比亚的实验证据》,Econ。莱特。,84、3、419-425(2004年9月)
[45] 贾约迪亚,S。;Ghosh,A.K。;Swarup,V.公司。;王,C。;Wang,X.S.,《移动目标防御:为网络威胁创造不对称不确定性》(2011),Springer Publishing Company,Incorporated
[46] Johanson,M。;Bowling,M.,《数据偏向稳健应对策略》(《第十二届人工智能与统计国际会议论文集》,第十二届国际人工智能与统计学会议论文集,AISTATS(2009))
[47] Johanson,M。;Zinkevich,M。;Bowling,M.,《计算稳健的对抗策略》(神经信息处理系统年度会议论文集,神经信息处理体系年度会议论文集中,NIPS(2007))
[48] Kahneman,D。;特维斯基,A.,《前景理论:风险下的决策分析》,《计量经济学》,第47、2、263-291页(1979年)·Zbl 0411.90012号
[49] 卡尔·D·。;方,F。;Fave,F.D。;新墨西哥州辛托夫。;Tambe,M.,“权力的游戏”:当人类行为模型在重复的Stackelberg安全游戏中竞争时,(自治代理和多代理系统国际会议,自治代理和多重代理系统国际大会,AAMAS(2015))
[50] Kohavi,R.,《精度估计和模型选择的交叉验证和自举研究》(IJCAI(1995),Morgan Kaufmann),1137-1143
[51] Korzhyk,D。;科尼策,V。;Parr,R.,《安全资源分配游戏中计算最优Stackelberg策略的复杂性》,(《全国人工智能会议论文集》,美国人工智能学会(2010),805-810
[52] Leclerc,P.,非合作博弈论中的前景理论偏好(2014),弗吉尼亚联邦大学,博士论文
[53] Lemieux,A.M.,《偷猎的情境犯罪预防》,《犯罪科学丛书》(2014年),劳特利奇出版社
[54] Letchford,J。;科尼策,V。;Munagala,K.,《学习和逼近要承诺的最佳策略》,(第二届算法博弈论国际研讨会论文集。第二届国际算法博弈论研讨会论文集,SAGT’09(2009),Springer-Verlag:Springer-Verlag Berlin,Heidelberg),250-262·Zbl 1262.91006号
[55] 马纳达塔,P.K。;Wing,J.M.,攻击面度量,IEEE Trans。柔和。工程,37,3,371-386(2011)
[56] Marecki,J。;特萨罗,G。;Segal,R.,《与未知对手反复进行斯塔克伯格游戏》(AAMAS(2012)),第821-828页
[57] 麦克拉肯,P。;Bowling,M.,《游戏中代理建模的安全策略》(《全国人工智能会议论文集》,美国人工智能学会(2004))
[58] McFadden,D.,《数量选择分析:调查》,《经济学年鉴》。Soc.Meas.公司。,5, 4, 363-390 (1976)
[59] Menard,S.W.,《纵向研究手册:设计、测量和分析》(2008),学术出版社
[60] Montesh,M.,《犀牛偷猎:一种新形式的有组织犯罪》(2013年),南非大学法学院研究与创新委员会,技术报告
[61] 莫雷托,W.,《保护和保护:乌干达伊丽莎白女王国家公园执法突击队文化和行动审查》(2013年),罗格斯出版社,论文
[62] Nguyen,T.H。;Yang,R。;阿扎里亚,A。;克劳斯,S。;Tambe,M.,《分析安全游戏中对手建模的有效性》(AAAI(2013))
[63] 奥斯本,M.J。;Rubinstein,A.,《博弈论课程》(1994年),麻省理工学院出版社:麻省理学院出版社剑桥·Zbl 1194.91003号
[64] 哥伦比亚特区帕克斯。;毛,A。;陈,Y。;加霍斯,K.Z。;普罗卡西亚,A。;Zhang,H.,TurkServer:启用同步和纵向在线实验,(《第四届人类计算研讨会论文集》,《第四期人类计算研讨会文献集》,HCOMP’12(2012),AAAI出版社)
[65] Paruchuri,P。;皮尔斯,J.P。;Marecki,J。;Tambe,M。;Ordonez,F。;Kraus,S.,《玩安全游戏:求解贝叶斯-斯塔克伯格游戏的高效精确算法》(第七届自治代理和多代理系统国际联合会议论文集,第2卷)。《第七届自主代理和多代理系统国际联合会议记录》,第2卷,AAMAS(2008),895-902
[66] Pita,J。;Jain,M。;Tambe,M。;Ordóñez,F。;Kraus,S.,《Stackelberg游戏的稳健解决方案》,Artif。智力。,174, 15, 1142-1171 (2010) ·Zbl 1237.91065号
[67] Pita,J。;约翰·R。;Maheswaran,R。;Tambe,M。;Kraus,S.,《安全游戏中应对人类对手的稳健方法》(ECAI(2012))
[68] Ponsen,M。;Jong,S.D。;Lanctot,M.,《使用抽样计算近似纳什均衡和稳健最佳响应》,J.Artif。智力。研究(2011)·Zbl 1235.91037号
[69] Prelec,D.,概率加权函数,《计量经济学》,66,3,497-527(1998)·Zbl 1009.91007号
[70] 塞尼,G。;Elder,J.F.,《数据挖掘中的集成方法:通过组合预测提高准确性》,Synth。莱克特。数据最小知识发现。,2010年2月1日至126日
[71] Silver,R.C.公司。;霍尔曼,E.A。;McIntosh,D.N。;Poulin,M。;Gil-Rivas,V.,《9月11日心理反应的全国纵向研究》,JAMA,288,10,1235-1244(2002)
[72] 斯金纳,B.F.,《生物体的行为:实验分析》(1938),阿普尔顿世纪:阿普尔顿世纪纽约
[73] 斯金纳,B.F.,《鸽子迷信》,J.实验心理学。,38, 168-172 (1948)
[74] 斯金纳,B.F.,《科学与人类行为》(1953年),西蒙和舒斯特
[75] Tambe,M.,《安全与博弈论:算法、部署系统、经验教训》(2011),剑桥大学出版社:纽约剑桥大学出版社·Zbl 1235.91005号
[76] 蔡,J。;尹,Z。;young Kwak,J。;Kempe,D。;基金特维尔德,C。;Tambe,M.,《城市安全:网络物理域中的游戏理论资源分配》,(全国人工智能会议,全国人工智能大会,AAAI(2010))
[77] 特维斯基,A。;Kahneman,D.,《前景理论的进展:不确定性的累积表示》,J.风险不确定性。,5, 4, 297-323 (1992) ·Zbl 0775.90106号
[78] Twisk,J。;de Vente,W.,《纵向研究中的磨损》,J.Clin。流行病。,55, 4, 329-337 (2002)
[79] Wato,Y.A。;Wahungu,G.M。;Okello,M.M.,《肯尼亚Tsavo West国家公园野生动物诱捕模式相关性》,Biol。保护。,132, 4, 500-509 (2006)
[80] Yang,R。;福特,B。;Tambe,M。;Lemieux,A.,《针对非法偷猎者的野生动物保护自适应资源分配》,(自治代理和多代理系统国际会议,自治代理和多重代理系统国际大会,AAMAS(2014))
[81] Yang,R。;基金特维尔德,C。;Ordonez,F。;Tambe,M。;John,R.,《改进安全游戏中对抗人类对手的资源分配策略》(IJCAI(2011))
[82] Yang,R。;基金特维尔德,C。;Ordonez,F。;Tambe,M。;John,R.,《改进安全游戏中对抗人类对手的资源分配策略:扩展研究》,Artif。智力。,195, 440-469 (2013) ·Zbl 1270.91015号
[83] Yang,R。;Ordonez,F。;Tambe,M.,《安全游戏中针对量子响应的计算优化策略》,(第11届自治代理和多代理系统国际会议论文集,第2卷)。《第十一届自主代理和多代理系统国际会议记录》,第2卷,AAMAS’12(2012),847-854
[84] Zollo,M.,《迷信学习与罕见的战略决策:来自企业收购的理论和证据》,Organ。科学。,20, 5, 894-908 (2009)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。