×

调整攻击者和防御者的巡逻策略:Stackelberg安全游戏的强化学习方法。 (英语) Zbl 1394.91079号

小结:本文提出了一种新的方法,在Stackelberg安全游戏中使用基于平均奖励的强化学习(RL)来调整攻击者和防御者首选的巡逻策略。我们提出了一个结合三种不同范式的框架:先验知识、模仿和时间差异方法。整个RL体系结构包括两个最高的组件:自适应初级学习体系结构和演员-关键体系结构。在这项工作中,我们认为防御者和攻击者在Stackelberg安全博弈中形成联盟,这是通过计算强Lp-Stackelberg/Nash均衡来实现的。我们给出了一个数值示例,验证了所提出的RL方法测量安全资源分配的益处。

MSC公司:

91A80型 博弈论的应用
68T05型 人工智能中的学习和自适应系统
91年10月 非合作游戏
91A26型 博弈论中的理性与学习
91A65型 分级游戏(包括Stackelberg游戏)

软件:

IRIS公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安,B。;Pita,J。;谢赫,E。;Tambe,M。;Kiekintveld,C。;Marecki,J.,《守卫与保护:安全游戏的下一代应用》,SIGecom,10,31-34(2011)
[2] Antipin,A.S.,《解决平衡规划问题和游戏的超近似方法》,计算。数学。数学。物理。,45, 11, 1893-1914 (2005) ·Zbl 1098.91004号
[3] Aumann,R.,《一般合作人游戏中的可接受点》,(游戏理论四的贡献,游戏理论四,数学年鉴,第40卷(1959年)),287-324·Zbl 0085.13005号
[4] A.巴托。;Mahadevan,S.,《分层强化学习的最新进展》,离散事件动态。系统。,13, 343-379 (2003) ·Zbl 1034.93003号
[5] Bos,D.,公共企业经济学(1986),北荷兰:北荷兰阿姆斯特丹
[6] Bos,D.,《私有化:理论治疗》(1991年),克拉伦登出版社:牛津克拉伦登出版公司
[7] Breitmoser,Y.,《论寡头垄断中古诺、伯特朗和斯塔克伯格竞争的内生性》,《国际工业器官杂志》。,30, 1, 16-29 (2012)
[8] Clempner,J.B.,用于推理真实巡逻策略的连续时间Markov Stackelberg安全游戏方法,国际J.Control(2017)·Zbl 1418.91119号
[9] 克莱姆普纳,J.B。;Poznyak,A.S.,Stackelberg安全游戏:计算最短路径平衡,专家系统。申请。,42, 8, 3967-3979 (2015)
[10] 克莱姆普纳,J.B。;Poznyak,A.S.,《Stackelberg安全游戏中的一致联盟:设置最大合作防御者与非合作攻击者》,Appl。软计算。,47, 1-11 (2016)
[11] 克莱姆普纳,J.B。;Poznyak,A.S.,《在Stackelberg安全游戏中使用超近似方法计算最短路径混合Lyapunov平衡》,数学。计算。同时。,138, 14-30 (2017) ·Zbl 07313839号
[12] Cournot,A.A.,《财富神学原理研究》(1838年),哈切特:巴黎哈切特·Zbl 0174.51801号
[13] De Fraja,G。;Delbono,F.,混合寡头垄断的博弈论模型,J.Econ。调查。,4, 1-17 (1990)
[14] F.M.D.法夫。;Jiang,A.X。;尹,Z。;张,C。;Tambe,M。;克劳斯,S。;Sullivan,J.,具有动态执行不确定性的博弈论安全巡逻,以及对实际交通系统的案例研究,J.Artif。智力。决议,50,321-367(2014)·Zbl 1364.93013号
[15] 哈里斯·R·G。;Wiens,E.G.,《政府企业:行业内部监管的工具》,加拿大。《经济学杂志》。,13, 125-132 (1980)
[16] Jain,M。;Kardes,E。;Kiekintveld,C。;鄂尔多斯,F。;Tambe,M.,《具有任意时间表的安全游戏:分支和价格方法》,(《全国人工智能会议论文集》,美国佐治亚州亚特兰大,AAAI(2010))
[17] Jain,M。;Kiekintveld,C。;Tambe,M.,有限Bayesian Stackelberg对策的质量有界解:放大,(第十届自治代理和多代理系统国际联合会议论文集。第十届自主代理和多智能体系统国际联合大会论文集,AAMAS,台北,台湾(2011)),997-1004
[18] Kaelbling,L。;利特曼,M。;Moore,A.,《强化学习:调查》,J.Artif。智力。,4, 237-285 (1996)
[19] 梅里尔,W。;Schneider,N.,《寡头垄断行业中的政府公司:短期分析》,Q.J.Econ。,80, 400-412 (1966)
[20] Nett,L.,《同质商品的混合寡头垄断》,《公共合作社年鉴》。经济。,64, 367-393 (1993)
[21] Pita,J。;Jain,M。;鄂尔多斯,F。;波特瓦,C。;Tambe,M。;Western,C.,《为洛杉矶机场安全使用博弈论》,AI Mag.,30,1,43-57(2009)
[22] Pita,J。;Tambe,M。;Kiekintveld,C。;卡伦,S。;Steigerwald,E.,Guards-全国范围内的博弈论安全分配,(《第十届自主代理和多代理系统国际会议论文集》,《第十次自主代理和多重代理系统国际大会论文集》(AAMAS,2011))
[23] 波兹尼亚克,A.S.,《自动控制工程师的先进数学工具》。随机技术,第2卷(2009),Elsevier:Elsevier Amsterdam
[24] 波兹尼亚克,A.S。;Najim,K。;Gomez-Ramirez,E.,有限马尔可夫链的自学习控制(2000),马赛尔·德克尔公司:马赛尔·德克尔公司,纽约·Zbl 0960.93001号
[25] Ribeiro,C.,强化学习代理,Artif。智力。修订版,17,223-250(2002)·Zbl 1017.68101号
[26] S.ánchez,E.M。;克莱姆普纳,J.B。;Poznyak,A.S.,《用于计算均值-方差客户组合的先验知识/行为关键强化学习架构:银行市场营销活动案例》,工程应用。Artif公司。智力。,46, 82-92 (2015)
[27] Trejo,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,《使用外推方法计算Stackelberg/Nash均衡:马尔可夫链博弈的收敛性分析和实现细节》,Int.J.Appl。数学。计算。科学。,25, 2, 337-351 (2015) ·Zbl 1406.91023号
[28] Trejo,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,基于超接近理论方法的随机策略的Stackelberg安全游戏,工程应用。Artif公司。智力。,37, 145-153 (2015)
[29] 特雷霍,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,《在可控Stackelberg安全游戏中调整策略以适应动态环境》,(2016年IEEE第55届决策与控制会议,2016年第55届IEEE决策与控制大会,CDC(2016),IEEE),5484-5489
[30] Trejo,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,合作多领导-跟随者Stackelberg Markov链博弈的最优强均衡解,Kybernetika,52,2,258-279(2016)·Zbl 1374.35201号
[31] Trejo,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,计算马尔可夫链博弈的强(L_p)-Nash均衡:收敛性和唯一性,应用。数学。型号。,41, 399-418 (2017) ·Zbl 1443.91041号
[32] 蔡,J。;Rathi,S。;基金特维尔德,C。;鄂尔多斯,F。;Tambe,M.,Iris-运输网络中的战略安全分配工具,(第八届自主代理和多代理系统国际会议-行业轨道(2009)),37-44
[33] Tsunekawa,H。;铃木,T。;Hamagami,T.,《利用进化过程通过反向强化学习检查基于技能的学习》,(IEEE主办的第九届智能系统国际会议和Cont.Proc.IEEE主办第九届智力系统和Cont.国际会议,ISCO 2015,印度哥印拜陀(2015),IEEE)
[34] 维克斯,J。;Yarrow,G.,《私有化——经济分析》(1998年),麻省理工学院出版社:麻省理学院出版社剑桥
[35] von Stackelberg,H.,Marktform und Gleichgewicht(1934),施普林格:施普林格维也纳·Zbl 1405.91003号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。