×

在Stackelberg安全游戏中处理Kullback-Leibler散度随机游走以调度有效的巡逻策略。 (英语) Zbl 1463.91028号

摘要:本文提出了一种新的计算多人非合作Stackelberg安全博弈(SSG)中最优随机安全策略的模型。我们的框架基于超邻近方法及其对马尔可夫链的扩展,在该方法中,我们利用拉格朗日方法并引入Tikhonov正则化方法,显式计算了博弈的唯一Stackelberg/Nash均衡。我们还考虑了该问题的游戏理论实现,其中涉及防御者和攻击者在有限状态空间上执行离散时间随机漫步。在Kullback-Leibler发散之后,玩家的动作被固定,然后计算下一个状态分布。玩家在每个时间步的目标是指定下一个状态的概率分布。我们给出了在温和防御和攻击条件下计算效率高的策略的显式构造,并在一个模拟目标跟踪问题上证明了所提方法的性能。

MSC公司:

91A65型 分级游戏(包括Stackelberg游戏)
91A10号 非合作游戏
91A80型 博弈论的应用
60克50 独立随机变量之和;随机游走
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Agmon,N。;卡明卡,G.A。;克劳斯(Kraus,S.),《多机器人对抗式巡逻:面对全知全能的对手》。,J.阿蒂夫。智力。第42号决议(2011年),1887-916·Zbl 1234.68381号
[2] Albarran,S。;Clempner,J.B.,基于部分信息的Stackelberg安全马尔可夫博弈,用于针对意外攻击进行战略决策。,工程应用。Artif公司。智力。81 (2019), 408-419 ·doi:10.1016/j.engappai.2019.03.010
[3] Antipin,A.S.,解决平衡规划问题和博弈的一种外近似方法。,计算。数学和数学。物理。45 (2005), 11, 1893-1914 ·Zbl 1098.91004号
[4] Blum,A。;Haghtalab,N.和;;普罗卡西亚,A.D.,懒惰的防守队员几乎是对付勤勉的进攻队员的最佳选择。,In:程序。2014年魁北克省第28届AAAI人工智能会议,第573-579页
[5] Clempner,J.B.,用于推理实际巡逻策略的连续时间Markov Stackelberg安全游戏方法。,《国际期刊控制》91(2018),2494-2510·Zbl 1418.91119号 ·doi:10.1080/00207179.2017.1371853
[6] 克莱姆普纳,J.B。;Poznyak,A.S.,《客户生命周期价值的简单计算:一种固定的局部最优策略方法》。,系统科学杂志。系统工程23(2014),4439-459·doi:10.1007/s11518-014-5260-y
[7] 克莱姆普纳,J.B。;Poznyak,A.S.,《Stackelberg安全游戏:计算最短路径平衡》。,专家系统。申请。42 (2015), 8, 3967-3979 ·doi:10.1016/j.eswa.2014.12.034
[8] 克莱姆普纳,J.B。;Poznyak,A.S.,《分析双寡头模型中领先企业的乐观态度:基于lyapunov博弈论方法的强Stackelberg均衡》。,经济。计算。经济。赛博。螺柱研究4(2016),50,41-60
[9] 克莱姆普纳,J.B。;Poznyak,A.S.,《Stackelberg安全游戏中的一致联盟:设置最大合作防御者与非合作攻击者》。,申请。软计算。47 (2016), 1-11 ·doi:10.1016/j.asoc.2016.05.037
[10] 克莱姆普纳,J.B。;Poznyak,A.S.,《Stackelberg安全游戏中的一致联盟:设置最大合作防御者与非合作攻击者》。,申请。软计算。47 (2016), 1-11 ·doi:10.1016/j.asoc.2016.05.037
[11] 克莱姆普纳,J.B。;Poznyak,A.S.,重复潜在博弈中纯策略和平稳策略的收敛分析:Nash,lyapunov和相关均衡,专家系统应用。46 (2016), 474-484 ·doi:10.1016/j.eswa.2015.11.006
[12] 克莱姆普纳,J.B。;Poznyak,A.S.,使用超近似方法计算Stackelberg安全博弈中的最短路径混合lyapunov均衡。,数学。计算。模拟。138 (2017), 14-30 ·兹伯利07313839 ·doi:10.1016/j.matcom.2016.12.010
[13] 克莱姆普纳,J.B。;Poznyak,A.S.,解决拉格朗日约束优化问题的Tikhonov正则化参数方法。,工程优化。50 (2018), 11, 1996-2012 ·Zbl 1523.90307号 ·doi:10.1080/0305215x.2017.1418866
[14] 克莱姆普纳,J.B。;Poznyak,A.S.,解决多段线编程问题的Tikhonov正则化惩罚函数方法。,J.计算。申请。数学。328 (2018), 267-286 ·兹比尔1375.65082 ·doi:10.1016/j.cam.2017.07.032
[15] 科尼策,V。;Sandholm,T.,《计算最佳策略》,载:第七届美国计算机学会电子商务会议,安娜堡,2006年,第82-90页
[16] 格雷罗,D。;Carsteanu,A.A。;韦尔塔,R。;Clempner,J.B.,解Stackelberg安全博弈的迭代方法:马尔可夫博弈方法。,In:第14届电气工程、计算科学和自动控制国际会议,2017年墨西哥城,第1-6页·doi:10.1109/iceee.2017.8108857
[17] 格雷罗,D。;Carsteanu,A.A。;韦尔塔,R。;Clempner,J.B.,《利用讨价还价纳什方法求解Stackelberg安全马尔可夫博弈:收敛分析》。,计算机安全74(2018),240-257·doi:10.1016/j.cose.2018.01.005
[18] Jain,M。;Kardes,E。;Kiekintveld,C。;鄂尔多斯,F。;Tambe,M.,《具有任意时间表的安全游戏:分支和价格方法》。,In:程序。2010年亚特兰大国际人工智能会议·doi:10.1016/j.cose.2018.01.005
[19] Kiekintveld,C。;Jain,M。;蔡,J。;Pita,J。;Ordñez,F。;Tambe,M.,《计算大规模安全游戏的最优随机资源分配》。,In:程序。第八届自主代理和多代理系统国际会议,第1卷,布达佩斯,2009年,第689-696页·doi:10.1017/cbo9780511973031.008
[20] Korzhyk,D。;尹,Z。;基金特维尔德,C。;科尼策,V。;Tambe,M.,《安全游戏中的Stackelberg vs.nash:互换性等价性和唯一性的扩展研究》。,J.阿蒂夫。智力。第41号决议(2011年),297-327·Zbl 1219.91032号 ·doi:10.1613/jair.3269
[21] Letchford,J。;麦克德米德,L。;科尼策,V。;帕尔·R。;Isbell,C.L.,《计算随机博弈中的最优策略》。,In:程序。第二十六届AAAI人工智能会议(AAAI),2012年多伦多,第1380-1386页·doi:10.1145/2509002.2509011
[22] Letchford,J。;Vortombitchik,Y.,《攻击计划的最佳阻断》。,In:程序。第十二届自主代理和多代理系统国际会议(AAMAS)
[23] 帕鲁库里,P。;皮尔斯,J.P。;Marecki,J。;Tambe,M。;鄂尔多斯,F。;Kraus,S.,《玩安全游戏:贝叶斯斯塔克伯格游戏的有效精确算法》。,In:程序。第七届自主代理和多代理系统国际会议,Estoril 2008,第895-902页
[24] Poznyak,A.S.,《自动控制工程师高级数学工具》。第2卷确定性技术。,爱思唯尔,阿姆斯特丹2008·doi:10.1016/b978-008044674-5.50015-8
[25] 波兹尼亚克,A.S。;纳吉姆,K。;Gomez-Ramirez,E.,有限马尔可夫链的自学习控制。,Marcel Dekker,纽约2000·兹比尔0960.93001
[26] 萨尔加多,M。;Clempner,J.B.,《通过强化学习利用博弈论测量情感距离:一种kullback-leibler发散方法》。,专家系统应用。97 (2018), 266-275 ·doi:10.1016/j.eswa.2017.12.036
[27] 谢赫,E。;安,B。;Yang,R。;Tambe,M。;鲍德温,C。;DiRenzo,J。;莫尔,B。;Meyer,G.,《保护:保护美国港口的部署博弈论系统》。,In:程序。2012年第11届自治代理和多代理系统国际会议·doi:10.1609/aimag.v33i4.2401
[28] Skerker,M.,《二进制子弹:网络战的伦理》,《网络传播的道德关怀:自动关键词搜索和数据挖掘》一章,第251-276页,牛津大学出版社,纽约,2016年
[29] 索利斯,C。;克莱姆普纳,J.B。;Poznyak,A.S.,《多领导-跟随者非合作Stackelberg游戏建模》。,控制论系统47(2016),8,650-673·数字对象标识代码:10.1080/01969722.2016.1232121
[30] Trejo,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,使用超近似方法计算stackelberg/nash均衡:马尔可夫链博弈的收敛分析和实现细节。,国际期刊申请。数学。计算机科学。25 (2015), 2, 337-351 ·Zbl 1406.91023号 ·doi:10.1515/amcs-2015-0026
[31] 特雷霍,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,基于超接近理论方法的随机策略Stackelberg安全博弈。,工程应用。Artif公司。智力。37 (2015), 145-153 ·doi:10.1016/j.engappai.2014.09.002
[32] Trejo,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,《在可控stackelberg安全游戏中调整策略以适应动态环境》。,摘自:IEEE第55届决策与控制会议(CDC),2016年拉斯维加斯,第5484-5489页·doi:10.1109/cdc.2016.7799111
[33] 特雷霍,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,合作多领导-跟随Stackelberg Markov链博弈的最优强均衡解。,Kybernetika 52(2016),2,258-279·Zbl 1374.35201号 ·doi:10.14736/kyb-2016-2-0258
[34] Trejo,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,计算马尔可夫链博弈的lp-strong纳什均衡。,申请。数学。模型1。41 (2017), 399-418 ·Zbl 1443.91041号 ·doi:10.1016/j.apm.2016.09.001
[35] Trejo,K.K。;克莱姆普纳,J.B。;Poznyak,A.S.,《调整攻击者和防御者偏好的策略:斯塔克伯格安全游戏中的强化学习方法》。,J.计算。系统科学。95 (2018), 35-54 ·Zbl 1394.91079号 ·doi:10.1016/j.jss.2017.12.004文件
[36] Yang,R。;Kiekintveld,C。;Ordonez,F。;Tambe,M。;John,R.,《改进安全游戏中对抗人类对手的资源分配策略》。,In:程序。2011年巴塞罗那国际人工智能联合会议(IJCAI),第458-464页
[37] 尹,Z。;Jain,M。;Tambe,M。;Ordonez,F.,《执行和观察不确定性安全游戏的风险规避策略》。,In:程序。AAAI人工智能会议(AAAI),旧金山,2011年,第758-763页
[38] 尹,Z。;Tambe,M.,处理贝叶斯stackelberg博弈中离散和连续不确定性的统一方法。,In:程序。第十一届自治代理和多代理系统国际会议(AAMAS),2012年巴伦西亚,第234-242页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。