文件Zbl 1463.91028-zbMATH打开

在Stackelberg安全游戏中处理Kullback-Leibler散度随机游走以调度有效的巡逻策略。（英语） Zbl 1463.91028号

凯贝内提卡 55，第4号，618-640（2019）.

摘要：本文提出了一种新的计算多人非合作Stackelberg安全博弈（SSG）中最优随机安全策略的模型。我们的框架基于超邻近方法及其对马尔可夫链的扩展，在该方法中，我们利用拉格朗日方法并引入Tikhonov正则化方法，显式计算了博弈的唯一Stackelberg/Nash均衡。我们还考虑了该问题的游戏理论实现，其中涉及防御者和攻击者在有限状态空间上执行离散时间随机漫步。在Kullback-Leibler发散之后，玩家的动作被固定，然后计算下一个状态分布。玩家在每个时间步的目标是指定下一个状态的概率分布。我们给出了在温和防御和攻击条件下计算效率高的策略的显式构造，并在一个模拟目标跟踪问题上证明了所提方法的性能。

引用于1文件

MSC公司：

91A65型	分级游戏（包括Stackelberg游戏）
91A10号	非合作游戏
91A80型	博弈论的应用
60克50	独立随机变量之和；随机游走

关键词：

斯塔克伯格游戏；安全；巡逻；马尔可夫链

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	Agmon，N。；卡明卡，G.A。；克劳斯（Kraus，S.），《多机器人对抗式巡逻：面对全知全能的对手》。，J.阿蒂夫。智力。第42号决议（2011年），1887-916·Zbl 1234.68381号
[2]	Albarran，S。；Clempner，J.B.，基于部分信息的Stackelberg安全马尔可夫博弈，用于针对意外攻击进行战略决策。，工程应用。Artif公司。智力。81 (2019), 408-419 ·doi:10.1016/j.engappai.2019.03.010
[3]	Antipin，A.S.，解决平衡规划问题和博弈的一种外近似方法。，计算。数学和数学。物理。45 (2005), 11, 1893-1914 ·Zbl 1098.91004号
[4]	Blum，A。；Haghtalab，N.和；；普罗卡西亚，A.D.，懒惰的防守队员几乎是对付勤勉的进攻队员的最佳选择。，In：程序。2014年魁北克省第28届AAAI人工智能会议，第573-579页
[5]	Clempner，J.B.，用于推理实际巡逻策略的连续时间Markov Stackelberg安全游戏方法。，《国际期刊控制》91（2018），2494-2510·Zbl 1418.91119号 ·doi:10.1080/00207179.2017.1371853
[6]	克莱姆普纳，J.B。；Poznyak，A.S.，《客户生命周期价值的简单计算：一种固定的局部最优策略方法》。，系统科学杂志。系统工程23（2014），4439-459·doi:10.1007/s11518-014-5260-y
[7]	克莱姆普纳，J.B。；Poznyak，A.S.，《Stackelberg安全游戏：计算最短路径平衡》。，专家系统。申请。42 (2015), 8, 3967-3979 ·doi:10.1016/j.eswa.2014.12.034
[8]	克莱姆普纳，J.B。；Poznyak，A.S.，《分析双寡头模型中领先企业的乐观态度：基于lyapunov博弈论方法的强Stackelberg均衡》。，经济。计算。经济。赛博。螺柱研究4（2016），50，41-60
[9]	克莱姆普纳，J.B。；Poznyak，A.S.，《Stackelberg安全游戏中的一致联盟：设置最大合作防御者与非合作攻击者》。，申请。软计算。47 (2016), 1-11 ·doi:10.1016/j.asoc.2016.05.037
[10]	克莱姆普纳，J.B。；Poznyak，A.S.，《Stackelberg安全游戏中的一致联盟：设置最大合作防御者与非合作攻击者》。，申请。软计算。47 (2016), 1-11 ·doi:10.1016/j.asoc.2016.05.037
[11]	克莱姆普纳，J.B。；Poznyak，A.S.，重复潜在博弈中纯策略和平稳策略的收敛分析：Nash，lyapunov和相关均衡，专家系统应用。46 (2016), 474-484 ·doi:10.1016/j.eswa.2015.11.006
[12]	克莱姆普纳，J.B。；Poznyak，A.S.，使用超近似方法计算Stackelberg安全博弈中的最短路径混合lyapunov均衡。，数学。计算。模拟。138 (2017), 14-30 ·兹伯利07313839 ·doi:10.1016/j.matcom.2016.12.010
[13]	克莱姆普纳，J.B。；Poznyak，A.S.，解决拉格朗日约束优化问题的Tikhonov正则化参数方法。，工程优化。50 (2018), 11, 1996-2012 ·Zbl 1523.90307号 ·doi:10.1080/0305215x.2017.1418866
[14]	克莱姆普纳，J.B。；Poznyak，A.S.，解决多段线编程问题的Tikhonov正则化惩罚函数方法。，J.计算。申请。数学。328 (2018), 267-286 ·兹比尔1375.65082 ·doi:10.1016/j.cam.2017.07.032
[15]	科尼策，V。；Sandholm，T.，《计算最佳策略》，载：第七届美国计算机学会电子商务会议，安娜堡，2006年，第82-90页
[16]	格雷罗，D。；Carsteanu，A.A。；韦尔塔，R。；Clempner，J.B.，解Stackelberg安全博弈的迭代方法：马尔可夫博弈方法。，In:第14届电气工程、计算科学和自动控制国际会议，2017年墨西哥城，第1-6页·doi:10.1109/iceee.2017.8108857
[17]	格雷罗，D。；Carsteanu，A.A。；韦尔塔，R。；Clempner，J.B.，《利用讨价还价纳什方法求解Stackelberg安全马尔可夫博弈：收敛分析》。，计算机安全74（2018），240-257·doi:10.1016/j.cose.2018.01.005
[18]	Jain，M。；Kardes，E。；Kiekintveld，C。；鄂尔多斯，F。；Tambe，M.，《具有任意时间表的安全游戏：分支和价格方法》。，In：程序。2010年亚特兰大国际人工智能会议·doi:10.1016/j.cose.2018.01.005
[19]	Kiekintveld，C。；Jain，M。；蔡，J。；Pita，J。；Ordñez，F。；Tambe，M.，《计算大规模安全游戏的最优随机资源分配》。，In：程序。第八届自主代理和多代理系统国际会议，第1卷，布达佩斯，2009年，第689-696页·doi:10.1017/cbo9780511973031.008
[20]	Korzhyk，D。；尹，Z。；基金特维尔德，C。；科尼策，V。；Tambe，M.，《安全游戏中的Stackelberg vs.nash：互换性等价性和唯一性的扩展研究》。，J.阿蒂夫。智力。第41号决议（2011年），297-327·Zbl 1219.91032号 ·doi:10.1613/jair.3269
[21]	Letchford，J。；麦克德米德，L。；科尼策，V。；帕尔·R。；Isbell，C.L.，《计算随机博弈中的最优策略》。，In：程序。第二十六届AAAI人工智能会议（AAAI），2012年多伦多，第1380-1386页·doi:10.1145/2509002.2509011
[22]	Letchford，J。；Vortombitchik，Y.，《攻击计划的最佳阻断》。，In：程序。第十二届自主代理和多代理系统国际会议（AAMAS）
[23]	帕鲁库里，P。；皮尔斯，J.P。；Marecki，J。；Tambe，M。；鄂尔多斯，F。；Kraus，S.，《玩安全游戏：贝叶斯斯塔克伯格游戏的有效精确算法》。，In：程序。第七届自主代理和多代理系统国际会议，Estoril 2008，第895-902页
[24]	Poznyak，A.S.，《自动控制工程师高级数学工具》。第2卷确定性技术。，爱思唯尔，阿姆斯特丹2008·doi:10.1016/b978-008044674-5.50015-8
[25]	波兹尼亚克，A.S。；纳吉姆，K。；Gomez-Ramirez，E.，有限马尔可夫链的自学习控制。，Marcel Dekker，纽约2000·兹比尔0960.93001
[26]	萨尔加多，M。；Clempner，J.B.，《通过强化学习利用博弈论测量情感距离：一种kullback-leibler发散方法》。，专家系统应用。97 (2018), 266-275 ·doi:10.1016/j.eswa.2017.12.036
[27]	谢赫，E。；安，B。；Yang，R。；Tambe，M。；鲍德温，C。；DiRenzo，J。；莫尔，B。；Meyer，G.，《保护：保护美国港口的部署博弈论系统》。，In：程序。2012年第11届自治代理和多代理系统国际会议·doi:10.1609/aimag.v33i4.2401
[28]	Skerker，M.，《二进制子弹：网络战的伦理》，《网络传播的道德关怀：自动关键词搜索和数据挖掘》一章，第251-276页，牛津大学出版社，纽约，2016年
[29]	索利斯，C。；克莱姆普纳，J.B。；Poznyak，A.S.，《多领导-跟随者非合作Stackelberg游戏建模》。，控制论系统47（2016），8，650-673·数字对象标识代码：10.1080/01969722.2016.1232121
[30]	Trejo，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，使用超近似方法计算stackelberg/nash均衡：马尔可夫链博弈的收敛分析和实现细节。，国际期刊申请。数学。计算机科学。25 (2015), 2, 337-351 ·Zbl 1406.91023号 ·doi:10.1515/amcs-2015-0026
[31]	特雷霍，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，基于超接近理论方法的随机策略Stackelberg安全博弈。，工程应用。Artif公司。智力。37 (2015), 145-153 ·doi:10.1016/j.engappai.2014.09.002
[32]	Trejo，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，《在可控stackelberg安全游戏中调整策略以适应动态环境》。，摘自：IEEE第55届决策与控制会议（CDC），2016年拉斯维加斯，第5484-5489页·doi:10.1109/cdc.2016.7799111
[33]	特雷霍，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，合作多领导-跟随Stackelberg Markov链博弈的最优强均衡解。，Kybernetika 52（2016），2，258-279·Zbl 1374.35201号 ·doi:10.14736/kyb-2016-2-0258
[34]	Trejo，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，计算马尔可夫链博弈的lp-strong纳什均衡。，申请。数学。模型1。41 (2017), 399-418 ·Zbl 1443.91041号 ·doi:10.1016/j.apm.2016.09.001
[35]	Trejo，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，《调整攻击者和防御者偏好的策略：斯塔克伯格安全游戏中的强化学习方法》。，J.计算。系统科学。95 (2018), 35-54 ·Zbl 1394.91079号 ·doi:10.1016/j.jss.2017.12.004文件
[36]	Yang，R。；Kiekintveld，C。；Ordonez，F。；Tambe，M。；John，R.，《改进安全游戏中对抗人类对手的资源分配策略》。，In：程序。2011年巴塞罗那国际人工智能联合会议（IJCAI），第458-464页
[37]	尹，Z。；Jain，M。；Tambe，M。；Ordonez，F.，《执行和观察不确定性安全游戏的风险规避策略》。，In：程序。AAAI人工智能会议（AAAI），旧金山，2011年，第758-763页
[38]	尹，Z。；Tambe，M.，处理贝叶斯stackelberg博弈中离散和连续不确定性的统一方法。，In：程序。第十一届自治代理和多代理系统国际会议（AAMAS），2012年巴伦西亚，第234-242页

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

在Stackelberg安全游戏中处理Kullback-Leibler散度随机游走以调度有效的巡逻策略。（英语） Zbl 1463.91028号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

在Stackelberg安全游戏中处理Kullback-Leibler散度随机游走以调度有效的巡逻策略。 （英语） Zbl 1463.91028号

MSC公司：

关键词：

参考文献：

在Stackelberg安全游戏中处理Kullback-Leibler散度随机游走以调度有效的巡逻策略。（英语） Zbl 1463.91028号