文件Zbl 1394.91079-zbMATH打开

调整攻击者和防御者的巡逻策略：Stackelberg安全游戏的强化学习方法。（英语） Zbl 1394.91079号

J.计算。系统。科学。 95，35-54（2018）。

小结：本文提出了一种新的方法，在Stackelberg安全游戏中使用基于平均奖励的强化学习（RL）来调整攻击者和防御者首选的巡逻策略。我们提出了一个结合三种不同范式的框架：先验知识、模仿和时间差异方法。整个RL体系结构包括两个最高的组件：自适应初级学习体系结构和演员-关键体系结构。在这项工作中，我们认为防御者和攻击者在Stackelberg安全博弈中形成联盟，这是通过计算强Lp-Stackelberg/Nash均衡来实现的。我们给出了一个数值示例，验证了所提出的RL方法测量安全资源分配的益处。

引用于2文件

MSC公司：

91A80型	博弈论的应用
68T05型	人工智能中的学习和自适应系统
91年10月	非合作游戏
91A26型	博弈论中的理性与学习
91A65型	分级游戏（包括Stackelberg游戏）

关键词：

安全游戏;强化学习;斯塔克伯格游戏;行为博弈;多个参与者;强Stackelberg/Nash均衡

软件：

IRIS公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	安，B。；Pita，J。；谢赫，E。；Tambe，M。；Kiekintveld，C。；Marecki，J.，《守卫与保护：安全游戏的下一代应用》，SIGecom，10，31-34（2011）
[2]	Antipin，A.S.，《解决平衡规划问题和游戏的超近似方法》，计算。数学。数学。物理。，45, 11, 1893-1914 (2005) ·Zbl 1098.91004号
[3]	Aumann，R.，《一般合作人游戏中的可接受点》，（游戏理论四的贡献，游戏理论四，数学年鉴，第40卷（1959年）），287-324·Zbl 0085.13005号
[4]	A.巴托。；Mahadevan，S.，《分层强化学习的最新进展》，离散事件动态。系统。，13, 343-379 (2003) ·Zbl 1034.93003号
[5]	Bos，D.，公共企业经济学（1986），北荷兰：北荷兰阿姆斯特丹
[6]	Bos，D.，《私有化：理论治疗》（1991年），克拉伦登出版社：牛津克拉伦登出版公司
[7]	Breitmoser，Y.，《论寡头垄断中古诺、伯特朗和斯塔克伯格竞争的内生性》，《国际工业器官杂志》。，30, 1, 16-29 (2012)
[8]	Clempner，J.B.，用于推理真实巡逻策略的连续时间Markov Stackelberg安全游戏方法，国际J.Control（2017）·Zbl 1418.91119号
[9]	克莱姆普纳，J.B。；Poznyak，A.S.，Stackelberg安全游戏：计算最短路径平衡，专家系统。申请。，42, 8, 3967-3979 (2015)
[10]	克莱姆普纳，J.B。；Poznyak，A.S.，《Stackelberg安全游戏中的一致联盟：设置最大合作防御者与非合作攻击者》，Appl。软计算。，47, 1-11 (2016)
[11]	克莱姆普纳，J.B。；Poznyak，A.S.，《在Stackelberg安全游戏中使用超近似方法计算最短路径混合Lyapunov平衡》，数学。计算。同时。，138, 14-30 (2017) ·Zbl 07313839号
[12]	Cournot，A.A.，《财富神学原理研究》（1838年），哈切特：巴黎哈切特·Zbl 0174.51801号
[13]	De Fraja，G。；Delbono，F.，混合寡头垄断的博弈论模型，J.Econ。调查。，4, 1-17 (1990)
[14]	F.M.D.法夫。；Jiang，A.X。；尹，Z。；张，C。；Tambe，M。；克劳斯，S。；Sullivan，J.，具有动态执行不确定性的博弈论安全巡逻，以及对实际交通系统的案例研究，J.Artif。智力。决议，50，321-367（2014）·Zbl 1364.93013号
[15]	哈里斯·R·G。；Wiens，E.G.，《政府企业：行业内部监管的工具》，加拿大。《经济学杂志》。，13, 125-132 (1980)
[16]	Jain，M。；Kardes，E。；Kiekintveld，C。；鄂尔多斯，F。；Tambe，M.，《具有任意时间表的安全游戏：分支和价格方法》，（《全国人工智能会议论文集》，美国佐治亚州亚特兰大，AAAI（2010））
[17]	Jain，M。；Kiekintveld，C。；Tambe，M.，有限Bayesian Stackelberg对策的质量有界解：放大，（第十届自治代理和多代理系统国际联合会议论文集。第十届自主代理和多智能体系统国际联合大会论文集，AAMAS，台北，台湾（2011）），997-1004
[18]	Kaelbling，L。；利特曼，M。；Moore，A.，《强化学习：调查》，J.Artif。智力。，4, 237-285 (1996)
[19]	梅里尔，W。；Schneider，N.，《寡头垄断行业中的政府公司：短期分析》，Q.J.Econ。，80, 400-412 (1966)
[20]	Nett，L.，《同质商品的混合寡头垄断》，《公共合作社年鉴》。经济。，64, 367-393 (1993)
[21]	Pita，J。；Jain，M。；鄂尔多斯，F。；波特瓦，C。；Tambe，M。；Western，C.，《为洛杉矶机场安全使用博弈论》，AI Mag.，30，1，43-57（2009）
[22]	Pita，J。；Tambe，M。；Kiekintveld，C。；卡伦，S。；Steigerwald，E.，Guards-全国范围内的博弈论安全分配，（《第十届自主代理和多代理系统国际会议论文集》，《第十次自主代理和多重代理系统国际大会论文集》（AAMAS，2011））
[23]	波兹尼亚克，A.S.，《自动控制工程师的先进数学工具》。随机技术，第2卷（2009），Elsevier:Elsevier Amsterdam
[24]	波兹尼亚克，A.S。；Najim，K。；Gomez-Ramirez，E.，有限马尔可夫链的自学习控制（2000），马赛尔·德克尔公司：马赛尔·德克尔公司，纽约·Zbl 0960.93001号
[25]	Ribeiro，C.，强化学习代理，Artif。智力。修订版，17，223-250（2002）·Zbl 1017.68101号
[26]	S.ánchez，E.M。；克莱姆普纳，J.B。；Poznyak，A.S.，《用于计算均值-方差客户组合的先验知识/行为关键强化学习架构：银行市场营销活动案例》，工程应用。Artif公司。智力。，46, 82-92 (2015)
[27]	Trejo，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，《使用外推方法计算Stackelberg/Nash均衡：马尔可夫链博弈的收敛性分析和实现细节》，Int.J.Appl。数学。计算。科学。，25, 2, 337-351 (2015) ·Zbl 1406.91023号
[28]	Trejo，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，基于超接近理论方法的随机策略的Stackelberg安全游戏，工程应用。Artif公司。智力。，37, 145-153 (2015)
[29]	特雷霍，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，《在可控Stackelberg安全游戏中调整策略以适应动态环境》，（2016年IEEE第55届决策与控制会议，2016年第55届IEEE决策与控制大会，CDC（2016），IEEE），5484-5489
[30]	Trejo，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，合作多领导-跟随者Stackelberg Markov链博弈的最优强均衡解，Kybernetika，52，2，258-279（2016）·Zbl 1374.35201号
[31]	Trejo，K.K。；克莱姆普纳，J.B。；Poznyak，A.S.，计算马尔可夫链博弈的强（L_p）-Nash均衡：收敛性和唯一性，应用。数学。型号。，41, 399-418 (2017) ·Zbl 1443.91041号
[32]	蔡，J。；Rathi，S。；基金特维尔德，C。；鄂尔多斯，F。；Tambe，M.，Iris-运输网络中的战略安全分配工具，（第八届自主代理和多代理系统国际会议-行业轨道（2009）），37-44
[33]	Tsunekawa，H。；铃木，T。；Hamagami，T.，《利用进化过程通过反向强化学习检查基于技能的学习》，（IEEE主办的第九届智能系统国际会议和Cont.Proc.IEEE主办第九届智力系统和Cont.国际会议，ISCO 2015，印度哥印拜陀（2015），IEEE）
[34]	维克斯，J。；Yarrow，G.，《私有化——经济分析》（1998年），麻省理工学院出版社：麻省理学院出版社剑桥
[35]	von Stackelberg，H.，Marktform und Gleichgewicht（1934），施普林格：施普林格维也纳·Zbl 1405.91003号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

调整攻击者和防御者的巡逻策略：Stackelberg安全游戏的强化学习方法。（英语） Zbl 1394.91079号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

调整攻击者和防御者的巡逻策略：Stackelberg安全游戏的强化学习方法。 （英语） Zbl 1394.91079号

MSC公司：

关键词：

软件：

参考文献：

调整攻击者和防御者的巡逻策略：Stackelberg安全游戏的强化学习方法。（英语） Zbl 1394.91079号