IDEAS主页打印自https://ideas.repec.org/a/spr/annopr/v235y2015i1p103-12810.1007-s10479-015-1935-0.html
  我的参考书目  保存此文章

部分可观测的领导-跟随多目标Markov博弈

作者

上市的:
  • 张燕玲
  • 阿兰·埃雷拉
  • 切尔西-怀特

摘要

本研究的目的是生成一组非支配有限记忆策略,其中两个代理(领导者)中的一个可以选择一个最优先的策略来控制一个动态系统,该系统也受到另一个代理(追随者)的控制决策的影响。该问题被描述为无限期总折扣报酬,部分可观测马尔可夫博弈(POMG)。对于每个候选有限内存先导策略,我们假设跟随者充分了解先导策略,确定一个优化跟随者(标量)标准的(完美内存)策略。领导-跟随者假设允许POMG转换为一个特殊结构的、部分可观察的马尔可夫决策过程,我们使用该过程来确定跟随者对给定领导策略的最佳响应策略。然后,我们通过有限内存策略来近似跟随者的策略。每个代理的策略都假定代理知道其当前和最近的状态值、其最近的操作以及对另一个代理状态的当前和最近可能不准确的观察。对于每个领导者/跟随者策略对,我们确定领导者标准的值。我们使用多目标遗传算法根据当前代中每个领导者/追随者策略对的领导者标准值创建下一代领导者策略。基于最后一代政策的这一信息,我们确定了一组非主导领导者政策。我们举了一个例子,说明了如何使用这些结果来支持液态蛋生产过程的管理者(领导者)选择一系列行动,以最大限度地提高预期的过程生产力,同时降低攻击者(追随者)试图用化学或生物毒素污染过程所带来的风险。版权所有Springer Science+Business Media New York 2015

建议引用

  • 张燕玲(Yanling Chang)、艾伦·埃雷拉(Alan Erera)和切尔西·怀特(Chelsea White),2015年。"领导者-追随者部分观察的多目标马尔可夫博弈,"运筹学年鉴施普林格,第235(1)卷,第103-128页,12月。
  • 手柄:RePEc:spr:annopr:v:235:y:2015:i:1:p:103-128:10.1007/s10479-015-1935-0
    数字对象标识码:10.1007/s10479-015-1935-0
    作为

    从出版商下载全文

    文件URL: http://hdl.handle.net/10.1007/s10479-015-1935-0
    下载限制:全文仅限于订阅者访问。

    文件URL: https://libkey.io/10.1007/s10479-015-1935-0?utm_source=ideas
    LibKey链接:如果访问受到限制,并且您的库使用此服务,LibKey会将您重定向到可以使用库订阅访问此项目的位置
    ---><---

    由于此文档的访问受到限制,您可能希望搜索换一个不同的版本。

    IDEAS上列出的参考文献

    作为
    1. 张浩,2010年。"部分可观测马尔可夫决策过程:几何技术与分析,"运筹学《信息》,第58(1)卷,第214-228页,2月。
    2. 凯西·罗斯柴尔德(Casey Rothschild)、劳拉·麦克雷(Laura McLay)和塞斯·吉科马(Seth Guikema),2012年。"不完全信息下的对手风险分析:一种k级方法,"风险分析John Wiley&Sons,第32卷(7),第1219-1231页,7月。
    3. Jun Zhung和Vicki M.Bier,2007年。"平衡恐怖主义与自然灾害——内生攻击者的防御策略,"运筹学《信息》,第55卷(5),第976-991页,10月。
    4. K Deb,2001年。"基于多目标遗传算法的非线性目标规划,"运筹学学会杂志Palgrave Macmillan;《手术室学会》,第52卷(3),第291-302页,3月。
    5. 理查德·斯莫尔伍德(Richard D.Smallwood)和爱德华·桑迪克(Edward J.Sondik),1973年。"有限水平上部分可观测Markov过程的最优控制,"运筹学,INFORMS,第21卷(5),第1071-1088页,10月。
    6. Vicki Bier、Santiago Oliveros和Larry Samuelson,2007年。"选择要保护的内容:针对未知攻击者的战略防御分配,"公共经济理论杂志公共经济理论协会,第9卷(4),第563-587页,8月。
    7. Niyazi Bakır,2011年。"集装箱安全中资源分配的Stackelberg博弈模型,"运筹学年鉴施普林格,第187(1)卷,第5-22页,7月。
    8. Daniel S.Bernstein和Robert Givan、Neil Immerman和Shlomo Zilberstein,2002年。"马尔可夫决策过程分散控制的复杂性,"运筹学数学《信息》,第27卷(4),第819-840页,11月。
    9. 张燕玲(Yanling Chang)、艾伦·埃雷拉(Alan Erera)和切尔西·怀特(Chelsea White),2015年。"领导者-追随者部分观测Markov博弈的信息价值,"运筹学年鉴,施普林格,第235(1)卷,第129-153页,12月。
    10. Ralph L.Keeney和Howard Raiffa,1993年。"多目标决策,"剑桥图书,剑桥大学出版社,编号9780521438834,11月。
    11. Huseyin Cavusoglu&Young Kwark&Bin Mai&Srinivasan Raghunathan,2013年。"战略攻击者在场时的乘客特征分析和航空安全筛查,"决策分析《信息》,第10卷(1),第63-81页,3月。
    12. 乔治·E·莫纳汉,1982年。"最新进展——部分可观测马尔可夫决策过程综述:理论、模型和算法,"管理科学,INFORMS,第28卷(1),第1-16页,1月。
    13. 爱德华·桑迪克(Edward J.Sondik),1978年。"无限视界上部分可观测Markov过程的最优控制:折扣成本,"运筹学《信息》,第26卷(2),第282-304页,4月。
    14. K Hausken&J Zhung,2012年。"外生动力导致恐怖袭击的时机和威慑,"运筹学学会杂志Palgrave Macmillan;《手术室学会》,第63卷(6),第726-735页,6月。
    15. Hamid Mohtadi和Antu Panini Murshid,2009年。"化学、生物或放射性核威胁的风险分析:对粮食安全的影响,"风险分析John Wiley&Sons,第29卷(9),1317-1335页,9月。
    16. 林宗志(Zong Zhi Lin)、詹姆斯·比恩(James C.Bean)和切尔西·怀特(Chelsea C.White),2004年。"有限水平部分观测马尔可夫决策过程的混合遗传优化算法,"信息计算杂志,INFORMS,第16卷(1),第27-38页,2月。
    17. Chelsea C.White和William T.Scherer,1994年。"部分可观测马氏决策过程的有限记忆次优设计,"运筹学《信息》,第42卷(3),第439-455页,6月。
    18. Chen Wang和Vicki M.Bier,2011年。"基于不确定多属性恐怖效用的目标加固决策,"决策分析,INFORMS,第8卷(4),第286-302页,12月。
    19. Vicki M.Bier&Naraphorn Haphuriwat&Jaime Menoyo&Rae Zimmerman&Alison M.Culpen,2008年。"基于不同吸引度的目标防御资源优化配置,"风险分析,John Wiley&Sons,第28卷(3),第763-770页,六月。
    20. Chelsea C.White和Douglas J.White,1989年。"马尔可夫决策过程,"欧洲运筹学杂志爱思唯尔,第39卷(1),第1-16页,3月。
    21. 劳拉·麦克雷(Laura McLay)、凯西·罗斯柴尔德(Casey Rothschild)和塞斯·吉科马(Seth Guikema),2012年。"稳健的对手风险分析:k级方法,"决策分析,INFORMS,第9卷(1),第41-54页,3月。
    22. Chelsea C.White和William T.Scherer,1989年。"部分可观测马尔可夫决策过程的求解过程,"运筹学《信息》,第37(5)卷,第791-797页,10月。
    23. 阿卜杜拉·科纳克(Konak)、阿卜杜拉(Abdullah)和科伊特(Coit)、大卫·W·史密斯(David W.)和爱丽丝·E·史密斯(Alice E.),2006年。"使用遗传算法的多目标优化:教程,"可靠性工程与系统安全爱思唯尔,第91卷(9),第992-1007页。
    24. M.K.Ghosh&D.McDonald&S.Sinha,2004年。"具有部分信息的零和随机对策,"最优化理论与应用杂志,施普林格,第121(1)卷,第99-118页,4月。
    25. Kjell Hausken和Jun Zhuang,2011年。"T期博弈中政府与恐怖分子的防御与攻击,"决策分析,INFORMS,第8卷(1),第46-70页,3月。
    26. James N.Eagle,1984年。"搜索路径受限时运动目标的最优搜索,"运筹学,INFORMS,第32卷(5),第1107-1115页,10月。
    27. 詹姆斯·比恩,1994年。"用于排序和优化的遗传算法和随机密钥,"信息计算杂志,INFORMS,第6卷(2),第154-160页,5月。
    完整参考文献 (包括与IDEAS上的项目不匹配的项目)

    引文

    引文由CitEc项目,订阅其RSS源用于此项目。
    作为


    引用人:

    1. Satya S.Malladi、Alan L.Erera和Chelsea C.White,2023年。"需求调制和部分观测调制过程的库存控制,"运筹学年鉴,施普林格,第321(1)卷,第343-369页,2月。
    2. Denizalp Goktas&Jiayi Zhao&Amy Greenwald,2022年。"零和随机Stackelberg对策,"论文2211.13847,arXiv.org。
    3. Julio B.Clempner,2018年。"用超近似方法计算多目标马尔可夫链,"运筹学年鉴,施普林格,第271卷(2),第469-486页,12月。

    最相关的项目

    这些是最常引用与本书相同作品的项目,也被与本书同样的作品引用。
    1. 张燕玲(Yanling Chang)、艾伦·埃雷拉(Alan Erera)和切尔西·怀特(Chelsea White),2015年。"领导者-追随者部分观测Markov博弈的信息价值,"运筹学年鉴,施普林格,第235卷(1),第129-153页,12月。
    2. 亨特、凯尔和庄,2024年6月。"攻击防御游戏综述:现状与发展路径,"欧洲运筹学杂志爱思唯尔,第313(2)卷,第401-417页。
    3. Mohammad E.Nikoofal和Mehmet Gümüs,2015年。"论恐怖分子私人信息在政府防御性资源配置问题中的价值,"IISE交易《泰勒与弗朗西斯杂志》,第47卷(6),第533-555页,6月。
    4. 张浩,2010。"部分可观测马尔可夫决策过程:几何技术与分析,"运筹学《信息》,第58(1)卷,第214-228页,2月。
    5. Xiaojun(Gene)Shan和Jun Zhuang,2014年。"利用部分检查遏制核武器走私的可信报复威胁建模——一个三阶段博弈,"决策分析《信息》,第11卷(1),第43-62页,3月。
    6. 林宗志,詹姆斯·C·比恩,切尔西·C·怀特,2004年。"有限水平部分观测马尔可夫决策过程的混合遗传优化算法,"信息计算杂志,INFORMS,第16卷(1),第27-38页,2月。
    7. Abhijit Gosavi,2009年。"强化学习:教程调查和最新进展,"信息计算杂志,INFORMS,第21卷(2),第178-192页,5月。
    8. 徐志恒,庄军,2019年。"一个连续的单防守方N进攻方博弈研究,"风险分析《John Wiley&Sons》,第39卷(6),第1414-1432页,6月。
    9. 关培秋和庄军,2016年。"利用“预热”CSF建模攻防对抗游戏中的资源分配,"风险分析John Wiley&Sons,第36卷(4),第776-791页,4月。
    10. Vineet M.Payyappalli、Jun Zhung和Victor Richmond R.Jose,2017年。"连续攻击中的威慑和风险偏好——持续努力的防御者游戏,"风险分析John Wiley&Sons,第37卷(11),第2229-2245页,11月。
    11. 邢高、钟伟军、梅树梅,2013。"黑客传播知识时的信息安全投资,"决策分析《信息》,第10卷(4),第352-368页,12月。
    12. Shan,Xiaojun和庄,Jun,2018年。"多周期多目标序贯博弈中针对战略攻击者的累积防御资源分配模型,"可靠性工程与系统安全,爱思唯尔,第179卷(C),第12-26页。
    13. James T.Treharne和Charles R.Sox,2002年。"非平稳需求和部分信息的自适应库存控制,"管理科学,INFORMS,第48卷(5),第607-624页,5月。
    14. Szidarovszky,Ferenc和Luo,Yi,2014年。"将寻求风险的态度纳入防御战略,"可靠性工程与系统安全爱思唯尔,第123卷(C),第104-109页。
    15. Chernonog,Tatyana&Avinadav,Tal,2016年。"具有三个操作的两状态部分可观测Markov决策过程作者姓名:Ben-Zvi,Tal,"欧洲运筹学杂志爱思唯尔,第254(3)卷,第957-967页。
    16. 亨特、凯尔和阿加瓦尔、普奈特和庄,2022年6月。"采用新技术加强反恐措施:具有风险偏好的攻击者-防御者游戏,"可靠性工程与系统安全爱思唯尔,第218卷(PB)。
    17. Wei Wang、Francesco Di Maio和Enrico Zio,2019年。"配置最佳防御资源以保护网络物理系统免受网络攻击的对抗风险分析,"风险分析John Wiley&Sons,第39卷(12),第2766-2785页,12月。
    18. Abdolmajid Yolmeh和Melike Baykal-Gürsoy,2019年。"两阶段投资-防御博弈:平衡战略和运营决策,"决策分析《信息》,第16卷(1),第46-66页,3月。
    19. 塞林,亚塞明,1995年。"部分可观测Markov决策过程的非线性规划模型:有限时域情形,"欧洲运筹学杂志爱思唯尔,第86卷(3),第549-564页,11月。
    20. Simon,Jay&Omar,Ayman,2020年。"供应链中的网络安全投资:协调和战略攻击者,"欧洲运筹学杂志爱思唯尔,第282(1)卷,第161-171页。

    有关此项目的更多信息

    关键词

    动态编程;人工智能;顺序决策;
    所有这些关键字.

    统计

    访问和下载统计

    更正

    本网站上的所有材料均由各自的出版商和作者提供。您可以帮助纠正错误和遗漏。请求更正时,请提及此项目的句柄:RePEc:spr:annopr:v:235:y:2015:i:1:p:103-128:10.1007/s10479-015-1935-0。请参阅一般信息关于如何更正RePEc中的材料。

    如果您编写了此项目,但尚未在RePEc注册,我们鼓励您这样做在这里。这允许将您的个人资料链接到此项目。它还允许您接受我们不确定的该项目的潜在引用。

    如果CitEc公司识别了书目参考,但没有将RePEc中的项目链接到它,您可以帮助这个表格.

    如果你知道引用这一条的缺失条目,你可以通过以与上述相同的方式为每个引用条目添加相关引用来帮助我们创建这些链接。如果您是此项目的注册作者,您可能还需要检查您的RePEc作者服务个人资料,因为可能有一些引文等待确认。

    有关该项目的技术问题,或更正其作者、标题、摘要、书目或下载信息,请联系:Sonal Shukla或Springer Nature Abstracting and Indexing(电子邮件如下)。供应商的一般联系方式:http://www.springer.com网站.

    请注意,更正可能需要几周时间才能筛选出来各种RePEc服务。

    思想是一个经济学研究论文服务。RePEc使用各出版商提供的书目数据。