×

基于集合的Bellman算子的有界不动点和随机博弈的Nash均衡。 (英语) Zbl 1478.91011号

摘要:基于马尔可夫决策过程(MDP)和随机博弈中遇到的不确定参数,我们在基于集合的框架下研究了参数不确定性对基于Bellman算子的算法的影响;然后,我们定义一个Bellman算子,作用于一组值函数,以产生一组新的值函数,作为成本参数所有可能变化下的输出。我们证明了固定点通过证明该算子在完备度量空间上是收缩的,并探讨其与相应的MDP族和随机对策的关系,证明了该基于集合的Bellman算子。此外,我们还证明了给定区间集有界成本参数,我们可以在最优值函数集上形成精确的界。最后,我们利用我们的结果来限定随机博弈中参与者的价值函数轨迹。

MSC公司:

第91页第15页 随机对策,随机微分对策
90立方厘米 马尔可夫和半马尔可夫决策过程
91A26型 博弈论中的理性与学习
93甲16 多代理系统
93E03型 控制理论中的随机系统(一般)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿巴德,M。;Filar,J.A.,马尔可夫控制问题的扰动和稳定性理论,IEEE自动控制汇刊,37,9,1415-1420(1992)·兹比尔0763.90091
[2] 科梅什,贝赫塞特;Bayard,David S.,《自治代理群概率制导的马尔可夫链方法》,《亚洲控制杂志》,17,4,1105-1124(2015)·Zbl 1338.93010号
[3] Altman,Eitan,使用零和马尔可夫博弈理论的流量控制,IEEE自动控制事务,39,4,814-818(1994)·Zbl 0809.90050
[4] 奥尔特曼,埃坦;Gaitsgory,Vladimir A.,约束Markov决策问题中的稳定性和奇异摄动,IEEE自动控制汇刊,38,6,971-975(1993)·Zbl 0786.93088号
[5] Samuel Ang;Chan,Hau;蒋(Albert Xin);Yeoh,William,博弈论目标识别模型及其在安全领域的应用,(国际会议决策博弈论安全(2017),施普林格),256-272·Zbl 1453.91018号
[6] 马克·贝勒马尔(Marc Bellemare);Will Dabney;罗伯特·达达西;阿德里安·阿里(Adrien Ali Taiga);巴勃罗·塞缪尔·卡斯特罗;尼古拉斯·勒鲁(Nicolas Le Roux),《强化学习最佳表征的几何透视》(Adv.neural inf.process.syst.(2019)),4358-4369
[7] Tomasz R.Bielecki。;Jerzy A.Filar,奇异摄动马尔可夫控制问题:限制平均成本,运筹学年鉴,28,1153-168(1991)·Zbl 0744.90096号
[8] 布,卢西恩;罗伯特·巴布;De Schutter,Bart,《多智能体强化学习的综合调查》,IEEE系统、人与控制论汇刊,C部分(应用与评论),38,2,156-172(2008)
[9] 克里希南多·查特吉;Rupak Majumdar;Jurdziñski,Marcin,《随机博弈中的纳什均衡》(Int.workshop comput.sci.log.(2004),Springer),第26-40页·Zbl 1095.91001号
[10] Chavent,Marie,聚类区间数据的超矩形之间的hausdorff距离,(分类、聚类和数据挖掘应用程序(2004),Springer),333-339
[11] 罗伯特·达达西;马克·贝勒马尔(Marc G.Bellemare)。;塔伊加,阿德里安·阿里;尼古拉斯·勒(Nicolas Le Roux);Dale Schuurmans,《强化学习中的价值函数多面体》,(Int.conf.machine learning(2019)),1486-1495
[12] 埃里克·德拉吉;Mannor,Shie,参数不确定性马尔可夫决策过程的百分位优化,运筹学,58,1,203-213(2010)·Zbl 1226.90128号
[13] 纳兹尔·德米尔;厄伦,乌特库;艾克梅什,贝赫塞特,具有安全性的自治群的分散概率密度控制,自治机器人,39,4,537-554(2015)
[14] Dick、Travis、Gyorgy、Andras和Szepesvari、Csaba(2014)。成本序列变化的马尔可夫决策过程中的在线学习。在Int.conf.机器学习中(第512-520页)。
[15] 朱莉娅·艾森特罗(Julia Eisentraut);Křetínsk公司ỳ, 简;Rotar,Alexej,并发随机可达性博弈中价值和策略迭代的停止准则(2019),arXiv预印本arXiv:1909.08348
[16] 马哈茂德·沙米;于越;科梅什,贝赫塞特;Ono,Masahiro,带安全状态约束的受控马尔可夫过程,IEEE自动控制事务,64,3,1003-1018(2018)·Zbl 1482.90238号
[17] 阿卜杜勒·拉赫曼(Abdel Rahman)·埃尔多索基(Eldosouky);瓦利德萨阿德;Niyato,Dusit,优化运动目标防御的单控制器随机博弈,(2016 IEEE国际通信(2016),IEEE),1-6
[18] 费拉尔、杰奇;Vrieze,Koos,《竞争性马尔可夫决策过程》(2012),Springer Science&Business Media·Zbl 0934.91002号
[19] Ganzfried,Sam和Sandholm,Tuomas(2009年)。计算不完全信息的多人随机博弈的均衡。第21届国际联合会议。英特尔。。
[20] Robert Givan;索尼娅·利奇(Sonia Leach);Thomas Dean,有界参数马尔可夫决策过程,人工智能,122,1-2,71-109(2000)·兹伯利0948.68171
[21] 谢尔盖·哈达德;Monmege,Benjamin,MDP和IMDP的区间迭代算法,理论计算机科学,735,111-131(2018)·Zbl 1393.68103号
[22] Jeff Henrikson,Hausdorff度量的完备性和总有界性,(麻省理工学院本科生J.数学(1999),Citeser)
[23] 胡俊玲;Wellman,Michael P.,《一般和随机博弈的Nash Q学习》,《机器学习研究杂志》,2003年11月4日,1039-1069·Zbl 1094.68076号
[24] 加鲁德·艾扬格(Garud N.Iyengar),鲁棒动态规划,运筹学数学,30,2,257-280(2005)·Zbl 1082.90123号
[25] 迈克尔·卡恩斯(Michael Kearns);Mansour,Yishay;Satinder Singh,《随机博弈中的快速规划》(Proc.16th conf.uncertainty artif.intel.(2000),Morgan Kaufmann Publishers Inc.),309-316
[26] Li,Sarah H.Q。;阿萨勒阿吉;皮埃尔·洛伊奇·加洛什;Açion-kmeše,Behçet,基于集合的bellman算子的不动点(2020),arXiv预印本arXiv:2001.04535
[27] 李,Sarah H.Q。;于越;丹尼尔·卡尔德隆(Daniel Calderone);拉特利夫,莉莲;Acikem,Behcet,马尔可夫决策过程拥塞博弈中约束满足的收费,(Amer.control conf.(2019),IEEE),1238-1243
[28] Littman,Michael L.,作为多智能体强化学习框架的马尔可夫博弈,(Mach.learn.proc.1994(1994),Elsevier),157-163
[29] Littman,Michael L.,马尔可夫博弈中的值函数强化学习,认知系统研究,2,1,55-66(2001)
[30] Moore,Ramon E.,《区间分析》(第4卷)(1966年),新泽西州普伦蒂斯·霍尔·恩格尔伍德悬崖·Zbl 0176.13301号
[31] Prasad,H.L。;洛杉矶Prashanth。;Bhatnagar,Shalabh,用于学习一般和随机博弈中Nash均衡的双时间尺度算法,(Proc.2015 int.conf.auton.agents multiagent sys.(2015),国际自治代理和多代理系统基金会),1371-1379
[32] Puterman,Martin L.,马尔可夫决策过程:离散随机动态规划(2014),John Wiley&Sons·兹伯利0829.90134
[33] 鲁丁,沃尔特,《数学分析原理》(第3卷)(1964年),纽约麦格劳-希尔出版社·Zbl 0148.02903号
[34] Shapley,Lloyd S.,《随机游戏》,《国家科学院学报》,39,10,1095-1100(1953)·Zbl 0051.35805号
[35] Shiva、Sajjan、Roy、Sankardas和Dasgupta、Dipankar(2010年)。网络安全博弈论。程序中。第六年。网络安全研讨会。inf.英特尔。决议(第1-4页)。
[36] 魏振宇;洪义德;Lu,Chi-Jen,随机博弈中的在线强化学习(Adv.neural inf.process.sys.(2017)),4987-4997
[37] 沃尔夫拉姆·维斯曼(Wolfram Wiesemann);丹尼尔·库恩(Daniel Kuhn);Rustem,Berç,稳健马尔可夫决策过程,运筹学数学,38,1,153-183(2013)·Zbl 1291.90295号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。