文件Zbl 1478.91011-zbMATH打开

基于集合的Bellman算子的有界不动点和随机博弈的Nash均衡。（英语） Zbl 1478.91011号

Automatica公司 130，文章ID 109685，12 p.（2021）.

摘要：基于马尔可夫决策过程（MDP）和随机博弈中遇到的不确定参数，我们在基于集合的框架下研究了参数不确定性对基于Bellman算子的算法的影响；然后，我们定义一个Bellman算子，作用于一组值函数，以产生一组新的值函数，作为成本参数所有可能变化下的输出。我们证明了固定点通过证明该算子在完备度量空间上是收缩的，并探讨其与相应的MDP族和随机对策的关系，证明了该基于集合的Bellman算子。此外，我们还证明了给定区间集有界成本参数，我们可以在最优值函数集上形成精确的界。最后，我们利用我们的结果来限定随机博弈中参与者的价值函数轨迹。

MSC公司：

第91页第15页	随机对策，随机微分对策
90立方厘米	马尔可夫和半马尔可夫决策过程
91A26型	博弈论中的理性与学习
93甲16	多代理系统
93E03型	控制理论中的随机系统（一般）

关键词：

马尔可夫决策过程;学习理论;随机控制;多智能体系统;在游戏中学习;决策与自主

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司哈尔

参考文献：

[1]	阿巴德，M。；Filar，J.A.，马尔可夫控制问题的扰动和稳定性理论，IEEE自动控制汇刊，37，9，1415-1420（1992）·兹比尔0763.90091
[2]	科梅什，贝赫塞特；Bayard，David S.，《自治代理群概率制导的马尔可夫链方法》，《亚洲控制杂志》，17，4，1105-1124（2015）·Zbl 1338.93010号
[3]	Altman，Eitan，使用零和马尔可夫博弈理论的流量控制，IEEE自动控制事务，39，4，814-818（1994）·Zbl 0809.90050
[4]	奥尔特曼，埃坦；Gaitsgory，Vladimir A.，约束Markov决策问题中的稳定性和奇异摄动，IEEE自动控制汇刊，38，6，971-975（1993）·Zbl 0786.93088号
[5]	Samuel Ang；Chan，Hau；蒋（Albert Xin）；Yeoh，William，博弈论目标识别模型及其在安全领域的应用，（国际会议决策博弈论安全（2017），施普林格），256-272·Zbl 1453.91018号
[6]	马克·贝勒马尔（Marc Bellemare）；Will Dabney；罗伯特·达达西；阿德里安·阿里（Adrien Ali Taiga）；巴勃罗·塞缪尔·卡斯特罗；尼古拉斯·勒鲁（Nicolas Le Roux），《强化学习最佳表征的几何透视》（Adv.neural inf.process.syst.（2019）），4358-4369
[7]	Tomasz R.Bielecki。；Jerzy A.Filar，奇异摄动马尔可夫控制问题：限制平均成本，运筹学年鉴，28,1153-168（1991）·Zbl 0744.90096号
[8]	布，卢西恩；罗伯特·巴布；De Schutter，Bart，《多智能体强化学习的综合调查》，IEEE系统、人与控制论汇刊，C部分（应用与评论），38，2，156-172（2008）
[9]	克里希南多·查特吉；Rupak Majumdar；Jurdziñski，Marcin，《随机博弈中的纳什均衡》（Int.workshop comput.sci.log.（2004），Springer），第26-40页·Zbl 1095.91001号
[10]	Chavent，Marie，聚类区间数据的超矩形之间的hausdorff距离，（分类、聚类和数据挖掘应用程序（2004），Springer），333-339
[11]	罗伯特·达达西；马克·贝勒马尔（Marc G.Bellemare）。；塔伊加，阿德里安·阿里；尼古拉斯·勒（Nicolas Le Roux）；Dale Schuurmans，《强化学习中的价值函数多面体》，（Int.conf.machine learning（2019）），1486-1495
[12]	埃里克·德拉吉；Mannor，Shie，参数不确定性马尔可夫决策过程的百分位优化，运筹学，58，1，203-213（2010）·Zbl 1226.90128号
[13]	纳兹尔·德米尔；厄伦，乌特库；艾克梅什，贝赫塞特，具有安全性的自治群的分散概率密度控制，自治机器人，39，4，537-554（2015）
[14]	Dick、Travis、Gyorgy、Andras和Szepesvari、Csaba（2014）。成本序列变化的马尔可夫决策过程中的在线学习。在Int.conf.机器学习中（第512-520页）。
[15]	朱莉娅·艾森特罗（Julia Eisentraut）；Křetínsk公司ỳ, 简；Rotar，Alexej，并发随机可达性博弈中价值和策略迭代的停止准则（2019），arXiv预印本arXiv:1909.08348
[16]	马哈茂德·沙米；于越；科梅什，贝赫塞特；Ono，Masahiro，带安全状态约束的受控马尔可夫过程，IEEE自动控制事务，64，3，1003-1018（2018）·Zbl 1482.90238号
[17]	阿卜杜勒·拉赫曼（Abdel Rahman）·埃尔多索基（Eldosouky）；瓦利德萨阿德；Niyato，Dusit，优化运动目标防御的单控制器随机博弈，（2016 IEEE国际通信（2016），IEEE），1-6
[18]	费拉尔、杰奇；Vrieze，Koos，《竞争性马尔可夫决策过程》（2012），Springer Science&Business Media·Zbl 0934.91002号
[19]	Ganzfried，Sam和Sandholm，Tuomas（2009年）。计算不完全信息的多人随机博弈的均衡。第21届国际联合会议。英特尔。。
[20]	Robert Givan；索尼娅·利奇（Sonia Leach）；Thomas Dean，有界参数马尔可夫决策过程，人工智能，122，1-2，71-109（2000）·兹伯利0948.68171
[21]	谢尔盖·哈达德；Monmege，Benjamin，MDP和IMDP的区间迭代算法，理论计算机科学，735，111-131（2018）·Zbl 1393.68103号
[22]	Jeff Henrikson，Hausdorff度量的完备性和总有界性，（麻省理工学院本科生J.数学（1999），Citeser）
[23]	胡俊玲；Wellman，Michael P.，《一般和随机博弈的Nash Q学习》，《机器学习研究杂志》，2003年11月4日，1039-1069·Zbl 1094.68076号
[24]	加鲁德·艾扬格（Garud N.Iyengar），鲁棒动态规划，运筹学数学，30，2，257-280（2005）·Zbl 1082.90123号
[25]	迈克尔·卡恩斯（Michael Kearns）；Mansour，Yishay；Satinder Singh，《随机博弈中的快速规划》（Proc.16th conf.uncertainty artif.intel.（2000），Morgan Kaufmann Publishers Inc.），309-316
[26]	Li，Sarah H.Q。；阿萨勒阿吉；皮埃尔·洛伊奇·加洛什；Açion-kmeše，Behçet，基于集合的bellman算子的不动点（2020），arXiv预印本arXiv:2001.04535
[27]	李，Sarah H.Q。；于越；丹尼尔·卡尔德隆（Daniel Calderone）；拉特利夫，莉莲；Acikem，Behcet，马尔可夫决策过程拥塞博弈中约束满足的收费，（Amer.control conf.（2019），IEEE），1238-1243
[28]	Littman，Michael L.，作为多智能体强化学习框架的马尔可夫博弈，（Mach.learn.proc.1994（1994），Elsevier），157-163
[29]	Littman，Michael L.，马尔可夫博弈中的值函数强化学习，认知系统研究，2，1，55-66（2001）
[30]	Moore，Ramon E.，《区间分析》（第4卷）（1966年），新泽西州普伦蒂斯·霍尔·恩格尔伍德悬崖·Zbl 0176.13301号
[31]	Prasad，H.L。；洛杉矶Prashanth。；Bhatnagar，Shalabh，用于学习一般和随机博弈中Nash均衡的双时间尺度算法，（Proc.2015 int.conf.auton.agents multiagent sys.（2015），国际自治代理和多代理系统基金会），1371-1379
[32]	Puterman，Martin L.，马尔可夫决策过程：离散随机动态规划（2014），John Wiley&Sons·兹伯利0829.90134
[33]	鲁丁，沃尔特，《数学分析原理》（第3卷）（1964年），纽约麦格劳-希尔出版社·Zbl 0148.02903号
[34]	Shapley，Lloyd S.，《随机游戏》，《国家科学院学报》，39，10，1095-1100（1953）·Zbl 0051.35805号
[35]	Shiva、Sajjan、Roy、Sankardas和Dasgupta、Dipankar（2010年）。网络安全博弈论。程序中。第六年。网络安全研讨会。inf.英特尔。决议（第1-4页）。
[36]	魏振宇；洪义德；Lu，Chi-Jen，随机博弈中的在线强化学习（Adv.neural inf.process.sys.（2017）），4987-4997
[37]	沃尔夫拉姆·维斯曼（Wolfram Wiesemann）；丹尼尔·库恩（Daniel Kuhn）；Rustem，Berç，稳健马尔可夫决策过程，运筹学数学，38，1，153-183（2013）·Zbl 1291.90295号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
输出	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于集合的Bellman算子的有界不动点和随机博弈的Nash均衡。（英语） Zbl 1478.91011号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

基于集合的Bellman算子的有界不动点和随机博弈的Nash均衡。 （英语） Zbl 1478.91011号

MSC公司：

关键词：

参考文献：

基于集合的Bellman算子的有界不动点和随机博弈的Nash均衡。（英语） Zbl 1478.91011号