×

连续时间Markov决策过程的强折扣和有限时域最优性。 (英语) Zbl 1327.93424号

摘要:本文研究了波兰空间中连续时间Markov决策过程的强(n(n=-1,0)-折扣和有限时域准则。相应的转换率被允许是无限的,并且奖励率可以既没有上限也没有下限。在温和的条件下,通过建立两个等价关系,证明了强(n(n=-1,0)-折扣最优平稳策略的存在性:一个是标准期望平均报酬与强(-1-)-折扣最优性之间的关系,另一个是偏差与强0-折扣最优度之间的关系。作者还通过发展典型三元组的有趣特征,证明了有限时域控制问题的最优策略的存在性。

MSC公司:

93E20型 最优随机控制
60J05型 一般状态空间上的离散马尔可夫过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Hernández-Lerma O和Lasserre J B,离散时间马尔可夫控制过程:基本最优准则,Springer,纽约,1996年·doi:10.1007/978-1-4612-0729-0
[2] Hernández-Lerma O和Lasserre J B,离散时间Markov控制过程的进一步主题,Springer,纽约,1999年·Zbl 0928.93002号 ·doi:10.1007/978-1-4612-0561-6
[3] Puterman M L,马尔可夫决策过程,威利,纽约,1994年·doi:10.1002/9780470316887
[4] Sennott L I,《随机动态规划与排队系统控制》,威利出版社,纽约,1999年·Zbl 0997.93503号
[5] Arapostathis A、Borkar V S、Fernández-Gaucherand E、Ghosh M K和Markus S I,《具有平均成本标准的离散时间控制马尔可夫过程:一项调查》,SIAM J.Control Optim。,1993, 31(2): 282-344. ·Zbl 0770.93064号 ·数字对象标识代码:10.1137/0331018
[6] Guo X P和Rieder U,波兰空间中连续时间Markov决策过程的平均最优性,Ann.Appl。概率。,2006, 16(2): 730-756. ·Zbl 1160.90010号 ·doi:10.1214/105051606000000105
[7] 朱庆X,波兰空间中连续时间马氏决策过程的平均最优性不等式,数学。方法操作。研究,2007,66(2):299-313·Zbl 1138.90038号 ·文件编号:10.1007/s00186-007-0157-x
[8] Zhu Q X,用策略迭代方法求解连续时间马尔可夫决策过程的平均最优性,数学杂志。分析。申请。,2008, 339(1): 691-704. ·Zbl 1156.90023号 ·doi:10.1016/j.jmaa.2007.06.071
[9] Hernández-Lerma O、Vega-Amaya O和Carrasco G,平均成本Markov控制过程的样本路径优化和方差最小化,SIAM J.control Optim。,1999, 38(1): 79-93. ·兹比尔0951.93074 ·doi:10.1137/S0363012998340673
[10] 朱Q X和郭X P,方差最小的马尔可夫决策过程:一种新的条件和方法,Stoch。分析。申请。,2007, 25(3): 577-592. ·Zbl 1152.90646号 ·网址:10.1080/073629907012807
[11] Hilgert N和Hernández-Lerma O,成本无限的Markov控制过程中的偏差最优性与强0-折扣最优性,Acta Appl。数学。,2003, 77(3): 215-235. ·Zbl 1049.93089号 ·doi:10.1023/A:1024996308133
[12] Jasso-Funtes H和Hernández-Lerma O,受控扩散过程的Blackwell最优性,J.Appl。概率。,2009, 46(2): 372-391. ·Zbl 1165.93038号 ·doi:10.1239/jap/1245676094
[13] Lewis M E和Puterman M L,关于受控排队系统中偏差最优性的注记,J.Appl。概率。,2000, 37(1): 300-305. ·Zbl 1018.90009号 ·doi:10.1239/jap/1014842288
[14] Veinott A F,关于在无折扣的离散动态规划中寻找最优策略,Ann.Math。统计学。,1966, 37: 1284-1294. ·Zbl 0149.16301号 ·doi:10.1214/aoms/1177699272
[15] Zhu Q X和Prieto-Rumeau T,波兰空间中连续时间跳跃Markov决策过程的偏差和超车最优性,J.Appl。可能性。,2008, 45(2): 417-429. ·Zbl 1189.90187号 ·doi:10.1239/jap/1214950357
[16] Veinott A F,具有敏感折扣最优性准则的离散动态规划,Ann.Math。统计学。,1969, 40: 1635-1660. ·Zbl 0183.49102号 ·doi:10.1214/网址:1177697379
[17] Yushkevich A A,关于贴现值函数渐近性和强0-贴现最优性的注记,数学。方法。操作。研究,1996,44(2):223-231·Zbl 0860.90128号 ·doi:10.1007/BF01194332
[18] Yushkevich A A,带Borel状态空间的Markov决策过程中的强0-折扣最优策略,ZOR-Math。方法。操作。研究,1995,42(1):99-108·Zbl 0838.90136号
[19] Zhu Q X和Guo X P,马尔可夫决策过程中强n(n=−1,0)折扣最优性的另一组条件,Stoch。分析。申请。,2005, 23(5): 953-974. ·Zbl 1160.90686号 ·网址:10.1080/07362990500184865
[20] Puterman M L,受控一维扩散中的敏感折扣最优性,Ann.Probab。,1974, 2: 408-419. ·Zbl 0286.93046号 ·doi:10.1214操作/1176996656
[21] Jasso-Funtes H和Hernández-Lerma O,马尔可夫决策过程的遍历控制、偏差和敏感折扣优化,Stoch。分析。申请。,2009, 27(2): 363-385. ·Zbl 1159.93034号 ·网址:10.1080/07362990802679034
[22] Prieto-Rumeau T和Hernández-Lerma O,Laurent级数,连续时间受控马尔可夫链的敏感折扣和Blackwell最优性,数学。方法。操作。研究,2005,61(1):123-145·Zbl 1077.93055号 ·数字对象标识代码:10.1007/s001860400393
[23] Prieto-Rumeau T和Hernández-Lerma O,连续时间受控马尔可夫链的偏差优化,SIAM J.控制优化。,2006, 45(1): 51-73. ·Zbl 1134.93049号 ·doi:10.1137/S036301290343432
[24] Guo X P,带折扣报酬的连续时间Markov决策过程:波兰空间的情况,数学。操作。研究,2007,32(1):73-87·Zbl 1278.90426号 ·doi:10.1287/门1060.0210
[25] Guo X P,Hernández-Lerma O,and Prieto-Rumeau T,关于连续时间Markov决策过程的最新结果的调查,Top,2006,14(2):177-261·Zbl 1278.90427号 ·doi:10.1007/BF02837562
[26] Lund R B,Meyn S P,and Tweedie R L,随机序Markov过程的可计算指数收敛率,Ann.Appl。概率。,1996, 6(1): 218-237. ·兹比尔0863.60093 ·doi:10.1214/aoap/1034968072
[27] 郭晓平,刘凯,关于平均费用准则下连续马尔可夫决策过程最优性条件的注记,IEEE Trans。自动化。控制,2001,46(12):1984-1989·Zbl 1017.90120号 ·doi:10.1109/9.975505
[28] Cao X R,势之间的关系,扰动分析和马尔可夫决策过程,离散事件Dyn。系统。,1998, 8(1): 71-87. ·Zbl 1126.93332号 ·doi:10.1023/A:1008260528575
[29] Cao X R和Chen H F,马尔可夫过程的势、扰动实现和灵敏度分析,IEEE Trans。自动化。控制,1997,42(10):1382-1397·Zbl 0889.93039号 ·doi:10.1109/9.633827
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。