文件Zbl 1327.93424-zbMATH Open

连续时间Markov决策过程的强折扣和有限时域最优性。（英语） Zbl 1327.93424号

J.系统。科学。复杂。 27，第5期，1045-1063（2014）.

摘要：本文研究了波兰空间中连续时间Markov决策过程的强（n（n=-1,0）-折扣和有限时域准则。相应的转换率被允许是无限的，并且奖励率可以既没有上限也没有下限。在温和的条件下，通过建立两个等价关系，证明了强（n（n=-1,0）-折扣最优平稳策略的存在性：一个是标准期望平均报酬与强（-1-）-折扣最优性之间的关系，另一个是偏差与强0-折扣最优度之间的关系。作者还通过发展典型三元组的有趣特征，证明了有限时域控制问题的最优策略的存在性。

MSC公司：

93E20型	最优随机控制
60J05型	一般状态空间上的离散马尔可夫过程

关键词：

连续时间马尔可夫决策过程;预期平均报酬标准;有限时域优化;波兰空间;strong（n）-折扣最优性

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Hernández-Lerma O和Lasserre J B，离散时间马尔可夫控制过程：基本最优准则，Springer，纽约，1996年·doi:10.1007/978-1-4612-0729-0
[2]	Hernández-Lerma O和Lasserre J B，离散时间Markov控制过程的进一步主题，Springer，纽约，1999年·Zbl 0928.93002号 ·doi:10.1007/978-1-4612-0561-6
[3]	Puterman M L，马尔可夫决策过程，威利，纽约，1994年·doi:10.1002/9780470316887
[4]	Sennott L I，《随机动态规划与排队系统控制》，威利出版社，纽约，1999年·Zbl 0997.93503号
[5]	Arapostathis A、Borkar V S、Fernández-Gaucherand E、Ghosh M K和Markus S I，《具有平均成本标准的离散时间控制马尔可夫过程：一项调查》，SIAM J.Control Optim。，1993, 31(2): 282-344. ·Zbl 0770.93064号 ·数字对象标识代码：10.1137/0331018
[6]	Guo X P和Rieder U，波兰空间中连续时间Markov决策过程的平均最优性，Ann.Appl。概率。，2006, 16(2): 730-756. ·Zbl 1160.90010号 ·doi:10.1214/105051606000000105
[7]	朱庆X，波兰空间中连续时间马氏决策过程的平均最优性不等式，数学。方法操作。研究，2007，66（2）：299-313·Zbl 1138.90038号 ·文件编号：10.1007/s00186-007-0157-x
[8]	Zhu Q X，用策略迭代方法求解连续时间马尔可夫决策过程的平均最优性，数学杂志。分析。申请。，2008, 339(1): 691-704. ·Zbl 1156.90023号 ·doi:10.1016/j.jmaa.2007.06.071
[9]	Hernández-Lerma O、Vega-Amaya O和Carrasco G，平均成本Markov控制过程的样本路径优化和方差最小化，SIAM J.control Optim。，1999, 38(1): 79-93. ·兹比尔0951.93074 ·doi:10.1137/S0363012998340673
[10]	朱Q X和郭X P，方差最小的马尔可夫决策过程：一种新的条件和方法，Stoch。分析。申请。，2007, 25(3): 577-592. ·Zbl 1152.90646号 ·网址：10.1080/073629907012807
[11]	Hilgert N和Hernández-Lerma O，成本无限的Markov控制过程中的偏差最优性与强0-折扣最优性，Acta Appl。数学。，2003, 77(3): 215-235. ·Zbl 1049.93089号 ·doi:10.1023/A：1024996308133
[12]	Jasso-Funtes H和Hernández-Lerma O，受控扩散过程的Blackwell最优性，J.Appl。概率。，2009, 46(2): 372-391. ·Zbl 1165.93038号 ·doi:10.1239/jap/1245676094
[13]	Lewis M E和Puterman M L，关于受控排队系统中偏差最优性的注记，J.Appl。概率。，2000, 37(1): 300-305. ·Zbl 1018.90009号 ·doi:10.1239/jap/1014842288
[14]	Veinott A F，关于在无折扣的离散动态规划中寻找最优策略，Ann.Math。统计学。，1966, 37: 1284-1294. ·Zbl 0149.16301号 ·doi:10.1214/aoms/1177699272
[15]	Zhu Q X和Prieto-Rumeau T，波兰空间中连续时间跳跃Markov决策过程的偏差和超车最优性，J.Appl。可能性。，2008, 45(2): 417-429. ·Zbl 1189.90187号 ·doi:10.1239/jap/1214950357
[16]	Veinott A F，具有敏感折扣最优性准则的离散动态规划，Ann.Math。统计学。，1969, 40: 1635-1660. ·Zbl 0183.49102号 ·doi:10.1214/网址：1177697379
[17]	Yushkevich A A，关于贴现值函数渐近性和强0-贴现最优性的注记，数学。方法。操作。研究，1996，44（2）：223-231·Zbl 0860.90128号 ·doi:10.1007/BF01194332
[18]	Yushkevich A A，带Borel状态空间的Markov决策过程中的强0-折扣最优策略，ZOR-Math。方法。操作。研究，1995，42（1）：99-108·Zbl 0838.90136号
[19]	Zhu Q X和Guo X P，马尔可夫决策过程中强n（n=−1，0）折扣最优性的另一组条件，Stoch。分析。申请。，2005, 23(5): 953-974. ·Zbl 1160.90686号 ·网址：10.1080/07362990500184865
[20]	Puterman M L，受控一维扩散中的敏感折扣最优性，Ann.Probab。，1974, 2: 408-419. ·Zbl 0286.93046号 ·doi:10.1214操作/1176996656
[21]	Jasso-Funtes H和Hernández-Lerma O，马尔可夫决策过程的遍历控制、偏差和敏感折扣优化，Stoch。分析。申请。，2009, 27(2): 363-385. ·Zbl 1159.93034号 ·网址：10.1080/07362990802679034
[22]	Prieto-Rumeau T和Hernández-Lerma O，Laurent级数，连续时间受控马尔可夫链的敏感折扣和Blackwell最优性，数学。方法。操作。研究，2005，61（1）：123-145·Zbl 1077.93055号 ·数字对象标识代码：10.1007/s001860400393
[23]	Prieto-Rumeau T和Hernández-Lerma O，连续时间受控马尔可夫链的偏差优化，SIAM J.控制优化。，2006, 45(1): 51-73. ·Zbl 1134.93049号 ·doi:10.1137/S036301290343432
[24]	Guo X P，带折扣报酬的连续时间Markov决策过程：波兰空间的情况，数学。操作。研究，2007，32（1）：73-87·Zbl 1278.90426号 ·doi:10.1287/门1060.0210
[25]	Guo X P，Hernández-Lerma O，and Prieto-Rumeau T，关于连续时间Markov决策过程的最新结果的调查，Top，2006，14（2）：177-261·Zbl 1278.90427号 ·doi:10.1007/BF02837562
[26]	Lund R B，Meyn S P，and Tweedie R L，随机序Markov过程的可计算指数收敛率，Ann.Appl。概率。，1996, 6(1): 218-237. ·兹比尔0863.60093 ·doi:10.1214/aoap/1034968072
[27]	郭晓平，刘凯，关于平均费用准则下连续马尔可夫决策过程最优性条件的注记，IEEE Trans。自动化。控制，2001，46（12）：1984-1989·Zbl 1017.90120号 ·doi:10.1109/9.975505
[28]	Cao X R，势之间的关系，扰动分析和马尔可夫决策过程，离散事件Dyn。系统。，1998, 8(1): 71-87. ·Zbl 1126.93332号 ·doi:10.1023/A:1008260528575
[29]	Cao X R和Chen H F，马尔可夫过程的势、扰动实现和灵敏度分析，IEEE Trans。自动化。控制，1997，42（10）：1382-1397·Zbl 0889.93039号 ·doi:10.1109/9.633827

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
输出	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

连续时间Markov决策过程的强折扣和有限时域最优性。（英语） Zbl 1327.93424号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

连续时间Markov决策过程的强折扣和有限时域最优性。 （英语） Zbl 1327.93424号

MSC公司：

关键词：

参考文献：

连续时间Markov决策过程的强折扣和有限时域最优性。（英语） Zbl 1327.93424号