×

具有集合连续转移概率的MDP。 (英语) Zbl 1525.90426号

摘要:本文描述了具有集态连续转移概率的无限状态马尔可夫决策过程的最优策略结构。动作集可能不紧凑。客观标准是预期的总折现和未折现成本或单位时间的平均成本。最优性方程和不等式的分析是基于本文介绍的非紧函数的最优选择定理。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
28B20型 集值集函数与测度;集值函数的积分;可测量的选择
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bertsekas博士。;Shreve,S.E.,《随机最优控制:离散时间案例》(1996),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州
[2] Bishop,C.J。;范伯格,E.A。;Zhang,J.,《关于Abel和Cesáro极限的示例》,J.Math。分析。申请。,420, 2, 1654-1661 (2014) ·Zbl 1345.40005号
[3] Blackwell,D.,正动态规划,(第五届贝雷利数理统计与概率研讨会论文集1(1967),加利福尼亚大学出版社:加利福尼亚大学伯克利分校),415-418·Zbl 0189.19804号
[4] Brown,L.D。;Purves,R.,《极值的可测选择》,《Ann.Stat.》,第1、5、902-912页(1973年)·兹比尔0265.28003
[5] Dynkin,E.B。;Yushkevich,A.A.,受控马尔可夫过程(1979),Springer-Verlag:Springer-Verlag NY·Zbl 0426.60063号
[6] Evstigneev,I.V.,可测选择和动态规划,数学。操作。第1、3、267-272号决议(1976年)·Zbl 0373.90086号
[7] Feinberg,E.A.,《离散动态规划中的策略充分类I:随机策略和嵌入模型的分解》,理论概率。申请。,31, 4, 658-668 (1987) ·Zbl 0641.90086号
[8] Feinberg,E.A.,离散动态规划中的充分策略类II:局部平稳策略,理论概率。申请。,32, 3, 478-493 (1988) ·Zbl 0657.90096号
[9] Feinberg,E.A.,《关于Borel动态规划中的平稳策略》,数学。操作。研究,17,2,393-397(1992)·Zbl 0761.90097号
[10] Feinberg,E.A.,库存控制的最优条件,(Gupta,A.;Capponi,A.,运筹学教程,复杂、网络化和风险系统中的优化挑战(2016),信息:信息坎通斯维尔,马里兰州),14-44
[11] 范伯格,E.A。;Kasyanov,P.O。;Liang,Y.,Fatou引理的经典形式和变测度的Lebesgue收敛定理及其在MDP中的应用,理论问题。申请。,65, 2, 270-291 (2020) ·Zbl 1480.28005号
[12] 范伯格,E.A。;Kasyanov,P.O。;Zadoianchuk,N.V.,具有弱连续转移概率的平均成本马尔可夫决策过程,数学。操作。研究,37,4,591-607(2012)·Zbl 1297.90173号
[13] 范伯格,E.A。;Kasyanov,P.O。;Zadoianchuk,N.V.,非紧映象集的Berge定理,J.Math。分析。申请。,397, 1, 255-259 (2013) ·Zbl 1252.49022号
[14] 范伯格,E.A。;Kasyanov,P.O。;Zgurovsky,M.Z.,具有弱连续转移概率的部分可观测全成本马尔可夫决策过程,数学。操作。第41、2、656-681号决议(2016年)·Zbl 1338.90445号
[15] 范伯格,E.A。;Lewis,M.E.,平均成本马尔可夫决策过程的最优性不等式和随机现金平衡问题,数学。操作。第32、4、769-783号决议(2007年)·Zbl 1341.90142号
[16] 范伯格,E.A。;Liang,Y.,关于平均成本Markov决策过程的最优性方程及其在库存控制中的有效性,Ann.Oper。Res.(2017),在线发布
[17] 范伯格,E.A。;Piunovskiy,A.,无原子折扣和一致吸收多准则MDP确定性策略的充分性,SIAM J.控制优化。,57, 1, 163-191 (2019) ·Zbl 1411.90351号
[18] 范伯格,E.A。;Sonin,I.M.,可数状态动态规划中的平稳和马尔可夫策略,Lect。数学笔记。,1021, 111-129 (1982) ·Zbl 0541.90092号
[19] Hernández-Lerma,O.,《Borel空间动态规划中的平均最优性-无限成本和控制》,系统。控制信函。,17, 3, 237-242 (1991) ·Zbl 0771.90098号
[20] 埃尔南德斯·勒尔马,O。;Lasserre,J.B.,《离散时间马尔可夫控制过程:基本最优准则》(1996),Springer-Verlag:Springer-Verlag纽约
[21] 希梅尔伯格,C.J。;Parthasarathy,T。;Van Vleck,F.S.,动态规划问题的最优计划,数学。操作。研究,1,4,390-394(1976)·Zbl 0368.90134号
[22] Kechris,A.S.,《经典描述集合论》(1995),施普林格出版社:施普林格出版社,纽约·Zbl 0819.04002号
[23] Rieder,U.,最优化问题的可测选择定理,Manuscr。数学。,24, 1, 115-131 (1978) ·Zbl 0385.28005号
[24] Schäl,M.,n阶段最优策略的最优性条件和极限为最优的条件,Z.Wahrscheinlichkeitstheory。版本。德国。,32, 3, 179-196 (1975) ·Zbl 0316.90080号
[25] Schäl,M.,一般状态空间动态规划中的平均最优性,数学。操作。第18号、第1号、第163-172号决议(1993年)·Zbl 0777.90079号
[26] Schäl,M。;Sudderth,W.D.,Borel动态规划中的静态策略和马尔可夫策略,Probab。理论关联。菲尔德,74,1,91-111(1987)·Zbl 0585.90088号
[27] Strauch,R.,负动态编程,Ann.Math。Stat.,37,4,871-890(1966)·Zbl 0144.43201号
[28] Yu,H.,关于一类总费用马尔可夫决策过程值迭代的收敛性,SIAM J.控制优化。,53, 4, 1982-2016 (2015) ·Zbl 1327.90364号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。