×

分段确定Markov过程的约束和无约束最优折扣控制。 (英语) Zbl 1338.90444号

摘要:本文的主要目的是研究分段确定性马尔可夫过程的无限小时期望折扣连续时间最优控制问题,其控制连续作用于过程的跳跃强度(λ)和转移测度(Q),而非确定性流(φ)。本文的贡献既适用于无约束情况,也适用于约束情况。假设可容许控制策略集由策略构成,可能是随机的,并且取决于过程的历史,取值于集值动作空间。对于无约束情形,我们基于过程的三个局部特征(φ)、(λ)、(Q)和集值作用空间的半连续性,给出了充分条件,以保证积分-微分最优性方程(所谓的Bellman-Hamilton-Jacobi方程)的存在唯一性以及该问题的最优(和delta最优)确定性平稳控制策略的存在性。对于约束情况,我们证明了约束控制问题和相关的无限维线性规划(LP)问题的值是相同的,此外,我们还为LP问题的可解性以及约束问题的最优可行随机平稳控制策略的存在性提供了充分条件。

理学硕士:

90立方厘米 马尔可夫和半马尔可夫决策过程
60J25型 一般状态空间上的连续时间Markov过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] C.Aliprantis和K.Border,《无限维度分析:搭便车指南》,第三版,施普林格出版社,柏林,2006年·Zbl 1156.46001号
[2] A.Almudevar,{\it分段确定马尔可夫过程最优控制的动态规划算法},SIAM J.控制优化。,40(2001年),第525-539页·Zbl 1061.93096号
[3] N.Bauerle和U.Rieder,{有限时间区间分段确定性马尔可夫过程的最优控制},《受控随机过程的现代趋势:理论与应用》,英国卢尼弗出版社,2010年,第123-143页。
[4] D.Bertsekas和S.Shreve,《随机最优控制:离散时间案例》,数学。科学。工程。139,学术出版社,纽约,1978年·Zbl 0471.93002号
[5] V.I.Bogachev,{测量理论},第二卷,施普林格-弗拉格出版社,柏林,2007年,http://dx.doi.org/10.1007/978-3-540-34514-5。 ·邮编1120.28001
[6] O.Costa和F.Dufour,{逐段确定马尔可夫过程的连续平均控制},Springer Briefs in Math。,施普林格,纽约,2013年,http://dx.doi.org/10.1007/978-1-4614-6983-4。 ·Zbl 1272.93002号
[7] O.Costa和F.Dufour,{分段确定性Markov过程约束折扣连续控制的线性规划公式},J.Math。分析。申请。,424(2015),第892-914页·Zbl 1346.49023号
[8] M.Davis,{通过离散时间动态规划控制分段确定过程},《随机微分系统》(Bad Honnef,1985),《控制与信息讲义》。科学。78,柏林施普林格出版社,1986年,第140-150页·Zbl 0596.93070号
[9] M.Davis,{马尔可夫模型与优化},Monogr。统计师。申请。普罗巴伯。49,查普曼和霍尔,伦敦,1993年·Zbl 0780.60002号
[10] M.Davis和M.Farid,{目标识别问题:序列分析和最优控制},SIAM J.控制优化。,34(1996),第2116-2132页,http://dx.doi.org/10.1137/S0363012994273696。 ·Zbl 0865.49023号
[11] M.Dempster和J.Ye,{分段确定性过程控制的必要和充分最优性条件},《随机随机报告》,40(1992),第125-145页·Zbl 0762.93080号
[12] M.Dempster和J.Ye,{带边界条件的控制问题的广义Bellman-Hamilton-Jacobi最优性条件},应用。数学。最佳。,33(1996),第211-225页·兹比尔0851.49019
[13] L.Forwick,M.Scha¨L和M.Schmitz,{带反馈控制和无界成本的分段确定性马尔可夫控制过程},Acta Appl。数学。,82(2004),第239-267页·Zbl 1084.49027号
[14] D.Goreac和O.S.S.Serea,{受控分段确定性马尔可夫过程的线性化技术;Zubov方法的应用},应用。数学。最佳。,66(2012),第209-238页,http://dx.doi.org/10.1007/s00245-012-9169-x。 ·Zbl 1269.93020号
[15] X.Guo和A.Piunovskiy,{带约束的折扣连续时间Markov决策过程:无界转移和损失率},数学。操作。研究,36(2011),第105-132页,http://dx.doi.org/10.1287/moor.1100.0477。 ·Zbl 1218.90209号
[16] O.Herna⁄ndez-Lerma和J.Gonza⁄lez-Hernaкndez,{Borel空间中的约束Markov控制过程:折扣情形},数学。方法操作。研究,52(2000),第271-285页·Zbl 1032.90061号
[17] O.Hernaández-Lerma和J.-B.Lasserre,{离散时间Markov控制过程:基本最优准则},应用。数学。(纽约)30,Springer-Verlag,纽约,1996年·Zbl 0840.93001号
[18] J.Jacod,{多元点过程:可预测投影,Radon-Nikody∧m导数,鞅表示},Z.Wahrscheinlichkeitsteheorie Verw。Gebiete,31(1974/75),第235-253页·Zbl 0302.60032号
[19] J.Jacod,《计算随机与概率鞅》,数学课堂讲稿。柏林施普林格714号,1979年·Zbl 0414.60053号
[20] G.Last和A.Brandt,《实线上的标记点过程:动态方法》,Probab。申请。(纽约),Springer-Verlag,纽约,1995年·Zbl 0829.60038号
[21] A.Piunovskiy和Y.Zhang,{无界速率的折扣连续时间马氏决策过程:凸分析方法},SIAM J.控制优化。,49(2011),第2032-2061页,http://dx.doi.org/10.1137/10081366X。 ·Zbl 1242.90283号
[22] M.Scha¨l,{\it关于动态规划:策略空间的紧性},随机过程。申请。,3(1975年),第345-364页·Zbl 0317.60025号
[23] M.Scha¨l,{\it关于分段确定性马尔可夫控制过程:保险中跳跃和风险过程的控制},保险数学。经济。,22(1998),第75-91页,http://dx.doi.org/10.1016/S0167-6687(98)00010-9. ·兹比尔0906.90170
[24] V.Varadarajan,《V.S.Varada rajan作品选》,AMS,普罗维登斯,RI,1999年·兹比尔1151.00305
[25] A.Yushkevich,{关于将跳变可控马尔可夫模型简化为离散时间模型},理论概率。申请。,25(1980),第58-69页·Zbl 0456.90086号
[26] A.Yushkevich,{马尔可夫决策确定性漂移过程中的Bellman不等式},《随机学》,23(1987),第25-77页,http://dx.doi.org/10.1080/1744250870833481。 ·Zbl 0643.90095号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。