×

折扣半马尔可夫过程的最优停止时间。 (英语) Zbl 1473.90174号

摘要:本文试图研究具有无界费用率的折扣优化准则下半马尔可夫过程的最优停止时间。在我们的工作中,我们引入了等价半马尔可夫决策过程(SMDP)的显式构造。等价性体现在SMP和SMDP的预期折现成本函数中,即SMP的每个停止时间都可以诱导SMDP的策略,使得价值函数相等,反之亦然。通过这个等价关系证明了SMP最优停止时间的存在性。接下来,我们给出了值函数的最优性方程,并开发了一个有效的迭代算法来计算它。此外,我们还证明了最优和(varepsilon)-最优停止时间可以用特殊集的击中时间来表征。最后,以一个维修系统为例,说明了本文结果的有效性。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
93年20日 最优随机控制
60克40 停车时间;最优停车问题;赌博理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 北卡罗来纳州巴乌尔。;Popp,A.,连续时间马尔可夫链的风险敏感停止问题,随机,90411-431(2018)·Zbl 1495.60028号 ·doi:10.1080/17442508.2017.1357724
[2] 北卡罗来纳州巴乌尔。;Rieder,U.,《马尔可夫决策过程及其在金融中的应用》(2011),海德堡:斯普林格·Zbl 1236.90004号 ·doi:10.1007/978-3642-18324-9
[3] Boshuizen,F.A。;Gouweleeuw,J.M.,半马尔可夫过程的一般最优停止定理,应用Probab的进展,25825-846(1993)·Zbl 0787.60051号 ·doi:10.2307/1427794
[4] Cekyay,B。;Ozekici,S.,具有最大修复能力的半马尔可夫任务的平均失效时间和可用性,欧洲运筹学杂志,2071442-1454(2010)·兹比尔1206.90027 ·doi:10.1016/j.ejor.2010.07.019
[5] Chow,Y.S。;罗宾斯,H。;Siegmund,D.,《远大期望:最优停止理论》(1991),波士顿:霍顿-米夫林公司,波士顿·Zbl 0233.60044号
[6] Dochviri,B.,关于非齐次标准马尔可夫过程的最优停止,Georgian Math J,2335-346(1995)·兹伯利0827.62083 ·doi:10.1515/GMJ.1994.335
[7] 埃尔南德斯·勒尔马,O。;Lasserre,J.B.,《离散时间马尔可夫控制过程:基本最优准则》(1996),纽约:Springer-Verlag出版社,纽约·doi:10.1007/978-1-4612-0729-0
[8] 黄,Y.H。;Guo,X.P.,具有非负成本的折现半马尔可夫决策过程,数学科学学报A Chin Ed,53,503-514(2010)·Zbl 1224.90205号
[9] 黄,Y.H。;Guo,X.P.,应用于维护系统的有限时域半马尔可夫决策过程,欧洲运筹学杂志,212,131-140(2011)·Zbl 1237.90249号 ·doi:10.1016/j.ejor.2011.01.027
[10] Ja sh kiewicz,A。;Nowak,A.S.,Feller半马尔可夫控制过程中的最优性,Oper Res Lett,34713-718(2006)·兹比尔1112.90091 ·doi:10.1016/j.orl.2005.11.005
[11] Kitaev,M.Y.,Semi-Markov和跳跃Markov控制模型:平均成本准则,理论概率应用,30,272-288(1986)·Zbl 0586.9003号 ·doi:10.1137/1130036
[12] Kitaev,M.Y。;Rykov,V.,《受控排队系统》(1995),博卡拉顿:CRC出版社,博卡拉顿·Zbl 0876.60077号
[13] 利尼奥斯,北卡罗来纳州。;Oprisan,G.,Semi-Markov过程和可靠性(2001),波士顿:Birkhäuser,波士顿·Zbl 0990.60004号 ·doi:10.1007/978-1-4612-0161-8
[14] Nikolaev,M.L.,关于马尔可夫序列的最优多重停止,理论概率应用,43,298-306(1999)·Zbl 0971.60046号 ·doi:10.1137/S0040585X9797691X
[15] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》(1994),纽约:John Wiley&Sons,Inc,纽约·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[16] 佩基尔,G。;Shiryaev,A.,《最优停车和自由边界问题》(2006),波士顿:Birkhäuser出版社,波士顿·Zbl 1115.60001号
[17] Ross,S.M.,平均成本半马尔可夫决策过程,J Appl Probab,7649-656(1970)·Zbl 0204.51704号 ·文件编号:10.2307/3211944
[18] Snell,J.L.,鞅系统定理的应用,Trans-Amer Math Soc,73293-312(1952)·Zbl 0048.11402号 ·doi:10.1090/S0002-9947-1952-0050209-9
[19] Ye,L.,连续时间Markov过程最优停止问题的值函数和最优准则,Chin J Math,1,1-10(2017)·Zbl 1392.60036号 ·数字对象标识代码:10.1155/2017/3596037
[20] Zitlukhin,M.V。;Shiryaev,A.N.,关于无界最优停止问题解的存在性,Proc Steklov Inst Math,287299-307(2014)·Zbl 1337.60077号 ·doi:10.1134/S0081543814080185
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。