×

具有折现成本和一般效用的风险敏感半马尔可夫决策问题。 (英语) Zbl 1480.90248号

摘要:在本文中,我们考虑具有离散状态空间的半马尔可夫过程的风险敏感控制。我们在优化准则中考虑了一般效用函数和折现成本。我们考虑了随机有限时域和无限时域问题。使用状态增强技术,我们描述了值函数,并规定了最优控制。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
93E20型 最优随机控制
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arapostathis,Ari;Biswas,Anup,无限期扩散风险敏感控制,无任何覆盖稳定性假设,随机过程。申请。,128, 5, 1485-1524 (2018) ·Zbl 1390.35433号
[2] 尼科尔·巴乌尔;Rieder,Ulrich,《更具风险敏感性的马尔可夫决策过程》,数学。操作。研究,39,1,105-120(2014)·Zbl 1291.90289号
[3] Anup Biswas;博卡尔,V.S。;Suresh Kumar,K.,几乎单调成本的风险敏感控制,应用。数学。最佳。,62145-163(2010年)·Zbl 1214.93119号
[4] 博卡尔,V.S。;Meyn,S.P.,单调成本马尔可夫决策过程的风险敏感最优控制,数学。操作。192-209年第27号、第1号决议(2002年)·Zbl 1082.90577号
[5] 塞琳·查韦斯·罗德里格斯;卡瓦佐斯·卡德纳,罗兰多;克鲁兹·苏亚雷斯(Cruz-Suárez),雨果(Hugo),具有风险敏感平均成本标准的受控半马尔可夫链,J.Optim。理论应用。,170, 2, 670-686 (2016) ·Zbl 1346.90799号
[6] Chung,Kun Jen;Sobel,Matthew J.,折扣MDP:分布函数和指数效用最大化,SIAM J.控制优化。,25,1,49-62(1987年)·Zbl 0617.90085号
[7] 温德尔·弗莱明。;McEneaney,William M.,无限时间范围内的风险敏感控制,SIAM J.control Optim。,33, 6, 1881-1915 (1995) ·Zbl 0949.93079号
[8] Mrinal K.Ghosh。;Saha,Subhamay,连续时间马尔可夫链的风险敏感控制,随机,86,4,655-675(2014)·Zbl 1337.49046号
[9] 乔瓦尼,B。;迪·马西;Stettner,Łukasz,离散时间Markov过程在最小化性质下的无限时域风险敏感控制,SIAM J.control Optim。,46, 1, 231-252 (2007) ·Zbl 1141.93067号
[10] 郭显平;廖忠伟,风险敏感贴现无界利率连续时间马尔可夫决策过程,SIAM J.Control Optim。,57, 6, 3857-3883 (2019) ·Zbl 1432.90157号
[11] 郭显平;Zhang,Junyu,具有无界速率和Borel空间的风险敏感连续时间Markov决策过程,离散事件动态。系统。,29, 4, 445-471 (2019) ·Zbl 1441.93338号
[12] 埃尔南德斯·埃尔南德斯,丹尼尔;Marcus,Steven I.,可数状态空间中Markov过程的风险敏感控制,系统控制快报。,29, 3, 147-155 (1996) ·Zbl 0866.93101号
[13] 埃尔南德斯·勒尔马(Hernández-Lerma),奥内西莫(Onésimo);Lasserre,Jean Bernard,(离散时间马尔可夫控制过程。离散时间马尔柯夫控制过程,数学应用(纽约),第30卷(1996),Springer-Verlag:Springer-Verlag纽约),基本优化准则·Zbl 0840.93001号
[14] 罗纳德·霍华德(Ronald A.Howard)。;Matheson,James E.,风险敏感马尔可夫决策过程,马纳格。科学。,18, 356-369 (1971) ·Zbl 0238.90007号
[15] 黄永辉;郭显平;宋新元,受控半马尔可夫系统的性能分析及其在维护中的应用,J.Optim。理论应用。,150, 2, 395-415 (2011) ·Zbl 1222.90076号
[16] 黄永辉;连,昭通;郭显平,具有一般效用和多准则的风险敏感半马尔可夫决策过程,高级应用程序。概率。,503783-804(2018)·Zbl 1431.90170号
[17] Ja sh kiewicz,Anna,具有一般状态空间的风险敏感控制的平均最优性,Ann.Appl。概率。,17, 2, 654-675 (2007) ·Zbl 1128.93056号
[18] 何塞·路易斯·梅纳尔迪(José-Luis Menaldi);Robin,Maurice,《关于风险敏感控制问题的评论》,Appl。数学。最佳。,5297-310(2005年)·Zbl 1083.35021号
[19] Nagai,H.,风险敏感控制的Bellman方程,SIAM J.control Optim。,34, 1, 74-101 (1996) ·Zbl 0856.93107号
[20] Suresh Kumar,K。;Pal,Chandan,成本接近单调的可数空间上纯跳跃过程的风险敏感控制,应用。数学。最佳。,68, 3, 311-331 (2013) ·Zbl 1282.93278号
[21] 魏庆达;Chen,Xian,具有无界速率的风险敏感平均连续时间Markov决策过程,最优化,68,4,773-800(2019)·Zbl 1411.93199号
[22] Peter Whittle,(《风险敏感最优控制》,《风险敏感最佳控制》,Wiley-Interscience Series in Systems and Optimization(1990),John Wiley&Sons,Ltd.:John Willey&Sons有限公司,奇切斯特)·Zbl 0718.93068号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。