×

转移概率不确定的折扣马尔可夫决策过程的鲁棒性分析。 (英语) Zbl 1474.90500号

摘要:马尔可夫决策问题中的最优策略可能对转移概率非常敏感。实际上,一些转移概率可能是不确定的。本研究的目标是找到某一最优策略的鲁棒范围,并获得精确转移概率的值区间。我们的研究为转移概率不确定的马尔可夫决策过程(MDP)做出了重要贡献。我们首先提出了一种基于最大似然估计未知转移概率的方法。由于估计可能远不准确,MDP的最高期望总回报可能对这些转移概率敏感,因此我们分析了最优策略的稳健性,并提出了一种稳健分析方法。在定义了具有不确定转移概率的鲁棒最优策略后,我们建立了一个模型来获得最优策略。最后,我们定义了精确转移概率的值区间,并构造模型来确定上界和下界。最后给出了数值算例,说明了本文方法的实用性。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
90C05(二氧化碳) 线性规划
60J35型 过渡函数、生成器和解析器
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Baik,H.S。;Jeong,H.S。;Abraham,D.M.,废水系统管理中基于马尔可夫链的退化模型中的转移概率估算,《水资源规划与管理杂志》,132,1,15-24(2006)·doi:10.1061/(ASCE)0733-9496(2006)132:1(15)
[2] Delage,E。;Mannor,S.,参数不确定性马尔可夫决策过程的百分位优化,运筹学,58,1,203-213(2009)·兹比尔1226.90128 ·doi:10.1287/opre.1080.685
[3] Garud,N.I.,鲁棒动态规划,运筹学数学,30,2,257-280(2005)·兹比尔1082.90123 ·doi:10.1287/门1040.0129
[4] Kalyanasundaram,S。;Chong,E.K P。;Shroff,N.B.,具有不确定转移率的马尔可夫决策过程:灵敏度和最大连字符最小控制,亚洲控制杂志,6,2,253-269(2004)·doi:10.1111/j.1934-6093.2004.tb00203.x
[5] B H Li,J Si.带有不确定平稳转移矩阵的折扣无限小时Markov决策过程的鲁棒动态规划,2007年IEEE近似研讨会论文集,2007年,96-102。
[6] Nilim,A。;Ghaoui,L.E.,具有不确定转移矩阵的马尔可夫决策过程的鲁棒控制,运筹学,53,5,780-798(2005)·Zbl 1165.90674号 ·doi:10.1287/opre.1050.0216
[7] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》(Markov decision processes:discrete random dynamic programming)(2014),新泽西州:John Wiley&Sons出版社,新泽西·Zbl 0829.90134号
[8] Reis,W.A S。;巴罗斯,L.N。;Delgado,K.V.,无限时域有界Markov决策过程的稳健拓扑策略迭代,国际近似推理杂志,105,287-304(2019)·Zbl 1452.68225号 ·doi:10.1016/j.ijar.2018年12月04日
[9] Satia,J.K。;Lave,R.E.,转移概率不确定的马尔科夫决策过程,运筹学,21,3,728-740(1973)·Zbl 0286.60038号 ·doi:10.1287/opre.21.3728
[10] 王,B。;Zhu,Q.X.,半马尔可夫切换随机系统的稳定性分析,自动化,94,72-80(2018)·Zbl 1400.93325号 ·doi:10.1016/j.automatica.2018.04.016
[11] 白色,C.C。;Eldeib,H.K.,转移概率不精确的马尔可夫决策过程,运筹学,42,4,739-749(1994)·Zbl 0837.90121号 ·doi:10.1287/opre.42.4.739
[12] 韦斯曼。;库恩,D。;Rustem,B.,稳健马尔可夫决策过程,运筹学数学,38,1,153-183(2013)·Zbl 1291.90295号 ·doi:10.1287/门1120.0566
[13] Xu,H。;Mannor,S.,《分布稳健马尔可夫决策过程》,运筹学数学,37,2,288-300(2012)·Zbl 1243.90236号 ·doi:10.1287/门.1120.0540
[14] 于培清。;Xu,H.,马尔可夫决策过程中的分布稳健对应项,IEEE自动控制事务,61,9,2538-2543(2016)·兹比尔1359.90150 ·doi:10.1109/TAC.2015.2495174
[15] 朱庆新,带Lévy噪声的随机时滞微分方程的稳定性分析,《系统与控制快报》,11862-68(2018)·Zbl 1402.93260号 ·doi:10.1016/j.sysconle.2018.05.015
[16] 朱秋霞,具有外部扰动的随机非线性时滞系统的镇定与事件触发反馈控制,IEEE自动控制汇刊,64,9,3764-3771(2019)·Zbl 1482.93694号 ·doi:10.1109/TAC.2018.2882067
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。