×

关于马尔可夫决策过程具有无界回报的期望总报酬。 (英语) Zbl 1441.90176号

摘要:我们考虑一个具有Borel状态和作用空间的离散时间马尔可夫决策过程。性能标准是最大化由无界返回函数确定的总期望效用。证明了在一般条件下最优策略的存在性,即允许报酬函数从上到下都是无界的,并且决策者在每个步骤中可用的行动集不一定是紧的。为了处理无界报酬函数,导出了概率测度弱收敛的一个新特征。我们的结果通过示例进行了说明。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
60J05型 一般状态空间上的离散马尔可夫过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Balder,EJ,关于随机动态规划中策略空间的紧性,Stoch。过程。申请。,32, 1, 141-150 (1989) ·Zbl 0675.90088号 ·doi:10.1016/0304-4149(89)90058-6
[2] Balder,EJ,随机动态规划中无显式紧性的存在性,数学。操作。第17、3、572-580号决议(1992年)·Zbl 0761.90076号 ·doi:10.1287/门17.3.572
[3] Bertsekas,DP;Shreve,SE,《随机最优控制:离散时间案例》(1978),纽约:学术出版社,纽约·Zbl 0471.93002号
[4] Bogachev,VI,《测量理论》(2007),柏林:施普林格出版社,柏林·兹比尔1120.2001
[5] Hinderer,K.,《离散时间参数非静态动态规划基础》(1970),柏林:施普林格出版社,柏林·Zbl 0202.18401号
[6] Ja sh kiewicz,A。;Matkowski,J。;Nowak,AS,《具有无限回报的动态规划中的广义贴现》,Oper。Res.Lett.公司。,42, 3, 231-233 (2014) ·Zbl 1408.90305号 ·doi:10.1016/j.orl.2014.03.004
[7] Ja sh kiewicz,A。;Nowak,AS,《具有无限回报的贴现动态规划:经济模型的应用》,J.Math。分析。申请。,378, 2, 450-462 (2011) ·兹比尔1254.90292 ·doi:10.1016/j.jmaa.2010.08.073
[8] Ja sh kiewicz,A。;诺瓦克,AS,《无界报酬随机博弈:经济学中鲁棒控制的应用》,戴恩。游戏应用。,1, 2, 253-279 (2011) ·Zbl 1263.91008号 ·doi:10.1007/s13235-011-0013-8
[9] 柯茨,RP;Nachman,DC,非平稳动态规划的持久最优计划:弱收敛情形的拓扑,Ann.Probab。,7, 5, 811-826 (1979) ·Zbl 0417.49039号 ·doi:10.1214/aop/1176994940
[10] Matkowski,J。;Nowak,AS,《关于具有无限回报的贴现动态规划》,《经济》。理论,46,3455-474(2011)·Zbl 1219.90182号 ·doi:10.1007/s00199-010-0522-5
[11] Nowak,AS,关于政策诱导的概率测度空间上的弱拓扑,Bull。波兰。阿卡德。科学。数学。,36, 3-4, 181-186 (1989) ·Zbl 0676.90095号
[12] Schäl,M.,动态规划中最优性的条件和(n)阶段最优策略的极限是最优的条件,Z.Wahrscheinlichkeits theory Verw。Geb中。,32, 3, 179-196 (1975) ·Zbl 0316.90080号
[13] Schäl,M.,《动态规划:政策空间的紧凑性》,斯托克出版社。过程。申请。,3, 4, 345-364 (1975) ·Zbl 0317.60025号 ·doi:10.1016/0304-4149(75)90031-9
[14] Schäl,M.,《关于动态规划和统计决策理论》,《Ann.Stat.》,第7、2、432-445页(1979年)·Zbl 0417.62002号 ·doi:10.1214/aos/1176344625
[15] Wessels,J.,《关于加权上确界范数的逐次逼近马尔可夫规划》,J.Math。分析。申请。,58, 2, 326-335 (1977) ·Zbl 0354.90087号 ·doi:10.1016/0022-247X(77)90210-4
[16] Zapała,AM,无界映射和测度的弱收敛,Stat.Probab。莱特。,78, 6, 698-706 (2008) ·Zbl 1137.60005号 ·doi:10.1016/j.spl.2007.09.033
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。