文件Zbl 1441.90176-zbMATH Open

关于马尔可夫决策过程具有无界回报的期望总报酬。（英语） Zbl 1441.90176号

申请。数学。最佳方案。 82，第2期，433-450页（2020年）.

摘要：我们考虑一个具有Borel状态和作用空间的离散时间马尔可夫决策过程。性能标准是最大化由无界返回函数确定的总期望效用。证明了在一般条件下最优策略的存在性，即允许报酬函数从上到下都是无界的，并且决策者在每个步骤中可用的行动集不一定是紧的。为了处理无界报酬函数，导出了概率测度弱收敛的一个新特征。我们的结果通过示例进行了说明。

引用于4文件

MSC公司：

90立方厘米	马尔可夫和半马尔可夫决策过程
60J05型	一般状态空间上的离散马尔可夫过程

关键词：

马尔可夫决策过程;预期总报酬;无限收益;测度的弱收敛

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

参考文献：

[1]	Balder，EJ，关于随机动态规划中策略空间的紧性，Stoch。过程。申请。，32, 1, 141-150 (1989) ·Zbl 0675.90088号 ·doi:10.1016/0304-4149（89）90058-6
[2]	Balder，EJ，随机动态规划中无显式紧性的存在性，数学。操作。第17、3、572-580号决议（1992年）·Zbl 0761.90076号 ·doi:10.1287/门17.3.572
[3]	Bertsekas，DP；Shreve，SE，《随机最优控制：离散时间案例》（1978），纽约：学术出版社，纽约·Zbl 0471.93002号
[4]	Bogachev，VI，《测量理论》（2007），柏林：施普林格出版社，柏林·兹比尔1120.2001
[5]	Hinderer，K.，《离散时间参数非静态动态规划基础》（1970），柏林：施普林格出版社，柏林·Zbl 0202.18401号
[6]	Ja sh kiewicz，A。；Matkowski，J。；Nowak，AS，《具有无限回报的动态规划中的广义贴现》，Oper。Res.Lett.公司。，42, 3, 231-233 (2014) ·Zbl 1408.90305号 ·doi:10.1016/j.orl.2014.03.004
[7]	Ja sh kiewicz，A。；Nowak，AS，《具有无限回报的贴现动态规划：经济模型的应用》，J.Math。分析。申请。，378, 2, 450-462 (2011) ·兹比尔1254.90292 ·doi:10.1016/j.jmaa.2010.08.073
[8]	Ja sh kiewicz，A。；诺瓦克，AS，《无界报酬随机博弈：经济学中鲁棒控制的应用》，戴恩。游戏应用。，1, 2, 253-279 (2011) ·Zbl 1263.91008号 ·doi:10.1007/s13235-011-0013-8
[9]	柯茨，RP；Nachman，DC，非平稳动态规划的持久最优计划：弱收敛情形的拓扑，Ann.Probab。，7, 5, 811-826 (1979) ·Zbl 0417.49039号 ·doi:10.1214/aop/1176994940
[10]	Matkowski，J。；Nowak，AS，《关于具有无限回报的贴现动态规划》，《经济》。理论，46，3455-474（2011）·Zbl 1219.90182号 ·doi:10.1007/s00199-010-0522-5
[11]	Nowak，AS，关于政策诱导的概率测度空间上的弱拓扑，Bull。波兰。阿卡德。科学。数学。，36, 3-4, 181-186 (1989) ·Zbl 0676.90095号
[12]	Schäl，M.，动态规划中最优性的条件和（n）阶段最优策略的极限是最优的条件，Z.Wahrscheinlichkeits theory Verw。Geb中。，32, 3, 179-196 (1975) ·Zbl 0316.90080号
[13]	Schäl，M.，《动态规划：政策空间的紧凑性》，斯托克出版社。过程。申请。，3, 4, 345-364 (1975) ·Zbl 0317.60025号 ·doi:10.1016/0304-4149（75）90031-9
[14]	Schäl，M.，《关于动态规划和统计决策理论》，《Ann.Stat.》，第7、2、432-445页（1979年）·Zbl 0417.62002号 ·doi:10.1214/aos/1176344625
[15]	Wessels，J.，《关于加权上确界范数的逐次逼近马尔可夫规划》，J.Math。分析。申请。，58, 2, 326-335 (1977) ·Zbl 0354.90087号 ·doi:10.1016/0022-247X（77）90210-4
[16]	Zapała，AM，无界映射和测度的弱收敛，Stat.Probab。莱特。，78, 6, 698-706 (2008) ·Zbl 1137.60005号 ·doi:10.1016/j.spl.2007.09.033

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

关于马尔可夫决策过程具有无界回报的期望总报酬。（英语） Zbl 1441.90176号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

关于马尔可夫决策过程具有无界回报的期望总报酬。 （英语） Zbl 1441.90176号

MSC公司：

关键词：

参考文献：

关于马尔可夫决策过程具有无界回报的期望总报酬。（英语） Zbl 1441.90176号