郭显平;阿列克谢·皮乌诺夫斯基 带约束的折扣连续时间马尔可夫决策过程:无界转移和损失率。 (英语) Zbl 1218.90209号 数学。操作。物件。 第1期第36页,第105-132页(2011年). 摘要:本文研究带约束的可数连续时间马尔可夫决策过程。最小化的最优性标准是期望折现损失,同时施加了几种相同类型的约束。过渡率可以是无限的,损失率也可以是无限的(从上到下),并且策略可以是历史相关的和随机的。基于Kolmogorov的正向方程和Dynkin公式,我们提醒读者注意Bellman方程,介绍和研究占用测度,将优化问题重新表述为一个(初级)线性规划,在此为约束优化问题提供最优策略的形式,并建立了凸分析方法与动态规划的对偶关系。最后,给出了一系列示例来说明我们的所有结果。 引用于38文件 MSC公司: 90立方厘米 马尔可夫和半马尔可夫决策过程 60J27型 离散状态空间上的连续时间马尔可夫过程 关键词:连续时间马尔可夫决策过程;无界转换率;动态程序设计;凸解析法;占用措施;约束最优政策 PDF格式BibTeX公司 XML格式引用 \textit{X.Guo}和\textit{A.Piunovskiy},数学。操作。第36号决议,第1、105--132号(2011年;Zbl 1218.90209) 全文: 内政部