×

带约束的折扣连续时间马尔可夫决策过程:无界转移和损失率。 (英语) Zbl 1218.90209号

摘要:本文研究带约束的可数连续时间马尔可夫决策过程。最小化的最优性标准是期望折现损失,同时施加了几种相同类型的约束。过渡率可以是无限的,损失率也可以是无限的(从上到下),并且策略可以是历史相关的和随机的。基于Kolmogorov的正向方程和Dynkin公式,我们提醒读者注意Bellman方程,介绍和研究占用测度,将优化问题重新表述为一个(初级)线性规划,在此为约束优化问题提供最优策略的形式,并建立了凸分析方法与动态规划的对偶关系。最后,给出了一系列示例来说明我们的所有结果。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
60J27型 离散状态空间上的连续时间马尔可夫过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部