×

有限时域上的连续时间受控跳马尔可夫过程。 (英语) Zbl 1374.90403号

Hernandez-Hernández,Daniel(编辑)等人,《随机系统的优化、控制和应用》。向奥内西莫·埃尔南德斯·勒马致敬。马萨诸塞州波士顿:Birkhä用户(ISBN 978-0-8176-8336-8/hbk;978-0-8276-8337-5/电子书)。《系统与控制:基础与应用》,99-109(2012)。
摘要:我们研究了有限时域上的连续时间受控马尔可夫链。对于马尔可夫决策问题,我们证明了值函数是相应的动态规划方程的唯一解。这导致了最优马尔可夫控制的存在。然后我们考虑一个零和博弈。我们证明了值函数的存在,并且是相应Isaacs方程的唯一解。这就产生了一对鞍点马尔可夫策略的存在性。
关于整个系列,请参见[Zbl 1253.00012号].

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
93E20型 最优随机控制
91A80型 博弈论的应用
91A15型 随机对策,随机微分对策
91A05级 2人游戏
PDF格式BibTeX公司 XML格式引用
全文: 内政部