×

具有慢规模周期决策的马尔可夫决策过程。 (英语) Zbl 1082.90128号

摘要:我们考虑一类离散时间动态决策模型,我们称之为周期时间非齐次马尔可夫决策过程(PTMDP)。在这些模型中,决策范围可以划分为N+1时期的区间,称为慢尺度周期。在每个慢尺度周期的前N个周期内,过渡规律和奖励函数在时间上是均匀的,但在最后一个周期内是不同的。这种模型的动机是在应用程序中,不同性质的决策在不同的时间尺度上作出,即许多“低层”决策是在频率较低的“高层”决策之间作出的。
对于PTMDP模型,我们考虑了当奖励在每个慢周期开始时按折扣因子(λ)贬值时,期望折扣奖励的优化问题。当N较大时,初始平稳策略(i.s.p.)是最优策略的自然候选者。与收费公路政策类似,初始平稳的政策在每个慢周期中的大量时段使用相同的决策规则,然后是相对较短的时变决策规则规划期。本文将最优值的形式刻划为N的函数,建立了保证近最优i.s.p.存在的条件,并刻划了它们的结构。我们的分析分别处理系统的时间同质部分具有状态依赖和状态依赖最优平均回报的情况。正如我们所说明的,这两种不同情况下的结果在性质上是不同的。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
60J05型 一般状态空间上的离散马尔可夫过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接