文件Zbl 1082.90128-zbMATH Open

具有慢规模周期决策的马尔可夫决策过程。（英语） Zbl 1082.90128号

数学。操作。物件。 28，第4期，777-800（2003）.

摘要：我们考虑一类离散时间动态决策模型，我们称之为周期时间非齐次马尔可夫决策过程（PTMDP）。在这些模型中，决策范围可以划分为N+1时期的区间，称为慢尺度周期。在每个慢尺度周期的前N个周期内，过渡规律和奖励函数在时间上是均匀的，但在最后一个周期内是不同的。这种模型的动机是在应用程序中，不同性质的决策在不同的时间尺度上作出，即许多“低层”决策是在频率较低的“高层”决策之间作出的。
对于PTMDP模型，我们考虑了当奖励在每个慢周期开始时按折扣因子（λ）贬值时，期望折扣奖励的优化问题。当N较大时，初始平稳策略（i.s.p.）是最优策略的自然候选者。与收费公路政策类似，初始平稳的政策在每个慢周期中的大量时段使用相同的决策规则，然后是相对较短的时变决策规则规划期。本文将最优值的形式刻划为N的函数，建立了保证近最优i.s.p.存在的条件，并刻划了它们的结构。我们的分析分别处理系统的时间同质部分具有状态依赖和状态依赖最优平均回报的情况。正如我们所说明的，这两种不同情况下的结果在性质上是不同的。

引用于三文件

MSC公司：

90立方厘米	马尔可夫和半马尔可夫决策过程
60J05型	一般状态空间上的离散马尔可夫过程

关键词：

周期时间不均匀性;多时间尺度;收费公路;循环静止的;折现成本;多类模型

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

具有慢规模周期决策的马尔可夫决策过程。（英语） Zbl 1082.90128号

MSC公司：

关键词：

示例

领域

操作员

具有慢规模周期决策的马尔可夫决策过程。 （英语） Zbl 1082.90128号

MSC公司：

关键词：

具有慢规模周期决策的马尔可夫决策过程。（英语） Zbl 1082.90128号