文件Zbl 1254.90289-zbMATH打开

托邦Cheevaprawatdomrong;艾文·E·斯科特曼。;罗伯特·L·史密斯。;阿尔弗雷多·加西亚

无限小时非齐次马尔可夫决策过程的解和预测范围。（英语）兹比尔1254.90289

数学。操作。物件。 32，第1期，第51-72页（2007年）.

摘要：我们考虑了一个具有多个最优第一周期策略的非齐次无限小时马尔可夫决策过程（MDP）问题。我们寻求一种算法，在给定有限数据的情况下，提供最优的第一阶段策略。因此，这种算法可以在滚动时域过程中递归地生成原始问题的无限小时最优解。然而，可能不存在这样的算法，即MDP不适定。同样，用有限的数据解决这个问题是不可能的。假设动作的边际收益增加（相对于状态），状态转换随机增加（相对于动作），我们提供了一个算法，该算法保证在给定的MDP适定时求解它。该算法在有限时间内确定一个预测范围，对于该预测范围，最优解将提供最优的第一阶段策略。作为一个应用程序，我们解决了经典资产出售问题的时变版本的所有适定实例。

引用于11文件

理学硕士：

90立方厘米	马尔可夫和半马尔可夫决策过程
90B15号机组	运筹学中的随机网络模型
90立方厘米	动态编程
91B62型	经济增长模型

关键词：

规划范围;单调政策;适定问题

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

无限小时非齐次马尔可夫决策过程的解和预测范围。（英语）兹比尔1254.90289

理学硕士：

关键词：

示例

字段

操作员

无限小时非齐次马尔可夫决策过程的解和预测范围。 （英语） 兹比尔1254.90289

理学硕士：

关键词：

无限小时非齐次马尔可夫决策过程的解和预测范围。（英语）兹比尔1254.90289