托邦Cheevaprawatdomrong;艾文·E·斯科特曼。;罗伯特·L·史密斯。;阿尔弗雷多·加西亚 无限小时非齐次马尔可夫决策过程的解和预测范围。 (英语) 兹比尔1254.90289 数学。操作。物件。 32,第1期,第51-72页(2007年). 摘要:我们考虑了一个具有多个最优第一周期策略的非齐次无限小时马尔可夫决策过程(MDP)问题。我们寻求一种算法,在给定有限数据的情况下,提供最优的第一阶段策略。因此,这种算法可以在滚动时域过程中递归地生成原始问题的无限小时最优解。然而,可能不存在这样的算法,即MDP不适定。同样,用有限的数据解决这个问题是不可能的。假设动作的边际收益增加(相对于状态),状态转换随机增加(相对于动作),我们提供了一个算法,该算法保证在给定的MDP适定时求解它。该算法在有限时间内确定一个预测范围,对于该预测范围,最优解将提供最优的第一阶段策略。作为一个应用程序,我们解决了经典资产出售问题的时变版本的所有适定实例。 引用于11文件 理学硕士: 90立方厘米 马尔可夫和半马尔可夫决策过程 90B15号机组 运筹学中的随机网络模型 90立方厘米 动态编程 91B62型 经济增长模型 关键词:规划范围;单调政策;适定问题 PDF格式BibTeX公司 XML格式引用 \textit{T.Cheevaprawatdomrong}等人,数学。操作。第32号决议,第1号,第51--72号(2007年;Zbl 1254.90289) 全文: 内政部