×

无限小时非齐次马尔可夫决策过程的解和预测范围。 (英语) 兹比尔1254.90289

摘要:我们考虑了一个具有多个最优第一周期策略的非齐次无限小时马尔可夫决策过程(MDP)问题。我们寻求一种算法,在给定有限数据的情况下,提供最优的第一阶段策略。因此,这种算法可以在滚动时域过程中递归地生成原始问题的无限小时最优解。然而,可能不存在这样的算法,即MDP不适定。同样,用有限的数据解决这个问题是不可能的。假设动作的边际收益增加(相对于状态),状态转换随机增加(相对于动作),我们提供了一个算法,该算法保证在给定的MDP适定时求解它。该算法在有限时间内确定一个预测范围,对于该预测范围,最优解将提供最优的第一阶段策略。作为一个应用程序,我们解决了经典资产出售问题的时变版本的所有适定实例。

理学硕士:

90立方厘米 马尔可夫和半马尔可夫决策过程
90B15号机组 运筹学中的随机网络模型
90立方厘米 动态编程
91B62型 经济增长模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部