克里斯托斯·帕帕迪米特里奥(Christos H.Papadimitriou)。;约翰·齐齐克利斯(John N.Tsitsiklis)。 马尔可夫决策过程的复杂性。 (英语) Zbl 0638.90099号 数学。操作。物件。 12441-450(1987年). 我们研究了马尔可夫决策过程中最优策略计算的经典问题的复杂性。已知该问题的所有三种变体(有限视界、无限视界贴现和无限视界平均成本)都可以通过动态规划(有限视界问题)、线性规划或逐次逼近技术(无限视界)在多项式时间内求解。我们证明了它们对于P是完全的,因此很可能无法用高度并行的算法求解。相比之下,我们还表明,所有三个问题的确定性情况可以很快并行解决。具有部分观测状态的版本被证明是PSPACE完全的,因此比NP完全问题更不可能在多项式时间内求解;事实上,我们表明,最有可能的是,即使允许任意数量的预计算,也不可能有效地在线实现最优策略(包括多项式时间的在线计算和内存)。最后,没有观测值的问题的变体被证明是NP完全的。 引用于5评论引用于85文件 MSC公司: 90立方厘米 马尔可夫和半马尔可夫决策过程 90立方厘米 动态编程 65年第68季度 算法和问题复杂性分析 关键词:计算复杂度;并行计算;最优策略计算;马尔可夫决策过程;有限地平线;无限地平线;高度并行算法;部分观测状态;PSPACE完成;NP-完成 PDF格式BibTeX公司 XML格式引用 \textit{C.H.Papadimitriou}和\textit{J.N.Tsitsiklis},数学。操作。第12号决议,441--450(1987年;Zbl 0638.90099) 全文: 内政部 链接