×

马尔可夫决策过程的复杂性。 (英语) Zbl 0638.90099号

我们研究了马尔可夫决策过程中最优策略计算的经典问题的复杂性。已知该问题的所有三种变体(有限视界、无限视界贴现和无限视界平均成本)都可以通过动态规划(有限视界问题)、线性规划或逐次逼近技术(无限视界)在多项式时间内求解。我们证明了它们对于P是完全的,因此很可能无法用高度并行的算法求解。相比之下,我们还表明,所有三个问题的确定性情况可以很快并行解决。具有部分观测状态的版本被证明是PSPACE完全的,因此比NP完全问题更不可能在多项式时间内求解;事实上,我们表明,最有可能的是,即使允许任意数量的预计算,也不可能有效地在线实现最优策略(包括多项式时间的在线计算和内存)。最后,没有观测值的问题的变体被证明是NP完全的。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
90立方厘米 动态编程
65年第68季度 算法和问题复杂性分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接