×

有限时域分散POMDPS的数学规划研究。 (英语) Zbl 1203.90172号

摘要:不确定环境下的分散规划是一项复杂的任务,通常使用决策理论方法来处理,主要通过分散部分可观测马尔可夫决策过程(DEC-POMDPs)框架来处理。尽管DEC-POMDPS是一种通用且功能强大的建模工具,但解决它们是一项具有巨大复杂性的任务,可能会达到双重指数。在本文中,我们研究了依赖于策略的序列形式表示的DEC-POMDP的替代公式。从这个公式中,我们展示了如何推导混合整数线性规划(MILP)问题,这些问题一旦求解,就会给出DEC POMDP的精确最优解。我们证明,这些MILP既可以通过使用DEC-POMDP最优解的一些组合特征来推导,也可以通过使用从博弈论中借用的概念来推导。通过对DEC-POMDP文献中经典测试问题的实验验证,我们将我们的方法与现有算法进行了比较。结果表明,数学规划优于动态规划,但除某些特殊问题外,其效率低于前向搜索。这项工作的主要贡献是为DEC-POMDP使用数学编程,以及更好地理解DEC-PONDP及其解决方案。此外,我们认为我们对DEC-POMDP的替代表示可能有助于设计新的算法来寻找DEC-PONDP的近似解。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程

软件:

POMDPS公司
PDF格式BibTeX公司 XML格式引用