文件Zbl 1203.90172-zbMATH Open

有限时域分散POMDPS的数学规划研究。（英语） Zbl 1203.90172号

J.阿蒂夫。智力。研究（JAIR） 37, 329-396 (2010).

摘要：不确定环境下的分散规划是一项复杂的任务，通常使用决策理论方法来处理，主要通过分散部分可观测马尔可夫决策过程（DEC-POMDPs）框架来处理。尽管DEC-POMDPS是一种通用且功能强大的建模工具，但解决它们是一项具有巨大复杂性的任务，可能会达到双重指数。在本文中，我们研究了依赖于策略的序列形式表示的DEC-POMDP的替代公式。从这个公式中，我们展示了如何推导混合整数线性规划（MILP）问题，这些问题一旦求解，就会给出DEC POMDP的精确最优解。我们证明，这些MILP既可以通过使用DEC-POMDP最优解的一些组合特征来推导，也可以通过使用从博弈论中借用的概念来推导。通过对DEC-POMDP文献中经典测试问题的实验验证，我们将我们的方法与现有算法进行了比较。结果表明，数学规划优于动态规划，但除某些特殊问题外，其效率低于前向搜索。这项工作的主要贡献是为DEC-POMDP使用数学编程，以及更好地理解DEC-PONDP及其解决方案。此外，我们认为我们对DEC-POMDP的替代表示可能有助于设计新的算法来寻找DEC-PONDP的近似解。

引用于2文件

MSC公司：

90立方厘米

马尔可夫和半马尔可夫决策过程

软件：

POMDPS公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

有限时域分散POMDPS的数学规划研究。（英语） Zbl 1203.90172号

MSC公司：

软件：

示例

领域

操作员

有限时域分散POMDPS的数学规划研究。 （英语） Zbl 1203.90172号

MSC公司：

软件：

有限时域分散POMDPS的数学规划研究。（英语） Zbl 1203.90172号