C·王。;乔希,S。;R.卡顿。 关系MDPS的一阶决策图。 (英语) Zbl 1182.68271号 J.人工制品。智力。研究(JAIR) 31, 431-472 (2008). 概要:马尔可夫决策过程捕获不确定性下的顺序决策,其中代理必须选择行动以优化长期回报。本文研究了关系马尔可夫决策过程(RMDP)的有效推理机制,其中世界状态具有内部关系结构,可以根据对象及其之间的关系进行自然描述。提出了两项贡献。首先,本文开发了一阶决策图(FODD),这是一种新的关系结构上函数的紧凑表示,以及一组用于组合FODD的操作符,并开发了新的简化技术以保持表示的小型化。其次,本文展示了如何使用FODD来开发RMDP的解决方案,其中推理是在抽象级别执行的,得到的最优策略与域大小(对象数)或实例化无关。特别地,利用FODD上的特殊运算,开发了一种数值迭代算法的变体,并证明了该算法收敛于最优策略。 引用于9文件 MSC公司: 68T20型 人工智能背景下的问题解决(启发式、搜索策略等) 关键词:马尔可夫决策过程 软件:氟氯化钙;FODD-计划 PDF格式BibTeX公司 XML格式引用 \textit{C.Wang}等人,J.Artif。智力。研究(JAIR)31,431--472(2008;Zbl 1182.68271) 全文: arXiv公司