×

关系MDPS的一阶决策图。 (英语) Zbl 1182.68271号

概要:马尔可夫决策过程捕获不确定性下的顺序决策,其中代理必须选择行动以优化长期回报。本文研究了关系马尔可夫决策过程(RMDP)的有效推理机制,其中世界状态具有内部关系结构,可以根据对象及其之间的关系进行自然描述。提出了两项贡献。首先,本文开发了一阶决策图(FODD),这是一种新的关系结构上函数的紧凑表示,以及一组用于组合FODD的操作符,并开发了新的简化技术以保持表示的小型化。其次,本文展示了如何使用FODD来开发RMDP的解决方案,其中推理是在抽象级别执行的,得到的最优策略与域大小(对象数)或实例化无关。特别地,利用FODD上的特殊运算,开发了一种数值迭代算法的变体,并证明了该算法收敛于最优策略。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司