Relational Reinforcement Learning for Planning with Exogenous Effects

David Mart\'{i}nez; Guillem Aleny\`{a}; Tony Ribeiro; Katsumi Inoue; Carme Torras

概率规划师最近有所改进，他们可以用复杂而富有表现力的模型解决困难的任务。相比之下，学习者还无法处理规划师所做的表达模型，这迫使复杂模型大多是手工制作的。我们提出了一种新的学习方法，可以学习具有行动效应和外生效应的关系概率模型。所提出的学习方法将归纳逻辑规划的多值变体用于生成候选模型，并使用优化方法选择最佳规划算子集来建模问题。我们还展示了如何将该学习者与强化学习算法相结合来解决完整的问题。最后，提供了实验验证，表明在仿真和机器人任务方面比以前的工作都有改进。机器人任务涉及多个代理的动态场景，其中机械手机器人必须清理桌子上的餐具。我们表明，通过我们的方法学习到的外生效应使机器人能够以更有效的方式清理桌子。

具有外源效应的规划的关系强化学习

摘要