主页

论文

提交文件

新闻

编辑委员会

开源软件

诉讼程序(PMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

具有外源效应的规划的关系强化学习

大卫·马特{i} 内兹、吉伦·阿莱尼、托尼·里贝罗、井上胜美、卡梅·托拉斯; 18(78):1−44, 2017.

摘要

概率规划师最近有所改进,他们可以用复杂而富有表现力的模型解决困难的任务。相比之下,学习者还无法处理规划师所做的表达模型,这迫使复杂模型大多是手工制作的。我们提出了一种新的学习方法,可以学习具有行动效应和外生效应的关系概率模型。所提出的学习方法将归纳逻辑规划的多值变体用于生成候选模型,并使用优化方法选择最佳规划算子集来建模问题。我们还展示了如何将该学习者与强化学习算法相结合来解决完整的问题。最后,提供了实验验证,表明在仿真和机器人任务方面比以前的工作都有改进。机器人任务涉及多个代理的动态场景,其中机械手机器人必须清理桌子上的餐具。我们表明,通过我们的方法学习到的外生效应使机器人能够以更有效的方式清理桌子。

[腹肌][pdf格式][围兜]      
©JMLR公司2017(编辑,贝塔)