×

针对具有外生效应的计划的关系强化学习。 (英语) 兹比尔1434.68432

概要:概率规划师最近有所改进,他们可以用复杂而富有表现力的模型解决困难的任务。相比之下,学习者还无法处理规划师所做的表达模型,这迫使复杂模型大多是手工制作的。我们提出了一种新的学习方法,可以学习具有行动效应和外生效应的关系概率模型。所提出的学习方法将归纳逻辑规划的多值变体用于生成候选模型,并使用优化方法选择最佳规划算子集来建模问题。我们还展示了如何将该学习者与强化学习算法相结合来解决完整的问题。最后,提供了实验验证,表明在仿真和机器人任务方面比以前的工作都有改进。机器人任务涉及多个代理的动态场景,其中机械手机器人必须清理桌子上的餐具。我们表明通过我们的方法学习到的效果使机器人能够以更有效的方式清理桌子。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68N17号 逻辑编程
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
68T40型 机器人人工智能
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] 亚历杭德罗·阿戈斯蒂尼(Alejandro Agostini)、卡梅·托拉斯(Carme Torras)和弗洛伦丁·沃戈(Florentin W¨org¨otter)。机器人应用的高效交互式决策框架。人工智能,247:187-212017·兹比尔1420.68164
[2] Eyal Amir和Allen Chang。学习部分可观察的确定性行为模型。《人工智能研究杂志》,33:349-4022008·Zbl 1183.68565号
[3] Ronen I Brafman和Moshe Tennenholtz。R-max-用于近最优强化学习的通用多项式时间算法。机器学习研究杂志,3:213-2312003·Zbl 1088.68694号
[4] 索尼娅·切尔诺娃(Sonia Chernova)和曼努埃拉·维洛索(Manuela Veloso)。通过基于信任的自治进行交互式政策学习。《人工智能研究杂志》,34(1):1-252009年·Zbl 1182.68161号
[5] Ashwin Deshpande、Brian Milch、Luke S Zettlemoyer和Leslie Pack Kaelbling。学习多任务的概率关系动力学。《人工智能不确定性会议记录》,第83-92页,2007年。
[6] 卡洛斯·迪克(Carlos Diuk)、安德烈·科恩(Andre Cohen)和迈克尔·利特曼(Michael L Littman)。有效强化学习的面向对象表示。《机器学习国际会议论文集》,第240-247页,2008年。
[7] 萨索·德泽洛斯基、吕克·德雷特和库尔特·德里森。关系强化学习。机器学习,43(1-2):7-522001·Zbl 0988.68088号
[8] 弗洛里安娜·埃斯波西托(Floriana Esposito)、斯特凡诺·费里利(Stefano Ferilli)、尼古拉·法尼兹(Nicola Fanizzi)、特蕾莎·玛丽亚·阿托马雷·巴西莱(Teresa Maria Altomare Basile)和尼古拉·迪·毛罗。INTHELEX中的增量学习和概念漂移。智能数据分析,8(3):213-2372004·Zbl 1049.68740号
[9] Daniel H Grollman和Odest Chadwicke Jenkins。机器人的纠结学习。《机器人与自动化国际会议论文集》,第2483-2488页,2007年。
[10] 马尔特·赫尔默特。快速向下规划系统。人工智能研究杂志,26:191-2462006·Zbl 1182.68245号
[11] 托德·海丝特和彼得·斯通。TEXPLORE:用于机器人的实时样本高效强化学习。机器学习,90(3):385-4292013。
[12] 瓦西利·霍夫丁。有界随机变量和的概率不等式。《美国统计协会杂志》,58(301):13-301963年·Zbl 0127.10602号
[13] J¨org Hoffmann和Bernhard Nebel。FF计划系统:通过启发式搜索快速生成计划。《人工智能研究杂志》,第253-302页,2001年·Zbl 0970.68044号
[14] 井上胜美(Katsumi Inoue)、托尼·里贝罗(Tony Ribeiro)和恰基·萨卡马(Chiaki Sakama)。从口译过渡中学习。机器学习,94(1):51-792014。41 ·Zbl 1319.68054号
[15] 塞尔吉奥·吉姆安内斯(Sergio Jim´enez)、费尔南多·费尔南德斯(Fernando Fern´andez)和丹尼尔·博拉霍(Daniel Borrajo)。PELA架构:整合规划和学习以改进执行。《AAAI人工智能会议记录》,第1294-1299页,2008年。
[16] 迈克尔·卡恩斯和萨丁德·辛格。多项式时间内的近最优强化学习。机器学习,49(2-3):209-2322002·Zbl 1014.68071号
[17] 托马斯·凯勒和帕特里克·埃里奇。PROST:基于UCT的概率规划。《自动规划和调度国际会议记录》,第119-127页,2012年6月。
[18] W Bradley Knox和Peter Stone。从人类和MDP同时奖励中强化学习。《第11届自治代理和多代理系统国际会议论文集》第1卷,第475-482页,2012年。
[19] Andrey Kolobov、Peng Dai、Mausam和Daniel S Weld。具有大分支因子的有限时域MDP的反向迭代深化。《自动化规划和调度国际会议记录》,第146-154页,2012年。
[20] 乔治·科尼达利斯(George Konidaris)、伊利亚·施瓦泽(Ilya Scheidwasser)和安德鲁·巴托(Andrew G Barto)。通过共享功能转入强化学习。机器学习研究杂志,13(1):1333–13712012·Zbl 1303.68106号
[21] 约翰·库利克(Johannes Kulick)、马克·图桑(Marc Toussant)、托比亚斯·朗(Tobias Lang)和曼努埃尔·洛佩斯(Manuel Lopes)。主动学习,教授基于关系符号的机器人。《第二十届国际人工智能联合会议论文集》,第1451-1457页,2013年。
[22] 托比亚斯·朗和马克·图桑。使用噪声概率关系规则进行规划。《人工智能研究杂志》,39:1-492010·Zbl 1205.68379号
[23] Tobias Lang、Marc Toussaint和Kristian Kersting。基于模型的强化学习的关系域探索。《机器学习研究杂志》,13:3691–37342012年·Zbl 1433.68360号
[24] Lihong Li、Michael L Littman、Thomas J Walsh和Alexander L Strehl。知己知彼:自我意识学习的框架。机器学习,82(3):399-4432011·Zbl 1237.68154号
[25] 伊恩·利特尔和西尔维·蒂堡。概率规划与重新规划。2007年ICAPS IPC研讨会论文集:过去、现在和未来。
[26] 迈克尔·利特曼。强化学习通过评估反馈改善行为。《自然》,521(7553):445-4512015。
[27] 大卫·马丁·内斯、吉利姆·阿伦亚和卡梅·托拉斯。规划机器人操作以清洁平面。人工智能的工程应用,39:23-322015a。
[28] 大卫·马丁·内斯、吉利姆·阿伦亚和卡梅·托拉斯。V-MIN:通过演示和放松奖励要求进行有效的强化学习。《AAAI人工智能会议记录》,第2857-2863页,2015b。42
[29] 大卫·马特·内斯、托尼·里贝罗、井上胜美、吉勒姆·阿连亚和卡梅·托拉斯。从解释转换中学习概率动作模型。《逻辑编程国际会议技术交流》,CEUR研讨会论文集,第1433(30)卷,2015c·Zbl 1407.68407号
[30] 大卫·马丁·内斯、吉利姆·阿连亚、卡梅·托拉斯、托尼·里贝罗和井上胜美。学习用于规划的随机域的关系动力学。在国际自动化规划和调度会议上,第235-2432016页。
[31] Céetin Meriöcli、Manuela Veloso和H Levent Akín。高效执行和细化任务的多分辨率纠正演示。国际社会机器人杂志,4(4):423-4352012。
[32] 博格丹·摩尔多瓦(Bogdan Moldovan)、普利尼奥·莫雷诺(Plinio Moreno)、马蒂恩·范·奥特罗(Martijn van Otterlo)、乔斯·桑托斯·维克托(Josée Santos-Victor)和吕克·德·雷德(Luc De Raedt)。学习机器人在多对象操作任务中的关系启示模型。《IEEE机器人与自动化国际会议论文集》,第4373-4378页,2012年。
[33] 马修·莫利诺和大卫·瓦哈。学习未知事件模型。程序中。AAAI人工智能会议,第395-401页,2014年。
[34] 基拉·穆尔áao。从噪声观测中学习概率规划算子。2014年,英国规划与日程安排特别利益集团研讨会会议记录。
[35] Kira Mour~ao、Luke S Zettlemoyer、Ronald Petrick和Mark Steedman。从噪声和不完整的观察中学习STRIPS运算符。《人工智能不确定性会议记录》,第614-623页,2012年。
[36] Hanna M Pasula、Luke S Zettlemoyer和Leslie Pack Kaelbling。学习随机域的符号模型。《人工智能研究杂志》,29(1):309-3522007·Zbl 1182.68181号
[37] 托尼·里贝罗和井上胜美。从解释转换中学习基本隐含条件。《感应逻辑编程国际会议论文集》,LNAI,第9046卷,第108-125页,2014年·Zbl 1319.68054号
[38] Tony Ribeiro、Morgan Magnin、Katsumi Inoue和Chiaki Sakama。从时间序列观测中学习具有延迟影响的多值生物模型。程序中。机器学习和应用国际会议,第25-31页,2015年。
[39] 斯科特·桑纳。关系动态影响图语言(RDDL):语言描述。澳大利亚国立大学,2010年,未发表。
[40] 丹尼尔·赛克斯(Daniel Sykes)、多梅尼科·科拉皮(Domenico Corapi)、杰夫·马吉(Jeff Magee)、杰弗·克莱默(Jeff Kramer)、亚历山德拉·拉索(Alessandra Russo)和井上胜美。学习自适应系统规划的修正模型。《软件工程国际会议论文集》,第63-71页,2013年。
[41] 马修·泰勒和彼得·斯通。强化学习领域的迁移学习:一项调查。机器学习研究杂志,10:1633-16852009。43 ·Zbl 1235.68196号
[42] Ingo Thon、Niels Landwehr和Luc De Raedt。随机关系过程:有效的推理和应用。机器学习,82(2):239-2722011·Zbl 1237.68169号
[43] 毛罗·瓦拉蒂(Mauro Vallati)、卢卡(Luk’a’s Chrpa)、马雷克·格雷兹(Marek Grze)、托马斯·麦克卢斯基(Thomas L McCluskey)、马克·罗伯茨(Mark Roberts)和斯科特·桑纳(Scott Sanner)。2014年国际规划竞赛:进展与趋势。AI杂志,36(3):90-982015。
[44] 托马斯·沃尔什。有效学习用于顺序决策的关系模型。罗格斯大学博士论文,新泽西州立大学,2010年。
[45] 托马斯·沃尔什(Thomas J Walsh)、伊斯特文·斯齐塔(Istv´an Szita)、卡洛斯·迪克(Carlos Diuk)和迈克尔·利特曼(Michael L Littman)。用线性回归探索紧凑强化学习表示法。《人工智能不确定性会议记录》,第591-598页,2009年。
[46] 托马斯·沃尔什(Thomas J Walsh)、考希克·苏布拉曼尼亚(Kaushik Subramanian)、迈克尔·利特曼(Michael L Littman)和卡洛斯·迪克(Carlos Diuk)。在假设课程中推广学徒学习。《机器学习国际会议论文集》,第1119-1126页,2010年。
[47] 托马斯·沃尔什(Thomas J Walsh)、丹尼尔·休利特(Daniel K Hewlett)和克莱顿·莫里森(Clayton T Morrison)。融合自主探索和学徒学习。《神经信息处理系统进展》,第2258-2266页,2011年。
[48] H˚akan LS Younes和Michael L Littman。PPDDL1.0:PDDL的扩展,用于表示具有概率效应的规划域。技术报告CMU-CS-04-162004。
[49] 乔治·朱、丹·利佐特和杰西·霍伊。医院选择性入院马尔可夫决策过程模型的可缩放近似策略。医学中的人工智能,61(1):21-342014。
[50] Hankz Hankui Zhoo和Subbarao Kambhampati。从有噪声的计划轨迹中获取行动模型。《第二十届国际人工智能联合会议记录》,第2444-2450页,2013年·Zbl 1419.68102号
[51] 汉克·汉奎·卓和强阳。通过转移学习获取行动模型以进行规划。人工智能,212:80-1032014·Zbl 1308.68108号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。