×

DeepSym:在无监督的机器人交互中进行深度符号生成和规则学习以进行规划。 (英语) Zbl 1502.68289号

摘要:符号规划和推理是机器人处理复杂任务的强大工具。然而,需要手动设计符号限制了它们的适用性,尤其是对于预期在开放式环境中工作的机器人。因此,符号形成和规则提取应被视为机器人学习的一部分,如果操作得当,将提供可扩展性、灵活性和鲁棒性。为此,我们提出了一种新的通用方法,该方法可以找到基于动作的离散对象和效果类别,并在此基础上构建概率规则,用于非平凡动作规划。我们的机器人使用一个假定在早期获得的初始动作库与对象交互,并观察它在环境中产生的效果。为了形成基于动作的对象、效果和关系类别,我们在预测性深度编码器网络中使用了一个二进制瓶颈层,该网络将场景图像和应用的动作作为输入,并在场景中以像素坐标生成结果效果。学习后,二进制潜在向量表示基于机器人交互经验的动作驱动对象类别。为了将神经网络表示的知识提取为对符号推理有用的规则,需要训练决策树来重现其解码功能。概率规则是从树的决策路径中提取出来的,并用概率规划领域定义语言(PPDDL)表示,使离线规划师能够操作从机器人的感觉运动体验中提取的知识。将所提出的方法应用于模拟机器人操作器,可以发现对象属性的离散表示,如“可滚动”和“可插入”。反过来,使用这些表示法作为符号,可以生成有效的计划来实现目标,例如建造所需高度的塔楼,从而证明了多步骤对象操作方法的有效性。最后,我们通过评估系统对MNIST 8字谜领域的适用性,证明了该系统不仅限于机器人领域,在该领域中,学习的符号允许生成将空方块移动到任何给定位置的计划。

MSC公司:

68T40型 机器人人工智能
68T07型 人工神经网络与深度学习
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akbulut,M.、Oztop,E.、Seker,M.Y.、Hh,X.、Tekden,A.和Ugur,E.(2021)。ACNMP:通过演示学习和通过表征共享强化学习实现技能转移和任务外推。《机器人学习会议》,第1896-1907页。PMLR公司。
[2] Asai,M.和Fukunaga,A.(2018年)。深层潜在空间中的经典规划:跨越子符号符号边界。《AAAI人工智能会议论文集》,第32卷。
[3] Asai,M.、Kajino,H.、Fukunaga,A.和Muise,C.(2022)。深层潜在空间中的经典规划。《人工智能研究杂志》,741599-1686·Zbl 07577519号
[4] Asai,M.和Muise,C.(2021)。通过立方体空间先期课程学习神经-符号描述性规划模型:回家之旅(STRIPS)。在国际人工智能联合会议上,第2676-2682页。
[5] Bengio,Y.、L’eoard,N.和Courville,A.C.(2013年)。通过随机神经元估计或传播梯度以进行条件计算。CoRR,abs/1308.3432。
[6] Bonet,B.和Geffner,H.(2005)。mGPT:一种基于启发式搜索的概率规划器。《人工智能研究杂志》,24933-944·Zbl 1080.68656号
[7] Callaghan,T.和Corbit,J.(2015)。符号表征的发展,第7章,第1-46页。John Wiley&Sons有限公司。
[8] Chitnis,R.、Silver,T.、Tenenbaum,J.B.、Perez,T.和Kaelbling,L.P.(2021年)。学习用于双层规划的神经符号关系转换模型。结合学习和推理:编程语言、形式主义和表示。
[9] Devlin,J.、Chang,M.、Lee,K.和Toutanova,K.(2018年)。BERT:深度双向变换器的预训练,用于语言理解。CoRR,abs/1810.04805。
[10] Gibson,J.J.(2014)。视觉感知的生态方法:经典版。心理学出版社。
[11] Hafner,D.、Lillicrap,T.P.、Norouzi,M.和Ba,J.(2020年)。掌握离散世界模型的atari。在国际学习代表大会上。
[12] Harnad,S.(1990年)。符号接地问题。《物理学D》,42(1-2),335-346。
[13] Hinton,G.E.和Salakhuttinov,R.R.(2006年)。利用神经网络降低数据的维数。《科学》,313(5786),504-507·兹比尔1226.68083
[14] Hoffmann,J.和Nebel,B.(2001年)。FF计划系统:通过启发式搜索快速生成计划。《人工智能研究杂志》,第14期,第253-302页·Zbl 0970.68044号
[15] Ioffe,S.和Szegedy,C.(2015年)。批量规范化:通过减少内部协变量偏移来加速深层网络培训。在机器学习国际会议上,第448-456页。PMLR公司。
[16] James,S.、Rosman,B.和Konidaris,G.(2020年)。学习用于高级规划的便携式表示法。在机器学习国际会议上,第4682-4691页。PMLR公司。
[17] Jang,E.、Gu,S.和Poole,B.(2017年)。使用Gumbel-softmax进行分类重适配。在国际学习代表大会上。
[18] Johnson,M.、Hofmann,K.、Hutton,T.和Bignell,D.(2016)。用于人工智能实验的Malmo平台。。在国际人工智能联合会议上,第4246-4247页。Citeser。
[19] Kingma,D.P.和Ba,J.(2015年)。亚当:一种随机优化方法。在国际学习代表大会上。
[20] Kingma,D.P.和Welling,M.(2013年)。自动编码变分贝叶斯。CoRR,abs/1312.6114。
[21] Klingspor,V.、Morik,K.和Rieger,A.D.(1996年)。从移动机器人的传感器数据学习概念。机器学习,23(2-3),305-332。
[22] Konidaris,G.、Kaelbling,L.和Lozano-Perez,T.(2015)。概率高层规划的符号获取。在国际人工智能联合会议上。
[23] Konidaris,G.(2019年)。关于抽象的必要性。行为科学的当前观点,29,1-7。
[24] Konidaris,G.、Kaelbling,L.和Lozano-Perez,T.(2014)。为高层规划构建符号表示。《AAAI人工智能会议论文集》,第28卷。
[25] Konidaris,G.、Kaelbling,L.P.和Lozano-Perez,T.(2018年)。从技能到符号:学习抽象高级规划的符号表示。《人工智能研究杂志》,61215-289·Zbl 1426.68254号
[26] Kuipers,B.、Feigenbaum,E.A.、Hart,P.E.和Nilsson,N.J.(2017)。沙基:从概念到历史。。AI杂志,38(1),88-103。
[27] Kulick,J.、Toussant,M.、Lang,T.和Lopes,M.(2013)。主动学习,用于教授基于关系符号的机器人。在国际人工智能联合会议上,第1451-1457页。
[28] Law,M.、Russo,A.和Broda,K.(2018年)。学习答案集程序的复杂性和通用性。人工智能,259110-146·Zbl 1445.68206号
[29] LeCun,Y.A.,Bottou,L.,Orr,G.B.,&M¨uller,K.-R.(2012年)。高效的后盾。《神经网络:贸易的诡计》,第9-48页。斯普林格。
[30] Maddison,C.J.、Mnih,A.和Teh,Y.W.(2017年)。具体分布:离散随机变量的连续松弛。在国际学习代表大会上。
[31] Mota,T.和Sridharan,M.(2019年)。常识推理和知识获取,指导机器人的深度学习。。机器人学:科学与系统。
[32] Mourao,K.、Petrick,R.P.和Steedman,M.(2008年)。使用内核感知器学习计划的动作效果。在认知系统国际会议上,第45-50页。Citeser。
[33] 墨菲·R和墨菲·R.(2000)。AI机器人简介。麻省理工学院出版社。
[34] Ozturkcu,O.B.、Ugur,E.和Oztop,E.(2020年)。通过无约束的感觉运动学习实现高级表达。在国际发展与学习会议上。
[35] Petrick,R.、Kraft,D.、Mourao,K.、Pugeault,N.、Kr¨uger,N.和Steedman,M.(2008)。表示和集成:结合机器人控制、高级规划和动作学习。第六届国际认知机器人研讨会论文集,第32-41页。
[36] Pisokas,J.和Nehmzow,U.(2005年)。移动机器人的次符号动作规划实验。InAdaptive Agents and Multi-Agent Systems II,AI课堂讲稿,第80-87页。斯普林格。
[37] Radford,A.、Metz,L.和Chintala,S.(2016年)。深度卷积生成对抗网络的无监督表示学习。在国际学习代表大会上。
[38] Reddi,S.J.、Kale,S.和Kumar,S.(2018年)。关于亚当和其他人的融合。在国际学习代表大会上。
[39] Riley,H.和Sridharan,M.(2019年)。将非单调逻辑推理和归纳学习与深度学习相结合,用于可解释的可视问题回答。机器人和人工智能前沿,6125。
[40] Rohmer,E.、Singh,S.P.N.和Freese,M.(2013年)。CoppeliaSim(前身为V-REP):一个通用且可扩展的机器人仿真框架。2013年IEEE/RSJ国际智能机器人与系统会议。www.coppeliarobotics.com。
[41] Russell,S.J.和Norvig,P.(2020年)。《人工智能:现代方法》(第4版)。皮尔逊。
[42] Seker,M.Y.、Imre,M.、Piater,J.和Ugur,E.(2019年)。条件神经运动原语。机器人学:科学与系统。
[43] Silver,T.、Athalye,A.、Tenenbaum,J.B.、Lozano-Perez,T.和Kaelbling,L.P.(2022a)。学习双层规划的神经符号学技能。CoRR,abs/2206.10680。
[44] Silver,T.、Chitnis,R.、Kumar,N.、McClinton,W.、Lozano-Perez,T.,Kaelbling,L.P.和Tenenbaum,J.(2022b)。发明关系状态和动作抽象,以实现高效的双层规划。CoRR,腹肌/2203.09634。
[45] Silver,T.、Chitnis,R.、Tenenbaum,J.、Kaelbling,L.P.和Lozano-P´erez,T.(2021)。学习任务和动作规划的符号运算符。2021年IEEE/RSJ智能机器人和系统国际会议,第3182-3189页。电气与电子工程师协会。
[46] Sun,R.(2000)。符号基础:旧观念的新视角。哲学心理学,13(149-172)。
[47] Sutskever,I.、Vinyals,O.和Le,Q.V.(2014)。用神经网络进行序列到序列的学习。神经信息处理系统进展,27。
[48] Taniguchi,T.、Ugur,E.、Hoffmann,M.、Jamone,L.、Nagai,T.,Rosman,B.、Matsuka,T.和Iwahashi,N.、Oztop,E.、Piater,J.等人(2018年)。认知发展系统中的符号涌现:一项调查。IEEE认知与发展系统汇刊,11(4),494-516。
[49] Townsend,W.(2000年)。BarrettHand抓取器可编程地灵活处理和装配零件。工业机器人:国际期刊,27(3),181-188。
[50] Ugur,E.、Oztop,E.和Sahin,E.(2011年)。使用学习到的启示在感知空间中进行目标模拟和规划。机器人与自治系统,59(7-8),580-595。
[51] Ugur,E.和Piater,J.(2015a)。对象类别、动作效果和逻辑规则的自下而上学习:从持续的操作探索到符号规划。2015年IEEE国际机器人与自动化会议,第2627-2633页。电气与电子工程师协会。
[52] Ugur,E.和Piater,J.(2015b)。使用多步骤交互体验优化发现的符号。2015年IEEE-RAS类人机器人国际会议,第1007-1012页。电气与电子工程师协会。
[53] Ugur,E.、Sāahin,E.和Oztop,E.(2012年)。运动原语的自我发现和学习掌握启示。2012年IEEE/RSJ智能机器人和系统国际会议,第3260-3267页。电气与电子工程师协会。
[54] 通用机器人(2012)。UR10协作工业机器人。https://www.universalrobots.com/products/ur10-robot。在线;2020年9月10日访问。
[55] Werner,H.和Kaplan,B.(1963年)。符号形成。威利。
[56] W¨org¨otter,F.、Agostini,A.、Kr¨uger,N.、Shylo,N.和Porr,B.(2009年)。认知代理:基于对象-动作复合OAC的可预测性的程序性观点。机器人与自主系统,57(4),420-432。
[57] Xu,D.,Mandlekar,A.,Mart´11n n-Mart|11n,R.,Zhu,Y.,Savarese,S.,&Fei-Fei,L.(2021)。深度启示远见:通过未来可以做的事情进行规划。2021年IEEE机器人与自动化国际会议,第6206-6213页。电气与电子工程师协会。
[58] Younes,H.L.和Littman,M.L.(2004)。PPDDL1.0:PDDL的扩展,用于表示具有概率效应的规划域。技术报告CMU-CS-04-162,2,99。
[59] Yuan,W.、Paxton,C.、Desingh,K.和Fox,D.(2022)。Sornet:用于顺序操作的空间对象中心表示。机器人学习会议,第148-157页。PMLR公司。
[60] Zech,P.、Haller,S.、Lakani,S.R.、Ridge,B.、Ugur,E.和Piater,J.(2017)。机器人启示的计算模型:分类和系统分类。适应性行为,25(5),235-271
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。