×

学习声明性动作模型的综合框架。 (英语) Zbl 07566007号

摘要:声明性动作模型是动态系统的状态转换的紧凑表示,它可以在世界对象上进行泛化。声明性动作模型的规范通常是一项复杂的手工任务。在本文中,我们通过状态约束,并介绍此类模型的学习,如组合搜索这里介绍的综合框架允许我们将陈述性动作模型的学习与众所周知的问题解决任务联系起来。此外,我们的框架允许我们根据四个维度来描述文献中现有的工作:(1)目标行动模型,根据它们定义的状态转换;(2) 可用的学习示例;(3) 用于指导学习过程和评估所学行动模型质量的功能;(4) 学习算法。最后,本文列举了陈述性动作模型学习的相关成功应用,并讨论了一些开放性挑战,以鼓励未来的研究工作。

MSC公司:

68泰克 人工智能

关键词:

知识工程;规划

软件:

PDDL公司
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Abbeel,P.,&Ng,A.Y.(2005年)。学习用于控制的一阶马尔可夫模型。神经信息处理系统进展,17,1-8。
[2] Ahmed,O.、Tr¨auble,F.、Goyal,A.、Neitz,A.、W¨uthrich,M.、Bengio,Y.、Sch¨olkopf,B.和Bauer,S.(2021年)。因果世界:因果结构和转移学习的机器人操作基准。国际学习代表大会(ICLR-21),第3-7页。
[3] Aineto,D.、Jim´enez,S.和Onaindia,E.(2018年)。使用经典规划学习STRIPS行动模型。在自动化计划和调度国际会议上,(ICAPS-18),第399-407页。
[4] Aineto,D.、Jim´enez,S.和Onaindia,E.(2019年)。具有最小可观察性的学习动作模型。《人工智能杂志》,275104-137·Zbl 1478.68277号
[5] Aineto,D.、Jim´enez,S.和Onaindia,E.(2020年)。传感器模型的观测解码:通过经典规划的识别任务。国际自动化计划与调度会议(ICAPS-20)。
[6] Aineto,D.、Jim´enez,S.、Onaindia,E.和Ram´rez,M.(2019年)。将模型识别作为规划。在自动化计划和调度国际会议上,(ICAPS-19),第13-21页。
[7] Amir,E.和Chang,A.(2008年)。学习部分可观察的确定性行为模型。《人工智能研究杂志》,33349-402·Zbl 1183.68565号
[8] Ard´on,P.、Pairet,E.、Lohan,K.S.、Ramamoorthy,S.和Petrick,R.(2021)。建立机器人代理的启示关系——综述。国际人工智能联合会议(IJCAI-17),第4302-4311页。
[9] Arora,A.、Fiorino,H.、Pellier,D.、Etivier,M.和Pesty,S.(2018年)。学习计划行动模型综述。知识工程评论,33。
[10] Asai,M.和Fukunaga,A.(2018年)。深层潜在空间中的经典规划:跨越子符号符号边界。国际人工智能会议,AAAI18。
[11] Asai,M.和Muise,C.(2020年)。通过立方体空间先期课程学习神经-符号描述性规划模型:回家的旅程(到地带)。在国际人工智能联合会议上。
[12] Baier,J.A.和McIlraith,S.A.(2006年)。使用启发式搜索对一阶时间扩展目标进行规划。国际人工智能会议,AAAI-06,第788页。
[13] Bergadano,F.和Gunetti,D.(1996年)。归纳逻辑编程:从机器学习到软件工程。麻省理工学院出版社。
[14] Bolander,T.和Gierasimczuk,N.(2018年)。学习行动:确定性行动模型的定性学习。逻辑与计算杂志,28(2),337-365·Zbl 1444.68177号
[15] Bonet,B.、Frances,G.和Geffner,H.(2019年)。学习计算通用计划的功能和抽象操作。InAAAI人工智能会议,第33卷,第2703-2710页。
[16] Bonet,B.和Geffner,H.(2001年)。规划是启发式搜索。人工智能,129(1-2),5-33·Zbl 0971.68146号
[17] Bonet,B.和Geffner,H.(2014)。感知规划的信念跟踪:宽度、复杂性和近似值。《人工智能研究杂志》,50923-970·Zbl 1396.68116号
[18] Bonet,B.和Geffner,H.(2016)。因子概率信念跟踪。在国际人工智能联合会议上。
[19] Bonet,B.和Geffner,H.(2020年)。从状态空间的结构中学习规划的一阶符号表示。欧洲人工智能会议·Zbl 1464.68328号
[20] Bonet,B.、Palacios,H.和Geffner,H.(2010年)。用于行为控制的有限状态机的自动派生。国际人工智能会议(AAAI-10)。
[21] Chakraborti,T.、Sreedharan,S.、Zhang,Y.和Kambhampati,S.(2017年)。将解释作为模型协调:超越解释作为独白。国际人工智能联合会议(IJCAI-17),第156-163页。
[22] Cresswell,S.和Gregory,P.(2011年)。从动作痕迹中获取通用领域模型。在国际自动规划和调度会议上,ICAPS-11。AAAI出版社。
[23] Cresswell,S.、McCluskey,T.L.和West,M.M.(2009年)。从规划实例中获取以对象为中心的领域模型。国际自动计划和调度会议(ICAPS-09)。AAAI出版社。
[24] Cresswell,S.N.、McCluskey,T.L.和West,M.M.(2013)。使用LOCM获取规划领域模型。《知识工程评论》,28(02),195-213。
[25] De la Rosa,T.、Jim´enez,S.、Fuentetaja,R.和Borrajo,D.(2011年)。使用关系决策树扩展启发式规划。《人工智能研究杂志》,40776-813·Zbl 1216.68242号
[26] De Raedt,L.(2008)。逻辑和关系学习。施普林格科技与商业媒体。1118 ·Zbl 1203.68145号
[27] De Raedt,L.和Kersting,K.(2017年)。统计关系学习。Sammut,C.和Webb,G.I.(编辑),《机器学习和数据挖掘百科全书》,第1177-1187页。斯普林格。
[28] Diuk,C.、Cohen,A.和Littman,M.L.(2008)。用于高效强化学习的面向对象表示。在机器学习国际会议上,第240-247页。
[29] Dézeroski,S.、De Raedt,L.和Driessens,K.(2001)。关系强化学习。机器学习,43(1-2),7-52·兹比尔0988.68088
[30] Dázeroski,S.、Langley,P.和Todorovski,L.(2007)。科学知识的计算发现。《科学知识的计算发现》,第1-14页。斯普林格。
[31] Farabet,C.、Couprie,C.、Najman,L.和LeCun,Y.(2013年)。学习场景标签的层次特征。IEEE模式分析和机器智能汇刊,35(8),1915-1929。
[32] Fern,A.、Yoon,S.和Givan,R.(2006年)。带有策略语言偏差的近似策略迭代:求解关系马尔可夫决策过程。《人工智能研究杂志》,25,75-118·Zbl 1182.68237号
[33] Fikes,R.E.、Hart,P.E.和Nilsson,N.J.(1972年)。学习和执行通用机器人计划。人工智能,3251-288。
[34] Finney,S.、Gardiol,N.、Kaelbling,L.P.和Oates,T.(2002年)。我们尝试的方法效果不太好:强化学习中的指示表征。人工智能不确定性会议。
[35] Fox,M.和Long,D.(2003年)。PDDL2.1:PDDL的扩展,用于表示时间规划域。。《人工智能研究杂志》,20,61-124·Zbl 1036.68093号
[36] Franc'es,G.、Bonet,B.和Geffner,H.(2021)。在没有监督的情况下,从小例子中学习一般政策。国际人工智能大会。
[37] Garrido,A.和Jim´enez,S.(2020年)。通过约束编程学习时间动作模型。欧洲人工智能会议。
[38] Geffner,H.和Bonet,B.(2013年)。自动规划模型和方法简介。人工智能和机器学习综合讲座。Morgan&Claypool出版社·Zbl 1270.68012号
[39] Getoor,L.和Taskar,B.(2007年)。统计关系学习导论。麻省理工学院出版社·Zbl 1141.68054号
[40] Ghahramani,Z.(2001年)。隐马尔可夫模型和贝叶斯网络简介。模式识别与人工智能杂志,15(1),9-42。
[41] Ghallab,M.、Nau,D.和Traverso,P.(2004年)。自动化规划:理论与实践。爱思唯尔·Zbl 1074.68613号
[42] Gopalakrishnan,S.、Muánoz-Avila,H.和Kuter,U.(2018年)。使用统计语义和目标推理学习任务层次。人工智能通信,31(2),167-180。
[43] Grastien,A.、Haslum,P.和Thi´ebaux,S.(2012年)。离散事件系统的基于冲突的诊断:理论与实践。在知识表示和推理原则国际会议上。
[44] Gregory,P.和Cresswell,S.(2016年)。LOP系统中存在静态关系的领域模型获取。国际人工智能联合会议(IJCAI-16),第4160-4164页。
[45] Gregory,P.和Lindsay,A.(2016年)。具有行动成本的领域中的领域模型获取。在自动化规划和调度国际会议上。
[46] Gregory,P.、Schumann,H.C.、Bj¨ornsson,Y.和Schiffel,S.(2015)。GRL系统:通过逐块移动交互学习棋盘游戏规则。《电脑游戏》,第130-148页。斯普林格。
[47] Hayton,T.、Porteous,J.、Ferreira,J.F.和Lindsay,A.(2020年)。从文本摘要和描述中获取叙事规划模型。。InAAAI人工智能会议,第1709-1716页。
[48] Hoffmann,J.,Fates,N.和Palacios,H.(2010年)。战友?人工智能规划和元胞自动机。。欧洲人工智能会议,第223-228页·Zbl 1211.68262号
[49] Hoffmann,J.、Porteous,J.和Sebastia,L.(2004)。规划中的有序地标。《人工智能研究杂志》,22,215-278·Zbl 1080.68670号
[50] Hu,Y.和De Giacomo,G.(2011)。广义规划:综合适用于多种环境的规划。国际人工智能联合会议,第22卷。
[51] Icarte,R.T.、Waldie,E.、Klassen,T.、Valenzano,R.、Castro,M.和McIlraith,S.(2019年)。用于部分可观察强化学习的学习奖励机器。《神经信息处理系统进展》,第15497-15508页。
[52] Jim´enez,S.、De La Rosa,T.、Fern´andez,S..、Fernéandez,F.和Borrajo,D.(2012)。自动化规划的机器学习综述。《知识工程评论》,27(04),433-467。
[53] Jim´enez,S.、Segovia Aguas,J.和Jonsson,A.(2019)。广义规划综述。《知识工程评论》,34(e5),1-28。
[54] Kaelbling,L.P.、Littman,M.L.和Moore,A.W.(1996)。强化学习:一项调查。《人工智能研究杂志》,4237-285。
[55] Kambhampati,S.(2007年)。面向网络时代大众的模型级规划:使用不完整和不断发展的领域模型进行规划的挑战。国际人工智能会议(AAAI-07)。
[56] Kearns,M.和Koller,D.(1999)。因子化mdp中的高效强化学习。国际人工智能联合会议,第16卷,第740-747页。
[57] Khardon,R.(1999)。学习规划领域的行动策略。人工智能,113(12),125-148·Zbl 0943.68130号
[58] Kok,S.和Domingos,P.(2007年)。统计谓词发明。在机器学习国际会议上,第433-440页。
[59] Kolobov,A.(2012)。马尔可夫决策过程规划:人工智能视角。人工智能和机器学习综合讲座,6(1),1-210·兹比尔1270.68014
[60] Konidaris,G.、Kaelbling,L.P.和Lozano-P´erez,T.(2018年)。从技能到符号:学习抽象高级规划的符号表示。《人工智能研究杂志》,61215-289·Zbl 1426.68254号
[61] Kucera,J.和Bart´ak,R.(2018年)。LOUGA:使用遗传算法学习规划操作符。《环太平洋地区知识获取研讨会》,PKAW-18,第124-138页。
[62] Lanchas,J.、Jim´enez,S.、Fern´andez,F.和Borrajo,D.(2007年)。从执行中了解行动持续时间。InICAPS'07人工智能规划和学习研讨会。
[63] Lang,T.、Toussant,M.和Kersting,K.(2012年)。基于模型的强化学习的关系域探索。J.马赫。学习。研究,13,3725-3768·兹比尔1433.68360
[64] Langley,P.(2000)。科学发现的计算支持。《国际人类计算机研究杂志》,53(3),393-410·Zbl 1011.68622号
[65] Lindsay,A.、Read,J.、Ferreira,J.、Hayton,T.、Porteous,J.和Gregory,P.(2017a)。框架:来自自然语言动作描述的规划模型。国际自动计划和调度会议。
[66] Lindsay,A.、Read,J.、Ferreira,J.F.、Hayton,T.、Porteous,J.和Gregory,P.(2017b)。框架:来自自然语言动作描述的规划模型。在Barbulescu,L.、Frank,J.、Mausam,&Smith,S.F.(编辑),自动化规划和调度国际会议,ICAPS 2017,第434-442页。AAAI出版社。
[67] Lipovetzky,N.和Geffner,H.(2012年)。经典规划问题的宽度和系列化。在欧洲人工智能会议上,第540-545页·Zbl 1327.68223号
[68] Lipovetzky,N.、Ramirez,M.和Geffner,H.(2015)。带模拟器的经典规划:atari视频游戏的结果。在国际人工智能联合会议上,第1610-1616页。
[69] Lotinac,D.、Segovia-Aguas,J.、Jim´enez,S.和Jonsson,A.(2016)。自动生成用于广义规划的高级状态特征。国际人工智能联合会议(IJCAI-16),第3199-3205页。
[70] Martin,M.和Geffner,H.(2004)。使用概念语言从规划示例中学习通用策略。应用情报,20(1),9-19·Zbl 1078.68713号
[71] 马特·纽·内斯,D.M.、阿伦尼亚,G.、里贝罗,T.、井上春树,K.和托拉斯,C.(2017)。具有外源效应的计划的关系强化学习。J.马赫。学习。研究,18,78:1-78:44·Zbl 1434.68432号
[72] Mausam,A.K.(2012)。基于马尔可夫决策过程的规划:人工智能视角。Morgan&Claypool出版社·Zbl 1270.68014号
[73] Miller,T.(2019)。人工智能解释:来自社会科学的见解。人工智能,267,1-38·Zbl 1478.68274号
[74] Mouráao,K.、Petrick,R.P.和Steedman,M.(2010年)。部分可观察领域中的学习行为效应。。在欧洲人工智能会议上,第973-974页。
[75] Mouráao,K.、Zettlemoyer,L.S.、Petrick,R.P.A.和Steedman,M.(2012)。从嘈杂和不完整的观测中学习STRIPS算子。《人工智能不确定性会议》,UAI-12,第614-623页。
[76] Muggleton,S.(1992年)。归纳逻辑编程。摩根·考夫曼·兹比尔083868093
[77] Nir,R.、Shleyfman,A.和Karpas,E.(2020年)。条状社会规律的自动合成。InAAAI人工智能会议,第9941-9948页。
[78] Pasula,H.M.、Zettlemoyer,L.S.和Kaelbling,L.P.(2007a)。学习随机域的符号模型。《人工智能研究杂志》,29,309-352·Zbl 1182.68181号
[79] Pasula,H.M.、Zettlemoyer,L.S.和Kaelbling,L.P.(2007b)。学习随机域的符号模型。J.阿蒂夫。智力。研究,29,309-352·Zbl 1182.68181号
[80] Pearl,J.(2019)。因果推理的七种工具,以及对机器学习的反思。ACM通讯,62(3),54-60。
[81] Pednault,E.P.(1994)。Adl和行动的状态转换模型。逻辑与计算杂志,4(5),467-512·Zbl 0815.68105号
[82] Ram´rez,M.(2012)。计划识别为计划。蓬佩法布拉大学博士论文。
[83] Ramirez,M.、Papasimeon,M.、Benke,L.、Lipovetzky,N.、Miller,T.和Pearce,A.R.(2017)。通过仿真中的自动规划实时操纵无人机。。在国际人工智能联合会议上,第5243-5245页。
[84] Sallans,B.和Hinton,G.E.(2004年)。通过分解状态和动作强化学习。机器学习研究杂志,5(8月),1063-1088·Zbl 1222.68297号
[85] Sanner,S.(2010年)。关系动态影响图语言(rddl):语言描述。澳大利亚国立大学,32岁,未发表。
[86] Sanner,S.和Boutiler,C.(2009年)。一阶mdps的实用求解技术。Artif公司。整数。,173(5-6), 748-788. ·Zbl 1191.68641号
[87] Schwarting,W.、Alonso-Mora,J.和Rus,D.(2018年)。自主车辆的规划和决策。《控制、机器人和自主系统年度综述》,1(1),187-210。
[88] Segovia-Aguas,J.、Jim´enez,S.和Jonsson,A.(2018年)。用经典规划计算分层有限状态控制器。《人工智能研究杂志》,62755-797·Zbl 1448.68391号
[89] Segovia-Aguas,J.、Jim´enez,S.和Jonsson,A.(2019年)。使用经典规划器计算广义规划程序。人工智能,27252-85·Zbl 1478.68333号
[90] Shahaf,D.和Amir,E.(2006年)。学习部分可观察的动作模式。InAAAI人工智能会议。
[91] Shani,G.、Brafman,R.I.和Shimony,S.E.(2005)。基于模型的pomdps在线学习。在欧洲机器学习会议上,第353-364页。斯普林格。
[92] Shani,G.、Pineau,J.和Kaplow,R.(2013)。基于点的pomdp解算器的调查。自治代理和多代理系统,27(1),1-51。
[93] Shirazi,A.和Amir,E.(2011年)。一阶逻辑滤波,《人工智能》,175(1),193-219·Zbl 1216.68276号
[94] Slaney,J.和Thi´ebaux,S.(2001年)。方块世界重访。人工智能,125(1-2),119-153·Zbl 0969.68136号
[95] Sreedharan,S.、Chakraborti,T.和Kambhampati,S.(2017年)。作为模型协调的解释——多智能体视角。。InAAAI秋季研讨会,第277-283页。
[96] Stern,R.和Juba,B.(2017年)。高效、安全且可能接近完整的行动模型学习。国际人工智能联合会议(IJCAI-17),第4405-4411页。
[97] Strehl,A.L.、Diuk,C.和Littman,M.L.(2007年)。因子状态mdp中的有效结构学习。国际人工智能大会,第7卷,第645-650页。
[98] Su´arez-Hern´andez,A.、Segovia-Aguas,J.、Torras,C.和Aleny´A,G.(2021)。在线动作识别。InAAAI人工智能会议。
[99] Sutton,R.S.和Barto,A.G.(2018年)。强化学习-导论。自适应计算和机器学习。麻省理工学院出版社·Zbl 1407.68009号
[100] Tadepalli,P.、Givan,R.和Driessens,K.(2004)。关系强化学习:概述。《ICML-2004关系强化学习研讨会论文集》,第1-9页。
[101] Walsh,T.、Goschin,S.和Littman,M.(2010年)。整合基于样本的规划和基于模型的强化学习。InAAAI人工智能会议。
[102] Walsh,T.J.和Littman,M.L.(2008a)。有效学习动作模式和网络服务描述。在全国人工智能会议上,AAAI-08,第714-719页。
[103] Walsh,T.J.和Littman,M.L.(2008b)。有效学习动作模式和网络服务描述。InAAAI人工智能会议,第8卷,第714-719页。
[104] Wang,C.和Khardon,R.(2010年)。关系部分可观测MDP。Fox,M.和Poole,D.(编辑),AAAI人工智能会议。
[105] Winston,P.H.(1970年)。从示例中学习结构描述。美国麻省理工学院技术代表。
[106] Wolfram,S.(2002年)。一门新科学,第5卷。伊利诺伊州香槟Wolfram media·Zbl 1022.68084号
[107] Xiao,Y.、Codevilla,F.、Pal,C.和Lopez,A.M.(2020年)。基于行动的自主驾驶表征学习。《机器人学习会议》(CoRL 2020),机器学习研究进展第155卷,第232-246页。
[108] Xu,J.Z.和Laird,J.E.(2011)。结合学习的离散和连续动作模型。在Burgard,W.和Roth,D.(编辑),2011年AAAI人工智能会议。AAAI出版社。
[109] Yang,F.、Khandelwal,P.、Leonetti,M.和Stone,P.(2014)。在学习移动机器人动作成本的同时,进行答案集编程规划。《机器人知识表示与推理》,第71-78页。AAAI公司。
[110] Yang,Q.,Wu,K.,&Jiang,Y.(2007)。使用加权MAX-SAT从计划示例中学习行动模型。人工智能,171(2-3),107-143·Zbl 1168.68555号
[111] Yoon,S.、Fern,A.和Givan,R.(2008年)。学习前向搜索规划的控制知识。。机器学习研究杂志,9(4)·Zbl 1225.68246号
[112] Zhuo,H.H.和Kambhampati,S.(2013)。从有噪声的计划轨迹中获取行动模型。在国际人工智能联合会议上,IJCAI-13,第2444-2450页。
[113] Zhuo,H.H.、Nguyen,T.和Kambhampati,S.(2013)。通过计划跟踪细化不完整的计划领域模型。国际人工智能联合会议。
[114] 卓华华、杨强、胡德华和李林(2010)。学习带有量词和逻辑含义的复杂动作模型。人工智能,174(18),1540-1569
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。