×

定性的基于案例的推理和学习。 (英语) Zbl 1433.68461号

摘要:开发能够以与人类相同的灵活性执行任务的自主代理是人工智能和机器人技术的挑战之一。这激发了对智能智能体的研究,因为智能体必须在动态环境中选择最佳行动,才能最大限度地提高最终得分。在此背景下,本文介绍了一种新的定性案例推理与学习算法(QCBRL),这是一种基于案例的推理系统,它使用定性空间表示,通过环境中对象之间的关系检索和重用案例。结合强化学习,QCBRL允许代理在运行时学习新的定性案例,而无需假定预处理步骤。为了避免出现无法实现最佳性能的情况,QCBRL执行基于案例的维护,排除这些情况并获取新的(更合适的)情况。QCBRL的实验评估是在模拟机器人环境、真实仿人机器人环境和两个不同网格域中的简单任务中进行的。结果表明,QCBRL优于传统的RL方法。由于在自主足球比赛中运行QCBRL,机器人的平均进球数高于使用纯数值模型时的平均进球数。在考虑的网格世界中,代理能够学习最佳和安全策略。

MSC公司:

68T42型 Agent技术与人工智能
68T05型 人工智能中的学习和自适应系统
68T40型 机器人人工智能

软件:

KnowRob公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aamodt,A。;Plaza,E.,《基于案例的推理:基础问题、方法变化和系统方法》,AI Commun。,7, 1, 39-59 (1994)
[2] 阿戈斯蒂尼,A。;托拉斯,C。;Wörgötter,F.,机器人应用的高效交互式决策框架,Artif。智力。,247, 187-212 (2017) ·Zbl 1420.68164号
[3] 阿尔布雷希特,S.V。;Stone,P.,《模拟其他代理的自治代理:综合调查和开放问题》,Artif。智力。,258, 66-95 (2018) ·Zbl 1433.68460号
[4] Asis,K.D。;Hernandez-garcia,J.F。;Holland,G.Z。;Sutton,R.S.,《多步骤强化学习:统一算法》,(第二十七届国际人工智能联合会议论文集(IJCAI-18)(2018)),2902-2909
[5] Auslander,B。;美国利乌班。;霍格,C。;Muñoz-Avila,H.,《认识敌人:使用基于案例的推理将强化学习与策略选择结合起来》,(《基于案例推理的进展》(2008),施普林格-柏林-海德堡:施普林格/柏林-海德堡-柏林,海德堡),59-73
[6] 巴雷特,S。;Stone,P.,《在复杂领域与未知队友合作:机器人足球特别团队合作案例研究》,(第二十届美国人工智能协会第二十届会议论文集(2015)),2010-2016年
[7] Baughman,A.K。;庄,W。;Dixon,K.R。;本茨,Z。;Basilico,J.,Deepqa危险!游戏化:机器学习视角,IEEE Trans。计算。智力。人工智能游戏,6,1,55-66(2014)
[8] Bianchi,R.A。;塞利伯托,洛杉矶。;桑托斯,体育。;松浦,J.P。;Lopez de Mantaras,R.,《强化学习中作为启发式的知识转移》,Artif。智力。,226,C,102-121(2015)·Zbl 1346.68153号
[9] 比安奇,R.A.C。;罗斯·R。;Lopez de Mantaras,R.,《通过使用基于案例的启发式改进强化学习》(McGinty,L.;Wilson,D.C.,《基于案例的推理研究与开发》(2009),斯普林格·柏林-海德堡:斯普林格尔·柏林-海德堡-柏林,海德堡),75-89
[10] 比安奇,R.A.C。;桑托斯,体育。;达席尔瓦,I.J。;塞利伯托,洛杉矶。;Lopez de Mantaras,R.,通过基于案例的推理和转移学习,启发式加速强化学习,J.Intell。机器人。系统。,91, 2, 301-312 (2018)
[11] Burkhard,H.,基于案例推理中的案例完成和相似性,计算。科学。信息系统。,1, 2, 27-55 (2004)
[12] 塞利伯托,洛杉矶。;比安奇,R.A.C。;Santos,P.E.,转移学习启发式加速算法:真实机器人的案例研究,(2016年第十三届拉丁美洲机器人研讨会和第四届巴西机器人研讨会(LARS/SBR)(2017)),311-316
[13] 科恩,A.G。;Renz,J.,《第13章定性空间表示和推理》(van Harmelen,F.;Lifschitz,V.;Porter,B.,《知识表示手册》,《人工智能基础》,第3卷(2008),爱思唯尔),551-596·Zbl 1183.68611号
[14] 科尔曼,T.H。;斯坦因,C。;Rivest,R.L。;Leiserson,C.E.,算法导论(2001),麦格劳-希尔高等教育·Zbl 1047.68161号
[15] 多尔,C.H。;Latecki,L.J。;Moratz,R.,基于定性空间推理演算eopram的形状相似性,(空间信息理论-第12届国际会议,COSIT 2015,美国新墨西哥州圣菲,2015年10月12日至16日,Proceedings(2015)),130-150
[16] Fabro,J.A。;Reis,L。;Lau,N.,《使用强化学习技术在机器人足球模拟团队中选择具有多种可能性的场景中的最佳动作》,(2014年机器人联合会议:SBR-LARS机器人研讨会和机器人控制(2014)),85-90
[17] Ferrucci,D.A。;布朗,E.W。;Chu-Carroll,J。;范,J。;贡德克,D。;Kalyanpur,A。;A.拉利。;默多克,J.W。;Nyberg,E。;Prager,J.M。;Schlaefer,N。;Welty,C.A.,Building Watson:deepqa项目概述,AI Mag.,31,3,59-79(2010)
[18] 弗洛伊德,M.W。;Esfandiari,B.,《使用观察学习开发代理的基于案例的推理框架》,(2011年IEEE第23届人工智能工具国际会议(2011年)),531-538
[19] Floyd,M.W。;Esfandiari,B。;Lam,K.,《模拟机器人运动员的基于案例的推理方法》(第二十届国际FLAIRS会议论文集(2008)),251-256
[20] Formica,A。;Mazzei,M。;Pourabbas,E。;Rafanelli,M.,涉及多段线-多段线拓扑关系的查询的近似回答,Inf.Vis。,17, 2, 128-145 (2018)
[21] Frank,A.U.,《具有基本方向的定性空间推理》(Kaindl,H.,7。奥地利第七届人工智能会议(1991年),施普林格柏林-海德堡:施普林格-柏林-海德堡,157-167
[22] 弗莱雷,V。;Costa,A.H.R.,机器人导航中转移学习抽象政策的比较分析,(《自主机器人的知识、技能和行为转移》,《自主机器人中的知识、技术和行为转移,2015年AAAI研讨会》(2015年),AAAI出版社:美国德克萨斯州奥斯汀AAAI出版公司),9-15
[23] Freksa,C.,基于半区间的时间推理,Artif。智力。,54, 1-2, 199-227 (1992) ·Zbl 1506.68138号
[24] 哈,我。;Y.田村。;Asama,H。;Han,J。;Hong,D.W.,开放式人形平台DARwIn-op的开发,(SICE 2011年年度会议(2011年)),2178-2181
[25] Hausknecht,M。;Mupparaju,P。;Subramanian,S。;Kalyanakrishnan,S。;Stone,P.,《半场进攻:多智能体学习和AdHoc团队合作的环境》,(2016年AAMAS会议记录-自适应学习代理研讨会。2016年AAMA会议记录-新加坡自适应学习代理讲习班(2016))
[26] Hausknecht,M。;Stone,P.,《参数化行动空间中的深度强化学习》(2016年国际学习表征会议论文集),1-17
[27] 霍姆,T.P.D。;佩里科·D·H。;桑托斯,体育。;比安奇,R.A.C。;de Mantaras,R.L.,《基于定性案例的人形机器人足球推理:一种新的检索和重用算法》,(《计算机科学讲义》,第9969卷(2016年),施普林格:施普林格商会,美国佐治亚州亚特兰大),170-185
[28] 霍姆,T.P.D。;佩里科·D·H。;桑托斯,体育。;比安奇,R.A.C。;de Mantaras,R.L.,检索和重用定性案例:在类人机器人足球中的应用,AI Commun。,30,3-4251-265(2017)
[29] 霍姆,T.P.D。;佩里科·D·H。;桑托斯,体育。;科斯塔,A.H.R。;Bianchi,R.A.C.,用定性空间表征改善强化学习结果,(2017年巴西智能系统会议(BRACIS)(2017),IEEE),151-156
[30] 霍姆,T.P.D。;佩里科·D·H。;桑托斯,体育。;科斯塔,A.H.R。;比安奇,R.A.C。;de Mantaras,R.L.,学习、检索和重用定性案例的混合方法,(2017年拉丁美洲机器人研讨会(LARS)和2017年巴西机器人研讨会(SBR)(2017)),1-6
[31] Kalyanakrishnan,S。;刘,Y。;Stone,P.,《机器人足球中的半场进攻:一个多智能体强化学习案例研究》(Lakemeyer,G.;Sklar,E.;Sorrenti,D.G.;Takahashi,T.,《2006机器人足球世界杯:机器人足球X(2007)》,斯普林格·柏林-海德堡:斯普林格-柏林-海德堡-柏林),72-85
[32] Kendall-Morwick,J。;Leake,D.,《面向过程的基于案例推理的两阶段检索研究》,(成功的基于案例的推理应用-2(2014),施普林格-柏林-海德堡:施普林格/柏林-海德堡-柏林,海德堡),7-27
[33] Khajotia,B。;Sormaz,D。;Nesic,S.,基于现场数据的CO2腐蚀案例推理模型,(2007年NACE会议论文(NACE国际)。2007年NACE会议论文(NACE国际),美国德克萨斯州休斯顿(2007)),1-14
[34] Koga,M.L。;弗莱雷,V。;Costa,A.H.R,《随机抽象策略:推广知识以改进强化学习》,IEEE Trans。赛博。,45, 1, 77-88 (2015)
[35] Kuhlmann,G。;Stone,P.,《学习3 vs.2 keepaway的进步》(Polani,D.;Browning,B.;Bonarini,A.;Yoshida,K.,《2003年机器人足球世界杯:机器人足球第七届世界杯》(2004),斯普林格·柏林-海德堡:斯普林格-柏林-海德堡-柏林,海德堡),694-702
[36] Kuipers,B.,空间语义层次,Artif。智力。,119, 1, 191-233 (2000) ·Zbl 0947.68561号
[37] Leike,J。;Martic,M。;克拉科夫纳,V。;奥尔特加,P.A。;埃弗里特,T。;Lefrancq,A。;奥尔索,L。;Legg,S.,AI安全网格世界,CoRR 2017
[38] Ligozat,G.,《定性空间和时间推理》(2013),John Wiley&Sons公司:John Willey&Sons,Inc.Hoboken,NJ,USA·Zbl 1232.68004号
[39] Lillicrap,T.P.公司。;亨特·J·J。;Pritzel,A。;海斯,北。;埃雷斯,T。;塔萨,Y。;Silver博士。;Wierstra,D.,深度强化学习的持续控制,CoRR 2015
[40] McGill,R。;Tukey,J.W。;Larsen,W.A.,《箱形图的变化》,《美国统计》,32,1,12-16(1978)
[41] Mnih,V。;Kavukcuoglu,K。;Silver博士。;Rusu,A.A。;Veness,J。;Bellemare,M.G。;格雷夫斯,A。;里德米勒,M。;Fidjeland,A.K。;奥斯特罗夫斯基,G。;彼得森,S。;比蒂,C。;萨迪克,A。;安东尼奥卢,I。;金·H。;库马兰,D。;Wierstra,D。;腿,S。;Hassabis,D.,《通过深度强化学习实现人类层面的控制》,《自然》,518,7540,529-533(2015)
[42] 莫拉茨,R。;Wallgrün,J.O.,《用增广点进行空间推理:用局部距离扩展基本方向》,J.Spat。信息科学。,5, 5, 1-30 (2012)
[43] Orduña Cabrera,F。;Sánchez-Marè,M.,通过基于案例的随机学习方法进行环境数据流挖掘,Environ。模型。软质。,106, 22-34 (2018)
[44] Pal,S.K。;Shiu,S.C.K.,《基于软案例推理的基础》(2004),John Wiley&Sons,Inc。
[45] 佩里科,D.H。;席尔瓦,I.J。;哥伦比亚特区小维尔。;霍姆,T.P.D。;R.C.德斯特罗。;托尼丹德尔,F。;Bianchi,R.A.C.,Newton:机器人杯足球儿童联赛的高级控制人形机器人,(Osório,F.S.;Wolf,D.F.;Castelo Branco,K.;Grassi,V.;Becker,M.;Romero,R.,Robotics(2015),施普林格-柏林-海德堡:施普林格-柏林-海德堡-海德堡,海德堡),53-73
[46] Precup,D。;Sutton,R.S。;Dasgupta,S.,带函数近似的非策略时间差学习,(第十八届国际机器学习会议论文集。第十八届国际机器学习会议论文集,ICML'01(2001),Morgan Kaufmann Publishers Inc.:Morgan Kaufmann Publishers Inc.,美国加利福尼亚州旧金山), 417-424
[47] Ramirez-Amaro,K。;贝茨,M。;Cheng,G.,通过从人类活动的观察中提取语义表示,将技能转移到类人机器人,Artif。智力。,95-118年8月247日(2017年)·Zbl 1420.68217号
[48] Randell,D.A。;崔,Z。;Cohn,A.G.,《基于区域和连接的空间逻辑》(《第三届知识表示和推理国际会议论文集》(1992年),Morgan Kaufmann)
[49] Randell,D.A。;Witkowski,M。;Shanahan,M.,《从图像到身体:建模和利用空间遮挡和运动视差》(《第十七届国际人工智能联合会议论文集》,《第十七次国际人工智能联席会议论文集,2001年8月4日至10日,美国华盛顿州西雅图》(2001)), 57-66
[50] 伦茨,J。;Mitra,D.,任意粒度的定性方向计算,(Zhang,C.;Guesgen,H.W.;Yeap,W.K.,PRICAI 2004:Trends in Artificial Intelligence(2004),Springer Berlin Heidelberg:Springer Barlin Heitelberg Berlin,Heidelburg),65-74
[51] Richter,M.M。;韦伯,R.O.,《基于案例的推理:一本教科书》(2013),施普林格出版公司
[52] 机器人杯,机器人杯足球模拟器(2018)
[53] 罗德里格斯,E。;桑托斯,体育。;Lopes,M.,《确定一词多义:巴西葡萄牙语介词Cogn的形式化》。系统。决议,41,C,84-92(2017)
[54] 罗斯·R。;Arcos,J.L。;马塔拉斯,R.L。;Veloso,M.M.,机器人足球中基于案例的协调动作选择方法,Artif。智力。,173, 9-10, 1014-1039 (2009)
[55] Rummery,G.A。;Niranjan,M.,《使用连接系统进行在线Q-Learning》(1994年),剑桥大学工程系,技术报告
[56] 罗素·S·J。;Norvig,P.,《人工智能-现代方法》(2010),培生教育
[57] 桑托斯,体育。;马丁斯,M.F。;费内隆,V。;Cozman,F.G。;Dee,H.M.,基于闭塞的定性地图上的概率自定位,J.Exp.Theor。Artif公司。智力。,28, 5, 781-799 (2016)
[58] 希弗,S。;Ferrein,A。;Lakemeyer,G.,《情境演算中国内领域定性位置信息的推理》,J.Intell。机器人。系统。,66, 1-2, 273-300 (2012)
[59] Silver博士。;Schrittwieser,J。;Simonyan,K。;安东尼奥卢,I。;黄,A。;A.盖兹。;休伯特,T。;贝克,L。;赖,M。;博尔顿,A。;陈,Y。;Lillicrap,T。;Hui,F。;Sifre,L。;van den Driessche,G。;Graepel,T。;Hassabis,D.,《在没有人类知识的情况下掌握围棋游戏》,《自然》,550,354(2017)
[60] 辛格,S.P。;Sutton,R.S.,《替换合格痕迹的强化学习》,马赫。学习。,22, 1-3, 123-158 (1996) ·邮编1099.68700
[61] Srinivasan,T。;Aarthi,K。;Meenakshi,S.A。;Kausalya,M.,CBRRoboSoc:使用基于案例推理的机器人足球高效规划策略,(2006年建模控制和自动化计算智能国际会议和智能代理网络技术与国际商务国际会议(CIMCA'06)(2006),IEEE),113-118
[62] 斯通,P。;Kuhlmann,G。;M.E.泰勒。;Liu,Y.,Keepaway soccer:从机器学习测试床到基准,(Bredenfeld,A.;Jacoff,A.;Noda,I.;Takahashi,Y.《机器人足球杯2005:机器人足球世界杯第九届(2006)》,斯普林格·柏林-海德堡:斯普林格-柏林-海德堡-柏林),93-105
[63] 斯通,P。;Sutton,R.S。;Kuhlmann,G.,《机器人足球守门员强化学习》,Adapt。行为。,13, 3, 165-188 (2005)
[64] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(2018年),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥·Zbl 1407.68009号
[65] 特诺思,M。;Beetz,M.,《机器人知识在KnowRob框架中的表示》,Artif。智力。,247, 151-169 (2017) ·Zbl 1420.68218号
[66] 瓦萨达尼,M。;斯特林,L。;Winter,S.,从空间语言、认知和信息系统的角度看介词at,Semant。布拉马特。,10, 1-34 (2017)
[67] Watkins,C.J.C.H.,《从延迟奖励中学习》(1989年),英国剑桥大学国王学院,博士论文
[68] 沃特金斯,C.J.C.H。;大研,P.,Q-learning,马赫。学习。,8, 3, 279-292 (1992) ·Zbl 0773.68062号
[69] 沃森,I。;Marir,F.,《基于案例的推理:综述》,Knowl。工程修订版,9,4,327-354(1994)
[70] Wolter博士。;Wallgrün,J.O.,《应用的定性空间推理:新挑战和SparQ工具箱》(Qualitative Spatio-Temporal Representation and reasoning:Trends and Future Directions,2012),IGI Global,336-362
[71] 严,A。;钱,L。;Zhang,C.,记忆和遗忘:一种改进的基于案例推理的动态维护方法,信息科学。,287,完整,50-60(2014)
[72] Yang,L。;Shi,M。;郑琦。;Meng,W。;Pan,G.,《强化学习中具有合格痕迹的多步骤时间差分学习的统一方法》,(第二十七届国际人工智能联合会议论文集(IJCAI-18)(2018)),2984-2990
[73] Zeyen,C。;米勒·G。;Bergmann,R.,烹饪食谱的对话检索(ICCBR 2017研讨会论文集,第2028卷)。2017年ICCBR研讨会论文集,第2028卷,挪威特隆赫姆(2017)),237-244
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。