×

马尔可夫决策过程之间相似性度量的分类。 (英语) Zbl 07694463号

摘要:尽管任务相似性的概念在课程学习或自动规划等广泛领域中可能很有意思,但它主要与迁移学习联系在一起。迁移是基于这样一种思想,即将在学习一组源任务时获得的知识重用到目标任务中的新学习过程中,假设目标任务和源任务是足够近了近年来,转移学习成功地提高了强化学习(RL)算法的效率(例如,通过减少实现(接近)最优性能所需的样本数量)。转入RL基于以下核心概念相似性:每当任务类似的,转移的知识可以重用以解决目标任务,并显著提高学习性能。因此,在构建传输RL算法时,选择好的度量标准来度量这些相似性是一个关键方面,特别是当此知识从模拟传输到现实世界时。在文献中,有许多衡量MDP之间相似性的指标,因此相似性或其补语距离已被考虑。在本文中,我们提出了这些指标的分类,并分析了相似性考虑到这种分类,提出了迄今为止的建议。我们还遵循这一分类法来调查现有文献,并为构建新指标建议未来的方向。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aamodt,A。;Plaza,E.,基于案例的推理:基础问题、方法变化和系统方法,人工智能通信,7,1,39-59(1994)·doi:10.3233/AIC-1994-7104
[2] Abel,D.、Hershkowitz,D.E.和Littman,M.L.(2016)。通过近似状态抽象实现近似最优行为。第33届机器学习国际会议论文集,JMLR.org(第2915-2923页)。
[3] Agarwal,R.、Machado,M.C.、Castro,P.S.和Bellemare,M.G.(2021年)。强化学习中用于泛化的对比行为相似嵌入。在第九届国际学习代表大会上,ICLR 2021,虚拟活动,奥地利,2021年5月3-7日,OpenReview.net,URLhttps://openreview.net/forum?id=qda7-sVg84。
[4] Ammar,H.、Eaton,E.、Taylor,M.、Decebal,C.、Mocanu,D.、Driessens,K.、Weiss,G.和Tuyls,K.(2014)。用于强化学习中迁移的MDP相似性的自动测量。在第二十八届AAAI人工智能会议的研讨会上。
[5] Ashmore,S.C.(2015)。评估神经网络之间的内在相似性。阿肯色大学。
[6] Azar,M.G.、Lazaric,A.和Brunskill,E.(2013年)。遗憾的是,用政策建议强化学习。在关于数据库中的机器学习和知识发现的欧洲联合会议上(第97-112页)。斯普林格。
[7] Bacci,G.、Bacci、G.、Larsen,K.G.和Mardare,R.(2013)。双相似距离的实时精确计算。在关于系统构建和分析的工具和算法的国际会议上(第1-15页)。斯普林格·Zbl 1381.68218号
[8] 比安奇,RAC;罗斯·R。;洛佩斯·德·曼塔拉斯,R。;麦金蒂。;Wilson,DC,《使用基于案例的启发式改进强化学习》,基于案例的推理研究与开发,75-89(2009),柏林:施普林格出版社,柏林·doi:10.1007/978-3642-02998-17
[9] Carroll,J.L.(2005)。任务定位、相似性和转移;面向强化学习任务库系统。博士论文。
[10] Carroll,J.L.和Seppi,K.(2005)。强化学习任务库中迁移的任务相似性度量。2005年IEEE神经网络国际联合会议论文集,2005年,第2卷(第2卷,第803-808页)。doi:10.1109/IJCNN.2005.155955。
[11] 卡斯特罗,P.S.(2020)。确定性马尔可夫决策过程中计算状态相似性的可伸缩方法。第三十四届AAAI人工智能会议论文集(AAAI-20)。
[12] Castro,P.和Precup,D.(2010年)。在MDP中使用相互模拟进行政策转移。《AAAI人工智能会议论文集》(第24卷)。
[13] Castro,P.S.和Precup,D.(2011年)。使用互模拟度量为MDP自动构建临时扩展动作。欧洲强化学习研讨会(第140-152页)。斯普林格。
[14] Castro,P.S.、Kastner,T.、Panangaden,P.和Rowland,M.(2021)。Mico:通过基于采样的状态相似性改进马尔可夫决策过程的表示。M.Ranzato、A.Beygelzimer、Y.Dauphin、P.Liang和J.W.Vaughan(编辑),《神经信息处理系统的进展》,Curran Associates,Inc.,第34卷(第30113-30126页),URLhttps://proceedings.neurips.cc/paper/2021/file/fd06b8ea02fe5b1c2496fe1700e9d16c-paper.pdf。
[15] Celiberto Jr,L.A.、Matsuura,J.P.、De Mantaras,R.L.和Bianchi,R.A.(2011)。在强化学习中使用案例作为启发式:转移学习应用程序。在第二十届国际人工智能联合会议上。
[16] Comanici,G.、Panangaden,P.和Precup,D.(2012年)。互模拟度量的即时算法。2012年第九届系统定量评估国际会议(第94-103页)。电气与电子工程师协会。
[17] 科马尼奇,G。;Precup,D。;帕南加登,P。;科尔特斯,C。;劳伦斯,N。;Lee,D。;杉山,M。;Garnett,R.,MDP中线性值函数近似的基础精化策略,神经信息处理系统进展(2015),Curran Associates,Inc。
[18] Conci,A.和Kubrusly,C.(2018年)。集合之间的距离——测量。arXiv:1808.02574·Zbl 1472.28006号
[19] Fachantidis,A.(2016年)。强化学习中的知识转移。博士论文。
[20] Fachantidis,A.、Partalas,I.、Taylor,M.和Vlahavas,I.(2011年)。通过多任务间映射进行迁移学习(pp.225-236),doi:10.1007/978-3642-29946-9_23。
[21] Fachantidis,A。;帕塔拉斯,I。;ME泰勒;Vlahavas,I.,带概率映射选择的转移学习,自适应行为,23,1,3-19(2015)·doi:10.1177/1059712314559525
[22] 费尔南德斯,S。;Aler,R。;Borrajo,D.,自动化规划师之间的知识转移,AI杂志,32,2,79-94(2011)·doi:10.1609/aimag.v32i2.2334
[23] Fernández,F。;加西亚,J。;Veloso,M.,任务间转移学习的概率策略重用,机器人与自治系统,58,7866-871(2010)·doi:10.1016/j.robot.2010.03.007
[24] Fernández,F。;Veloso,M.,《通过强化学习中的概率策略重用学习领域结构》,《人工智能进展》,2013年第2期,第1期,第13-27页·doi:10.1007/s13748-012-0026-6
[25] Ferns,N.、Castro,P.S.、Precup,D.和Panangaden,P.(2006年)。马尔可夫决策过程中状态相似度的计算方法。2006年7月13日至16日,美国马萨诸塞州剑桥市,第22届人工智能不确定性会议论文集,UAI'06,AUAI出版社。
[26] Ferns,N.、Panangaden,P.和Precup,D.(2004)。有限马尔可夫决策过程的度量。UAI,第4卷(第162-169页)·Zbl 1253.39018号
[27] Ferns,N.、Panangaden,P.和Precup,D.(2012年)。具有无限状态空间的马尔可夫决策过程的度量。arXiv:1207.1386·Zbl 1253.39018号
[28] Ferrante,E.、Lazaric,A.和Restelli,M.(2008)。使用基于策略的原值函数在强化学习中传递任务表示。AAMAS(3)(第1329-1332页)。
[29] 高,X。;萧,B。;陶,D。;Li,X.,图形编辑距离的调查,模式分析与应用,13,1,113-129(2010)·Zbl 1422.68211号 ·doi:10.1007/s10044-008-0141-y
[30] 加西亚·J,洛佩斯·布埃诺,I。;Fernández,F。;Borrajo,D.,《Keepaway Soccer任务中状态空间泛化离散化方法的比较研究》(2010),纽约:Nova Science Publishers,纽约
[31] Genesereth,M。;爱,N。;佩尔,B.,《一般游戏:AAAI比赛概述》,AI杂志,26,2,62-62(2005)
[32] Ghojogh,B.、Ghodsi,A.、Karray,F.和Crowley,M.(2021)。受限玻尔兹曼机器和深度信念网络:教程和调查。arXiv:2107.12521。
[33] Giunchiglia,F.(Giunchiglia,F.)。;Walsh,T.,抽象理论,人工智能,57,2-3,323-389(1992)·Zbl 0762.68054号 ·doi:10.1016/0004-3702(92)90021-O
[34] Givan,R。;院长,T。;Greig,M.,马尔可夫决策过程中的等价概念和模型最小化,人工智能,147,1-2,163-223(2003)·Zbl 1082.68801号 ·doi:10.1016/S0004-3702(02)00376-4
[35] Gleave,A.、Dennis,M.、Legg,S.、Russell,S.和Leike,J.(2020年)。量化奖励功能的差异。arXiv:2006.13900。
[36] 通用电气公司Hinton;Salakhutdinov,RR,《用神经网络降低数据的维数》,《科学》,3135786504-507(2006)·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[37] Jeh,G.和Widom,J.(2002年)。Simrank:结构-内容相似性的度量。第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集,计算机械协会,美国纽约州纽约市,KDD’02(第538-543页),doi:10.1145/7750475126。
[38] 金·R。;李,VE;Li,L.,网络角色相似性的可伸缩性和公理化排序,ACM数据发现交易(TKDD),8,1,1-37(2014)·doi:10.1145/2518176
[39] Jong,N.K.和Stone,P.(2005)。从无关状态变量中发现状态抽象。在IJCAI,Citeser,第8卷(第752-757页)。
[40] Kaelbling,有限合伙人;利特曼,ML;Moore,AW,强化学习:一项调查,《人工智能研究杂志》,4237-285(1996)·doi:10.1613/jair.301
[41] Karinpanal,T.G.和Bouffanais,R.(2018年)。自我组织图作为强化学习中的存储和传输机制。arXiv:1807.07530。
[42] Kemmer,D.,《跨语言和大脑的对象概念分类:名词分类系统与认知神经科学、语言、认知和神经科学的相关性》,32,4,401-424(2017)·doi:10.1080/23273798.2016.1198819
[43] Kuhlmann,G.和Stone,P.(2007年)。用于一般游戏中转移学习的基于图形的域映射。第18届欧洲机器学习会议论文集http://www.cs.utexas.edu/users/ai-lab?kuhlmann:ecml07。
[44] Lan,C.L.、Bellemare,M.G.和Castro,P.S.(2021)。强化学习中的指标和连续性。第三十五届AAAI人工智能会议,AAAI 2021,第三十三届人工智能创新应用会议,IAAI 2021.第十一届人工智能教育进步研讨会,EAAI 2021.2021,虚拟事件,2021年2月2-9日(第8261-8269页)。AAAI出版社,URLhttps://ojs.aaai.org/index.php/aaai/article/view/17005。
[45] Lazaric,A.(2008)。强化学习中的知识转移。博士论文。
[46] Lazaric,A.、Restelli,M.和Bonarini,A.(2008)。批量强化学习中的样本转移。在ICML(第544-551页)中,doi:10.1145/1390156.1390225。
[47] Li,S.,&Zhang,C.(2017)。为强化学习选择源策略的最佳在线方法。arXiv:1709.08201。
[48] Li,L.、Walsh,T.J.和Littman,M.L.(2006)。迈向MDP状态抽象的统一理论。在ISAIM中。
[49] 林,Z。;吕,MR;King,I.,Matchsim:基于最大邻域匹配的新型相似性度量,知识与信息系统,32,1,141-166(2012)·doi:10.1007/s10115-011-0427-z
[50] Liu,Y.和Stone,P.(2006)。使用结构映射进行基于值函数的强化学习转移。《第二十一届全国人工智能会议记录》(第415-420页)。
[51] Mahmud,M.、Hawasly,M.,Rosman,B.和Ramamoorthy,S.(2013年)。连续传输的聚类马尔可夫决策过程。arXiv:1311.3959。
[52] 麦凯,BD;Piperno,A.,实用图同构,ii,符号计算杂志,6094-112(2014)·Zbl 1394.05079号 ·doi:10.1016/j.jsc.2013.09.003
[53] Mendonca,R.、Geng,X.、Finn,C.和Levine,S.(2020年)。通过模型识别和经验重新标记,元增强学习对分布转移具有鲁棒性。arXiv:2006.07178年。
[54] Milner,R.,《通信系统的微积分》(1982),柏林:施普林格出版社,柏林·Zbl 0452.68027号
[55] Narayan,A.和Leong,T.Y.(2019年)。强化学习中任务相似性对选择性探索策略迁移的影响。在第18届自主智能体和多智能体系统国际会议论文集(第2132-2134页)。
[56] 南卡罗来纳韦卡尔。;彭,B。;Leonetti,M。;辛纳波夫,J。;ME泰勒;Stone,P.,《强化学习领域的课程学习:框架和调查》,《机器学习研究杂志》,21,181,1-50(2020)·Zbl 1527.68188号
[57] Nielsen,F.,《论依赖抽象手段的距离的Jensen-Shannon对称化》,《熵》,21485(2019)·doi:10.3390/e21050485
[58] Ontañón,S.,《结构化数据的距离和相似函数概述》,《人工智能评论》,53,7,5309-5351(2020)·doi:10.1007/s10462-020-09821-w
[59] 潘,J。;王,X。;Cheng,Y。;Yu,Q.,基于参与者学习的多源传输双DQN,IEEE神经网络和学习系统汇刊,29,6,2227-2238(2018)·doi:10.1109/TNNLS.2018.2806087
[60] Phillips,C.(2006)。马尔可夫决策过程中的知识转移。技术代表,技术报告,麦吉尔大学计算机科学学院,2006年。URL。。。
[61] Ravindran,B.和Barto,A.G.(2002年)。分层强化学习中的模型最小化。在关于抽象、改写和近似的国际研讨会上(第196-211页)。斯普林格·Zbl 1077.68781号
[62] Ravindran,B.和Barto,A.G.(2003年)。相对化选项:选择正确的转换。在第20届机器学习国际会议论文集(ICML-03)(第608-615页)。
[63] Rusu,A.A.、Rabinowitz,N.C.、Desjardins,G.、Soyer,H.、Kirkpatrick,J.、Kavukcuoglu,K.、Pascanu,R.和Hadsell,R.(2016)。渐进式神经网络。arXiv:1606.04671。
[64] Serrano,S.A.、Martinez-Carranza,J.和Sucar,L.E.(2021)。异构任务的任务间相似性度量。在RoboCup研讨会上。计算机科学讲稿,斯普林格。
[65] Shui,C.、Abbasi,M.、Robitaille,L.、Wang,B.和Gagné,C.(2019年)。一种在多任务学习中学习任务相似性的原则方法。第二十八届国际人工智能联合会议论文集,2019年。
[66] 西尔弗·D。;Huang,A。;CJ麦迪逊;A.盖兹。;Sifre,L。;Van Den Driessche,G。;Schrittwieser,J。;安东尼奥卢,I。;Panneershelvam,V。;Lanctot,M.,《掌握深度神经网络和树搜索的游戏》,《自然》,529,7587,484(2016)·doi:10.1038/nature16961
[67] Sinapov,J.、Narvekar,S.、Leonetti,M.和Stone,P.(2015)。在缺少目标任务样本的情况下学习任务间的可迁移性。第2卷。
[68] Song,J.,Gao,Y.,Wang,H.,&An,B.(2016)。测量有限马尔可夫决策过程之间的距离。在第15届自主代理和多代理系统国际会议的会议记录中(AAMAS 2016)。
[69] Sorg,J.和Singh,S.(2009年)。通过软同态转移。收录于:第八届自主代理和多代理系统国际会议记录第2卷(第741-748页)。
[70] 萨顿,RS;Barto,AG,《强化学习:简介》(2011),剑桥:麻省理工学院出版社,剑桥·Zbl 1407.68009号
[71] Svetlik,M.、Leonetti,M.,Sinapov,J.、Shah,R.、Walker,N.和Stone,P.(2017年)。强化学习代理的自动课程图生成。《AAAI人工智能会议记录》(第2590-2596页)。
[72] Tao,Y.、Genc,S.、Chung,J.、Sun,T.和Mallya,S.(2021年)。重新喷漆:深度强化学习中的知识转移。arXiv:2011年11月827日
[73] Taylor,M.E.和Stone,P.(2009年)。强化学习领域的迁移学习:一项调查。机器学习研究杂志10(7)·Zbl 1235.68196号
[74] Taylor,M.E.、Kuhlmann,G.和Stone,P.(2008c)。强化学习的自主迁移。在AAMAS(1)中,Citeser(第283-290页)。
[75] ME泰勒;朝鲜民主主义人民共和国郑大世;斯通,P。;Daelemans,W。;Goethals,B。;Morik,K.,数据库中基于模型的强化学习、机器学习和知识发现的转移实例,488-505(2008),柏林:施普林格出版社,柏林·doi:10.1007/978-3-540-87481-2_32
[76] 泰勒,J。;Precup,D。;Panagaden,P.,《近似MDP同态的边界性能损失》,《神经信息处理系统的进展》,211649-1656(2008)
[77] Torrey,L.和Shavlik,J.(2010年)。转移学习。《机器学习应用和趋势研究手册:算法、方法和技术》,IGI global(第242-264页)·Zbl 1185.68578号
[78] Van Hasselt,H.(2012)。在连续状态和动作空间中强化学习。强化学习(第207-251页)。斯普林格。
[79] Wang,H.、Dong,S.和Shao,L.(2019年)。测量有限MDP中的结构相似性。在第二十八届国际人工智能联合会议记录中,IJCAI-19,国际人工智能组织联合会议(第3684-3690页),doi:10.24963/IJCAI.2019/511。
[80] Wang,D.z.和Liang,J.y.(2019年)。基于差分散列算法的主题图像爬虫的研究与设计。在IOP会议系列:材料科学与工程,IOP出版,第563卷(第042080页)。
[81] Watkins,C.(1989)。从延迟的奖励中学习。博士论文,英国剑桥:国王学院。
[82] Wiering,M.和van Otterlo,M.(2014)。强化学习:最先进的Springer Publishing Company,Incorporated。
[83] Wulfe,B.、Balakrishna,A.、Logan,E.、Mercat,J.、McAllister,R.和Gaidon,A.(2022)。学习到的奖励函数的动态感知比较。在国际学习表征会议(ICLR)中,ICLR。
[84] Zhan,Y.、Ammar,H.B.和taylor,M.E.(2016)。在强化学习环境中,多名教师提出了理论上全面的政策建议,并将其应用于负迁移。arXiv:1604.03986。
[85] Zhang,A.、McAllister,R.T.、Calandra,R.、Gal,Y.和Levine,S.(2021)。无需重构的强化学习的学习不变量表示。在第九届国际学习代表大会上,ICLR 2021,虚拟活动,奥地利,2021年5月3日至7日,OpenReview.net。
[86] Zhao,W.、Queralta,J.P.和Westerlund,T.(2020年)。机器人深度强化学习中的模拟现实迁移:一项调查。2020年IEEE计算智能(SSCI)系列研讨会(第737-744页)。电气与电子工程师协会。
[87] 周,Y。;Yang,F.,强化学习中知识转移的潜在结构匹配,未来互联网(2020)·doi:10.3390/fi12020036
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。