×

基于技能的好奇心,用于内在激励的强化学习。 (英语) Zbl 1494.68210号

总结:强化学习方法依赖于环境提供的奖励,而这些奖励对代理人来说是不必要的。然而,许多现实场景涉及稀疏或延迟的奖励。在这种情况下,代理人可以开发自己的内在奖励功能,称为好奇心,以使代理人在寻求新技能时探索其环境。我们为深度强化学习方法提出了一种新颖的端到端好奇心机制,允许代理逐渐获得新技能。我们的方法适用于高维问题,避免了直接预测未来的需要,并且可以在顺序决策场景中执行。我们将好奇心定义为代理预测自己对任务的知识的能力。我们基于技能学习的理念进行预测,以激励新技能的发现,并引导探索有希望的解决方案。为了进一步提高代理的数据效率和泛化能力,我们建议学习一种潜在的技能表示。我们在MiniGrid、MuJoCo和Atari游戏中提供了多种稀疏奖励任务。我们将使用我们的好奇心奖励的增强代理的性能与最先进的学习者进行比较。与仅通过最大化外部奖励进行学习的强化学习模型相比,实验评估显示出更高的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abbeel,P.、Coates,A.、Quigley,M.和Ng,A.Y.(2007年)。强化学习在特技直升机飞行中的应用。《神经信息处理系统进展论文集》(第1-8页)。
[2] Andrychowicz,M.、Wolski,F.、Ray,A.、Schneider,J.、Fong,R.和Welinder,P.等人(2017)。事后体验回放。在《神经信息处理系统进展论文集》中。
[3] Baranes,A。;Oudeyer,PY,《机器人、机器人和自治系统中具有内在动机的目标探索的逆向模型主动学习》,61,1,49-73(2013)·doi:10.1016/j.robot.2012.05.008
[4] Bellemare,M.、Srinivasan,S.、Ostrovski,G.、Schaul,T.、Saxton,D.和Munos,R.(2016)。统一基于国家的探索和内在动机。《神经信息处理系统进展学报》(第1471-1479页)。
[5] Burda,Y.、Edwards,H.、Storkey,A.J.和Klimov,O.(2018年)。通过随机网络蒸馏进行探索。arXiv:1810.12894。
[6] Chevalier-Boisvert,M.、Willems,L.和Pal,S.(2018年)。为openai健身房提供最简约的网格环境。https://github.com/maximecb/gym-minigrid。
[7] Eppe,M.、Magg,S.和Wermter,S.(2018年)。持续深度强化学习的课程目标掩盖。CoRR.arXiv公司:1809.06146。
[8] Finn,C.、Tan,X.Y.、Duan,Y.、Darrell,T.、Levine,S.和Abbeel,P.(2016)。用于视觉运动学习的深层空间自动编码器。《机器人与自动化国际会议论文集》,IEEE(第512-519页)。
[9] Florensa,C.、Held,D.、Wulfmeier,M.、Zhang,M.和Abbeel,P.(2017)。逆向课程生成用于强化学习。arXiv预打印arXiv:1707.05300。
[10] Held,D.,Geng,X.,Florensa,C.,&Abbeel,P.(2017)。强化学习代理的自动目标生成。arXiv预打印arXiv:1705.06366。
[11] Itti,L.和Baldi,P.F.(2006)。贝叶斯惊喜吸引了人们的注意。《神经信息处理系统进展学报》(第547-554页)。
[12] Jaderberg,M.、Mnih,V.、Czarnecki,W.M.、Schaul,T.、Leibo,J.Z.、Silver,D.和Kavukcuoglu,K.(2017年)。使用无监督辅助任务进行强化学习。在学习代表国际会议上。
[13] Kingma,D.P.和Ba,J.(2015)。亚当:一种随机优化方法。在学习表征国际会议的会议记录中。
[14] Kingma,D.P.和Welling,M.(2014)。自动编码变分贝叶斯。在学习表征国际会议的会议记录中。
[15] Krizhevsky,A.、Sutskever,I.、Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。《神经信息处理系统进展》(第1097-1105页)。
[16] 雷曼,J。;Stanley,KO,《放弃目标:仅通过寻找新颖性进行进化》,进化计算,19,2189-223(2011)·doi:10.1116/EVCO_a_00025
[17] 莱文,S。;芬恩,C。;Darrell,T。;Abbeel,P.,深度视觉政策的端到端培训,机器学习研究杂志,17,1,1334-1373(2016)·Zbl 1360.68687号
[18] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Graves,A.、Antonoglou,I.和Wierstra,D.等人(2013年)。使用深度强化学习播放atari。arXiv预打印arXiv:1312.5602。
[19] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,AA;Veness,J。;MG Bellemare公司;格雷夫斯,A。;里德米勒,M。;阿拉斯加州菲德杰兰;Ostrovski,G.,《通过深度强化学习实现人性化控制》,《自然》,518,7540,529(2015)·doi:10.1038/nature14236
[20] Mnih,V.、Badia,A.P.、Mirza,M.、Graves,A.、Lillicrap,T.和Harley,T.等人(2016年)。深度强化学习的异步方法。机器学习国际会议论文集。
[21] Nair,A.V.、Pong,V.、Dalal,M.、Bahl,S.、Lin,S.和Levine,S.(2018年)。用想象的目标进行视觉强化学习。《神经信息处理系统进展学报》(第9209-9220页)。
[22] Ng,A.Y.和Russell,S.(2000)。反向强化学习算法。在第十七届机器学习国际会议的会议记录中,Citeser。
[23] Ng、AY;原田,D。;Russell,S.,《奖励转换下的政策不变性:奖励形成的理论与应用》,《机器学习国际会议论文集》,99,278-287(1999)
[24] Ostrovski,G.、Bellemare,M.G.、van den Oord,A.和Munos,R.(2017)。使用神经密度模型进行基于计数的探索。《机器学习国际会议论文集》(第2721-2730页)。
[25] Pathak,D.、Agrawal,P.、Efros,A.A.和Darrell,T.(2017年)。通过自我监督的预测进行好奇驱动的探索。机器学习国际会议国际会议论文集。
[26] Racanière,S.、Weber,T.、Reichert,D.、Buesing,L.、Guez,A.和Jimenez Rezende,D.等人(2017年)。用于深度强化学习的想象力增强代理。在《神经信息处理系统进展论文集》中。
[27] Rezende,D.J.、Mohamed,S.、Danihelka,I.、Gregor,K.和Wierstra,D.(2016)。深度生成模型中的一快照泛化。《机器学习国际会议国际会议论文集》(第1521-1529页)。
[28] Salge,C。;格拉金,C。;Polani,D.,《基于赋权作为内在动机改变环境》,《熵》,16,5,2789-2819(2014)·doi:10.3390/e16052789
[29] Savinov,N.、Raichuk,A.、Marinier,R.、Vincent,D.、Pollefeys,M.、Lillicrap,T.和Gelly,S.(2019年)。通过可达性的偶然好奇。在学习表征国际会议的会议记录中。
[30] Schaul,T.、Horgan,D.、Gregor,K.和Silver,D.(2015)。通用值函数逼近器。机器学习国际会议论文集。
[31] Schmidhuber,J.(1991a)。奇怪的建模控制系统。在IEEE神经网络国际联合会议论文集,IEEE。
[32] Schmidhuber,J.(1991b)。在建模神经控制器中实现好奇心和无聊的可能性。《适应行为模拟国际会议论文集:从动物到动画师》(第222-227页)。
[33] 舒尔曼,J。;莱文,S。;Abbeel,P。;密歇根州约旦;Moritz,P.,《信托区域政策优化》,《国际机器学习会议论文集》,371889-1897(2015)
[34] Schulman,J.、Wolski,F.、Dhariwal,P.、Radford,A.和Klimov,O.(2017)。近似策略优化算法。arXiv预打印arXiv:1707.06347。
[35] Stadie,B.C.、Levine,S.和Abbeel,P.(2015)。利用深度预测模型激励强化学习的探索。arXiv预打印arXiv:1507.00814。
[36] Stanton,C.和Clune,J.(2019年)。深度好奇心搜索:生活中的探索提高了在具有挑战性的深度强化学习问题上的表现。机器学习国际会议国际会议论文集。
[37] Sutton,RS,通过时间差异方法学习预测,机器学习,3,1,9-44(1988)
[38] 萨顿,RS;Barto,AG,《强化学习:简介》(1998),剑桥:麻省理工学院出版社,剑桥
[39] Sutton,R.S.、McAllester,D.A.、Singh,S.P.和Mansour,Y.(2000年)。用于函数近似强化学习的策略梯度方法。《神经信息处理系统的进展》(第1057-1063页)。
[40] Todorov,E.、Erez,T.和Tassa,Y.(2012年)。Mujoco:基于模型控制的物理引擎。《智能机器人和系统国际会议论文集》(第5026-5033页)。
[41] Wang,Z.、Schaul,T.、Hessel,M.、Van Hasselt,H.、Lanctot,M.和De Freitas,N.(2016)。深入强化学习的决斗网络架构。机器学习国际会议国际会议论文集。
[42] Zhao,S.、Ren,H.、Yuan,A.、Song,J.、Goodman,N.和Ermon,S.(2018年)。深度生成模型中的偏见和泛化:一项实证研究。在Bengio,S.、Wallach,H.、Larochelle,H.,Grauman,K.、Cesa-Bianchi,N.、Garnett,R.(编辑)。神经信息处理系统进展论文集(第10792-10801页)。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。