×

深度强化学习:最先进的演练。 (英语) Zbl 1497.68447号

摘要:由于这些算法在各种基准测试和环境设置中取得了前所未有的成就和卓越的性能,深度强化学习是近年来备受关注的一个主题。这种方法的力量来自于一个已经建立的强大的深度学习领域与强化学习方法的独特性质的结合。然而,为了获得有价值的技术和实际见解,有必要提供这些方法及其结果的紧凑、准确和可比较的视图。在这项工作中,我们收集了与深度强化学习相关的基本方法,提取了三个互补核心类别的通用属性结构:a)无模型、b)基于模型和c)模块化算法。对于每个类别,我们都会介绍、分析和比较最先进的深度强化学习算法,这些算法可以在各种环境中实现高性能,并在复杂和苛刻的任务中解决具有挑战性的问题。为了简明扼要地概述它们的差异,我们提供了综合比较图和表,这些图和表是在两个流行的仿真平台(Atari Learning Environment和MuJoCo物理仿真平台)下报告的算法性能生成的。我们讨论了各种算法的关键差异,指出了它们的潜力和局限性,并就该领域的未来方向向研究人员提供了见解。

MSC公司:

68T07型 人工神经网络与深度学习
68-02 与计算机科学有关的研究展览会(专著、调查文章)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Achiam,J.、Edwards,H.、Amodei,D.和Abbeel,P.(2018年)。变分期权发现算法arXiv预印本arXiv:1807.10299。
[2] Ahn,M.、Zhu,H.、Hartikainen,K.、Ponte,H.、Gupta,A.、Levine,S.和Kumar,V.(2019)。ROBEL:机器人学是低成本机器人学习的标杆。机器人学习会议。
[3] Andrychowicz,M.、Wolski,F.、Ray,A.、Schneider,J.、Fong,R.、Welinder,P.、McGrew,B.、Tobin,J.,Pieter Abbeel,O.和Zaremba,W.(2017年)。后视体验重播。神经信息处理系统进展,305048-5058。
[4] Arulkumaran,K.、Deisenroth,M.P.、Brundage,M.和Bharath,A.A.(2017年)。深度强化学习:简要调查。IEEE信号处理杂志,34(6),26-38。
[5] 培根,P.-L.、哈布,J.和普雷库普,D.(2017)。可选关键体系结构。InAAAI人工智能会议。
[6] Barth-Maron,G.、Hoffman,M.W.、Budden,D.、Dabney,W.、Horgan,D.、Dhruva,T.、Muldal,A.、Heess,N.和Lillicrap,T.(2018年)。分布式分布决定策略梯度。在国际学习代表大会上。
[7] 英国广播公司新闻(2019)。围棋大师退出是因为AI“无法被击败”。https://www.bbc。com/news/technology-50573071/。
[8] Behzadan,V.和Munir,A.(2017年)。深度强化学习对策略诱导攻击的脆弱性。在模式识别中的机器学习和数据挖掘国际会议上,第262-275页。
[9] Bellemare,M.G.、Dabney,W.和Munos,R.(2017年)。强化学习的分布视角。在机器学习国际会议上,第449-458页。
[10] Bellemare,M.G.、Naddaf,Y.、Veness,J.和Bowling,M.(2013年)。街机学习环境:通用代理评估平台。《人工智能研究杂志》,47253-279。
[11] Bellemare,M.G.、Srinivasan,S.、Ostrovski,G.、Schaul,T.、Saxton,D.和Munos,R.(2016)。统一基于计数的探索和内在动机。神经信息处理系统进展。
[12] Bellemare,M.G.、Veness,J.和Talvitie,E.(2014)。跳过上下文树切换。国际机器学习会议,第1458-1466页。
[13] Bengio,S.、Vinyals,O.、Jaitly,N.和Shazeer,N.(2015年)。递归神经网络用于序列预测的定时采样。《神经信息处理系统进展》,第1171-1179页。
[14] Bhatnagar,S.、Precup,D.、Silver,D.、Sutton,R.S.、Maei,H.R.和Szepesv´ari,C.(2009a)。任意光滑函数逼近的收敛时间差分学习。《神经信息处理系统进展》,第1204-1212页。
[15] Bhatnagar,S.、Sutton,R.S.、Ghavamzadeh,M.和Lee,M.(2009b)。自然行动者关键算法。自动化,45(11),2471-2482·Zbl 1183.93130号
[16] 布鲁姆·B·H(1970)。允许错误的散列编码中的空间/时间权衡。ACM通信,13(7),422-426·Zbl 0195.47003号
[17] Blundell,C.、Cornebise,J.、Kavukcuoglu,K.和Wierstra,D.(2015)。神经网络中的权重不确定性。在机器学习国际会议上,第1613-1622页。
[18] Buckman,J.、Hafner,D.、Tucker,G.、Brevdo,E.和Lee,H.(2018年)。随机集合值扩展的样本有效强化学习。神经信息处理系统进展,第8224-8234页。
[19] Burda,Y.、Edwards,H.、Storkey,A.和Klimov,O.(2019年)。随机网络蒸馏探索。在国际学习代表大会上。
[20] Cabi,S.、Colmenarejo,S.G.、Hoffman,M.W.、Denil,M.、Wang,Z.和Freitas,N.(2017年)。有意无意的代理人:学习同时解决许多连续的控制任务。机器人学习会议,第207-216页。
[21] Chalapathy,R.和Chawla,S.(2019年)。异常检测的深度学习:一项调查。arXiv预打印arXiv:1901.03407。
[22] Charikar,M.S.(2002年)。取整算法中的相似性估计技术。在ACM计算理论研讨会上,第380-388页·兹比尔1192.68226
[23] Chen,M.、Beutel,A.、Covington,P.、Jain,S.、Belletti,F.和Chi,E.H.(2019年)。REINFORCE推荐系统的Top-K OffPolicy修正。InACM网络搜索和数据挖掘国际会议,第456-464页。
[24] Chiappa,S.、Racaniere,S.,Wierstra,D.和Mohamed,S.(2017年)。循环环境模拟器。在国际学习代表大会上。
[25] Chua,K.、Calandra,R.、McAllister,R.和Levine,S.(2018年)。在使用概率动力学模型的大量试验中进行深度强化学习。《神经信息处理系统进展》,第4754-4765页。
[26] Clavera,I.、Rothfuss,J.、Schulman,J.、Fujita,Y.、Asfour,T.和Abbeel,P.(2018)。通过元策略优化的基于模型的强化学习。机器人学习会议,第617-629页。
[27] Cover,T.M.(1999)。信息论要素。约翰·威利父子公司。
[28] Da Silva,F.L.和Costa,A.H.R.(2019年)。多智能体强化学习系统的迁移学习研究综述。《人工智能研究杂志》,64645-703·Zbl 1489.68221号
[29] Dargan,S.、Kumar,M.、Ayyagari,M.R.和Kumar,G.(2019年)。深度学习及其应用综述:机器学习的新范式。工程计算方法档案,1-22。
[30] Dayan,P.和Hinton,G.E.(1992年)。封建强化学习。《神经信息处理系统》,第271-278页·Zbl 0876.68090号
[31] Dean,J.、Corrado,G.、Monga,R.、Chen,K.、Devin,M.、Mao,M.和Ranzato,M.,Senior,A.、Tucker,P.、Yang,K.等人(2012年)。大规模分布式深层网络。《神经信息处理系统进展》,第1223-1231页。
[32] Deisenroth,M.P.、Neumann,G.和Peters,J.(2013)。机器人政策搜索调查。机器人学基础与趋势,2(1-2),1-142。
[33] Deisenroth,M.P.和Rasmussen,C.E.(2011年)。PILCO:基于模型和数据效率的政策搜索方法。在机器学习国际会议上,第465-472页。
[34] Duan,Y.、Chen,X.、Houthooft,R.、Schulman,J.和Abbeel,P.(2016)。为持续控制制定深度强化学习基准。国际机器学习会议,第1329-1338页。
[35] Espeholt,L.、Soyer,H.、Munos,R.、Simonyan,K.、Mnih,V.、Ward,T.、Doron,Y.、Firoiu,V.,Harley,T.和Dunning,I.等人(2018年)。IMPALA:具有重要性加权参与者-学习者体系结构的可扩展分布式Deep-RL。在机器学习国际会议上,第1407-1416页。
[36] Eysenbach,B.、Gupta,A.、Ibarz,J.和Levine,S.(2019年)。多样性是你所需要的:学习没有奖励功能的技能。在国际学习代表大会上。
[37] Feinberg,V.、Wan,A.、Stoica,I.、Jordan,M.I.、Gonzalez,J.E.和Levine,S.(2018年)。高效无模型强化学习的基于模型的值估计。arXiv预印本arXiv:1803.00101。
[38] Fernando,C.、Banarse,D.、Blundell,C.、Zwols,Y.、Ha,D.、Rusu,A.A.、Pritzel,A.和Wierstra,D.(2017)。Pathnet:超级神经网络中的进化通道梯度下降。arXiv预印本arXiv:1701.08734。
[39] Fernando,C.、Vasas,V.、Szathmary,E.和Husbands,P.(2011年)。进化的神经通路:大脑中信息和搜索的新基础。公共科学图书馆,6(8),e23534。
[40] Finn,C.、Abbeel,P.和Levine,S.(2017年)。用于深度网络快速适应的模型认知元学习。在机器学习国际会议上,第1126-1135页。
[41] Foerster,J.、Assael,I.A.、De Freitas,N.和Whiteson,S.(2016)。学习与深度多代理强化学习沟通。《神经信息处理系统进展》,第2137-2145页。
[42] Foerster,J.、Nardelli,N.、Farquhar,G.、Afouras,T.、Torr,P.H.、Kohli,P.和Whiteson,S.(2017年)。深度多智能体强化学习的稳定经验重播。在机器学习国际会议上,第1146-1155页。
[43] Fortunato,M.、Azar,M.G.、Piot,B.、Menick,J.、Hessel,M.,Osband,I.、Graves,A.、Mnih,V.、Munos,R.、Hassabis,D.等人(2018年)。探索的嘈杂网络。在学习代表国际会议上。
[44] Francois-Lavet,V.、Henderson,P.、Islam,R.、Bellemare,M.G.、Pineau,J.等人(2018年)。深度强化学习简介。机器学习基础与趋势®,11(3-4),219-354·Zbl 1448.68021号
[45] Frans,K.、Ho,J.、Chen,X.、Abbeel,P.和Schulman,J.(2018年)。元学习共享层次结构。在国际学习代表大会上。
[46] French,R.M.(1994)。连接网络中的灾难性干扰:可以预测,可以预防吗?。《神经信息处理系统进展》,第1176-1177页。
[47] Fu,J.、Co-Reyes,J.和Levine,S.(2017)。示例2:深度强化学习的范例模型探索。《神经信息处理系统进展》,第2577-2587页。
[48] Fujimoto,S.、Hoof,H.和Meger,D.(2018)。在Actor-Critic方法中解决函数逼近错误。在机器学习国际会议上,第1587-1596页。
[49] Gaina,R.D.、Lucas,S.M.和Perez-Liebana,D.(2019年)。蒂亚项目:永远的游戏玩家。2019年IEEE游戏大会(CoG),第1-8页。
[50] Geffner,H.(2018)。无模型、基于模型和通用智能。在国际人工智能联合会议上,第10-17页。
[51] Gleave,A.、Dennis,M.、Wild,C.、Kant,N.、Levine,S.和Russell,S.(2020年)。对抗性政策:攻击深度强化学习。在国际学习代表大会上。
[52] Goodfellow,I.、Papernot,N.、Huang,S.、Duan,R.、Abbeel,P.和Clark,J.(2017)。使用对手示例攻击机器学习。https://openai.com/blog/对抗性-示例-搜索/。
[53] Graves,A.(2011年)。神经网络的实用变分推理。神经信息处理系统进展,第2348-2356页。
[54] Graves,A.(2013)。用递归神经网络生成序列。arXiv预印本arXiv:1308.0850。
[55] Greensmith,E.、Bartlett,P.L.和Baxter,J.(2004)。强化学习中梯度估计的方差减少技术。机器学习研究杂志,5,1471-1530·Zbl 1222.68207号
[56] Gregor,K.、Danihelka,I.、Graves,A.、Rezende,D.和Wierstra,D.(2015)。DRAW:用于图像生成的递归神经网络。在机器学习国际会议上,第1462-1471页。
[57] Gregor,K.、Rezende,D.J.和Wierstra,D.(2017)。变分本质控制。在国际学习代表大会上。
[58] Grondman,I.、Busoniu,L.、Lopes,G.A.和Babuska,R.(2012)。行为批评强化学习调查:标准和自然政策梯度。IEEE系统、人与控制论汇刊,42(6),1291-1307。
[59] Gupta,J.K.、Egorov,M.和Kochenderfer,M.(2017年)。基于深度强化学习的多智能体协同控制。在自治代理和多代理系统国际会议上,第66-83页。
[60] Ha,D.和Eck,D.(2018年)。草图的神经表示。国际学习代表大会。
[61] Ha,D.和Schmidhuber,J.(2018年)。循环世界模型促进政策演变。《神经信息处理系统进展》,第2450-2462页。
[62] Haarnoja,T.、Tang,H.、Abbeel,P.和Levine,S.(2017年)。基于深度能量的政策强化学习。在国际机器学习会议上,第1352-1361页。
[63] Haarnoja,T.、Zhou,A.、Abbeel,P.和Levine,S.(2018a)。软行动者批判:非政策最大熵深度强化学习与随机行动者。在机器学习国际会议上,第1861-1870页。
[64] Haarnoja,T.、Zhou,A.、Hartikainen,K.、Tucker,G.、Ha,S.、Tan,J.、Kumar,V.、Zhu,H.、Gupta,A.、Abbeel,P.和其他人(2018b)。软参与者-关键算法和应用。arXiv预打印arXiv:1812.05905。
[65] Hafner,D.、Lillicrap,T.、Fischer,I.、Villegas,R.、Ha,D.、Lee,H.和Davidson,J.(2019年)。从像素学习规划的潜在动态。在机器学习国际会议上,第2555-2565页。
[66] Hansen,N.(2016)。CMA进化策略:教程。arXiv预印本arXiv:1604.00772。
[67] Hansen,N.和Ostermeier,A.(2001年)。进化策略中的完全去随机化自我适应。进化计算,9(2),159-195。
[68] Hasselt,H.V.(2010年)。双Q学习。《神经信息处理系统进展》,第2613-2621页。
[69] Hausman,K.、Springenberg,J.T.、Wang,Z.、Heess,N.和Riedmiller,M.(2018年)。学习可转移机器人技能的嵌入空间。在国际学习代表大会上。
[70] Henderson,P.、Islam,R.、Bachman,P.,Pineau,J.、Precup,D.和Meger,D.(2018年)。深层强化学习至关重要。InAAAI人工智能会议。
[71] Hernandez-Garcia,J.F.和Sutton,R.S.(2019年)。理解多步骤深度强化学习:对DQN目标的系统研究。arXiv预印本arXiv:1901.07510。
[72] Hessel,M.、Modayil,J.、Van Hasselt,H.、Schaul,T.、Ostrovski,G.、Dabney,W.、Horgan,D.、Piot,B.、Azar,M.和Silver,D.(2018年)。彩虹:结合深度强化学习的改进。InAAAI人工智能会议。
[73] Hessel,M.、Soyer,H.、Espeholt,L.、Czarnecki,W.、Schmitt,S.和van Hasselt,H.(2019a)。PopArt的多任务深度强化学习。InAAAI人工智能会议,第33卷,第3796-3803页。
[74] Hessel,M.、van Hasselt,H.、Modayil,J.和Silver,D.(2019b)。关于深度强化学习中的归纳偏差。arXiv预印本arXiv:1907.02908。
[75] Higgins,I.、Matthey,L.、Pal,A.、Burgess,C.、Glorit,X.、Botvinick,M.、Mohamed,S.和Lerchner,A.(2017年)。beta-VAE:学习基本视觉概念的约束变分框架。在学习表征国际会议上。
[76] Hinton,G.E.(2007年)。要识别形状,首先要学习生成图像。脑研究进展,165535-547。
[77] Hochreiter,S.(2001)。递归网络中的梯度流:学习长期依赖的困难。动态递归神经网络现场指南,237-244。
[78] Hochreiter,S.和Schmidhuber,J.(1997年)。长短期记忆。神经计算,9(8),1735-1780。
[79] Horgan,D.、Quan,J.、Budden,D.、Barth-Maron,G.、Hessel,M.、van Hasselt,H.和Silver,D.(2018年)。分布式优先体验重播。在国际学习代表大会上。
[80] Houthooft,R.、Chen,X.、Duan,Y.、Schulman,J.、De Turck,F.和Abbeel,P.(2016)。可变信息最大化探索。《神经信息处理系统进展》,第1109-1117页。
[81] Hu,J.和Wellman,M.P.(2003)。广义随机博弈的纳什Q学习。机器学习研究杂志,41039-1069·Zbl 1094.68076号
[82] Huang,S.、Papernot,N.、Goodfellow,I.、Duan,Y.和Abbeel,P.(2017)。针对神经网络策略的对抗性攻击。在国际学习代表大会上。
[83] Ioffe,S.和Szegedy,C.(2015)。批量规范化:通过减少内部协变量转移加快深度网络培训。在机器学习国际会议上,第448-456页。
[84] Jaakkola,T.、Jordan,M.I.和Singh,S.P.(1994年)。随机迭代动态规划算法的收敛性。神经信息处理系统进展,第703-710页·Zbl 0822.68095号
[85] Jaderberg,M.、Czarnecki,W.M.、Dunning,I.、Marris,L.、Lever,G.、Castaneda,A.G.、Beattie,C.、Rabinowitz,N.C.、Morcos,A.S.、Ruderman,A.等人(2019年)。基于人口的强化学习在3D多人游戏中的人性化表现。《科学》,364(6443),859-865。
[86] Jaques,N.、Lazaridou,A.、Hughes,E.、Gulcehre,C.、Ortega,P.、Strouse,D.、Leibo,J.Z.和De Freitas,N.(2019年)。社会影响是多智能体深度强化学习的内在动机。在机器学习国际会议上,第3040-3049页。
[87] Jaynes,E.T.(2003)。概率论:科学的逻辑。剑桥大学出版社·Zbl 1045.62001号
[88] Jordan,M.I.、Ghahramani,Z.、Jaakkola,T.S.和Saul,L.K.(1999)。图形模型的变分方法简介。机器学习,37(2),183-233·Zbl 0945.68164号
[89] Justesen,N.、Bontracher,P.、Togelius,J.和Risi,S.(2019年)。视频游戏深度学习。IEEE游戏交易,12(1),1-20。
[90] Kaiser,L.、Babaeizadeh,M.、Mi los,P.、Osi´nski,B.、Campbell,R.H.、Czechowski,K.、Erhan,D.、Finn,C.、Kozakowski,P.和Levine,S.等人(2019年)。雅达利的基于模型的强化学习。国际学习表征会议。
[91] Kaiser,L.和Bengio,S.(2018年)。序列模型的离散自动编码器。arXiv预打印arXiv:1801.09797。
[92] Kempka,M.、Wydmuch,M.,Runc,G.、Toczek,J.和Ja´skowski,W.(2016)。Vizdoom:一个基于毁灭的人工智能研究平台,用于视觉强化学习。IEEE计算智能与游戏会议,第1-8页。
[93] Kingma,D.P.和Welling,M.(2013年)。自动编码变体贝叶斯.arXiv预印本arXiv:1312.6114。
[94] Kirkpatrick,J.、Pascanu,R.、Rabinowitz,N.、Veness,J.,Desjardins,G.、Rusu,A.、Milan,K.、Quan,J.和Ramalho,T.、Grabska-Barwinska,A.等人(2017年)。克服神经网络中的灾难性遗忘。《美国国家科学院院刊》,114(13),3521-3526·Zbl 1404.92015年
[95] Klimov,O.(2016)。CarRacing-v0。https://健身房.openai.com/envs/CarRacing-v0/。
[96] Klyubin,A.S.、Polani,D.和Nehaniv,C.L.(2005)。授权:以机构为中心的通用控制措施。在IEEE进化计算大会上,第1卷,第128-135页。
[97] Konda,V.R.和Tsitsiklis,J.N.(2000年)。演员关键算法。《神经信息处理系统进展》,第1008-1014页·Zbl 1049.93095号
[98] Kulkarni,T.D.、Narasimhan,K.R.、Saeedi,A.和Tenenbaum,J.B.(2016)。分层深度强化学习:整合时间抽象和内在动机。神经信息处理系统进展,第3675-3683页。
[99] Kullback,S.和Leibler,R.A.(1951年)。关于信息和充分性。《数理统计年鉴》,22(1),79-86·Zbl 0042.38403号
[100] Kullback,S.(1959年)。信息理论与统计学。纽约威利·Zbl 0088.10406号
[101] Kurutach,T.、Clavera,I.、Duan,Y.、Tamar,A.和Abbeel,P.(2018年)。Model-Ensemble信任区域策略优化。国际学习代表大会。
[102] Lauer,M.和Riedmiller,M.A.(2000年)。协作多智能体系统中的分布式强化学习算法。在机器学习国际会议上,第535-542页。
[103] Legg,S.和Hutter,M.(2007年)。通用智能:机器智能的定义。思维与机器,17(4),391-444。
[104] Leibfried,F.、Kushman,N.和Hofmann,K.(2017年)。Atari游戏中联合视频帧和奖励预测的深度学习方法。在国际学习代表大会上,第1-17页。
[105] Levy,A.、Platt,R.和Saenko,K.(2019年)。用后视学习多层次结构。在国际学习代表大会上。
[106] 李毅(2018)。深度强化学习arXiv预印本arXiv:1810.06339。
[107] 李毅(2019)。强化学习应用程序。arXiv预印本arXiv:1908.06973。
[108] Lillicrap,T.P.、Hunt,J.J.、Pritzel,A.、Heess,N.、Erez,T.、Tassa,Y.、Silver,D.和Wierstra,D.(2016)。通过深度强化学习进行持续控制。在国际学习代表大会上。
[109] Lin,L.-J.(1992)。基于神经网络的机器人强化学习。卡内基梅隆大学博士论文。
[110] Littman,M.L.(1994)。马尔可夫博弈作为多智能体强化学习的框架。在机器学习国际会议上,第157-163页。
[111] Littman,M.L.(2001)。马尔可夫博弈中的值函数强化学习。认知系统研究,2(1),55-66。
[112] Lowe,R.、Wu,Y.I.、Tamar,A.、Harb,J.、Abbeel,O.P.和Mordatch,I.(2017)。混合合作竞争环境下的多Agent参与者关键。神经信息处理系统进展,第6379-6390页。
[113] Luong,N.C.、Hoang,D.T.、Gong,S.、Niyato,D.、Wang,P.、Liang,Y.C.和Kim,D.I.(2019年)。深度强化学习在通信和网络中的应用:一项调查。IEEE通信调查与教程,21(4),3133-3174。
[114] 麦凯·D·J·C(1992)。主动数据选择的基于信息的目标函数。神经计算,21(4),3133-3174。
[115] Mahmood,A.R.、Van Hasselt,H.和Sutton,R.S.(2014)。线性函数逼近下非策略学习的加权重要性抽样。《神经信息处理系统进展》,第3014-3022页。
[116] Mahmud,M.、Kaiser,M.S.、Hussain,A.和Vassanelli,S.(2018年)。深度学习和强化学习在生物数据中的应用。IEEE神经网络和学习系统汇刊,29(6),2063-2079。
[117] Malisiewicz,T.、Gupta,A.和Efros,A.(2011年)。用于目标检测及其他的示例-SVM集成。在IEEE国际计算机视觉会议上,第89-96页。
[118] Marbach,P.和Tsitsiklis,J.N.(2003年)。马尔可夫报酬过程策略空间优化中的近似梯度方法。离散事件动态系统:理论与应用,13(1-2),111-148·Zbl 1042.93061号
[119] Martens,J.和Grosse,R.(2015)。利用Kronecker-Factored近似曲率优化神经网络。在机器学习国际会议上,第2408-2417页。
[120] McGovern,A.、Sutton,R.S.和Fagg,A.H.(1997)。宏观行动在加速强化学习中的作用。InGrace Hopper计算机女性庆祝活动,第1317卷。
[121] Merton,R.K.(1968年)。《科学中的马太效应:科学的奖励和传播系统》。《科学》,159(3810),56-63。
[122] Minsky,M.(1961年)。走向人工智能的步骤。IRE会议记录,49(1),8-30。
[123] Mnih,V.、Badia,A.P.、Mirza,M.、Graves,A.、Lillicrap,T.、Harley,T.,Silver,D.和Kavukcuoglu,K.(2016)。深度强化学习的异步方法。在国际机器学习会议上,第1928-1937页。
[124] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Rusu,A.A.、Veness,J.、Bellemare,M.G.、Graves,A.、Riedmiller,M.、Fidjeland,A.K.、Ostrovski,G.、Petersen,S.、Beattie,C.、Sadik,A.、Antonoglou,I.、King,H.、Kumaran,D.、Wierstra,D.、Legg,S.和Hassabis,D.(2015)。通过深度强化学习实现人性化控制。《自然》,518(7540),529-533。
[125] Moore,A.(1991)。机器人控制中基于记忆的高效学习。剑桥大学博士论文。
[126] Munos,R.、Stepleton,T.、Harutyunyan,A.和Bellemare,M.(2016)。安全高效的非政策强化学习。《神经信息处理系统进展》,第1054-1062页·Zbl 1466.68067号
[127] Myerson,R.B.(2013)。博弈论。哈佛大学出版社·Zbl 0982.01013号
[128] Nachum,O.、Lee,H.、Gu,S.和Levine,S.(2018年)。数据高效的分层强化学习。《神经信息处理系统进展》,第3303-3313页。
[129] Nagabandi,A.、Kahn,G.、Fearing,R.S.和Levine,S.(2018年)。基于模型的深度强化学习和无模型精细调整的神经网络动力学。在IEEE机器人与自动化国际会议上,第7559-7566页。
[130] Nair,A.、Srinivasan,P.、Blackwell,S.、Alcicek,C.、Fearon,R.、De Maria,A.、Panneershelvam,V.、Suleyman,M.、Beattie,C.、Petersen,S.及其他(2015)。深度强化学习的大规模并行方法。arXiv预印本arXiv:1507.04296。
[131] Nguyen,T.T.、Nguyem,N.D.和Nahavandi,S.(2020年)。多代理系统的深度强化学习:挑战、解决方案和应用综述。IEEE控制论汇刊。
[132] Nguyen,T.T.和Reddi,V.J.(2019年)。网络安全深度强化学习。arXiv预打印arXiv:1906.05799。
[133] Nosratabadi,S.、Mosavi,A.、Keivani,R.、Ardabili,S.和Aram,F.(2020年)。智能城市和城市可持续性的深度学习和机器学习模型的最新调查。《可持续未来工程》,第228-238页。
[134] Oh,J.、Guo,X.、Lee,H.、Lewis,R.和Singh,S.(2015)。Atari游戏中使用深度网络的动作条件视频预测。《神经信息处理系统进展》,第2863-2871页。
[135] Omidshaviei,S.、Pazis,J.、Amato,C.、How,J.P.和Vian,J.(2017)。部分可观测下的深度分散多任务多智能体强化学习。在机器学习国际会议上,第2681-2690页。
[136] OpenAI(2018)。OpenAI Five。https://blog.openai.com/openai-five/。
[137] OroojlooyJadid,A.和Hajinezhad,D.(2019年)。合作多智能体深度强化学习综述。arXiv预印本arXiv:1908.03963。
[138] Osband,I.、Van Roy,B.、Russo,D.和Wen,Z.(2019年)。通过随机值函数进行深入探索。《机器学习研究杂志》,20(124),1-62·Zbl 1434.68515号
[139] Osband,I.、Van Roy,B.和Wen,Z.(2016)。通过随机值函数进行推广和探索。机器学习国际会议,第48卷,第2377-2386页。
[140] Ostrovski,G.、Bellemare,M.G.、Van Den Oord,A.和Munos,R.(2017)。使用神经密度模型进行基于计数的探索。在机器学习国际会议上,第2721-2730页。
[141] Oudeyer,P.Y.和Kaplan,F.(2009)。什么是内在动机?计算方法的类型学。神经机器人领域的前沿,1,6。
[142] Pathak,D.、Agrawal,P.、Efros,A.A.和Darrell,T.(2017年)。通过自我监督预测进行好奇驱动的探索。机器学习国际会议,第70卷,第2778-2787页。
[143] Peters,J.和Schaal,S.(2006年)。机器人的策略梯度方法。在IEEE智能机器人和系统国际会议上,第2219-2225页。
[144] Pinto,L.、Davidson,J.、Sukthankar,R.和Gupta,A.(2017年)。强大的对手强化学习。在机器学习国际会议上,第2817-2826页。
[145] Precup,D.(2000年)。强化学习中的时间抽象。马萨诸塞大学阿默斯特分校博士论文。
[146] Premack,D.和Woodruff,G.(1978年)。黑猩猩有心理理论吗?。行为与脑科学,1(4),515-526。
[147] Rabinowitz,N.C.、Perbet,F.、Song,H.F.、Zhang,C.、Eslami,S.和Botvinick,M.(2018年)。心理机器理论。在机器学习国际会议上,第4218-4227页。
[148] Racani'ere,S.、Weber,T.、Reichert,D.P.、Buesing,L.、Guez,A.、Rezende,D.、Badia,A.P.、Vinyals,O.、Heess,N.、Li,Y.、Pascanu,R.、Battaglia,P.、Hassabis,D.、Silver,D.和Wierstra,D.(2017)。深度强化学习的想象力增强剂。神经信息处理系统进展,第30卷,第5690-5701页。
[149] Ratcliff,R.(1990)。认知记忆的联结主义模型:学习和遗忘功能的约束。《心理学评论》,97(2),285。
[150] Rezende,D.J.、Mohamed,S.和Wierstra,D.(2014)。深度生成模型中的随机反向传播和近似推断。国际机器学习会议,第1278-1286页。
[151] Richards,A.G.(2005)。鲁棒约束模型预测控制。麻省理工学院博士论文。
[152] Rocha,F.M.、Costa,V.S.和Reis,L.P.(2020年)。从强化学习到人工智能。世界信息系统与技术大会,第401-413页。
[153] Ross,S.、Gordon,G.J.和Bagnell,J.A.(2011年)。将模拟学习和结构化预测简化为无障碍在线学习。在国际人工智能和统计会议上,第627-635页。
[154] Rubinstein,R.Y.(1997)。具有罕见事件的计算机模拟模型的优化。欧洲运筹学杂志,99(1),89-112·Zbl 0923.90051号
[155] Rusu,A.A.、Rabinowitz,N.C.、Desjardins,G.、Soyer,H.、Kirkpatrick,J.、Kavukcuoglu,K.、Pascanu,R.和Hadsell,R.(2016)。渐进神经网络。arXiv预印本arXiv:1606.04671。
[156] Salge,C.、Glackin,C.和Polani,D.(2014)。授权-简介。《引导式自我组织:初始》,第89-112页。施普林格-柏林-海德堡。
[157] Salimans,T.、Ho,J.、Chen,X.、Sidor,S.和Sutskever,I.(2017年)。进化策略作为强化学习的可扩展替代方案。arXiv预印本arXiv:1703.03864。
[158] Schaul,T.、Horgan,D.、Gregor,K.和Silver,D.(2015a)。通用值函数逼近器。在机器学习国际会议上,第1312-1320页。
[159] Schaul,T.、Quan,J.、Antonoglou,I.和Silver,D.(2015b)。优先体验重播。arXiv预打印arXiv:1511.05952。
[160] Schmidhuber,J.(2010)。《创造力、乐趣和内在动机的形式理论》(19902010)。IEEE自主精神发育汇刊,2(3),230-247。
[161] Schrittwieser,J.、Antonoglou,I.、Hubert,T.、Simonyan,K.、Sifre,L.、Schmitt,S.、Guez,A.、Lockhart,E.、Hassabis,D.、Graepel,T.等人(2019年)。通过学习模型规划掌握雅达利、围棋、国际象棋和Shogi。arXiv预印本arXiv:1911.08265。
[162] Schulman,J.、Levine,S.、Abbeel,P.、Jordan,M.和Moritz,P.(2015)。信任区域策略优化。在机器学习国际会议上,第1889-1897页。
[163] Schulman,J.、Wolski,F.、Dhariwal,P.、Radford,A.和Klimov,O.(2017)。近似策略优化算法arXiv预打印arXiv:1707.06347。
[164] Sehnke,F.、Osendorfer,C.、R–uckstiess,T.、Graves,A.、Peters,J.和Schmidhuber,J.(2010年)。参数-探索政策梯度。神经网络,23(4),551-559。
[165] Shao,K.、Tang,Z.、Zu,Y.、Li,N.和Zhao,D.(2019年)。视频游戏中深度强化学习的调查。arXiv预印本arXiv:1912.10944。
[166] Silver,D.、Lever,G.、Heess,N.、Degres,T.、Wierstra,D.和Riedmiller,M.(2014)。确定性策略梯度算法。在机器学习国际会议上,第387-395页。
[167] Silver,D.、Schrittwieser,J.、Simonyan,K.、Antonoglou,I.、Huang,A.、Guez,A.、Hubert,T.、Baker,L.、Lai,M.、Bolton,A.、Chen,Y.、Lillicrap,T.,Hui,F.、Sifre,L.,Van Den Driessche,G.、Graepel,T.和Hassabis,D.(2017)。在没有人类知识的情况下掌握围棋。《自然》,550(7676),354-359。
[168] Silvia,P.J.(2012)。好奇心和动机。《牛津大学人类动机手册》,550(7676),354-359。
[169] Skinner,G.和Walmsley,T.(2019年)。视频游戏中的人工智能和深度学习——简要回顾。在IEEE计算机和通信系统国际会议上,第404-408页。
[170] Strehl,A.L.和Littman,M.L.(2008)。马尔可夫决策过程的基于模型的区间估计分析。计算机与系统科学杂志,74(8),1309-1331·Zbl 1157.68059号
[171] Stylianou,N.和Vlahavas,I.(2019年)。A Neural Entity Coreference Resolution Review.arXiv预印本arXiv:1910.09329。
[172] Su,J.、Vargas,D.V.和Sakurai,K.(2019年)。愚弄深层神经网络的单像素攻击。IEEE进化计算汇刊,23(5),828-841。
[173] Sutton,R.S.(1988)。学习用时间差异的方法进行预测。机器学习,3(1),9-44。
[174] Sutton,R.S.和Barto,A.G.(2018)。强化学习:简介。麻省理工学院出版社。1468 ·Zbl 1407.68009号
[175] Sutton,R.S.、Precup,D.和Singh,S.(1999)。MDP和半MDP之间:强化学习中的时间抽象框架。人工智能,112(1-2),181-211·Zbl 0996.68151号
[176] Szegedy,C.、Zaremba,W.、Sutskever,I.、Bruna,J.、Erhan,D.、Goodfellow,I.和Fergus,R.(2014)。神经网络的有趣特性。国际学习代表大会。
[177] Tai,L.、Zhang,J.、Liu,M.、Boedecker,J.和Burgard,W.(2016)。机器人学习控制的深层网络解决方案综述:从强化到模仿。arXiv预印本arXiv:1612.07139。
[178] Tang,H.,Houthooft,R.,Foote,D.,Stooke,A.,Chen,X.,Duan,Y.,Schulman,J.,De Turck,F.,&Abbeel,P.(2017年)。探索:基于计数的深度强化学习探索研究。《神经信息处理系统进展》,第2753-2762页。
[179] Tassa,Y.、Doron,Y.,Muldal,A.、Erez,T.、Li,Y..、Casas,D.D.L.、Budden,D.、Abdolmaleki,A.、Merel,J.、Lefrancq,A.等人(2018年)。Deepmind Control Suite.arXiv预打印arXiv:1801.00690。
[180] Todorov,E.、Erez,T.和Tassa,Y.(2012年)。MuJoCo:基于模型控制的物理引擎。在IEEE智能机器人和系统国际会议上,第5026-5033页。
[181] Toromanoff,M.、Wirbel,E.和Moutard,F.(2019年)。深度强化学习真的是Atari上的超人吗?。arXiv预打印arXiv:1908.04683。
[182] Tucker,G.、Bhupatiraju,S.、Gu,S..、Turner,R.、Ghahramani,Z.和Levine,S.(2018年)。强化学习中动作依赖基线的幻影。在机器学习国际会议上,第5015-5024页。
[183] Uhlenbeck,G.E.和Ornstein,L.S.(1930年)。关于布朗运动理论。身体检查,36(5),823·JFM 56.1277.03号机组
[184] Uther,W.和Veloso,M.(1997年)。对抗强化学习。卡内基梅隆大学技术代表。未发布。
[185] Van Den Oord,A.、Kalchbrenner,N.和Kavukcuoglu,K.(2016年)。像素递归神经网络。机器学习国际会议,第48卷,第1747-1756页。
[186] Van Hasselt,H.、Guez,A.、Hessel,M.、Mnih,V.和Silver,D.(2016a)。跨多个数量级学习价值观。《神经信息处理系统进展》,第4287-4295页。
[187] Van Hasselt,H.、Guez,A.和Silver,D.(2016b)。双Q学习深度强化学习。国际人工智能大会,第2094-2100页。
[188] Venkatraman,A.、Capobianco,R.、Pinto,L.、Hebert,M.、Nardi,D.和Bagnell,J.A.(2016)。改进了控制动力学模型的学习。在国际实验机器人研讨会上,第703-713页。
[189] Vezhnevets,A.、Mnih,V.、Agapiou,J.、Osindero,S.、Graves,A.、Vinyals,O.和Kavukcuoglu,K.(2016)。学习宏观行动的战略专注作家。《神经信息处理系统进展》,第29卷,第3486-3494页。
[190] Vezhnevets,A.S.、Osindero,S.、Schaul,T.、Heess,N.、Jaderberg,M.、Silver,D.和Kavukcuoglu,K.(2017年)。分层强化学习的封建网络。在机器学习国际会议上,第3540-3549页。
[191] Vinyals,O.、Babuschkin,I.、Chung,J.、Mathieu,M.、Jaderberg,M.、Czarnecki,W.、Dudzik,A.、Huang,A.、Georgiev,P.、Powell,R.、Ewalds,T.、Horgan,D.、Kroiss,M.、Danihelka,I.、Agapiou,J.、Oh,J.、Dalibard,V.、Choi,D.、Sifre,L.、Sulsky,Y.、Vezhnevets,S.、Molloy,J.、Cai,T.、Budden,D.、Paine,T.、Gulcehre,C.、Wang,Z.、Pfaff,T。,Pohlen,T.、Yogatama,D.、Cohen,J.、McKinney,K.、Smith,O.、Schaul,T.和Lillicrap,T.,Apps,C.、Kavukcuoglu,K.,Hassabis,D.和Silver,D.(2019年)。AlphaStar:掌握实时战略游戏StarCraft II。https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/。
[192] Von Neumann,J.和Morgenstern,O.(2007)。博弈论与经济行为。普林斯顿大学出版社·Zbl 1112.91002号
[193] Wainwright,M.J.和Jordan,M.I.(2008)。图形模型、指数族和变分推理。机器学习的基础和趋势。
[194] Wang,Y.,He,H.,Tan,X.,&Gan,Y.(2019)。信任区域引导的近距离策略优化。《神经信息处理系统进展》,第626-636页。
[195] Wang,Z.、Bapst,V.、Heess,N.、Mnih,V.,Munos,R.、Kavukcuoglu,K.和de Freitas,N.(2017年)。示例高效演员-关键经验回放。在国际学习代表大会上。
[196] Wang,Z.、Schaul,T.、Hessel,M.和Lanctot,M.(2016)。深入强化学习的决斗网络架构。在国际机器学习会议上,第1995-2003页。
[197] Watkins,C.(1989)。从延迟的奖励中学习。剑桥大学博士论文。
[198] Wen,Z.(2014)。价值函数泛化的高效强化学习。斯坦福大学博士论文。
[199] Whiteson,S.(2019)。基于自然语言的强化学习研究综述。国际人工智能联合会议,第6309-6317页。
[200] Williams,R.J.(1992)。连接强化学习的简单统计梯度跟随算法。机器学习,8(3-4),229-256·Zbl 0772.68076号
[201] Wu,C.、Rajeswaran,A.、Duan,Y.、Kumar,V.、Bayen,A.M.、Kakade,S.、Mordatch,I.和Abbeel,P.(2018)。基于行动相关因子基线的政策梯度方差缩减。在国际学习代表大会上。
[202] Wu,Y.、Mansimov,E.、Grosse,R.B.、Liao,S.和Ba,J.(2017a)。基于Kronecker-Factored近似的深度强化学习可扩展信任域方法。《神经信息处理系统研究进展》,第5279-5288页。
[203] Wu,Y.、Mansimov,E.、Liao,S.、Radford,A.和Schulman,J.(2017b)。OpenAI基线:ACKTR&A2C。https://openai.com/blog/baselines-acktr-a2c/。
[204] Yang,X.和Sun,M.(2019年)。作物种植深度学习研究综述。IOP会议系列:材料科学与工程,490(6),062053。
[205] Yu,C.、Liu,J.和Nemati,S.(2019年)。医疗保健强化学习:一项调查。arXiv预打印arXiv:1908.08796。
[206] Zhang,K.,Yang,Z.,&Baösar,T.(2019)。多智能体强化学习:理论和算法的选择性概述。arXiv预印本arXiv:1911.10635。
[207] 齐巴特,B。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。