×

现实世界强化学习的挑战:定义、基准和分析。 (英语) Zbl 07465677号

摘要:强化学习(RL)已经在一系列人工领域证明了其价值,并开始在现实世界中取得一些成功。然而,由于一系列在实践中很少满足的假设,RL的许多研究进展很难在现实系统中得到利用。在这项工作中,我们确定并形式化了一系列独立的挑战,这些挑战体现了RL要在现实系统中普遍部署必须解决的困难。对于每个挑战,我们在马尔可夫决策过程的上下文中对其进行了形式化定义,分析了挑战对最新学习算法的影响,并介绍了一些现有的解决挑战的尝试。我们认为,解决我们提出的一系列挑战的方法将很容易应用于大量现实问题。我们提出的挑战是在一套称为现实世界rl-一套我们建议将其作为开源基准。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abbeel,P.和Ng,A.Y.(2004年)。通过反向强化学习进行学徒制学习。第21届机器学习国际会议论文集(第1页)。ACM公司。
[2] Abbeel,P。;科茨,A。;Ng,AY,《通过学徒学习实现无人直升机特技飞行》,《国际机器人研究杂志》,29,13,1608-1639(2010)·doi:10.1177/0278364910371999
[3] Abdolmaleki,A.、Springenberg,J.T.、Tassa,Y.、Munos,R.、Heess,N.和Riedmiller,M.A.(2018a)。最大化后验策略优化。CoRR.arXiv公司:1806.06920
[4] Abdolmaleki,A.、Springenberg,J.T.、Tassa,Y.、Munos,R.、Heess,N.和Riedmiller,M.A.(2018b)最大后验政策优化。在学习代表国际会议上。
[5] Abdolmaleki,A.、Huang,S.H.、Hasenclaver,L.、Neunert,M.、Song,H.F.、Zambelli,M.,Martins,M.F.,Heess,N.、Hadsell,R.和Riedmiller,M.(2020年)。多目标政策优化的分布式观点。预印arXiv:200507513
[6] Achiam,J.、Held,D.、Tamar,A.和Abbeel,P.(2017年)。受限策略优化。CoRR.arXiv公司:1705.10528
[7] Adam,S.、Busoniu,L.和Babuska,R.(2011年)。实时强化学习控制的体验回放。IEEE系统、人与控制论汇刊,C部分(应用与评论),42(2),201-212。
[8] Adamski,I.、Adamsky,R.、Grel,T.、Jedrych,A.、Kaczmarek,K.和Michalewski,H.(2018)。分布式深度强化学习:学习如何在21分钟内玩atari游戏。在高性能计算国际会议上(第370-388页)。斯普林格。
[9] Agarwal,A.、Bird,S.、Cozowicz,M.、Hoang,L.、Langford,J.、Lee,S.,Li,J..、Melamed,D.、Oshri,G.、Ribas,O.等人(2016年)。在低技术债务的情况下做出相关决策。预打印arXiv:1606.03966
[10] Agarwal,R.、Schuurmans,D.和Norouzi,M.(2019年)。力求简化非政策性深度强化学习。预印arXiv:1907.04543
[11] Altman,E.,《约束马尔可夫决策过程》(1999),伦敦:CRC出版社,伦敦·Zbl 0963.90068号
[12] Ahn,M.,Zhu,H.,Hartikainen,K.,Ponte,H,Gupta,A.,Levine,S.,&Kumar,V.(2019年)。RObotics开创了低成本机器人学习的先河。在机器人学习会议(CoRL)上。
[13] Andrychowicz,M.、Baker,B.、Chociej,M.,Jozefowicz、R.、McGrew,B.、Pachocki,J.、Petron,A.、Plappert,M.和Powell,G.、Ray,A.等人(2018年)。学习灵巧的手操作。预印arXiv:1808.00177
[14] Argenson,A.和Dulac Arnold,G.(2020)。基于模型的离线规划。预印arXiv:2008.05556
[15] Arjona-Medina,J.A.、Gillhofer,M.、Widrich,M.,Unterthiner,T.和Hochreiter,S.(2018)。方向舵:延迟奖励的回报分解。预印arXiv:1806.07857
[16] Bacon,P.L.、Harb,J.和Precup,D.(2017年)。选项评论体系结构。在第31届AAAI人工智能会议上。
[17] Barth-Maron,G.、Hoffman,M.W.、Budden,D.、Dabney,W.、Horgan,D.T.B.D.、Muldal,A.、Heess,N.和Lillicrap,T.P.(2018年)。分布式分布式确定性策略梯度。在学习代表国际会议上。
[18] Bellemare,M.G.、Dabney,W.和Munos,R.(2017年)。强化学习的分布视角。CoRR.arXiv公司:1707.06887
[19] Bohez,S.、Abdolmaleki,A.、Neunert,M.、Buchli,J.、Heess,N.和Hadsell,R.(2019年)。值约束无模型连续控制。预印arXiv:1902.04623
[20] Boutiler,C.和Lu,T.(2016)。使用弱耦合、约束马尔可夫决策过程进行预算分配。第32届人工智能不确定性会议论文集(UAI-16)(第52-61页)。纽约州纽约市。
[21] Bradtke,S。;Barto,A.,时间差学习的线性最小二乘算法,机器学习,22,33-57(1996)·Zbl 1099.93534号
[22] Buckman,J.、Hafner,D.、Tucker,G.、Brevdo,E.和Lee,H.(2018年)。具有随机集合值扩展的样本有效强化学习。CoRR.arXiv公司:1807.01675
[23] Cabi,S.,Colmenarejo,S.G.,Novikov,A.,Konyushkova,K.,Reed,S.、Jeong,R.、Zolna,K.、Aytar,Y.、Budden,D.、Vecerik,M.、Sushkov,O.、Barker,D.、Scholz,J.、Denil,M.,de Freitas,N.和Wang,Z.(2019年)。通过奖励草图和批量强化学习缩放数据驱动机器人。预印arXiv:1909.12200
[24] Cai,H.、Ren,K.、Zhang,W.、Malialis,K.,Wang,J.、Yu,Y.和Guo,D.(2017)。展示广告中通过强化学习进行实时竞价。在第10届ACM网络搜索和数据挖掘国际会议论文集(第661-670页)。
[25] Calian,D.A.、Mankowitz,D.J.、Zahavy,T.、Xu,Z.、Oh,J.、Levine,N.和Mann,T.(2020年)。使用元粒度d4pg平衡约束和奖励。印记。arXiv:2010.06324
[26] Carrara,N.、Laroche,R.、Bouraoui,J.、Urvoy,T.、Olivier,T.D.S.和Pietquin,O.(2018)。用于预算mdp的fitted-q算法。在EWRL中。
[27] Cassandra,A.R.(1998年)。POMDP应用调查。在1998年秋季AAAI研讨会的工作笔记中,讨论了部分可观测马尔可夫决策过程的规划(第1724卷)。
[28] Chen,M.、Beutel,A.、Covington,P.、Jain,S.、Belletti,F.和Chi,E.H.(2019a)。Top-k增强推荐系统的非政策修正。第12届ACM网络搜索和数据挖掘国际会议论文集(第456-464页)。
[29] Chen,X.、Zhou,Z.、Wang,Z.,Wang,C.、Wu,Y.、Deng,Q.和Ross,K.(2019b)。BAIL:用于批量深度强化学习的最佳动作模仿学习。预印arXiv:1910.12179
[30] Chow,Y.、Nachum,O.、Duenez-Guzman,E.和Ghavamzadeh,M.(2018年)。基于Lyapunov的安全强化学习方法。收录于:S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi、R.Garnett(编辑),《神经信息处理系统的进展》(第31卷,第8092-8101页)。
[31] Chua,K.、Calandra,R.、McAllister,R.和Levine,S.(2018年)。在少数使用概率动力学模型的试验中进行深度强化学习。《神经信息处理系统进展》(第4754-4765页)。
[32] Covington,P.、Adams,J.和Sargin,E.(2016)。Youtube推荐的深度神经网络。第十届ACM推荐系统会议记录(第191-198页)。ACM公司。
[33] Dabney,W.、Ostrovski,G.、Silver,D.和Munos,R.(2018年)。分布式强化学习的隐式分位数网络。J Dy,A Krause(编辑),第35届机器学习国际会议论文集,PMLR,Stockholmssan,瑞典斯德哥尔摩,机器学习研究论文集(第80卷,第1096-1105页)。
[34] Dalal,G.、Dvijotham,K.、Vecerik,M.、Hester,T.、Paduraru,C.和Tassa,Y.(2018年)。在连续动作空间中进行安全探索。冠状病毒:1801.08757
[35] Derman,E.、Mankowitz,D.J.、Mann,T.A.和Mannor,S.(2018年)。软盘行动-关键政策-粒度。预印arXiv:1803.04848
[36] Derman,E.、Mankowitz,D.J.、Mann,T.A.和Mannor,S.(2018年)。稳健强化学习的贝叶斯方法。arXiv:1905.08188
[37] 多亚,K。;Samejima,K。;Katagiri,KI;Kawato,M.,基于多模型的强化学习,神经计算,14,6,1347-1369(2002)·Zbl 0997.93037号 ·doi:10.11162/08997602620737121972
[38] Dulac-Arnold,G.、Evans,R.、van Hasselt,H.、Sunehag,P.、Lillicrap,T.、Hunt,J.、Mann,T.和Weber,T.,Degres,T.以及Coppin,B.(2015)。在大型离散动作空间中进行深度强化学习。预印arXiv:1512.07679
[39] Dulac-Arnold,G.、Mankowitz,D.J.和Hester,T.(2019年)。现实世界强化学习的挑战。在ICML关于现实生活强化学习的研讨会上。arXiv:1904.12901年
[40] Ernst,D。;Geurts,P。;Wehenkel,L.,基于树的批处理模式强化学习,机器学习研究杂志,6503-556(2005)·Zbl 1222.68193号
[41] Espeholt,L.、Soyer,H.、Munos,R.、Simonyan,K.、Mnih,V.、Ward,T.等人(2018a)。IMPALA:可扩展的分布式deep-rl,具有重要性加权的actor-learner体系结构。arXiv:1802.01561。
[42] Espeholt,L.、Soyer,H.、Munos,R.、Simonyan,K.、Mnih,V.、Ward,T.、Doron,Y.、Firoiu,V.,Harley,T.,Dunning,I.、Legg,S.和Kavukcuoglu,K..(2018b)。IMPALA:可扩展的分布式deep-RL,具有重要性加权的参与者学习体系结构。J Dy,A Krause(编辑),《第35届机器学习国际会议论文集》,PMLR,Stockholmssan,瑞典斯德哥尔摩,机器学习研究论文集(第80卷,第1407-1416页)。
[43] Espeholt,L.、Soyer,H.、Munos,R.、Simonyan,K.、Mnih,V.、Ward,T.、Doron,Y.、Firoiu,V.,Harley,T.,Dunning,I.等人(2018c)Impala:具有重要加权学习者体系结构的可扩展分布式深-RL。预印arXiv:1802.01561
[44] Evans,R.和Gao,J.(2016)。Deepmind ai将谷歌数据中心冷却费用减少40
[45] Finn,C.、Abbeel,P.和Levine,S.(2017年)。用于快速适应深层网络的模型认知元学习。第34届机器学习国际会议论文集——第70卷,JMLR。org(第1126-1135页)。
[46] Fujimoto,S.、Meger,D.和Precup,D.(2019年)。非政策性深度强化学习,无需探索。在国际机器学习会议上(第2052-2062页)。
[47] Gauci,J.、Conti,E.、Liang,Y.、Virochiri,K.、He,Y..、Kaden,Z.、Narayanan,V.和Ye,X.(2018)。地平线:脸书的开源应用强化学习平台。预印arXiv:1811.00260
[48] Gu,S.、Holly,E.、Lillicrap,T.和Levine,S.(2017)。通过异步非策略更新实现机器人操作的深度强化学习。2017年IEEE机器人与自动化国际会议(ICRA)(第3389-3396页)。电气与电子工程师协会。
[49] Haarnoja,T.、Zhou,A.、Hartikainen,K.、Tucker,G.、Ha,S.、Tan,J.、Kumar,V.、Zhu,H.、Gupta,A.、Abbeel,P.等人(2018)。软actor-critic算法和应用程序。预印arXiv:1812.05905
[50] Hadfield-Menell,D.、Milli,S.、Abbeel,P.、Russell,S.J.和Dragan,A.D.(2017年)。反向奖励设计。冠状病毒:1711.02827
[51] Hafner,D.、Lillicrap,T.、Fischer,I.、Villegas,R.、Ha,D.、Lee,H.和Davidson,J.(2018)。从像素学习规划的潜在动力。预印arXiv:1811.04551
[52] Hausknecht,M.J.和Stone,P.(2015)。部分可观察mdp的深度递归q学习。CoRR.arXiv公司:1507.06527
[53] He,J.,Chen,J.、He,X.、Gao,J.和Li,L.、Deng,L.以及Ostendorf,M.(2015)。利用自然语言动作空间进行深度强化学习。预印arXiv:1511.04636
[54] Heess,N.T.B.D.、Sriram,S.、Lemmon,J.、Merel,J.,Wayne,G.、Tassa,Y.、Erez,T.、Wang,Z.、Eslami,S.等人(2017年)。在丰富的环境中出现运动行为。预印arXiv:1707.02286
[55] Henderson,P.、Islam,R.、Bachman,P.,Pineau,J.、Precup,D.和Meger,D.(2018年)。重要的深层强化学习。在第32届AAAI人工智能会议上。
[56] 海丝特,T。;Stone,P.,TEXPLORE:机器人实时采样高效强化学习,机器学习(2013)·doi:10.1007/s10994-012-5322-7
[57] Hester,T.、Vecerik,M.、Pietquin,O.、Lanctot,M.,Schaul,T.,Piot,B.、Horgan,D.、Quan,J.、Sendonaris,A.、Osband,I.、Dulac-Arnold,G.、Agapiou,J.,Leibo,J.Z.和Gruslys,A.(2018a)。从演示中深入学习。第32届AAAI人工智能会议论文集(AAAI-18)(第3223-3230页)。
[58] Hester,T.A.、Fisher,E.J.和Khandelwal,P.(2018b)。预测控制环境控制系统。美国专利9869484。
[59] Hoffman,M.、Shahriari,B.、Aslanides,J.、Barth-Maron,G.、Behbahani,F.、Norman,T.、Abdolmaleki,A.、Cassirer,A.、Yang,F.和Baumli,K.等人(2020年)。ACME:分布式强化学习的研究框架。预印arXiv:2006.00979
[60] Horgan,D.、Quan,J.、Budden,D.、Barth-Maron,G.、Hessel,M.、van Hasselt,H.和Silver,D.(2018年)。分布式优先体验重播。CoRR arXiv公司:1803.00933
[61] Hung,C.C.、Lillicrap,T.、Abramson,J.、Wu,Y.、Mirza,M.、Carnevale,F.、Ahuja,A.和Wayne,G.(2018)。通过传输价值,在长时间范围内优化代理行为。预印本arXiv:11810.06721
[62] Ie,E.,Hsu,C.W.,Mladenov,M.,Jain,V.,Narvekar,S.,Wang,J.,Wu,R.,&Boutiler,C.(2019年)。Recsim:推荐系统的可配置仿真平台。预印arXiv:1909.04847
[63] Iyengar,GN,鲁棒动态规划,运筹学数学,30,2,257-280(2005)·兹比尔1082.90123 ·doi:10.1287/门1040.0129
[64] Jaderberg,M.、Mnih,V.、Czarnecki,W.、Schaul,T.、Leibo,J.Z.L.、Silver,D.和Kavukcuoglu,K.(2016年)。无监督辅助任务强化学习(第1-11页)。doi:10.1051/0004-6361/201527329。arXiv:1509.03044v2
[65] James,S.、Rosman,B.和Konidaris,G.(2018年)。学习使用便携式符号进行计划。计划与学习研讨会(PAL@ICML/IJCAI/AAMAS)。
[66] Jaques,N.、Ghandeharioun,A.、Shen,J.H.、Ferguson,C.、Lapedriza,阿里巴巴。,Jones,N.、Gu,S.和Picard,R.W.(2019年)。策略外的方式批量深入强化对话中隐含人类偏好的学习。预印arXiv:1907.00456
[67] 卡拉什尼科夫,D.,伊尔潘,A.,帕斯特,P.,伊巴兹,J.,赫尔佐格,A.,詹,E.,奎伦,D.,霍利,E.,卡拉克里希南,M.,瓦恩霍克,V.等人(2018年)。Qt-opt:基于视觉的机器人操作的可扩展深度强化学习。预印arXiv:1806.10293
[68] Kidambi,R.、Rajeswaran,A.、Netrapalli,P.和Joachims,T.(2020年)。莫雷尔:基于模型的离线强化学习。预印arXiv:2005.05951
[69] 科尼达利斯,G。;Kaelbling,有限合伙人;Lozano-Perez,T.,《从技能到符号:学习抽象高层规划的符号表示法》,《人工智能研究杂志》,61215-289(2018)·Zbl 1426.68254号 ·数字对象标识代码:10.1613/jair.5575
[70] Kumar,A.、Fu,J.、Soh,M.、Tucker,G.和Levine,S.(2019年)。通过自举错误减少稳定非策略Q-学习。在神经信息处理系统会议上(第11761-11771页)。
[71] MG拉古达基斯;Parr,R.,最小平方策略迭代,《机器学习研究杂志》,41107-1149(2003)·Zbl 1094.68080号
[72] Levine,N.、Chow,Y.、Shu,R.、Li,A.、Ghavamzadeh,M.和Bui,H.(2019年)。预测、一致性、曲率:局部线性控制的表示学习。预印arXiv:1909.01506
[73] Levine,S.和Koltun,V.(2013年)。指导性策略搜索。在机器学习国际会议上(第1-9页)。
[74] 莱文,S。;芬恩,C。;Darrell,T。;Abbeel,P.,深度视觉运动策略的端到端训练,《机器学习研究杂志》,17,1334-1373(2016)·Zbl 1360.68687号
[75] Levine,S.、Kumar,A.、Tucker,G.和Fu,J.(2020年)。离线强化学习:关于开放性问题的教程、复习和观点。预印arXiv:2005.01643
[76] Li,K.,Zhang,T.,&Wang,R.(2019)。多目标优化的深度强化学习。IEEE控制论汇刊,14(8),1-10。arXiv:1906.02386
[77] Lillicrap,T.P.、Hunt,J.J.、Pritzel,A.、Heess,N.、Erez,T.、Tassa,Y.、Silver,D.和Wierstra,D.(2015)。通过深度强化学习进行持续控制。预印arXiv:1509.02971
[78] Mahmood,A.R.、Korenkevych,D.、Vasan,G.、Ma,W.和Bergstra,J.(2018年)。在真实机器人上对强化学习算法进行基准测试。预印arXiv:1809.07731
[79] Mankowitz,D.J.、Mann,T.A.和Mannor,S.(2016a)。自适应技能自适应分区(ASAP)。《神经信息处理系统进展》(第1588-1596页)。
[80] Mankowitz,D.J.、Mann,T.A.和Mannor,S.(2016b)。针对指定错误问题的迭代层次优化(ihomp)。预打印arXiv:1602.03348
[81] Mankowitz,D.J.、Tamar,A.和Mannor,S.(2016c)。通过风险意识技能提高情境意识。预印arXiv:1610.02847
[82] Mankowitz,D.J.、Mann,T.A.、Bacon,P.L.、Precup,D.和Mannor,S.(2018a)学习稳健的选项。在第32届AAAI人工智能会议上。
[83] Mankowitz,D.J.、zy dek,A.、Barreto,A.、Horgan,D.、Hessel,M.、Quan,J.、Oh,J.、van Hasselt,H.、Silver,D.和Schaul,T.(2018b)。独角兽:与通用、非政策代理一起持续学习。预印arXiv:1802.08294
[84] Mankowitz,D.J.、Levine,N.、Jeong,R.、Abdolmaleki,A.、Springenberg,J.T.、Mann,T.A.等人(2019年)。具有模型错误的连续控制的鲁棒强化学习。CoRR arXiv公司:1906.07516
[85] Mankowitz,D.J.、Calian,D.A.、Jeong,R.、Paduraru,C.、Heess,N.、Dathathri,S.等人(2020年)。用于具有模型错误指定的连续控制的鲁棒约束强化学习。arXiv印记:2010.10644
[86] Mann,T.A.、Gowal,S.、Jiang,R.、Hu,H.、Lakshminarayanan,B.和György,A.(2018年)。通过中间观察从延迟结果中学习。CoRR.arXiv公司:1807.09387
[87] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;鲁苏,AA;Veness,J。;Bellemare,MG,《通过深度强化学习实现人性化控制》,《自然》,518,7540,529(2015)·doi:10.1038/nature14236
[88] 莫法特,KV;Now,A.,《使用帕累托支配策略集的多目标强化学习》,JMLR,13663-3692(2014)·Zbl 1312.90089号
[89] Nagabandi,A.、Finn,C.和Levine,S.(2018年)。通过元学习进行深度在线学习:持续适应基于模型的RL。CoRR.arXiv:1812.07671
[90] Nagabandi,A.、Konoglie,K.、Levine,S.和Kumar,V.(2019年)。用于学习灵巧操作的深层动力学模型。预印arXiv:1909.11652
[91] Ng,A.Y.,Russell,S.J.等人(2000年)。反向强化学习算法。In Icml(第1卷,第2页)。
[92] 开放人工智能。(2018)Openai五。https://blog.openai.com/openai-five网站/
[93] 奥斯本·I。;布伦德尔,C。;Pritzel,A。;Van Roy,B。;Lee,DD;杉山,M。;卢克斯堡,紫外线;盖恩,I。;Garnett,R.,通过引导DQN进行深度探索,神经信息处理系统进展,4026-4034(2016),纽约:Curran Associates,Inc.,纽约
[94] Osband,I.、Doron,Y.、Hessel,M.、Aslanides,J.、Sezener,E.、Saraiva,A.、McKinney,K.、Lattimore,T.、Szepezvari,C.、Singh,S.等人(2019年)。强化学习行为套件。预印arXiv:1908.03568
[95] Peng,X.B.、Andrychowicz,M.、Zaremba,W.和Abbeel,P.(2018年)。使用动力学随机化实现机器人控制的模拟到实际转移。2018年IEEE机器人与自动化国际会议(ICRA)(第1-8页)。电气与电子工程师协会。
[96] Peng,X.B.、Kumar,A.、Zhang,G.和Levine,S.(2019)。优势加权回归:简单且可扩展的非政策强化学习。预印arXiv:1910.00177
[97] Pham,T.、Magistris,G.D.和Tachibana,R.(2017年)。现实世界中深层强化学习的Optlayer-practical约束优化。CoRR arXiv公司:1709.07643
[98] Pomerleau,D.A.(1989)。ALVINN:神经网络中的自主陆地车辆。神经信息处理系统会议(第305-313页)。
[99] Ramstedt,S.和Pal,C.(2019年)。实时强化学习。《神经信息处理系统进展》(第3067-3076页)。
[100] Ray,A.、Achiam,J.和Amodei,D.(2019年)。深度强化学习中的安全探索标杆管理。
[101] Riedmiller,M.(2005)。神经拟合Q迭代-使用数据高效的神经强化学习方法首次体验。J.Gama,R.Camacho,P.B.Braddil,A.M.Jorge,L.Torgo(编辑),欧洲机器学习会议(第317-328页)。
[102] Riedmiller,M.(2012年)。设置神经强化控制器的10个步骤和一些技巧。《神经网络:贸易的诡计》(第735-757页)。斯普林格。
[103] Riedmiller,M.,Hafner,R.,Lampe,T.,Neunert,M.、Degrave,J.、Van de Wiele,T.、Mnih,V.、Heess,N.和Springenberg,J.T.(2018年)。通过游戏学习——从头开始解决稀疏的奖励任务。预印arXiv:1802.10567
[104] 罗伊尔斯,DM;Vamplew,P。;怀特森,S。;Dazeley,R.,《多目标顺序决策调查》,《人工智能研究杂志》,48,67-113(2013)·Zbl 1364.68323号 ·doi:10.1613/jair.3987
[105] Ross,S.、Gordon,G.和Bagnell,D.(2011年)。将模仿学习和结构化预测减少到无遗憾的在线学习。第14届国际人工智能与统计会议论文集(第627-635页)。
[106] SJ Russell,《不确定环境下的学习代理》,COLT,98,101-103(1998)·数字对象标识代码:10.1145/279943.279964
[107] Satija,H.、Amortila,P.和Pineau,J.(2020年)。通过后向值函数的约束马尔可夫决策过程。预印arXiv:2008.11811
[108] Schaul,T.、Horgan,D.、Gregor,K.和Silver,D.(2015)。通用值函数逼近器。在机器学习国际会议上(第1312-1320页)。
[109] Schrittwieser,J.、Antonoglou,I.、Hubert,T.、Simonyan,K.、Sifre,L.、Schmitt,S.、Guez,A.、Lockhart,E.、Hassabis,D.、Graepel,T.等人(2019年)。通过学习模型进行规划,掌握atari、围棋、象棋和shogi。预印arXiv:1911.08265
[110] Schulman,J.、Wolski,F.、Dhariwal,P.、Radford,A.和Klimov,O.(2017)。近似策略优化算法。CoRR arXiv公司:1707.06347
[111] Shashua,S.D.C.和Mannor,S.(2017年)。深度鲁棒卡尔曼滤波器。预印arXiv:1703.02310
[112] Siegel,N.、Springenberg,J.T.、Berkenkamp,F.、Abdolmaleki,A.、Neunert,M.、Lampe,T.、Hafner,R.、Heess,N.和Riedmiller,M.(2020年)。继续做有效的事情:离线强化学习之前的行为建模。在学习代表国际会议上。
[113] 西尔弗·D。;黄,A。;CJ麦迪逊;A.盖兹。;Sifre,L。;Van Den Driessche,G。;Schrittwieser,J。;安东尼奥卢,I。;Panneershelvam,V。;Lanctot,M.,《掌握深度神经网络和树搜索的游戏》,《自然》,529,7587,484(2016)·doi:10.1038/nature16961
[114] Spirtes,P.(2001年)。因果推理的任意算法。在AISTATS。
[115] Stooke,A.、Achiam,J.和Abbeel,P.(2020年)。PID拉格朗日方法强化学习中的响应安全性。预印arXiv:2007.03964
[116] 萨顿,RS;Barto,AG,《强化学习:导论》(2018),伦敦:麻省理工学院出版社,伦敦·Zbl 1407.68009号
[117] 萨顿,RS;Precup,D。;Singh,S.,《在MDPS和半MDPS之间:强化学习中的时间抽象框架》,人工智能,112,1-2,181-211(1999)·兹比尔0996.68151 ·doi:10.1016/S0004-3702(99)00052-1
[118] Tamar,A.、Mannor,S.和Xu,H.(2014)。使用函数近似放大鲁棒MDPS。在机器学习国际会议上(第181-189页)。
[119] Tamar,A.、Chow,Y.、Ghavamzadeh,M.和Mannor,S.(2015a)。连贯风险度量的政策梯度。《神经信息处理系统进展》(第1468-1476页)。
[120] Tamar,A.、Glassner,Y.和Mannor,S.(2015b)。通过采样优化Cvar。在第29届AAAI人工智能会议上。
[121] Tassa,Y.、Doron,Y.,Muldal,A.、Erez,T.、Li,Y..、Casas,DdL.、。,Budden,D.、Abdolmaleki,A.、Merel,J.、Lefrancq,A.等人(2018年)。Deepmind控制套件。预印arXiv:1801.00690
[122] Tessler,C.、Givony,S.、Zahavy,T.、Mankowitz,D.J.和Mannor,S.(2016)。在minecraft中终身学习的深度分层方法。CoRR arXiv公司:1604.07255
[123] Tessler,C.、Mankowitz,D.J.和Mannor,S.(2018年)。奖励约束的政策优化。预印arXiv:1805.11074
[124] Tessler,C.、Zahavy,T.、Cohen,D.、Mankowitz,D.J.和Mannor,S.(2019年)。动作组合:具有组合动作空间的基于文本的游戏的稀疏模仿学习。CoRR arXiv公司:1905.09700
[125] Thomas,P.S.(2015)。安全强化学习。马萨诸塞大学图书馆博士论文。
[126] Thomas,P.S.、da Silva,B.C.、Barto,A.G.和Brunskill,E.(2017年)。确保智能机器性能良好。预印arXiv:1708.05448
[127] 特拉夫尼克,JB;马修森,KW;萨顿,RS;Pilarski,PM,异步环境中的反应式强化学习,机器人与人工智能前沿,5,79(2018)·doi:10.3389/frobt.2018.00079
[128] Turchetta,M.、Berkenkamp,F.和Krause,A.(2016)。高斯过程有限马尔可夫决策过程中的安全探索。CoRR arXiv公司:1606.04753
[129] Van Seijen,H.等人。;法特米,M。;Romoff,J。;拉罗什,R。;巴恩斯,T。;Tsang,J.,用于强化学习的混合奖励体系,《神经信息处理系统进展》,30,5392-5402(2017)
[130] Vecerik,M.、Sushkov,O.、Barker,D.、Rothörl,T.、Hester,T.和Scholz,J.(2019a)。使用深度强化学习实现可变插口位置插入的实用方法。2019年机器人与自动化国际会议(ICRA)(第754-760页)。电气与电子工程师协会。
[131] Vecerík,M.、Sushkov,O.、Barker,D.、Rothörl,T.、Hester,T.和Scholz,J.(2019b)。使用深度强化学习实现可变插口位置插入的实用方法。2019年机器人与自动化国际会议(ICRA)(第754-760页)。
[132] Vlasselaer,J.、Van den Broeck,G.、Kimmig,A.、Meert,W.和De Raedt,L.(2015)。概率逻辑程序中使用tp-编译的任何时间推断。在第24届国际人工智能联合会议上·Zbl 1386.68174号
[133] Wachi,A.、Sui,Y.、Yu,Y.和Ono,M.(2018年)。使用高斯过程安全探索和优化约束MDPS。AAAI(第6548-6556页)。AAAI出版社。
[134] Wagstaff,K.(2012)。机器学习很重要。预印arXiv:1206.4656
[135] Wang,J.,&Yuan,S.(2015)。实时竞价:计算广告研究的新前沿。第八届ACM网络搜索和数据挖掘国际会议论文集(第415-416页)。
[136] Wang,Q.、Xiong,J.、Han,L.、Sun,P.、Liu,H.、Zhang,T.(2018)。成批历史数据的指数加权模拟学习。神经信息处理系统会议(第6288-6297页)。
[137] Wang,Z.,Novikov,A.,Zolna,K.,Springenberg,J.T.,Reed,S.,Shahriari,B.,Siegel,N.,Merel,J.,Gulcehre,C.,Heess,N.等人(2020年)。评论家规范了回归。预印arXiv:2006.15134
[138] Wu,Y.、Tucker,G.和Nachum,O.(2019)。行为规范化的离线强化学习。预印arXiv:1911.11361
[139] Xu,H.和Mannor,S.(2011年)。概率目标马尔可夫决策过程。在第22届国际人工智能联合会议上。
[140] Yahya,A.、Li,A.、Kalakrishnan,M.、Chebotar,Y.和Levine,S.(2017)。采用分布式异步引导策略搜索的集体机器人强化学习。2017年IEEE/RSJ智能机器人和系统国际会议(IROS)(第79-86页)。电气与电子工程师协会。
[141] Yang,R.、Sun,X.和Narasimhan,K.(2019年)。多目标强化学习和策略适应的通用算法(NeurIPS):1-27 Eprint arXiv:1908.08342
[142] Yu,T.、Thomas,G.、Yu,L.、Ermon,S.、Zou,J.、Levine,S.,Finn,C.和Ma,T.(2020年)。Mopo:基于模型的离线策略优化。预印arXiv:2005.13239
[143] Zahavy,T.、Haroush,M.、Merlis,N.、Mankowitz,D.J.和Mannor,S.(2018年)。学习不应该学习的内容:通过深度强化学习消除行动。《神经信息处理系统进展》(第3562-3573页)。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。