×

强化学习算法的基本设计原则。 (英语) Zbl 07608704号

Vamvoudakis,Kyriakos G.(编辑)等人,《强化学习和控制手册》。查姆:斯普林格。研究系统。小数。对照325,75-137(2021)。
摘要:随着该领域可见度的急剧增加,新强化学习算法的提出速度达到了新的峰值。虽然活动激增带来了兴奋和机遇,但对这些算法成功应用所需满足的两个基本原则的理解仍存在差距。一个与保证收敛有关,另一个与收敛速度有关。绝大多数强化学习算法都属于一类称为随机近似(SA)的学习算法。这里的目的是回顾基于SA最近和古代结果的强化学习算法设计的基础。特别是,在[Borkar和Meyn,2000]中确定,通过分析两个相关ODE的稳定性,可以保证这些算法的稳定性和收敛性。此外,如果线性化的常微分方程通过了简单的特征值检验,则可以保证最优的收敛速度。本章包含对这些概念的概述,以及作者介绍的新一类Zap强化学习算法的概述。这些算法在保证最优收敛速度的同时,几乎可以实现普遍收敛。
关于整个系列,请参见[Zbl 1492.49001号].

理学硕士:

68泰克 人工智能

软件:

SBEED公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abounadi,J.,Bertsekas,D.,Borkar,V.S.:具有平均成本的Markov决策过程的学习算法。SIAM J.控制优化。40(3),681-698(电子版)(2001)·Zbl 1001.93091号
[2] Azar,M.G.,Munos,R.,Ghavamzadeh,M.,Kappen,H.:快速Q学习。主题:神经信息处理系统进展(2011年)
[3] Benveniste,A.,Métivier,M.,Priouret,P.:自适应算法和随机逼近。柏林施普林格出版社(2012)·Zbl 0752.93073号
[4] Bertsekas,D.P.:《动态规划与最优控制》,第2卷,第4版。雅典娜科技(2012)·Zbl 1298.90001号
[5] Bhandari,J.,Russo,D.,Singal,R.:线性函数近似下时间差分学习的有限时间分析(2018)。arXiv预打印arXiv:1806.02450·兹比尔1472.90150
[6] Blum,J.R.:多维随机近似方法。安。数学。Stat.737-744(1954年)·Zbl 0056.38305号
[7] 博卡尔,V。;Meyn,SP,Oja的图聚类、马尔可夫谱分解和风险敏感控制算法,Automatica,48,10,2512-2519(2012)·Zbl 1310.93049号 ·doi:10.1016/j.automatica.2012.05.016
[8] Borkar,V.S.:《随机逼近:动力学系统观点》。印度斯坦图书局和剑桥大学出版社(联合),德里和剑桥(2008)·Zbl 1159.60002号
[9] Borkar,V.S.,Meyn,S.P.:随机逼近和强化学习收敛的ODE方法。SIAM J.控制优化。38(2), 447-469 (2000). (还于1998年12月在IEEE CDC上发表)·Zbl 0990.62071号
[10] Chen,S.、Devraj,A.M.、Bušić,A.、Meyn,S.:Zap Q-学习以实现最佳停车(2019年)。摘自:美国控制会议(ACC)会议记录(2020年)
[11] Chen,S.,Devraj,A.M.,Bušić,A.,Meyn,S.:非线性函数逼近的Zap Q学习。arXiv预印本:arXiv:1910.05405(2019)
[12] Chen,S.,Devraj,A.M.,Bušić,A.,Meyn,S.P.:Monte-Carlo和线性随机近似的显式均方误差界。附:第二十三届国际人工智能与统计会议(AISTATS)会议记录(2020年)
[13] Choi,D。;Van Roy,B.,《用于不动点近似和有效时间差分学习的广义卡尔曼滤波器》,Discret。事件动态。系统:理论应用。,16, 2, 207-239 (2006) ·Zbl 1104.93054号 ·doi:10.1007/s10626-006-8134-8
[14] Chung,KL,《关于随机近似方法》,Ann.Math。Stat.,25,3,463-483(1954年)·Zbl 0059.13203号 ·doi:10.1214/aoms/1177728716
[15] Dai,B.,Shaw,A.,Li,L.,Xiao,L.,He,N.,Liu,Z.,Chen,J.,Song,L.:SBED:非线性函数近似的收敛强化学习。在:国际机器学习会议,第1133-1142页(2018)
[16] Dalal,G.、Szörényi,B.、Thoppe,G.和Mannor,S.:两个时间尺度随机近似的浓度界限及其在强化学习中的应用。摘自:《计算学习理论会议论文集》,ArXiv电子版,第1-35页(2017年)
[17] Dembo,A。;Zeitouni,O.,《大偏差技术与应用》(1998),纽约:Springer,纽约·Zbl 0896.60013号 ·doi:10.1007/978-1-4612-5320-4
[18] Devraj,A.M.:具有最佳学习率的强化学习设计。佛罗里达大学博士论文(2019年)
[19] Devraj,A.M.,Bušić,A.,Meyn,S.:矩阵动量随机逼近及其在Q学习中的应用。收录:第57届Allerton通信、控制和计算年度会议记录(2019年)
[20] Devraj,A.M.、Bušić,A.、Meyn,S.:Zap Q-Learning–用户指南。附:第五届印度控制会议记录(2019年)
[21] Devraj,A.M.,Meyn,S.P.:Q-学习的最快收敛。arXiv预印arXiv:1707.03770(2017)
[22] Devraj,A.M.,Meyn,S.P.:Zap Q-learning。收录于:第31届国际神经信息处理系统大会论文集(2017)
[23] Devraj,A.M.,Meyn,S.P.:方差一致有界的Q学习。arXiv预打印arXiv:2002.10301(2020)
[24] 达菲,K。;Meyn,S.,繁忙期的大偏差渐近性,Stoch。系统。,4, 1, 300-319 (2014) ·Zbl 1310.60130号 ·doi:10.1287/13-SSY098
[25] KR达菲;Meyn,SP,估计反射随机游走平均值时最可能出现的错误路径,Perform.Eval。,67, 12, 1290-1303 (2010) ·doi:10.1016/j.peva.2010.06.002
[26] Even-Dar,E.,Mansour,Y.:Q-Learning的学习率。J.马赫。学习。第5号决议,1-25(2003年)·Zbl 1222.68196号
[27] Glynn,普华永道;Ormoneit,D.,一致遍历马氏链的Hoeffing不等式,Stat.Prob。莱特。,56, 143-146 (2002) ·Zbl 0999.60019号 ·doi:10.1016/S0167-7152(01)00158-4
[28] Hasselt,H.V.:双重Q学习。摘自:《神经信息处理系统进展》,第2613-2621页(2010年)
[29] 基弗,J。;Wolfowitz,J.,回归函数最大值的随机估计,《数学年鉴》。统计,23,3,462-466(1952)·Zbl 0049.36601号 ·doi:10.1214/网址/117729392
[30] Konda,V.R.,Tsitsiklis,J.N.:演员关键算法。摘自:《神经信息处理系统进展》,第1008-1014页(2000年)·Zbl 1049.93095号
[31] Konda,V.R.,Tsitsiklis,J.N.:关于actor-critic算法。SIAM J.控制优化。42(4),1143-1166(电子版)(2003)·Zbl 1049.93095号
[32] Konda,虚拟现实;Tsitsiklis,JN,线性双时间尺度随机逼近的收敛速度,Ann.Appl。探针。,14, 2, 796-819 (2004) ·Zbl 1094.62103号 ·doi:10.1214/10505160400000116
[33] Konda,V.V.G.:演员关键算法。麻省理工学院博士论文(2002年)·兹比尔1049.93095
[34] 康托伊亚尼斯,I。;Meyn,SP,几何遍历Markov过程的谱理论和极限定理,Ann.Appl。探针。,13, 304-362 (2003) ·Zbl 1016.60066号 ·doi:10.1214/aoap/1042765670
[35] Kushner,H.J.,Yin,G.G.:《随机近似算法与应用》,《数学应用》(纽约),第35卷。施普林格,纽约(1997)·Zbl 0914.60006号
[36] Lakshminarayanan,C.,Szepesvari,C.:线性随机近似:常数步长和迭代平均能走多远?摘自:国际人工智能与统计会议,第1347-1355页(2018年)
[37] Lattimore,T.,Szepesvari,C.:班迪特算法(2019)。https://bandactalgs.com/about关于/ ·Zbl 1439.68002号
[38] Lillicrap,T.P.,Hunt,J.J.,Pritzel,A.,Heess,N.,Erez,T.,Tassa,Y.,Silver,D.,Wierstra,D.:持续控制与深度强化学习(2015)。arXiv预打印arXiv:1509.02971
[39] 伦德,RB;梅恩,SP;Tweedie,RL,随机序Markov过程的可计算指数收敛率,Ann.Appl。探针。,6, 1, 218-237 (1996) ·Zbl 0863.60093号 ·doi:10.1214/aoap/1034968072
[40] 马,DJ;AM马科斯基;Shwartz,A.,有限状态马尔可夫链的随机近似,斯托克。过程。申请。,35, 1, 27-45 (1990) ·Zbl 0718.60074号 ·doi:10.1016/0304-4149(90)90120-H
[41] Mehta,P.G.,Meyn,S.P.:Q学习和Pontryagin的最小原则。摘自:IEEE决策与控制会议记录,第3598-3605页(2009年)
[42] Metivier,M。;Priouret,P.,Kushner和Clark引理在一般随机算法类中的应用,IEEE Trans。Inf.理论,30,2,140-151(1984)·兹伯利0546.62056 ·doi:10.1109/TIT.1984.1056894
[43] Meyn,SP,模拟大函数的大偏差渐近和控制变量,Ann.Appl。探针。,16, 1, 310-339 (2006) ·Zbl 1094.60017号 ·doi:10.1214/10505160500000737
[44] Meyn,S.P.:《复杂网络的控制技术》。剑桥大学出版社,剑桥(2007)。(在线提供出版前版本)·Zbl 1139.91002号
[45] Meyn,S.P.,Surana,A.:TD-探索学习。摘自:第50届IEEE决策与控制会议和欧洲控制会议,第148-155页(2011年)
[46] 梅恩,SP;Tweedie,RL,马尔可夫链收敛速度的可计算界,Ann.Appl。探针。,4, 981-1011 (1994) ·Zbl 0812.60059号
[47] Meyn,S.P.,Tweedie,R.L.:马尔可夫链和随机稳定性,第2版。剑桥大学出版社,剑桥(2009)。(发表于剑桥数学图书馆1993年在线版)·Zbl 1165.60001号
[48] Mnih,V.、Badia,A.P.、Mirza,M.、Graves,A.、Lillicrap,T.、Harley,T.,Silver,D.、Kavukcuoglu,K.:深度强化学习的异步方法。摘自:国际机器学习会议,第1928-1937页(2016)
[49] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,AA;Veness,J。;MG Bellemare公司;格雷夫斯,A。;里德米勒,M。;AK州Fidjeland;Ostrovski,G.,《通过深度强化学习实现人性化控制》,《自然》,518,7540,529(2015)·doi:10.1038/nature14236
[50] Moulines,E.,Bach,F.R.:机器学习随机近似算法的非症状分析。摘自:《神经信息处理系统进展》24,第451-459页。Curran Associates,Inc.(2011年)
[51] Osband,I.、Van Roy,B.、Russo,D.、Wen,Z.:通过随机值函数进行深度探索(2017)。arXiv预印本arXiv:1703.07608·Zbl 1434.68515号
[52] Paulin,D.:用Marton耦合和谱方法研究马尔可夫链的浓度不等式。电子。J.探针。20,32页(2015)·Zbl 1342.60121号
[53] Polyak,B.T.:一种新的随机近似方法。Avtomatika i teleekhanika(俄语)。翻译为Automat。遥控器,51(1991),第98-107页(1990)·Zbl 0737.93080号
[54] Polyak,英国电信;Juditsky,AB,通过平均加速随机近似,SIAM J.控制优化。,30, 4, 838-855 (1992) ·Zbl 0762.62022号 ·数字对象标识代码:10.1137/0330046
[55] 罗宾斯,H。;Monro,S.,《随机逼近方法》,《数学年鉴》。《统计》,22,400-407(1951)·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[56] Rummery,G.A.,Niranjan,M.:使用连接主义系统的在线Q学习。技术报告166,剑桥大学工程系,剑桥,CUED/F-INENG/(1994)
[57] Ruppert,D.,多元Robbins-Monro程序的Newton-Raphson版本,《美国统计年鉴》,13,1,236-245(1985)·Zbl 0571.62072号 ·doi:10.1214/aos/1176346589
[58] Ruppert,D.:慢收敛Robbins-Monro过程的有效估计。《第781号技术报告》,康奈尔大学运营研究与工业工程学院,伊萨卡(1988)
[59] Russo,D.J.、Van Roy,B.、Kazerouni,A.、Osband,I.、Wen,Z.:汤普森采样教程(2018)·Zbl 1409.62024号
[60] Srikant,R.,Ying,L.:线性随机逼近和TD学习的有限时间误差界(2019)。CoRR arXiv:abs/1902.00923
[61] Sutton,R.,Barto,A.:强化学习:导论,第二版。麻省理工学院出版社,马萨诸塞州剑桥(2018)。在线版,网址:网址:http://www.cs.ualberta.ca/sutton/book/the-book.html·Zbl 1407.68009号
[62] 萨顿,RS,《通过时间差异方法学习预测》,马赫。学习。,3, 1, 9-44 (1988)
[63] Sutton,R.S.、McAllester,D.A.、Singh,S.P.、Mansour,Y.:函数逼近强化学习的策略梯度方法。摘自:《神经信息处理系统的进展》,第1057-1063页(2000年)
[64] Szepesvári,C.:Q学习的渐近收敛速度。摘自:《第十届神经信息处理系统国际会议论文集》,NIPS’97,第1064-1070页。麻省理工学院出版社,剑桥(1997)
[65] Szepesvári,C.:强化学习算法。人工智能和机器学习综合讲座。摩根&克莱普尔出版社(2010)·Zbl 1205.68320号
[66] 托普,G。;Borkar,V.,通过Alekseev公式进行随机近似的浓度界,Stoch。系统。,9, 1, 1-26 (2019) ·Zbl 1442.62187号 ·doi:10.1287/stsy.2018.0019
[67] Tsitsiklis,J.,《异步随机逼近和Q学习》,马赫。学习。,16, 185-202 (1994) ·Zbl 0820.68105号
[68] 新泽西州Tsitsiklis;Roy,BV,《平均成本时间差异学习》,Automatica,35,11,1799-1808(1999)·Zbl 0932.93085号 ·doi:10.1016/S0005-1098(99)00099-0
[69] JN齐齐克利斯;Van Roy,B.,《函数逼近下的时间差分学习分析》,IEEE Trans。自动。控制,42,5,674-690(1997)·Zbl 0914.93075号 ·数字对象标识代码:10.1109/9.580874
[70] JN齐齐克利斯;Van Roy,B.,《马尔可夫过程的最优停止:希尔伯特空间理论、近似算法和高维金融衍生品定价应用》,IEEE Trans。自动。控制,44,10,1840-1851(1999)·Zbl 0958.60042号 ·数字对象标识代码:10.1109/9.793723
[71] Venter,J.,《Robbins-Monro程序的扩展》,《数学年鉴》。Stat.,38,1,181-190(1967)·Zbl 0158.36901号 ·doi:10.1214/aoms/1177699069
[72] Wainwright,M.J.:锥压缩算子的随机逼近:Q-学习的Sharp\(\ell_\infty)-界(2019)。CoRR arXiv:abs/1905.06265
[73] Wardi,Y.,Seatzu,C.,Egerstedt,M.,Buckley,I.:通过前瞻模拟进行性能调节和跟踪:初步结果和验证。摘自:IEEE决策与控制会议记录,第6462-6468页(2017年)
[74] Watkins,C.J.C.H.:从延迟奖励中学习。剑桥国王学院博士论文(1989年)
[75] 沃特金斯,CJCH;大研,P.,Q-learning,马赫。学习。,8, 3-4, 279-292 (1992) ·Zbl 0773.68062号
[76] Yu,H.,Bertsekas,D.P.:基于最小二乘法的最优停车Q学习算法。摘自:欧洲控制会议(ECC)会议记录(2007年)
[77] Yu,H。;随机最短路径问题的Q学习和策略迭代算法,Ann.Oper。第208、195至132号决议(2013年)·Zbl 1306.90171号 ·doi:10.1007/s10479-012-1128-z
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。