×

使用Wasserstein发散的递归随机算法的收敛性。 (英语) Zbl 07450692号

在过去的二十年中,许多作者开发了许多新的随机算法,用于在机器和强化学习中执行复杂的优化任务。其中许多算法是依赖于某些随机参数的某些映射的递归。这些类型的算法称为递归随机算法(RSA)。RSA使用随机化来有效地计算期望值,因此它们的迭代形成了一个随机过程。
这篇有趣的论文基于迭代随机算子理论开发了一个统一的框架来分析RSA的收敛性。
作者将RSA提升到一个高维空间,然后将其表示为等价的马尔可夫链。作者研究了该马尔可夫链分布的收敛性,而不是确定其收敛性(在恒定步长下可能不会收敛)。他们定义了Wasserstein散度的一个新概念,并证明了如果马尔可夫链中迭代的分布对于Wassersstein散度满足一定的压缩性质,则马尔可夫链条承认一个不变分布。作者表明,使用该框架可以理解一大类常步长RSA的收敛性,并提供了几个示例。
这篇论文写得很好,有很多参考文献。

MSC公司:

65K10像素 数值优化和变分技术
62L20型 随机近似
60J05型 一般状态空间上的离散马尔可夫过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] C.Aliprantis和K.Border,《无限维度分析:搭便车指南》,施普林格出版社,柏林,海德堡,2006年·Zbl 1156.46001号
[2] L.Ambrosio、N.Gigli和G.Savaré,梯度流:在度量空间和概率测度空间中,Birkhaõuser,巴塞尔,2008年·Zbl 1145.35001号
[3] P.Amortila、D.Precup、P.Panangaden和M.G.Bellemare,《基于抽样的强化学习算法的分布分析》,载于《第23届人工智能与统计国际会议(AISTATS)PMLG第108卷,2020年,意大利巴勒莫,2020年》。
[4] F.Bach和E.Moulines,收敛速度为o(1/n)的非严格凸光滑随机逼近,《神经信息处理系统进展》,2013年,第773-781页。
[5] M.F.Barnsley、J.H.Elton和D.P.Hardin,递归迭代函数系统,Constr。约,5(1989),第3-31页·Zbl 0659.60045号
[6] C.L.Beck和R.Srikant,恒定步长Q学习的误差界,系统控制快报。,61(2012),第1203-1208页·Zbl 1255.93129号
[7] M.Benai¨M,递归算法,urn过程和链递归集的链数,遍历理论动力学。《系统》,18(1998),第53-87页·Zbl 0921.60061号
[8] A.Benveniste、M.Meítiver和P.Priouret,《自适应算法和随机近似》,应用。数学。(纽约)22,施普林格-弗拉格,柏林,2012年·Zbl 0752.93073号
[9] J.Bhandari、D.Russo和R.Singal,线性函数逼近时间差分学习的有限时间分析,预印本,https://arxiv.org/abs/1806.02450, 2018. ·Zbl 1472.90150号
[10] R.N.Bhattacharya和E.C.Waymire,《概率论基础课程》,施普林格,纽约,2007年·Zbl 1138.60001号
[11] P.Billingsley,《概率测度的收敛》,John Wiley&Sons,纽约,2013年·Zbl 0172.21201号
[12] V.S.Borkar,《随机逼近:动力系统观点》,剑桥大学出版社,剑桥,2008年·Zbl 1181.62119号
[13] V.S.Borkar和S.P.Meyn,随机逼近和强化学习收敛的O.D.E.方法,SIAM J.控制优化。,38(2000),第447-469页,https://doi.org/10.1137/S0363012997331639。 ·Zbl 0990.62071号
[14] L.Bottou、F.E.Curtis和J.Nocedal,《大规模机器学习的优化方法》,SIAM Rev.,60(2018),第223-311页,https://doi.org/10.1137/16M1080173。 ·Zbl 1397.65085号
[15] L.Breiman,概率,经典应用。数学。7,SIAM,费城,1992年,https://doi.org/10.1137/1.9781611971286。 ·Zbl 0753.60001号
[16] B.Can、M.Gurbuzbalaban和L.Zhu,《Wasserstein距离中随机动量方法的加速线性收敛》,预印本,https://arxiv.org/abs/1901.07445, 2019.
[17] A.Defazio、F.Bach和S.Lacoste-Julien,《Saga:支持非强凸复合目标的快速增量梯度法》,载于《神经信息处理系统进展》,2014年,第1646-1654页。
[18] P.Diaconis和D.Freedman,迭代随机函数,SIAM Rev.,41(1999),第45-76页,https://doi.org/10.1137/S0036144598338446。 ·兹比尔0926.60056
[19] A.Dieuleveut、A.Durmus和F.Bach,《弥合恒定步长随机梯度下降和马尔可夫链之间的差距》,预印本,https://arxiv.org/abs/1707.06386,2017年·Zbl 1454.62242号
[20] L.E.Dubins和D.A.Freedman,某些马尔可夫过程的不变概率,《数学年鉴》。统计人员。,37(1966年),第837-848页·Zbl 0147.16404号
[21] M.Duflo,随机迭代模型,应用。数学。(纽约)34,Springer-Verlag,柏林,2013年。
[22] S.B.Gelfand和S.K.Mitter,(mathbb{R}^d)中全局优化的递归随机算法,SIAM J.控制优化。,29(1991),第999-1018页,https://doi.org/10.1137/0329055。 ·Zbl 0753.65051号
[23] A.Gupta,《信息不对称的动态序列决策问题:一些存在性结果》,伊利诺伊大学香槟分校博士论文,伊利诺依州,2014年。
[24] A.Gupta、R.Jain和P.Glynn,迭代随机算子的概率收缩分析,预印本,https://arxiv.org/abs/1804.01195, 2018; 附录申请。概率。,提交。
[25] M.Hairer和J.C.Mattingly,《关于随机分析、随机域和应用的研讨会》第六期,Progr。普罗巴伯。63,Birkha¨user/Springer Basel AG,巴塞尔,2011年,第109-117页·Zbl 1248.60082号
[26] W.B.Haskell、R.Jain和D.Kalathil,《经验动态规划》,数学。操作。研究,41(2016),第402-429页·Zbl 1338.49055号
[27] O.Hernaández-Lerma和J.B.Lasserre,马尔可夫链和不变概率,Progr。数学。211,Birkha¨user Verlag,巴塞尔,2012年·Zbl 1036.60003号
[28] B.Hu、S.Wright和L.Lessard,《加速随机方差减少的耗散理论:使用半定程序对SVRG和Katyusha的统一分析》,预印本,https://arxiv.org/abs/1806.03677, 2018.
[29] R.Johnson和T.Zhang,使用预测方差减少加速随机梯度下降,《神经信息处理系统进展》,2013年,第315-323页。
[30] J.Kiefer和J.Wolfowitz,回归函数最大值的随机估计,Ann.Math。《统计学》,23(1952),第462-466页·Zbl 0049.36601号
[31] B.Kumar、V.Borkar和A.Shetty,跟踪移动代理的恒定步长随机近似的非症状误差界,预印本,https://arxiv.org/abs/1802.07759, 2018. ·Zbl 1426.93313号
[32] H.Kushner和G.G.Yin,《随机逼近和递归算法及应用》,应用。数学。(纽约)35,Springer-Verlag,纽约,2003年·Zbl 1026.62084号
[33] C.Lakshminarayanan和C.Szepesvari,线性随机近似:恒定步长和迭代平均能走多远?,《国际人工智能与统计会议论文集》,PMLR,2018,第1347-1355页。
[34] H.Lin、J.Mairal和Z.Harchaoui,一阶优化的通用催化剂,《神经信息处理系统进展》,2015年,第3384-3392页。
[35] H.Lin、J.Mairal和Z.Harchaoui,一阶凸优化的催化剂加速:从理论到实践,J.Mach。学习。决议,18(2017),212·Zbl 1469.68101号
[36] L.Ljung,递归随机算法分析,IEEE Trans。《自动控制》,22(1977),第551-575页·Zbl 0362.93031号
[37] R.Munos和C.Szepesvaíri,拟合值迭代的有限时间界限,J.Mach。学习。Res.,9(2008),第815-857页·Zbl 1225.68203号
[38] Y.Ollivier,度量空间的Ricci曲率,C.R.Math。阿卡德。科学。巴黎,345(2007),第643-646页·Zbl 1132.53011号
[39] B.Palaniappan和F.Bach,鞍点问题的随机方差减少方法,《神经信息处理系统进展》,2016年,第1416-1424页。
[40] S.T.Rachev和L.Ruíschendorf,《大众运输问题:第一卷:理论》,Springer-Verlag出版社,纽约,1998年·Zbl 0990.60500号
[41] S.J.Reddi、A.Hefny、S.Sra、B.Poczos和A.J.Smola,《随机梯度下降及其异步变量的方差减少》,《神经信息处理系统进展》,2015年,第2647-2655页。
[42] H.Robbins和S.Monro,《随机近似方法》,《数学年鉴》。《统计学》,22(1951),第400-407页·Zbl 0054.05901号
[43] G.Roth和W.H.Sandholm,具有恒定步长和微分包含的随机近似,SIAM J.Control Optim。,51(2013),第525-555页,https://doi.org/10.1137/10844192。 ·Zbl 1302.62182号
[44] F.Shang、L.Jiao、K.Zhou、J.Cheng、Y.Ren和Y.Jin,ASVRG:加速近端SVRG,预印本,https://arxiv.org/abs/1810.03105, 2018.
[45] D.Silver、A.Huang、C.J.Maddison、A.Guez、L.Sifre、G.van den Driessche、J.Schrittwieser、I.Antonoglou、V.Panneershelvam、M.Lanctot、S.Dieleman、D.Grewe、J.Nham、N.Kalchbrenner、I.Sutskever、T.Lillicrap、M.Leach、K.Kavukcuoglu、T.Graepel和D.Hassabis,通过深度神经网络和树搜索掌握围棋游戏,《自然》,529(2016),第484-489页。
[46] D.Silver、J.Schrittwieser、K.Simonyan、I.Antonoglou、A.Huang、A.Guez、T.Hubert、L.Baker、M.Lai、A.Bolton、Y.Chen、T.Lillicrap、F.Hui、L.Sifre、G.van den Driessche、T.Graepel和D.Hassabis,《在没有人类知识的情况下掌握围棋游戏》,《自然》,550(2017),第354-359页。
[47] R.Srikant和L.Ying,线性随机逼近和TD学习的有限时间误差界,预印本,https://arxiv.org/abs/1902.00923, 2019.
[48] O¨。Stenflo,《平均压缩迭代函数系统的调查》,J.Difference Equ。申请。,18(2012),第1355-1380页·Zbl 1258.60043号
[49] V.Strassen,给定边距的概率测度的存在性,《数学年鉴》。统计人员。,36(1965),第423-439页·Zbl 0135.18701号
[50] C.维拉尼,《最佳交通:新旧》,格兰德伦数学。威斯。338,施普林格-弗拉格,柏林,2008年·兹比尔1156.53003
[51] J.Wolfowitz,《论Robbins和Monro的随机逼近方法》,《数学年鉴》。统计人员。,23(1952),第457-461页·兹比尔0049.36505
[52] H.Yu,步长恒定且缓慢减小的约束强调时间差分学习的弱收敛性,J.Mach。学习。研究,17(2016),第7745-7802页·Zbl 1404.68124号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。