×

关于随机梯度下降应用于最小二乘的正则化效果。 (英语) Zbl 1475.65022号

摘要:我们研究了应用于可逆矩阵(A inmathbb{R}^{n次n})的(Ax-b_2^2\rightarrow\min)的随机梯度下降方法的行为。我们证明了有一个显式常数\(c_A\)依赖于\(A\),如下所示\[\mathbb{E}\left\|Ax_{k+1}-b\right\|^2_2_2\leq\left(1+\frac{c_A}{\|A\|_F^2}\right)\left\ |A x_k-b\right\ |^2_i-\frac}{\| A\|F ^2}\ left\ | A^T A(x_k-x)\right\\|^2_ 2。\]这是一个奇怪的不等式,因为最后一项涉及一个附加的矩阵乘法,用于与其余项相比的误差(x_k-x):如果(x_k-x)在对应于较大奇异值的奇异向量子空间上的投影较大,然后采用随机梯度下降法进行快速正则化。对于对称矩阵,这个不等式扩展到了高阶Sobolev空间。这解释了一种(已知的)正则化现象:从大奇异值到小奇异值的能量级联充当正则化器。

MSC公司:

65层20 超定系统伪逆的数值解
65千5 数值数学规划方法
90C20个 二次规划
90摄氏52度 减少梯度类型的方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.阿里,E.多布里丹,安德尔。TIBSHIRANI,《最小二乘随机梯度流的隐式正则化》,《arXiv预印本》,2020年。https://arxiv.org/abs/2003.07802
[2] Z。-Z。白和w-吴涛,关于随机Kaczmarz方法的收敛速度,线性代数应用。,553(2018),第252-269页·Zbl 1391.65063号
[3] A.DEFOSSEZ ANDF公司。BACH,平均最小均方:偏方差权衡和最优抽样分布,载于《第18届国际人工智能与统计会议论文集》,G.Lebanon和S.V.N.Vishwanathan编辑,《机器学习研究论文集》38,圣地亚哥,2015年,第205-213页。
[4] F.DEUTSCH,交替投影法的收敛速度,《参数优化与逼近》,B.Brosowski和F.DEUTSCH编辑,国际。Schriftenreihe数字。数学。,72,Birkhäuser,巴塞尔,1985年,第96-107页·Zbl 0575.65049号
[5] F.德意志。HUNDAL,交替投影方法的收敛速度。II、 J.数学。分析。申请。,205(1997),第381-405页·Zbl 0890.65053号
[6] Y.C.ELDAR和。NEEDELL,通过Johnson-Lindenstraus引理加速随机Kaczmarz方法,Numer。《算法》,58(2011),第163-177页·Zbl 1230.65051号
[7] T.ELFVING、P.C.HANSEN和ANDT。NIKAZAD,Kaczmarz方法的半收敛性质,反问题,30(2014),第055007条,16页·Zbl 1296.65054号
[8] H.G.FEICHTINGER、C.CENKER、M.MAYER、H.STEER和ANDT。STROHMER,《使用有限余维仿射子空间的POCS方法的新变体及其在不规则采样中的应用》,《视觉通信和图像处理》,1992年,P.Maragos编辑,《SPIE 1818会议录》,SPIE,Bellingham,第299-310页,1992年。
[9] A.GALANTAI,关于有限维空间中交替投影法的收敛速度,J.Math。分析。申请。,310(2005),第30-44页·Zbl 1074.65059号
[10] D.GORDON,一种通过大范围随机采样率恢复带限信号的去噪方法,Numer。《算法》,77(2018),第1141-1157页·Zbl 06860405号
[11] R.GORDON、R.BENDER和ANDG。赫尔曼,三维电子显微镜和X射线摄影代数重建技术(ART),J.Theoret。《生物学》,29(1970),第471-476页。
[12] R.M.GOWER、D.MOLITOR、J.MOORMAN和。NEEDELL,解线性系统的自适应草图和投影方法,arXiv预印本,2019年。https://arxiv.org/abs/11909.03604 ·Zbl 07365306号
[13] R.M.GOWER和。RICHTARIK,线性系统的随机迭代方法,SIAM J.矩阵分析。申请。,36(2015),第1660-1690页·Zbl 1342.65110号
[14] G.HERMAN,《投影图像重建》,学术出版社,纽约,1980年·Zbl 0538.92005号
[15] G.T.赫尔曼·安德尔。B.MEYER,代数重建技术可以提高计算效率,IEEE Trans。医学影像。,12(1993年),第600-609页。
[16] P.JAIN、S.KAKADE、R.KIDAMBI、P.NETRAPALLI、V.PILLUTLA、ANDA。SIDFORD,描述随机梯度下降的最小最大最优性的马尔可夫链理论方法(对于最小二乘法),第37届IARCS软件技术和理论计算机科学基础年会(FSTTCS 2017),S.Lokam和R.Ramanujam,eds.,LIPIcs,Leibniz-Zentrum füR Informatik,Dagstuhl,2018,第2:1-2:10页·兹比尔1496.62140
[17] Y·焦、B·金和x。LU,随机Kaczmarz方法的前渐近收敛性,反问题,33(2017),第125012条,21页·Zbl 1382.65087号
[18] B.金安达。LU,关于随机梯度下降的正则性,反问题,35(2019),第015004条,27页·Zbl 1490.65070号
[19] B.劳伦特·安德普。MASSART,通过模型选择自适应估计二次函数,Ann.Statist。,28(2000),第1302-1338页·Zbl 1105.62328号
[20] Y.T.李安达。SIDFORD,《求解线性系统的高效加速坐标下降法和快速算法》,载于2013年IEEE第54届计算机科学基础年会——2013年,IEEE计算机学会,洛斯阿拉米托斯,2013年,第147-156页。
[21] D.莱文塔尔·安达。S.LEWIS,线性约束的随机方法:收敛速度和条件,数学。操作。研究,35(2010),第641-654页·Zbl 1216.15006号
[22] J.刘和。J.WRIGHT,一种加速随机Kaczmarz算法,数学。压缩机。,85(2016),第153-178页·Zbl 1327.65065号
[23] A.MA、D.NEEDELL、ANDA。RAMDAS,随机扩展Gauss-Seidel和Kaczmarz方法的收敛性,SIAM J.矩阵分析。申请。,36(2015),第1590-1604页·兹比尔1327.65112
[24] J.D.MOORMAN、T.K.TU、D.MOLITOR和。NEEDELL,随机化Kaczmarz平均值,BIT,61(2021),第337-359页·Zbl 1460.15005号
[25] F.NATTERER,《计算机断层成像的数学》,威利,纽约,1986年·Zbl 0617.92001号
[26] D.NEEDELL,噪声线性系统的随机Kaczmarz解算器,BIT,50(2010),第395-403页·Zbl 1195.65038号
[27] D.NEEDELL和j。A.TROPP,Paved with good intention:analysis of A randomize block Kaczmarz method,线性代数应用。,441(2014),第199-221页·Zbl 1282.65042号
[28] D.奈德尔·安德。WARD,相干超定系统的两个子空间投影方法,J.Fourier Ana。申请。,19(2013),第256-269页·Zbl 1306.65190号
[29] D.NEEDELL、R.WARD和ANDN。SREBRO,《随机梯度下降、加权采样和随机Kaczmarz算法》,摘自《神经信息处理系统进展》27(NIPS 2014),Z.Ghahramani、M.Welling、C.Cortes、N.Lawrence和K.Q.Weinberger编辑,Curran Assoc.,Red Hook,2014年,第1017-1025页。
[30] D.NEEDELL、R.ZHAO、ANDA。ZOUZIAS,用于求解最小二乘的带投影的随机块Kaczmarz方法,线性代数应用。,484(2015),第322-343页·Zbl 1330.65056号
[31] G.内乌·安德尔。ROSASCO,迭代平均作为随机梯度下降的正则化,第31届学习理论会议论文集,S.Bubeck,V.Perchet,and P.Rigollet,eds.,Proceedings of the 31th Conference On Learning Theory
[32] J.NUTINI、B.SEPEHRY、I.LARADJI、M.SCHMIDT、H.KOEPKE、ANDA。VIRANI,贪婪Kaczmarz算法的收敛速度,以及使用正交图的更快的随机Kaczmarz规则,载于《第32届人工智能不确定性会议论文集》,A.Ihler和D.Janzing编辑,AUAI出版社,阿灵顿,2016年,第547-556页。
[33] S.OYMAK ANDM公司。SOLTANOLKOTABI,超参数非线性学习:梯度下降采用最短路径?,《第36届国际机器学习会议论文集》,K.Chaudhuri和R.Salakhutdinov编辑,《机器学习研究论文集》97,圣地亚哥,2019年,第4951-4960页。
[34] C.POPA,Kaczmarz型算法的收敛速度,数值。《算法》,79(2018),第1-17页·Zbl 1398.65049号
[35] M.SCHMIDT、N.LEROUX和ANDF。BACH,用随机平均梯度最小化有限和,数学。程序。序列号。A、 162(2017),第83-112页·Zbl 1358.90073号
[36] K.SEZAN ANDH。STARK,凸投影理论在层析成像及相关领域图像恢复中的应用,《图像恢复:理论与应用》,H.STARK主编,纽约学术出版社,
[37] S.STEINERBERGER,随机化Kaczmarz沿着小奇异向量收敛,SIAM J.矩阵分析。申请。,42(2021年),第608-615页·Zbl 07340704号
[38] ,求解线性系统的加权随机Kaczmarz方法,数学。压缩机。,90(2021年),第2815-2826页·Zbl 1505.65165号
[39] T.斯特罗默和。VERSHYNIN,指数收敛线性系统的随机Kaczmarz算法,J.Fourier Ana。申请。,15(2009年),第262-278页·Zbl 1169.68052号
[40] Y·S·坦·安德尔。VERSHYNIN,《通过随机Kaczmarz进行相位恢复:理论保证》,《Inf.Inference》,第8期(2019年),第97-123页·Zbl 1476.90224号
[41] 张俊杰,求解超大型线性系统的一种新的贪婪Kaczmarz算法,应用。数学。莱特。,91(2019),第207-212页·Zbl 1409.65020号
[42] A.祖齐亚斯·安德。M.FRERIS,求解最小二乘的随机扩展Kaczmarz,SIAM J.矩阵分析。申请。,34(2013),第773-793页·Zbl 1273.65053号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。