×

分数:在自协调正则化下近似曲率信息。 (英语) Zbl 07752370号

摘要:在许多应用中,目标中包含正则化函数的优化问题经常得到解决。当人们为此类问题寻求二阶方法时,在解决步骤中考虑曲率信息以加快收敛时,可能需要利用某些正则化函数的特定特性。在本文中,我们提出了无约束极小化问题的SCORE(自协调正则化)框架,该框架在牛顿减量凸优化框架。我们提出了广义Gauss-Newton with Self-Concordant正则化(GGN-SCORE)算法,该算法在每次收到新的输入批次时更新最小化变量。该算法利用了Hessian矩阵中二阶信息的结构,从而减少了计算开销。GGN-SCORE演示了如何在所提出的SCORE框架下加快收敛速度,同时改进涉及正则化最小化的问题的模型泛化。数值实验表明,与基线一阶和准Newton方法相比,我们的方法效率高,收敛速度快。针对非凸(过参数化)神经网络训练问题的附加实验表明,该方法在非凸优化中具有良好的应用前景。

MSC公司:

90立方 非线性规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Robbins,H.,Monro,S.:一种随机近似方法。安。数学。《统计》第400-407页(1951年)·Zbl 0054.05901号
[2] Bottou,L.:具有随机梯度下降的大规模机器学习。摘自:2010年COMPSTAT会议记录,第177-186页。施普林格,美国(2010)·Zbl 1436.68293号
[3] Duchi,J.,Hazan,E.,Singer,Y.:在线学习和随机优化的自适应次梯度方法。机器学习研究杂志12(7)(2011)·Zbl 1280.68164号
[4] 医学博士泽勒:Adadelta:一种自适应学习率方法。arXiv预印本arXiv:1212.5701(2012)
[5] Kingma,D.P.,Ba,J.:亚当:随机优化方法。arXiv预印arXiv:1412.6980(2014)
[6] 约翰逊,R。;Zhang,T.,使用预测方差减少加速随机梯度下降,高级神经网络。信息处理。系统。,26, 315-323 (2013)
[7] Becker,S.,le Cun,Y.:用二阶方法改进反向传播学习的收敛性(1988)
[8] 刘,DC;Nocedal,J.,《关于大规模优化的有限内存BFGS方法》,数学。程序。,45,1503-528(1989年)·Zbl 0696.90048号 ·doi:10.1007/BF01589116
[9] 哈根,MT;Menhaj,MB,用Marquardt算法训练前馈网络,IEEE Trans。神经网络。,5, 6, 989-993 (1994) ·数字对象标识代码:10.1109/72.329697
[10] Amari,S-I,自然梯度在学习中有效,神经计算。,10, 2, 251-276 (1998) ·doi:10.1162/08997669830017746
[11] Martens,J.等人:通过无hessian优化进行深度学习。收录于:ICML,第27卷,第735-742页(2010年)
[12] Pascanu,R.,Bengio,Y.:重新审视深层网络的自然梯度。arXiv预印本arXiv:1301.3584(2013)
[13] Martens,J.,Grosse,R.:使用Kronecker因子近似曲率优化神经网络。摘自:机器学习国际会议,第2408-2417页(2015年)。PMLR公司
[14] Nesterov,Y.,《凸优化讲座》(2018),瑞士:施普林格·Zbl 1427.90003号
[15] 伯德,RH;总经理Chin;奈维特,W。;Nocedal,J.,《随机海森信息在机器学习优化方法中的应用》,SIAM J.Optim。,21, 3, 977-995 (2011) ·Zbl 1245.65062号 ·数字对象标识码:10.1137/10079923X
[16] Erdogdu,M.A.,Montanari,A.:子采样牛顿法的收敛速度。arXiv预印arXiv:1508.02810(2015)
[17] Cai,T.、Gao,R.、Hou,J.、Chen,S.、Wang,D.、He,D.、Zhang、Wang、L.:Gram-gauss-newton方法:学习回归问题的超参数神经网络。arXiv预印本arXiv:1905.11675(2019)
[18] Zhang,G.,Martens,J.,Grosse,R.:超参数神经网络自然梯度下降的快速收敛。arXiv预印本arXiv:1905.10961(2019)
[19] Bernacchia,A.,Lengyel,M.,Hennequin,G.:深线性网络中的精确自然梯度及其在非线性情况下的应用。NIPS(2019年)
[20] Karakida,R.,Osawa,K.:理解近似fisher信息,用于宽神经网络中自然梯度下降的快速收敛。arXiv预打印arXiv:2010.00879(2020)·Zbl 07451720号
[21] 内斯特罗夫,Y。;Polyak,BT,牛顿法的立方正则化及其全局性能,数学。程序。,108, 1, 177-205 (2006) ·兹比尔1142.90500 ·doi:10.1007/s10107-006-0706-8
[22] Mishchenko,K.:具有全局收敛性的正则牛顿法。arXiv预打印arXiv:2112.02089(2021)
[23] Marumo,N.,Okuno,T.,Takeda,A.:具有全局复杂性约束的约束Levenberg-marquardt方法。arXiv预印本arXiv:2004.08259(2020)·Zbl 1516.90066号
[24] Doikov,N.,Nesterov,Y.:具有Bregman距离的牛顿法的梯度正则化。arXiv预打印arXiv:2112.02952(2021)·Zbl 1470.90075号
[25] 内斯特罗夫,Y。;Nemirovskii,A.,凸规划中的内点多项式算法(1994),费城:SIAM,费城·Zbl 0824.90112号 ·doi:10.1137/1.9781611970791
[26] Bubeck,S.,Sellke,M.:通过等参法的鲁棒性通用定律。arXiv预印arXiv:2105.12806(2021)
[27] 穆图库马尔,V。;Vodrahalli,K。;Subramanian,V。;Sahai,A.,回归中噪声数据的无害插值,IEEE J.Sel。区域信息理论,1,1,67-83(2020)·doi:10.1109/JSAIT.2020.2984716
[28] 贝尔金,M。;徐,D。;马,S。;Mandal,S.,《协调现代机器学习实践和经典偏差-方差权衡》,Proc。国家。阿卡德。科学。,116, 32, 15849-15854 (2019) ·Zbl 1433.68325号 ·doi:10.1073/pnas.1903070116
[29] Allen-Zhu,Z.,Li,Y.,Liang,Y.:超参数化神经网络中的学习和泛化,超越两层。In:神经信息处理系统进展,第32卷(2019年)
[30] Meng,S.Y.,Vaswani,S.,Laradji,I.H.,Schmidt,M.,Lacoste-Julien,S.:快速收敛:插值下的随机二阶方法。摘自:《国际人工智能与统计会议》,第1375-1386页(2020年)。PMLR公司
[31] Ye,H。;罗,L。;Zhang,Z.,Nesterov近似牛顿的加速度,J.Mach。学习。决议,21,142-1(2020)·Zbl 1518.68328号
[32] Bieker,K.,Gebken,B.,Peitz,S.:关于通过多目标延拓处理具有l1惩罚项的优化问题。arXiv预印arXiv:2012.07483(2020)·Zbl 1515.65089号
[33] Patrinos,P.,Stella,L.,Bempoad,A.:凸组合优化的前向截断牛顿法。arXiv预打印arXiv:1402.6655(2014)
[34] Schmidt,M.,Fung,G.,Rosales,R.:l1正则化的快速优化方法:比较研究和两种新方法。载:《欧洲机器学习会议》,第286-297页。施普林格(2007)
[35] Schraudolph,NN,二阶梯度下降的快速曲率矩阵向量积,神经计算。,14, 7, 1723-1738 (2002) ·Zbl 1037.68119号 ·doi:10.1162/08997660260028683
[36] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号 ·doi:10.1137/16M1080173
[37] Levenberg,K.,最小二乘法中某些非线性问题的求解方法,Q.Appl。数学。,2, 2, 164-168 (1944) ·Zbl 0063.03501号 ·doi:10.1090/qam/10666
[38] Marquardt,DW,非线性参数最小二乘估计算法,J.Soc.Ind.Appl。数学。,11, 2, 431-441 (1963) ·Zbl 0112.10505号 ·数字对象标识代码:10.1137/011030
[39] 塞尔,SR,《统计有用的矩阵代数》(1982),霍博肯:威利,霍博克·Zbl 0555.6202号
[40] W.J.邓肯:Lxxviii。解大型联立线性方程组的一些装置:附有关于分块矩阵倒置的附录。伦敦。爱丁堡。都柏林菲洛斯。《科学杂志》。35(249), 660-670 (1944) ·Zbl 0061.27010号
[41] Guttman,L.:计算逆矩阵的放大方法。数学年鉴。Stat.336-343(1946年)·兹比尔0061.27203
[42] Higham,NJ,《数值算法的准确性和稳定性》(2002),纽约:SIAM,纽约·Zbl 1011.65010号 ·数字对象标识代码:10.1137/1.9780898718027
[43] Roosta-Khorasani,F.,Mahoney,M.W.:子样本牛顿法ii:局部收敛速度。arXiv预印arXiv:1601.04738(2016)·Zbl 1412.49059号
[44] Du,S.,Lee,J.,Li,H.,Wang,L.,Zhai,X.:梯度下降法发现深层神经网络的全局极小值。摘自:国际机器学习会议,第1675-1685页。PMLR(2019)
[45] Du,S.S.,Zhai,X.,Poczos,B.,Singh,A.:梯度下降可证明优化了过参数化神经网络。arXiv预印arXiv:1810.02054(2018)
[46] Sun,T。;Tran-Din,Q.,《广义自相关函数:牛顿型方法的配方》,数学。程序。,178, 1, 145-213 (2019) ·Zbl 1430.90464号 ·doi:10.1007/s10107-018-1282-4
[47] Chang,C-C;Lin,C-J,Libsvm:支持向量机库,ACM Trans。智力。系统。Technol公司。(TIST),2,3,1-27(2011)·数字对象标识代码:10.1145/1961189.1961199
[48] Romano,J.D.,Le,T.T.,La Cava,W.,Gregg,J.T.,Goldberg,D.J.,Chakraborty,P.,Ray,N.L.,Himmelstein,D.,Fu,W.,Moore,J.H.:Pmlb v1.0:一个用于基准测试机器学习方法的开源数据集集合。arXiv预打印arXiv:2012.0058v2(2021)
[49] 邓恩,PK;Smyth,GK,《R中的广义线性模型示例》(2018),纽约:Springer,纽约·Zbl 1416.62020年 ·doi:10.1007/978-1-4419-0118-7
[50] 奥斯特罗夫斯基,DM;巴赫,F.,《使用自一致性的(m)估计量的有限样本分析》,电子。J.Stat.,15,1,326-391(2021年)·Zbl 1490.62068号 ·doi:10.1214/20-EJS1780
[51] 夏邦尼尔,P。;Blanc-Féraud,L。;奥伯特,G。;Barlaud,M.,计算机成像中的确定性边缘保持正则化,IEEE Trans。图像处理。,6, 2, 298-311 (1997) ·doi:10.1109/83.551699
[52] 罗得岛州哈特利;Zisserman,A.,《计算机视觉中的多视图几何》(2004),剑桥:剑桥大学出版社,剑桥·兹比尔1072.68104 ·doi:10.1017/CBO9780511811685
[53] Nocedal,J.,用有限存储更新拟牛顿矩阵,数学。计算。,35, 151, 773-782 (1980) ·Zbl 0464.65037号 ·doi:10.1090/S0025-5718-1980-0572855-7
[54] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J.Mach。学习。第12号决议,2825-2830(2011年)·Zbl 1280.68189号
[55] Paszke,A.、Gross,S.、Chintala,S.,Chanan,G.、Yang,E.、DeVito,Z.、Lin,Z.,Desmaison,A.、Antiga,L.、Lerer,A.:pytorch中的自动区分(2017)
[56] Abadi,M.,Agarwal,A.,Barham,P.,Brevdo,E.,Chen,Z.,Citro,C.,Corrado,G.S.,Davis,A.,Dean,J.,Devin,M.版本,I.、Talwar,K.、Tucker,P.、Vanhoucke,V.、Vasudevan,V.,Viégas,F.、Vinyals,O.、Warden,P.,Wattenberg,M.、Wicke,M..、Yu,Y.、Zheng,X.:张力流:异构系统上的大规模机器学习。软件可从tensorflow.org(2015)获得。https://www.tensorflow.org/
[57] 福克斯,JM;古尔德,NI;Farmer,CL,hessian lipschitz连续函数全局优化的分枝定界算法,J.global Optim。,56, 4, 1791-1815 (2013) ·Zbl 1296.90090号 ·doi:10.1007/s10898-012-9937-9
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。