×

黎曼自然梯度法。 (英语) Zbl 07801544号

摘要:本文研究了目标函数为负对数概率损失有限和的黎曼流形上的大规模优化问题。这些问题出现在各种机器学习和信号处理应用中。通过在流形设置中引入Fisher信息矩阵的概念,我们提出了一种新的黎曼自然梯度方法,它可以看作是自然梯度方法从欧几里德设置到流形设置的自然扩展。在标准假设下,我们建立了该方法的近似全局收敛性。此外,我们还证明了如果损失函数满足一定的凸性和光滑性条件,并且输入输出映射满足黎曼-雅可比稳定性条件,那么我们提出的方法具有局部线性-或者,在输入输出映射的黎曼-雅可比的Lipschitz连续性下,甚至二次收敛速度。然后,我们证明了在网络宽度足够大的情况下,具有高概率分批归一化的两层全连通神经网络将满足黎曼-雅可比稳定性条件。这证明了我们的收敛速度结果的实用性。对机器学习应用程序的数值实验表明,与最先进的方法相比,该方法具有优势。

MSC公司:

90C06型 数学规划中的大尺度问题
90C22型 半定规划
90C26型 非凸规划,全局优化
90 C56 无导数方法和使用广义导数的方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Absil,P.-A.、Mahony,R.和Sepulchre,R.,《矩阵流形上的优化算法》,普林斯顿大学出版社,新泽西州普林斯顿,2008年·兹比尔1147.65043
[2] Absil,P.-A.、Mahony,R.和Trumpf,J.,《从外部看黎曼-黑森(Riemannian Hessian)》,《信息几何科学》,海德堡斯普林格出版社,2013年,第361-368页·Zbl 1323.53014号
[3] Absil,P.-A.和Malick,J.,矩阵流形上的类投影收缩,SIAM J.Optim。,22(2012),第135-158页·Zbl 1248.49055号
[4] Amari,S.-i.,《结构化参数空间中的神经学习——自然黎曼梯度》,载于《神经信息处理系统进展》,第9卷,麻省理工学院出版社,马萨诸塞州剑桥,1996年,第127-133页。
[5] Amari,S.-I.,《自然梯度在学习中有效工作》,《神经计算》。,10(1998年),第251-276页。
[6] Ando,R.K.,Zhang,T.和Bartlett,P.,从多个任务和未标记数据中学习预测结构的框架,J.Mach。学习。Res.,6(2005),第1817-1853页·Zbl 1222.68133号
[7] Anil,R.、Gupta,V.、Koren,T.、Regan,K.和Singer,Y.,《深度学习的可扩展二阶优化》,预印本,arXiv:2002.09018,2020年。
[8] Ba,J.L.、Kiros,J.R.和Hinton,G.E.,《神经信息处理系统进展-深度学习研讨会》,预印本,arXiv:1607.064502016年。
[9] Bahamou,A.、Goldfarb,D.和Ren,Y.,《深度神经网络的一种小型Fisher方法》,载于《国际人工智能与统计会议》,PMLR,2023年,第9191-9220页。
[10] Bécigneul,G.和Ganea,O.-E.,黎曼自适应优化方法,国际机器学习协会学习代表国际会议,宾夕法尼亚州斯特劳德斯堡,2019年。
[11] Bonnabel,S.,黎曼流形上的随机梯度下降,IEEE Trans。自动化。对照,58(2013),第2217-2229页·Zbl 1369.90110号
[12] Bouchard,F.、Breloy,A.、Renaux,A.和Ginolhac,G.,黎曼几何和Cramér-Rao对高斯源盲分离的约束,IEEE国际声学、语音和信号处理会议(ICASSP),IEEE,新泽西州皮斯卡塔韦,2020年,第4717-4721页。
[13] Boumal,N.,《光滑流形优化导论》,剑桥大学出版社,剑桥,2023年·Zbl 07633911号
[14] Boumal,N.和Absil,P.-A.,通过格拉斯曼流形上的预条件优化实现低秩矩阵补全,线性代数应用。,475(2015),第200-239页·Zbl 1312.90092号
[15] Byrd,R.H.、Hansen,S.L.、Nocedal,J.和Singer,Y.,《大规模优化的随机拟Newton方法》,SIAM J.Optim。,26(2016),第1008-1031页·Zbl 1382.65166号
[16] Chen,R.、Menickelly,M.和Scheinberg,K.,《使用信任区域方法和随机模型的随机优化》,数学。程序。,169(2018),第447-487页·Zbl 1401.90136号
[17] Cho,M.和Lee,J.,批次归一化的黎曼方法,《神经信息处理系统进展》,第30卷,Curran Associates,Red Hook,NY,2017年,第5231-5241页。
[18] Du,S.S.,Zhai,X.,Poczos,B.和Singh,A.,梯度下降在参数化神经网络上可证明优化,发表于国际机器学习学会学习表示国际会议,宾夕法尼亚州斯特劳兹堡,2019。
[19] Duchi,J.、Hazan,E.和Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。Res.,12(2011),第2121-2159页·Zbl 1280.68164号
[20] Flanders,H.,积分符号下的微分,Amer。数学。《月刊》,80(1973),第615-627页·Zbl 0266.26010号
[21] Goldfarb,D.、Ren,Y.和Bahamou,A.,训练深层神经网络的实用准Newton方法,《神经信息处理系统进展》,第33卷,Curran Associates,Red Hook,NY,2020年,第2386-2396页。
[22] Goldstein,H.,调查数据的多级建模,J.R.Stat.Soc.Ser。D、 40(1991年),第235-244页。
[23] Goodfellow,I.、Bengio,Y.和Courville,A.,《深度学习》,麻省理工学院出版社,2016年·Zbl 1373.68009号
[24] Grosse,R.和Martens,J.,《Kronecker为卷积层构造近似Fisher矩阵》,载于国际机器学习会议,国际机器学习协会,宾夕法尼亚州斯特劳德斯堡,2016年,第573-582页。
[25] He,K.,Zhang,X.,Ren,S.和Sun,J.,图像识别的深度剩余学习,《IEEE计算机视觉和模式识别会议论文集》,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2016年,第770-778页。
[26] Heo,B.,Chun,S.,Oh,S.J.,Han,D.,Yun,S,Kim,G.,Uh,Y.,and Ha,J.-W.,AdamP:减缓动量优化器在尺度变权重上的减速,发表于国际机器学习协会学习代表国际会议,宾夕法尼亚州斯特劳德斯堡,2021年。
[27] 胡J.,刘X.,温Z.-W.,袁Y.-X.,流形优化简介,J.Oper。《中国研究社会》,第8期(2020年),第199-248页·Zbl 1474.49093号
[28] Hu,J.,Milzarek,A.,Wen,Z.和Yuan,Y.,黎曼优化的自适应二次正则化牛顿方法,SIAM J.矩阵分析。申请。,39(2018),第1181-1207页·Zbl 1415.65139号
[29] Ioffe,S.和Szegedy,C.,《批量规范化:通过减少内部协变量转移来加速深层网络培训》,摘自国际机器学习会议,国际机器学习协会,宾夕法尼亚州斯特劳德斯堡,2015年,第448-456页。
[30] Jiang,B.,Ma,S.,So,A.M.-C.,and Zhang,S.。《黎曼优化的向量无运输SVRG(带一般收缩):复杂性分析和实际实现》,预印本,arXiv:1705.090592017年。
[31] Johnson,N.L.、Kotz,S.和Balakrishnan,N.,《连续单变量分布》,第2卷,威利出版社,纽约,1995年·Zbl 0821.62001号
[32] Johnson,R.和Zhang,T.,使用预测方差减少加速随机梯度下降,《神经信息处理系统进展》,第26卷,Curran Associates,Red Hook,NY,2013年,第315-323页。
[33] Kasai,H.、Jawanpuria,P.和Mishra,B.,矩阵流形上的黎曼自适应随机梯度算法,国际机器学习学会国际会议,宾夕法尼亚州斯特劳德斯堡,2019年,第3262-3271页。
[34] Kasai,H.和Mishra,B.,黎曼流形上的不精确信任域算法,《神经信息处理系统进展》,第31卷,Curran Associates,Red Hook,NY,2018,第4254-4265页。
[35] Kasai,H.、Sato,H.和Mishra,B.,具有方差缩减的黎曼随机拟牛顿算法及其收敛性分析,Proc。机器。学习。研究(PMLR),32(2018),第269-278页。
[36] Kingma,D.P.和Ba,J.,Adam:《随机优化方法》,摘自国际机器学习协会学习代表大会,宾夕法尼亚州斯特劳德斯堡,2015年。
[37] Krizhevsky,A.,《从微小图像中学习多层特征》,手稿,2009年。
[38] Martens,J.,《自然梯度法的新见解和观点》,J.Mach。学习。研究,21(2020),第5776-5851页·Zbl 07306852号
[39] Martens,J.和Grosse,R.,《使用Kronecker-factored近似曲率优化神经网络》,载于《机器学习国际会议》,第32卷,国际机器学习学会,宾夕法尼亚州斯特劳德斯堡,2015年,第2408-2417页。
[40] Mishra,B.、Kasai,H.、Jawanpuria,P.和Saroop,A.,《格拉斯曼流形上子空间学习的黎曼流言方法》,马赫。学习。,108(2019),第1783-1803页·Zbl 1493.68309号
[41] Nocedal,J.和Wright,S.J.,《数值优化》,第2版,纽约斯普林格出版社,2006年·兹比尔1104.65059
[42] Nurbekyan,L.,Lei,W.和Yang,Y.,基于PDE的大规模优化问题的高效自然梯度下降方法,SIAM J.Sci。计算。,45(2023年),第A1621-A1655页·Zbl 1515.65171号
[43] Ollivier,Y.、Arnold,L.、Auger,A.和Hansen,N.,《信息几何优化算法:基于不变性原理的统一图像》,J.Mach。学习。决议,18(2017),第1-65页·Zbl 1433.90196号
[44] Pilanci,M.和Wainwright,M.J.,《牛顿草图:具有线性二次收敛性的近线性时间优化算法》,SIAM J.Optim。,27(2017),第205-245页·Zbl 1456.90125号
[45] Ren,Y.和Goldfarb,D.,《卷积神经网络的Kronecker-Factored准Newton方法》,预印本,arXiv:2102.067372022。
[46] Ring,W.和Wirth,B.,黎曼流形上的优化方法及其在形状空间中的应用,SIAM J.Optim。,22(2012),第596-627页·Zbl 1250.90111号
[47] Robbins,H.和Monro,S.,《随机近似方法》,《数学年鉴》。统计人员。,22(1951年),第400-407页·兹比尔0054.05901
[48] Roosta-Khorasani,F.和Mahoney,M.W.,子样本牛顿方法,数学。程序。,174(2019),第293-326页·Zbl 1412.49059号
[49] Salimans,T.和Kingma,D.P.,《权重归一化:加速深度神经网络训练的简单重新参数化》,载于《神经信息处理系统进展》,第29卷,Curran Associates,Red Hook,NY,2016,第901-909页。
[50] Sandler,M.、Howard,A.、Zhu,M.,Zhmoginov,A.和Chen,L.-C.,MobileNetV2:倒置残差和线性瓶颈,摘自《IEEE计算机视觉和模式识别会议论文集》,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2018年,第4510-4520页。
[51] Sato,H.,《黎曼优化及其应用》,施普林格,查姆,瑞士,2021年·Zbl 1456.90001号
[52] Sato,H.、Kasai,H.和Mishra,B.,具有收缩和向量传输的黎曼随机方差缩减梯度算法,SIAM J.Optim。,29(2019),第1444-1472页·Zbl 1421.90084号
[53] Schraudolph,N.N.,二阶梯度下降的快速曲率矩阵向量积,神经计算。,14(2002),第1723-1738页·Zbl 1037.68119号
[54] Simonyan,K.和Zisserman,A.,《大尺度图像识别的甚深卷积网络》,第三届国际学习表征会议,ICLR 2015,计算与生物学习协会,2014。
[55] Smith,S.T.,协方差,子空间和内在Cramér-Rao界,IEEE Trans。信号处理。,53(2005),第1610-1630页·Zbl 1370.94242号
[56] So,A.M.-C.,《数字通信中半定弛豫检测器的非症状性能分析》,手稿。
[57] Vijayakumar,S.、D'souza,A.、Shibata,T.、Conradt,J.和Schaal,S.,类人机器人的统计学习,Auton。《机器人》,12(2002),第55-69页·Zbl 1012.68640号
[58] Wang,X.和Yuan,Y.-X.,信任区域半径取决于概率模型的随机信任区域方法,J.Compute。数学。,40(2022年),第294-334页·Zbl 1499.65236号
[59] Wu,X.,Du,S.S.和Ward,R.,过度参数化神经网络的自适应梯度方法的全局收敛性,预印本,arXiv:1902.071111919。
[60] Yang,M.,Milzarek,A.,Wen,Z.,and Zhang,T.,非光滑非凸优化的随机分步拟Newton方法,数学。程序。,194(2022),第257-303页·Zbl 1494.90061号
[61] Yang,M.、Xu,D.、Chen,H.、Wen,Z.和Chen,M.,《利用结构化随机拟Newton方法增强曲率信息》,《IEEE/CVF计算机视觉和模式识别会议论文集》,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2021年,第10654-10663页。
[62] Yang,M.,Xu,D.,Cui,Q.,Wen,Z.和Xu,P.,大规模神经网络优化的有效Fisher矩阵近似方法,IEEE Trans。模式分析。机器。智力。,45(2023年),第5391-5403页。
[63] Yang,M.,Xu,D.,Wen,Z.,Chen,M.和Xu,P.,深度学习的基于草图的经验自然梯度方法,科学杂志。计算。,92(2022),第1-29页·邮编:1492.90085
[64] Zagoruyko,S.和Komodakis,N.,《Wide residual networks》,英国机器视觉协会2016年英国机器视觉会议。
[65] Zhang,D.和Tajbakhsh,S.D.,子流形优化的黎曼随机方差缩减三次正则牛顿法,J.Optim。理论应用。,196(2023),第324-361页·Zbl 1511.90419号
[66] Zhang,G.,Martens,J.和Grosse,R.,超参数神经网络自然梯度下降的快速收敛,《神经信息处理系统进展》,第32卷,Curran Associates,Red Hook,NY,2019年,第8082-8093页。
[67] Zhang,H.,Reddi,S.J.,and Sra,S.,黎曼SVRG:黎曼流形上的快速随机优化,摘自《神经信息处理系统进展》,第30卷,Curran Associates,Red Hook,NY,2016年,第4592-4600页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。