×

用TUSLA驯服神经网络:通过自适应随机梯度Langevin算法的非凸学习。 (英语) Zbl 1518.65007号

摘要:人工神经网络(ANN)是典型的高度非线性系统,通过优化其相关的非凸损失函数进行微调。在许多情况下,任何此类损失函数的梯度都具有超线性增长,使得基于欧拉数值格式的广为接受的(随机)梯度下降方法的使用存在问题。我们提供了一种新的学习算法,该算法基于流行的随机梯度Langevin动力学(SGLD)的适当构造的变体,称为驯服的未调整随机Langevin算法(TUSLA)。我们还利用人工神经网络对新算法在非凸学习问题中的收敛性进行了非辛分析。因此,我们为TUSLA提供有限时间的保证,以找到经验风险和人口风险的近似最小化者。TUSLA算法的根基于在[萨巴尼群岛,电子。Commun公司。普罗巴伯。18,第47号论文,第10页(2013年;Zbl 1329.60237号); 附录申请。普罗巴伯。26,编号42083-2105(2016;Zbl 1352.60101号)]和中的马尔可夫链蒙特卡罗算法[N.布罗斯等人,《随机过程应用》。129,第10期,3638–3663页(2019年;Zbl 07107458号)]. 通过数值实验验证了理论结果,并说明了在ANN框架内与vanilla SGLD相比使用新算法的必要性。

MSC公司:

65二氧化碳 蒙特卡罗方法
62升10 顺序统计分析
68T07型 人工神经网络与深度学习
93E35型 随机学习与自适应控制

软件:

亚当
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Barakat,A.和Bianchi,P.,非凸随机优化Adam算法的收敛性和动力学行为,SIAM J.Optim。,31(2021年),第244-274页·邮编1465.90050
[2] Barkhagen,M.,Chau,N.H.,Moulines,埃及。,Rásonyi,M.、Sabanis,S.和Zhang,Y.,《对数凹面情况下具有相关数据流的随机梯度Langevin动力学》,Bernoulli,27(2021),第1-33页·Zbl 1475.60156号
[3] Brosse,N.、Durmus,A.和Moulines,E.,《随机梯度Langevin动力学的承诺和陷阱》,《神经信息处理系统会议论文集》,2018年,第8268-8278页。
[4] Brosse,N.,Durmus,A.,Moulines,等。,和Sabanis,S.,《驯服的未调整Langevin算法,随机过程》。申请。,129(2019),第3638-3663页·Zbl 07107458号
[5] 新罕布什尔州洲、埃塞州穆林斯。,Rásonyi,M.、Sabanis,S.和Zhang,Y.,《具有相关数据流的随机梯度Langevin动力学:完全非凸情况》,SIAM J.Math。数据科学。,3(2021),第959-986页·Zbl 07419554号
[6] Chen,X.,Liu,S.,Sun,R.,and Hong,M.,关于非凸优化的一类Adam型算法的收敛性,预印本,arXiv:1808.02941[cs.LG],2019。
[7] Cheng,X.,Chatterji,N.S.,Abbasi-Yadkori,Y.,Bartlett,P.L.,and Jordan,M.I.,《非凸环境下Langevin动力学的夏普收敛率》,Stat.,1050(2019)。
[8] Dallayan,A.S.,《平滑密度和对数曲线密度近似采样的理论保证》,J.R.Stat.Soc.Ser。B统计方法。,79(2017),第651-676页·Zbl 1411.62030号
[9] Dalalyan,A.S.和Karagulyan,A.,具有不准确梯度的Langevin蒙特卡罗的用户友好保证,随机过程。申请。,129(2019),第5278-5311页·Zbl 1428.62316号
[10] Durmus,A.和Moulines,E.,未调整Langevin算法的非渐近收敛性分析,Ann.Appl。概率。,27(2017),第1551-1587页·Zbl 1377.65007号
[11] Durmus,A.和Moulines,E.,通过未调整的Langevin算法进行的高维贝叶斯推断,Bernoulli,25(2019),第2854-2882页·Zbl 1428.62111号
[12] Eberle,A.、Guillin,A.和Zimmer,R.,《Langevin动力学的耦合和定量收缩率》,Ann.Probab。,47(2019),第1982-2010页·Zbl 1466.60160号
[13] Eberle,A.、Guillin,A.和Zimmer,R.,扩散和McKean-Vlasov过程的定量Harris型定理,Trans。阿默尔。数学。Soc.,371(2019),第7135-7173页·Zbl 1481.60154号
[14] Hutzenthaler,M.、Jentzen,A.和Kloeden,P.E.,具有非全局Lipschitz连续系数的随机微分方程的Euler方法在有限时间内的强散度和弱散度,Proc。A、 467(2011),第1563-1576页·Zbl 1228.65014号
[15] Hutzenthaler,M.、Jentzen,A.和Kloeden,P.E.,具有非全局lLpschitz连续系数的SDE显式数值方法的强收敛性,Ann.Appl。概率。,22(2012),第1611-1641页·Zbl 1256.65003号
[16] Hwang,C.-R.,《重温拉普拉斯方法:概率测度的弱收敛性》,Ann.Probab。,8(1980),第1177-1182页·Zbl 0452.60007号
[17] Kingma,D.P.和Ba,J.,Adam:随机优化方法,《第三届学习表征国际会议论文集》,2015年。
[18] Raginsky,M.、Rakhlin,A.和Telgarsky,M..,通过随机梯度的非凸学习Langevin动力学:非共鸣分析,《2017年学习理论会议论文集》,2017年,第1674-1703页。
[19] Sabanis,S.,关于驯服欧拉近似的注释,电子。Commun公司。概率。,18(2013),第1-10页·Zbl 1329.60237号
[20] Sabanis,S.,变系数欧拉近似:超线性增长扩散系数的情况,Ann.Appl。概率。,26(2016),第2083-2105页·Zbl 1352.60101号
[21] Sabanis,S.和Zhang,Y.,高阶朗之万蒙特卡罗算法,电子。《J Stat.》,第13卷(2019年),第3805-3850页·Zbl 1429.60006号
[22] Welling,M.和Teh,Y.W.,通过随机梯度Langevin动力学进行贝叶斯学习,《第28届机器学习国际会议论文集》,2011年,第681-688页。
[23] Xu,P.、Chen,J.、Zou,D.和Gu,Q.,基于Langevin动力学的非凸优化算法的全局收敛性,《神经信息处理系统会议论文集》,2018,第3122-3133页。
[24] Zhang,Y.,Akyildiz。D.、Damoulas,T.和Sabanis,S.,非凸优化局部条件下随机梯度Langevin动力学的非渐近估计,应用。数学。最佳。,87 (2023), 25. ·Zbl 1512.90185号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。