×

带有机器学习型噪声的随机梯度下降。二: 连续时间分析。 (英语) Zbl 07787308号

摘要:人工神经网络对函数的表示依赖于大量非线性参数。通过最小化“损失函数”来找到合适的参数,通常是通过随机梯度下降(SGD)或基于SGD的高级算法。在噪声遵循“机器学习缩放”的SGD连续时间模型中,我们表明,在一定的噪声范围内,优化算法在某种意义上倾向于目标函数的“平坦”极小值,这与均匀噪声连续时间SGD的平坦最小值选择不同。
第一部分见[提交人,同上,第33号,第3号,第45号文件,52页(2023年;Zbl 1518.90085号)].

MSC公司:

90C26型 非凸规划,全局优化
68T07型 人工神经网络与深度学习
35K65型 退化抛物方程
60华氏30 随机分析的应用(PDE等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿格拉乔夫,A.,巴里拉里,D.,博斯卡因。美国:《亚黎曼几何综合导论》,第181卷。剑桥大学出版社(2019)·Zbl 1487.53001号
[2] Aniţa,ö-L,通过Fokker-Planck方程实现随机微分方程的最优控制,应用。数学。最佳。,84,增刊2,1555-1583(2021)·Zbl 1485.93621号 ·doi:10.1007/s00245-021-09804-5
[3] 巴里拉里,D。;博斯卡因,美国。;Charlot,G。;Neel,RW,《关于一般黎曼和次黎曼结构的热扩散》,《国际数学》。Res.Not.,不适用。,2017, 15, 4639-4672 (2017) ·Zbl 1405.58006号
[4] Bonforte,M。;多尔博,J。;Grillo,G。;Vázquez,J-L,非线性快速扩散方程解的夏普衰减率,通过泛函不等式,Proc。国家。阿卡德。科学。,107, 38, 16459-16464 (2010) ·Zbl 1256.35026号 ·doi:10.1073/pnas.1003972107
[5] Brezis,H.,《函数分析》(2011),纽约:Sobolev空间和偏微分方程。Universitext公司。纽约州施普林格·Zbl 1220.46002号
[6] Chizat,L。;Bach,F.,《关于使用最优传输的超参数模型梯度下降的全局收敛性》,Adv.Neural Inform。过程。系统。,34, 3036-3046 (2018)
[7] Chizat,L.,Bach,F.:用逻辑损失训练的宽双层神经网络的梯度下降隐式偏差。arxiv:2002.04486,(2020)
[8] De Lellis,C.:关于可直集、密度和正切测度的讲义。苏黎世法律。高级数学。7 (2008) ·邮编:1183.28006
[9] Damian,A.,Ma,T.,Lee,J.D.:标签噪音SGD显然更喜欢平坦的全局最小值。收录:Beygelzimer,A.、Dauphin,Y.、Liang,P.和Vaughan,J.W.(编辑),《神经信息处理系统进展》(2021)
[10] 多尔博,J。;Volzone,B.,改进的Poincaré不等式,非线性分析。理论方法应用。,75, 16, 5985-6001 (2012) ·Zbl 1250.26018号 ·doi:10.1016/j.na.2012.05.008
[11] Evans,L.C.,Gariepy,R.F.:函数的测度理论和精细特性。CRC出版社,(2015)·Zbl 1310.28001号
[12] Edmunds,D。;Peletier,L.,退化椭圆方程的Liouville定理,J.Lond。数学。Soc.,2,1,95-100(1973年)·Zbl 0262.35023号 ·doi:10.1112/jlms/s2-7.1.95
[13] Evans,L.C.:偏微分方程,数学研究生课程第19卷。美国数学学会,普罗维登斯,RI,第二版,(2010)·Zbl 1194.35001号
[14] Friedman,A.,抛物线型偏微分方程(2008),美国:Courier Dover Publications,USA
[15] 弗南德斯·雷尔,X。;Ros-Oton,X.,《一般稳定算子的正则性理论:抛物方程》,J.Funct。分析。,272, 10, 4165-4221 (2017) ·Zbl 1372.35058号 ·doi:10.1016/j.jfa.2017.02.015
[16] Ge,R.,Huang,F.,Jin,C.,Yuan,Y.:逃离鞍点——张量分解的在线随机梯度。摘自:学习理论会议,第797-842页。PMLR(2015)
[17] Gupta,K.,Siegel,J.W.,Wojtowytsch,S.:在非常嘈杂的梯度下实现加速度。arXiv:2302.05515v2,(2023)
[18] Gilbarg,D.,Trudinger,N.S.:二阶椭圆偏微分方程,第224卷。斯普林格(2015)·Zbl 1042.35002号
[19] Hoffer,E.,Hubara,I.,Soudry,D.:训练时间越长,泛化效果越好:缩小神经网络大批量训练中泛化的差距。arXiv预印arXiv:1705.08741,(2017)
[20] Hassannezhad,A.,Kokarev,G.:次黎曼流形上的次拉普拉斯特征值界。arXiv预输入rXiv:1407.0358,(2014)·Zbl 1390.35205号
[21] Hu,K.,Ren,Z.,Siska,D.,Szpruch,L.:神经网络的平均场Langevin动力学和能量景观。arXiv:1905.07769,(2019)·Zbl 1492.65023号
[22] Jastrzȩbski,S.、Kenton,Z.、Arpit,D.、Ballas,N.、Fischer,A.、Bengio,Y.、Storkey,A.:影响SGD最小值的三个因素。arXiv-premintarXiv:1711.04623,(2017)
[23] 约旦共和国。;Kinderlehrer,D。;奥托,F.,《福克-普朗克方程的变分公式》,SIAM数学杂志。分析。,29, 1, 1-17 (1998) ·Zbl 0915.35120号 ·doi:10.1137/S0036141096303359
[24] Javanmard,A.,Mondelli,M.,Montanari,A.:通过位移凸性分析双层神经网络。arXiv-printarXiv:1901.01375,(2019)·Zbl 1464.62401号
[25] Jabir,J.-F.,Šiška,D.,Szpruch,Ł.:通过松弛最优控制实现平均场神经网络模型。arXiv预印本arXiv:1912.05475,(2019)
[26] Klenke,A.,Wahrscheinlichkeits theorie(2006年),Cham:Springer,Cham·兹比尔1103.60001
[27] Latz,J.:连续时间随机梯度下降分析。arXiv预输入rXiv:2004.07177,(2020)·Zbl 1475.90105号
[28] Li,Q.,Tai,C.:W.E.随机梯度算法的动力学。arXiv:1511.06251(2015)
[29] Li,Q.,Tai,C.,Weinan,E.:随机修正方程和自适应随机梯度算法。摘自:机器学习国际会议,第2101-2110页。PMLR(2017)
[30] Luo,V.,Wang,Y.:有多少因素影响SGD的最小值?arXiv预输入rXiv:2009.11858,(2020)
[31] Li,Z.,Wang,T.,Arora,S.:SGD达到零损失后会发生什么-数学框架。In:国际学习代表大会,(2022)
[32] Liu,K.,Ziyin,L.,Ueda,M.:学习率高的随机梯度下降。arXiv预输入rXiv:2012.03636,(2020)
[33] N.马斯穆迪:关于哈代不平等。摘自:《数学邀请函》,第165-180页。施普林格(2011)·Zbl 1317.26017号
[34] Mandt,S.,Hoffman,M.D.,Blei,D.M.:重新审视随机梯度下降的连续时间极限。NIPS-2015(2015)
[35] Mandt,S.,Hoffman,M.,Blei,D.:随机梯度算法的变分分析。摘自:机器学习国际会议,第354-363页。PMLR,(2016)
[36] Mei,S.,Misiakiewicz,T.,Montanari,A.:双层神经网络的平均场理论:无量纲界限和核极限。arXiv-printarXiv:1902.06015,(2019)
[37] 梅,S。;Montanari,A。;Nguyen,P-M,双层神经网络景观的平均场视图,Proc。国家。阿卡德。科学。,115、33、E7665-E7671(2018)·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[38] Neelakantan,A.、Vilnis,L.、Le,Q.V.、Sutskever,I.、Kaiser,L.,Kurach,K.、Martens,J.:添加梯度噪声可以改进非常深层网络的学习。arXiv预输入rXiv:1511.06807,(2015)
[39] Persson,A.,半有界Schrödinger算子谱的离散部分的界,数学。扫描。,8, 1, 143-153 (1960) ·Zbl 0145.14901号 ·doi:10.7146/毫米。标准偏差-10602
[40] Robbins,H.,Monro,S.:一种随机近似方法。年鉴。《数学统计》第400-407页,(1951年)·Zbl 0054.05901号
[41] 罗斯·奥顿,X。;Serra,J.,一般稳定算子的正则性理论,J.Diff.Equ。,260, 12, 8675-8715 (2016) ·Zbl 1346.35220号 ·doi:10.1016/j.jde.2016.02.033
[42] Raginsky,M.,Rakhlin,A.,Telgarsky,M.:通过随机梯度Langevin动力学的非凸学习:非共鸣分析。摘自:学习理论会议,第1674-1703页。PMLR(2017)
[43] Rotskoff,G.M.,Vanden-Eijnden,E.:作为相互作用粒子系统的神经网络:损失景观的渐近凸性和近似误差的普适标度。arXiv:1805.00915,(2018)
[44] Smith,S.L.,Le,Q.V.:关于泛化和随机梯度下降的贝叶斯观点。arXiv预输入rXiv:1710.06451,(2017)
[45] 西里尼亚诺,J。;Spiliopoulos,K.,《连续时间内的随机梯度下降》,SIAM J.Financ。材料,8,1933-961(2017)·Zbl 1407.91258号 ·doi:10.1137/17M1126825
[46] 西里尼亚诺,J。;Spiliopoulos,K.,《神经网络的平均场分析:大数定律》,SIAM J.Appl。数学。,80, 2, 725-752 (2020) ·Zbl 1440.60008号 ·doi:10.1137/18M1192184
[47] 西里尼亚诺,J。;Spiliopoulos,K.,连续时间中的随机梯度下降:一个中心极限定理,随机系统。,10, 2, 124-151 (2020) ·Zbl 1450.60020号 ·doi:10.1287/stsy.2019.0050
[48] Simsekli,U.,Sagun,L.,Gurbuzbalaban,M.:深层神经网络中随机梯度噪声的尾模态分析。摘自:机器学习国际会议,第5827-5837页。PMLR,(2019)
[49] 西部,北京;格里戈里尼,P。;梅茨勒,R。;Nonnenmacher,TF,分数扩散和勒维稳定过程,物理学。E版,55、1、99(1997)·doi:10.1103/PhysRevE.55.99
[50] Wojtowytsch,S.:关于平均场状态下双层Relu网络梯度下降训练的全局收敛性。arXiv:2005.13530,(2020)
[51] Wojtowytsch,S.,带机器学习型噪声的随机梯度下降。第一部分:离散时间分析,非线性科学杂志。,33, 45 (2023) ·Zbl 1518.90085号 ·doi:10.1007/s00332-023-09903-3
[52] Welling,M.,Teh,Y.W.:通过随机梯度Langevin动力学进行贝叶斯学习。摘自:第28届国际机器学习会议记录(ICML-11),第681-688页。Citeser(2011)
[53] 周,P.,冯,J.,马,C.,熊,C.,HOI,S.:等。从理论上理解为什么SGD在深度学习中比亚当概括得更好。arXiv预输入rXiv:2010.05627,(2020)
[54] Ziyin,L.,Liu,K.,Mori,T.,Ueda,M.:SGD中的小批量噪声强度。arXiv预打印arXiv:2102.05375,(2021)
[55] Zhu,Z.,Wu,J.,Yu,B.,Wu.,L.,Ma,J.:随机梯度下降中的各向异性噪声:其逃离尖锐极小值和正则化效应的行为。arXiv-premintarXiv:1803.00195,(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。