×

神经ODE作为具有恒定权重的ResNets的深度极限。 (英语) Zbl 07362267号

摘要:在本文中,我们证明了在深度极限下,ResNet型深度神经网络上的随机梯度下降,其中每个层共享相同的权重矩阵,收敛于神经ODE的随机梯度降落,并且相应的值/损失函数收敛,在随机梯度下降最小化的背景下,将神经ODE视为ResNets的深度极限的理论基础。我们的证明是基于相关的福克-普朗克方程的某些衰变估计。

MSC公司:

68T05型 人工智能中的学习和自适应系统
65L20英寸 常微分方程数值方法的稳定性和收敛性
34A45型 常微分方程解的理论逼近
84年第35季度 福克-普朗克方程
10层62层 点估计
60 H10型 随机常微分方程(随机分析方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bogachev,V.、Röckner,M.和Shaposhnikov,S.,《关于测度的Fokker-Planck-Kolmogorov方程的唯一性问题》,J.Math。《科学》179(1)(2011)7-47·Zbl 1291.35425号
[2] Brutzkus,A.,Globerson,A.,Malach,E.和Shalev Shwartz,S.,SGD在可证明在线性可分离数据上推广的参数化网络上学习,第六届国际学习表示会议(ICLR,2018),https://arXiv.org/abs/1710.10174。
[3] Chaudhari,P.、Oberman,A.、Osher,S.、Soatto,S.和Carlier,G.,《深度松弛:优化深度神经网络的偏微分方程》,《数学研究》。科学5(3)(2018)30·Zbl 1427.82032年
[4] Chaudhari,P.和Soatto,S.,《随机梯度下降法进行变分推理,收敛到深网络的极限环》,2018年信息理论与应用研讨会,ITA 2018(美国圣地亚哥,2018)。
[5] Chen,T.Q.,Rubanova,Y.,Bettencourt,J.和Duvenaud,D.K.,《神经信息处理系统进展》,第31卷,Bengio,S.,Wallach,H.,Larochelle,H.、Grauman,K.,Cesa-Bianchi,N.和Garnett,R.编辑(Curran Associates,Inc.,2018),第6571-6583页。
[6] X.Chen,J.D.Lee,X.T.Tong,Y.Zhang,随机梯度下降模型参数的统计推断,《统计年鉴》48(1),251-273·Zbl 1440.62287号
[7] Dal Maso,G.,《非线性微分方程及其应用中的收敛与进展》(Birkhäuser,1993)·Zbl 0816.49001号
[8] Du,S.和Lee,J.,《关于二次激活神经网络中过参数化的力量》,载于第35届机器学习国际会议,ICML,第3卷(瑞典斯德哥尔摩,2018年),第2132-2141页。
[9] Dupont,E.、Doucet,A.和Teh,Y.W.,《增强神经ODE》,《神经信息处理系统进展》,第32卷(NIPS2019),第3140-3150页。
[10] E、 W.,Han,J.和Li,Q.,《深度学习的平均场最优控制公式》,《数学研究》。科学6(1)(2019),文章编号10·Zbl 1421.49021号
[11] Evans,L.C.,偏微分方程,第2版。,第19卷(美国数学学会,普罗维登斯,RI,2010)·Zbl 1194.35001号
[12] Fabes,E.,Fukushima,M.,Gross,L.,Kenig,C.,Röckner,M.和Strock,D.W.,Dirichlet Forms,第1563卷(柏林斯普林格-弗拉格出版社,1993年)。
[13] Ghadimi,S.和Lan,G.,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim.23(4)(2013)2341-2368·Zbl 1295.90026号
[14] Ḡhman,U.I.和Skorohod,A.V.,《随机微分方程》(Springer-Verlag,纽约,1972),由Kenneth Wickwire,Ergebnisse der Mathematik und ihrer Grenzgebiete,Band 72从俄语翻译而来·Zbl 0242.60003号
[15] Glrot,X.和Bengio,Y.,《理解深度前馈神经网络训练的困难》,J.Mach。学习。第9号决议(2010年)249-256。
[16] B.Graham,《分数最大冲量》,arXiv:1412.6071(2014)。
[17] Gross,L.,对数Sobolev不等式,Amer。《数学杂志》97(4)(1975)1061-1083·Zbl 0318.46049号
[18] He,K.,Zhang,X.,Ren,S.和Sun,J.,图像识别的深度剩余学习,2016年IEEE计算机视觉和模式识别(CVPR)会议(美国内华达州拉斯维加斯,2016年)。
[19] He,K.,Zhang,X.,Ren,S.和Sun,J.,深度剩余网络中的身份映射,《欧洲计算机视觉会议》(Springer,2016),第630-645页。
[20] C.F.Higham和D.J.Higham.深度学习:应用数学家简介,SIAM Rev.61(4),860-891·Zbl 1440.68214号
[21] T.Ho-Phuoc,CIFAR10比较深层神经网络和人类的视觉识别性能,https://arXiv.org/abs/1811.07270。
[22] Ioffe,S.和Szegedy,C.,《批量规范化:通过减少内部协变量转移加快深层网络训练》,载于第32届国际机器学习大会(ICML)(法国里尔,2015年),第448-456页。
[23] A.Krizhevsky和G.Hinton,从微小图像中学习多层特征。技术代表,技术报告,多伦多大学(2009年)。
[24] Le Bris,C.和Lions,P.-L.,不规则系数Fokker-Planck型方程解的存在性和唯一性,Comm.偏微分方程33(7-9)(2008)1272-1317·Zbl 1157.35301号
[25] Lee,C.-Y.,Xie,S.,Gallagher,P.,Zhang,Z.和Tu,Z.,深度监督网,J.Mach。学习。第38号决议(2015)562-570。
[26] Li,H.,Xu,Z.,Taylor,G.,Studer,C.和Goldstein,T.,《可视化神经网络的损失景观》,高级神经信息。过程。系统31(2018)6389-6399。
[27] Li,Q.,Chen,L.,Tai,C.和E,W.,深度学习的基于最大原理的算法,J.Mach。学习。第18(2018)1-29号决议·兹比尔1467.68156
[28] Li,Q.,Tai,C.和E,W.,《随机修正方程和自适应随机梯度算法》。第34届国际机器学习会议,ICML’17,第70卷(澳大利亚悉尼,2017),第2101-2110页。
[29] Li,Q.,Tai,C.和E,W.,《随机修正方程和随机梯度算法动力学I:数学基础》,J.Mach。学习。决议20(2019)1-47·Zbl 1484.62106号
[30] Lieberman,G.M.,《二阶抛物微分方程》(世界科学出版公司,新泽西州River Edge,1996年)·Zbl 0884.35001号
[31] W.Maddox、T.Garipov、P.Izmailov、D.Vetrov和A.G.Wilson,深度学习中贝叶斯不确定性的简单基线,https://arXiv.org/abs/1902.02476。
[32] Mandt,S.,Hoffman,M.D.和Blei,D.M.,作为近似贝叶斯推理的随机梯度下降,J.Mach。学习。第18(1)号决议(2017)4873-4907·Zbl 1442.62055号
[33] P.Ramachandran、B.Zoph和Q.V.Le,《寻找激活功能》(2017年)。
[34] Royer,G.,《对数Sobolev不等式的开端》,第14卷(美国数学学会,普罗维登斯,RI;法国数学协会,巴黎,2007),由唐纳德·巴比特(Donald Babbitt)从1999年的法语原文翻译而来·Zbl 1138.60007号
[35] Safran,I.和Shamir,O.,《伪局部极小值在双层ReLU神经网络中很常见》,载于第35届机器学习国际会议(ICML 2018)(瑞典斯德哥尔摩,2018),第7031-7052页。
[36] Shaposhnikov,S.,关于Fokker-Planck-Kolmogorov方程柯西问题概率解的唯一性,理论问题。申请56(1)(2012)96-115·Zbl 1238.35168号
[37] Soltanolkotabi,M.、Javanmard,A.和Lee,J.,《过参数化浅层神经网络优化前景的理论见解》,IEEE Trans。通知。Theory65(2)(2019)742-769·Zbl 1428.68255号
[38] Stroock,D.W.,《大偏差理论导论》(Springer Verlag,纽约,1984年)·Zbl 0552.60022号
[39] M.Thorpe和Y.van Gennip,剩余神经网络的深度极限,https://arXiv.org/abs/1810.11741。
[40] R.Vidal、J.Bruna、R、Giryes和S.Stefano,《深度学习数学》,https://arXiv.org/abs/1712.04741。
[41] 维拉尼,C.,《最佳运输主题》(美国数学学会,普罗维登斯,RI,2003)·兹比尔1106.90001
[42] Villani,C.,《最佳交通》,第338卷(Springer-Verlag,柏林,2009年)。旧的和新的·Zbl 1156.53003号
[43] 周德兴,深度卷积神经网络的普遍性,应用。计算。哈蒙。分析48(2)(2020)787-794·Zbl 1434.68531号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。