本尼·阿夫林;卡吉省奈斯特罗姆 神经ODE作为具有恒定权重的ResNets的深度极限。 (英语) Zbl 07362267号 分析。申请。,辛加普。 19,第3期,397-437(2021年). 摘要:在本文中,我们证明了在深度极限下,ResNet型深度神经网络上的随机梯度下降,其中每个层共享相同的权重矩阵,收敛于神经ODE的随机梯度降落,并且相应的值/损失函数收敛,在随机梯度下降最小化的背景下,将神经ODE视为ResNets的深度极限的理论基础。我们的证明是基于相关的福克-普朗克方程的某些衰变估计。 引用于5文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 65L20英寸 常微分方程数值方法的稳定性和收敛性 34A45型 常微分方程解的理论逼近 84年第35季度 福克-普朗克方程 10层62层 点估计 60 H10型 随机常微分方程(随机分析方面) 关键词:机器学习;深度神经网络;ResNet公司;神经ODE;常微分方程;随机梯度下降;偏微分方程;福克·普朗克 软件:阳极;火炬差异;CIFAR公司 PDF格式BibTeX公司 XML格式引用 \textit{B.Avelin}和\textit{K.Nyström},安拉。申请。,辛加普。19,第3号,397--437(2021;Zbl 07362267) 全文: 内政部 arXiv公司 参考文献: [1] Bogachev,V.、Röckner,M.和Shaposhnikov,S.,《关于测度的Fokker-Planck-Kolmogorov方程的唯一性问题》,J.Math。《科学》179(1)(2011)7-47·Zbl 1291.35425号 [2] Brutzkus,A.,Globerson,A.,Malach,E.和Shalev Shwartz,S.,SGD在可证明在线性可分离数据上推广的参数化网络上学习,第六届国际学习表示会议(ICLR,2018),https://arXiv.org/abs/1710.10174。 [3] Chaudhari,P.、Oberman,A.、Osher,S.、Soatto,S.和Carlier,G.,《深度松弛:优化深度神经网络的偏微分方程》,《数学研究》。科学5(3)(2018)30·Zbl 1427.82032年 [4] Chaudhari,P.和Soatto,S.,《随机梯度下降法进行变分推理,收敛到深网络的极限环》,2018年信息理论与应用研讨会,ITA 2018(美国圣地亚哥,2018)。 [5] Chen,T.Q.,Rubanova,Y.,Bettencourt,J.和Duvenaud,D.K.,《神经信息处理系统进展》,第31卷,Bengio,S.,Wallach,H.,Larochelle,H.、Grauman,K.,Cesa-Bianchi,N.和Garnett,R.编辑(Curran Associates,Inc.,2018),第6571-6583页。 [6] X.Chen,J.D.Lee,X.T.Tong,Y.Zhang,随机梯度下降模型参数的统计推断,《统计年鉴》48(1),251-273·Zbl 1440.62287号 [7] Dal Maso,G.,《非线性微分方程及其应用中的收敛与进展》(Birkhäuser,1993)·Zbl 0816.49001号 [8] Du,S.和Lee,J.,《关于二次激活神经网络中过参数化的力量》,载于第35届机器学习国际会议,ICML,第3卷(瑞典斯德哥尔摩,2018年),第2132-2141页。 [9] Dupont,E.、Doucet,A.和Teh,Y.W.,《增强神经ODE》,《神经信息处理系统进展》,第32卷(NIPS2019),第3140-3150页。 [10] E、 W.,Han,J.和Li,Q.,《深度学习的平均场最优控制公式》,《数学研究》。科学6(1)(2019),文章编号10·Zbl 1421.49021号 [11] Evans,L.C.,偏微分方程,第2版。,第19卷(美国数学学会,普罗维登斯,RI,2010)·Zbl 1194.35001号 [12] Fabes,E.,Fukushima,M.,Gross,L.,Kenig,C.,Röckner,M.和Strock,D.W.,Dirichlet Forms,第1563卷(柏林斯普林格-弗拉格出版社,1993年)。 [13] Ghadimi,S.和Lan,G.,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim.23(4)(2013)2341-2368·Zbl 1295.90026号 [14] Ḡhman,U.I.和Skorohod,A.V.,《随机微分方程》(Springer-Verlag,纽约,1972),由Kenneth Wickwire,Ergebnisse der Mathematik und ihrer Grenzgebiete,Band 72从俄语翻译而来·Zbl 0242.60003号 [15] Glrot,X.和Bengio,Y.,《理解深度前馈神经网络训练的困难》,J.Mach。学习。第9号决议(2010年)249-256。 [16] B.Graham,《分数最大冲量》,arXiv:1412.6071(2014)。 [17] Gross,L.,对数Sobolev不等式,Amer。《数学杂志》97(4)(1975)1061-1083·Zbl 0318.46049号 [18] He,K.,Zhang,X.,Ren,S.和Sun,J.,图像识别的深度剩余学习,2016年IEEE计算机视觉和模式识别(CVPR)会议(美国内华达州拉斯维加斯,2016年)。 [19] He,K.,Zhang,X.,Ren,S.和Sun,J.,深度剩余网络中的身份映射,《欧洲计算机视觉会议》(Springer,2016),第630-645页。 [20] C.F.Higham和D.J.Higham.深度学习:应用数学家简介,SIAM Rev.61(4),860-891·Zbl 1440.68214号 [21] T.Ho-Phuoc,CIFAR10比较深层神经网络和人类的视觉识别性能,https://arXiv.org/abs/1811.07270。 [22] Ioffe,S.和Szegedy,C.,《批量规范化:通过减少内部协变量转移加快深层网络训练》,载于第32届国际机器学习大会(ICML)(法国里尔,2015年),第448-456页。 [23] A.Krizhevsky和G.Hinton,从微小图像中学习多层特征。技术代表,技术报告,多伦多大学(2009年)。 [24] Le Bris,C.和Lions,P.-L.,不规则系数Fokker-Planck型方程解的存在性和唯一性,Comm.偏微分方程33(7-9)(2008)1272-1317·Zbl 1157.35301号 [25] Lee,C.-Y.,Xie,S.,Gallagher,P.,Zhang,Z.和Tu,Z.,深度监督网,J.Mach。学习。第38号决议(2015)562-570。 [26] Li,H.,Xu,Z.,Taylor,G.,Studer,C.和Goldstein,T.,《可视化神经网络的损失景观》,高级神经信息。过程。系统31(2018)6389-6399。 [27] Li,Q.,Chen,L.,Tai,C.和E,W.,深度学习的基于最大原理的算法,J.Mach。学习。第18(2018)1-29号决议·兹比尔1467.68156 [28] Li,Q.,Tai,C.和E,W.,《随机修正方程和自适应随机梯度算法》。第34届国际机器学习会议,ICML’17,第70卷(澳大利亚悉尼,2017),第2101-2110页。 [29] Li,Q.,Tai,C.和E,W.,《随机修正方程和随机梯度算法动力学I:数学基础》,J.Mach。学习。决议20(2019)1-47·Zbl 1484.62106号 [30] Lieberman,G.M.,《二阶抛物微分方程》(世界科学出版公司,新泽西州River Edge,1996年)·Zbl 0884.35001号 [31] W.Maddox、T.Garipov、P.Izmailov、D.Vetrov和A.G.Wilson,深度学习中贝叶斯不确定性的简单基线,https://arXiv.org/abs/1902.02476。 [32] Mandt,S.,Hoffman,M.D.和Blei,D.M.,作为近似贝叶斯推理的随机梯度下降,J.Mach。学习。第18(1)号决议(2017)4873-4907·Zbl 1442.62055号 [33] P.Ramachandran、B.Zoph和Q.V.Le,《寻找激活功能》(2017年)。 [34] Royer,G.,《对数Sobolev不等式的开端》,第14卷(美国数学学会,普罗维登斯,RI;法国数学协会,巴黎,2007),由唐纳德·巴比特(Donald Babbitt)从1999年的法语原文翻译而来·Zbl 1138.60007号 [35] Safran,I.和Shamir,O.,《伪局部极小值在双层ReLU神经网络中很常见》,载于第35届机器学习国际会议(ICML 2018)(瑞典斯德哥尔摩,2018),第7031-7052页。 [36] Shaposhnikov,S.,关于Fokker-Planck-Kolmogorov方程柯西问题概率解的唯一性,理论问题。申请56(1)(2012)96-115·Zbl 1238.35168号 [37] Soltanolkotabi,M.、Javanmard,A.和Lee,J.,《过参数化浅层神经网络优化前景的理论见解》,IEEE Trans。通知。Theory65(2)(2019)742-769·Zbl 1428.68255号 [38] Stroock,D.W.,《大偏差理论导论》(Springer Verlag,纽约,1984年)·Zbl 0552.60022号 [39] M.Thorpe和Y.van Gennip,剩余神经网络的深度极限,https://arXiv.org/abs/1810.11741。 [40] R.Vidal、J.Bruna、R、Giryes和S.Stefano,《深度学习数学》,https://arXiv.org/abs/1712.04741。 [41] 维拉尼,C.,《最佳运输主题》(美国数学学会,普罗维登斯,RI,2003)·兹比尔1106.90001 [42] Villani,C.,《最佳交通》,第338卷(Springer-Verlag,柏林,2009年)。旧的和新的·Zbl 1156.53003号 [43] 周德兴,深度卷积神经网络的普遍性,应用。计算。哈蒙。分析48(2)(2020)787-794·Zbl 1434.68531号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。