×

剩余神经网络的深度极限。 (英语) Zbl 07643751号

摘要:神经网络在许多应用中都非常成功;然而,我们通常缺乏对神经网络实际学习内容的理论理解。当试图推广到新的数据集时,就会出现这个问题。本文的贡献在于表明,对于残差神经网络模型,深层极限与非线性常微分方程的参数估计问题相一致。特别是,虽然已知残差神经网络模型是一个常微分方程的离散化,但我们在变分意义上显示了收敛性。这意味着最优参数收敛于深层极限。这比说对于固定参数,残差神经网络模型收敛(后者通常并不意味着前者)更有力。我们的变分分析为受常微分方程组约束的变分问题的剩余神经网络训练步骤的目标函数提供了离散到连续(Gamma)的收敛结果;这将离散设置与连续问题紧密联系在一起。

MSC公司:

68T07型 人工神经网络与深度学习
49J45型 涉及半连续性和收敛性的方法;放松
49甲15 常微分方程最优控制问题的存在性理论
第39页第60页 差分方程的应用
92B20型 生物研究、人工生命和相关主题中的神经网络
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adams,R.A.,Fournier,J.J.F.:《Sobolev空间》,第140卷。爱思唯尔,(2003)·Zbl 1098.46001号
[2] Anthony,M.:《神经网络离散数学:精选主题》,第8卷。SIAM(2001)·Zbl 0992.68167号
[3] Y.本吉奥。;Simard,P。;Frasconi,P.,学习梯度下降的长期依赖性是困难的,IEEE Trans。神经网络。,157-166年5月2日(1994年)·doi:10.1109/72.279181
[4] Bo,L.,Capponi,A.,Liao,H.:通过大样本平均场优化进行深度剩余学习。预打印arXiv:1906.08894v3,(2020)
[5] Braides,A.:(\Gamma)-初学者的融合。牛津大学出版社,(2002)·Zbl 1198.49001号
[6] Braides,A.:局部最小化、变分进化和(伽马)收敛。斯普林格(2014)·Zbl 1316.49002号
[7] Burden,R.L.,Faires,J.D.:数值分析。Cengage Learning,第10版,(2010)
[8] Celledoni,E。;埃哈特,MJ;埃特曼,C。;罗得岛州麦克拉克伦;奥雷恩,B。;Schönlieb,C-B;Sherry,F.,《结构保护深度学习》,欧洲应用期刊。数学。,32, 5, 888-936 (2021) ·Zbl 07440570号 ·doi:10.1017/S0956792521000139
[9] Chang,B.、Meng,L.、Haber,E.、Ruthotto,L.,Begert,D.、Holtham,E.:任意深度剩余神经网络的可逆结构。在;第三十二届AAAI人工智能会议(2018年)
[10] Chaudhari,P。;奥伯曼,A。;Osher,S。;索托,S。;Carlier,G.,《深度松弛:优化深度神经网络的偏微分方程》,《数学研究》。科学。,5, 3, 30 (2018) ·Zbl 1427.82032年 ·doi:10.1007/s40687-018-0148-y
[11] Chen,T.Q.,Rubanova,Y.,Bettencourt,J.,Duvenaud,D.K.:神经常微分方程。摘自:神经信息处理系统进展,第6571-6583页,(2018年)
[12] Choromanska,A.,Henaff,M.,Mathieu,M.、Arous,G.B.、LeCun,Y.:多层网络的损耗面。摘自:《人工智能与统计》,第192-204页,(2015)
[13] Chung,KL,《关于随机近似方法》,Ann.Math。Stat.,25,3,463-483(1954年)·Zbl 0059.13203号 ·doi:10.1214/aoms/1177728716
[14] Cohen,A.-S.,Cont,R.,Rossier,A.,Xu,R.:深度剩余网络的标度特性。在国际机器学习会议上,第2039-248页,(2021)
[15] Cybenko,G.,通过sigmoid函数的叠加进行逼近,数学。控制信号。系统。,2, 4, 303-314 (1989) ·Zbl 0679.94019号 ·doi:10.1007/BF02551274
[16] Cybenko,G.,计算科学与工程中的神经网络,IEEE计算。科学。工程师,3,1,36-42(1996)·doi:10.1109/99.486759
[17] Dahl,G.E.,Sainath,T.N.,Hinton,G.E.:使用校正线性单位和辍学改进LVCSR的深层神经网络。《声学、语音和信号处理(ICASSP)》,2013 IEEE国际会议,第8609-8613页。IEEE(2013)
[18] Dal Maso,G.:(Gamma)收敛导论。斯普林格(1993)·Zbl 0816.49001号
[19] Dauphin,Y.N.,Pascanu,R.,Gulcehre,C.,Cho,K.,Ganguli,S.,Bengio,Y.:识别和解决高维非凸优化中的鞍点问题。在Z.Gahramani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger,编辑,《神经信息处理系统进展》,第2933-2941页。Curran Associates,Inc.(2014年)
[20] Drucker,H。;Le Cun,Y.,使用双反向传播提高泛化性能,IEEE Trans。神经网络。,3, 6, 991-997 (1992) ·doi:10.1109/72.165600
[21] Duistermaat,J.J.,Kolk,J.A.C.:多维真实分析I:差异化,第86卷。剑桥大学出版社,(2004)·Zbl 1077.26001号
[22] Dunlop,M.,Slepčev,D.,Stuart,A.M.,Thorpe,M.:基于图的半监督学习算法的大数据和零噪声极限。申请。计算。谐波分析。,(2019)
[23] E、 W.,关于通过动态系统进行机器学习的建议,Commun。数学。统计,5,1,1-11(2017)·Zbl 1380.37154号 ·文件编号:10.1007/s40304-017-0103-z
[24] E、 W。;Han,J。;Li,Q.,深度学习的平均场最优控制公式,研究数学。科学。,6, 1, 10 (2019) ·Zbl 1421.49021号 ·doi:10.1007/s40687-018-0172-y
[25] E、 W。;Han,J。;Li,Q.,深度学习的平均场最优控制公式,研究数学。科学。,6, 1, 10 (2019) ·Zbl 1421.49021号 ·doi:10.1007/s40687-018-0172-y
[26] Finlay,C.,Calder,J.,Abbasi,B.,Oberman,A.L:Lipschitz正则化深度神经网络具有泛化性,并且具有对抗性鲁棒性。预印arXiv:1808.09540v4(2019)
[27] 北卡罗来纳州加西亚·特里洛斯。;卡普兰,Z。;Samakhoana,T。;Sanz-Alonso,D.,关于采样算法可扩展性的基于图的贝叶斯半监督学习的一致性,J.Mach。学习。第21、28、1-47号决议(2020年)·Zbl 1498.68269号
[28] 北卡罗来纳州加西亚·特里洛斯。;Slepčev,D.,谱聚类一致性的变分方法,应用。计算。哈蒙。分析。,45, 239-281 (2018) ·Zbl 1396.49013号 ·doi:10.1016/j.acha.2016.09.003
[29] García Trillos,N.,Slepčev,D.,J.Von Brecht,Laurent,T.,Bresson,X.:切格图和比率图切割的一致性。J.马赫。学习。研究,17(1):6268-6313,(2016)·Zbl 1392.62180号
[30] 北卡罗来纳州加西亚·特里洛斯。;Slepčev,D.,点云总变化的连续极限,Arch。定额。机械。分析。,220, 1, 193-241 (2016) ·Zbl 1336.68215号 ·doi:10.1007/s00205-015-0929-z
[31] Glrot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难。《第十三届人工智能与统计国际会议论文集》,第249-256页,(2010年)
[32] Goodfellow,I.、Lee,H.、Le,Q.V.、Saxe,A.、Ng,A.Y.:测量深层网络中的不变性。摘自:神经信息处理系统的进展,第646-654页,(2009年)
[33] Grathwohl,W.,Chen,R.T.Q.,Bettencourt,J.,Sutskever,I.,Duvenaud,D.:Ffjord:可扩展可逆生成模型的自由形式连续动力学。预印arXiv:1810.01367,(2018)
[34] Grisvard,P.:非光滑区域中的椭圆问题。皮特曼出版公司,(1985年)·Zbl 0695.35060号
[35] Haber,E.,Lucka,F.,Ruthotto,L.:永不回头——一种改进的EnKF方法及其在无反向传播的神经网络训练中的应用。预印arXiv:1805.08034,(2018)
[36] 哈伯,E。;Ruthotto,L.,深度神经网络的稳定架构,逆概率。,34, 1 (2017) ·Zbl 1426.68236号 ·doi:10.1088/1361-6420/aa9a90
[37] Haber,E.,Ruthotto,L.,Holtham,E.,Jun,S.-H.:跨尺度学习-卷积神经网络的多尺度方法。参加:第三十二届AAAI人工智能会议(2018年)
[38] Haeffele,B.D.,Vidal,R.:神经网络训练中的全局优化。摘自:IEEE计算机视觉和模式识别会议记录,第7331-7339页,(2017)
[39] Hale,JK,《常微分方程》(2009),纽约,第二版:多佛出版公司,纽约米诺拉,第二版本
[40] 不列颠哥伦比亚省霍尔,《李群、李代数和表示:一个基本介绍》(2003),新德里:斯普林格出版社,新德里·Zbl 1026.22001年 ·数字对象标识代码:10.1007/978-0-387-21554-9
[41] Hassoun,M.H.:人工神经网络基础。麻省理工学院出版社,(1995)·兹比尔0850.68271
[42] Haykin,S.:神经网络:综合基础。普伦蒂斯·霍尔PTR,第二版,(1999)·Zbl 0934.68076号
[43] He,K.,Sun,J.:时间成本受限的卷积神经网络。摘自:IEEE计算机视觉和模式识别会议记录,第5353-5360页,(2015)
[44] He,K.,Zhang,X.,Ren,S.,Sun,J.:深入研究整流器:在图像网络分类方面超越人类水平的表现。2015年IEEE国际计算机视觉会议(ICCV),第1026-1034页,(2015)
[45] He,K.,Zhang,X.,Ren,S.,Sun,J.:图像识别的深度剩余学习。摘自:IEEE计算机视觉和模式识别会议记录,第770-778页,(2016)
[46] Hertz,J.、Krogh,A.、Palmer,R.G.:神经计算理论简介。韦斯特维尤出版社(1991)
[47] 海姆,CF;Higham,DJ,《深度学习:应用数学家导论》,SIAM Rev.,61,4860-891(2019)·Zbl 1440.68214号 ·doi:10.1137/18M1165748
[48] Hinton,G.E.,Srivastava,N.,Krizhevsky,A.,Sutskever,I.,Salakhutdinov,R.R.:通过防止特征检测器的协同适应来改进神经网络。预印arXiv:1207.0580,(2012)·Zbl 1318.68153号
[49] Hochreiter,S.:Untersuchungen zu dynamicschen neuronalen netzen。慕尼黑理工大学文凭,91(1),(1991)
[50] Hornik,K.,多层前馈网络的逼近能力,神经网络。,4, 2, 251-257 (1991) ·doi:10.1016/0893-6080(91)90009-T
[51] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络。,2, 5, 359-366 (1989) ·Zbl 1383.92015年 ·doi:10.1016/0893-6080(89)90020-8
[52] 黄,G。;孙,Y。;刘,Z。;塞德拉,D。;温伯格,KQ,具有随机深度的深度网络,In Comput。视觉-ECCV,2016,646-661(2016)
[53] Hunt,K.J.、Irwin,G.R.、Warwick,K.:动态控制系统中的神经网络工程。施普林格科学与商业媒体(2012)
[54] Janocha,K。;Czarnecki,WM,关于分类中深层神经网络的损失函数,Schedae Informaticae,25,49-59(2016)
[55] Jarrett,K.、Kavukcuoglu,K.,Ranzato,M.、LeCun,Y.:对象识别的最佳多级架构是什么?摘自:Computer Vision,2009 IEEE第12届国际会议,第2146-2153页。IEEE(2009)
[56] 科瓦奇基,NB;Stuart,AM,Ensemble Kalman inversion:机器学习任务的无导数技术,逆概率。,35, 9 (2019) ·Zbl 1430.68266号 ·doi:10.1088/1361-6420/ab1c3a
[57] Krizhevsky,A.,Sutskever,I.,Hinton,G.E.:用深度卷积神经网络进行图像分类。摘自:神经信息处理系统的进展,第1097-1105页,(2012年)
[58] Kung,S.Y.:数字神经网络。Prentice-Hall公司(1993年)·Zbl 0827.68091号
[59] Kuo,C.,Jay C.:用数学模型理解卷积神经网络。J Vis Commun图像代表41、406-413(2016)
[60] Laurent,T.,Brecht,J.:具有任意损失的深线性网络:所有局部极小值都是全局的。在:国际机器学习会议,第2908-2913页,(2018)
[61] Lee,J.D.,Simchowitz,M.,Jordan,M.I.,Recht,B.:梯度下降仅收敛于极小值。In:学习理论会议,第1246-1257页,(2016)
[62] Leoni,G.:索波列夫空间第一课程,第105卷。美国数学学会(2009)·Zbl 1180.46001号
[63] LeVeque,R.J.:常微分方程和偏微分方程的有限差分方法:稳态和时间相关问题,第98卷。Soc.Ind.申请。数学(2007)·Zbl 1127.65080号
[64] Li,Q.,Chen,L.,Tai,C.,E,W.:基于最大原则的深度学习算法。J.马赫。学习。第18(165)号决议,第1-29(2018)号决议·Zbl 1467.68156号
[65] Ljung,L.,递归随机算法分析,IEEE Trans。自动。控制,22,4,551-575(1977)·Zbl 0362.93031号 ·doi:10.1109/TAC.1977.1101561
[66] Lu,Y.,Ma,C.,Lu,Y.,Lu。Hal DauméIII和Aarti Singh主编,《第37届国际机器学习会议论文集》,《机器学习研究论文集》第119卷,第6426-6436页。PMLR,2020年7月13日至18日
[67] Lu,Y.,Zhong,A.,Li,Q.,Dong,B.:超越有限层神经网络:桥接深层结构和数值微分方程。In:机器学习国际会议,第5181-5190页,(2018)
[68] Maas,A.L.,Hannun,A.Y.,Ng,A.Y.:整流器非线性改善了神经网络声学模型。In:机器学习国际会议,第30卷,第3页,(2013)
[69] Mianjy,P.,Arora,R.,Vidal,R.:关于辍学的内隐偏见。In:机器学习国际会议,第3540-3548页,(2018)
[70] 哥伦比亚特区莫卡努;莫卡努,E。;斯通,P。;Nguyen,PH;Gibescu,M。;Liotta,A.,《受网络科学启发,具有自适应稀疏连接的人工神经网络的可扩展训练》,美国国家通讯社。,9, 1, 2383 (2018) ·doi:10.1038/s41467-018-04316-3
[71] Nair,V.,Hinton,G.E.:校正线性单位改善了受限的boltzmann机器。In:机器学习国际会议,第807-814页,(2010)
[72] 堪萨斯州纳伦德拉;Parthasarathy,K.,《使用神经网络识别和控制动态系统》,IEEE Trans。神经网络。,1, 1, 4-27 (1990) ·数字对象标识代码:10.1109/72.80202
[73] Neyshabur,B.,Tomioka,R.,Srebro,N.:寻找真正的归纳偏见:关于内隐正则化在深度学习中的作用。预印本arXiv:1412.6614,(2014)
[74] Ng,A.Y.:特征选择,L1与L2正则化,以及旋转不变性。参加:机器学习国际会议(2004年)
[75] Nielsen,M.A.:神经网络和深度学习。测定出版社,(2015)
[76] Oberman,A.M.:监督机器学习的偏微分方程正则化。收录:Brenner,S.C.,Shparlinski,I.,Shu,C.-W.,Szyld,D.B.(编辑)《75年计算数学》。美国数学学会(2020)·兹比尔1478.65141
[77] 奥波宁,P.:神经网络和复杂性理论。在计算机科学数学基础国际研讨会上,第50-61页。施普林格(1992)·Zbl 1493.68140号
[78] Ranzato,M.A.,Boureau,Y.-L.,LeCunn,Y.:深度信念网络的稀疏特征学习。In:神经信息处理系统的进展(2008)
[79] Robinson,A.J.,Fallside,F.:公用事业驱动的动态误差传播网络。技术报告CUED/F-INFENG/TR.1,剑桥大学工程系,(1987)
[80] Ruthotto,L.,Haber,E.:由偏微分方程驱动的深层神经网络。数学杂志。图像。视觉。,第1-13页,(2018)·Zbl 1434.68522号
[81] Schmidhuber,J.,神经网络中的深度学习:综述,神经网络。,61, 85-117 (2015) ·doi:10.1016/j.neunet.2014.09.003
[82] Siegelmann,H.T.:神经网络和模拟计算:超出图灵极限。施普林格科学与商业媒体(2012)·Zbl 0912.68161号
[83] 斯莱普切夫,D。;Thorpe,M.,《半监督学习中的拉普拉斯正则化分析》,SIAM J.数学。分析。,51, 3, 2085-2120 (2019) ·Zbl 1422.49020号 ·doi:10.1137/17M115222X
[84] Smets,B.M.N.,Portegies,J.,Bekkers,E.J.,Duits,R.:基于PDE的群等变卷积神经网络。数学杂志。成像视觉。(2022). doi:10.1007/s10851-022-01114-x·Zbl 07694854号
[85] 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,《辍学:防止神经网络过度拟合的简单方法》,J.Mach。学习。1929-2958年第15号、第1号决议(2014年)·Zbl 1318.68153号
[86] Srivastava,R.K.,Greff,K.,Schmidhuber,J.:公路网。预印arXiv:1505.00387,(2015)
[87] Treister,E.,Ruthotto,L.,Sharoni,M.,Zafrani,S.,Haber,E.:深卷积神经网络的低成本参数化。预印arXiv:1805.07821,(2018)
[88] van Gennip,Y。;Bertozzi,AL,(\Gamma)-图Ginzburg-Landau泛函的收敛性,Adv.Differ。设备。,17, 11-12, 1115-1180 (2012) ·兹比尔1388.35200
[89] Vidal,R.、Bruna,J.、Giryes,R.和Soatto,S.:深度学习的数学。预印arXiv:1712.04741,(2017)
[90] Wan,E.A.:用于自回归时间序列预测的有限脉冲响应神经网络。时间序列预测:预测。未来与理解过去,2,(1993)
[91] Wan,L.,Zeiler,M.,Zhang,S.,Le Cun,Y.,Fergus,R.:使用dropconnect对神经网络进行正则化。摘自:机器学习国际会议,第1058-1066页,(2013)
[92] Wiatowski,T.等人。;Bölcskei,H.,用于特征提取的深度卷积神经网络数学理论,IEEE Trans。Inf.理论,64,3,1845-1866(2018)·Zbl 1390.94053号 ·doi:10.1109/TIT.2017.2776228
[93] 威廉姆斯,RJ;Zipser,D.,连续运行全递归神经网络的学习算法,神经计算。,1, 2, 270-280 (1989) ·doi:10.1162/neco.1989.1.2.270
[94] 尹,P。;张,S。;Lyu,J。;Osher,S。;齐,Y。;Xin,J.,深层神经网络完全量化的混合粗梯度下降,研究数学。科学。,6, 1, 14 (2019) ·Zbl 1422.90066号 ·文件编号:10.1007/s40687-018-0177-6
[95] Zaeemzadeh,A。;Rahnavard,N。;Shah,M.,Norm-preservation:为什么残余网络会变得非常深?,IEEE传输。模式分析。机器。智力。,43,1133980-3990(2020)·doi:10.1109/TPAMI.2020.2990339
[96] Zeiler,M.D.、Ranzato,M.、Monga,R.、Mao,M.,Yang,K.、Le,Q.V.、Nguyen,P.、Senior,A.、Vanhoucke,V.、Dean,J.、Hinton,G.E.:关于语音处理的校正线性单位。摘自:声学、语音和信号处理(ICASSP),2013 IEEE国际会议,第3517-3521页。IEEE(2013)
[97] Zhang,L.,Schaeffer,H.:ResNet及其变体的前向稳定性。数学杂志。图像。视觉。,第1-24页,(2019)·Zbl 1434.68528号
[98] 赵,H。;加洛,O。;弗罗西奥,I。;Kautz,J.,神经网络图像恢复的损失函数,IEEE Trans。计算。图像。,3, 1, 47-57 (2017) ·doi:10.1109/TCI.2016.2644865
[99] 祖拉达,JM,《人工神经系统导论》(1992),保罗:西部出版公司St,Paul
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。