×

ResNet及其变体的前向稳定性。 (英语) Zbl 1434.68528号

摘要:残差神经网络(ResNet)是一种流行的深度网络结构,能够在多个图像处理问题上获得高精度的结果。为了分析ResNet的行为和结构,最近的工作是在ResNets和连续时间最优控制问题之间建立联系。在这项工作中,我们表明激活后ResNet与具有微分包含的最优控制问题相关,并为与ResNet相关的微分包含提供连续时间稳定性结果。受稳定性条件的激励,我们表明,无论是对体系结构还是优化问题的改变都可以产生ResNet的变体,从而提高理论稳定性边界。此外,我们为与ResNet的两个变体相关联的全(离散)网络建立了稳定性边界,特别是特征增长的边界和特征对扰动的敏感性度量。这些结果也有助于显示特征空间的深度、正则化和稳定性之间的关系。对所提出的变体进行的计算实验表明,ResNet的精度得到了保持,并且精度相对于深度和各种腐蚀似乎是单调的。

MSC公司:

68T07型 人工神经网络与深度学习
34A60型 普通微分夹杂物
49公里40 灵敏、稳定、良好
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bengio,Y.,《学习人工智能的深层架构》,Found。趋势。机器。学习。,2, 1, 1-127 (2009) ·Zbl 1192.68503号 ·doi:101561/2200000006
[2] Y.本吉奥。;西马德,P。;Frasconi,P.,学习梯度下降的长期依赖性是困难的,IEEE Trans。神经网络。,5, 2, 157-166 (1994) ·doi:10.1109/72.279181
[3] Biggio,B.、Corona,I.、Maiorca,D.、Nelson,B.、Šrndić,N.、Laskov,P.、Giacinto,G.、Roli,F.:测试时针对机器学习的回避攻击。In:数据库中的机器学习和知识发现联合欧洲会议,Springer,第387-402页(2013)
[4] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号 ·doi:10.1137/16M1080173
[5] Chang,B.、Meng,L.、Haber,E.、Ruthotto,L.,Begert,D.、Holtham,E.:任意深度剩余神经网络的可逆结构。参加:第三十二届AAAI人工智能会议(2018)
[6] Chaudhari,P.、Choromanska,A.、Soatto,S.、LeCun,Y.、Baldassi,C.、Borgs,C.、Chayes,J.、Sagun,L.、Zecchina,R.:Entropy-SGD:偏向梯度下降至宽山谷。ArXiv电子版(2016)·Zbl 1459.65091号
[7] Chaudhari等人。;奥伯曼,A。;奥舍,S。;索托,S。;Carlier,G.,《深度松弛:优化深度神经网络的偏微分方程》,《数学研究》。科学。,5, 3, 30 (2018) ·Zbl 1427.82032年 ·doi:10.1007/s40687-018-0148-y
[8] Dragomir,SS,《一些Gronwall型不等式和应用》(2003),纽约:Nova Science出版社,纽约·邮编1094.34001
[9] Du,S.S.,Zhai,X.,Poczos,Barnabas,S.,Aarti:梯度下降在参数化神经网络上可证明优化。ArXiv电子版(2018)
[10] 爱德蒙,JF;Thibault,L.,涉及扰动清扫过程的最优控制问题的松弛,数学。程序。序列号。B、 104、347-373(2005)·Zbl 1124.49010号 ·doi:10.1007/s10107-005-0619-y
[11] Goldstein,T.、Studer,C.、Baraniuk,R.:FASTA实施的前向-后向分裂现场指南。ArXiv电子版(2014)
[12] Gomez,A.N.,Ren,M.,Urtasun,R.,Grosse,R.B.:可逆残差网络:不存储激活的反向传播。摘自:《神经信息处理系统进展》,第2214-2224页(2017年)
[13] Goodfellow,I.J.、Pouget-Abadie,J.、Mirza,M.、Xu,B.、Warde-Farley,D.、Ozair,S.、Courville,A.、Bengio,Y.:生成对抗网。摘自:《神经信息处理系统进展》,第2672-2680页(2014年)
[14] 哈伯,E。;Ruthotto,L.,深度神经网络的稳定架构,逆问题。,34, 1, 014004 (2017) ·Zbl 1426.68236号 ·doi:10.1088/1361-6420/aa9a90
[15] He,K.,Zhang,X.,Ren,S.,Sun,J.:深入研究整流器:在图像网络分类方面超越人类水平的表现。摘自:IEEE计算机视觉国际会议记录,第1026-1034页(2015)
[16] He,K.,Zhang,X.,Ren,S.,Sun,J.:图像识别的深度剩余学习。摘自:IEEE计算机视觉和模式识别会议记录,第770-778页(2016)
[17] He,K.,Zhang,X.,Ren,S.,Sun,J.:深度剩余网络中的同一映射。摘自:欧洲计算机视觉会议,施普林格,第630-645页(2016年)
[18] Huang,G.,Liu,Z.,Van Der Maaten,L.,Weinberger,K.Q.:紧密连接卷积网络。摘自:IEEE计算机视觉和模式识别会议记录,第4700-4708页(2017)
[19] Ioffe,S.,Szegedy,C.:批量规范化:通过减少内部协变量的转移来加速深层网络训练。ArXiv电子版(2015)
[20] 卡门斯基,M。;马卡伦科夫,O。;LN瓦迪普里;de Fitte,PR,单调清扫过程概周期解的全局稳定性及其对非单调扰动的响应,非线性分析。混合系统。,30, 213-224 (2018) ·Zbl 1412.34075号 ·doi:10.1016/j.nahs.2018.05.007
[21] Keskar,N.S.、Mudigere,D.、Nocedal,J.、Smelyanskiy,M.、Tang,P.T.P.:关于深度学习的大范围训练:泛化差距和显著极小值。参加:国际学习代表大会(2017年)
[22] Krizhevsky,A.,Sutskever,I.,Hinton,G.E.:使用深度卷积神经网络进行ImageNet分类。摘自:《神经信息处理系统进展》,第1097-1105页(2012年)
[23] Larsson,G.,Maire,M.,Shakhnarovich,G.:分形网:无残差的超深神经网络。ArXiv电子版(2016)
[24] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436(2015)·doi:10.1038/nature14539
[25] LeCun,Y。;Boser,B。;丹克,JS;亨德森·D·。;RE霍华德;哈伯德,W。;Jackel,LD,Backpropagation应用于手写邮政编码识别,Neural Comput。,1, 4, 541-551 (1989) ·doi:10.1162/neco.1989.1.4.541
[26] Li,H.,Xu,Z.,Taylor,G.,Studer,C.,Goldstein,T.:可视化神经网络的损失景观。摘自:神经信息处理系统进展,第6389-6399页(2018年)
[27] 李,中,石,中:流形上的深度剩余学习和偏微分方程。arXiv预印arXiv:1708.05115(2017)
[28] 狮子,P-L;Mercier,B.,两个非线性算子之和的分裂算法,SIAM J.Numer。分析。,16, 6, 964-979 (1979) ·兹比尔0426.65050 ·doi:10.1137/0716071
[29] Mordukhovich,理学学士;Shao,Y.,无凸空间中的非光滑序列分析,Trans。美国数学。Soc.,3481235-1280(1996)·Zbl 0881.4909号 ·doi:10.1090/S0002-9947-96-01543-7
[30] Oberman,A.M.,Calder,J.:Lipschitz正则化深度神经网络收敛和泛化。ArXiv电子版(2018)
[31] Poliquin,RA;Rockafellar,RT,变分分析中的Prox-正则函数,Trans。美国数学。《社会学杂志》,3481805-1838(1996)·Zbl 0861.49015号 ·doi:10.1090/S0002-9947-96-01544-9
[32] 俄勒冈州Russakovsky。;邓,J。;郝S。;克劳斯,J。;Satheesh,S。;马,S。;黄,Z。;Karpathy,A。;科斯拉,A。;伯恩斯坦,M。;Berg,AC;Fei-Fei,L.,ImageNet大规模视觉识别挑战,国际计算机杂志。视觉。(IJCV),115,3,211-252(2015)·doi:10.1007/s11263-015-0816-y
[33] Ruthotto,L.,Haber,E.:由偏微分方程驱动的深层神经网络。ArXiv电子版(2018)·Zbl 1426.68236号
[34] Schaeffer,H.,一些非线性变分障碍问题的惩罚方法,Commun。数学。科学。,16, 7, 1757-1777 (2018) ·Zbl 1409.35009号 ·doi:10.4310/CMS.2018.v16.n7.a1
[35] Simonyan,K.,Zisserman,A.:用于大规模图像识别的非常深度卷积网络。ArXiv电子版(2014)
[36] Singer,Y.,Duchi,J.C.:使用正向-反向分裂进行高效学习。摘自:《神经信息处理系统进展》,第22卷,Curran Associates,Inc.,第495-503页(2009年)·Zbl 1235.62151号
[37] Sussillo,D.,Abbott,L.F.:训练深度前馈网络的随机行走初始化。ArXiv电子版(2014)
[38] Szegedy,C.,Liu,W.,Jia,Y.,Sermanet,P.,Reed,S.,Angelov,D.,Erhan,D.,Vanhoucke,V.,Rabinovich,A.:卷积更深入。摘自:IEEE计算机视觉和模式识别会议记录,第1-9页(2015年)
[39] Szegedy,C.、Zaremba,W.、Sutskever,I.、Bruna,J.、Erhan,D.、Goodfellow,I.和Fergus,R.:神经网络的有趣特性。ArXiv电子版(2013)
[40] Thorpe,M.,van Gennip,Y.:剩余神经网络的深度极限。ArXiv电子版(2018)·Zbl 07643751号
[41] Tran,G。;谢弗,H。;费尔德曼,WM;Osher,SJ,《一般障碍物问题的一种惩罚方法》,SIAM J.Appl。数学。,75, 4, 1424-1444 (2015) ·Zbl 1328.35336号 ·数字对象标识代码:10.1137/140963303
[42] Vidal,R.、Bruna,J.、Giryes,R.和Soatto,S.:深度学习的数学。ArXiv电子版(2017)
[43] Wang,B.,Luo,X.,Li,Z.,Zu,W.,Shi,Z..,Osher,S.:具有内插函数作为输出激活的深度神经网络。在:《神经信息处理系统的进展》,第743-753页(2018)
[44] E.渭南。;Han,J。;Li,Q.,深度学习的平均场最优控制公式,研究数学。科学。,6, 1, 10 (2019) ·Zbl 1421.49021号 ·doi:10.1007/s40687-018-0172-y
[45] Weinan,E.,《通过动态系统进行机器学习的建议》,Commun。数学。统计,5,1,1-11(2017)·Zbl 1380.37154号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。