×

根据数据分布和神经网络平滑度量化深度学习中的泛化误差。 (英语) Zbl 1475.68315号

摘要:深度学习(即深度神经网络)的准确性可以通过将总误差分为三种主要类型来表征:近似误差、优化误差和泛化误差。尽管近似和优化问题有一些令人满意的答案,但对泛化理论的了解却少得多。现有的大多数泛化理论工作都无法解释神经网络在实际中的性能。为了得到一个有意义的界,我们从数据分布和神经网络平滑度的角度研究了神经网络在分类问题中的泛化误差。我们介绍覆盖复杂性(CC)衡量学习数据集的难度和连续模的逆量化神经网络的平滑度。通过同时考虑CC和神经网络平滑度,导出了预期精度/误差的定量界限。虽然大多数分析都是一般性的,并非针对神经网络,但我们通过几个图像数据集对神经网络的理论假设和结果进行了数值验证。数值结果证实,训练网络的期望误差与类数的平方根成正比,与CC成线性关系。在训练过程中,我们还观察到测试损失与神经网络平滑度之间存在明显的一致性。此外,我们实证证明,神经网络平滑度随着网络大小的增加而降低,而平滑度对训练数据集大小不敏感。

理学硕士:

68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allen-Zhu,Z。;李毅。;Liang,Y.,超参数神经网络的学习和泛化,超越两层(2018),arXiv预印本arXiv:1811.04918
[2] Allen-Zhu,Z。;李毅。;Song,Z.,《通过过度参数化进行深度学习的收敛理论》(2018),arXiv预印本arXiv:1811.03962
[3] Arora,S。;杜,S。;胡,W。;李,Z。;Wang,R.,超参数双层神经网络优化和泛化的细粒度分析(2019),arXiv预印本arXiv:1901.08584
[4] Arora,S。;Ge,R。;Neyshabur,B。;Zhang,Y.,通过压缩方法实现深网的强泛化界(2018),arXiv预印本arXiv:1802.05296
[5] Bartlett,P。;Foster,D。;Telgarsky,M.,神经网络的光谱规范化界限,(神经信息处理系统进展(2017)),6240-6249
[6] Bartlett,P。;北卡罗来纳州哈维。;Liaw,C。;Mehrabian,A.,分段线性神经网络的近紧VC-维数和伪维数界限(2017),arXiv预印本arXiv:1703.02930
[7] Bartlett,P。;Mendelson,S.,《Rademacher和Gaussian复杂性:风险边界和结构结果》,《机器学习研究杂志》,2002年11月3日,463-482页·兹比尔1084.68549
[8] 贝加尔,C。;Liebenwein,L。;Gilitschenski,I。;Feldman博士。;Rus,D.,用于压缩神经网络并应用于泛化边界的数据相关核集(2018),arXiv预印本arXiv:1804.05345
[9] 贝尔金,M。;徐,D。;马,S。;Mandal,S.,《协调现代机器学习和偏差-方差权衡》(2018),arXiv预印本arXiv:1812.11118
[10] Bottou,L.,随机梯度下降的大尺度机器学习,(2010年《COMPSTAT学报》,Springer),177-186·Zbl 1436.68293号
[11] 博图,L。;Bousquet,O.,《大规模学习的权衡》,(神经信息处理系统进展(2008)),161-168
[12] 曹毅。;Gu,Q.,学习过参数化深度ReLU网络的梯度下降推广理论(2019),arXiv预印本arXiv:1902.01384
[13] 陈,Y。;Jin,C。;Yu,B.,迭代优化算法的稳定性和收敛性权衡(2018),arXiv预印本arXiv:1804.01619
[14] Cheng,Y。;王,D。;周,P。;Zhang,T.,深度神经网络的模型压缩和加速:原理、进展和挑战,IEEE信号处理杂志,35,1,126-136(2018)
[15] Cybenko,G.,通过sigmoid函数的叠加进行逼近,控制、信号和系统数学,2,4,303-314(1989)·Zbl 0679.94019号
[16] Dinh,L。;帕斯卡努,R。;Bengio,S。;Bengio,Y.,Sharp minima可以推广到深网,(第34届机器学习国际会议论文集——第70卷(2017),JMLR。组织),1019-1028
[17] 杜,S。;Lee,J。;李,H。;Wang,L。;翟,X.,梯度下降发现深度神经网络的全局极小值(2018),arXiv预印本arXiv:1811.03804
[18] Dudley,R.,Balls in(mathbb{R}^k\)不切割k+2点的所有子集,《数学进展》,31,3,306-308(1979)·Zbl 0408.05001号
[19] Dziugaite,G。;Roy,D.,计算参数比训练数据多得多的深度(随机)神经网络的非敏锐泛化边界(2017),arXiv预印本arXiv:1703.1008
[20] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素》,第1卷(2001年),《统计学中的斯普林格系列:统计学中的施普林格系列》,纽约·Zbl 0973.62007号
[21] Gonen,A。;Shalev-Shwartz,S.,严格鞍问题经验风险最小化的快速率(2017),arXiv预印本arXiv:1701.04271
[22] Gunasekar,S。;Lee,J。;Soudry,D。;Srebro,N.,线性卷积网络上梯度下降的隐含偏差,(神经信息处理系统进展(2018)),9461-9471
[23] Hardt,M。;Recht,B。;Singer,Y.,《训练更快,概括更好:随机梯度下降的稳定性》(2015),arXiv预印本arXiv:1509.01240
[24] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络,2,5,359-366(1989)·兹比尔1383.92015
[25] 川口,K。;Kaelbling,L。;Bengio,Y.,深度学习中的泛化(2017),arXiv预印本arXiv:1710.05468
[26] 北卡罗来纳州凯斯卡。;Mudigere博士。;Nocedal,J。;Smelyanskiy,M。;Tang,P.,《关于深度学习的大背训练:泛化差距和显著极小值》(2016),arXiv预印本arXiv:1609.04836
[27] Kingma,D。;Ba,J.,Adam:随机优化方法(学习表征国际会议(2015))
[28] Krizhevsky,A。;Hinton,G.,《从微小图像中学习多层特征技术报告》(2009),Citeser
[29] Krizhevsky,A。;Sutskever,I。;Hinton,G.,深度卷积神经网络的Imagenet分类,神经信息处理系统,25(2012)
[30] Kuzborskij,I。;Lampert,C.,随机梯度下降的数据依赖稳定性(2017),arXiv预印本arXiv:1703.01678
[31] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,IEEE会议记录,86,11,2278-2324(1998)
[32] Lee,J。;Simchowitz,M。;乔丹,M。;Recht,B.,梯度下降收敛到极小值(2016),arXiv预印arXiv:1602.04915
[33] 李毅。;Liang,Y.,通过结构化数据的随机梯度下降学习超参数神经网络,(神经信息处理系统进展(2018)),8157-8166
[34] Liang,T。;Poggio,T。;Rakhlin,A。;Stokes,J.,《神经网络的Fisher-Rao度量、几何和复杂性》(2017),arXiv预印本arXiv:1711.01530
[35] 廖琦(Liao,Q.)。;Poggio,T.,理论II:深度学习中经验风险的前景(2017),arXiv预印本arXiv:1703.09833
[36] 卢,L。;Shin,Y。;苏,Y。;Karniadakis,G.,《死亡reLU和初始化:理论和数值示例》(2019年),arXiv预印本arXiv:1903.06733
[37] 卢,L。;苏,Y。;Karniadakis,G.,深度和狭窄神经网络的崩溃(2018),arXiv预印本arXiv:1808.04947
[38] Maas,A.、Hannun,A.和Ng,A.(2013年)。整流器非线性改善了神经网络声学模型。程序中。Icml(第3页)。
[39] Mitzenmacher先生。;Upfal,E.,《概率与计算:算法和数据分析中的随机化和概率技术》(2017),剑桥大学出版社:剑桥大学出版社,纽约,美国·Zbl 1368.60002号
[40] 纳加拉扬,V。;Kolter,J.,《通过泛化抗噪性实现深层网络的确定性PAC-Baysian泛化界限》(学习表征国际会议(2019年))
[41] 纳加拉扬,V。;Kolter,J.,《深度网络中的泛化:距离初始化的作用》(2019),arXiv预印本arXiv:1901.01672
[42] Nene,S。;Nayar,S。;Murase,H.,哥伦比亚物体图像库(线圈100)(1996),Citeser
[43] Nene,S。;Nayar,S。;Murase,H.,哥伦比亚物体图像库(coin-20)技术报告CUCS-005-96(1996)
[44] Netzer,Y。;Wang,T。;科茨,A。;比萨科,A。;吴,B。;Ng,A.,用无监督特征学习读取自然图像中的数字,(神经信息处理系统进展(2011))
[45] Neyshabur,B。;博贾纳帕利,S。;McAllester,D。;Srebro,N.,探索深度学习中的泛化,(神经信息处理系统的进展(2017)),5947-5956
[46] Neyshabur,B。;博贾纳帕利,S。;Srebro,N.,神经网络光谱正常化边界的PAC-Baysian方法(2017),arXiv预印本arXiv:1707.09564
[47] Neyshabur,B。;李,Z。;博贾纳帕利,S。;LeCun,Y。;Srebro,N.,《过度参数化在神经网络泛化中的作用》(国际学习表征会议(2019年))
[48] Neyshabur,B。;Salakhutdinov,R。;Srebro,N.,Path-SGD:深度神经网络中的路径规范化优化,(神经信息处理系统进展(2015)),2422-2430
[49] Neyshabur,B。;富冈,R。;Srebro,N.,《寻找真正的归纳偏差:关于内隐正则化在深度学习中的作用》(2014),arXiv预印本arXiv:1412.6614
[50] Poggio,T。;川口,K。;廖琦(Liao,Q.)。;米兰达,B。;Rosasco,L。;博伊克斯,X。;希达里,J。;Mhaskar,H.,深度学习理论III:解释非过拟合谜题(2017),arXiv预印本arXiv:1801.00173
[51] 拉哈曼,N。;Arpit,D。;Baratin,A。;Draxler,F。;林,M。;F.汉普雷希特。;Y.本吉奥。;Courville,A.,《深度神经网络的光谱偏差》(2018),arXiv预印本arXiv:1806.08734
[52] 萨克斯,A.M。;班萨尔,Y。;Dapello,J。;阿德瓦尼,M。;科尔钦斯基,A。;特蕾西,B.D。;Cox,D.D.,《关于深度学习的信息瓶颈理论》,《统计力学杂志:理论与实验》,2019,12,124020(2019)·Zbl 1459.68185号
[53] 施瓦尔茨·齐夫,R。;Tishby,N.,《通过信息打开深度神经网络的黑匣子》(2017),arXiv预印本arXiv:1703.00810
[54] 西尔弗·D。;黄,A。;Maddison,C。;A.盖兹。;Sifre,L。;Van Den Driessche,G。;Schrittwieser,J。;安东尼奥卢,I。;Panneershelvam,V。;Lanctot,M.,《掌握深度神经网络和树搜索的游戏》,《自然》,529,7587,484(2016)
[55] Sokolic,J。;Giryes,R。;萨皮罗,G。;Rodrigues,M.,不变分类器的泛化误差(2016),arXiv预印arXiv:1610.04574
[56] Sokolić,J。;Giryes,R。;萨皮罗,G。;罗德里格斯(Rodrigues,M.),鲁棒大边际深度神经网络,IEEE信号处理汇刊,65,16,4265-4280(2017)·Zbl 1414.68076号
[57] Soudry,D。;霍弗,E。;Nacson,M。;Gunasekar,S。;Srebro,N.,可分离数据梯度下降的隐含偏差,机器学习研究杂志(JMLR),19,1,2822-2878(2018)·Zbl 1477.62192号
[58] 魏,C。;Ma,T.,通过Lipschitz增强的深度神经网络的数据依赖样本复杂性(2019),arXiv预印本arXiv:1905.03684
[59] 徐,Z。;Zhang,Y。;罗,T。;Xiao,Y。;Ma,Z.,频率原理:傅里叶分析揭示了深层神经网络(2019),arXiv预印本arXiv:1901.06523
[60] 张,C。;本吉奥,S。;Hardt,M。;Recht,B。;Vinyals,O.,理解深度学习需要重新思考泛化(2016),arXiv预印本arXiv:1611.03530
[61] 张,C。;廖琦(Liao,Q.)。;Rakhlin,A。;米兰达,B。;北卡罗来纳州戈洛维奇。;Poggio,T.,深度学习理论IIb:SGD的优化特性(2018),arXiv预印本arXiv:1801.02254
[62] 周,W。;韦奇,V。;奥斯汀,M。;亚当斯,R。;Orbanz,P.,大规模深度学习中的可压缩性和泛化(2018),arXiv预印本arXiv:1804.05862
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。