×

深度学习机制分析:泛化误差视角。 (日语。英文摘要) Zbl 07387621号

小结:在本文中,我们讨论了泛化错误理论,它解释了深度学习的原理。深度学习是一种利用多层神经网络作为模型的统计方法,由于其高性能而备受关注。尽管它在经验上取得了成功,但由于多层模型的结构复杂,对其高性能机制的理解仍然是一个发展中的问题。本文着重于描述性能原理的几次尝试,特别关注神经网络模型的近似误差和学习过程的复杂性误差。此外,我们还讨论了深度学习原理的几个已阐明和未解释的部分。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Allen-Zhu,Z.,Li,Y.和Liang,Y..(2019a)。超参数神经网络中的学习和泛化,超越两层,神经信息处理系统进展,32,6158-6169。
[2] Allen-Zh,Li,Y.和Song,Z.(2019b)。通过过度参数化进行深度学习的收敛理论,机器学习国际会议,PMLR 97,242-252。
[3] Anthony,M.和Bartlett,P.L.(2009年)。《神经网络学习:理论基础》,剑桥大学出版社·Zbl 0968.68126号
[4] Ba,J.、Erdogdu,M.、Suzuki,T.、Wu,D.和Zhang,T.(2019年)。二层神经网络的泛化:渐近观点,国际学习表征会议,https://openreview.net/pdf?id=H1gBsgBYwH。
[5] Bartlett,P.L.、Foster,D.J.和Telgarsky,M.J.(2017年)。神经网络的谱规范化边界,神经信息处理系统进展,30,6240-6249。
[6] Belkin,M.、Hsu,D.、Ma,S.和Mandal,S.(2019年)。《调和现代机器学习实践与经典偏差-方差权衡》,《美国国家科学院院刊》,11615849-15854·Zbl 1433.68325号
[7] Cybenko,G.(1989)。西格玛函数叠加逼近,控制数学,信号与系统,2303-314·Zbl 0679.94019号
[8] Dinh,L.、Pascanu,R.、Bengio,S.、Benjio,Y.(2017年)。Sharp minima可以推广到深网,机器学习国际会议,PMLR,701019-1028。
[9] Dobriban,E.和Wager,S.(2018年)。预测的高维渐近性:岭回归和分类,统计年鉴,46247-279·Zbl 1428.62307号
[10] Donsker,M.D.和Varadhan,S.S.(1975年)。大时间内某些马尔可夫过程期望的渐近评估,i,《纯粹数学与应用数学交流》,28,1-47·Zbl 0323.60069号
[11] Frankle,J.和Carbin,M.(2019)。彩票假设:寻找稀疏、可训练的神经网络,学习表征国际会议,https://openreview.net/pdf?id=rJl-b3RcF7。
[12] Golowich,N.、Rakhlin,A.和Shamir,O.(2018年)。神经网络的尺寸依赖样本复杂性,学习理论会议,PMLR 75,297-299·Zbl 1528.68354号
[13] Hardt,M.、Recht,B.和Singer,Y.(2016年)。训练更快,概括更好:随机梯度下降的稳定性,机器学习国际会议,PMLR 481225-1234。
[14] Hastie,T.、Montanari,A.、Rosset,S.和Tibshirani,R.J.(2019年)。高维无脊最小二乘插值的惊喜,arXiv预印arXiv:1903.08560。
[15] Imaizumi,M.和Fukumizu,K.(2019)。深度神经网络有效学习非光滑函数,《人工智能与统计》,PMLR 89,869-878。
[16] Imaizumi,M.和Fukumizu,K.(2020年)。深度神经网络在估计曲线上具有奇异性的函数方面的优势,arXiv预印本arXiv:2011.02256。
[17] Jacot,A.、Gabriel,F.和Hongler,C.(2018年)。神经切线核:神经网络中的收敛和泛化,神经信息处理系统进展,318571-8580。
[18] Jiang,Y.、Neyshabur,B.、Mobahi,H.、Krishnan,D.和Bengio,S.(2019年)。神奇的泛化措施以及在哪里可以找到它们,国际学习代表大会,https://openreview.net/pdf?id=SJgIPJBFvH。
[19] Keskar,N.S.、Nocedal,J.、Tang,P.T.P.、Mudigere,D.和Smelyanskiy,M.(2019年)。《关于深度学习的大背训练:泛化差距和极小化》,学习代表国际会议,https://openreview.net/pdf?id=H1oyRlYgg。
[20] Korostelev,A.P.和Tsybakov,A.B.(2012)。Minimax图像重建理论,Springer科学与商业媒体·Zbl 0833.62039号
[21] Kpotufe,S.和Garg,V.(2013年)。核回归中对局部光滑性和维数的适应性,神经信息处理系统进展,263075-3083。
[22] Krizhevsky,A.(2009)。从微小图像中学习多层特征,https://www.cs.toronto.edu/kriz/learning-features-2009-TR.pdf。
[23] Krogh,A.和Hertz,J.A.(1992年)。简单的权重衰减可以提高泛化能力,《神经信息处理系统进展》,4950-957。
[24] LeCun,Y.、Bengio,Y.和Hinton,G.(2015)。深度学习,《自然》,521436-444。
[25] Leshno,M.、Lin,V.Y.、Pinkus,A.和Schocken,S.(1993年)。具有非多项式激活函数的多层前馈网络可以近似任何函数,神经网络,6861-867。
[26] Marčenko,V.A.和Pastur,L.A.(1967年)。一些随机矩阵集的特征值分布,苏联斯博尼克数学,1457-483·兹比尔0162.22501
[27] McAllester,D.A.(1999)。一些PAC-Baysian定理,机器学习,37,355-363·Zbl 0945.68157号
[28] Mei,S.和Montanari,A.(2019年)。随机特征回归的泛化误差:精确渐近和双下降曲线,arXiv预印arXiv:1908.05355。
[29] Mei,S.、Montanari,A.和Nguyen,P.-M.(2018年)。两层神经网络景观的平均视野,《美国国家科学院院刊》,115,E7665-E7671·Zbl 1416.92014号
[30] Mohri,M.、Rostamizadeh,A.和Talwalkar,A.(2018年)。《机器学习基础》,麻省理工出版社·兹比尔1407.68007
[31] Molchanov,P.、Tyrie,S.、Karras,T.、Aila,T.和Kautz,J.(2016)。修剪卷积神经网络进行资源高效推理,国际学习表征会议,https://openreview.net/pdf?id=SJGCiw5gl。
[32] Nagarajan,V.和Kolter,J.Z.(2019年)。一致收敛可能无法解释深度学习中的泛化,《神经信息处理系统进展》,32,11611-11622。
[33] Nakada,R.和Imaizumi,M.(2020年)。具有内在维数的深度神经网络的自适应逼近和泛化,《机器学习研究杂志》,21,1-38·Zbl 1525.68135号
[34] Nakkiran,P.、Kaplun,G.、Bansal,Y.、Yang,T.、Barak,B.和Sutskever,I.(2019年)。深度双重下降:更大的模型和更多的数据伤害了哪里,国际学习代表大会,https://openreview.net/pdf?id=B1g5sA4twr。
[35] Neyshabur,B.、Tomioka,R.和Srebro,N.(2015)。神经网络中基于规范的能力控制,学习理论会议,PMLR 40,1376-1401。
[36] Neyshabur,B.、Bhojanapalli,S.、McAllester,D.和Srebro,N.(2017年)。探索深度学习中的泛化,神经信息处理系统进展,305947-5956。
[37] Raginsky,M.、Rakhlin,A.和Telgarsky,M..(2017年)。通过随机梯度langevin动力学的非凸学习:一种非共鸣分析,学习理论会议,PMLR 651674-1703。
[38] Schmidt-Hieber,J.(2020年)。使用具有ReLU激活函数的深度神经网络进行非参数回归,《统计年鉴》,481875-1897·Zbl 1459.62059号
[39] Stone,C.J.(1980)。非参数估计量的最优收敛速度,《统计年鉴》,8(6),1348-1360·Zbl 0451.62033号
[40] 铃木,T.(2019)。深度ReLU网络在Besov和混合光滑Besov空间中学习的适应性:最优速率和维数诅咒,学习表示国际会议,https://openreview.net/pdf?id=H1ebTsActm。
[41] Tan,M.和Le,Q.(2019年)。Efficientnet:卷积神经网络模型缩放的再思考,机器学习国际会议,PMLR 97,6105-6114。
[42] Tsybakov,A.B.(2008)。非参数估计导论,施普林格科学与商业媒体·Zbl 1176.62032号
[43] van der Vaart,A.W.和Wellner,J.A.(1996)。弱收敛和经验过程,Springer·Zbl 0862.60002号
[44] Wasserman,L.(2006)。所有非参数统计,施普林格科学与商业媒体·Zbl 1099.62029号
[45] Yang,Y.和Dunson,D.B.(2016)。贝叶斯流形回归,统计年鉴,44876-905·Zbl 1341.62196号
[46] Yarotsky,D.(2017)。深度ReLU网络近似的误差界,神经网络,94103-114·Zbl 1429.68260号
[47] Zhang,C.、Bengio,S.、Hardt,M.、Recht,B.和Vinyals,O.(2017)。理解深度学习需要重新思考泛化,学习代表国际会议,https://openreview.net/pdf?id=Sy8gdB9xx。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。