×

深度神经网络训练的全面误差分析。 (英语) Zbl 1492.65132号

摘要:近年来,深度学习算法已成功应用于经典解决方案无法解决的一系列问题。然而,没有完全严格的数学误差和收敛性分析来解释深度学习算法的成功。在许多情况下,深度学习算法的误差可以分解为三个部分:近似误差、泛化误差和优化误差。在这项工作中,我们估计了某个深度学习算法的这三个误差中的每一个,并将这三个估计值结合起来,以获得对所考虑的深度学习算法进行的总体误差分析。特别地,我们因此以适当的收敛速度为所考虑的深度学习算法的总体误差建立收敛。我们的收敛速度分析远不是最优的,而且我们建立的收敛速度相当慢,在维数上呈指数增长,特别是受到维数诅咒的影响。相反,这项工作的主要贡献是提供完整的错误分析(i),其中涵盖了深度学习算法中通常出现的三种不同错误源中的每一种,以及(ii)将这三种错误源合并为所考虑的深度学习算法的一个总体错误估计。

MSC公司:

65G99型 误差分析和区间分析
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allen-Zhu,Z.,Li,Y.和Liang,Y..,超参数神经网络的学习和泛化,超越两层,Proc。第33届国际会议神经信息处理系统(Curran Associates Inc.,Red Hook,NY,USA,2019)。
[2] Allen-Zhu,Z.,Li,Y.和Song,Z.《通过过度参数化进行深度学习的收敛理论》,Proc。第36届国际计算机学习会议,编辑:Chaudhuri,K.和Salakhutdinov,R.,第97卷(PMLR,2019年6月9日至15日),第242-252页。
[3] 巴赫,F.,用凸神经网络打破维度诅咒,J.马赫。学习。第18(19)号决议(2017)1-53·Zbl 1433.68390号
[4] Bach,F.和Moulines,E.,具有收敛速度的非严格凸光滑随机逼近,Proc。第26届国际神经信息处理系统会议,NIPS’13(Curran Associates Inc.,美国,2013),第773-781页。
[5] Barron,A.R.,σ函数叠加的通用近似界,IEEE Trans。通知。Theory39(3)(1993)930-945·Zbl 0818.68126号
[6] Barron,A.R.,人工神经网络的近似和估计界,马赫数。学习.14(1)(1994)115-133·Zbl 0818.68127号
[7] Bartlett,P.L.、Bousquet,O.和Mendelson,S.,《局部拉德马赫复杂性》,《统计年鉴》33(4)(2005)1497-1537·Zbl 1083.62034号
[8] C.Beck、S.Becker、P.Grohs、N.Jaafari和A.Jentzen,通过深度学习解决Kolmogorov PDE,(2018)56页,arXiv:1806.00421·Zbl 1490.65006号
[9] Beck,C.、Becker,S.、Grohs,P.、Jaafari,N.和Jentzen,A.,通过深度学习解决Kolmogorov PDE,科学杂志。计算88(73)(2021)28页·Zbl 1490.65006号
[10] Beck,C.,E,W.和Jentzen,A.,高维全非线性偏微分方程和二阶后向随机微分方程的机器学习近似算法,J.nonlinear Sci.29(4)(2019)1563-1619·Zbl 1442.91116号
[11] R.Bellman,《动态编程》,普林斯顿数学地标(普林斯顿大学出版社,新泽西州普林斯顿,2010年)。重印1957年版·Zbl 1205.90002
[12] Bercu,B.和Fort,J.-C.,《通用随机梯度法》,《威利运筹学与管理科学百科全书》(2011),8页。
[13] Berner,J.,Grohs,P.和Jentzen,A.,泛化误差分析:深度人工神经网络上的经验风险最小化克服了Black-Scholes偏微分方程数值近似中的维数诅咒,SIAM J.Math。数据科学2(3)(2020)631-657·Zbl 1480.60191号
[14] Blum,E.K.和Li,L.K.,近似理论和前馈网络,神经网络4(4)(1991)511-515。
[15] Bölcskei,H.、Grohs,P.、Kutyniok,G.和Petersen,P.,《稀疏连接深层神经网络的最佳逼近》,SIAM J.Math。《数据科学》1(1)(2019)8-45·Zbl 1499.41029号
[16] Bottou,L.和Bousquet,O.,《大规模学习的权衡》,Proc。第20届国际会议神经信息处理系统,NIPS’07(Curran Associates Inc.,Red Hook,NY,USA,2007),第161-168页。
[17] Burger,M.和Neubauer,A.,神经网络近似的误差界,J.近似理论112(2)(2001)235-250·Zbl 1004.41007号
[18] E.J.Candes,《Ridgelets:理论与应用》,斯坦福大学博士论文(1998年)。
[19] 新罕布什尔州。Moulines,M.Rásonyi,S.Sabanis和Y.Zhang,《依赖数据流的随机梯度Langevin动力学:完全非凸情况》,(2019)27页,arXiv:1905.13142·Zbl 07419554号
[20] Chen,T.和Chen,H.,径向基函数神经网络对多变量函数、非线性泛函和算子的逼近能力,IEEE Trans。神经网络6(4)(1995)904-910。
[21] Cheridito,P.,Jentzen,A.,Riekert,A.和Rossmannek,F.,恒定目标函数人工神经网络训练中梯度下降收敛性的证明,J.Complexity(2022)101646·Zbl 1502.65037号
[22] Chizat,L.和Bach,F.,关于使用最优传输的过度参数化模型的梯度下降的全局收敛,《神经信息处理系统进展》(NeurIPS 2018)(2018)32页。
[23] Chui,C.K.,Li,X.和Mhaskar,H.N.,局部近似的神经网络,数学。《比较》第63卷(208页)(1994年)第607-623页·Zbl 0806.41020号
[24] Cucker,F.和Smale,S.,《关于学习的数学基础》,Bull。阿默尔。数学。Soc.(N.S.)39(1)(2002)1-49·Zbl 0983.68162号
[25] Cybenko,G.,通过sigmoid函数的叠加进行逼近,数学。控制信号系统2(4)(1989)303-314·Zbl 0679.94019号
[26] Dereich,S.和Müller-Gronbach,T.,Robbins-Monro和Polyak-Ruppert型随机近似算法的一般多级自适应,数值。数学142(2)(2019)279-328·Zbl 1464.62366号
[27] DeVore,R.A.、Oskolkov,K.I.和Petrushev,P.P.,前馈神经网络逼近,P.L.Chebyshev:纪念T.J.Rivlin 70岁生日的节日,第4卷(Baltzer Science Publishers BV,阿姆斯特丹,1997),第261-287页·Zbl 0884.41012号
[28] Du,S.S.,Lee,J.D.,Li,H.,Wang,L.和Zhai,X.,梯度下降在Proc。第36届国际计算机学习会议,编辑:Chaudhuri,K.和Salakhutdinov,R.,第97卷(PMLR,2019年6月9日至15日),第1675-1685页。
[29] S.S.Du,X.Zhai,B.Poczos和A.Singh,梯度下降在参数化神经网络上可证明优化,(2019)19页,arXiv:11810.02054。
[30] E、 W.,Ma,C.和Wu,L.,梯度下降动力学下两层神经网络和随机特征模型的优化和泛化特性的比较分析,科学。《中国数学》63(7)(2020)1235-1258·Zbl 1453.68163号
[31] E、 W.和Wang,Q.,解析函数深度神经网络逼近的指数收敛性,科学。中国数学61(2018)1733-1740·Zbl 1475.65007号
[32] Elbrächter,D.、Grohs,P.、Jentzen,A.和Schwab,C.,《高维PDE的DNN表达率分析:期权定价应用》,Constr。约为55(2022)3-71·Zbl 1500.35009
[33] Eldan,R.和Shamir,O.,《前馈神经网络的深度力量》,第29届年度Conf.学习理论,eds.Feldman,V.,Rakhlin,A.和Shamir-O.,第49卷(PMLR,美国纽约哥伦比亚大学,2016年6月23日至26日),第907-940页。
[34] Ellacott,S.W.,《神经网络数值分析方面》,《数值学报》,1994年,《数值杂志》。(剑桥大学出版社,剑桥,1994年),第145-202页·Zbl 0807.65007号
[35] Fehrman,B.,Gess,B.和Jentzen,A.,非凸目标函数随机梯度下降法的收敛速度,J.Mach。学习。第21(136)号决议(2020)1-48·Zbl 1520.68143号
[36] Funahashi,K.-I.,《关于用神经网络近似实现连续映射》,《神经网络》2(3)(1989)183-192。
[37] Goodfellow,I.、Bengio,Y.和Courville,A.,《深度学习》(麻省理工学院出版社,马萨诸塞州剑桥,2016)·Zbl 1373.68009号
[38] Gribonval,R.,Kutyniok,G.,Nielsen,M.和Voigtlaender,F.,深度神经网络的近似空间,Constr。约55(2022)259-367·Zbl 1491.82017年
[39] P.Grohs、F.Hornung、A.Jentzen和P.von Wurstemberger,人工神经网络在Black-Scholes偏微分方程数值逼近中克服维数灾难的证明,出现在Mem中。阿默尔。数学。Soc.,arXiv:1809.02362。
[40] P.Grohs、F.Hornung、A.Jentzen和P.Zimmermann,微分方程深度神经网络近似的时空误差估计,(2019)86页,arXiv:1908.03833。
[41] P.Grohs、S.Ibragimov、A.Jentzen和S.Koppensteiner,人工神经网络近似的下限:浅层神经网络无法克服维数灾难的证明,(2021)53页,arXiv:2103.04488。
[42] P.Grohs、A.Jentzen和D.Salimova,Monte Carlo算法的深度神经网络近似,将出现在SN Partial Differ中。埃克。申请。,arXiv:1908.10828。
[43] Grohs,P.、Perekrestenko,D.、Elbrächter,D.和Bölcskei,H.,深度神经网络近似理论,IEEE Trans。《信息论》67(5)(2021)2581-2623·Zbl 1473.68178号
[44] Gühring,I.,Kutyniok,G.和Petersen,P.,(W^{s,P})范数中深度ReLU神经网络近似的误差界,Anal。申请。(新加坡)18(5)(2020)803-859·Zbl 1452.41009号
[45] Guliyev,N.J.和Ismailov,V.E.,具有固定权重的两个隐层前馈神经网络的逼近能力,神经计算316(2018)262-269。
[46] Guliyev,N.J.和Ismailov,V.E.,《关于用固定权重的单隐层前馈神经网络进行逼近》,《神经网络》98(2018)296-304·Zbl 1437.68062号
[47] Györfi,L.、Kohler,M.、Krzyżak,A.和Walk,H.,《非参数回归的无分布理论》(Springer-Verlag,纽约,2002)·Zbl 1021.62024号
[48] Hartman,E.J.、Keeler,J.D.和Kowalski,J.M.,以高斯隐单元作为通用近似的分层神经网络,神经计算2(2)(1990)210-215。
[49] Hoeffing,W.,有界随机变量和的概率不等式,J.Amer。统计师。协会58(301)(1963)13-30·Zbl 0127.10602号
[50] Hornik,K.,多层前馈网络的近似能力,神经网络4(2)(1991)251-257。
[51] Hornik,K.,关于神经网络近似的一些新结果,神经网络6(8)(1993)1069-1072。
[52] Hornik,K.,Stinchcombe,M.和White,H.,多层前馈网络是通用逼近器,神经网络2(5)(1989)359-366·Zbl 1383.92015年
[53] Hornik,K.,Stinchcombe,M.和White,H.,使用多层前馈网络对未知映射及其导数的通用近似,神经网络3(5)(1990)551-560。
[54] Huré,C.,Pham,H.,Bachouch,A.和Langrené,N.,有限时域随机控制问题的深度神经网络算法:收敛分析,SIAM J.Numer。分析59(1)(2021)525-557·Zbl 1466.65007号
[55] Hutzenthaler,M.,Jentzen,A.,Kruse,T.和Nguyen,T.A.,一个证明,在半线性热方程的数值近似中,修正的深度神经网络克服了维数灾难,SN偏微分。埃克。申请1(2020)1-34·Zbl 1455.65200元
[56] A.Jentzen和T.Kröger,带偏差的超参数人工神经网络训练中梯度下降的收敛速度,(2021)38页,arXiv:2102.11840。
[57] Jentzen,A.、Kuckuck,B.、Neufeld,A.和von Wursemberger,P.,随机梯度下降优化算法的强误差分析,IMA J.Numer。分析41(1)(2021)455-492·Zbl 1460.65071号
[58] A.Jentzen和A.Riekert,《通过随机初始化训练人工神经网络的强总体误差分析》,(2020)40页,arXiv:2012.08443。
[59] A.Jentzen和A.Riekert,恒定目标函数ReLU激活的人工神经网络训练中随机梯度下降收敛性的证明,(2021)29页,arXiv:2104.00277。
[60] A.Jentzen和A.Riekert,分段线性目标函数ReLU激活神经网络训练中随机初始化梯度下降优化方法的收敛性证明,(2021)44页,arXiv:2108.04620。
[61] Jentzen,A.、Salimova,D.和Welti,T.,深度人工神经网络在具有常数扩散和非线性漂移系数的Kolmogorov偏微分方程的数值逼近中克服维数灾难的证明,Commun。数学。科学19(5)(2021)1167-1205·Zbl 1475.65157号
[62] Jentzen,A.和von Wurstemberger,P.,随机梯度下降优化算法的误差下限:慢速和快速衰减学习率的快速收敛率,J.Complexity57(2020)101438,16·Zbl 1433.68353号
[63] A.Jentzen和T.Welti,通过随机初始化的随机梯度下降训练深层神经网络的总体误差分析,(2020)51页,arXiv:1910.00121。
[64] Karimi,B.,Miasojedow,B.,Moulines,E.和Wai,H.-T.,有偏随机近似方案的非症状分析,Proc。《第三十二次冲突学习理论》,编辑:Beygelzimer,A.和Hsu,D.,第99卷,2019年6月25日至28日,美国凤凰城,第1944-1974页。
[65] Kutyniok,G.,Petersen,P.,Raslan,M.和Schneider,R.,深度神经网络和参数PDE的理论分析,Constr。约为55(2022)73-125·Zbl 07493717号
[66] Lei,Y.,Hu,T.,Li,G.和Tang,K.,无边界梯度假设非凸学习的随机梯度下降,IEEE Trans。神经网络。学习。系统31(10)(2020)4394-4400。
[67] Leshno,M.、Lin,V.Y.、Pinkus,A.和Schocken,S.,具有非多项式激活函数的多层前馈网络可以近似任何函数,《神经网络》6(6)(1993)861-867。
[68] Maggi,F.,《有限周长和几何变分问题集》,第135卷,(剑桥大学出版社,剑桥,2012年)·Zbl 1255.49074号
[69] P.Massart,《集中不等式与模型选择》,第1896卷,数学课堂讲稿(Springer,柏林,2007)。2003年7月6日至23日在圣弗洛尔举行的第33届概率论暑期学校讲座。
[70] Mhaskar,H.N.和Micchelli,C.A.,具有单个隐藏层的神经网络和翻译网络的近似度,应用中的高级。数学16(2)(1995)151-183·Zbl 0885.42012号
[71] Mhaskar,H.N.和Poggio,T.,《深层网络与浅层网络:近似理论视角》,Ana。申请。(新加坡)14(6)(2016)829-848·兹比尔1355.68233
[72] Mhaskar,H.N.,平滑函数和解析函数最佳逼近的神经网络,神经计算,8(1)(1996)164-177。
[73] Moulines,E.和Bach,F.,《机器学习随机近似算法的非症状分析》,《神经信息处理系统进展》,编辑:Shawe-Taylor,J.、Zemel,R.、Bartlett,P.、Pereira,F.和Weinberger,K.Q.,第24卷(Curran Associates,Inc.,2011),第451-459页。
[74] Nguyen-Thien,T.和Tran-Cong,T.,《函数及其导数的近似:神经网络实现及其应用》,应用。数学。模型23(9)(1999)687-704·Zbl 0939.65027号
[75] Novak,E.和Woźniakowski,H.,多元问题的可拓性。第1卷:线性信息,第6卷,(欧洲数学学会(EMS),苏黎世,2008)·Zbl 1156.65001号
[76] Novak,E.和Woźniakowski,H.,多元问题的可拓性。第二卷:函数的标准信息,第12卷,(欧洲数学学会(EMS),苏黎世,2010)·Zbl 1241.65025号
[77] Park,J.和Sandberg,I.W.,《使用径向基函数网络的通用近似》,神经计算3(2)(1991)246-257。
[78] D.Perekrestenko、P.Grohs、D.Elbrächter和H.Bölcskei,有限宽深ReLU网络的通用逼近能力,(2018)16页,arXiv:1806.01528·Zbl 1473.68178号
[79] Petersen,P.,Raslan,M.和Voigtlaender,F.,由固定大小的神经网络生成的函数集的拓扑性质,Found。计算。数学21(2021)375-444·Zbl 1516.68082号
[80] Petersen,P.和Voigtlaender,F.,使用深度ReLU神经网络的分段光滑函数的最佳逼近,神经网络108(2018)296-330·兹伯利1434.68516
[81] Petersen,P.和Voigtlaender,F.,卷积神经网络和全连通网络近似的等效性,Proc。阿默尔。数学。Soc.148(4)(2020)1567-1581·Zbl 07176144号
[82] Pinkus,A.,《神经网络中MLP模型的近似理论》,《数值学报》,1999年。,第8卷(剑桥大学出版社,剑桥,1999年),第143-195页·Zbl 0959.68109号
[83] Reisinger,C.和Zhang,Y.,矫正深度神经网络克服了非线性刚性系统零和博弈中非光滑值函数的维数灾难,Ana。申请。(新加坡)18(6)(2020)951-999·Zbl 1456.82804号
[84] Schmitt,M.,用sigmoid神经网络逼近连续函数复杂性的下限,《第12届神经信息处理系统国际会议论文集》,NIPS’99,(麻省理工学院出版社,马萨诸塞州剑桥,美国,1999),第328-334页。
[85] Schwab,C.和Zech,J.,《高维深度学习:UQ中广义多项式混沌展开的神经网络表达率》,Anal。申请。(新加坡)17(1)(2019)19-55·Zbl 1478.68309号
[86] Shaham,U.,Cloninger,A.和Coifman,R.R.,深度神经网络的可证明近似性质,应用。计算。哈蒙。分析44(3)(2018)537-557·Zbl 1390.68553号
[87] Shalev-Shwartz,S.和Ben-David,S.,《理解机器学习:从理论到算法》(剑桥大学出版社,剑桥,2014)·Zbl 1305.68005号
[88] Shen,Z.,Yang,H.和Zhang,S.,《通过成分进行非线性逼近》,《神经网络》119(2019)74-84·兹比尔1475.41013
[89] Shen,Z.,Yang,H.和Zhang,S.,以神经元数量为特征的深网络近似,Commun。计算。《物理学》28(5)(2020)1768-1811·Zbl 1507.68276号
[90] van de Geer,S.A.,《经验过程理论的应用》,第6卷(剑桥大学出版社,剑桥,2000年)·Zbl 0953.62049号
[91] Voigtlaender,F.和Petersen,P.,《用深度ReLU神经网络逼近(L^P(\mu))》,2019年第13届国际竞争抽样理论与应用(SampTA),2019,4页。
[92] Yarotsky,D.,深度ReLU网络近似的误差界,《神经网络》94(2017)103-114·Zbl 1429.68260号
[93] Yarotsky,D.,神经网络对不变映射的通用近似,Constr。约为55(2022)407-474·Zbl 1505.41019号
[94] Zou,D.,Cao,Y.,Zhou,D.和Gu,Q.,梯度下降优化了过度参数化的深层ReLU网络,Mach。《学习》109(2020)467-492·Zbl 1494.68245号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。