×

关于全连通深度神经网络回归估计的收敛速度。 (英语) Zbl 1486.62112号

摘要:非参数回归的最新结果表明,深度学习,即具有许多隐藏层的神经网络估计,在对回归函数结构有适当限制的情况下,能够绕过所谓的维数灾难。这些结果中使用的神经网络的一个关键特征是,其网络结构还有一个约束,即网络稀疏性在本文中,我们证明了基于具有ReLU激活函数的简单全连接神经网络的最小二乘估计也可以得到类似的结果。这里,要么每个隐藏层的神经元数量是固定的,要么隐藏层的数量趋于无穷大,以适合样本大小趋于无穷大的速度,或者,隐藏层的数量受样本大小中的某些对数因子的限制,并且每个隐藏层的神经元数量随着样本大小的趋于无穷快而趋于无穷大。这一证明是基于深度神经网络的新近似结果。

MSC公司:

62G08号 非参数回归和分位数回归
6220国集团 非参数推理的渐近性质
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anthony,M.和Bartlett,P.L.(2009年)。神经网络学习:理论基础第1版,剑桥大学出版社,美国纽约州纽约市。
[2] Barron,A.R.(1991)。复杂度正则化及其在人工神经网络中的应用。非参数函数估计及其相关问题(斯佩特塞斯, 1990).北约高级科学。仪器序列号。C数学。物理学。科学。335 561-576. 多德雷赫特Kluwer学院·Zbl 0739.62001号
[3] Barron,A.R.(1993)。sigmoid函数叠加的通用近似界。IEEE传输。Inf.理论39 930-945. ·Zbl 0818.68126号 ·doi:10.1109/18.256500
[4] Barron,A.R.(1994)。人工神经网络的近似和估计界。机器。学习。14 115-133. ·Zbl 0818.68127号
[5] Bauer,B.和Kohler,M.(2019年)。深度学习作为非参数回归中维度诅咒的补救方法。安。统计师。47 2261-2285. ·兹比尔1421.62036 ·doi:10.1214/18-AOS1747
[6] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。模式识别的概率理论.数学应用(纽约) 31. 纽约州施普林格·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[7] Devroye,L.P.和Wagner,T.J.(1980)。无分布一致性导致非参数判别和回归函数估计。安。统计师。8 231-239. ·Zbl 0431.62025号
[8] Eldan,R.和Shamir,O.(2016)。前馈神经网络的深度能力。29年第十届学习理论年会(V.Feldman、A.Rakhlin和O.Shamir编辑)。程序。马赫学习。雷斯(PMLR公司) 49 907-940. PMLR公司。
[9] Evci,U.、Pedregosa,F.、Gomez,A.和Elsen,E.(2019)。训练稀疏神经网络的困难。CoRR,abs/1906.10732。
[10] Friedman,J.H.和Stuetzle,W.(1981年)。投影寻踪回归。J.Amer。统计师。协会。76 817-823.
[11] Grohs,P.、Perekrestenko,D.、Elbrächter,D.和Bölcskei,H.(2019年)。深度神经网络近似理论。IEEE传输。Inf.理论. ·Zbl 1473.68178号
[12] Györfi,L.、Kohler,M.、Krzyżak,A.和Walk,H.(2002)。非参数回归的无分布理论.统计学中的斯普林格系列纽约州施普林格·Zbl 1021.62024号 ·doi:10.1007/b97848
[13] Härdle,W.、Hall,P.和Ichimura,H.(1993)。单指数模型中的最优平滑。安。统计师。21 157-178. ·Zbl 0770.62049号 ·doi:10.1214/aos/1176349020
[14] Härdle,W.和Stoker,T.M.(1989)。用平均导数方法研究平滑多元回归。J.Amer。统计师。协会。84 986-995之间·Zbl 0703.62052号
[15] Haykin,S.(1998)。神经网络:综合基金会第二版,普伦蒂斯·霍尔PTR,美国新泽西州上鞍河。
[16] Hertz,J.、Krogh,A.和Palmer,R.G.(1991)。神经计算理论导论.圣达菲研究所复杂性科学研究。课堂讲稿,I加利福尼亚州红木市艾迪森·韦斯利,引言由杰克·考恩和克里斯托夫·科赫撰写。
[17] Horowitz,J.L.和Mammen,E.(2007年)。一类具有未知链接函数的非参数回归模型的比率最优估计。安。统计师。35 2589-2619. ·Zbl 1129.62034号 ·doi:10.1214/009053600700000415
[18] Imaizumi,M.和Fukumizu,K.(2019年)。深度神经网络有效地学习非光滑函数。程序。机器。学习。研究。89 869-878.
[19] Kohler,M.和Krzyżak,A.(2005)。采用多层前馈神经网络的自适应回归估计。J.非参数。斯达。17 891-913. ·Zbl 1121.62043号 ·doi:10.1080/10485250500309608
[20] Kohler,M.和Krzyżak,A.(2017年)。基于层次交互模型的非参数回归。IEEE传输。Inf.理论63 1620-1630. ·Zbl 1366.62082号 ·doi:10.1109/TIT.2016.2634401
[21] Kohler,M.和Langer,S.(2021年)。补充“关于全连通深度神经网络回归估计的收敛速度”https://doi.org/10.1214/20-AOS2034SUPA网站, https://doi.org/10.1214/20-AOS2034SUPPB网站
[22] Kong,E.和Xia,Y.(2007)。单指数模型的变量选择。生物计量学94 217-229. ·Zbl 1142.62353号 ·doi:10.1093/biomet/asm008
[23] Liu,Z.、Sun,M.、Zhou,T.、Huang,G.和Darrell,T.(2018)。重新思考网络修剪的价值。钴铬钴合金,abs/1810.05270。
[24] Lu,J.,Shen,Z.,Yang,H.和Zhang,S.(2020年)。光滑函数的深度网络近似。CoRR,arXiv:2001.03040·Zbl 07407717号
[25] McCaffrey,D.F.和Gallant,A.R.(1994)。单隐层前馈网络的收敛速度。神经网络。7 147-158·doi:10.1016/0893-6080(94)90063-9
[26] Mhaskar,H.N.和Poggio,T.(2016)。深度网络与浅层网络:近似理论视角。分析。应用程序(辛加普.) 14 829-848. ·Zbl 1355.68233号 ·doi:10.1142/S0219530516400042
[27] Ohn,I.和Kim,Y.(2019年)。用具有一般激活函数的深度神经网络进行光滑函数逼近。21第627号论文·doi:10.3390/e21070627
[28] Oono,K.和Suzuki,T.(2019年)。ResNet型卷积神经网络的近似和非参数估计。会议记录36第十届国际机器学习会议(K.Chaudhuri和R.Salakhutdinov编辑)97 4922-4931。程序。机器。学习。Res.(PMLR),美国加利福尼亚州长滩。
[29] Ripley,B.D.和Hjort,N.L.(1995年)。模式识别与神经网络第1版,剑桥大学出版社,美国纽约州纽约市。
[30] Schmidhuber,J.(2015)。神经网络中的深度学习:概述。神经网络。61 85-117. ·doi:10.1016/j.neunet.2014.09.003
[31] Schmidt-Hieber,J.(2020年)。使用ReLU激活函数的深度神经网络进行非参数回归。安。统计师。48 1875-1897. ·Zbl 1459.62059号 ·doi:10.1214/19-AOS1875
[32] Stone,C.J.(1982)。非参数回归的最优全局收敛速度。安。统计师。10 1040-1053. ·Zbl 0511.62048号
[33] Stone,C.J.(1985)。加性回归和其他非参数模型。安。统计师。13 689-705·Zbl 0605.62065号 ·doi:10.1214/aos/1176349548
[34] Stone,C.J.(1994)。多项式样条及其张量积在多元函数估计中的应用。安。统计师。22 118-184. Andreas Buja和Trevor Hastie进行了讨论,作者进行了反驳·兹伯利0827.62038 ·doi:10.1214/aos/1176325361
[35] 铃木,T.(2019)。深度ReLU网络在Besov和混合光滑Besov空间中学习的适应性:最优速率和维数诅咒。学习代表国际会议.
[36] Yarotsky,D.(2018)。用非常深的ReLU网络对连续函数进行最佳逼近。COLT公司75 639-649.
[37] Yarotsky,D.和Zhevnerchuk,A.(2019年)。深度神经网络近似率的相图。CoRR,abs/1906.09477。
[38] Yu,Y.和Ruppert,D.(2002)。部分线性单指标模型的惩罚样条估计。J.Amer。统计师。协会。97 1042-1054 ·Zbl 1045.62035号 ·doi:10.1198/016214502388618861
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。