×

用全连通深度神经网络估计流形上的回归函数。 (英语) 兹比尔1495.62031

小结:考虑从独立的同分布数据中估计回归函数。使用关于预测变量分布的积分的\(L_2\)误差作为误差准则。针对光滑回归函数,分析了基于ReLU激活函数的深度神经网络全连通空间的最小二乘估计的收敛速度。结果表明,当预测变量的分布集中在流形上时,这些估计的收敛速度取决于流形的维数而不是预测变量的分量数。

MSC公司:

62G08号 非参数回归和分位数回归
62G05型 非参数估计
6220国集团 非参数推理的渐近性质
2017年10月68日 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allen-Zhu,Z。;李毅。;Song,Z.,通过过度参数化实现深度学习的收敛理论,(ICML(2019)),242-252
[2] Arora,S。;杜,S.S。;胡,W。;李,Z。;Wang,R.,超参数双层神经网络优化和泛化的细粒度分析,(ICML(2019)),477-502
[3] Bagirov,A.M。;克劳森,C。;Kohler,M.,通过线性函数的极大极小值估计回归函数,IEEE Trans。《信息论》,55,2833-845(2009)·Zbl 1367.62085号
[4] Barron,A.,S形函数叠加的普遍逼近界,IEEE Trans。通知。理论,39,3,930-945(1993)·Zbl 0818.68126号
[5] Barron,A.R.,人工神经网络的近似和估计界,马赫数。学习。,14, 1, 115-133 (1994) ·Zbl 0818.68127号
[6] Bartlett,P.L。;北卡罗来纳州哈维。;Liaw,C。;Mehrabian,A.,分段线性神经网络的紧VC-维数界,JMLR,20,63,1-17(2019)·Zbl 1489.62302号
[7] Bauer,B。;Kohler,M.,《深度学习作为非参数回归中维度诅咒的补救方法》,《统计年鉴》。,47, 4, 2261-2285 (2019) ·兹比尔1421.62036
[8] 贝尔金,M。;Niyogi,P.,用于降维和数据表示的拉普拉斯特征映射,神经计算。,15, 6, 1373-1396 (2003) ·Zbl 1085.68119号
[9] Bickel,P.J。;Li,B.,未知流形上的局部多项式回归,(数学统计研究所讲稿-专题系列,第54卷(2007)),177-186
[10] A.布劳恩。;科勒,M。;Walk,H.,关于梯度下降学习的神经网络回归估计的收敛速度(2019),arXiv预印本arXiv:1912.03921
[11] Choromanska,A。;Henaff,M。;马修,M。;Arous,G。;LeCun,Y.,多层网络的损耗面,JMLR,38,192-204(2015)
[12] Chui,C.K。;Mhaskar,H.N.,用于局部流形学习的深度网络,前沿。申请。数学。统计,4(2018年)
[13] 科伊夫曼,R.R。;Lafon,S.,扩散图,应用。计算。哈蒙。分析。,21,1,5-30(2006),特刊:扩散图和小波·Zbl 1095.68094号
[14] Cover,T.M.,最近邻程序的收敛速度,(HICSS(1968)),413-415
[15] Cybenko,G.,通过sigmoid函数的叠加进行逼近,MCSS,2,4,303-314(1989)·Zbl 0679.94019号
[16] Dauphin,Y.N。;帕斯卡努,R。;古尔塞,C。;和苏里亚·甘古里,K.C。;Bengio,Y.,《识别和解决高维非凸优化中的鞍点问题》(Adv.Neural Inf.Process Syst.,Vol.2(2014)),2933-2941
[17] Daydov,O。;Schumaker,L.,使用投影Powell-Sabin样条在曲面上进行分散数据拟合,(Sabin,M.;Winkler,J.,《曲面数学XII.曲面数学XII》,《计算机科学讲义》,第4647卷(2007))·Zbl 1126.65012号
[18] 德夫罗耶,L.P。;Wagner,T.J.,《无分布一致性导致非参数判别和回归函数估计》,Ann.Statist。,8, 2, 231-239 (1980) ·Zbl 0431.62025号
[19] 杜,S。;Lee,J.,《关于二次激活神经网络中过参数化的威力》,(ICML,第80卷(2018)),1329-1338
[20] Eckle,K。;Schmidt-Hieber,J.,《深层网络与ReLU激活函数和线性样条方法的比较》,神经网络。,110, 232-242 (2019)
[21] Eldan,R。;Shamir,O.,《前馈神经网络的深度能力》,(Feldman,V.;Rakhlin,A.;Shamir
[22] 埃夫奇,美国。;佩德雷戈萨,F。;A.戈麦斯。;Elsen,E.,训练稀疏神经网络的困难(2019),arXiv预印本arXiv:1906.10732
[23] 法雷尔,M.H。;梁,T。;Misra,S.,用于估计和推断的深层神经网络,《计量经济学》,89,1,181-213(2021)·Zbl 1479.62082号
[24] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社,http://www.deeplearningbook.org ·Zbl 1373.68009号
[25] 格雷夫斯,A。;rahman Mohamed,A。;Hinton,G.E.,深度递归神经网络语音识别,(ICASSP(2013)),6645-6649
[26] Györfi,L。;科勒,M。;Krzyżak,A。;Walk,H.,(非参数回归的无分布理论。非参数回归无分布理论,统计学中的Springer级数(2002),Springer),I-XVI,1-647·Zbl 1021.62024号
[27] Hangelbroek,T。;Narcowich,F.J。;Ward,J.D.,流形上的多谐函数和相关核:插值和逼近,FOCM,12,625-670(2012)·Zbl 1259.41005号
[28] Imaizumi,M。;Fukumizu,K.,深度神经网络有效地学习非光滑函数,(AISTATS(2019))
[29] Kawaguchi,K.,《没有不良局部最低限度的深度学习》(Lee,D.D.;Sugiyama,M.;Luxburg,U.V.;Guyon,I.;Garnett,R.,《高级神经信息处理系统》,第29卷(2016),Curran Associates,Inc.),586-594
[30] Kohler,M.,自适应选择设计无噪声回归估计问题的最优全局收敛速度,J.多元分析。,132, 197-208 (2014) ·Zbl 1360.62177号
[31] 科勒,M。;Krzyżak,A.,基于层次交互模型的非参数回归,IEEE Trans。《信息理论》,63,3,1620-1630(2017)·Zbl 1366.62082号
[32] 科勒,M。;Langer,S.,关于全连通深度神经网络回归估计的收敛速度,Ann.Statist。,49, 4, 2231-2249 (2021) ·Zbl 1486.62112号
[33] 科勒,M。;兰格,S。;Krzyżak,A.,深度神经网络对低局部维数函数的估计(2020),arXiv预印本arXiv:1908.11140
[34] Kpotufe,S.,K-NN回归适应局部内在维度,(Shawe-Taylor,J.;Zemel,R.S.;Bartlett,P.L.;Pereira,F.;Weinberger,K.Q.,《高级神经信息处理系统》,第24卷(2011),Curran Associates,Inc.),729-737
[35] Kpotufe,S.公司。;Garg,V.,《核回归中对局部光滑性和维数的适应性》,(Burges,C.J.C.;Bottou,L.;Welling,M.;Ghahramani,Z.;Weinberger,K.Q.,《高级神经信息处理系统》,第26卷(2013))
[36] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,用深度卷积神经网络进行ImageNet分类,Commun。ACM,60,6,84-90(2017)
[37] Langer,S.,用光滑激活函数分析全连通深度神经网络回归估计的收敛速度,J.多元分析。,182, 104695 (2021) ·Zbl 1460.62159号
[38] Langer,S.,用带S形激活函数的深度神经网络逼近光滑函数,《多元分析杂志》。,182,第104696条pp.(2021)·Zbl 1456.41005号
[39] 莱曼,N。;迈尔,L.-B。;Odathuparambil,S。;Reif,U.,超曲面上的环境近似,Constr。约49175-190(2019)·Zbl 1407.41006号
[40] 李毅。;Liang,Y.,通过结构化数据的随机梯度下降学习超参数神经网络,(NeurIPS,第31卷(2018))
[41] 刘,Z。;Sun,M。;周,T。;黄,G。;Darrell,T.,《重新思考网络修剪的价值》(ICLR(2019))
[42] 卢,J。;沈,Z。;Yang,H。;Zhang,S.,光滑函数的深度网络近似,SIAM J.Math。分析。,53, 5, 5465-5506 (2021) ·Zbl 07407717号
[43] Mhaskar,H.,流形上函数逼近的Eignets,应用。计算。哈蒙。分析。,29, 1, 63-87 (2010) ·Zbl 1201.41003号
[44] 哈斯卡,H。;Poggio,T.A.,深度与浅层网络:近似理论视角,分析。申请。,14 (2016) ·Zbl 1355.68233号
[45] Montufar,G.,离散单元窄信念网络的通用近似深度和误差,神经计算。,26, 1386-1407 (2014) ·Zbl 1419.62014号
[46] 中田,R。;Imaizumi,M.,深度神经网络对固有维数的自适应逼近和估计,J.Mach。学习。研究,21,1-38(2020)·Zbl 1525.68135号
[47] 宾夕法尼亚州。;Bahri,Y.,《基于随机矩阵理论的神经网络损失曲面几何》,(ICML,第70卷(2017)),2798-2806
[48] Poggio,T。;班伯斯基,A。;廖琦,深度网络理论问题,美国国家科学院;程序。国家。阿卡德。科学。(2020) ·Zbl 1485.68235号
[49] Schmidt-Hieber,J.,流形上函数的深度ReLU网络近似(2019),arXiv:1908.00695
[50] Schmidt-Hieber,J.,使用具有相关激活函数的深度神经网络的非参数回归,Ann.Statist。,48, 4, 1875-1897 (2020) ·Zbl 1459.62059号
[51] 西尔弗·D。;黄,A。;Maddison,C.J。;A.盖兹。;Sifre,L。;van den Driessche,G。;Schrittwieser,J。;安东尼奥卢,I。;Panneershelvam,V。;Lanctot,M.,《掌握深度神经网络和树搜索的游戏》,《自然》,529,7587,484-489(2016)
[52] Singer,A.,《从图到流形Laplacian:收敛速度》,应用。计算。哈蒙。分析。,2128-134(2006),特刊:扩散图和小波·Zbl 1095.68102号
[53] Stone,C.J.,非参数回归的最优全局收敛速度,Ann.Statist。,10, 4, 1040-1053 (1982) ·Zbl 0511.62048号
[54] 铃木,T.,(Storkey,A.;Perez-Cruz,F.,《从核心角度看深度学习的快速泛化误差界限》,《从内核角度看深度教学的快速泛型误差界限》(PMLR),第84卷(2018年),PMLR:PMLR Playa Blanca,Lanzarote,Canary Islands),1397-1406
[55] 铃木,T.,深度ReLU网络在Besov和混合光滑Besov空间中学习的适应性:最优速率和维数诅咒,(ICML(2019))
[56] 铃木,T。;Nitanda,A.,深度学习适用于各向异性Besov空间中模型平滑的内在维数,(Beygelzimer,A.;Dauphin,Y.;Liang,P.;Vaughan,J.W.,Adv.Neural Inf.Process System(2021))
[57] Tenenbaum,J.B。;席尔瓦,V。;Langford,J.C.,《非线性降维的全球几何框架》,《科学》,29055002319-2323(2000)
[58] 杨,Y。;邓森,D.B.,贝叶斯流形回归,Ann.Statist。,44, 2, 876-905 (2016) ·Zbl 1341.62196号
[59] Yarotsky,D.,深度ReLU网络近似的误差界,神经网络。,94103-114(2017)·Zbl 1429.68260号
[60] 雅罗斯基,D。;Zhevnerchuk,A.,《深度神经网络近似速率的相图》,(Larochelle,H.;Ranzato,M.;Hadsell,R.;Balcan,M.F.;Lin,H,《高级神经信息处理系统》,第33卷(2020年),Curran Associates,Inc.),13005-13015
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。