×

使用深度ReLU神经网络优化逼近分段光滑函数。 (英语) Zbl 1434.68516号

小结:我们研究了ReLU神经网络在深度和权重数方面的必要性和充分复杂性,这是在L^p意义上近似分类器函数所必需的。
作为一个模型类,我们考虑可能不连续的分段(C^\beta)函数的集合\(\mathcal{E}^\beta(\mathbb{R}^d)\(f:[-\frac{1}{2},\frac{1}{2}]^d\rightarrow\mathbb{R}\),其中\(f\)的不同“光滑区域”由\(C^\beta)超曲面分隔。对于给定的维数(d\geq2)、正则性(beta>0)和准确性(varepsilon>0),我们用ReLU激活函数构造了人工神经网络,其函数近似于从(mathcal{E}^β(mathbb{R}^d)到(varepsilon)的(L^2)误差。所构建的网络具有固定数量的层,仅取决于(d)和(β),并且它们具有(mathcal{O}(varepsilon^{-2(d-1)/\beta})许多非零权重,我们证明这是最优的。为了证明最优性,我们建立了类(mathcal{E}^beta(mathbb{R}^d))的描述复杂度的下界。通过证明一系列近似神经网络产生了一个用于(mathcal{E}^beta(mathbb{R}^d))的编码器,然后我们证明了不能使用比我们构造的神经网络更简单的神经网络来近似一般函数(f\inmathcal}E}^beta(mathbb{R{d))。除了在权重数方面的最优性外,我们还表明,为了达到这种最佳逼近率,需要具有一定最小深度的ReLU网络。准确地说,对于分段的(C^\beta(\mathbb{R}^d)函数,这个最小深度是由\(\beta/d)给出的,直到一个乘法常数。在对数因子范围内,我们构建的网络符合这个界限。这部分解释了深度对ReLU网络的好处,因为深度网络是实现(分段)光滑函数有效近似所必需的。
最后,我们分析了高维空间中的近似,其中要近似的函数(f)可以分解为平滑降维特征映射(tau)和分类器函数(g)-定义在低维特征空间上-as(f=g circ tau)。我们表明,在这种情况下,近似率仅取决于特征空间的维数,而不取决于输入维数。

理学硕士:

68T07型 人工神经网络与深度学习
65日第15天 函数逼近算法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adams,R.A.,Sobolev spaces,xviii+268(1975),学术出版社:纽约-朗登学术出版社·Zbl 0314.46030号
[2] 安东尼,M。;Bartlett,P.L.,《神经网络学习:理论基础》(2009),剑桥大学出版社
[3] Barron,A.R.,σ函数叠加的通用近似界,IEEE信息理论学报,39,3,930-945(1993)·Zbl 0818.68126号
[4] Barron,A.R.,人工神经网络的近似和估计界,机器学习,14,1,115-133(1994)·Zbl 0818.68127号
[5] Baxt,W.G.,《在临床决策中使用人工神经网络进行数据分析:急性冠状动脉闭塞的诊断》,神经计算,2,4,480-489(1990)
[6] Bölcskei,H。;Grohs,P。;Kutyniok,G。;Petersen,P.,记忆最优神经网络近似,(SPIE(小波和稀疏性XVII)(2017))
[7] Bölcskei,H.、Grohs,P.、Kutyniok,G.和Petersen,P.(2017b)。稀疏连接深度神经网络的最优逼近。arXiv预打印arXiv:1705.01714;Bölcskei,H.、Grohs,P.、Kutyniok,G.和Petersen,P.(2017b)。稀疏连接深度神经网络的最优逼近。arXiv预打印arXiv:1705.01714
[8] Burke,H.B.,《癌症研究的人工神经网络:结果预测》,肿瘤外科研讨会,1073-79(1994)
[9] 坎迪斯,E.J。;Donoho,D.L.,《曲线:具有边的物体的令人惊讶的有效非自适应表示法》,(曲线和曲面拟合(2000),范德比尔特大学出版社),105-120
[10] 坎迪斯,E.J。;Donoho,D.L.,具有分段奇点的对象的新紧曲框和最优表示,纯粹与应用数学通信,57,219-266(2004)·兹比尔1038.94502
[11] Chandrasekaran,V.、Wakin,M.、Baron,D.和Baraniuk,R.G.(2004)。使用surflet压缩分段平滑多维函数:速率失真分析。莱斯大学ECE技术报告。;Chandrasekaran,V.、Wakin,M.、Baron,D.和Baraniuk,R.G.(2004)。使用surflet压缩分段平滑多维函数:速率失真分析。莱斯大学ECE技术报告·Zbl 1367.94077号
[12] Chandrasekaran,V。;Wakin,M。;Baron,D。;Baraniuk,R.G.,使用surflet表示和压缩多维分段函数,IEEE信息理论事务,55,1,374-400(2009)·Zbl 1367.94077号
[13] Clements,G.F.,几组实值函数的熵,太平洋数学杂志,13,1085-1095(1963)·Zbl 0158.05002号
[14] Cybenko,G.,通过sigmoid函数的叠加进行逼近,控制数学,信号,2,4,303-314(1989)·Zbl 0679.94019号
[15] 俄勒冈州德拉鲁。;Bengio,Y.,浅层与深层sum-product网络,(神经信息处理系统进展,第24卷(2011年),Curran Associates,Inc.),666-674
[16] Donoho,D.L.,无条件基是数据压缩和统计估计的最佳基,应用和计算谐波分析,1,1100-115(1993)·Zbl 0796.62083号
[17] Donoho,D.L.,图像的稀疏成分和最佳原子分解,构造近似,17,3,353-382(2001)·Zbl 0995.65150号
[18] Dudley,R.M.,(《真实分析与概率》,《真实分析和概率》,剑桥高等数学研究,第74卷(2002年),剑桥大学出版社:剑桥大学出版社),x+555·Zbl 1023.60001号
[19] Evans,L.C。;Gariepy,R.F.,测度理论与函数的精细性质(1992),CRC出版社·Zbl 0804.28001号
[20] Folland,G.B.,(真实分析:现代技术及其应用。真实分析:当代技术及其应用,纯粹与应用数学(1999),威利)·Zbl 0924.28001号
[21] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社·Zbl 1373.68009号
[22] Grohs,P.,最优稀疏数据表示,(Harmonic and applied analysis(2015),Springer),199-248·兹比尔1332.42025
[23] 郭,K。;Labate,D.,使用剪切波的最优稀疏多维表示,SIAM数学分析杂志,39,1,298-318(2007)·Zbl 1197.42017年4月20日
[24] Guyon,I.,《神经网络在字符识别中的应用》,国际模式识别杂志,05,01n02,353-382(1991)
[25] 辛顿,G。;邓,L。;Yu,D。;Dahl,G.E。;Mohamed,A.R。;Jaitly,N.,《语音识别中声学建模的深度神经网络:四个研究小组的共同观点》,IEEE Signal Processing Magazine,29,6,82-97(2012)
[26] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络,2,5,359-366(1989)·兹比尔1383.92015
[27] Kirszbraun,M.D.,Über die zusammenziehende und Lipschitzsche Transformationen,基础数学,22,77-108(1934)
[28] Knerr,S。;Personnaz,L。;Dreyfus,G.,单层训练神经网络手写数字识别,IEEE神经网络汇刊,3,6,962-968(1992)
[29] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,深度卷积神经网络的Imagenet分类,(神经信息处理系统进展,第25卷(2012年),Curran Associates,Inc.),1097-1105
[30] Kutyniok,G。;Labate,D.,《剪毛机简介》(shearlets.shearlets,Appl.Numer.Harmon.Anal.(2012),Birkhäuser/Springer:Birkháuser/Sringer New York),1-38·Zbl 1251.42010年
[31] Kutyniok,G。;Lim,W.-Q.,《紧密支撑剪切小梁最稀疏》,《近似理论杂志》,163,11,1564-1589(2011)·Zbl 1226.42031号
[32] Lang,S.,(Real and functional analysis。Real and functional anaAnalysis,数学研究生教材,第142卷(1993),Springer-Verlag:Springer-Verlag New York),xiv+580·Zbl 0831.46001号
[33] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436-444(2015)
[34] LeCun,Y。;Boser,B.E。;Denker,J.S。;亨德森·D·。;霍华德·R·E。;Hubbard,W.E.,用反向传播网络进行手写数字识别,(神经信息处理系统进展,第2卷(1990),Morgan-Kaufmann),396-404
[35] Lee,J.M.,(光滑流形简介。光滑流形介绍,数学研究生教材,第218卷(2013),Springer:Springer New York),xvi+708·Zbl 1258.53002号
[36] Le Pennec,E。;Mallat,S.,用带状线表示稀疏几何图像,IEEE图像处理汇刊,1423-438(2005)
[37] Leshno,M。;Lin,V.Ya。;Pinkus,A。;Schocken,S.,具有非多项式激活函数的多层前馈网络可以近似任何函数,神经网络,6,6,861-867(1993)
[38] Maiorov,V。;Pinkus,A.,MLP神经网络近似的下限,神经计算,25,1-3,81-91(1999)·兹伯利0931.68093
[39] Mallat,S.,《群不变散射》,《纯粹与应用数学通讯》,65,10,1331-1398(2012)·Zbl 1282.47009号
[40] Martin,G.L。;Pittman,J.A.,使用反向传播学习识别手印字母和数字,神经计算,3,2,258-267(1991)
[41] Mattila,P.,《欧氏空间中集合与测度的几何:分形与可校正性》,第44卷(1999),剑桥大学出版社·兹比尔0911.28005
[42] McCulloch,W。;Pitts,W.,《神经活动内在思想的逻辑演算》,《数学生物物理公报》,第5期,第115-133页(1943年)·Zbl 0063.03860号
[43] Megginson,R.E.,(《巴拿赫空间理论导论》,《巴拿克空间理论导言》,数学研究生教材,第183卷(1998年),施普林格出版社:纽约施普林格大学),xx+596·Zbl 0910.46008号
[44] Mhaskar,H.N.,光滑函数和解析函数最佳逼近的神经网络,神经计算,8,1,164-177(1996)
[45] Mhaskar,H.、Liao,Q.和Poggio,T.(2016)。学习功能:何时深胜于浅。arXiv预打印arXiv:1603.00988;Mhaskar,H.、Liao,Q.和Poggio,T.(2016)。学习功能:什么时候深入比肤浅好。arXiv预打印arXiv:1603.00988
[46] 蒙图法尔,G。;帕斯卡努,R。;Cho,K。;Bengio,Y.,《关于深层神经网络线性区域的数量》,(第27届神经信息处理系统国际会议论文集。第27届国际神经信息处理体系会议论文集,NIPS’14(2014),麻省理工学院出版社:麻省理事学院出版社,美国马萨诸塞州剑桥),2924-2932
[47] Pinkus,A.,神经网络中MLP模型的近似理论,《数值学报》,8143-195(1999)·Zbl 0959.68109号
[48] Poggio,T。;哈斯卡,H.N。;Rosasco,L。;米兰达,B。;Liao,Q.,《为什么以及何时深度而非浅层网络可以避免维度诅咒:综述》,《国际自动化与计算杂志》(2017)
[49] 罗森布拉特,F.,《神经动力学原理:感知器和大脑机制理论》(1962年),斯巴达·Zbl 0143.43504号
[50] Rudin,W.,《数学分析原理》,x+342(1976),McGraw-Hill Book Co.:McGraw-Hill Book Co。纽约-荷兰-杜塞尔多夫,《国际纯粹数学与应用数学丛书》·Zbl 0346.26002号
[51] Rudin,W.,《函数分析》,《国际纯数学和应用数学系列》,xviii+424(1991),McGraw-Hill公司:McGraw-Hill公司,纽约·Zbl 0867.46001号
[52] Rumelhart,D.E。;辛顿,G.E。;Williams,R.J.,通过错误传播学习内部表征,(并行分布式处理:认知微观结构的探索(1986),麻省理工学院出版社),318-362
[53] Safran,I.和Shamir,O.(2016)。用神经网络逼近自然函数时的深度-宽度权衡。arXiv预打印arXiv:1610.09887;Safran,I.和Shamir,O.(2016)。用神经网络逼近自然函数时的深度-宽度权衡。arXiv预打印arXiv:1610.09887
[54] 萨夫兰,I。;Shamir,O.,用神经网络逼近自然函数的深度-宽度权衡,(第34届机器学习国际会议论文集。第34届国际机器学习会议论文集,机器学习研究论文集,第70卷(2017)),2979-2987
[55] 西尔弗·D。;黄,A。;Maddison,C.J。;A.盖兹。;Sifre,L。;van den Driessche,G.,《用深度神经网络和树搜索掌握围棋游戏》,《自然》,529,7587,484-489(2016)
[56] Telgarsky,M.(2015)。深度前馈网络的表示优势。arXiv预打印arXiv:1509.08101;Telgarsky,M.(2015)。表示深度前馈网络的优点。arXiv预打印arXiv:1509.08101
[57] Telgarsky,M.,深度在神经网络中的好处,(Feldman,V.;Rakhlin,A.;Shamir,O.,第29届学习理论年会。第29届学习理论年会,机器学习研究院刊,第49卷(2016),PMLR:PMLR哥伦比亚大学,纽约,纽约,美国),1517-1539
[58] Telgarsky,M.(2017)。神经网络和有理函数。arXiv预打印arXiv:1706.03301;Telgarsky,M.(2017)。神经网络和有理函数。arXiv预打印arXiv:1706.03301
[59] Valentine,F.A.,《为了保持Lipschitz条件而对向量函数进行扩展》,美国数学学会。公报,49,2,100-108(1943)·兹比尔0061.37505
[60] Voigtlaender,F.和Pein,A.(2017年)。(α)arXiv:1702.03559的分析稀疏性与合成稀疏性;Voigtlaender,F.和Pein,A.(2017年)。(α)arXiv:1702.03559的分析稀疏性与合成稀疏性
[61] Wiatowski,T。;Bölcskei,H.,用于特征提取的深度卷积神经网络数学理论,IEEE信息理论学报,64,3,1845-1866(2018)·Zbl 1390.94053号
[62] Yarotsky,D.,深度ReLU网络近似的误差界,神经网络,94,103-114(2017)·兹比尔1429.68260
[63] 张国平,《神经网络分类:一项调查》,IEEE系统、人与控制论汇刊C部分,30,4,451-462(2000)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。