×

神经网络近似。 (英语) Zbl 1518.65022号

摘要:神经网络是构建学习算法的首选方法。他们现在正在研究其他的数值任务,例如求解高维偏微分方程。它们之所以受欢迎,是因为它们在一些具有挑战性的学习问题(计算机象棋/围棋、自主导航、人脸识别)上取得了经验上的成功。然而,大多数学者同意,对于这一成功仍缺乏令人信服的理论解释。由于这些应用围绕着从数据观测中近似未知函数,因此部分答案必须涉及NN生成精确近似的能力。
本文调查了神经网络输出的已知近似特性,目的是揭示数值分析中使用的更传统的近似方法中不存在的特性,例如使用多项式、小波、有理函数和样条的近似。从速率失真的角度与传统的近似方法进行了比较,误差与用于创建近似值的参数数量的关系。数值近似分析的另一个主要组成部分是构造近似所需的计算时间,而这反过来又与近似算法的稳定性密切相关。因此,使用神经网络进行数值逼近的稳定性是所提出分析的很大一部分。
调查主要涉及使用流行的ReLU激活函数的NN。在这种情况下,NN的输出是分段线性函数,将域f的相当复杂的划分为凸多面体单元。当神经网络结构固定且参数允许变化时,神经网络的输出函数集是一个参数化的非线性流形。结果表明,该流形具有一定的空间填充特性,从而提高了近似能力(更好的速率失真),但以牺牲数值稳定性为代价。在尝试近似时,空间填充给寻找最佳或良好参数选择的数值方法带来了挑战。

MSC公司:

65日第15天 函数逼近算法
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adams,R.A.和Fournier,J.J.F.(2003),Sobolev Spaces,Elsevier·Zbl 1098.46001号
[2] Ali,M.和Nouy,A.(2020),深度ReLU网络的平滑类近似。可从arXiv:2007.15645v1获取·Zbl 1494.41008号
[3] Allen-Zhu,Z.,Li,Y.和Song,Z.(2019),《通过过度参数化进行深度学习的收敛理论》,载于《第36届国际机器学习会议(ICML 2019)论文集》(Chaudhuri,K.和Salakhutdinov,R.,eds),《机器学习研究论文集》第97卷,PMLR,第242-252页。
[4] Arora,R.、Basu,A.、Mianjy,P.和Mukherjee,A.(2018a),《理解具有校正线性单位的深层神经网络》,第六届学习表征国际会议(ICLR 2018)。可在https://openreview.net/forum?id=B1J_rgWRW。
[5] Arora,S.,Ge,R.,Neyshabur,B.和Zhang,Y.(2018b),通过压缩方法实现深层网的更强泛化界限,载于《第35届国际机器学习会议论文集》(ICML 2018)(Dy,J.和Krause,a.编辑),《机器学习研究论文集》第80卷,PMLR,第254-263页。
[6] Bach,F.(2017),《用凸神经网络打破维度诅咒》,J.Mach。学习。第18号决议,1-53·Zbl 1433.68390号
[7] Balestriero,R.和Baraniuk,R.(2021),《疯狂的马克思:深入学习的仿射样条洞察》,Proc。IEEE109,704-727。
[8] Barron,A.R.(1993),σ函数叠加的通用近似界,IEEE Trans。通知。Theory39,930-945·Zbl 0818.68126号
[9] Barron,A.R.(1994),人工神经网络的近似和估计界,马赫数。学习.14115-133·Zbl 0818.68127号
[10] Bartlett,P.L.、Foster,D.J.和Telgarsky,M.(2017),神经网络的光谱正常化边界,摘自《神经信息处理系统进展》30(NIPS 2017)(Guyon,I.等人,eds),Curran Associates,第6240-6249页。
[11] Bartlett,P.L.、Harvey,N.、Liaw,C.和Mehrabian,A.(2019),分段线性神经网络的近紧VC-维数和伪维数界限,J.Mach。学习。第20号决议,第1-17段·Zbl 1489.62302号
[12] Bartlett,P.L.、Long,P.M.、Lugosi,G.和Tsigler,A.(2020年),线性回归中的良性过拟合,Proc。国家科学院。科学117,30063-30070·兹比尔1485.62085
[13] Bennett,C.和Sharpley,R.(1990),《算子插值》,学术出版社·Zbl 0647.46057号
[14] Benyamini,Y.和Lindenstrauss,J.(2000),几何非线性函数分析1,学术讨论会出版物第48卷,美国数学学会·Zbl 0946.46002号
[15] Bergh,J.和Lofstrom(1976),插值空间:导论,施普林格·Zbl 0344.46071号
[16] Binev,P.,Cohen,A.,Dahmen,W.,Devore,R.,Petrova,G.和Wojtaszczyk,P.(2011),缩减基方法中贪婪算法的收敛速度,SIAM J.Math。分析431457-1472·Zbl 1229.65193号
[17] Binev,P.、Cohen,A.、Dahmen,W.、Devore,R.、Petrova,G.和Wojtaszczyk,P.(2017),简化建模中的数据同化,SIAM/ASA J.不确定性。数量5,1-29·Zbl 06736493号
[18] Bölcskei,H.,Grohs,P.,Kutyniok,G.和Petersen,P.(2019),稀疏连接深度神经网络的最优逼近,SIAM J.Math。数据科学1,8-45·Zbl 1499.41029号
[19] Bousquet,O.,Boucheron,S.和Lugosi,G.(2005),分类理论:一些最新进展的综述,ESAIM Probab。统计9,323-375·Zbl 1136.62355号
[20] Bronstein,M.M.、Bruna,J.、Lecun,Y.、Szlam,A.和Vandergheynst,P.(2017),《几何深度学习:超越欧几里德数据》,IEEE信号处理。杂志34,18-42。
[21] Buffa,A.、Maday,Y.、Patera,A.T.、Prud'Homme,C.和Turinici,G.(2012),参数化约化基贪婪算法的先验收敛,数学。模型。数字。分析46595-603·Zbl 1272.65084号
[22] Carl,B.(1981),熵数、s数和特征值问题,J.Funct。分析41,290-306·Zbl 0466.41008号
[23] Chizat,L.、Oyallon,E.和Bach,F.(2019),《关于微分编程中的懒惰训练》,载于《神经信息处理系统的进展》32(NeurIPS 2019)(Wallach,H.等人,eds),Curran Associates,第2937-2947页。
[24] Cohen,A.、Devore,R.、Petrova,G.和Wojtaszczyk,P.(2020),《最优稳定非线性近似》。网址:arXiv:2009.09907·Zbl 1507.41010号
[25] Csiskos,M.、Kupavskii,A.和Mustafa,N.(2019),几何集合系统VC-维的紧下限,J.Mach。学习。第20号决议,1-8·Zbl 1489.62181号
[26] Cybenko,G.(1989),σ函数叠加逼近,数学。控制信号系统2,303-314·兹伯利0679.94019
[27] Daubechies,I.、Devore,R.、Foucart,S.、Hanin,B.和Petrova,G.(2019),非线性近似和(深层)ReLU网络。可从arXiv:1905.02199获得(以Constr.Approx.显示)·Zbl 1501.41003号
[28] De Boor,C.(1978),《样条实用指南》,《应用数学科学》第27卷,施普林格出版社·Zbl 0406.41003号
[29] Devore,R.A.(1998),《非线性近似》,《数值学报》,第7卷,剑桥大学出版社,第51-150页·Zbl 0931.65007号
[30] Devore,R.A.和Popov,V.A.(1988),Besov空间的插值,Trans。阿默尔。数学。Soc.305、397-414·Zbl 0646.46030号
[31] Devore,R.A.和Scherer,K.(1979),Sobolev空间上线性算子的插值,数学年鉴189,583-599·Zbl 0422.46028号
[32] Devore,R.A.和Sharpley,R.C.(1993),《RD域上的Besov空间》,Trans。阿默尔。数学。Soc.335843-864·兹伯利0766.46015
[33] Devore,R.A.和Temlyakov,V.N.(1996),《贪婪算法的一些评论》,高级计算。数学5,173-187·Zbl 0857.65016号
[34] Devore,R.A.、Howard,R.和Michelli,C.(1989),最佳非线性近似,《数学手稿》第4卷,第469-478页·Zbl 0682.41033号
[35] Devore,R.A.、Kyriazis,G.、Leviatan,D.和Tikhomirov,V.(1993),小波压缩和非线性n宽度,高级计算。数学1197-214·Zbl 0824.65145号
[36] Devore,R.A.、Oskolkov,K.I.和Petrushev,P.P.(1997),前馈神经网络逼近,Ann.Numer。数学4,261-287·Zbl 0884.41012号
[37] Devore,R.A.、Petrova,G.和Wojtaszczyk,P.(2011),高维少变量函数的近似,Constr。约33125-143·Zbl 1210.41009号
[38] Devore,R.A.、Petrova,G.和Wojtaszczyk,P.(2013),巴拿赫空间中约化基的贪婪算法,Constr。约37455-466·Zbl 1276.41021号
[39] Du,S.S.,Lee,J.,Li,H.,Wang,L.和Zhai,X.(2019a),梯度下降发现深度神经网络的全局极小值,载于《第36届国际机器学习会议(ICML 2019)论文集》(Chaudhuri,K.和Salakhutdinov,R.,eds),《机器学习研究论文集》第97卷,PMLR,第1675-1685页。
[40] Du,S.S.,Zhai,X.,Poczos,B.和Singh,A.(2019b),梯度下降可证明优化了过参数化神经网络,第七届国际学习表征会议(ICLR 2019)。可在https://openreview.net/forum?id=S1eK3i09YQ。
[41] Dym,N.、Sober,B.和Daubechies,I.(2020),通过神经网络函数表达分形,IEEE J.选定区域信息。理论1,57-66。
[42] Dziugaite,G.K.和Roy,D.M.(2017),在深度学习原理方法研讨会(ICML 2017)上,计算参数比训练数据多得多的深度(随机)神经网络的非精确泛化边界。
[43] W.E和Wang,Q.(2018),分析函数深度神经网络近似的指数收敛性,科学。中国数学611733-1740·Zbl 1475.65007号
[44] W.E,Ma,C.和Wu,L.(2019),神经网络模型的巴伦空间和流诱导函数空间。可从arXiv:1906.08039获取。
[45] Elbrächter,D.、Perekrestenko,D.、Grohs,P.和Bölcskei,H.(2019),深度神经网络近似理论。可从arXiv:1901.02220获取·兹比尔1473.68178
[46] Frazier,M.W.、Jawerth,B.和Weiss,G.(1991),《Littlewood-Paley理论和函数空间研究》,CBMS数学区域会议系列第79卷,美国数学学会·Zbl 0757.42006号
[47] Ghorbani,B.,Mei,S.,Misiakiewicz,T.和Montanari,A.(2021),高维线性化双层神经网络,《统计年鉴》491029-1054·Zbl 1473.62134号
[48] Gribonval,R.、Kutyniok,G.、Nielsen,M.和Voigtlaender,F.(2019),深度神经网络的近似空间。可从arXiv:1905.01208获取·兹比尔1491.82017
[49] Gühring,I.、Raslan,M.和Kutyniok,G.(2020),深层神经网络的表达性。可从arXiv:2007.04759获取·Zbl 1523.68080号
[50] Hanin,B.(2019),宽度有界的深度神经网络的通用函数逼近和ReLU激活,数学7,992。
[51] Hanin,B.和Rolnick,D.(2019),《神经信息处理系统进展32》(NeurIPS 2019)(Wallach,H.等人编辑),《Curran Associates》,第361-370页。
[52] Hata,M.(1986),《数学中的分形,模式和波:非线性微分方程的定性分析》(Nishida,T.,Mimura,M.和Fujii,H.编辑),数学及其应用研究第18卷,Elsevier,第259-278页·Zbl 0604.00007号
[53] He,J.,Li,L.,Xu,J.和Zheng,C.(2020),ReLU深度神经网络和线性有限元,计算。数学38,502-527·Zbl 1463.68072号
[54] Hebb,D.O.(1949),《行为组织:神经心理学理论》,威利、查普曼和霍尔出版社。
[55] Hornik,K.,Stinchcombe,M.,White,H.等人(1989),多层前馈网络是通用逼近器,神经网络2,359-366·Zbl 1383.92015年
[56] Jacot,A.、Gabriel,F.和Hongler,C.(2018),《神经切线核:神经网络中的收敛和泛化》,摘自《神经信息处理系统进展》31(NeurIPS 2018)(Bengio,S.等人,eds),Curran Associates,第8571-8580页。
[57] Klusowski,J.和Barron(2018),ReLU和平方ReLU脊函数与l1和l0控制的组合近似,IEEE Trans。通知。Theory64,7649-7656·Zbl 1432.41003号
[58] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012),深度卷积神经网络的ImageNet分类,收录于《神经信息处理系统进展》25(NIPS 2012)(Pereira,F.等人,eds),Curran Associates,第1097-1105页。
[59] Lecun,Y.、Bengio,Y.和Hinton,G.(2015),《深度学习》,《自然》521(7553),436-444。
[60] Liu,C.,Zhu,L.和Belkin,M.(2020年),面向非线性方程组超参数化系统的优化理论:深度学习的教训。可从arXiv:2003.00307获取。
[61] Lorenz,G.G.、Makovoz,Y.和Golitschek,M.Von(1996),《构造逼近:高级问题》,第一版,Springer·兹比尔0910.41001
[62] Lu,J.,Shen,Z.,Yang,H.和Zhang,S.(2020),光滑函数的深度网络近似。可从arXiv:2001.03040获取·Zbl 07407717号
[63] Maiorov,V.(1999),《关于脊函数的最佳逼近》,J.近似理论99,68-94·Zbl 0939.41014号
[64] Makovoz,Y.(1996),《随机逼近和神经网络》,J.近似理论85,98-109·Zbl 0857.41024号
[65] Mhaskar,H.N.和Poggio,T.(2020),深度网络的函数近似,Commun。纯应用程序。分析19,4085-4095·Zbl 1442.62215号
[66] Montufar,G.F.、Pascanu,R.、Cho,K.和Bengio,Y.(2014),《关于深层神经网络线性区域的数量》,载于《神经信息处理系统进展》27(NIPS 2014)(Ghahramani,Z.et al.,eds),Curran Associates,第2924-2932页。
[67] Ongie,G.、Willett,R.、Soudry,D.和Srebro,N.(2020),《有界范数无限宽ReLU网的函数空间观:多元情况》,第八届国际学习表征会议(ICLR 2020)。可在https://openreview.net/forum?id=H1lNPxHKDH。
[68] Opschoor,J.、Petersen,P.和Schwab,C.(2019a),Deep ReLU网络和高阶有限元方法,SAM,ETH Zürich·兹比尔1452.65354
[69] Opschoor,J.、Schwab,C.和Zech,J.(2019b),高维全纯映射的指数ReLU DNN表达。SAM研究报告,苏黎世理工大学·Zbl 1500.41008号
[70] Parhi,R.和Nowak,R.D.(2020),神经网络和脊样条的Banach空间表示定理。可从arXiv:2006.05626v2获取·Zbl 1507.68250号
[71] Peetre,J.(1976),《贝索夫空间的新思考》,杜克大学数学系杜克大学数学家丛书第1卷·Zbl 0356.46038号
[72] Petersen,P.(2020),神经网络理论。可在http://pc-petersen.eu/Neural_Network_Theory.pdf。
[73] Petersen,P.和Voigtlaender,F.(2018),使用深度ReLU神经网络的分段光滑函数的最佳逼近,神经网络108,296-330·Zbl 1434.68516号
[74] Petrushev,P.(1988),样条函数、有理逼近和Besov空间的正定理和逆定理,《函数空间和应用》,数学讲义第1302卷,Springer,第363-377页·Zbl 0663.41012号
[75] Petrushev,P.(1998),岭函数和神经网络逼近,SIAM J.数学。分析30,155-189·Zbl 0927.41006号
[76] Pinkus,A.(1999),神经网络中MLP模型的近似理论,《数值学报》,第8卷,剑桥大学出版社,第143-195页·Zbl 0959.68109号
[77] Pinkus,A.(2012),《近似理论中的N宽度》,《现代数学调查系列》第7卷,施普林格科学与商业媒体。
[78] Rosenblatt,F.(1958),《感知器:大脑中信息存储和组织的概率模型》,《心理学评论》65386。
[79] Savarese,P.,Evron,I.,Soudry,D.和Srebro,N.(2019),无限宽有界范数网络在函数空间中的表现?,《第32届学习理论会议论文集》(COLT 2019)(Beygelzimer,A.和Hsu,D.,eds),《机器学习研究论文集》第99卷,PMLR,第2667-2690页。
[80] Schmidt-Hieber,J.(2020),使用ReLU激活的深度神经网络进行非参数回归,《Ann.Statist.481875-1897》·Zbl 1459.62059号
[81] Shen,Z.、Yang,H.和Zhang,S.(2019),通过合成的非线性近似,神经网络119,74-84·Zbl 1475.41013号
[82] Siegel,J.W.和Xu,J.(2020),具有ReLU ^ k激活函数的神经网络的高阶近似率。网址:arXiv:2012.07205。
[83] Silver,D.,Huang,A.,Maddison,C.J.,Guez,A.,Sifre,L.,Van Den Driessche,G.,Schrittwieser,J.,Antonoglou,I.,Panneershelvam,V.,Lanctot,M.等人(2016),《掌握深度神经网络和树搜索围棋游戏》,Nature529(7587),484-489。
[84] Silver,D.、Schrittwiser,J.、Simonyan,K.、Antonoglou,I.、Huang,A.、Guez,A.、Hubert,T.、Baker,L.、Lai,M.、Bolton,A.等人(2017),《在人类不知情的情况下掌握围棋》,Nature550(7676),354-359。
[85] Stanley,R.P.等人(2004年),《超平面排列导论》,《几何综合》13,389-496·Zbl 1136.52009年
[86] Stein,E.M.(1970),奇异积分与函数的可微性,普林斯顿大学出版社·兹伯利0207.13501
[87] Telgarsky,M.(2016),深度前馈网络的代表利益,JMLR:研讨会和会议记录49,1-23。
[88] Traub,J.和Wozniakowski,H.(1980),《优化算法的一般理论》,学术出版社·Zbl 0441.68046号
[89] Unser,M.(2020),反问题和机器学习的统一表示定理,找到了。计算。数学。doi:doi:10.1007/s10208-020-09472-x·Zbl 1479.46088号
[90] Vapnik,V.(1989),统计学习理论,Wiley-Interscience·Zbl 0935.62007号
[91] Wu,Y.,Schuster,M.,Chen,Z.,Le,Q.V.,Norouzi。可从arXiv:1609.08144获取。
[92] Yarotsky,D.(2017),深度ReLU网络近似的误差界,神经网络94,103-114·Zbl 1429.68260号
[93] Yarotsky,D.(2018),《利用深度ReLU网络对连续函数进行最优逼近》,载于第31届学习理论会议(COLT 2018)(Bubeck,S.等人,eds),《机器学习研究论文集》第75卷,PMLR,第639-649页。
[94] Zaslavsky,T.(1975),《直面排列:超平面空间划分的面数公式》,美国数学学会·Zbl 0296.50010号
[95] Zhang,C.、Bengio,S.、Hardt,M.、Recht,B.和Vinyals,O.(2017),《理解深度学习需要重新思考泛化》,第五届国际学习代表大会(ICLR 2017)。可在https://openreview.net/forum?id=Sy8gdB9xx。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。