×

深度神经网络函数逼近理论与实践之间的差距。 (英语) Zbl 1483.65028号

摘要:随着复杂的决策过程被自动化,深度学习(DL)正在改变整个行业深度神经网络(DNN)根据真实数据进行培训。在DNN近似理论的快速扩展文献的推动下,DNN可以近似各种各样的函数,这些工具越来越多地被考虑用于科学计算中的问题。然而,与该领域更传统的算法不同,人们对DNN在数值分析原理(即稳定性、准确性、计算效率和样本复杂性)方面的了解相对较少。本文首先介绍了一个在实践中检验DNN的计算框架,然后用它来研究它们在这些问题上的经验性能。我们研究了不同宽度和深度的DNN在不同维度的各种测试函数上的性能,包括光滑函数和分段光滑函数。我们还将DL与基于压缩感知的平滑函数近似的同类最佳方法进行了比较。我们从这些实验中得出的主要结论是,DNN的近似理论与其实际性能之间存在关键差距,训练的DNN在具有强近似结果的函数(例如平滑函数)上表现相对较差但与其他函数的同类最佳方法相比,它的性能很好。为了进一步分析这一差距,我们随后提供了一些理论见解。我们建立了实际存在定理,它断言存在一个DNN体系结构和训练程序,提供与压缩感知相同的性能。这一结果建立了一个关键的理论基准。它表明,尽管通过DNN近似策略,可以缩小差距,但该策略保证性能与当前同类最佳方案一样好,但并不比它们好。然而,它通过强调通过仔细设计DNN架构和训练策略开发更好方案的潜力,展示了实用DNN近似的前景。

MSC公司:

65日第15天 函数逼近算法
41A25型 收敛速度,近似度
41A46型 任意非线性表达式的近似;宽度和熵
42C05型 正交函数和多项式,非三角调和分析的一般理论
65D05型 数值插值
65年20月 数值算法的复杂性和性能
94A20型 信息与传播理论中的抽样理论
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] B.Adcock,无限维压缩传感和函数插值,Found。计算。数学。,18(2018),第661-701页·Zbl 1396.41001号
[2] B.Adcock、A.Bao和S.Brugiapaglia,纠正稀疏高维函数近似中的未知错误,数值。数学。,142(2019),第667-711页·Zbl 1415.65030号
[3] B.Adcock、S.Brugiapaglia和C.G.Webster,高维函数多项式近似的压缩感知方法,《压缩感知及其应用》,Birkha用户,2017年,第93-124页。
[4] V.Antun、F.Renna、C.Poon、B.Adcock和A.C.Hansen,《图像重建中深度学习的不稳定性——人工智能有代价吗?》?,预印本,https://arxiv.org/abs/1902.05300,2019年。
[5] S.Arridge、P.Maass、O.O¨ktem和C.-B.Scho¨nlieb,《使用数据驱动模型解决反问题》,《数值学报》。,28(2019),第1-174页·Zbl 1429.65116号
[6] F.Bach,《用凸神经网络打破维度诅咒》,J.Mach。学习。决议,18(2017),第1-53页·Zbl 1433.68390号
[7] N.Baker、F.Alexander、T.Bremer、A.Hagberg、Y.Y.Kevrekidis、H.Najm、M.Parashar、A.Patra、J.Sethian、S.Wild和K.Willcox,《科学机器学习基本研究需求研讨会报告:人工智能核心技术》,美国能源部高级科学计算研究,2019年。
[8] C.Beck、A.Jentzen和B.Kuckuck,深度神经网络训练的全面误差分析,预印本,https://arxiv.org/abs/1910.00121,2019年。
[9] J.Beck,F.Nobile,L.Tamellini,and R.Tempone,一类随机系数偏微分方程拟最优随机Galerkin方法的收敛性,计算。数学。申请。,67(2014),第732-751页·Zbl 1350.65003号
[10] J.Beck、R.Tempone、F.Nobile和L.Tamellni,《利用Galerkin和配置方法对随机偏微分方程进行最优多项式逼近的数学》。模型方法应用。科学。,22 (2012), 1250023. ·Zbl 1262.65009号
[11] J.Berner、P.Grohs和A.Jentzen,《泛化误差分析:深度人工神经网络的经验风险最小化克服Black-Scholes偏微分方程数值逼近中维数的诅咒》,预印本,https://arxiv.org/abs/1809.03062, 2018.
[12] J.Carrasquilla和R.Melko,《物质的机器学习阶段》,自然物理学。,13(2017),第431-434页。
[13] A.Chkifa、N.Dexter、H.Tran和C.G.Webster,通过压缩感知低集上的高维函数的多项式近似,数学。公司。,87(2018),第1415-1450页·Zbl 1516.94010号
[14] A.Cohen、R.DeVore和C.Schwab,一类椭圆sPDE的最佳N项Galerkin逼近的收敛速度,发现。计算。数学。,10(2010年),第615-646页·兹比尔1206.60064
[15] A.Cohen、R.DeVore和C.Schwab,参数和随机椭圆偏微分方程的解析正则性和多项式逼近,Ana。申请。,9(2011年),第11-47页·Zbl 1219.35379号
[16] A.Cohen和R.A.DeVore,高维参数偏微分方程的近似,Acta Numer。,24(2015),第1-159页·Zbl 1320.65016号
[17] G.Cybenko,通过sigmoid函数的叠加进行逼近,数学。控制信号系统,2(1989),第303-314页·Zbl 0679.94019号
[18] E.C.Cyr、M.A.Gulian、R.G.Patel、M.Perego和N.A.Trask,深度神经网络的稳健训练和初始化:自适应基础观点,收录于《第一届数学和科学机器学习会议论文集》(新泽西州普林斯顿大学),PMLR 107、PMLR,2020年,第512-536页,http://proceedings.mlr.press/v107/cyr20a.html。
[19] G.E.Dahl、D.Yu、L.Deng和A.Acero,用于大范围语音识别的上下文相关预训练深度神经网络,IEEE Trans。语音语言处理。,20(2012),第30-42页。
[20] J.Daws和C.Webster,用拟最优多项式逼近率分析深层神经网络,预印本,https://arxiv.org/abs/1912.02302,2019年。
[21] J.Daws和C.G.Webster,基于多项式的建筑设计方法和深度神经网络学习,预印本,https://arxiv.org/abs/1905.10457,2019年。
[22] J.De Fauw、J.R.Ledsam、B.Romera-Paredes、S.Nikolov、N.Tomasev、S.Blackwell、H.Askham、X.Glorit、B.O'Donoghue、D.Visentin、G.van den Driessche、B.Lakshminarayanan、C.Meyer、F.Mackinder、S.Bouton、K.Ayoub、R.Chopra、D.King、A.Karthikesalingam、C.O.Hughes、R.Raine、J.Hughes,D.A.Sim、C.Egan、A.Tufail、H.Montgomery、D。Hassabis、G.Rees、T.Back、P.T.Khaw、M.Suleyman、J.Cornebise、P.A.Keane和O.Ronneberger,《视网膜疾病诊断和转诊的临床应用深度学习》,《自然医学》,24(2018),第1342-1350页。
[23] J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,L.Fei-Fei,《ImageNet:大规模分层图像数据库》,《2009年IEEE计算机视觉和模式识别会议论文集》,2009年,第248-255页。
[24] A.Dereventsov、A.Petrosyan和C.Webster,贪婪浅层网络:构建和训练神经网络的新方法,预印本,https://arxiv.org/abs/1905.10409,2019年。
[25] A.Dereventsov、A.Petrosyan和C.Webster,《具有ReLU激活函数的神经网络积分表示法》,《第一届数学和科学机器学习会议论文集》,Proc。机器。学习。第107号决议,PMLR,2020年,第128-143页。
[26] R.A.DeVore,非线性近似,数值学报。,7(1998),第51-150页·Zbl 0931.65007号
[27] N.Dexter、H.Tran和C.Webster,参数化偏微分方程稀疏同时逼近的混合正则化方法,ESAIM数学。模型。数字。分析。,53(2019年),第2025-2045页·Zbl 07167647号
[28] W.E、J.Han和A.Jentzen,基于深度学习的高维抛物型偏微分方程和倒向随机微分方程数值方法,Commun。数学。《统计》,第5卷(2017年),第349-380页·Zbl 1382.65016号
[29] W.E、C.Ma和L.Wu,神经网络模型的巴伦空间和合成函数空间,预印本,https://arxiv.org/abs/11906.08039,2019年。
[30] W.E和Q.Wang,解析函数深度神经网络逼近的指数收敛性,预印本,https://arxiv.org/abs/1807.00297, 2018. ·Zbl 1475.65007号
[31] W.E和B.Yu,《深层Ritz方法:一种基于深度学习的数值算法,用于求解变分问题》,Commun。数学。《统计》第6卷(2018年),第1-12页·Zbl 1392.35306号
[32] C.Farabet、C.Couprie、L.Najman和Y.LeCun,《使用多尺度特征学习进行场景分析》,《纯净树和最佳覆盖》,预印本,https://arxiv.org/abs/1202.2160, 2012.
[33] A.Fawzi、S.-M Moosavi-Dezfuli和P.Frossard,《深度网络的鲁棒性:几何观点》,IEEE信号处理。Mag.,34(2017),第50-62页。
[34] D.Fokina和I.Oseledets,《生长轴:神经网络贪婪学习及其在函数逼近中的应用》,预印本,https://arxiv.org/abs/1910.12686,2019年。
[35] M.Geist、P.Petersen、M.Raslan、R.Schneider和G.Kutyniok,深度神经网络参数扩散方程的数值解,预印本,https://arxiv.org/abs/2004.12131, 2020.
[36] T.Gerstner和M.Griebel,使用稀疏网格进行数值积分,Numer。《算法》,18(1998),第209-232页·兹比尔0921.65022
[37] X.Glrot和Y.Bengio,理解深度前馈神经网络训练的困难,J.Mach。学习。Res.,9(2010),第249-256页。
[38] I.Goodfellow、Y.Bengio和A.Courville,《深度学习》,麻省理工学院出版社,2016年·Zbl 1373.68009号
[39] N.M.Gottschling、V.Antun、B.Adcock和A.C.Hansen,《麻烦的内核:为什么逆向问题的深度学习通常不稳定》,预印本,https://arxiv.org/abs/2001.01258, 2020.
[40] P.Grohs、F.Hornung、A.Jentzen和P.Von Wursenberger,《人工神经网络克服Black-Scholes偏微分方程数值逼近中维数诅咒的证明》,预印本,https://arxiv.org/abs/1809.02362, 2018.
[41] P.Grohs、T.Wiatowski和H.Bolcskei,卡通函数的深度卷积神经网络,《IEEE信息理论国际研讨会论文集》,2016年ISIT,西班牙巴塞罗那,2016年,第1163-1167页。
[42] I.Guöhring、G.Kutyniok和P.Petersen,(W^{s,P})范数中深度ReLU神经网络逼近的误差界,预印本,https://arxiv.org/abs/1902.07896, 2019. ·Zbl 1452.41009号
[43] M.D.Gunzburger、C.G.Webster和G.Zhang,具有随机输入数据的偏微分方程的随机有限元方法,Acta Numer。,23(2014年),第521-650页·Zbl 1398.65299号
[44] B.Hanin,哪些神经网络架构会产生爆炸和消失梯度?,《神经信息处理系统进展》,Curran Associates,Inc.,2018年,第582-591页。
[45] B.Hanin和D.Rolnick,《如何开始培训:初始化和架构的影响》,摘自《神经信息处理系统进展》,Curran Associates,Inc.,2018年,第571-581页。
[46] K.He、X.Zhang、S.Ren和J.Sun,深入研究整流器:在图像网络分类上超越人类水平的性能,发表在《2015年IEEE国际计算机视觉会议论文集》(ICCV 2015),2015,第1026-1034页。
[47] G.Hinton、L.Deng、D.Yu、G.E.Dahl、A.Mohamed、N.Jaitly、A.Senior、V.Vanhoucke、P.Nguyen、T.N.Sainath和B.Kingsbury,语音识别中声学建模的深度神经网络:四个研究小组的共同观点,IEEE信号处理。Mag.,29(2012),第82-97页。
[48] K.Hornik、M.Stinchcombe和H.White,多层前馈网络是通用逼近器,《神经网络》,2(1989),第359-366页·Zbl 1383.92015年
[49] D.P.Kingma和J.Ba,Adam:随机优化方法,预印本,https://arxiv.org/abs/1412.6980, 2014.
[50] A.Krizhevsky、I.Sutskever和G.E.Hinton,深度卷积神经网络的ImageNet分类,《神经信息处理系统进展》,Curran Associates,Inc.,2012年,第1097-1105页。
[51] G.Kutyniok、P.Petersen、M.Raslan和R.Schneider,深度神经网络和参数PDE的理论分析,预印本,https://arxiv.org/abs/1904.00377,2019年。
[52] B.Li,S.Tang和H.Yu,通过具有整流功率单元的深度神经网络对高维光滑函数的更好逼近,预印本,https://arxiv.org/abs/1903.05858,2019年。
[53] S.Liang和R.Srikant,为什么用深层神经网络进行函数逼近?,预印本,https://arxiv.org/abs/1610.04161, 2016.
[54] I.Loshchilov和F.Hutter,解耦重量衰减正则化,第七届国际学习表征会议(ICLR)会议记录,2019年,https://arxiv.org/abs/1711.05101。
[55] J.-L-L-Loyer、E.Henriques、M.Fontul和S.Wiseall,用于估计喷气发动机部件制造成本的机器学习方法的比较,国际生产经济学杂志。,178(2016),第109-119页。
[56] J.Lu,Z.Shen,H.Yang,and S.Zhang,光滑函数的深度网络逼近,预印本,https://arxiv.org/abs/2001.03040, 2021.
[57] Y.Lu,A.Zhong,Q.Li,B.Dong,《超越有限层神经网络:桥接深层结构和数值微分方程》,预印本,https://arxiv.org/abs/1710.10121, 2017.
[58] H.Montanelli、H.Yang和Q.Du,Deep ReLU Networks克服带限函数维数的诅咒,预印本,https://arxiv.org/abs/1903.00735,2019年。
[59] S.-M Moosavi-Dezfuli、A.Fawzi、O.Fawzi.和P.Frossard,《通用对抗扰动》,预印本,https://arxiv.org/abs/1610.08401, 2016.
[60] S.-M Moosavi-Dezfouli、A.Fawzi和P.Frossard,《深度愚人:愚弄深度神经网络的简单准确方法》,预印本,https://arxiv.org/abs/1511.04599,2015年。
[61] P.Nakkiran、G.Kaplun、Y.Bansal、T.Yang、B.Barak和I.Sutskever,《深度双重下降:更大的模型和更多的数据伤害何处》,预印本,https://arxiv.org/abs/1912.02292,2019年。
[62] F.Nobile、R.Tempone和C.G.Webster,随机输入数据椭圆偏微分方程的稀疏网格随机配置方法,SIAM J.Numer。分析。,46(2008),第2309-2345页,https://doi.org/10.1137/060663660。 ·Zbl 1176.65137号
[63] J.A.A.Opschoor、P.C.Petersen和C.Schwab,《Deep ReLU Networks and High-Order Finite Methods》,《技术报告》,苏黎世ETH,2019年·Zbl 1452.65354号
[64] J.A.A.Opschoor、C.Schwab和J.Zech,《高维全纯图的指数ReLU DNN表达》,技术报告,ETH Zu­rich,Zu-rich,2019年。
[65] P.Petersen和F.Voigtlaender,使用深度ReLU神经网络的分段光滑函数的最佳逼近,神经网络。,108(2018),第296-330页·兹伯利1434.68516
[66] H.Rauhut和R.Ward,通过加权(ell_1)最小化插值,应用。计算。哈蒙。分析。,40(2016年),第321-351页·兹比尔1333.41003
[67] S.H.Rudy、S.L.Brunton、J.L.Proctor和J.N.Kutz,偏微分方程的数据驱动发现,科学。高级,3(2017),e1602614。
[68] C.Schwab和J.Zech,《高维深度学习:UQ中广义多项式混沌展开的神经网络表达率》,Anal。申请。,17(2019),第19-55页·Zbl 1478.68309号
[69] 沈振中,杨海阳,张三生,以神经元数量为特征的深网络近似,Commun。计算。物理。,28(2020),第1768-1811页,https://global-sci.org/intro/article_detail/cicp/18396.html。 ·Zbl 1507.68276号
[70] D.Silver、J.Schrittwieser、K.Simonyan、I.Antonoglou、A.Huang、A.Guez、T.Hubert、L.Baker、M.Lai、A.Bolton、Y.Chen、T.Lillicrap、F.Hui、L.Sifre、G.Van Den Driessche、T.Graepel和D.Hassabis,《在没有人类知识的情况下掌握围棋》,《自然》,550(2017),第354-359页。
[71] K.Simonyan和A.Zisserman,《用于大规模图像识别的深度卷积网络》,载于《第三届学习表征国际会议论文集》,加利福尼亚州圣地亚哥,2015年,https://arxiv.org/abs/1409.1556。
[72] C.Sommer和D.W.Gerlich,《细胞生物学中的机器学习——教计算机识别表型》,《细胞科学杂志》。,126(2013),第5529-5539页。
[73] M.Stoyanov,《用户手册:塔斯马尼亚稀疏电网》,技术报告ORNL/TM-2015/596,田纳西州橡树岭国家实验室,2015年。
[74] M.Stoyanov,《局部各向异性和多层次父项背景下的自适应稀疏网格构建》,《稀疏网格和应用》(迈阿密,2016),Springer,2018年,第175-199页·Zbl 07007956号
[75] M.K.Stoyanov和C.G.Webster,多维函数准最优插值的动态自适应稀疏网格方法,计算。数学。申请。,71(2016),第2449-2465页·Zbl 1443.65010号
[76] E.Strubell、A.Ganesh和A.McCallum,《NLP深度学习的能源和政策考虑》,预印本,https://arxiv.org/abs/1906.02243,2019年。
[77] C.Szegedy、W.Zaremba、I.Sutskever、J.Bruna、D.Erhan、I.Goodfellow和R.Fergus,《神经网络的有趣特性》,预印本,https://arxiv.org/abs/1312.6199, 2013.
[78] W.Z.Taffese和E.Sistonen,《钢筋混凝土结构耐久性和使用寿命评估的机器学习:最新进展和未来方向》,《施工自动化》,77(2017),第1-14页。
[79] A.L.Tarca、V.J.Carey、X.-w.Chen、R.Romero和S.Drăghici,《机器学习及其在生物学中的应用》,公共科学图书馆计算。《生物学》,3(2007),e116。
[80] H.Tran、C.G.Webster和G.Zhang,具有确定性和随机系数的参数化偏微分方程的拟最优多项式逼近分析,数值。数学。,137(2017),第451-493页·Zbl 1380.41004号
[81] M.Unser,深度神经网络的代表定理,J.Mach。学习。决议,20(2019),第1-28页·Zbl 1434.68526号
[82] E.van den Berg和M.P.Friedlander,SPGL1:稀疏最小二乘解算器,2020年,https://friedlander.io/spgl1/。
[83] E.van den Berg和M.P.Friedlander,《探索基础追踪解决方案的帕累托边界》,SIAM J.Sci。计算。,31(2008),第890-912页,https://doi.org/10.1137/080714488。 ·Zbl 1193.49033号
[84] C.Wu、P.Karanasou、M.J.Gales和K.C.Sim,用于语音识别的受激深层神经网络,《2016年国际演讲会议录》,旧金山,2016年,第400-404页。
[85] D.Yarotsky,深度ReLU网络近似的误差界,神经网络。,94(2017年),第103-114页·Zbl 1429.68260号
[86] D.Yarotsky,超深ReLU网络对连续函数的最佳逼近,预印本,https://arxiv.org/abs/1802.03620, 2018.
[87] G.Zhang、J.Zhang和J.Hinkle,函数逼近中用于降维的学习非线性水平集,《神经信息处理系统进展32》,Curran Associates,Inc.,2019,第13199-13208页。
[88] B.Zieliníski、A.Plichta、K.Misztal、P.Spurek、M.Brzychczy-Włoch和D.Ochoníska,细菌菌落分类的深度学习方法,PLoS ONE,12(2017),e0184554。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。