×

神经网络近似:三个隐藏层就足够了。 (英语) 兹伯利07743433

众所周知,深度足够的神经网络在逼近高维复杂函数方面具有强大的能力。令人惊讶的是,本文构造了一个只有三个隐层但具有超逼近能力的神经网络。该网络在三个隐藏层使用不同的激活功能。具体来说,近似函数(f)的网络由下式给出\[\φ(\mathbf{x})=2\omega_f(2\sqrt{d})\sum_{j=1}^N2^{-j}\sigma_3\biggl(a_j\cdot\sigma_2\bigl(1+\sum_{i=1}^d2^{(i-1)N}\sigama_1(2^{N-1}x_i)\大R)\biggr)+f(\mathbf{0})-\omega_f(2\sqrt{d}),\\mathbf}=(x_1,x_2,\ldots,x_d)\in\mathbf{R}^d,\]其中,\(N\)表示网络的宽度,\(\omega_f(\cdot)\)是\(f\),\(a_i\ in[0,\frac12)\),(1\lei\leN\)的连续模\[\西格玛_1(x):=\lfloor x \rfloor,\\sigma_2(x):=2^x,\\sigga_3(x,\]带有\[\数学{T}(x):=\left\{\begin{array}{ll}1,&x\ge 0\\0,&x<0。\右端{数组}。\]本文证明了对于([0,1]^d)上的连续函数(f),在[0,frac12)中存在(a_1,a_2,ldots,a_N),使得\[|f(\mathbf{x})-\phi(\mathbf{x{)|\le 2\omega_f(2\sqrt{d})2^{-N}+\omega_f(2\ sqrt{d} 2个^{-N}),\\mathbf{x}\在[0,1]^d。\]因此,当(f)是Hölder连续的阶(α在(0,1]\)中具有Hö尔德常数(λ)时,存在(a_1,a_2,ldots,a_N在[0,frac12)中),这样\[|f(\mathbf{x})-\phi(\mathbf{x{)|\le 3\lambda(2\sqrt{d})^\alpha2^{-\alpha N},\\mathbf}x}在[0,1]^d中,\]这意味着所提出的三层隐层神经网络可以随着宽度的增加指数逼近Hölder连续函数。结果揭示了深层神经网络表达能力的一个有趣而重要的特性。文中还讨论了这些结果在机器学习中的应用。

MSC公司:

68T07型 人工神经网络与深度学习

软件:

二进制网络
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arnold,V.I.,《关于三个变量的函数》,Doklady Akademii Nauk SSSR,114,679-681(1957),网址:http://mi.mananet.ru/dan22002 ·兹比尔0090.27101
[2] Barron,A.R.,σ函数叠加的通用近似界,IEEE信息理论汇刊,39,3,930-945(1993)·Zbl 0818.68126号
[3] Barron,A.R。;Klusowski,J.M.,《高维深度学习网络的近似与估计》(2018),arXiv e-prints arXiv:1809.03090
[4] Bartlett,P。;Maiorov,V。;Meir,R.,分段多项式网络的几乎线性VC-维数界,神经计算,102159-2173(1998)
[5] Y.本吉奥。;莱昂纳德,N。;Courville,A.,为条件计算估计或传播随机神经元梯度(2013),arXiv电子打印arXiv:1308.3432
[6] Boo,Y。;Shin,S。;Sung,W.,量化神经网络:表征和整体优化(2020),arXiv电子打印arXiv:2006.00530
[7] Braun,J。;Griebel,M.,关于Kolmogorov叠加定理的构造性证明,构造逼近,30653-675(2009)·Zbl 1194.26020号
[8] 卡里略,J.A.T。;Jin,S。;李,L。;Zhu,Y.,一种基于共识的高维机器学习问题全局优化方法(2019),arXiv e-print arXiv:1909.09249
[9] 陈,Z。;曹毅。;邹,D。;Gu,Q.,多少过参数化足以学习深层ReLU网络?(2019),CoRR arXiv:1911.12360。网址:https://arxiv.org/abs/1911.12360
[10] 陈,M。;姜浩。;Liao,W。;Zhao,T.,低维流形上函数的深度ReLU网络的有效逼近,(Wallach,H.;Larochelle,H.,Beygelzimer,A.;d'AlchéBuc,F.;Fox,E.;Garnett,R.,《神经信息处理系统的进展》32(2019),Curran Associates,Inc.),8174-8184
[11] Chen,L。;Wu,C.,关于高维空间中深度校正线性单位网络表达能力的注释,应用科学中的数学方法,42,9,3400-3404(2019)·兹比尔1416.41018
[12] 杜,S.S。;翟,X。;波佐斯,B。;Singh,A.,梯度下降可证明优化了过参数化神经网络,(国际学习表征会议(2019年)),URL:https://openreview.net/forum?id=S1eK3i09YQ
[13] E、 W。;马,C。;Wu,L.,两层神经网络人口风险的先验估计,数学科学中的通信,17,5,1407-1425(2019)·Zbl 1427.68277号
[14] E、 W。;Wang,Q.,解析函数深度神经网络近似的指数收敛性(2018),CoRR abs/1807.00297。网址:http://arxiv.org/abs/1807.00297,邮编:1807.00297
[15] Gühring,I。;Kutyniok,G。;Petersen,P.,(W^{s,P})范数中深度ReLU神经网络近似的误差界(2019),arXiv e-prints arXiv:1902.07896
[16] 新泽西州古利耶夫。;Ismailov,V.E.,具有固定权重的两个隐层前馈神经网络的逼近能力,神经计算,316,262-269(2018)
[17] 北卡罗来纳州哈维。;Liaw,C。;Mehrabian,A.,分段线性神经网络的近紧VC-维数界限,(Kale,S.;Shamir,O.,2017年学习理论会议论文集。2017年学习论会议论文集,机器学习研究论文集,第65卷(2017),PMLR:PMLR阿姆斯特丹,荷兰),1064-1068,URL:http://proceedings.mlr.press/v65/harvey17a.html
[18] Holland,J.H.,《遗传算法》,《科学美国人》,267,1,66-73(1992),网址:http://www.jstor.org/stable/24939139
[19] 胡巴拉,I。;Courbariaux,M。;Soudry,D。;El-Yaniv,R。;Bengio,Y.,量化神经网络:用低精度权重和激活训练神经网络,机器学习研究杂志,18,1,6869-6898(2017)·Zbl 1468.68183号
[20] Hutzenthaler,M。;Jentzen,A。;Wurstemberger,v.W.,《克服具有违约风险的金融衍生品近似定价中的维度诅咒》,《概率电子杂志》,25,73(2020)·Zbl 1469.60220号
[21] 伊格尔尼克,B。;Parikh,N.,Kolmogorov样条网络,IEEE神经网络汇刊,14,4,725-733(2003)
[22] Jacot,A。;加布里埃尔,F。;Hongler,C.,《神经切线核:神经网络中的收敛和泛化》,(Bengio,S.;Wallach,H.;Larochelle,H.,Grauman,K.;Cesa-Bianchi,N.;Garnett,R.,《神经信息处理系统的进展》,第31卷(2018),Curran Associates,Inc.),8571-8580,URL:https://proceedings.neurips.cc/paper/2018/file/5a4be1fa34e62bb8a6ec6b91d2462f5a-paper.pdf
[23] 肯尼迪,J。;Eberhart,R.,《粒子群优化》(ICNN’95国际神经网络会议论文集,第4卷(1995)),1942-1948
[24] 柯克帕特里克,S。;盖拉特,C.D。;Vecchi,M.P.,《模拟退火优化》,《科学》,220,4598,671-680(1983)·兹比尔1225.90162
[25] Kolmogorov,A.N.,关于通过少量变量的连续函数的叠加来表示多个变量的连续功能,Doklady Akademii Nauk SSSR,108,179-182(1956)·Zbl 0070.28301号
[26] Kolmogorov,A.N.,关于通过一个变量的连续函数和加法的叠加来表示多个变量的持续函数,Doklady Akademii Nauk SSSR,114,953-956(1957),URL:http://mi.mananet.ru/dan22050 ·Zbl 0090.27103号
[27] Kůrková,V.,Kolmogorov定理是相关的,神经计算,3,41617-622(1991)
[28] Kůrková,V.,Kolmogorov定理和多层神经网络,神经网络,5,3,501-506(1992)
[29] 李,Q。;Lin,T。;Shen,Z.,《通过动力系统进行深度学习:近似观点》,《欧洲数学学会杂志》(2021年),(印刷中)
[30] Lin,Y。;雷,M。;Niu,L.,量化神经网络中的优化策略:综述,(2019年国际数据挖掘研讨会(ICDMW)(2019)),385-390
[31] 卢,Y。;马,C。;卢,Y。;卢,J。;Ying,L.,《深层及更深层的平均场分析:通过深度超参数化实现可证明的优化》(2020年),CoRR abs/2003.05508。arXiv:2003.05508年
[32] 卢,J。;沈,Z。;Yang,H。;Zhang,S.,平滑函数的深度网络近似(2020),arXiv e-prints arXiv:2001.03040
[33] Luo,T。;Yang,H.,偏微分方程的双层神经网络:优化和泛化理论(2020),arXiv电子指纹arXiv:abs/2006.15733
[34] Maiorov,V。;Pinkus,A.,MLP神经网络近似的下限,神经计算,25,1,81-91(1999)·Zbl 0931.68093号
[35] 梅,S。;Montanari,A。;Nguyen,P.-M.,双层神经网络景观的平均视野,《美国国家科学院院刊》,115,33,E7665-E7671(2018)·Zbl 1416.92014号
[36] Montanelli,H。;Du,Q.,使用稀疏网格的深层ReLU网络的新误差界,SIAM数据科学数学杂志,1,1,78-92(2019)·兹比尔1513.68054
[37] Montanelli,H。;Yang,H.,使用Kolmogorov-Anold叠加定理的深度ReLU网络的误差界,神经网络,129,1-6(2020)·Zbl 1512.41013号
[38] Montanelli,H。;Yang,H。;Du,Q.,Deep ReLU网络克服了带限函数的维数灾难,计算数学杂志(2020)
[39] Nelder,J。;Mead,R.,函数最小化的单纯形方法,《计算机杂志》,7308-313(1965)·Zbl 0229.65053号
[40] Opschoor,J.A。;施瓦布,C。;Zech,J.,(高维全纯映射的指数ReLU DNN表达式。高维全真映射的指数ReLU DND表达式,SAM研究报告,第2019-35卷(2019年),应用数学研讨会,苏黎世联邦理工大学:应用数学研讨会),URL:https://math.ethz.ch/sam/research/reports.html?id=839
[41] 彼得森,P。;Voigtlaender,F.,使用深度ReLU神经网络的分段光滑函数的最佳逼近,神经网络,108,296-330(2018)·Zbl 1434.68516号
[42] 皮诺,R。;托泽克,C。;谢,欧。;Martin,S.,《基于共识的全局优化模型及其平均场限值》,《应用科学中的数学模型与方法》,27,01,183-204(2017)·Zbl 1388.90098号
[43] Poggio,T。;哈斯卡,H.N。;Rosasco,L。;米兰达,B。;Liao,Q.,《为什么以及何时深层而非浅层网络可以避免维度诅咒:综述》,《国际自动化与计算杂志》,第14期,第503-519页(2017年)
[44] Schmidt-Hieber,J.,使用具有ReLU激活函数的深度神经网络的非参数回归,《统计学年鉴》,48,418875-1897(2020),网址:https://projecteuclid.org/euclid.aos/1597370649 ·Zbl 1459.62059号
[45] Schmidt-Hieber,J.,科尔莫戈罗夫·阿诺德表示定理重温,神经网络,137119-126(2021)·Zbl 1532.68100号
[46] 沈,Z。;Yang,H。;Zhang,S.,通过合成的非线性近似,神经网络,119,74-84(2019)·Zbl 1475.41013号
[47] 沈,Z。;Yang,H.等人。;Zhang,S.,以神经元数量为特征的深度网络近似,计算物理中的通信,28,5,1768-1811(2020)·Zbl 1507.68276号
[48] 沈,Z。;Yang,H。;Zhang,S.,近似误差为宽度与深度平方根幂倒数的深度网络,神经计算,33,4,1005-1036(2021)·Zbl 1521.41007号
[49] 沈,Z。;Yang,H。;Zhang,S.,relu网络在宽度和深度方面的最佳近似率,Journal de Mathématiques Pures et Appliquées(2021),(出版中)
[50] 王,P。;胡,Q。;Zhang,Y。;张,C。;刘,Y。;Cheng,J.,低比特神经网络的两步量化,(2018 IEEE/CVF计算机视觉和模式识别会议(2018)),4376-4384
[51] Wu,L。;马,C。;E、 W.,SGD如何选择过参数化学习中的全局最小值:动态稳定性观点,(Bengio,S.;Wallach,H.;Larochelle,H.,Grauman,K.;Cesa-Bianchi,N.;Garnett,R.,《神经信息处理系统的进展》31(2018),Curran Associates,Inc.),8279-8288,URL:https://papers.nips.cc/paper/2018/hash/6651526b6fb8f29a00507de6a49ce30f-Abstract.html
[52] Yang,Y。;Wang,Y.,用深度ReLU神经网络在位移-变空间中的逼近(2020),arXiv电子印刷品arXiv:2005.1949
[53] Yarotsky,D.,深度ReLU网络近似的误差界,神经网络,94,103-114(2017)·Zbl 1429.68260号
[54] Yarotsky,D.,通过非常深的ReLU网络对连续函数的最佳逼近,(Bubeck,S.;Perchet,V.;Rigollet,P.,《第31届学习理论会议论文集》,《机器学习研究论文集》第75卷(2018),PMLR),639-649,URL:http://proceedings.mlr.press/v75/yarotsky18a.html
[55] 雅罗斯基,D。;Zhevnerchuk,A.,深度神经网络近似率的相图,(Larochelle,H.;Ranzato,M.;Hadsell,R.;Balcan,M.F.;Lin,H..,《神经信息处理系统的进展》,第33卷(2020年),Curran Associates,Inc.),13005-13015,URL:https://proceedings.neurips.cc//paper_files/paper/2020/hash/979a3f14bae523dc5101c52120c535e9-Abstract.html
[56] 尹,P。;Lyu,J。;张,S。;Osher,S.J。;齐,Y。;Xin,J.,《理解训练激活量化神经网络中的直通估计器》,(国际学习表征会议(2019年)),网址:https://openreview.net/forum?id=Skh4jRcKQ
[57] Zhang,S.,通过函数组合进行深度神经网络近似(2020),新加坡国立大学:新加坡国立大学,URL:https://schoolrbank.nus.edu.sg/handle/10635/186064
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。