×

卷积神经网络的近似分析。 (英语) Zbl 07779658号

本文是关于卷积神经网络的近似分析。
典型的CNN可以定义为特征图\(T\)和分类器\(g\)的合成\(g\circ T:\Omega\subet\mathbb{R}^n\rightarrow\mathbb{R}\),其中\(T=\mathbf{F}(F)_{L,\sigma}\circ\cdots\circ\mathbf{F}(F)_{1,\sigma})是由具有激活函数(\sigma)的卷积层组成的特征抽取器,(g(x)=\sum_{i=1}^Kc_i\sigma(w_i^topx+b_i)是一个完全连接的双层神经网络。CNN网络(g\circ T)由参数集(Theta)决定每个卷积层中的卷积核和分类器中的参数(ci,bi,wi)。给定\(m)个训练样本\({(x_i,f^*(x_i))}_{i=1}^m),其中\(f^*)是预言分类器,近似分类器\(g^*\circ T^*)通过求解经验最小化来确定:\[(g^*,T^*)=\arg\min_{\Theta}\frac{1}{m}\sum_{i=1}^m((g\circ T)(x_i;\Theta)-f^*(x_i))^2。\](g^*\circ T^*\)的分类精度由\(g^*\cic T^*-f^*\ |:=(int_{\Omega}(f^*(x)-g^*(T^*(x)))^2d\mu)^{1/2}\)定义,其中\(\mu\)是\(\Omega)上的概率测度。为了了解网络的近似特性,分类精度的分析通常是通过偏差估计和方差估计\[\|g^*\circ T^*-f^*\|\le\|g\ circ T-f,\]其中,(g\circ T-f^*\|\)是表示空间(mathcal{H}^{L,K}:=\{g\cick T(\cdot;\Theta)|\Theta\})逼近能力的偏差项,而(g\circ T-g^*\circT ^*\|)是表示由于采样过程和最小化模型而导致的误差的方差项。
本文给出了以下主要结果。
首先,如果(T)是稳定的,即(T(x)-T(y)和可分的,即对于某些(C,C>0),(T(x)-T。
其次,基于Bernstein不等式和假设所有样本都是i.i.d.和\(|f|\le M\)(f\in\mathcal{H}^{L,K}\),证明了对于任何\(δ>0\)和\(0<\gamma<1\)\[\mathbb{P}\left\{\sup_{f\in\mathcal{H}^{L,K}}\frac{\mathbb{E}(f)-\mathbb{E} z(_z)(f) }{\sqrt{\mathbb{E}(f)+\delta}}>4\gamma\sqrt{delta}\right\}\le\mathscr{无}_{\mathcal{H}^{L,K}}\压裂{\gamma\delta}{2M}\exp(-3\gamma^2M\delta/8),\]其中\(\mathscr{无}_{\mathcal{H}^{L,K}}\)是\(\mathcal{H}^{L、K}\)的覆盖数。
因此,通过结合上述两个主要结果,可以证明对于任何(epsilon>0),都具有满意的分类精度\[\mathbb{P}\left\{\mathscr{A}(g^*\circ T^*)\ge 1-\epsilon\right\}\ge 1-\ mathscr{无}_{\mathcal{H}^{L,K}}\压裂{\epsilon}{32M}\exp(-3m\epsilen/256)。\]
然后,本文转向CNN的可分离性,即特征映射(T:\mathbb{R}^n\rightarrow\mathbb{R}^p\)。
对于输出维数大于输入维数的情况,即(p\gen),本文表明很容易构造一个单层CNN(T:=mathbf{F}(F)_\sigma(x):=[\sigma(\mathbf{F}(x)),\sigma。
对于(p<n)的情况,情况更为复杂,需要使用数据稀疏结构的压缩传感技术。总之,在稀疏性假设下,特征映射(T)的降维可以近似等距且概率很高。利用线性映射的限制等距性质(RIP)和近似稀疏性假设,证明了可以用(2p<n)构造二层卷积网络(T:mathbb{R}^n\rightarrow\mathbb}R}^{2p}),使得(T\)是可分的。此外,特征映射(T)可以构造为1层卷积层的组成,每个核的支持最大为3。
本文还利用激活函数研究了非线性的优点。对于(C^\infty)和非退化的\(sigma),证明了\(E(tilde f)>E(tilder f \circ P_\sigma(x;tilde V,tilde U,tilde b)),其中\(tilde f=\ tilde g^*(W_1^*x+b_1^*)\)最小化\ b):=x+V \σ(Ux+b)\)。也就是说,与原始最佳线性变换相比,输入的非线性变换可以进一步减小近似误差。
最后,本文通过尺度分析考虑了CNN中使用的层次结构的优点。在预言函数(f^*)属于复合函数空间的假设下,本文证明了为了达到相同的精度(epsilon),全连通网络的最小参数总数为(S_1=mathscr{O}(n^{alpha+1}/epsilon^beta),而对于网络({hatH}\circ{mathbf{hatG}})从卷积网络(mathbf{hatG})和全连通网络(hatH})的组成来看,参数的最小总数是(S_2=mathscr{O}(r^{alpha+1}/\epsilon^beta+p^{alba+1}/\ epsilon ^beta)。这样的结果可以产生一个带有参数\(logn)^{\beta+1}\)的CNN体系结构,这比完全连接网络的\(n^{\alpha+1}\要好得多。

MSC公司:

41A63型 多维问题
68时01分 人工智能的一般主题
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] A.R.Barron,σ函数叠加的通用近似界,IEEE Trans。通知。理论39,30-945(1993)·Zbl 0818.68126号
[2] A.R.Barron,人工神经网络的近似和估计界,马赫数。学习。14(1), 115-133 (1994). ·Zbl 0818.68127号
[3] 蔡建峰,冀宏,沈振斌,叶国斌,数据驱动紧框架构造与图像去噪,应用。计算。哈蒙。分析。37(1), 89-105 (2014). ·Zbl 1336.94008号
[4] 蔡建峰,沈振斌,叶国斌,基于帧的丢失数据恢复近似,应用。Com-输入。哈蒙。分析。31(2), 185-204, (2011). ·邮编:1220.94005
[5] E.J.Candes,《受限等距特性及其对压缩传感的影响》,Comptes Rendus Math。346(9-10), 589-592 (2008). ·Zbl 1153.94002号
[6] E.J.Candes和T.Tao,线性编程解码,IEEE Trans。《信息论》51(12),4203-4215(2005)·Zbl 1264.94121号
[7] N.Cohen、O.Sharir和A.Shashua,《深度学习的表达能力:张量分析》,载于:COLT 16,698-728(2016)。
[8] N.Cohen和A.Shashua,卷积整流器网络作为广义张量分解,收录于:《国际机器学习会议论文集》,955-963(2016)。
[9] F.Cucker和S.Smale,《学习的数学基础》,布尔。阿默尔。数学。《社会分类》39(1),1-49(2002)·Zbl 0983.68162号
[10] G.Cybenko,通过sigmoid函数的叠加进行逼近,数学。控制。信号,系统。2(4), 303-314 (1989). ·Zbl 0679.94019号
[11] S.Foucart和H.Rauhut,压缩传感数学导论,Birkhäuser(2013)·Zbl 1315.94002号
[12] R.Giryes、G.Sapiro和A.M.Bronstein,具有随机高斯权重的深度神经网络:通用分类策略?,IEEE传输。信号处理。64(13), 3444-3457 (2016). ·Zbl 1414.94217号
[13] I.Goodfellow、J.Shlens和C.Szegedy,《解释和利用对抗性示例》,arXiv:1412.6572(2014)。
[14] 何凯、张旭、任松生、孙建军,图像识别的深度剩余学习,载:CVPR(2016)。
[15] K.Hornik,多层前馈网络的逼近能力,神经网络。4(2), 251-257 (1991).
[16] G.Huang、Z.Liu、L.Maaten和K.Weinberger,《紧密连接卷积网络》,载于:CVPR(2017)。
[17] A.Krizhevsky、I.Sutskever和G.Hinton,深度卷积神经网络的Imagenet分类,收录于:NIPS(2012)。
[18] M.Leshno、V.Lin、A.Pinkus和S.Schocken,具有非多项式激活函数的多层前馈网络可以近似任何函数,神经网络。6(6), 861-867 (1993).
[19] Q.Li,T.Cheng和Z.Shen,通过函数组合进行深度近似,个人通信(2019)。
[20] H.Lin和S.Jegelka,Resnet with one neuron hidden layers is a universal approsor,in:NeurIPS(2018)。
[21] 卢总、蒲海平、王凤、胡总、王丽萍,《神经网络的表达能力:从宽度角度看》,载:NIPS(2017)。
[22] S.Mallat,群不变散射,Comm.Pure Appl。数学。65(10), 1331-1398 (2012). ·Zbl 1282.47009号
[23] S.Mallat,《理解深卷积网络》,Phil.Trans。R.Soc.A 374(2065),https://doi.org/10.1098/rsta.2015.0203 (2016). ·doi:10.1098/rsta.2015.0203
[24] H.Mhaskar、Q.Liao和T.Poggio,《学习功能:何时深度优于浅层》,arXiv:1603.00988(2016)。
[25] H.Mhaskar和T.Poggio,深度与浅层网络:近似理论视角,分析。申请。14(06), 829-848 (2016). ·Zbl 1355.68233号
[26] G.Montufar和N.Ay,深信度网络和受限Boltzmann机器通用近似结果的改进,神经计算。23(5), 1306-1319 (2011). ·Zbl 1274.62128号
[27] G.F.Montufar、R.Pascanu、K.Cho和Y.Bengio,关于深层神经网络的线性区域数量,见:NIPS(2014)。
[28] V.Papyan、Y.Romano和M.Elad,通过卷积稀疏编码分析的卷积神经网络,J.Mach。学习。第18(1)号决议,2887-2938(2017)·Zbl 1434.68444号
[29] R.Pascanu、G.Montufar和Y.Bengio,关于分段线性激活的深度前馈网络的响应区域数量,arXiv:1312.6098(2013)。
[30] N.Roux和Y.Bengio,受限Boltzmann机器和深度信念网络的表征能力,神经计算。20(6), 1631-1649 (2008). ·Zbl 1140.68057号
[31] N.Roux和Y.Bengio,深度信念网络是紧凑的通用逼近器,Neural Com-put。22(8), 2192-2207 (2010). ·Zbl 1195.68079号
[32] U.Shaham,A.Cloninger和R.Coifman,深度神经网络的可证明近似性质,应用。计算。哈蒙。分析。44(3), 537-557 (2018). ·Zbl 1390.68553号
[33] 沈振中,杨浩,张S.,以neu-rons数为特征的深网络近似,Commun。计算。物理学。28, 1768-1811 (2020). ·Zbl 1507.68276号
[34] K.Simonyan和A.Zisserman,《用于大规模图像识别的极深卷积网络》,arXiv:1409.1556(2014)。
[35] C.Szegedy、W.Zaremba、I.Sutskever、J.Bruna、D.Erhan、I.Goodfellow和R.Fergus,《神经网络的有趣特性》,arXiv:1312.6199(2013)。
[36] C.Tai,W.E,信号的多尺度自适应表示:I.基本框架,J.Mach。学习。第17(140)号决议,第1-38(2016)号决议·兹比尔1391.94406
[37] M.Telgarsky,《神经网络深度的好处》,arXiv:1602.04485(2016)。
[38] V.Vapnik,统计学习理论,Wiley(1998)·兹比尔0935.62007
[39] T.Wiatowski和H.Bölcskei,用于特征提取的深度卷积神经网络的数学理论,IEEE Trans。通知。理论64(3),1845-1866(2018)·Zbl 1390.94053号
[40] C.Zhang、S.Bengio、M.Hardt、B.Recht和O.Vinyals,《理解深度学习需要重新思考泛化》,arXiv:1611.03530(2016)。
[41] 周德祥,深度卷积神经网络的普遍性,应用。计算。哈蒙。分析。48(2), 787-794 (2020). ·Zbl 1434.68531号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。