×

两个隐层神经网络的鲁棒性和资源效率识别。 (英语) Zbl 1504.65042号

摘要:我们讨论了两个类型为\(f(x)=1^T h(B^Tg(A^Tx))的全非线性层神经网络在\(\mathbb{R}^d\)上的结构识别和一致逼近,其中\(g=(g_1,\dots,g_{m_0}),h=(h_1,\dots,h{m_1}),A=(A_1|\dots|A_{m_0})\ in \mathbb{R}^{d\ times m_0})和\(B=(B_1|\dots|B_{m_1})\in\mathbb{R}^{m_0\times m_1}\),来自少量查询样本。本文提出的两个隐层情况的解决方案至关重要,因为它可以进一步推广到更深层次的神经网络。我们通过对网络的Hessian主动有限差分逼近进行采样来解决这个问题。收集几个近似Hessian可以可靠地逼近由对称张量(a_1 otimesa_1,dots,a_{m_0}otimes a_{m_0})跨越的矩阵子空间(mathcal{W})由第一层的权重与纠缠对称张量(v_1\otimes v_1,dots,v{m_1}\otimesv{m_1})组成,由第一层和第二层的权重的适当组合形成,对角线矩阵为(v_0)取决于第一层的激活功能。然后,通过求解一个鲁棒非线性程序来识别(mathcal{W})中的1秩对称张量,最大化单位Frobenius球面上竞争者的谱范数。我们保证在事后可验证的条件下稳定恢复。一旦计算出1秩对称张量(a_i\otimesa_i,i\in[m_0]\}\cup\{v_\ell\otimes v_\el,\ell\in[m2]\}\),我们将其正确归属于第一或第二层((a_i)的归属于第一层)。层的归属目前是基于半启发式推理,但它显示出可靠执行的明显潜力。如果(a_i,v_ell)正确地归属于各个层,并随后对网络进行去参数化,那么通过使用适当的自适应梯度下降迭代,就可以估计第一层激活函数的位移,直至达到内在对称性,并精确计算矩阵(G_0)。最后,通过简单的代数操作,可以从向量(v_\ell=A G_0b_\ell/\Vert A G_0 b_\ell\Vert_2)和(A_i)的值中解开权重(b_\hell)。我们识别网络权重的方法是完全构造性的,具有可量化的样本复杂性,因此有助于缩小网络训练阶段的黑盒性质。我们通过大量的数值实验证实了我们的理论结果,这些实验证实了所提出的算法管道的有效性和可行性。

理学硕士:

65日第15天 函数逼近算法
68T07型 人工神经网络与深度学习
90C26型 非凸规划,全局优化
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anandkumar,A.,Ge,R.,Janzamin,M.:通过交替秩1更新保证非正交张量分解(2014)。arXiv:1402.5180·Zbl 1319.62112号
[2] 安东尼,M。;Bartlett,PL,《神经网络学习:理论基础》(2009),剑桥:剑桥大学出版社,剑桥·Zbl 0968.68126号
[3] 巴赫,F.,《用凸神经网络打破维度诅咒》,J.马赫。学习。第18号、第1号、第629-681号决议(2017年)·Zbl 1433.68390号
[4] 贝内代托,JJ;Fickus,M.,有限归一化紧框架,高级计算。数学。,18, 2-4, 357-385 (2003) ·Zbl 1028.42022号 ·doi:10.1023/A:1021323312367
[5] Bengio,Y.、Lamblin,P.、Popovici,D.、Larochelle,H.:深度网络的贪婪分层培训。摘自:《神经信息处理系统进展》,第153-160页(2007年)
[6] Bhatia,R.,矩阵分析(2013),柏林:施普林格出版社,柏林·Zbl 0863.15001号
[7] Blum,A.,Rivest,R.L.:训练一个三节点神经网络是np完全的。摘自:《神经信息处理系统进展》,第494-501页(1989年)
[8] Breuel,T.M.、Ul-Hasan,A.、Al-Azawi,M.A.、Shafait,F.:使用LSTM网络打印英语和花体的高性能OCR。摘自:第十二届文件分析与识别国际会议,第683-687页(2013年)
[9] 布鲁纳,J。;Mallat,S.,不变散射卷积网络,IEEE Trans。模式分析。机器。智力。,35, 8, 1872-1886 (2013) ·doi:10.1109/TPAMI.2012.230
[10] Carlini,N.,Wagner,D.:评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会(SP),第39-57页(2017)
[11] 宾夕法尼亚州卡萨扎;Leonhard,N.,有限等范数parseval框架的类,Contemp。数学。,451, 11-32 (2008) ·Zbl 1210.42047号 ·doi:10.1090/conm/451/08755
[12] 西里桑,D。;美国迈尔。;Masci,J。;Schmidhuber,J.,用于交通标志分类的多列深度神经网络,神经网络。,32, 333-338 (2012) ·doi:10.1016/j.neunet.2012.02.023
[13] 科恩,A。;Daubechies,I。;DeVore,R。;Kerkyacharian,G。;Picard,D.,从点查询获取高维脊函数,Constr。约,35,2225-243(2012年)·Zbl 1318.62286号 ·doi:10.1007/s00365-011-9147-6
[14] Constantine,P.G.:《主动子空间:参数研究中降维的新思路》,第2卷。SIAM(2015)·Zbl 1431.65001号
[15] 康斯坦丁,PG;陶氏化学公司。;Wang,Q.,《理论和实践中的主动子空间方法:克里金曲面的应用》,SIAM J.Sci。计算。,36、4、A1500-A1524(2014)·Zbl 1311.65008号 ·数字对象标识代码:10.1137/130916138
[16] 德席尔瓦,V。;Lim,L-H,张量秩和最佳低秩逼近问题的适定性,SIAM J.矩阵分析。申请。,30, 3, 1084-1127 (2008) ·Zbl 1167.14038号 ·数字对象标识码:10.1137/06066518X
[17] 迪沃尔,RA;Oskolkov,K。;Petrushev,P.,前馈神经网络逼近,Ann.Numer。数学。,4, 261-288 (1996) ·Zbl 0884.41012号
[18] Devroye,L.,Gyorfi,L.:非参数密度估计:(L_1)视图。威利离散数学跨学科系列。威利(1985)·Zbl 0546.62015号
[19] Elbrächter,D.,Perekrestenko,D.,Grohs,P.,Bölcskei,H.:深度神经网络近似理论。IEEE传输。《信息论》67(5),2581-2623(2021)·兹比尔1473.68178
[20] Fefferman,C.,从输出重建神经网络,Rev.Mat.Iberoam。,10, 3, 507-555 (1994) ·Zbl 0877.68098号 ·doi:10.4171/RMI/160
[21] Fiedler,C.,Fornasier,M.,Klock,T.,Rauchensteiner,M.:纠缠权重的稳定恢复:从最小样本稳健识别深中性网络(2021)。arXiv公司:2101.07150
[22] Fornasier,M。;Schnass,K。;Vybiral,J.,高维中少数任意线性参数的学习函数,发现。计算。数学。,12, 2, 229-262 (2012) ·Zbl 1252.65036号 ·doi:10.1007/s10208-012-9115-y
[23] Fornasier,M.,Vybíral,J.,Daubechies,I.:用最少样本图对浅层神经网络进行稳健且资源高效的识别。Inf.推断。J.IMA(2021)。doi:10.1093/imaiai/iaaaa036·Zbl 1524.68274号
[24] 福卡特,S。;Rauhut,H.,《压缩传感数学导论》。应用和数值谐波分析(2013),巴塞尔:Birkhäuser,巴塞尔·Zbl 1315.94002号
[25] Gittens,A.,Tropp,J.A.:随机矩阵和的所有特征值的尾界(2011)。arXiv公司:1104.4513
[26] Golowich,N.、Rakhlin,A.、Shamir,O.:神经网络的大小依赖样本复杂性(2017)。arXiv:1712.06541·Zbl 1528.68354号
[27] Graves,A.,Mohamed,A.-R.,Hinton,G.:使用深度递归神经网络进行语音识别。摘自:2013年IEEE声学、语音和信号处理国际会议,第6645-6649页(2013)
[28] Hástad,J.,张量秩为NP-完全,J.算法,11,4,644-654(1990)·Zbl 0716.65043号 ·doi:10.1016/0196-6774(90)90014-6
[29] 希勒,CJ;Lim,L-H,大多数张量问题都是NP-hard,J.ACM,60,6,45(2013)·Zbl 1281.68126号 ·doi:10.1145/2512329
[30] 赫里斯塔奇,M。;朱迪茨基,A。;Spokoiny,V.,单指数模型中指数系数的直接估计,《Ann.Stat.》,29595-623(2001)·Zbl 1012.62043号 ·doi:10.1214/aos/1009210681
[31] Ichimura,H.,单指数模型的半参数最小二乘(SLS)和加权SLS估计,J.Econom。,58, 1-2, 71-120 (1993) ·Zbl 0816.62079号 ·doi:10.1016/0304-4076(93)90114-K
[32] Janzamin,M.,Sedghi,H.,Anandkumar,A.:克服非凸性的危险:使用张量方法保证神经网络的训练(2015)。arXiv公司:1506.08473
[33] Judd,J.S.:神经网络设计与学习的复杂性。麻省理工学院出版社(1990)
[34] Kawaguchi,K.:深度学习,没有糟糕的局部最低要求。在:《神经信息处理系统进展》,第586-594页(2016)
[35] Kolda,T.G.:对称正交张量分解很简单(2015)。arXiv公司:1503.01375
[36] Krizhevsky,A.,Sutskever,I.,Hinton,G.E.:基于深度卷积神经网络的Imagenet分类。摘自:《神经信息处理系统进展》,第1097-1105页(2012年)
[37] Li,K-C,《关于数据可视化和降维的主要黑森方向:Stein引理的另一个应用》,美国统计协会,87,420,1025-1039(1992)·Zbl 0765.62003年 ·doi:10.1080/01621459.1992.10476258
[38] Li,X.,脊多项式插值及其在神经网络中的应用,J.Compute。申请。数学。,144, 1-2, 197-209 (2002) ·兹比尔0999.41003 ·doi:10.1016/S0377-0427(01)00560-X
[39] Light,W.:脊函数、S形函数和神经网络。收录于:近似理论VII,第163-206页(1992年)·兹比尔0767.41023
[40] Magnus,JR,《关于区分特征值和特征向量》,经济学。理论,1,2179-191(1985)·网址:10.1017/S0266466600011129
[41] 迈耶,S。;Ullrich,T。;Vybiral,J.,《熵与岭函数类的抽样数》,Constr。约42,2231-264(2015年)·Zbl 1329.41043号 ·数字对象标识代码:10.1007/s00365-014-9267-x
[42] Mei,S.,Misiakiewicz,T.,Montanari,A.:双层神经网络的平均场理论:无量纲界限和核极限。摘自:学习理论会议(第2388-2464页)。PMLR(2019年)
[43] Mondelli,M.,Montanari,A.:关于学习双层神经网络和张量分解之间的联系。摘自:第22届国际人工智能与统计会议(第1051-1060页)。PMLR(2019年)
[44] 莫拉维克,M。;Schmid,M.,《Deepstack:head-up no-limit扑克中的专家级人工智能》,《科学》,3566337508-513(2017)·Zbl 1403.68202号 ·doi:10.1126/science.aam6960
[45] Y.Nakatsukasa。;索玛,T。;Uschmajew,A.,《在矩阵子空间中寻找低秩基》,数学。程序。,162, 1-2, 325-361 (2017) ·Zbl 1358.90107号 ·doi:10.1007/s10107-016-1042-2
[46] Petrushev,PP,岭函数和神经网络逼近,SIAM J.数学。分析。,30, 1, 155-189 (1998) ·兹比尔0927.41006 ·doi:10.1137/S0036141097322959
[47] 平库斯,A.:用脊函数近似。In:《曲面拟合和多分辨率方法》,第279-292页(1997年)·Zbl 0937.65016号
[48] Pinkus,A.,神经网络中MLP模型的近似理论,《数值学报》。,8, 143-195 (1999) ·Zbl 0959.68109号 ·doi:10.1017/S0962492900002919
[49] Qu,Q.,Sun,J.,Wright,J.:在子空间中寻找稀疏向量:使用交替方向的线性稀疏性。摘自:《神经信息处理系统进展》,第3401-3409页(2014年)
[50] Rellich,F.,Berkowitz,J.:特征值问题的扰动理论。CRC出版社(1969)·兹比尔0181.42002
[51] Robeva,E.,对称张量的正交分解,SIAM J.矩阵分析。申请。,37, 1, 86-102 (2016) ·doi:10.137/140989340
[52] Rotskoff,G.M.,Vanden-Eijnden,E.:作为相互作用粒子系统的神经网络:损失景观的渐近凸性和近似误差的普适标度(2018)。arXiv公司:1805.00915
[53] 沙哈姆,美国。;Cloninger,A。;Coifman,RR,深度神经网络的可证明近似性质,应用。计算。哈蒙。分析。,44, 3, 537-557 (2018) ·Zbl 1390.68553号 ·doi:10.1016/j.acha.2016.04.003
[54] Shalev-Shwartz,S.,Ben-David,S.:理解机器学习:从理论到算法。剑桥大学出版社(2014)·Zbl 1305.68005号
[55] 西尔弗·D。;黄,A。;CJ Maddison,《掌握深度神经网络和树搜索的游戏》,《自然》,5297587484(2016)·doi:10.1038/nature16961
[56] Soudry,D.,Carmon,Y.:没有坏的局部极小值:多层神经网络的数据独立训练误差保证(2016)。arXiv:1605.08361
[57] Stallkamp,J。;Schlipsing,M。;萨勒曼,J。;Igel,C.,《交通标志识别的基准机器学习算法》,《人工计算》。神经网络。,32, 323-332 (2012) ·doi:10.1016/j.neunet.2012.02.016
[58] Stein,CM,多元正态分布平均值的估计,Ann.Stat.,9,1135-1151(1981)·Zbl 0476.62035号 ·doi:10.1214/aos/1176345632
[59] Stewart,G.W.:奇异值分解的摄动理论。技术报告(1998年)
[60] 斯特姆,I。;拉普什金,S。;W·萨梅克。;Müller,K-R,单次试验EEG分类的可解释深层神经网络,神经学杂志。方法,274,141-145(2016)·doi:10.1016/j.jneumeth.2016.10.008
[61] Tao,T.:特征值何时稳定?(2008). https://terrytao.wordpress.com/2008/10/28/when-are-eigenvalues-stable/。2019-09-29访问
[62] Tao,T.:《随机矩阵理论专题》,第132卷。美国数学学会(2012)·兹比尔1256.15020
[63] Tropp,JA,Greed很好:稀疏近似的算法结果,IEEE Trans。Inf.理论,50,10,2231-2242(2004)·Zbl 1288.94019号 ·doi:10.1109/TIT.2004.834793
[64] van der Vaart,A.W.,Wellner,J.A.:弱收敛和经验过程。统计学中的斯普林格系列。施普林格(1996)·Zbl 0862.60002号
[65] Vershynin,R.:《高维概率:数据科学应用简介》,第47卷。剑桥大学出版社(2018)·Zbl 1430.60005号
[66] Wedin,P-á,与奇异值分解相关的扰动界,BIT-Numer。数学。,12, 1, 99-111 (1972) ·Zbl 0239.15015号 ·doi:10.1007/BF01932678
[67] Wiatowski,T。;Grohs,P。;Bölcskei,H.,深度卷积神经网络中的能量传播,IEEE Trans。信息理论,64,7,4819-4842(2017)·Zbl 1401.94267号 ·doi:10.1109/TIT.2017.2756880
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。