×

神经网络和脊样条的Banach空间表示定理。 (英语) Zbl 1507.68250号

摘要:我们开发了一个变分框架来理解神经网络学习的函数的性质,这些函数适合数据。我们提出并研究了一类受数据拟合约束的Radon域中具有类全变分正则化的连续域线性反问题。我们推导了一个表示定理,表明有限宽的单隐层神经网络是这些反问题的解。我们借鉴了变分样条理论中的许多技术,因此我们提出了多项式脊样条的概念,它对应于以截断幂函数作为激活函数的单隐层神经网络。表示器定理类似于经典的再生核Hilbert空间表示器定理,但我们证明了神经网络问题是在非Hilbertian Banach空间上提出的。虽然学习问题是在连续域中提出的,与核方法类似,但这些问题可以重新描述为有限维神经网络训练问题。这些神经网络训练问题具有与众所周知的权重衰减和路径形式正则化器相关的正则化器。因此,我们的结果揭示了训练神经网络的功能特性,也揭示了神经网络正则化器的设计。我们还表明,这些正则化子促进神经网络解具有理想的泛化性质。

MSC公司:

68T05型 人工智能中的学习和自适应系统
41甲15 样条线近似
46 E22型 具有再生核的希尔伯特空间(=(适当的)函数希尔伯特空间,包括de Branges-Rovnyak和其他结构空间)
46纳米10 函数分析在优化、凸分析、数学规划、经济学中的应用
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] B.Adcock和A.C.Hansen。广义采样和无限维压缩传感。计算数学基础,16(5):1263-13232016·Zbl 1379.94026号
[2] B.Adcock、A.C.Hansen、C.Poon和B.Roman。打破相干屏障:压缩传感的新理论。数学论坛,西格玛,第5卷。剑桥大学出版社,2017年·Zbl 1410.94030号
[3] F.巴赫。用凸神经网络打破维数的魔咒。机器学习研究杂志,18(1):629-6812017·Zbl 1433.68390号
[4] R.Balestriero和R.Baraniuk。深度学习的样条理论。《第35届机器学习国际会议论文集》,《机器学习研究进展》第80卷,第374-383页,瑞典斯德哥尔摩Stockholmsm¨assan,2018年7月10日至15日。PMLR公司。
[5] A.R.巴伦。S形函数叠加的普遍逼近界。IEEE信息理论汇刊,39(3):930-9451993·Zbl 0818.68126号
[6] A.R.Barron和J.M.Klusowski。使用全路径变量的深网的复杂性、统计风险和度量熵。arXiv预印本arXiv:1902.008002019。
[7] P.L.Bartlett和S.Mendelson。Rademacher和高斯复杂性:风险边界和结构结果。机器学习研究杂志,3(11月):463-482002·Zbl 1084.68549号
[8] A.斜纹。傅里叶绝对值收敛与应用的统一变换函数。第九届斯堪的纳维亚数学大会,第345-366页,1938年。
[9] C.Boyer、A.Chambolle、Y.D.Castro、V.Duval、F.De Gournay和P.Weiss。关于表示定理和凸正则化。SIAM优化杂志,29(2):1260-12812019·Zbl 1423.49036号
[10] K.Bredies和M.Carioni。有限维数据变分反问题解的稀疏性。变分法与偏微分方程,59(1):2020年第14期·Zbl 1430.49036号
[11] K.Bredies和H.K.Pikkarainen。测度空间中的反问题。ESAIM:控制、优化和变分计算,19(1):190-218,2013·Zbl 1266.65083号
[12] A.Calder´on。中间空间和插值,复合方法。数学研究所,24(2):113-1901964·Zbl 0204.13703号
[13] E.J.坎迪斯。Ridgelets:理论与应用。斯坦福大学博士论文,斯坦福大学,1998年。
[14] E.J.坎迪斯。神经网络的谐波分析。应用和计算谐波分析,6(2):197-218.1999·兹伯利0931.68104
[15] G.Cybenko。通过sigmoid函数的叠加进行逼近。控制、信号和系统数学,2(4):303-3141989·Zbl 0679.94019号
[16] C.de Boor和R.E.Lynch。关于样条曲线及其最小属性。数学与力学杂志,15(6):953-9691966·Zbl 0185.20501号
[17] S.Du、J.Lee、H.Li、L.Wang和X.Zhai。梯度下降法寻找深层神经网络的全局极小值。第36届机器学习国际会议论文集,机器学习研究进展第97卷,1675-1685页,美国加利福尼亚州长滩,2019a年6月9日至15日。PMLR公司。
[18] S.S.Du、X.Zhai、B.P´oczos和A.Singh。梯度下降可证明优化了过度参数化的神经网络。2019年5月6日至9日在美国洛杉矶新奥尔良举行的第七届国际学习代表大会上,2019b。
[19] J.Duchon。Sobolev空间中最小化旋转不变半范数的样条函数。多变量函数构造理论,第85-100页。斯普林格,1977年·Zbl 0342.41012号
[20] T.Ergen和M.Pilanci。深度神经网络的凸对偶性。arXiv预印本arXiv:2002.097732020。
[21] S.D.Fisher和J.W.Jerome。一个和多个变量中L1极值问题的样条解。《近似理论杂志》,13(1):73-831975·Zbl 0295.49002号
[22] G.B.福兰德。真实分析:现代技术及其应用。John Wiley&Sons,纽约,第二版,1999年·Zbl 0924.28001号
[23] K.-I.Funahashi公司。用神经网络近似实现连续映射。神经网络,2(3):183-1921989。
[24] P.Grohs、D.Perekrestenko、D.Elbr¨achter和H.B¨olcskei。深度神经网络近似理论。arXiv预印本arXiv:1901.02220,2019。
[25] 何凯(K.He)、张旭(X.Zhang)、任志刚(S.Ren)和孙建中(J.Sun)。用于图像识别的深度残差学习。在2016年6月举行的IEEE计算机视觉和模式识别会议上。
[26] S.赫尔加森。积分几何和Radon变换。纽约施普林格出版社,2014年。国际标准图书编号9781489994202·Zbl 1210.53002号
[27] M.Holschneider先生。小波:分析工具。牛津数学专著。克拉伦登出版社,1995年。为9780198505211英镑·Zbl 0874.42020
[28] K.Hornik、M.Stinchcombe和H.White。多层前馈网络是通用逼近器。神经网络,2(5):359-3661989·Zbl 1383.92015年
[29] F.约翰。平面波和球面平均值:应用于偏微分方程。施普林格纽约,2013年。国际标准图书编号9781461394532·Zbl 1326.35004号
[30] G.Kimeldorf和G.Wahba。关于切比雪夫样条函数的一些结果。数学分析与应用杂志,33(1):82-951971·Zbl 0201.39702号
[31] J.M.Klusowski和A.R.Barron。由一阶和二阶脊样条激活的神经网络进行的一致逼近。arXiv预印本arXiv:1607.77819v12016a。
[32] J.M.Klusowski和A.R.Barron。包括神经网络在内的高维岭函数组合的风险边界。arXiv预印arXiv:1607.014342016b。
[33] S.V.Konyagin、A.A.Kuleshov和V.E.Maiorov。岭函数理论中的一些问题。《Steklov数学研究所学报》,301(1):144-1692018年·Zbl 1405.41011号
[34] S.Kostadinova、S.Pilipovi´c、K.Saneva和J.Vindas。分布的脊波变换。积分变换与特殊函数,25(5):344-3582014·Zbl 1291.44011号
[35] M.G.Krein先生。抽象赋范线性空间中的L问题。矩理论中的一些问题,1938年。
[36] A.Krogh和J.A.Hertz。简单的权重衰减可以改进泛化。《神经信息处理系统的进展》,第950-957页,1992年。
[37] M.Leshno、V.Y.Lin、A.Pinkus和S.Schocken。具有非多项式激活函数的多层前馈网络可以逼近任何函数。神经网络,6(6):861-8671993。
[38] B.F.Logan和L.A.Shepp。根据投影优化函数重建。杜克数学杂志,42(4):645-6591975·兹比尔0343.41020
[39] V.E.马约洛夫。Lp-空间中脊函数的最佳逼近。乌克兰数学杂志,62(3):452-4662010·兹比尔1224.41093
[40] E.Mammen和S.van de Geer。局部自适应回归样条。《统计年鉴》,25(1):387-4131997年·Zbl 0871.62040号
[41] H.N.姆哈斯卡。一般浅网络的与维数无关的界。神经网络,123:142-1522020。
[42] C.A.米切利。散乱数据的插值:距离矩阵和条件正定函数。在近似理论和样条函数中,第143-145页。斯普林格,1984年·兹伯利0558.41012
[43] N.村田。使用三层网络及其近似界的函数的积分表示。神经网络,9(6):947-9561996。
[44] B.Neyshabur、R.R.Salakhutdinov和N.Srebro。Path-sgd:深度神经网络中的路径规范化优化。《神经信息处理系统进展》,第2422-2430页,2015年。
[45] L.Oneto、S.Ridela和D.Anguita。用于支持向量机学习的Tikhonov、ivanov和morozov正则化。机器学习,103(1):103-1362016·Zbl 1357.68179号
[46] G.Ongie、R.Willett、D.Soudry和N.Srebro。有界范数无限宽ReLU网的函数空间视图:多元情况。在2020年4月26日至30日于埃塞俄比亚亚的斯亚贝巴举行的第八届国际学习代表大会上。
[47] R.Parhi和R.D.Nowak。神经网络的作用激活函数。IEEE信号处理快报,27:1779-17832020。doi:10.1109/LSP.2020.3027517。
[48] A.平库斯。脊函数。剑桥数学丛书。剑桥大学出版社,2015年。国际标准图书编号9781316432587·兹比尔1331.41001
[49] P.M.普伦特。样条曲线和变分方法。多佛数学图书。多佛出版社,2013年。国际标准图书编号9780486783499·Zbl 0344.65044号
[50] S.Rosset、G.Swirszcz、N.Srebro和J.Zhu。”1无限维特征空间中的正则化。在计算学习理论国际会议上,第544-558页。施普林格,2007年·Zbl 1203.68167号
[51] B.鲁宾。考尔德再生公式、窗口X射线变换和Lp空间中的氡变换。傅里叶分析与应用杂志,4(2):175-1971998·Zbl 0933.42023号
[52] S.桑科。混合Lp(Rn)-空间中ΦVof-Lizorkin型空间的稠密性。数学研究,3(113):199-210,1995·Zbl 0863.46025号
[53] P.H.P.Savarese、I.Evron、D.Soudry和N.Srebro。无限宽有界范数网络在函数空间中的表现如何?2019年6月25日至28日,美国亚利桑那州凤凰城,COLT 2019学习理论会议,第2667-2690页,2019年。
[54] B.Sch¨olkopf和A.J.Smola。使用内核学习:支持向量机、正则化、优化及其他。麻省理工学院出版社,2002年。
[55] B.Sch¨olkopf、R.Herbrich和A.J.Smola。广义表示定理。在计算学习理论国际会议上,第416-426页。斯普林格,2001年·Zbl 0992.68088号
[56] L.施瓦茨。分布理论,第2卷。赫尔曼·巴黎,1966年·Zbl 0149.09501号
[57] U.Shaham、A.Cloninger和R.R.Coifman。深度神经网络的可证明近似性质。应用和计算谐波分析,44(3):537-5572018·Zbl 1390.68553号
[58] S.Shalev Shwartz和S.Ben David。理解机器学习:从理论到算法。剑桥大学出版社,2014年·Zbl 1305.68005号
[59] S.Sonoda和N.Murata。具有无界激活函数的神经网络是通用逼近器。应用和计算谐波分析,43(2):233-2682017·Zbl 1420.68177号
[60] E.M.Stein和R.Shakarchi。傅里叶分析:引言,第1卷。普林斯顿大学出版社,2011年·Zbl 1026.42001号
[61] M.Unser先生。深度神经网络的一个表示定理。机器学习研究杂志,20(110):1-302019·Zbl 1434.68526号
[62] M.不安全。反问题和机器学习的统一表示定理。《计算数学基础》,第1-2020页,2020年。
[63] M.Unser和J.Fageot。样条和变分反问题的本征banach空间。arXiv预印arXiv:1904.10818,2019。
[64] M.Unser、J.Fageot和J.P.Ward。样条函数是具有广义TV正则化的线性反问题的普遍解。《SIAM评论》,59(4):769-7932017年·Zbl 1382.41011号
[65] G.瓦巴。观测数据的样条模型,第59卷。SIAM,1990年·Zbl 0813.62001号
[66] C.Wei、J.D.Lee、Q.Liu和T.Ma。正则化问题:神经网络及其诱导核的泛化和优化。《神经信息处理系统进展》,第9709-9721199页。
[67] H.Wendland。分散数据近似。剑桥应用数学和计算数学专著。剑桥大学出版社,2010年。国际标准图书编号9780521131018·Zbl 1185.65022号
[68] F.Williams、M.Trager、D.Panozzo、C.Silva、D.Zorin和J.Bruna。浅层单变量ReLU网络的梯度动力学。《神经信息处理系统进展》,第8376-83851919页。
[69] M.P.Wolff和H.H.Schaefer。拓扑向量空间。数学研究生课文。施普林格,纽约,2012年。国际标准图书编号9781461271550。
[70] 徐永源,叶庆庆。广义Mercer核与再生核Banach空间,第258卷。美国数学学会,2019年·Zbl 1455.68009号
[71] W.Yuan、W.Sickel和D.Yang。莫里和坎帕纳托会见贝索夫、利佐金和特里贝尔。施普林格,2010年。国际标准图书编号9783642146077·Zbl 1207.46002号
[72] C.Zhang、S.Bengio、M.Hardt、B.Recht和O.Vinyals。理解深度学习需要重新思考概括。arXiv预印本arXiv:1611.033532016。
[73] H.Zhang、Y.Xu和J.Zhang。为机器学习复制内核Banach空间。机器学习研究杂志,10(12月):2741-27752009·Zbl 1235.68217号
[74] S.Zuhovicki。关于近似理论问题的评论。Mat.Zbirnik KDU,第169-183页,1948年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。