×

神经网络的Lu分解和Toeplitz分解。 (英语) Zbl 1532.68082号

为了证明前馈神经网络的重要性,现在已知存在几个通用逼近定理,并使用以下类型的网络进行了证明:(i)浅宽网络:固定深度和任意宽度的神经网络;深-窄网络:具有固定宽度和任意深度的神经网络。
定理本身使用神经网络来表明,在不同的设置和各种定义明确的框架下,这些网络可以在各种精度度量下将各种类型的函数近似到任意精度。这在许多领域是一个非常重要的想法,例如在近似理论中。作为此类结果的示例,本文中的定理1.1和1.2是密度结果,是由Pinkus、Kidger和Lyons得出的。
通常,在所有这些结果中,神经网络是完全连接的。在这篇有趣的文章中,作者证明了对于具有特殊结构的权重矩阵,例如上下三角、Toeplitz或Hankel,对于浅宽网络和深窄网络都存在相同类型的通用逼近结果。从数值上看,作者表明,当保持相同的深度和宽度时,具有这些结构化权重矩阵的神经网络的表达能力几乎没有损失,但与通常的(O(n^2))操作相比,只需要一小部分的参数成本。
为了给出一点见解,我们注意到,任何矩阵(a)都有一个LU分解到置换。这意味着分解为上三角矩阵和下三角矩阵的置换。类似地,任何矩阵(a)都有Toeplitz分解。作者本质上证明了任何连续函数(f:mathbb R^n to mathbb R ^m)都可以通过一个神经网络逼近到任意精度,该神经网络将一个(x inmathbb R1U^n)映射到(L_1\sigma_1U_1\sigma_2L_2\sigma_3U_2…L_R\sigma_{2r-1}U_r,\,x\)\(\in\mathbb R^m\),其中权重矩阵在上三角矩阵和下三角矩阵之间交替,\(\sigma_i(x):=\sigma(x-b_i)\),具有一些偏倚向量\(b_i\)和\(\sigma \)任何非多项式函数,一致连续。作者对Toeplitz矩阵和Hankel矩阵建立了相同的结果。Toeplitz结果的一个结果是卷积神经网络的一个固定宽度的通用逼近定理,到目前为止,该网络只有任意宽度的版本。由于结果特别适用于(f)是一般神经网络的情况,因此可以将这些结果视为神经网络的LU和Toeplitz分解。因此,可以减少神经网络中的权重参数数量,而不会牺牲如上所示的通用逼近能力。

MSC公司:

68T05型 人工智能中的学习和自适应系统
2015财年65 矩阵特征值和特征向量的数值计算
15A23型 矩阵的因式分解
15个B05 Toeplitz、Cauchy和相关矩阵
41A30型 其他特殊函数类的近似
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Cybenko,G.,通过S形函数的叠加进行逼近。数学。控制信号系统。,4, 303-314 (1989) ·Zbl 0679.94019号
[2] Eldan,R。;Shamir,O.,前馈神经网络的深度幂,907-940
[3] 弗兰克尔,J。;Carbin,M.,彩票假说:寻找稀疏、可训练的神经网络
[4] 弗兰克尔,J。;Dziugaite,G.K。;罗伊·D·。;Carbin,M.,线性模式连通性和彩票假设,3259-3269
[5] Golub,G.H。;Van Loan,C.F.,《矩阵计算》。约翰·霍普金斯数学科学研究(1996),约翰·霍普金森大学出版社:约翰·霍普金大学出版社,马里兰州巴尔的摩·Zbl 0865.65009号
[6] 韩,S。;Pool,J。;Tran,J。;Dally,W.,学习有效神经网络的权重和连接。高级神经信息处理。系统。(2015)
[7] 哈宁,B。;Sellke,M.,用最小宽度的关系网逼近连续函数(2017)
[8] 哈西比,B。;Stork,D.,网络修剪的二阶导数:最佳脑外科医生。高级神经信息处理。系统。(1992)
[9] Hornik,K.,多层前馈网络的近似能力。神经网络。,2, 251-257 (1991)
[10] 霍尼克,K。;Stinchcombe,M。;White,H,多层前馈网络是通用逼近器。神经网络。,5, 359-366 (1989) ·Zbl 1383.92015年
[11] 井上,T。;Tokura,H。;Nakano,K。;Ito,Y.,gpu上的高效三角矩阵向量乘法,493-504
[12] Johnson,J.,Deep,skiny神经网络不是通用逼近器
[13] 凯莱福拉斯,V.I。;Kritikakou,美国。;Siourounis,K。;Goutis,C.E.,加快正则、Toeplitz和双对称Toeplitz-矩阵mvm的方法。J.信号处理。系统。,3, 241-255 (2014)
[14] Kidger,P。;Lyons,T.,深窄网络的通用近似,2306-2327
[15] Kiranyaz,S。;阿瓦西,O。;O.阿卜杜勒贾贝尔。;因斯,T。;Gabbouj,M。;Inman,D.J.,《一维卷积神经网络及其应用:综述》。机械。系统。信号处理。(2021)
[16] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,用深度卷积神经网络进行Imagenet分类。公社。ACM,684-90(2017)
[17] LeCun,Y。;Denker,J。;Solla,S.,《最佳脑损伤》。高级神经信息处理。系统。(1989)
[18] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,基于梯度的学习应用于文档识别。程序。IEEE,112278-2324(1998)
[19] 李,H。;A.卡达夫。;杜丹诺维奇,I。;萨梅特,H。;Graf,H.P.,高效转换网络的修剪过滤器(2016)
[20] Lin,H。;Jegelka,S.,Resnet具有一个神经元隐藏层,是一个通用逼近器。高级神经信息处理。系统。(2018)
[21] 卢,Z。;Pu,H。;Wang,F。;胡,Z。;Wang,L.,《神经网络的表达能力:从宽度角度看》。高级神经信息处理。系统。(2017年)
[22] Malach,E。;野虎代,G。;沙列夫·施瓦茨,S。;O.沙米尔,证明彩票假设:修剪就是你所需要的,6682-6691
[23] Morcos,A。;Yu,H。;帕格尼尼,M。;Tian,Y.,一票全胜:跨数据集和优化器推广彩票初始化。高级神经信息处理。系统。(2019)
[24] Nagarajan,K.R。;Devasahayam,M.P。;Soundararajan,T.,三个三角形矩阵的乘积。线性代数应用。,1-3, 61-71 (1999) ·Zbl 0933.15021号
[25] 南帕克。;Yun,C。;Lee,J。;Shin,J.,通用近似的最小宽度
[26] Pinkus,A.,神经网络中mlp模型的近似理论。Acta Numer.公司。,143-195 (1999) ·Zbl 0959.68109号
[27] Stewart,G.W.,矩阵计算的分解方法。计算。科学。工程师,150-59(2000)
[28] Telgarsky,M.,神经网络深度的益处,1517-1539
[29] 瓦斯瓦尼,A。;北沙泽尔。;北卡罗来纳州帕尔马。;Uszkoreit,J。;Jones,L。;A.N.戈麦斯。;凯撒,Ł。;我,Polosukhin,注意力是你所需要的。高级神经信息处理。系统。(2017年)
[30] Ye,K。;Lim,L.-H.,每个矩阵都是Toeplitz矩阵的乘积。已找到。计算。数学。,3, 577-598 (2016) ·Zbl 1342.15024号
[31] Yun,C。;Sra,S。;Jadbabaie,A.,小型relu网络是强大的记忆工具:对记忆能力的严密分析。高级神经信息处理。系统。(2019)
[32] 周大新,深度卷积神经网络的普遍性。申请。计算。哈蒙。分析。,2, 787-794 (2020) ·Zbl 1434.68531号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。