×

在Banach空间中具有值的两层神经网络。 (英语) Zbl 07632464号

摘要:我们研究了两层神经网络,其域和范围是具有可分离前馈的Banach空间。此外,我们假设图像空间具有偏序,即它是Riesz空间。由于非线性,我们选择了取正部分的晶格操作;在(mathbb{R}^d)值神经网络的情况下,这对应于ReLU激活函数。我们用Monte-Carlo速率证明了一类函数的逆逼近和直接逼近定理,推广了有限维情形的现有结果。在本文的第二部分中,我们从正则化理论的观点出发,研究了从有限个噪声观测值中,通过潜在空间上的符号测度来寻找此类函数的最优表示的问题。我们讨论了称为源条件的正则性条件,并在适当的速率下,当噪声级为零且样本数为无穷大时,获得了该区域中表示测度在Bregman距离上的收敛速度。

MSC公司:

68问题32 计算学习理论
68T07型 人工神经网络与深度学习
46E40型 向量值函数和算子值函数的空间
第41页第65页 抽象近似理论(赋范线性空间和其他抽象空间中的近似)
65J22型 抽象空间反问题的数值解法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.A.Aálvarez、L.Rosasco和N.D.Lawrence,向量值函数的内核:综述,Found。趋势马赫数。学习。,4(2012),第195-266页,https://doi.org/10.1561/22000036。 ·兹比尔1301.68212
[2] S.R.Arridge、P.Maass、O.O¨ktem和C.-B.Scho¨nlieb,《使用数据驱动模型解决反问题》,《数值学报》。,28(2019),第1-174页,https://doi.org/10.1017/S096249291900059。 ·Zbl 1429.65116号
[3] F.Bach,《用凸神经网络打破维度诅咒》,J.Mach。学习。决议,18(2017),第1-53页,http://jmlr.org/papers/v18/14-546.html。 ·Zbl 1433.68390号
[4] A.Barron,σ函数叠加的通用近似界,IEEE Trans。通知。《理论》,39(1993),第930-945页,https://doi.org/10.109/18.256500。 ·Zbl 0818.68126号
[5] A.R.Barron、A.Cohen、W.Dahmen和R.A.DeVore,贪婪算法的近似和学习,Ann.Statist。,36(2008)第64-94页,https://doi.org/10.1214/009053607000000631。 ·Zbl 1138.62019号
[6] M.Benning和M.Burger,反问题的现代正则化方法,《数值学报》。,27(2018),第1-111页·Zbl 1431.65080号
[7] K.Bhattacharya、B.Hosseini、N.B.Kovachki和A.M.Stuart,参数偏微分方程的模型简化和神经网络,SMAI J.Compute。数学。,7(2021年),第121-157页,https://smai-jcm.centre-mersenne.org/articles/10.5802/smai-jcm.74/。 ·Zbl 1481.65260号
[8] G.Blanchard和N.Muícke,统计逆学习问题正则化的最佳速率,Found。计算。数学。,18(2018),第971-1013页,https://doi.org/10.1007/s10208-017-9359-7。 ·Zbl 1412.62042号
[9] C.Boyer、A.Chambolle、Y.D.Castro、V.Duval、F.de Gournay和P.Weiss,《关于表示定理和凸正则化》,SIAM J.Optim。,29(2019),第1260-1281页,https://doi.org/10.1137/18M1200750。 ·Zbl 1423.49036号
[10] K.Bredies和M.Carioni,有限维数据变分反问题解的稀疏性,计算变量偏微分方程,59(2020),14,https://doi.org/10.1007/s00526-019-1658-1。 ·Zbl 1430.49036号
[11] K.Bredies和H.K.Pikkarainen,测度空间中的逆问题,ESAIM控制优化。计算变量,19(2013),第190-218页,https://doi.org/10.1051/cocv/2011205。 ·Zbl 1266.65083号
[12] E.-M.Brinkmann、M.Burger、J.Rasch和C.Sutour,变分正则化中的偏差减少,J.Math。成像视觉。,59(2017),第534-566页,https://doi.org/10.1007/s10851-017-0747-z。 ·Zbl 1385.49002号
[13] T.Bubba、M.Burger、T.Helin和L.Ratti,统计逆学习问题中的凸正则化,预印本,https://arxiv.org/abs/2012.09526, 2021. ·Zbl 07725198号
[14] L.Bungert,M.Burger,Y.Korolev,and C.-B.Schonlieb,不完全正算子和一般噪声模型反问题的变分正则化,反问题,36(2020),125014,https://doi.org/10.1088/1361-6420/abc531。 ·Zbl 1454.49037号
[15] M.Burger和H.W.Engl,将含噪数据作为不适定问题训练神经网络,高级计算。数学。,13(2000年),第335-354页·Zbl 1126.41301号
[16] M.Burger和S.Osher,凸变分正则化的收敛速度,反问题,20(2004),1411,https://doi.org/10.1088/0266-5611/20/5/005。 ·兹比尔1068.65085
[17] 陈振聪,利用具有任意激活函数的神经网络对非线性算子的通用逼近及其在动力系统中的应用,IEEE Trans。神经网络。,6(1995)第911-917页,https://doi.org/10.109/72.392253。
[18] Z.Chen和A.Wickstead,Banach晶格中固体壳体的相对弱紧性,Indag。数学。(N.S.),9(1998),第187-196页·Zbl 0922.46017号
[19] Z.L.Chen和A.W.Wickstead,Rademacher序列在Banach格中的一些应用,《积极性》,2(1998),第171-191页·Zbl 0967.46019号
[20] L.Chizat和F.Bach,《关于使用最优传输的过参数模型梯度下降的全局收敛性》,载于NIPS’18:第32届神经信息处理系统国际会议论文集,神经信息处理体系进展31,S.Bengio,H.Wallach,H.Larochelle,K.Grauman,N.Cesa-Bianchi,和R.Garnett编辑,Curran Associates,2018年,第3040-3050页,https://proceedings.neurips.cc/paper/2018/file/a1afc58c6ca9540d057299ec3016d726-paper.pdf。
[21] L.Chizat和F.Bach,用逻辑损失训练的宽双层神经网络梯度下降的隐式偏差,载于《第三十三届学习理论会议论文集》,《机器学习研究论文集》125,J.Abernethy和S.Agarwal编辑,PMLR,2020年,第1305-1338页,http://proceedings.mlr.press/v125/chizat20a.html。
[22] G.Cybenko,通过sigmoid函数的叠加进行逼近,数学。控制信号系统,2(1989),第303-314页,https://doi.org/10.1007/BF02551274。 ·Zbl 0679.94019号
[23] J.de Dios和J.Bruna,《关于超参数化浅Relu网络的稀疏性》,预印本,https://arxiv.org/abs/2006.10225, 2020.
[24] C.-A.Deledale、N.Papadakis和J.Salmon,《关于去噪恢复算法:在计算机视觉中的尺度空间和变分方法中对总变分和非局部平均值的应用》,J.-F.Aujol、M.Nikolova和N.Papadakis编辑,2015年,查姆斯普林格,第129-141页·Zbl 1444.94009号
[25] R.DeVore、B.Hanin和G.Petrova,神经网络近似,数字学报。,30(2021年),第327-444页,https://doi.org/10.1017/S0962492921000052。 ·Zbl 1518.65022号
[26] R.A.DeVore,非线性近似,数值学报。,7(1998),第51-150页,https://doi.org/10.1017/S0962492900002816。 ·Zbl 0931.65007号
[27] J.Diestel和J.J.Uhl,向量测量,美国数学学会,普罗维登斯,RI,1977年·Zbl 0369.46039号
[28] C.Domingo-Enrich、A.Bietti、E.Vanden-Eijnden和J.Bruna,《关于超参数化浅层神经网络的基于能量的模型》,载于《第38届机器学习国际会议论文集》,《机器学习研究论文集》1392021年,第2771-2782页。
[29] N.Dunford和J.T.Schwartz,《线性算子,第一部分:一般理论》,Interscience出版社,新泽西州霍博肯,1958年·Zbl 0084.10402号
[30] V.Duval和G.Peyreí,《稀疏峰值反褶积的精确支持恢复》,Found。计算。数学。,15(2015),第1315-1355页,https://doi.org/10.1007/s10208-014-9228-6。 ·Zbl 1327.65104号
[31] W.E,C.Ma,和L.Wu,神经网络模型的Barron空间和流诱导函数空间,Constr。约,55(2022),第369-406页,https://doi.org/10.1007/s00365-021-09549-y。 ·Zbl 1490.65020号
[32] W.E和S.Wojtowytsch,巴龙函数的表示公式和逐点性质,计算变量,61(2022),46,https://doi.org/10.1007/s00526-02156-6。 ·Zbl 1482.41013号
[33] P.Enflo,Banach空间中近似问题的反例,数学学报。,130(1973),第309-317页,https://doi.org/10.1007/BF02392270。 ·Zbl 0267.46012号
[34] L.Gyoörfi、M.Kohler、A.Krzyzak和H.Walk,非参数回归的无分布理论,Springer,纽约,2002年·Zbl 1021.62024号
[35] K.Hornik、M.Stinchcombe和H.White,多层前馈网络是通用逼近器,神经网络。,2(1989),第359-366页,https://doi.org/10.1016/0893-6080(89)90020-8. ·Zbl 1383.92015年
[36] B.Jin和X.Lu,关于随机梯度下降的正则性,反问题,35(2019),015004,https://doi.org/10.1088/1361-6420/aaea2a。 ·Zbl 1490.65070号
[37] A.Krogh和J.Hertz,《神经信息处理系统进展4》,J.Moody、S.Hanson和R.Lippmann编辑,Morgan-Kaufmann,旧金山,1991年,https://proceedings.neurips.cc/paper/1991/file/8eefcfdf5990e441f0fb6f3fad709e21-paper.pdf。
[38] V.Kurkova和M.Sanguineti,变基速率和神经网络近似的界限,IEEE Trans。通知。《理论》,47(2001),第2659-2665页,https://doi.org/10.109/18.945285。 ·Zbl 1008.41012号
[39] V.Kurkova和M.Sanguineti,线性和神经网络近似中最坏情况误差的比较,IEEE Trans。通知。理论,48(2002),第264-275页,https://doi.org/10.109/18.971754。 ·兹比尔1059.62589
[40] G.Kutyniok、P.Petersen、M.Raslan和R.Schneider,深度神经网络和参数PDE的理论分析,Constr。约,55(2022),第73-125页,https://doi.org/10.1007/s00365-021-09551-4。 ·Zbl 07493717号
[41] S.Lanthaler、S.Mishra和G.E.Karniadakis,《DeepOnets的错误估计:无限维的深度学习框架》,6(2002),tnac001,https://doi.org/10.1093/imatrm/tnac001。 ·Zbl 07525076号
[42] M.Leshno、V.Y.Lin、A.Pinkus和S.Schocken,具有非多项式激活函数的多层前馈网络可以近似于任何函数,神经网络。,6(1993),第861-867页,https://doi.org/10.1016/S0893-6080(05)80131-5.
[43] Z.Li、N.Kovachki、B.L.Kamyar Azizzadenesheli、K.Bhattacharya、A.Stuart和A.Anandkumar,参数偏微分方程的傅里叶神经算子,预印本,https://arxiv.org/abs/2010.08895, 2020.
[44] Z.Li、N.Kovachki、B.L.Kamyar Azizzadenesheli、K.Bhattacharya、A.Stuart和A.Anandkumar,《神经算子:偏微分方程的图形核网络》,预印本,https://arxiv.org/abs/2003.03485, 2020.
[45] L.Lu、P.Jin、G.Pang、Z.Zhang和G.E.Karniadakis,基于算子的泛逼近定理通过DeepONet学习非线性算子,Nat.Mach。智力。,3(2021年),第218-229页,https://doi.org/10.1038/s42256-021-00302-5。
[46] M.T.McCann、K.H.Jin和M.Unser,用于成像逆问题的卷积神经网络:综述,IEEE信号处理。Mag.,34(2017),第85-95页,https://doi.org/10.109/MSP.2017.2739299。
[47] S.Mei、A.Montanari和P.-M.Nguyen,两层神经网络景观的平均视野,Proc。国家。阿卡德。科学。美国,115(2018),第E7665-E7671页,https://doi.org/10.1073/pnas.1806579115。 ·Zbl 1416.92014号
[48] P.Meyer-Nieberg,Banach Lattices,Springer-Verlag,柏林,1991年·Zbl 0743.46015号
[49] C.A.Michelli和M.Pontil,关于学习向量值函数,神经计算。,17(2005),第177-204页,https://doi.org/10.1162/0899766052530802。 ·Zbl 1092.93045号
[50] N.H.Nelsen和A.M.Stuart,巴拿赫空间之间输入-输出映射的随机特征模型,SIAM J.Sci。计算。,43(2021),第A3212-A3243页,https://doi.org/10.1137/20M133957X。 ·Zbl 07398767号
[51] R.Parhi和R.D.Nowak,神经网络和脊样条的Banach空间表示定理,J.Mach。学习。决议,22(2021),第1-40页,http://jmlr.org/papers/v22/20-583.html。 ·兹比尔1507.68250
[52] C.Poon、N.Keriven和G.Peyreí,支持本地化和非网格稀疏正则化的Fisher度量,摘自《第二十二届人工智能与统计国际会议论文集》,K.Chaudhuri和M.Sugiyama编辑,《机器学习研究论文集》89,PMLR,2019年,第1341-1350页,http://proceedings.mlr.press/v89/poon19a.html。
[53] A.Rahimi和B.Recht,《大型内核机器的随机特征》,摘自《神经信息处理系统的进展》20,J.Platt、D.Koller、Y.Singer和S.Roweis编辑,Curran Associates,2008年,https://proceedings.neurips.cc/paper/2007/file/013a006f03dbc5392effeb8f18fda755-paper.pdf。
[54] G.Rotskoff和E.Vanden Eijnden,《作为相互作用粒子的参数:神经网络的长时间收敛和渐近误差标度》,《神经信息处理系统进展》31,S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa Bianchi和R.Garnett编辑,Curran Associates,2018,https://proceedings.neurips.cc/paper/2018/file/196f5641aa9dc87067da4ff90fd81e7b-paper.pdf。 ·Zbl 07597044号
[55] R.A.Ryan,《Banach空间张量积简介》,Springer-Verlag,伦敦,2002年·Zbl 1090.46001号
[56] O.Scherzer、M.Grasmair、H.Grossauer、M.Haltmeier和F.Lenzen,成像中的变分方法,应用。数学。科学。167,施普林格,纽约,2009年·Zbl 1177.68245号
[57] J.Sirignano和K.Spiliopoulos,《神经网络的平均场分析:大数定律》,SIAM J.Appl。数学。,80(2020年),第725-752页,https://doi.org/10.1137/18M1192184。 ·兹比尔1440.60008
[58] D.Soudry、E.Hoffer、M.S.Nacson、S.Gunasekar和N.Srebro,可分离数据梯度下降的隐式偏差,J.Mach。学习。决议,19(2018),第1-57页,http://jmlr.org/papers/v19/18-188.html。 ·Zbl 1477.62192号
[59] M.Unser,发现了反问题和机器学习的统一表示定理。计算。数学。,21(2021),第941-960页,https://doi.org/10.1007/s10208-020-09472-x。 ·兹伯利1479.46088
[60] E.De Vito、L.Rosasco、A.Caponetto、U.De Giovannini和F.Odone,作为反问题的示例学习,J.Mach。学习。第6号决议(2005年),第883-904页,http://jmlr.org/papers/v6/devito05a.html。 ·Zbl 1222.68180号
[61] N.Weaver,Lipschitz代数,第二版,世界科学出版社,新泽西州哈肯萨克,2018年·Zbl 1419.46001号
[62] H.Zhang和J.Zhang.向量值再生核Banach空间及其在多任务学习中的应用,J.Complexity,29(2013),第195-215页,https://doi.org/10.1016/j.jco.2012.09.002。 ·Zbl 1323.46030号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。