×

浅层神经网络的定量泛函中心极限定理。 (英语) Zbl 07840106号

摘要:我们证明了具有泛型激活函数的单隐层神经网络的定量泛函中心极限定理。我们的收敛速度在很大程度上取决于激活函数的光滑性,它们的范围从不可微非线性(如ReLu)的对数到高度正则激活的(sqrt{n})。我们的主要工具基于Stein-Malliavin方法的功能版本;特别是,我们依赖于最近由Bourguin和Campese建立的定量泛函中心极限定理[Electron.J.Probab.25(2020),150]。

MSC公司:

2017年1月60日 函数极限定理;不变原理
68T07型 人工神经网络与深度学习
60G60型 随机字段
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Azmoodeh,E.,Peccati,G.,Yang,X.:Malliavin-Stein方法:一些最新发展的调查。国防部。斯托克。理论应用8(2),141-177(2021)。MR4279874·Zbl 1476.60044号
[2] 巴赫,F。:用凸神经网络打破维度诅咒。J.马赫。学习。第18(19)号决议,1-53(2017)。MR3634886号·Zbl 1433.68390号
[3] Basteri,A.,Trevisan,D.:随机初始化深度神经网络的定量高斯近似(2022)。
[4] Belkin,M.,Hsu,D.,Ma,S.,Mandal,S.:调和现代机器学习实践和经典偏差-方差权衡。Proc。国家。阿卡德。科学。美国116(32),15849-15854(2019)。MR3997901·Zbl 1433.68325号
[5] Bietti,A.,Bach,F.:对于内核体制中的ReLu网络,深度等于浅层。参加:国际学习代表大会(ICLR),9(2021)
[6] Bordino,A.,Favaro,F.,Fortini,S.:通过二阶庞加莱不等式对高斯神经网络的非渐近近似(2023)。
[7] Bourguin,S.、Campese,S.,Leonenko,N.、Taqqu,M.S.:马尔可夫混沌的四矩定理。Ann.Probab.47(3),1417-1446(2019)。MR3945750·Zbl 1466.60041号
[8] Bourgin,S.,Campese,S.:Hilbert值Gaussians在Dirichlet结构上的近似。电子。J.Probab.25150(2020),30 pp.MR4193891·Zbl 1480.46057号
[9] Chizat,L.,Oyallon,E.,Bach,F.:关于微分编程中的懒惰训练。摘自:神经信息处理系统进展32(NeurIPS 2019)(2019)。
[10] Cybenko,G.:通过sigmoid函数的叠加进行逼近。数学。控制信号系统2(4),303-314(1989)。MR1015670·Zbl 0679.94019号
[11] Daniely,A.,Frostig,R.,Singer,Y.:深入理解神经网络:初始化的力量和表达的双重观点。In:NeurIPS 2016,第29卷,2253-2261(2016)
[12] Döbler,C.,Kasprzak,M.,Peccati,G.:多元函数de Jong CLT。普罗巴伯。理论关联。字段184(1-2),367-399(2022)。MR4498513·Zbl 1500.60018号
[13] Eldan,R.,Mikulincer,D.,Schramm,T.:高斯过程对神经网络的非症状近似(2021)。
[14] Goel,S.、Karmalkar,S.和Klivans,S.A.:学习ReLu相对于高斯边缘的时间/准确性权衡。收录于:NeurIPS 2019,第8582-8591页(2019年)
[15] Hanin,B.:无限宽度极限下的随机神经网络,如高斯过程(2021)。
[16] Hornik,K.:多层前馈网络是通用逼近器。神经网络2(5),359-366(1989)·Zbl 1383.92015年
[17] Hornik,K.:多层前馈网络的近似能力。神经网络4(2),251-257(1991)。
[18] Jacot,A.,Gabriel,F.,Hongler,C.:神经切线核:神经网络中的收敛和泛化。主题:神经信息处理系统进展31(NeurIPS 2018)(2018)。
[19] Klukowski,A.:多项式网络到高斯过程的收敛速度(2021)。
[20] Ledoux,M.,Nourdin,I.,Peccati,G.:Stein方法,对数Sobolev和输运不等式。地理。功能。分析25(1),256-306(2015)。MR3320893·Zbl 1350.60013号
[21] Leshno,M.,Lin,V.Ya。,Pinkus,A.,Schocken,S.:具有非多项式激活函数的多层前馈网络可以近似任何函数。神经网络6(6),861-867(1993)。
[22] Marinucci,D.,Peccati,G.:球面上的随机场。剑桥大学出版社(2011)。MR2840154·Zbl 1260.60004号
[23] 尼尔,R.M.:无限网络的先验。摘自:神经网络贝叶斯学习,第29-53页。Springer,纽约州纽约市(1996年)·Zbl 0888.62021号
[24] Nourdin,I.,Peccati,G.:Stein关于Wiener混沌的方法。普罗巴伯。理论关联。Fields145(1-2),75-118(2009)。MR2520122·Zbl 1175.60053号
[25] Nourdin,I.,Peccati,G.:Malliavin微积分的正规逼近。从斯坦因方法到普遍性,第192卷。剑桥大学出版社,剑桥(2012)。MR2962301·兹比尔1266.60001
[26] Pinkus,A.:神经网络中MLP模型的近似理论。《数值学报》(1999)。MR1819645·Zbl 0959.68109号
[27] Rahimi,A.,Recht,B.:大型内核机器的随机特性。In:神经信息处理系统进展20(NeurIPS 2007)(2007)
[28] Roberts,Yaida S,D.A.,Hanin,B.:深度学习理论的原则(2021)。
[29] Yaida,S.:有限宽度下的非高斯过程和神经网络(2019)。MR4198759。
[30] Zhang,C.,Bengio,S.,Hardt,M.,Recht,B.,Vinyals,O.:理解深度学习需要重新思考泛化。参加:第五届国际学习代表大会(2017年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不声称其完整性或完全匹配。