×

高维线性化两层神经网络。 (英语) Zbl 1473.62134号

作者研究了单变量响应(y_1,ldots,y_n)和(mathbb{R}^d)值特征向量(mathbf)的非参数回归问题{x} 1个,\dots,\mathbf{x} _n(n)\),其中元组\((y_i,\mathbf{x} _ i)_{1\leqi\leqn})被假定为随机独立且同分布。他们的目标是构造一个函数(f:mathbb{R}^d\to\mathbb}R})来预测未来的反应。这种(f)的质量通过其平方预测风险进行评估。特别是,作者考虑从类(mathcal)中选择(f){F}(F)_两层神经网络的{\text{NN}})。
(f\in\mathcal)的近似值(基于一阶泰勒展开){F}(F)_研究了一个属于随机特征模型的零件和一个属于神经切线类的零件。在(n)和/或(d)趋于无穷大的不同渐近状态下,分析了这两部分的近似误差。此外,还分析了某些核方法的泛化误差。
除了这些理论贡献外,作者还提供了一些数值结果。

MSC公司:

62G08号 非参数回归和分位数回归
2007年6月62日 岭回归;收缩估计器(拉索)
62M45型 神经网络及从随机过程推断的相关方法
62-08 统计学相关问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alaoui,A.E.和Mahoney,M.W.(2015)。具有统计保证的快速随机核岭回归。神经信息处理系统研究进展775-783之间。
[2] Allen-Zh,Li,Y.和Song,Z.(2019年)。通过过度参数化进行深度学习的收敛理论。机器学习国际会议242-252.
[3] Anthony,M.和Bartlett,P.L.(1999)。神经网络学习以下为:理论基础剑桥大学出版社,剑桥·Zbl 0968.68126号 ·doi:10.1017/CBO9780511624216
[4] 阿罗拉·S、杜·S、胡·W、李·Z和王·R(2019)。超参数双层神经网络优化和泛化的细粒度分析。机器学习国际会议322-332.
[5] 巴赫·F(2013)。低阶核矩阵近似的尖锐分析。学习理论会议185-209年。
[6] 巴赫,F.(2017)。关于核求积规则与随机特征展开的等价性。J.马赫。学习。物件。18第21、38号论文·Zbl 1435.65045号
[7] 巴赫·F(2017)。用凸中性网络打破维度诅咒。J.马赫。学习。物件。18第19、53号论文·Zbl 1433.68390号
[8] Barron,A.R.(1993)。sigmoid函数叠加的通用近似界。IEEE传输。Inf.理论39 930-945. ·Zbl 0818.68126号 ·doi:10.1109/18.256500
[9] Belkin,M.、Hsu,D.、Ma,S.和Mandal,S.(2019年)。协调现代机器学习实践和经典偏差-方差权衡。程序。国家。阿卡德。科学。美国116 15849-15854. ·Zbl 1433.68325号 ·doi:10.1073/pnas.1903070116
[10] Belkin,M.、Hsu,D.和Xu,J.(2019年)。针对弱特征的两种双下降模型。可从arXiv获取:1903.07571。
[11] Belkin,M.、Hsu,D.J.和Mitra,P.(2018年)。合身还是完美合身?插值的分类和回归规则的风险边界。神经信息处理系统研究进展2300-2311.
[12] Belkin,M.、Rakhlin,A.和Tsybakov,A.B.(2019)。数据插值是否与统计优化相矛盾?这个22第二届国际人工智能与统计会议1611-1619.
[13] Berlinet,A.和Thomas-Agnan,C.(2004年)。概率统计中的再生核Hilbert空间Kluwer Academic,马萨诸塞州波士顿·Zbl 1145.6202号 ·doi:10.1007/978-1-4419-9096-9
[14] Caponetto,A.和De Vito,E.(2007年)。正则化最小二乘算法的最优速率。已找到。计算。数学。7 331-368. ·兹比尔1129.68058 ·doi:10.1007/s10208-006-0196-8
[15] Chihara,T.S.(2011)。正交多项式简介Courier公司。
[16] Chizat,L.和Bach,F.(2018年)。基于最优传输的超参数模型梯度下降的全局收敛性。神经信息处理系统研究进展3036-3046.
[17] Chizat,L.、Oyallon,E.和Bach,F.(2019年)。关于微分编程中的懒惰训练。神经信息处理系统研究进展2933-2943.
[18] Cristianini,N.、Shawe-Taylor,J.等人(2000年)。支持向量机和其他基于核的学习方法简介剑桥大学出版社,剑桥·Zbl 0994.68074号
[19] Cybenko,G.(1989)。通过sigmoid函数的叠加进行逼近。数学。控制信号系统2 303-314. ·Zbl 0679.94019号 ·doi:10.1007/BF02551274
[20] DeVore,R.A.、Howard,R.和Michelli,C.(1989)。最佳非线性近似。手稿数学。63 469-478. ·Zbl 0682.41033号 ·doi:10.1007/BF01171759
[21] Donoho,D.L.和Johnstone,I.M.(1989年)。基于投影的近似和对偶核方法。安。统计师。17 58-106. ·Zbl 0699.62067号 ·doi:10.1214/aos/1176347004
[22] Du,S.、Lee,J.、Li,H.、Wang,L.和Zhai,X.(2019)。梯度下降法寻找深层神经网络的全局极小值。机器学习国际会议1675-1685.
[23] Du,S.S.、Zhai,X.、Poczos,B.和Singh,A.(2019年)。梯度下降可证明优化了过参数化神经网络。学习代表国际会议.
[24] Efthimiou,C.和Frye,C.(2014)。p维球面谐波.新泽西州哈肯萨克市世界科学有限公司·Zbl 1296.33001号 ·doi:10.1142/9134
[25] El Karoui,N.(2010年)。核随机矩阵的谱。安。统计师。38 1-50. ·Zbl 1181.62078号 ·doi:10.1214/08-AOS648
[26] El Karoui,N.(2010年)。关于信息加噪声核随机矩阵。安。统计师。38 3191-3216·Zbl 1200.62056号 ·doi:10.1214/10-AOS801
[27] Geiger,M.、Spigler,S.、Jacot,A.和Wyart,M.(2019年)。深层神经网络中的分离特征和懒惰学习:一项实证研究。可从arXiv:1906.08034获取·Zbl 1459.68184号
[28] Ghorbani,B.、Mei,S.、Misiakiewicz,T.和Montanari,A.(2019年)。两层神经网络惰性训练的局限性神经信息处理系统研究进展9108-9118.
[29] Ghorbani,B.、Mei,S.、Misiakiewicz,T.和Montanari,A.(2020年)。神经网络何时优于内核方法?神经信息处理系统研究进展(H.Larochelle、M.Ranzato、R.Hadsell、M.F.Balcan和H.Lin编辑)14820-14830。Curran Associates公司。
[30] Ghorbani,B.、Mei,S.、Misiakiewicz,T.和Montanari,A.(2021)。补充“高维线性化双层神经网络”https://doi.org/10.1214/20-AOS1990SUPP网站
[31] Girosi,F.、Jones,M.和Poggio,T.(1995年)。正则化理论和神经网络体系结构。神经计算。7 219-269.
[32] Györfi,L.、Kohler,M.、Krzyżak,A.和Walk,H.(2002)。非参数回归的无分布理论.统计学中的斯普林格系列纽约州施普林格·Zbl 1021.62024号 ·数字对象标识代码:10.1007/b97848
[33] Hastie,T.、Montanari,A.、Rosset,S.和Tibshirani,R.J.(2019年)。高维无脊最小二乘插值的惊喜。可从arXiv:1903.08560获取。
[34] Hornik,K.(1991年)。多层前馈网络的逼近能力。神经网络。4 251-257。
[35] Jacot,A.、Gabriel,F.和Hongler,C.(2018年)。神经切线核:神经网络中的收敛和泛化。神经信息处理系统研究进展8571-8580.
[36] Lee,J.、Xiao,L.、Schoenholz,S.、Bahri,Y.、Novak,R.、Sohl-Dickstein,J.和Pennington,J.(2019年)。任意深度的宽神经网络在梯度下降下演化为线性模型。神经信息处理系统研究进展8570-8581. ·Zbl 07330523号
[37] Liang,T.和Rakhlin,A.(2020年)。只需插补:内核“无脊”回归可以推广。安。统计师。48 1329-1347. ·Zbl 1453.68155号 ·doi:10.1214/19-AOS1849
[38] Liang,T.、Rakhlin,A.和Zhai,X.(2019)。关于最小范数插值和核的受限下等距的风险。可从arXiv:1908.10292获取。
[39] Maiorov,V.E.(1999)。关于岭函数的最佳逼近。J.近似理论99 68-94. ·Zbl 0939.41014号 ·doi:10.1006/jath.1998.3304
[40] Maiorov,V.E.和Meir,R.(2000年)。用神经网络随机逼近光滑函数的近似最优性。高级计算。数学。13 79-103. ·Zbl 0939.41013号 ·doi:10.1023/A:1018993908478
[41] Mei,S.、Bai,Y.和Montanari,A.(2018年)。非凸损失的经验风险前景。安。统计师。46 2747-2774. ·Zbl 1409.62117号 ·doi:10.1214/17-AOS1637
[42] Mei,S.、Misiakiewicz,T.和Montanari,A.(2019年)。双层神经网络的平均场理论:无量纲界和核极限。学习理论会议2388-2464.
[43] Mei,S.和Montanari,A.(2019年)。随机特征回归的泛化误差:精确渐近和双下降曲线。可从arXiv:1908.05355获取。
[44] Mei,S.、Montanari,A.和Nguyen,P.-M.(2018年)。两层神经网络景观的平均场视图。程序。国家。阿卡德。科学。美国115电子7665-E7671·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[45] Mhaskar,H.N.(1996年)。光滑函数和解析函数的最佳逼近的神经网络。神经计算。8 164-177.
[46] Mhaskar,H.N.和Michelli,C.A.(1994年)。神经网络逼近度的维数无关界。IBM J.Res.Develop公司。38 277-284. ·Zbl 0823.41012号
[47] Neal,R.M.(1996)。无限网络的优先级。神经网络的贝叶斯学习29-53. 柏林施普林格·Zbl 0888.62021号
[48] Petrushev,P.P.(1999)。用脊函数和神经网络进行逼近。SIAM J.数学。分析。30 155-189. ·Zbl 0927.41006号 ·doi:10.1137/S0036141097322959
[49] Pinkus,A.(1999)。神经网络中MLP模型的近似理论。数字学报, 1999.Acta Numer公司。8 143-195. 剑桥大学出版社,剑桥·Zbl 0959.68109号 ·doi:10.1017/S0962492900002919
[50] Rahimi,A.和Recht,B.(2008年)。大型内核机的随机特性。神经信息处理系统研究进展1177-1184.
[51] Rotskoff,G.M.和Vanden-Eijnden,E.(2018年)。神经网络作为相互作用的粒子系统:损失景观的渐近凸性和近似误差的普适标度。可从arXiv:1805.00915获取。
[52] Rudi,A.和Rosasco,L.(2017)。具有随机特征的学习的泛化性质。神经信息处理系统研究进展3215-3225.
[53] Sirignano,J.和Spiliopoulos,K.(2020年)。神经网络的平均场分析:中心极限定理。随机过程。申请。130 1820-1852. ·Zbl 1441.60022号 ·doi:10.1016/j.spa.2019.06.003
[54] Soudry,D.、Hoffer,E.、Nacson,M.S.、Gunasekar,S.和Srebro,N.(2018年)。梯度下降对可分离数据的隐含偏见。J.马赫。学习。物件。19第70、57号论文·Zbl 1477.62192号
[55] Szegö,G.(1939年)。正交多项式阿默尔。数学。Soc.,纽约·JFM 65.0278.03号
[56] Tsybakov,A.B.(2009年)。非参数估计简介.统计学中的斯普林格系列纽约州施普林格·Zbl 1176.62032号 ·doi:10.1007/b13794
[57] Vempala,S.和Wilmes,J.(2018年)。训练单层神经网络的梯度下降多项式收敛性。可从arXiv:1805.02677获取。
[58] Yehudai,G.和Shamir,O.(2019年)。关于理解神经网络的随机特征的能力和局限性。神经信息处理系统研究进展第6594-6604页。
[59] 邹D.、曹Y.、周D.和顾Q.(2020)。梯度下降优化了过参数化的深层ReLU网络。机器。学习。109 467-492 ·Zbl 1494.68245号 ·doi:10.1007/s10994-019-05839-6
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。