×

深度学习:统计观点。 (英语) Zbl 1514.65078号

总结:深度学习的显著实际成功从理论角度揭示了一些重大惊喜。特别是,简单的梯度方法很容易找到非凸优化问题的近最优解,尽管在没有显式控制模型复杂度的情况下对训练数据进行了近乎完美的拟合,但这些方法仍具有卓越的预测精度。我们推测,这些现象背后的具体原理是:过参数化允许梯度方法找到插值解,这些方法隐含地施加正则化,过参数化导致良性过拟合,即,尽管训练数据过拟合,但预测准确。在本文中,我们调查了统计学习理论的最新进展,并提供了在更简单的环境中说明这些原则的示例。我们首先回顾了经典的一致收敛结果,以及为什么它们不能解释深度学习方法行为的各个方面。我们给出了在简单设置中的隐式正则化的例子,其中梯度方法可以得到最适合训练数据的最小范数函数。然后,我们回顾了表现出良性过拟合的预测方法,重点是具有二次损失的回归问题。对于这些方法,我们可以将预测规则分解为对预测有用的简单分量和对过拟合有用的尖峰分量,但在有利的设置下,不会损害预测精度。我们特别关注神经网络的线性区域,其中网络可以通过线性模型进行近似。在这种情况下,我们证明了梯度流的成功,并考虑了双层网络的良性过拟合,给出了精确的渐近分析,精确地证明了过参数化的影响。最后,我们强调了将这些见解扩展到现实的深度学习环境中所面临的关键挑战。

MSC公司:

62-08 统计问题的计算方法
62G08号 非参数回归和分位数回归
62H30型 分类和区分;聚类分析(统计方面)
62M45型 神经网络及从随机过程推断的相关方法
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Achlioptas,D.和Molloy,M.(1997),《随机图上列表着色算法的分析》,载于第38届计算机科学基础年度研讨会论文集(FOCS 1997),IEEE,第204-212页。
[2] Aizerman,M.A.、Braverman,E.M.和Rozonoer,L.I.(1964),模式识别中势函数方法的理论基础,Avtomat。i电话:25917-936·Zbl 0151.24701号
[3] Ali,A.、Kolter,J.Z.和Tibshirani,R.J.(2019),《最小二乘法早期停止的连续时间观点》,载于《第22届国际人工智能与统计会议(AISTATS 2019)论文集》(Chaudhuri,K.和Sugiyama,M.编辑),《机器学习研究论文集》第89卷,PMLR,第1370-1378页。
[4] Allen-Zhu,Z.,Li,Y.和Song,Z.(2019),《通过过度参数化进行深度学习的收敛理论》,载于《第36届国际机器学习会议(ICML 2019)论文集》(Chaudhuri,K.和Salakhutdinov,R.,eds),《机器学习研究论文集》第97卷,PMLR,第242-252页。
[5] Ambrosio,L.、Gigli,N.和Savaré,G.(2008),梯度流:在度量空间和概率测度空间,数学讲座(ETH Zürich),Springer·Zbl 1145.35001号
[6] Anthony,M.和Bartlett,P.L.(1999),《神经网络学习:理论基础》,剑桥大学出版社·Zbl 0968.68126号
[7] Bach,F.(2013),低阶核矩阵近似的夏普分析,《第26届学习理论年会论文集》(COLT 2013)(Shalev-Shwartz,S.和Steinwart,I.编辑),《机器学习研究论文集》第30卷,PMLR,第185-209页。
[8] Bach,F.(2017),《用凸神经网络打破维度诅咒》,J.Mach。学习。第18、629-681号决议·Zbl 1433.68390号
[9] Bai,Y.和Lee,J.D.(2020),《超越线性化:宽神经网络的二次和高阶近似》,第八届学习表征国际会议(ICLR 2020)。可在https://openreview.net/forum?id=rkllGyBFPH。
[10] Balcan,M.-F.,Blum,A.和Vempala,S.(2006),核作为特征:关于核、边和低维映射,Mach。学习。65, 79-94. ·Zbl 1470.68077号
[11] Bartlett,P.L.(1998),《神经网络模式分类的样本复杂性:权重的大小比网络的大小更重要》,IEEE Trans。通知。Theory44,525-536·Zbl 0901.68177号
[12] Bartlett,P.L.(2008),估计误差的快速率和模型选择的预言不等式,计量经济学24,545-552·Zbl 1284.62583号
[13] Bartlett,P.L.和Ben-David,S.(2002),神经网络近似问题的硬度结果,理论。计算。科学。284, 53-66. ·Zbl 0997.68098号
[14] Bartlett,P.L.和Long,P.M.(2020),最小范数插值的模型相关泛化界限的失败。网址:arXiv:2010.08479·兹伯利07626719
[15] Bartlett,P.L.和Lugosi,G.(1999),样本平均值与其平均值一致偏差的不等式,统计学家。普罗巴伯。莱特。44, 55-62. ·Zbl 0974.62007
[16] Bartlett,P.L.和Mendelson,S.(2002),《拉德马赫和高斯复杂性:风险边界和结构结果》,J.Mach。学习。第3463-482号决议·Zbl 1084.68549号
[17] Bartlett,P.L.、Boucheron,S.和Lugosi,G.(2002),模型选择和误差估计,马赫。学习。48, 85-113. ·Zbl 0998.68117号
[18] Bartlett,P.L.、Bousquet,O.和Mendelson,S.(2005),《局部Rademacher复杂性》,《统计年鉴》。33, 1497-1537. ·Zbl 1083.62034号
[19] Bartlett,P.L.、Foster,D.J.和Telgarsky,M.(2017),神经网络的光谱正常化边界,摘自《神经信息处理系统进展》30(NIPS 2017)(Guyon,I.等人,eds),Curran Associates,第6240-6249页。
[20] Bartlett,P.L.、Harvey,N.、Liaw,C.和Mehrabian,A.(2019),分段线性神经网络的近紧VC-维数和伪维数界限,J.Mach。学习。决议20,1-17·Zbl 1489.62302号
[21] Bartlett,P.L.、Jordan,M.I.和Mcauliffe,J.D.(2006),凸性、分类和风险边界,J.Amer。统计师。协会101,138-156·Zbl 1118.62330号
[22] Bartlett,P.L.、Long,P.M.、Lugosi,G.和Tsigler,A.(2020年),线性回归中的良性过拟合,Proc。美国国家科学院。科学。117, 30063-30070. ·Zbl 1485.62085号
[23] Bartlett,P.L.,Maiorov,V.和Meir,R.(1998),分段多项式网络的几乎线性VC维界,神经计算。10, 2159-2173.
[24] Baum,E.B.和Haussler,D.(1989),什么尺寸的网可以提供有效的泛化?,神经计算。1, 151-160.
[25] Belkin,M.、Hsu,D.和Mitra,P.(2018a),过度贴合还是完美贴合?神经信息处理系统进展31(NeurIPS 2018)(Bengio,S.等人,eds),Curran Associates,第2306-2317页中插入的分类和回归规则的风险边界。
[26] Belkin,M.、Hsu,D.、Ma,S.和Mandal,S.(2019a),《协调现代机器学习实践和经典偏差-方差权衡》,Proc。美国国家科学院。科学。116, 15849- 15854. ·Zbl 1433.68325号
[27] Belkin,M.,Ma,S.和Mandal,S.(2018b),为了理解深度学习,我们需要理解内核学习,载于《第35届机器学习国际会议论文集》(ICML 2018)(Dy,J.和Krause,A.编辑),《机器学习研究论文集》第80卷,PMLR,第541-549页。
[28] Belkin,M.、Rakhlin,A.和Tsybakov,A.B.(2019b),《数据插值是否与统计优化相矛盾?》?,《第22届国际人工智能与统计会议论文集》(AISTATS 2019)(Chaudhuri,K.和Sugiyama,M.编辑),《机器学习研究论文集》第89卷,PMLR,第1611-1619页。
[29] Bickel,P.J.和Doksum,K.A.(2007),《数理统计:基本思想和选定主题》,普伦蒂斯·霍尔出版社·Zbl 0403.62001
[30] Blum,A.和Rivest,R.L.(1992),《训练一个三节点神经网络是NP-complete》,神经网络5117-127。
[31] Blumer,A.、Ehrenfeucht,A.、Haussler,D.和Warmuth,M.K.(1989),《可学习性和Vapnik-Chervonenkis维度》,J.Assoc.Compute。机器。36, 929-965. ·Zbl 0697.68079号
[32] Boucheron,S.、Lugosi,G.和Massart,P.(2013),《集中不平等:非渐进的独立理论》,牛津大学出版社·Zbl 1279.60005号
[33] Bousquet,O.和Elisseeff,A.(2002),稳定性和泛化,J.Mach。学习。第2号决议,499-526·Zbl 1007.68083号
[34] Breiman,L.(1998),电弧分类器,《统计年鉴》。26, 801-849. ·Zbl 0934.62064号
[35] Caponetto,A.和Vito,E.De(2007),正则化最小二乘算法的最佳速率,发现。计算。数学。7, 331-368. ·Zbl 1129.68058号
[36] Caruana,R.、Lawrence,S.和Giles,C.(2000),《神经网络中的过度拟合:反向传播、共轭梯度和早期停止》,摘自《神经信息处理系统进展》13(NIPS 2000)(Leen,T.等人,eds),麻省理工学院出版社,第381-387页。
[37] Chen,L.和Xu,S.(2021),在第九届国际学习表征会议(ICLR 2021)上,深度神经切线核和拉普拉斯核具有相同的RKHS。可在https://openreview.net/forum?id=vK9WrZ0QYQ。
[38] Cheng,X.和Singer,A.(2013),随机内积核矩阵的谱,随机矩阵理论应用。2, 1350010. ·Zbl 06249061号
[39] Chizat,L.和Bach,F.(2018),《关于使用最优传输的超参数模型梯度下降的全局收敛性》,载于《神经信息处理系统进展》31(NeurIPS 2018)(Bengio,S.等人,eds),Curran Associates,第3036-3046页。
[40] Chizat,L.和Bach,F.(2020),用逻辑损失训练的宽双层神经网络梯度下降的隐式偏差,《第33届学习理论会议论文集》(COLT 2020)(Abernethy,J.和Agarwal,S.编辑),机器学习研究论文集第125卷,PMLR,第1305-1338页。
[41] Chizat,L.、Oyallon,E.和Bach,F.(2019),《关于微分编程中的懒惰训练》,载于《神经信息处理系统的进展》32(NeurIPS 2019)(Wallach,H.等人,eds),Curran Associates,第2937-2947页。
[42] Coja-Oghlan,A.(2010),随机k-sat的更好算法,SIAM J.Compute。39, 2823- 2864. ·Zbl 1209.68345号
[43] Cortes,C.和Vapnik,V.(1995),《支持向量网络》,马赫。学习。20, 273-297. ·Zbl 0831.68098号
[44] Cover,T.和Hart,P.(1967),最近邻模式分类,IEEE Trans。通知。Theory13,21-27·兹比尔0154.44505
[45] Dasgupta,B.、Siegelmann,H.T.和Sontag,E.D.(1995),关于具有连续激活函数的神经网络训练的复杂性,IEEE Trans。神经网络61490-1504。
[46] Devroye,L.和Wagner,T.(1979),删除和保留误差估计的无分布不等式,IEEE Trans。通知。理论25202-207·Zbl 0408.62055号
[47] Devroye,L.、Györfi,L.和Krzyżak,A.(1998),希尔伯特核回归估计,J.多元分析。65, 209-227. ·Zbl 1126.62339号
[48] Dhillon,P.S.、Foster,D.P.、Kakade,S.M.和Ungar,L.H.(2013),普通最小二乘与岭回归的风险比较,J.Mach。学习。1505-1511号决议·Zbl 1317.68152号
[49] Do,Y.和Vu,V.(2013),随机核矩阵的谱:粗糙核和变化核的普遍性结果,随机矩阵理论应用。2, 1350005. ·Zbl 1273.15039号
[50] Drucker,H.和Cortes,C.(1995),Boosting decision trees,in Advances in Neural Information Processing Systems 8(NIPS 1995),麻省理工学院出版社,第479-485页。
[51] Du,S.S.,Lee,J.,Li,H.,Wang,L.和Zhai,X.(2019a),《梯度下降发现深度神经网络的全局极小值》,载于《第36届国际机器学习大会论文集》(ICML 2019)(Chaudhuri,K.和Salakhuttinov,R.,eds),《机器学习研究论文集》第97卷,PMLR,第1675-1685页。
[52] Du,S.S.,Zhai,X.,Poczos,B.和Singh,A.(2019b),梯度下降可证明优化了过参数化神经网络,第七届国际学习表征会议(ICLR 2019)。可在https://openreview.net/forum?id=S1eK3i09YQ。
[53] Dyer,E.和Gur-Ari,G.(2020),《费曼图中的宽网络渐近性》,第八届学习表征国际会议(ICLR 2020)。可在https://openreview.net/forum?id=S1gFvANKDS。
[54] Ehrenfeucht,A.、Haussler,D.、Kearns,M.J.和Valiant,L.G.(1989),学习所需示例数量的一般下限,Inform。计算。82, 247-261. ·Zbl 0679.68158号
[55] Alaoui,A.El和Mahoney,M.W.(2015),《具有统计保证的快速随机核岭回归》,载于《神经信息处理系统进展》28(NIPS 2015)(Cortes,C.等人,eds),Curran Associates,第775-783页。
[56] Karoui,N.El(2010),《核随机矩阵的谱》,《统计年鉴》。38, 1-50. ·Zbl 1181.62078号
[57] Fan,Z.和Montanari,A.(2019),随机内积核矩阵的谱范数,Probab。理论相关领域173,27-85·Zbl 1470.60011号
[58] Feldman,V.(2020),学习需要记忆吗?关于长尾的简短故事,载于《第52届ACM SIGACT计算机理论研讨会论文集》(STOC 2020),ACM,第954-959页·Zbl 07298301号
[59] Freund,Y.和Schapire,R.E.(1997),《在线学习的决策理论推广及其在助推中的应用》,J.Compute。系统科学。55, 119-139. ·Zbl 0880.68103号
[60] Friedman,J.H.(2001),《贪婪函数近似:梯度提升机》,《统计年鉴》。29, 1189-1232. ·Zbl 1043.62034号
[61] Frieze,A.和Suen,S.(1996),对k-sat随机实例的两种简单启发式分析,J.Algorithms20,312-355·Zbl 0852.68038号
[62] Garey,M.R.和Johnson,D.S.(1979),《计算机与不可修复性:NP-完全性理论指南》,W.H.Freeman·Zbl 0411.68039号
[63] Geifman,A.、Yadav,A.、Kasten,Y.、Galun,M.、Jacobs,D.和Basri,R.(2020),《关于拉普拉斯核和神经切核之间的相似性》,《神经信息处理系统进展33》(NeurIPS 2020)(Larochelle,H.et al.,eds),Curran Associates,第1451-1461页。
[64] Geiger,M.、Spigler,S.、D'Ascoli,S.,Sagun,L.、Baity-Jesi,M.,Biroli,G.和Wyart,M.(2019年),《干扰过渡作为理解深层神经网络损失景观的范例》,Phys。版次E100,012115。
[65] Ghorbani,B.、Mei,S.、Misiakiewicz,T.和Montanari,A.(2020),神经网络何时优于内核方法?,《神经信息处理系统进展》33(NeurIPS 2020)(Larochelle,H.等人,eds),Curran Associates,第14820-14830页·Zbl 07451719号
[66] Ghorbani,B.、Mei,S.、Misiakiewicz,T.和Montanari,A.(2021),高维线性化双层神经网络,《统计年鉴》。49, 1029-1054. ·Zbl 1473.62134号
[67] Goldt,S.、Mézard,M.、Krzakala,F.和Zdeborová,L.(2019),神经网络中数据结构对学习的影响建模。可在arXiv:1909.11500获取。
[68] Goldt,S.、Reeves,G.、Mézard,M.、Krzakala,F.和Zdeborová,L.(2020),两层神经网络学习生成模型的高斯等价性。网址:arXiv:2006.14709。
[69] Golowich,N.、Rakhlin,A.和Shamir,O.(2018),《神经网络的大小无关样本复杂性》,载于《第31届学习理论会议论文集》(COLT 2018)(S.Bubeck、V.Perchet和P.Rigollet,编辑),《机器学习研究论文集》第75卷,PMLR,第297-299页·Zbl 1528.68354号
[70] Goodfellow,I.、Bengio,Y.和Courville,A.(2016),深度学习、自适应计算和机器学习系列,麻省理工学院出版社·Zbl 1373.68009号
[71] Gunasekar,S.、Lee,J.D.、Soudry,D.和Srebro,N.(2018a),线性卷积网络上梯度下降的隐式偏差,《神经信息处理系统进展》31(NeurIPS 2018)(Bengio,S.等人,eds),Curran Associates,第9461-9471页。
[72] Gunasekar,S.、Lee,J.、Soudry,D.和Srebro,N.(2018b),《表征优化几何方面的隐式偏差》,载于《第35届机器学习国际会议论文集》(ICML 2018)(J.Dy和A.Krause,eds),《机器学习研究论文集》第80卷,PMLR,第1832-1841页。
[73] Gunasekar,S.、Woodworth,B.、Bhojanapalli,S.,Neyshabur,B.和Srebro,N.(2017),矩阵因式分解中的隐式正则化,收录于《神经信息处理系统进展》30(NIPS 2017)(Guyon,I.等人编),Curran Associates,第6152-6160页。
[74] Han,S.,Mao,H.和Dally,W.J.(2015),深度压缩:使用修剪、训练量化和哈夫曼编码压缩深度神经网络。可从arXiv:1510.00149获得。
[75] Hanin,B.和Nica,M.(2020),《神经切线核的有限深度和宽度修正》,第八届学习表征国际会议(ICLR 2020)。可在https://openreview.net/forum?id=SJgndT4KwB。 ·兹比尔1446.60007
[76] Hastie,T.、Montanari,A.、Rosset,S.和Tibshirani,R.J.(2019),《高维无脊最小二乘插值的惊喜》。可从arXiv:1903.08560获取·Zbl 1486.62202号
[77] Hastie,T.、Tibshirani,R.和Friedman,J.(2001),《统计学习的要素:数据挖掘、推断和预测》,《统计学中的斯普林格系列》,斯普林格出版社·Zbl 0973.62007号
[78] Haussler,D.(1992),用于神经网络和其他学习应用的PAC模型的决策理论推广,Inform。计算。100, 78-150. ·Zbl 0762.68050号
[79] Hu,H.和Lu,Y.M.(2020),具有随机特征的高维学习的普遍规律。网址:arXiv:2009.07669。
[80] Huang,J.和Yau,H.-T.(2020),深度神经网络和神经切线层次的动力学,《第37届国际机器学习会议论文集》(ICML 2020)(H.DauméIII和A.Singh,eds),《机器学习研究论文集》第119卷,PMLR,第4542-4551页。
[81] Jacot,A.、Gabriel,F.和Hongler,C.(2018),《神经切线核:神经网络中的收敛和泛化》,摘自《神经信息处理系统进展》31(NeurIPS 2018)(Bengio,S.等人,eds),Curran Associates,第8571-8580页。
[82] Ji,Z.和Telgarsky,M.(2018),logistic回归的风险和参数收敛。arXiv:1803.07300提供。
[83] Ji,Z.和Telgarsky,M.(2019),通过主对偶分析表征内隐偏见。可从arXiv:1906.04540获取。
[84] Johnson,D.S.和Preparata,F.P.(1978),密度最大的半球问题,定理。计算。科学。6, 93-107. ·Zbl 0368.68053号
[85] Johnstone,I.M.(2019),高斯估计:序列和小波模型。可在http://statweb.stanford.edu/imj/。
[86] Judd,J.S.(1990),《神经网络设计与学习的复杂性》,麻省理工学院出版社。
[87] Karpinski,M.和Macintyre,A.J.(1997),信号模和一般Pfaffian神经网络VC维的多项式界,J.Compute。系统科学。54, 169-176. ·Zbl 0869.68088号
[88] Kini,G.R.和Thrampoulidis,C.(2020),《二进制分类中双重下降的分析研究:损失的影响》,IEEE信息理论国际研讨会(ISIT 2020),IEEE,第2527-2532页。
[89] Knowles,A.和Yin,J.(2017),随机矩阵的各向异性局部定律,Probab。理论相关领域169257-352·Zbl 1382.15051号
[90] Koltchinskii,V.(2001),Rademacher惩罚和结构风险最小化,IEEE Trans。通知。Theory471902-1914年·Zbl 1008.62614号
[91] Koltchinskii,V.(2006),风险最小化中的局部Rademacher复杂性和预言不等式,《统计年鉴》。34, 2593-2656. ·Zbl 1118.62065号
[92] Koltchinskii,V.和Lounici,K.(2017),样本协方差算子的集中不等式和矩界,Bernoulli23,110-133·Zbl 1366.60057号
[93] Koltchinskii,V.和Mendelson,S.(2015),无集中随机矩阵最小奇异值的边界,国际数学。2015年第12991-13008号决议·Zbl 1331.15027号
[94] Koltchinskii,V.和Panchenko,D.(2000),Rademacher过程和函数学习的风险界定,《高维概率II》(Giné,E.,Mason,D.M.和Wellner,J.A.,eds),概率进展第47卷,Birkhäuser,第443-459页·Zbl 1106.68385号
[95] Kurková,V.(1997),《控制和信号处理中的计算机密集型方法》(Kární,M.和Warwick,K.,eds)中神经网络的非维数近似率,Springer,第261-270页·Zbl 0905.41011号
[96] Kurková,V.和Sanguineti,M.(2001),变基速率和神经网络近似的界限,IEEE Trans。通知。Theory472659-2665·Zbl 1008.41012号
[97] Kurková,V.和Sanguineti,M.(2002),线性和神经网络近似中最坏情况误差的比较,IEEE Trans。通知。Theory48,264-275·Zbl 1059.62589号
[98] Lawrence,S.、Giles,C.L.和Tsoi,A.C.(1997),《神经网络训练的教训:过度适应可能比预期的更难》,载于《第十四届全国人工智能会议论文集》(AAAI-97),AAAI出版社,第540-545页。
[99] Lecun,Y.、Bengio,Y.和Hinton,G.(2015),《深度学习》,《自然》521,436-444。
[100] Ledoux,M.(2001),《测量现象的集中》,《数学调查与专著》第89卷,美国数学学会·Zbl 0995.60002号
[101] Ledoux,M.和Talagrand,M.(1991),《巴拿赫空间中的概率:等高线和过程》,Springer·Zbl 0748.60004号
[102] Lee,W.S.、Bartlett,P.L.和Williamson,R.C.(1996年),具有有界扇入的神经网络的有效不可知学习,IEEE Trans。通知。神学422118-2132·Zbl 0874.68253号
[103] Li,Y.,Ma,T.和Zhang,H.(2018),具有二次激活的过参数化矩阵传感和神经网络中的算法正则化,摘自《第31届学习理论会议论文集》(COLT 2018)(Bubeck,S.,Perchet,V.和Rigollet,P.编辑),《机器学习研究论文集》第75卷,PMLR,第2-47页。
[104] Liang,T.(2020)。个人沟通。
[105] Liang,T.和Rakhlin,A.(2020年),《简单插补:核“无脊”回归可以推广》,Ann.Statist。48, 1329-1347. ·Zbl 1453.68155号
[106] Liang,T.,Rakhlin,A.和Sridharan,K.(2015),《平方损失学习:通过抵消Rademacher复杂性实现本地化》,载于《第28届学习理论会议论文集》(COLT 2015)(Grünwald,P.,Hazan,E.和Kale,S.编辑),《机器学习研究论文集》第40卷,PMLR,第1260-1285页。
[107] Liang,T.,Rakhlin,A.和Zhai,X.(2020),《关于最小范数极间多重下降和核的受限下等距》,载于《第33届学习理论会议论文集》(COLT 2020)(Abernethy,J.和Agarwal,S.编辑),《机器学习研究论文集》第125卷,PMLR,第2683-2711页。
[108] Lin,Y.(2004),分类中基于边际的损失函数的注释,Statist。普罗巴伯。莱特。68, 73-82. ·Zbl 1058.62052号
[109] Liu,C.,Zhu,L.和Belkin,M.(2020),《关于大型非线性模型的线性:切线核何时以及为何恒定》,摘自《神经信息处理系统进展》33(NeurIPS 2020)(Larochelle,H.等人,eds),Curran Associates,第15954-15964页。
[110] Louart,C.,Liao,Z.和Couillet,R.(2018),神经网络的随机矩阵方法,Ann.Appl。普罗巴伯。28, 1190-1248. ·Zbl 1391.60010号
[111] Lugosi,G.和Vayatis,N.(2004),《关于正则化增强方法的贝叶斯风险一致性》,《统计年鉴》。32, 30-55. ·Zbl 1105.62319号
[112] Martin,G.和Pittman,J.A.(1990),《识别手印字母和数字》,收录于《神经信息处理系统进展2》(NIPS 1989)(Touretzky,D.编辑),Morgan Kaufmann。
[113] Mei,S.和Montanari,A.(2019),随机特征回归的泛化误差:精确渐近和双下降曲线。可从arXiv:1908.05355获得(出现在Comm.Pure Appl.Math.中)·Zbl 07513415号
[114] Mei,S.、Misiakiewicz,T.和Montanari,A.(2019),《两层神经网络的平均场论:无量纲界和核极限》,载于《第32届学习理论会议论文集》(COLT 2019)(Beygelzimer,A.和Hsu,D.,eds),《机器学习研究论文集》第99卷,PMLR,第2388-2464页。
[115] Mei,S.、Misiakiewicz,T.和Montanari,A.(2021),随机特征和核方法的泛化误差:超收缩性和核矩阵浓度。可从arXiv:2101.10588获取·Zbl 07522503号
[116] Mei,S.、Montanari,A.和Nguyen,P.-M(2018),双层神经网络景观的平均视野,Proc。美国国家科学院。科学。115,E7665-E7671·Zbl 1416.92014号
[117] Mendelson,S.(2002),使用全局数据提高样本复杂性,IEEE Trans。通知。Theory481977-1991年·Zbl 1061.68128号
[118] Mendelson,S.(2021),《扩大小球法的范围》,Studia Math。256, 147-167. ·Zbl 1468.60064号
[119] Montanari,A.和Zhong,Y.(2020),神经网络中的插值相变:惰性训练下的记忆和泛化。网址:arXiv:2007.12826·兹伯利07628842
[120] Montanari,A.,Ruan,F.,Sohn,Y.和Yan,J.(2019),最大边缘线性分类器的泛化误差:超参数化区域中的高维渐近性。可从arXiv:1911.01544获取。
[121] Nacson,M.S.、Lee,J.、Gunasekar,S.、Savarese,P.H.P.、Srebro,N.和Soudry,D.(2019),可分离数据上梯度下降的收敛性,载于《第22届人工智能与统计国际会议论文集》(AISTATS 2019)(Chaudhuri,K.和Sugiyama,M.编辑),《机器学习研究论文集》第89卷,PMLR,第3420-3428页。
[122] Nadaraya,E.A.(1964年),《关于估计回归》,《概率论》。申请。9, 141-142.
[123] Nagarajan,V.和Kolter,J.Z.(2019),《统一收敛可能无法解释深度学习中的泛化》,载于《神经信息处理系统进展32》(NeurIPS 2019)(Wallach,H.等人,eds),Curran Associates,第11611-11622页。
[124] Neyshabur,B.、Tomioka,R.和Srebro,N.(2015),神经网络中基于规范的能力控制,《第28届学习理论会议论文集》(COLT 2015)(Grünwald,P.、Hazan,E.和Kale,S.编辑),《机器学习研究论文集》第40卷,PMLR,第1376-1401页。
[125] Neyshabur,B.、Tomioka,R.、Salakhutdinov,R.和Srebro,N.(2017),深度学习中的优化几何和隐式正则化。可从arXiv:1705.03071获取。
[126] Nguyen,P.-M.和Pham,H.T.(2020),多层神经网络平均场极限的严格框架。可从arXiv:20011.1443获取。
[127] Nitanda,A.和Suzuki,T.(2017),无限系综的随机粒子梯度下降。可从arXiv:1712.05438获取。
[128] Oymak,S.和Soltanolkotabi,M.(2019),超参数非线性学习:梯度下降采用最短路径?,《第36届国际机器学习会议论文集》(ICML 2019)(Chaudhuri,K.和Salakhutdinov,R.编辑),《机器学习研究论文集》第97卷,PMLR,第4951-4960页。
[129] Oymak,S.和Soltanolkotabi,M.(2020),《走向适度超参数化:浅层神经网络训练的全局收敛保证》,IEEE J.选定区域信息。理论1,84-105。
[130] Pennington,J.和Worah,P.(2017),用于深度学习的非线性随机矩阵理论,摘自《神经信息处理系统进展》30(NIPS 2017)(Guyon,I.等人,eds),Curran Associates,第2637-2646页·Zbl 1459.60012号
[131] Pennington,J.和Worah,P.(2018),单层神经网络的Fisher信息矩阵谱,《神经信息处理系统进展》31(NeurIPS 2018)(Bengio,S.等人,eds),Curran Associates,第5410-5419页。
[132] Pollard,D.(1990),《经验过程:理论与应用》,NSF-CBMS概率与统计区域会议系列第2卷,数理统计研究所·兹比尔07416.0001
[133] Pollard,D.(1995),经验过程的统一比率极限定理,Scand。J.统计。22, 271-278. ·Zbl 0835.62051号
[134] Quinlan,J.R.(1996),《打包、增强和C4.5》,载于《第十三届全国人工智能会议论文集》(AAAI-96),AAAI出版社,第725-730页。
[135] Rahimi,A.和Recht,B.(2007),《大型内核机器的随机特征》,摘自《神经信息处理系统的进展》20(NIPS 2007)(Platt,J.C.等人,eds),Curran Associates,第1177-1184页。
[136] Rahimi,A.和Recht,B.(2008),《随机厨房水槽的加权和:用学习中的随机化代替最小化》,载于《神经信息处理系统进展》21(NIPS 2008)(Koller,D.等人,eds),Curran Associates,第1313-1320页。
[137] Rakhlin,A.和Zhai,X.(2019),《与拉普拉斯核插值的一致性是一种高维现象》,载于《第32届学习理论会议论文集》(COLT 2019)(Beygelzimer,A.and Hsu,D.编辑),《机器学习研究论文集》第99卷,PMLR,第2595-2623页。
[138] Rakhlin,A.、Sridharan,K.和Tsybakov,A.B.(2017),经验熵、极大极小后悔和极大极小风险,伯努利23789-824·Zbl 1380.62176号
[139] Rotskoff,G.M.和Vanden-Eijnden,E.(2018),《作为相互作用粒子系统的神经网络:损失景观的渐近凸性和近似误差的普适标度》,载于《神经信息处理系统进展》31(NeurIPS 2018)(Bengio,S.等人,eds),Curran Associates。
[140] Rudelson,M.和Vershynin,R.(2006),随机过程和凸体截面的组合数学,数学年鉴。164, 603-648. ·Zbl 1114.60009号
[141] Rudi,A.和Rosasco,L.(2017),随机特征学习的泛化特性,摘自《神经信息处理系统进展》30(NIPS 2017)(Guyon,I.等人,eds),Curran Associates,第3215-3225页。
[142] Rudi,A.、Camoriano,R.和Rosasco,L.(2015),《少即是多:Nyström计算正则化》,摘自《神经信息处理系统进展》28(NIPS 2015)(Cortes,C.等人,eds),Curran Associates,第1657-1665页。
[143] Santambrogio,F.(2015),《应用数学家的最优传输:变分微积分、偏微分方程和建模》,非线性微分方程及其应用进展第87卷,Birkhäuser·兹比尔1401.49002
[144] Schapire,R.E.、Freund,Y.、Bartlett,P.和Lee,W.S.(1998年),《提高利润率:投票方法有效性的新解释》,Ann.Statist。26, 1651-1686. ·Zbl 0929.62069号
[145] Sirignano,J.和Spiliopoulos,K.(2020),《神经网络的平均场分析:大数定律》,SIAM J.Appl。数学。80, 725-752. ·Zbl 1440.60008号
[146] Soudry,D.、Hoffer,E.、Nacson,M.S.、Gunasekar,S.和Srebro,N.(2018),可分离数据梯度下降的隐含偏差,J.Mach。学习。第19号决议,2822-2878·Zbl 1477.62192号
[147] Spigler,S.、Geiger,M.、D'Ascoli,S.,Sagun,L.、Biroli,G.和Wyart,M.(2019),从参数化不足到参数化过高的干扰过渡影响深度学习中的泛化,J.Phys。A52474001·Zbl 1509.68235号
[148] Srebro,N.、Sridharan,K.和Tewari,A.(2010),《平稳损失学习的乐观率》。可从arXiv:1009.3896获取。
[149] Taheri,H.、Pedarsani,R.和Thrampoulidis,C.(2020),高维脊调整经验风险最小化的基本极限。网址:arXiv:2006.08917。
[150] Talagrand,M.(1994),高斯过程和经验过程的夏普边界,Ann.Probab。22, 28-76. ·Zbl 0798.60051号
[151] Telgarsky,M.(2013),《边缘、收缩和提升》,摘自《第三十届国际机器学习会议论文集》(ICML 2013)(Dasgupta,S.和Mcallester,D.编辑),《机器学习研究论文集》第28卷,PMLR,第307-315页。
[152] Tibshirani,R.(1996),通过Lasso,J.Royal Statist进行回归收缩和选择。Soc.序列号。B58,267-288·Zbl 0850.62538号
[153] Tsigler,A.和Bartlett,P.L.(2020),岭回归中的良性过拟合。网址:arXiv:2009.14286·Zbl 1485.62085号
[154] Tsybakov,A.B.(2008),非参数估计导论,统计学中的Springer级数,Springer·Zbl 1176.62032号
[155] Geer,S.Van De(1990),估计回归函数,Ann.Statist。18, 907-924. ·Zbl 0709.62040号
[156] Vapnik,V.N.和Chervonenkis,A.Y.(1971),关于事件相对频率与其概率的一致收敛,理论概率。申请。16, 264-280. ·Zbl 0247.60005号
[157] Vapnik,V.N.和Chervonenkis,A.Y.(1974),模式识别理论,瑙卡·Zbl 0284.68070号
[158] Vershynin,R.(2018),《高维概率:数据科学应用简介》,剑桥大学出版社·兹比尔1430.60005
[159] Vu,V.H.(1997),《关于用小平方误差训练神经网络的不可行性》,载于《神经信息处理系统进展》10(NIPS 1997)(Jordan,M.I.et al.,eds),麻省理工出版社,第371-377页。
[160] Wasserman,L.(2013),《所有统计学:统计推断简明教程》,《统计学中的斯普林格文本》,斯普林格出版社·Zbl 1053.62005年
[161] Watson,G.S.(1964),平滑回归分析,SankhyāA26,359-372·Zbl 0137.13002号
[162] Williams,C.K.I.和Seeger,M.(2000),《使用NyströM方法加速内核机器》,载于《神经信息处理系统进展》13(NIPS 2000)(Leen,T.K.et al.,eds),麻省理工出版社,第682-688页。
[163] Wyner,A.J.、Olson,M.、Bleich,J.和Mease,D.(2017),《解释AdaBoost和随机森林作为内插分类器的成功》,J.Mach。学习。第18号决议,1558-1590·Zbl 1433.68384号
[164] Zhang,C.、Bengio,S.、Hardt,M.、Recht,B.和Vinyals,O.(2017),《理解深度学习需要重新思考泛化》,第五届国际学习代表大会(ICLR 2017)。可在https://openreview.net/forum?id=Sy8gdB9xx。
[165] Zhang,T.(2004),基于凸风险最小化的分类方法的统计行为和一致性,Ann.Statist。32, 56-85. ·Zbl 1105.62323号
[166] Zhang,T.和Yu,B.(2005年),《提前停止促进:收敛性和一致性》,《统计年鉴》。33, 1538-1579. ·Zbl 1078.62038号
[167] Zou,D.、Cao,Y.、Zhou,D.和Gu,Q.(2020),梯度下降在参数化深度ReLU网络上优化,Mach。学习。109, 467-492. ·Zbl 1494.68245号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。