×

良好的过盈和噪音特征。 (英语) Zbl 07784952号

摘要:现代机器学习模型通常显示良性过盈最近使用双重下降曲线。除了经典的U形学习曲线外,当我们将参数数量增加到超过某个阈值时,学习风险会再次下降。在本文中,我们研究了随机特征(RF)模型中发生良性过拟合的条件,即在具有固定第一层权重的两层神经网络中。采用随机特征的新观点,我们表明,良性过拟合是因为这些特征中存在噪声。噪声可能已经存在于数据中并传播到特征中,也可能由用户直接添加到特征中。这种噪声在这种现象中起着隐含但至关重要的正则化作用。此外,我们推导了参数数量和预测精度之间的显式折衷,并首次证明了超参数模型可以实现最佳学习率在极大极小的意义上。最后,我们的结果表明,超参数模型的学习风险具有多重性,而不是双重下降行为,这在最近的工作中得到了实证验证。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adlam,B.和Pennington,J.(2020),“高维中的神经切线核:三级下降和多尺度泛化理论”,机器学习国际会议,第74-84页。PMLR公司。
[2] Avron,H.、Kapralov,M.、Musco,C.、Musco,C.、Velingker,A.和Zandieh,A.(2017),“核岭回归的随机傅立叶特征:近似界和统计保证”,国际机器学习会议,第253-262页·Zbl 1434.94043号
[3] Bach,F.(2017),“关于核求积规则和随机特征扩展之间的等价性”,《机器学习研究杂志》,18,1-38·Zbl 1435.65045号
[4] Bartlett,P.L.,Bousquet,O.,Mendelson,S.(2005),“局部Rademacher复杂性”,《统计年鉴》,第33期,第1497-1537页。内政部:·Zbl 1083.62034号
[5] Bartlett,P.L.、Long,P.M.、Lugosi,G.和Tsigler,A.(2020年),“线性回归中的良性过度拟合”,《美国国家科学院院刊》。内政部:·Zbl 1485.62085号
[6] Belkin,M.、Hsu,D.、Ma,S.和Mandal,S.(2019年),“调和现代机器学习实践和经典偏差-方差权衡”,《国家科学院学报》,116,15849-15854·Zbl 1433.68325号
[7] Belkin,M.、Hsu,D.和Xu,J.(2019),“弱特征的双重下降的两种模型”,arXiv预印本arXiv:1903.07571·Zbl 1484.62090号
[8] Belkin,M.、Ma,S.和Mandal,S.(2018),“为了理解深度学习,我们需要理解内核学习”,机器学习国际会议,第541-549页。
[9] Bochner,S.(1932年),“福里耶尔积分”,载于Akademische Verlagsgesellschaft·Zbl 0006.11001号
[10] Bunea,F.、Strimas-Mackey,S.和Wegkamp,M.(2020),“潜在因素回归模型下的插值”,arXiv预印本arXiv:2002.525·Zbl 07625163号
[11] Caponnetto,A.和De Vito,E.(2007),“正则最小二乘算法的最优速率”,《计算数学基础》,第7331-368页。内政部:·Zbl 1129.68058号
[12] Du,S.,Lee,J.,Li,H.,Wang,L.和Zhai,X.(2019),“梯度下降发现深度神经网络的全局极小值”,机器学习国际会议,第1675-1685页。PMLR公司。
[13] Friedman,J.、Hastie,T.和Tibshirani,R.(2001),《统计学习的要素》,《统计学中的斯普林格系列》(第1卷)。柏林:施普林格·Zbl 0973.62007号
[14] Hastie,T.、Montanari,A.、Rosset,S.和Tibshirani,R.J.(2019),“高维无脊最小二乘插值的惊喜”,arXiv预印本arXiv:1903.08560·Zbl 1486.62202号
[15] Jacot,A.、Gabriel,F.和Hongler,C.(2018),“神经切线核:神经网络中的收敛和泛化”,《神经信息处理系统进展》,第8571-8580页·Zbl 07765141号
[16] Kanagawa,M.、Hennig,P.、Sejdinovic,D.和Sriperumbudur,B.K.(2018),“高斯过程和核方法:连接和等价的回顾”,arXiv预印本arXiv:1807.02582。
[17] Li,Z.、Ton,J.-F.、Oglic,D.和Sejdinovic,D.(2019),“实现随机傅里叶特征的统一分析”,载于《国际机器学习会议》,第3905-3914页·Zbl 07370625号
[18] Li,Z.、Ton,J.-F.、Oglic,D.和Sejdinovic,D.(2021),“走向随机傅里叶特征的统一分析”,《机器学习研究杂志》,22,1-51·Zbl 07370625号
[19] Liang,T.和Rakhlin,A.(2020年),“简单插值:核“无脊”回归可以泛化”,《统计年鉴》,第48期,第1329-1347页·Zbl 1453.68155号
[20] Liang,T.,Rakhlin,A.,and Zhai,X.(2020),“关于最小范数插值的多重下降和核的受限下等距”,《学习理论会议》,第2683-2711页。PMLR公司。
[21] Liao,Z.、Couillet,R.和Mahoney,M.W.(2020),“随机傅里叶特征的随机矩阵分析:超越高斯核、精确相变和相应的双下降”,arXiv预印本arXiv:2006.05013·Zbl 07451716号
[22] Mei,S.和Montanari,A.(2019),“随机特征回归的一般化误差:精确渐近和双下降曲线”,arXiv预印本arXiv:1908.05355·Zbl 07513415号
[23] Mei,S.、Montanari,A.和Nguyen,P.-M(2018),“双层神经网络景观的平均场视图”,《国家科学院学报》,115,E7665-E7671·Zbl 1416.92014号
[24] Rahimi,A.和Recht,B.(2007),“大型内核机器的随机特征”,《神经信息处理系统的进展》,第1177-1184页。
[25] Rudi,A.和Rosasco,L.(2017),“随机特征学习的泛化特性”,《神经信息处理系统进展》,第3218-3228页。
[26] Sirignano,J.和Spiliopoulos,K.(2020),“神经网络的平均场分析:中心极限定理”,随机过程及其应用,1301820-1852。内政部:·Zbl 1441.60022号
[27] Steinwart,I.(2019),“一般Karhunen-loève展开的收敛类型和速度及其在样本路径属性中的应用”,《势分析》,51,361-395。内政部:·Zbl 1480.60086号
[28] Steinwart,I.和Christmann,A.(2008),支持向量机,纽约:Springer·Zbl 1203.68171号
[29] Suzuki,T.(2020),“全球最优非凸神经网络训练的泛化界:用无限维Langevin动力学估计运输图”,arXiv预印本arXiv:2007.05824。
[30] Wahba,G.(1990),观测数据的样条模型(第59卷),宾夕法尼亚州费城:SIAM·Zbl 0813.62001号
[31] Zhang,C.、Bengio,S.、Hardt,M.、Recht,B.和Vinyals,O.(2016),“理解深度学习需要重新思考泛化”,arXiv预印本arXiv:1611.03530。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。