×

由于隐式岭正则化,实际高维数据的最优岭惩罚可以为零或负。 (英语) Zbl 1525.68116号

总结:统计学习中的一个传统智慧是,大型模型需要强大的正则化以防止过度拟合。这里我们证明,在现实条件下,在未确定的情况下,线性回归可以违反这一规则。通过仿真和真实的高维数据集,我们证明了显式正脊惩罚可能无法比最小范数最小二乘估计提供任何改进。此外,在这种情况下,脊线惩罚的最佳值可能为负值。当预测器空间中的高方差方向可以预测响应变量时,就会发生这种情况,这在真实世界的高维数据中经常发生。在这种情况下,低方差方向提供了隐式脊线正则化,并且可以使任何进一步的正向脊线惩罚有害。我们证明了用随机协变量增广任何线性模型并使用最小范数估计量与加岭惩罚渐近等价。我们使用尖峰协方差模型作为一个可分析的例子,并证明了在这种情况下,当\(n\ll p\)时,最优脊罚是负的。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62J05型 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
62兰特 大数据和数据科学的统计方面

软件:

mixOmics公司
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] M.S.Advani、A.M.Saxe和H.Sompolinsky。神经网络泛化误差的高维动力学。神经网络,2020年·Zbl 1475.68258号
[2] P.L.Bartlett、P.M.Long、G.Lugosi和A.Tsigler。线性回归中的良性过拟合。《美国国家科学院院刊》,2020年。
[3] M.Belkin、D.J.Hsu和P.Mitra。合身还是完美合身?插值的分类和回归规则的风险边界。神经信息处理系统进展,第2300-23112018a页。
[4] M.Belkin、S.Ma和S.Mandal。为了理解深度学习,我们需要理解内核学习。2018b国际机器学习会议。
[5] M.Belkin、D.Hsu、S.Ma和S.Mandal。调和现代机器学习实践和经典偏差-方差权衡。国家科学院进展,116(32):15849-158542019a·Zbl 1433.68325号
[6] M.Belkin、D.Hsu和J.Xu。弱特征的两种双下降模型。arXiv预印本arXiv:1903.075712019b。
[7] M.Belkin、A.Rakhlin和A.B.Tsybakov。数据插值是否与统计优化相矛盾?国际人工智能与统计会议,2019c。
[8] K.Bibas、Y.Fogel和M.Feder。一个旧问题的新视角:线性回归的通用学习方法。2019年IEEE信息理论国际研讨会(ISIT),第2304-2308页。IEEE,2019年。
[9] C.M.毕晓普。噪声训练等价于Tikhonov正则化。神经计算,7(1):108-1161995。
[10] P.R.Bushel、R.D.Wolfinger和G.Gibson。基因表达数据与临床化学和病理评估的同时聚类揭示了表型原型。BMC系统生物学,1(1):152007。
[11] E.Candes和T.Tao。Dantzig选择器:当np远大于n时的统计估计。《统计年鉴》,35(6):2313-23512007·Zbl 1139.62019号
[12] S.S.Chen、D.L.Donoho和M.A.Saunders。通过基追踪进行原子分解。SIAM评论,43(1):129-1592001·Zbl 0979.94010号
[13] G.Chinot和M.Lerasle。大偏差区域中的良性过拟合。arXiv预印本arXiv:2003.058382020。
[14] M.Dereziánski、F.Liang和M.W.Mahoney。通过代理随机设计实现双下降和隐式正则化的精确表达式。arXiv预印本arXiv:1912.045332019。
[15] E.Dobriban和S.Wager。预测的高维渐近性:岭回归和分类。《统计年鉴》,46(1):247-2792018·Zbl 1428.62307号
[16] J.Friedman、T.Hastie和R.Tibshirani。广义线性模型的坐标下降正则化路径。统计软件杂志,33(1):12010。
[17] T.Hastie、R.Tibshirani和J.Friedman。统计学习的要素。施普林格,2009年·Zbl 1273.62005年
[18] T.Hastie、R.Tibshirani和M.Wainwright。稀疏的统计学习:套索和泛化。CRC出版社,2015年·Zbl 1319.68003号
[19] T.Hastie、A.Montanari、S.Rosset和R.J.Tibshirani。高维无脊最小二乘插值的惊喜。arXiv预印本arXiv:1903.085602019。
[20] A.E.Hoerl和R.W.Kennard。岭回归:非正交问题的有偏估计。技术计量学,12(1):55-671970·Zbl 0202.17205号
[21] G.James、D.Witten、T.Hastie和R.Tibshirani。统计学习导论,第112卷。施普林格,2013年·Zbl 1281.62147号
[22] D.Kobak、Y.Bernaerts、M.A.Weis、F.Scala、A.Tolias和P.Berens。稀疏缩减秩回归用于探索性可视化配对多元数据集。bioRxiv,第302208页,2018年。
[23] T.Liang和A.Rakhlin。只需插补:内核“无脊”回归可以推广。《统计年鉴》,48(3):1329-13472020·Zbl 1453.68155号
[24] S.Mei和A.Montanari。随机特征回归的泛化误差:精确渐近和双下降曲线。arXiv预印本arXiv:1908.053552019。
[25] V.Muthukumar、K.Vodrahalli、V.Subramanian和A.Sahai。回归中噪声数据的无害插值。IEEE信息理论选定领域杂志,2020年。
[26] P.纳基兰。更多的数据可能会损害线性回归:抽样双下降。arXiv预印本arXiv:1912.072422019。
[27] P.Nakkiran、G.Kaplun、Y.Bansal、T.Yang、B.Barak和I.Sutskever。深度双重下降:更大的模型和更多的数据会带来伤害。在2020a年国际学习代表大会上。
[28] P.Nakkiran、P.Venkat、S.Kakade和T.Ma。最优正则化可以缓解双重下降。arXiv预印arXiv:2003.018972020b。
[29] J.Negrea、G.K.Dziugaite和D.M.Roy。为维护一致收敛:通过去核化进行推广,并应用于插值预报器。arXiv预印本arXiv:1912.042652019。
[30] B.内沙布尔。深度学习中的内隐规则化。芝加哥丰田技术研究所博士论文,2017年。
[31] T.Poggio、K.Kawaguchi、Q.Liao、B.Miranda、L.Rosasco、X.Boix、J.Hidary和H.Mhaskar。深度学习理论三:解释非过拟合难题。arXiv预印本arXiv:1801.001732017。
[32] A.Rahimi和B.Recht。大型内核机的随机特性。神经信息处理系统进展,第1177-1184页,2008年。
[33] D.Richards、J.Mourtada和L.Rosasco。一般源条件下岭(少)回归的渐近性。arXiv预印本arXiv:2006.063862020。
[34] F.Rohart、B.Gautier、A.Singh和K.-A.Le Cao。mixOmics:一个R包,用于“经济学特征选择和多数据集成”。《公共科学图书馆·计算生物学》,13(11):e10057522017年。
[35] D.Soudry、E.Hoffer、M.S.Nacson、S.Gunasekar和N.Srebro。可分离数据梯度下降的隐式偏差。机器学习研究杂志,19(1):2822-28782018·Zbl 1477.62192号
[36] S.Spigler、M.Geiger、S.d'Ascoli、L.Sagun、G.Biroli和M.Wyart。从欠参数化到过参数化的干扰过渡会影响深度学习中的泛化。物理杂志A:数学与理论,52(47):4740012019·Zbl 1509.68235号
[37] N.Srivastava、G.Hinton、A.Krizhevsky、I.Sutskever和R.Salakhutdinov。辍学:防止神经网络过度拟合的简单方法。机器学习研究杂志,15(1):1929-19582014·Zbl 1318.68153号
[38] R.Tibshirani。通过套索回归收缩和选择。英国皇家统计学会杂志。B系列(方法学),第267-288页,1996年·Zbl 0850.62538号
[39] A.N.Tikhonov。关于不适定问题的求解和正则化方法。多克。阿卡德。Nauk SSSR,151(3):501-5041963年·Zbl 0141.11001号
[40] V.Vapnik。统计学习理论的本质。施普林格,1996年·兹比尔0934.62009
[41] A.C.Wilson、R.Roelofs、M.Stern、N.Srebro和B.Recht。机器学习中自适应梯度方法的边际值。《神经信息处理系统进展》,第4151-4161页,2017年。
[42] D.Wu和J.Xu。关于超参数线性回归中的最优加权正则化。arXiv预印arXiv:2006.058002020。
[43] C.Zhang、S.Bengio、M.Hardt、B.Recht和O.Vinyals。理解深度学习需要重新思考泛化。2017年国际学习代表大会。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。