×

高维无脊最小二乘插值的惊喜。 (英语) Zbl 1486.62202号

摘要:内插器——实现零训练误差的估计器——在机器学习中引起了越来越多的关注,主要是因为最先进的神经网络似乎就是这种类型的模型。本文研究了最小(ell_2)范数(“无脊”)插值最小二乘回归,重点研究了未知参数个数与样本个数相同的高维区域。我们考虑了两种不同的特征分布模型:线性模型,其中特征向量({x_i}\in\mathbb{R}^p\)是通过对身份证条目的向量进行线性变换而获得的,(x_i=\Sigma^{1/2}{z_i}\)(带有\;以及一个非线性模型,其中特征向量是通过将输入通过一个随机的单层神经网络获得的,即({x_i}=\varphi(W{z_i})(带有({z_i}\in{mathbb{R}^d}),(W\in{mathbb{R}^p\ times d}})一个i.i.d.条目矩阵,以及(\phi)一种按组件作用于(W{z_i{)的激活函数。我们以精确定量的方式恢复了在大规模神经网络和核机器中观察到的几个现象,包括预测风险的“双下降”行为,以及过度参数化的潜在好处。

MSC公司:

62J05型 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
62J02型 一般非线性回归
2012年12月62日 参数估计量的渐近性质
60对20 随机矩阵(概率方面)
68T05型 人工智能中的学习和自适应系统

软件:

PDCO公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] ADLAM,B.和PENNINGTON,J.(2020年)。高维神经切线核:三重下降和多尺度泛化理论。可在http://proceedings.mlr.press/v119/adlam20a/adlam20a.pdf。
[2] ADVANI,M.S.和SAXE,A.M.(2017年)。神经网络泛化误差的高维动力学。可从arXiv:1710.03667获取·Zbl 1475.68258号
[3] ALI,A.、KOLTER,J.Z.和TIBSHIRANI,R.J.(2019年)。最小二乘法提前停止的连续时间视图。国际会议工件。因特尔。斯达。22
[4] ALLEN-ZHU,Z.、LI,Y.和SONG,Z.(2019)。通过过度参数化进行深度学习的收敛理论。机器学习国际会议。PMLR公司。Availabale网址:http://proceedings.mlr.press/v97/allen-zhu19a/allen-zhu19a.pdf。
[5] Arlot,S.和Celisse,A.(2010年)。模型选择的交叉验证程序调查。统计调查。4 40-79. ·Zbl 1190.62080号 ·doi:10.1214/09-SS054
[6] BARTLETT,P.L.、LONG,P.M.、LUGOSI,G.和TSIGLER,A.(2020年)。线性回归中的良性过拟合。程序。国家。阿卡德。科学。美国117 30063-30070. ·Zbl 1485.62085号 ·doi:10.1073/pnas.1907378117
[7] BARTLETT,P.L.,MONTANARI,A.和RAKHLIN,A.(2021)。深度学习:统计观点。Acta Numer公司。30 87-201. ·Zbl 1514.65078号 ·doi:10.1017/S0962492921000027
[8] Belkin,M.、Hsu,D.、Ma,S.和Mandal,S.(2019)。协调现代机器学习实践和经典偏差-方差权衡。程序。国家。阿卡德。科学。美国116 15849-15854. ·Zbl 1433.68325号 ·doi:10.1073/美国国家统计局.1903070116
[9] BELKIN,M.、HSU,D.和XU,J.(2020年)。针对弱特征的两种双下降模型。SIAM J.数学。数据科学。2 1167-1180. ·Zbl 1484.62090号 ·数字对象标识代码:10.1137/20M1336072
[10] BELKIN,M.,MA,S.和MANDAL,S.(2018年)。为了理解深度学习,我们需要理解内核学习。第22届国际人工智能与统计会议。PMLR公司。可在http://proceedings.mlr.press/v80/belkin18a/belkin18a.pdf。
[11] BELKIN,M.、RAKHLIN,A.和TSYBAKOV,A.B.(2018)。数据插值是否与统计优化相矛盾?可从arXiv:1806.09471获取。
[12] BING,X.、BUNEA,F.、STRIMAS-MACKEY,S.和WEGKAMP,M.(2021)。潜在因素回归下的预测:自适应PCR、内插预测因子及其他。J.马赫。学习。物件。22 177. ·Zbl 07415120号 ·doi:10.22405/2226-8383-2021-22-1-177-187
[13] BISHOP,C.M.(1995)。噪声训练等价于Tikhonov正则化。神经计算。7 108-116.
[14] BUNEA,F.、STRIMAS-MACKEY,S.和WEGKAMP,M.(2020年)。高维因子回归中的内插预测因子。可从arXiv:2002.02525获取·Zbl 07415120号
[15] CHATTERJI,N.S.和LONG,P.M.(2021)。过参数化区域内插线性分类器的有限样本分析。J.马赫。学习。物件。22 129. ·Zbl 07370646号
[16] Chen,S.S.、Donoho,D.L.和Saunders,M.A.(1998年)。通过基追踪进行原子分解。SIAM J.科学。计算。20 33-61. ·Zbl 0919.94002号 ·doi:10.137/S1064827596304010
[17] CHENG,X.和SINGER,A.(2013)。随机内积核矩阵的谱。随机矩阵理论应用。2 135010年·Zbl 06249061号 ·文件编号:10.1142/S201032631350010X
[18] CHIZAT,L.和BACH,F.(2018年)。基于最优传输的超参数模型梯度下降的全局收敛性。高级神经信息处理。系统。31
[19] CHIZAT,L.和BACH,F.(2019年)。关于监督可微程序设计中惰性训练的注记。神经信息处理系统研究进展32 2933-2943.
[20] CRAVEN,P.和WAHBA,G.(1978/79)。使用样条函数平滑噪声数据。用广义交叉验证方法估计平滑度的正确程度。数字。数学。31 377-403·Zbl 0377.65007号 ·doi:10.1007/BF01404567
[21] DAUBECHIES,I.(1988)。时频局部化算子:几何相空间方法。IEEE传输。Inf.理论34 605-612. ·Zbl 0672.42007号 ·数字对象标识代码:10.1109/18.9761
[22] DICKER,L.H.(2016)。增长维球面上的岭回归和渐近极小极大估计。伯努利22 1-37. ·Zbl 1388.62205号 ·doi:10.3150/14-BEJ609
[23] DOBRIBAN,E.和WAGER,S.(2018年)。预测的高维渐近性:岭回归和分类。安。统计师。46 247-279. ·Zbl 1428.62307号 ·doi:10.1214/17-AOS1549
[24] DU,S.S.、LEE,J.D.、LI,H.、WANG,L.和ZHAI,X.(2018)。梯度下降法寻找深层神经网络的全局极小值。机器学习国际会议。PMLR公司。
[25] DU,S.S.、ZHAI,X.、POCZOS,B.和SINGH,A.(2018)。梯度下降可证明优化了过参数化神经网络。可在arXiv:11810.02054购买。
[26] El Karoui,N.(2010年)。核随机矩阵的谱。安。统计师。38 1-50. ·兹比尔1181.62078 ·doi:10.1214/08-AOS648
[27] FAN,Z.和MONTANARI,A.(2019年)。随机内积核矩阵的谱范数。普罗巴伯。理论相关领域173 27-85. ·Zbl 1470.60011号 ·doi:10.1007/s00440-018-0830-4
[28] GEIGER,M.、JACOT,A.、SPIGLER,S.、GABRIEL,F.、SAGUN,L.、D'ASCOLI,S.,BIROLI,G.、HONGLER,C.和WYART,M.(2020年)。深度学习中泛化与参数数量的缩放描述。《统计力学杂志》。理论实验。2 023401. ·Zbl 1459.82250号 ·doi:10.1088/1742-5468/ab633c
[29] GERACE,F.、LOUREIRO,B.、KRZAKALA,F.,MéZARD,M.和ZDEBOROVá,L.(2020年)。学习随机特征和隐藏流形模型时的泛化错误。机器学习国际会议。PMLR公司·Zbl 07451723号
[30] GHORBANI,B.、MEI,S.、MISIAKIEWICZ,T.和MONTANARI,A.(2021年)。高维线性化两层神经网络。安。统计师。49 1029-1054. ·Zbl 1473.62134号 ·doi:10.1214/20-aos1990
[31] GOLDT,S.、REEVES,G.、MEZARD,M.、KRZAKALA,F.和ZDEBOROVá,L.(2020年)。两层神经网络学习生成模型的高斯等价性。网址:arXiv:2006.14709。
[32] Golub,G.H.、Heath,M.和Wahba,G.(1979年)。广义交叉验证是一种选择良好脊线参数的方法。技术计量学21 215-223. ·Zbl 0461.62059号 ·doi:10.2307/1268518
[33] Goodfellow,I.、Bengio,Y.和Courville,A.(2016)。深度学习.自适应计算与机器学习麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1373.68009号
[34] GUNASEKAR,S.、LEE,J.、SOUDRY,D.和SREBRO,N.(2018)。表征优化几何方面的隐式偏差。35年第十届国际机器学习会议2018年2932-2955。国际机器学习协会(IMLS)。
[35] GUNASEKAR,S.、LEE,J.D.、SOUDRY,D.和SREBRO,N.(2018年)。线性卷积网络上梯度下降的隐式偏差。神经信息处理系统研究进展9461-9471.
[36] HASTIE,T.、MONTANARI,A.、ROSSET,S.和TIBSHIRANI,R.J(2022年)。补充“高维无脊最小二乘插值的惊喜”https://doi.org/10.1214/21-AOS2133SUPP网站
[37] HASTIE,T.、ROSSET,S.、TIBSHIRANI,R.和ZHU,J.(2003/04)。支持向量机的整个正则化路径。J.马赫。学习。物件。5 1391-1415. ·兹比尔1222.68213
[38] HU,H.和LU,Y.M.(2020年)。具有随机特征的高维学习的普遍规律。网址:arXiv:2009.07669。
[39] JACOT,A.、GABRIEL,F.和HONGLER,C.(2018年)。神经切线核:神经网络中的收敛和泛化。高级神经信息处理。系统。31
[40] KE,W.和THRAMPOULIDIS,C.(2020年)。高斯混合二值分类中的良性过拟合。arXiv预印本。可从arXiv:2011.09148获得·Zbl 1493.62402号
[41] Knowles,A.和Yin,J.(2017年)。随机矩阵的各向异性局部律。普罗巴伯。理论相关领域169 257-352. ·Zbl 1382.15051号 ·doi:10.1007/s00440-016-0730-4
[42] KOBAK,D.、LOMOND,J.和SANCHEZ,B.(2020年)。由于隐式岭正则化,实际高维数据的最优岭惩罚可以为零或负。J.马赫。学习。物件。21 169. ·Zbl 1525.68116号
[43] Ledoit,O.和Péché,S.(2011)。一些大样本协方差矩阵系综的特征向量。普罗巴伯。理论相关领域151 233-264. ·Zbl 1229.60009号 ·电话:10.1007/s00440-010-0298-3
[44] LEE,J.,XIAO,L.,SCHOENHOLZ,S.S.,BAHRI,Y.,NOVAK,R.,SOHL-DICKSTEIN,J.和PENNINGTON,J.(2020年)。任意深度的宽神经网络在梯度下降下演化为线性模型。《统计力学杂志》。理论实验。12 124002. ·兹伯利07330523 ·doi:10.1088/1742-5468/abc62b
[45] 李克诚(1986)。岭回归中\[{C_L}\]的渐近最优性和广义交叉验证及其在样条平滑中的应用。安。统计师。14 1101-1112. ·Zbl 0629.62043号 ·doi:10.1214/aos/1176350052
[46] Li,K.-C.(1987)。\[{C_p},{C_L}\],交叉验证和广义交叉验证的渐近最优性:离散指标集。安。统计师。15 958-975. ·Zbl 0653.62037号 ·doi:10.1214操作系统/1176305486
[47] Liang,T.和Rakhlin,A.(2020年)。只需插补:内核“无脊”回归可以推广。安。统计师。48 1329-1347. ·Zbl 1453.68155号 ·doi:10.1214/19-AOS1849
[48] LIANG,T.、RAKHLIN,A.和ZHAI,X.(2020年)。关于极小范数插值的多重下降和核的限制下等距。学习理论会议2683-2711.
[49] MEI,S.和MONTANARI,A.(2019年)。随机特征回归的泛化误差:精确渐近和双下降曲线。普通纯应用程序。数学。出现。
[50] Mei,S.、Montanari,A.和Nguyen,P.-M.(2018年)。两层神经网络景观的平均场视图。程序。国家。阿卡德。科学。美国115 E7665-E7671·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[51] MIOLANE,L.和MONTANARI,A.(2021)。套索的分布:对稀疏球的均匀控制和自适应参数调整。安。统计师。49 2313-2335. ·Zbl 1480.62145号 ·doi:10.1214/20-aos2038
[52] MONTANARI,A.、RUAN,F.、SOHN,Y.和YAN,J.(2019年)。最大边缘线性分类器的泛化误差:过参数化区域的高维渐近性。可在arXiv:1911.01544获取。
[53] MUTHUKUMAR V.、NARANG A.、SUBRAMANIAN V.、BELKIN M.、HSU D.和SAHAI A.(2021年)。过度参数化状态下的分类与回归:损失函数重要吗?J.马赫。学习。物件。22 222. ·兹比尔07626737
[54] PATIL,P.、WEI,Y.、RINALDO,A.和TIBSHIRANI,R.(2021)。高维岭回归交叉验证估计量的一致一致性。国际人工智能与统计会议3178-3186. PMLR公司。
[55] 彭宁顿,J.和沃拉,P.(2017)。用于深度学习的非线性随机矩阵理论。高级神经信息处理。系统。30. ·Zbl 1459.60012号
[56] RAKHLIN,A.和ZHAI,X.(2019)。插值与拉普拉斯核的一致性是一种高维现象。学习理论会议2595-2623页。PMLR公司。
[57] RICHARDS,D.、MOURTADA,J.和ROSASCO,L.(2020年)。一般源条件下岭(少)回归的渐近性。网址:arXiv:2006.06386。
[58] ROSSET,S.、ZHU,J.和HASTIE,T.(2003/04)。作为一条正则化路径,提升到最大边缘分类器。J.马赫。学习。物件。5 941-973. ·Zbl 1222.68290号
[59] Rotskoff,G.M.和Vanden-Eijnden,E.(2018年)。神经网络作为相互作用的粒子系统:损失景观的渐近凸性和近似误差的普适标度。可从arXiv:1805.00915获取。
[60] Rubio,F.和Mestre,X.(2011年)。一类随机矩阵的谱收敛性。统计师。普罗巴伯。莱特。81 592-602. ·Zbl 1214.15022号 ·doi:10.1016/j.spl.2011.01.004
[61] SERDOBOLSKII,V.I.(2008)。多参数统计阿姆斯特丹爱思唯尔·Zbl 1359.62015号
[62] Sirignano,J.和Spiliopoulos,K.(2020年)。神经网络的平均场分析:一个大数定律。SIAM J.应用。数学。80 725-752. ·兹比尔1440.60008 ·doi:10.1137/18M1192184
[63] SPIGLER,S.、GEIGER,M.、D'ASCOLI,S.,SAGUN,L.、BIROLI,G.和WYART,M.(2019年)。从欠参数化到过参数化的干扰过渡会影响深度学习中的泛化。《物理学杂志》。A类52 474001·Zbl 1509.68235号 ·doi:10.1088/1751-8121/ab4c8b
[64] Tao,T.(2012)。随机矩阵理论专题.数学研究生课程132.阿默尔。数学。佛罗里达州普罗维登斯Soc·doi:10.1090/gsm/132
[65] TIBSHIRANI,R.J.(2015)。快速分段算法的一般框架。J.马赫。学习。物件。16 2543-2588·Zbl 1351.62141号
[66] TSIGLER,A.和BARTLETT,P.L.(2020年)。岭回归中的良性过拟合。网址:arXiv:2009.14286。
[67] TULINO,A.M.和VERDU,S.(2004)。随机矩阵理论和无线通信。通信与信息理论的基础与发展趋势1 1-182. ·Zbl 1133.94014号
[68] WEBB,A.R.(1994)。前馈网络的函数逼近:推广的最小二乘法。IEEE传输。神经网络。5 363-371.
[69] WU,D.和XU,J.(2020年)。关于超参数线性回归中的最优加权正则化。高级神经信息处理。系统。33 10112-10123.
[70] XU,J.、MALEKI,A.、RAD,K.R.和HSU,D.(2021年)。中高维线性回归中的一致风险估计。IEEE传输。Inf.理论67 5997-6030. ·Zbl 1486.62208号 ·doi:10.1109/TIT.2021.3095375
[71] ZHANG,C.,BENGIO,S.,HARDT,M.,RECHT,B.和VINYALS,O.(2016)。理解深度学习需要重新思考泛化。可在arXiv:1611.03530购买。
[72] ZHANG,C.、BENGIO,S.和SINGER,Y.(2019)。创建的所有层是否相等?可从arXiv:1902.01996获取。
[73] 邹,D.、曹,Y.、周,D.和顾,Q.(2018)。随机梯度下降优化了过参数化的深层ReLU网络。可从arXiv:1811.08888获取·Zbl 1494.68245号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。