×

只需插补:核“无脊”回归可以推广。 (英语) Zbl 1453.68155号

摘要:在没有显式正则化的情况下,非线性核的核“无脊”回归具有完美拟合训练数据的潜力。然而,从经验上观察到,这种插值解仍然可以在测试数据上很好地推广。我们隔离了最小范数插值解的隐式正则化现象,这是由于输入数据的高维、核函数的曲率和数据的有利几何性质(如经验协方差和核矩阵的特征值衰减)的组合。除了推导出样本外误差的数据相关上界外,我们还提供了实验证据,表明这种现象发生在MNIST数据集中。

MSC公司:

68T05型 人工智能中的学习和自适应系统
46 E22型 具有再生核的希尔伯特空间(=(适当的)函数希尔伯特空间,包括de Branges-Rovnyak和其他结构空间)
62G08号 非参数回归和分位数回归
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alvarez,M.A.、Rosasco,L.和Lawrence,N.D.(2012年)。向量值函数的内核:综述。已找到。趋势马赫数。学习。4 195-266. ·Zbl 1301.68212号 ·数字对象标识代码:10.1561/22000036
[2] Bartlett,P.L.和Mendelson,S.(2002年)。Rademacher和Gaussian复杂性:风险边界和结构结果。J.马赫。学习。第3463-482号决议·Zbl 1084.68549号
[3] Belkin,M.(2018)。近似值胜过集中值?关于光滑径向核推理的近似观点。ArXiv预印本。可从ArXiv:1801.03437获得。
[4] Belkin,M.、Hsu,D.和Mitra,P.(2018年)。合身还是完美合身?插值的分类和回归规则的风险边界。ArXiv预印本。可在ArXiv:1806.05161上获得。
[5] Belkin,M.、Ma,S.和Mandal,S.(2018年)。为了理解深度学习,我们需要理解内核学习。ArXiv预印本。可从ArXiv:1802.01396获得。
[6] Belkin,M.、Rakhlin,A.和Tsybakov,A.B.(2018年)。数据插值是否与统计优化相矛盾?ArXiv预印本。可从ArXiv:1806.09471获得。
[7] Bose,A.、Chatterjee,S.和Gangopadhyay,S.(2003年)。大维随机矩阵的极限谱分布。J.印度统计师。协会41 221-259。
[8] Caponetto,A.和De Vito,E.(2007年)。正则化最小二乘算法的最优速率。已找到。计算。数学。7 331-368. ·Zbl 1129.68058号 ·doi:10.1007/s10208-006-0196-8
[9] Cressie,N.(1990年)。克里格的起源。数学。地质。22 239-252. ·Zbl 0964.86511号 ·doi:10.1007/BF00889887
[10] Cucker,F.和Smale,S.(2002年)。学习理论中正则化参数的最佳选择:关于偏差方差问题。已找到。计算。数学。2 413-428. ·Zbl 1057.68085号 ·doi:10.1007/s102080010030
[11] De Vito,E.、Caponnetto,A.和Rosasco,L.(2005)。学习理论中正则化最小二乘算法的模型选择。已找到。计算。数学。5 59-85. ·Zbl 1083.68106号 ·doi:10.1007/s10208-004-0134-1
[12] Dou,X.和Liang,T.(2019年)。将神经网络训练为学习数据自适应核:可证明表示和近似优点。ArXiv预印本。可从ArXiv:1901.07114获得。
[13] El Karoui,N.(2010年)。核随机矩阵的谱。安。统计师。38 1-50. ·Zbl 1181.62078号 ·doi:10.1214/08-AOS648
[14] Evgeniou,T.、Pontil,M.和Poggio,T.(2000)。正则化网络和支持向量机。高级计算。数学。13 1-50. ·Zbl 0939.68098号 ·doi:10.1023/A:1018946025316
[15] Golub,G.H.、Heath,M.和Wahba,G.(1979年)。广义交叉验证是一种选择良好脊线参数的方法。技术计量21 215-223·Zbl 0461.62059号 ·doi:10.1080/00401706.1979.10489751
[16] Gunasekar,S.、Woodworth,B.E.、Bhojanapalli,S.,Neyshabur,B.和Srebro,N.(2017年)。矩阵分解中的隐式正则化。神经信息处理系统进展6151-6159。
[17] Györfi,L.、Kohler,M.、Krzyzak,A.和Walk,H.(2002)。非参数回归的无分布理论。统计学中的斯普林格系列。纽约州施普林格·Zbl 1021.62024号
[18] Koltchinskii,V.和Beznosova,O.(2005)。分类中的指数收敛速度。学习理论。计算机科学课堂讲稿3559 295-307。柏林施普林格·Zbl 1137.68546号
[19] LeCun,Y.、Cortes,C.和Burges,C.J.(2010年)。Mnist手写数字数据库。AT&T实验室【在线】。可在http://yann.Lecun.Com/exdb/mnist。
[20] Li,Y.,Ma,T.和Zhang,H.(2017)。过参数化矩阵恢复中的算法正则化。ArXiv预印本。可从ArXiv:1712.09203获得。
[21] Liang,T.和Rakhlin,A.(2019年)。补充“Just interpolate:Kernel”无脊“回归可以推广”。https://doi.org/10.1214/19-AOS1849SUPP。
[22] Neyshabur,B.、Tomioka,R.和Srebro,N.(2014年)。寻找真正的归纳偏差:关于内隐正则化在深度学习中的作用。ArXiv预印本。可从ArXiv:1412.6614获得。
[23] Pedregosa,F.、Varoqueux,G.、Gramfort,A.等人(2011年)。Scikit-learn:Python中的机器学习。J.马赫。学习。第12号决议2825-2830·Zbl 1280.68189号
[24] Shawe Taylor,J.和Cristianini,N.(2004年)。模式分析的核心方法。剑桥大学出版社,剑桥·Zbl 0994.68074号
[25] Smola,A.J.和Schölkopf,B.(1998年)。用内核学习4。Citeser·Zbl 1019.68094号
[26] Vapnik,V.N.(1998)。统计学习理论。信号处理、通信和控制的自适应和学习系统。纽约威利·Zbl 0935.62007号
[27] Vovk,V.(2013)。核岭回归。经验推断105-116。海德堡施普林格·Zbl 1325.62094号
[28] Wahba,G.(1990年)。观测数据的样条模型。CBMS-NSF应用数学区域会议系列59。宾夕法尼亚州费城SIAM·Zbl 0813.62001号
[29] Yao,Y.、Rosasco,L.和Caponetto,A.(2007年)。关于梯度下降学习中的提前停止。施工。约26 289-315·Zbl 1125.62035号 ·doi:10.1007/s00365-006-0663-2
[30] Yin,Y.Q.,Bai,Z.D.和Krishnaiah,P.R.(1988年)。关于大维样本协方差矩阵最大特征值的极限。理论相关领域78 509-521·Zbl 0627.62022号 ·doi:10.1007/BF00353874
[31] 张,C。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。