×

超参数回归中的降维、正则化和泛化。 (英语) Zbl 1493.62371号

摘要:深度学习中的过度参数化功能强大:非常大的模型完美地拟合了训练数据,但通常泛化效果很好。这种认识带回了回归线性模型的研究,包括普通最小二乘法(OLS),与深度学习一样,它显示出“双下降”行为:(1)当参数数量接近样本数量时,风险(预期样本外预测误差)可以任意增长,(2)风险随着(p>n)的\(p\)而降低,有时达到的值低于\(p<n)的最低风险值。通过规范化可以避免OLS风险的分歧。在这项工作中,我们表明,对于某些数据模型,也可以通过基于主成分分析的降维(PCA-OLS,也称为主成分回归)来避免这种情况。我们通过考虑总体和经验主成分的对齐,为PCA-OLS的风险提供了非共振界。我们表明,降维提高了鲁棒性,而OLS对敌对攻击具有任意敏感性,特别是在参数过高的情况下。我们从理论和经验上比较了PCA-OLS与广泛的基于投影的方法,包括随机投影、偏最小二乘和某些类别的线性双层神经网络。对不同的数据生成模型进行了这些比较,以评估对信噪比的敏感性以及回归系数与特征的一致性。我们发现,投影依赖于训练数据的方法可以优于独立于训练数据选择投影的方法,即使是那些具有人口数量预言知识的方法,这是另一个以前已经发现的看似矛盾的现象。这表明,过度参数化对于良好的泛化可能不是必要的。

理学硕士:

62H25个 因子分析和主成分;对应分析
62J05型 线性回归;混合模型
62甲12 多元分析中的估计
68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] S.Alemany和N.Pissinou,《降维与对抗稳健性之间的困境》,预印本,2020年,https://arxiv.org/abs/2006.10885。
[2] J.Ba、M.Erdogdu、T.Suzuki、D.Wu和T.Zhang,《两层神经网络的泛化:渐近观点》,载于《国际学习表征会议论文集》,2020年。
[3] P.L.Bartlett、P.M.Long、G.Lugosi和A.Tsigler,线性回归中的Benign过拟合,Proc。国家。阿卡德。科学。美国,117(2020),第30063-30070页·兹比尔1485.62085
[4] M.Belkin、D.Hsu、S.Ma和S.Mandal,《协调现代机器学习实践和经典偏差-方差权衡》,Proc。国家。阿卡德。科学。美国,116(2019),第15849-15854页·Zbl 1433.68325号
[5] M.Belkin、D.Hsu和P.Mitra,合身还是合身?插值的分类和回归规则的风险边界,预印本,2018年,https://arxiv.org/abs/1806.05161。
[6] M.Belkin、D.Hsu和J.Xu,弱特征的两种双下降模型,SIAM数学杂志。数据科学。,2(2020年),第1167-1180页,https://doi.org/10.1137/20m1336072。 ·Zbl 1484.62090号
[7] A.N.Bhagoji、D.Cullina、C.Sitawarin和P.Mittal,《通过数据转换增强机器学习系统的鲁棒性》,《第52届信息科学与系统年会(CISS)会议记录》,2018年,第1-5页,https://doi.org/10.109/CISS.2018.8362326。
[8] B.Biggio、B.Nelson和P.Laskov,《针对支持向量机的毒药攻击》,预印本,arXiv:1206.63892012年。
[9] A.Canatar、B.Bordelon和C.Pehlevan,谱偏差和任务模型对齐解释了核回归和无限宽神经网络中的泛化,自然通讯。,12 (2021), 2914.
[10] N.Carlini和D.Wagner,《对手示例不容易检测:绕过十种检测方法》,载于《第十届ACM人工智能与安全研讨会论文集》,2017年,第3-14页。
[11] Y.Chen、C.Caramanis和S.Mannor,对抗性腐败下的稳健稀疏回归,《机器学习国际会议论文集》,2013年,第774-782页。
[12] R.D.Cook和L.Forzani,高维回归中的偏最小二乘预测,Ann.Statist。,47(2019年),第884-908页·兹比尔1416.62389
[13] S.d’Ascoli、L.Sagun和G.Biroli,《三重血统和两种过度适应:它们出现在哪里和为什么?》?,预印本,arXiv:2006.035092020·Zbl 07451712号
[14] P.S.Dhillon、D.P.Foster、S.M.Kakade和L.H.Ungar,普通最小二乘与岭回归的风险比较,J.Mach。学习。Res.,14(2013),第1505-1511页·Zbl 1317.68152号
[15] L.E.Frank和J.H.Friedman,一些化学计量学回归工具的统计观点,《技术计量学》,35(1993),第109-135页·Zbl 0775.62288号
[16] M.Geiger、S.Spigler、S.d'Ascoli、L.Sagun、M.Baity-Jesi、G.Biroli和M.Wyart,《干扰过渡作为理解深层神经网络损失景观的范例》,Phys。E版,100(2019年),第012115页。
[17] T.Hastie、A.Montanari、S.Rosset和R.J.Tibshirani,《高维无脊最小二乘插值的惊喜》,预印本,2020年,https://arxiv.org/abs/1903.08560。
[18] I.S.Helland和T.Almöy,《只有少数成分相关时预测方法的比较》,J.Amer。统计师。协会,89(1994),第583-591页·兹比尔0799.62080
[19] M.Henmi和S.Eguchi,《关于妨害参数和预测估计函数的悖论》,《生物统计学》,91(2004),第929-941页·Zbl 1064.62002号
[20] D.W.Hogg和S.Villar,拟合非常灵活的模型:具有大量参数的线性回归,Publ。阿童木。Soc.Pac.公司。,133 (2021), 1027.
[21] D.C.Hoyle,高维数据和小样本尺寸的自动PCA尺寸选择。,J.马赫。学习。Res.,9(2008),第2733-2759页·Zbl 1225.68186号
[22] A.K.Jain和B.Chandrasekaran,模式识别实践中的维度和样本大小考虑,《统计手册》,第2卷,Elsevier,阿姆斯特丹,1982年,第835-855页·Zbl 0511.62067号
[23] A.K.Jain、R.P.W.Duin和J.Mao,《统计模式识别:综述》,IEEE Trans。模式分析。机器。智力。,22(2000),第4-37页。
[24] A.Javanmard、M.Soltanolkotabi和H.Hassani,《线性回归对抗训练中的精确权衡》,预印本,2020年,https://arxiv.org/abs/2002.10477。
[25] T.Jebara,《机器学习:歧视性和生成性》,Springer Int.Ser。工程计算。科学。,施普林格,纽约,2012年·Zbl 1030.68073号
[26] I.M.Johnstone和D.Paul,《高维度PCA:定位》,Proc。IEEE,106(2018),第1277-1292页。
[27] I.T.Jolliffe,回归分析中的主成分,摘自《主成分分析》,施普林格,纽约,1986年,第129-155页。
[28] S.d.Jong、B.M.Wise和N.L.Ricker,标准偏最小二乘和连续幂回归,《化学计量学杂志》,15(2001),第85-100页。
[29] P.Ju、X.Lin和J.Liu,《过度穿着对基础追求无害,但只在一定程度上有害》,预印本,2020年,https://arxiv.org/abs/2002.00492。
[30] V.Koltchinski和K.Lounici,样本协方差算子的集中不等式和矩界,伯努利,23(2017),第110-133页·Zbl 1366.60057号
[31] V.Koltchinskii和K.Lounici,样本协方差谱投影仪的正态近似和浓度,Ann.Statist。,45(2017年),第121-157页·Zbl 1367.62175号
[32] F.Li、L.Lai和S.Cui,关于子空间学习的对抗性鲁棒性,IEEE Trans。信号处理。,68(2020),第1470-1483页,https://doi.org/10.109/tsp.2020.2974676。 ·Zbl 07590836号
[33] F.Li、L.Lai和S.Cui,针对线性回归的最优特征操作攻击,IEEE Trans。信号处理。,69(2021年),第5580-5594页。
[34] 李伟,最小加权范数的推广误差与核插值,SIAM J.Math。数据科学。,3(2021年),第414-438页·兹比尔1468.41003
[35] Y.Li、J.Bradshaw和Y.Sharma,生成分类器对对抗性攻击更鲁棒吗?,《2019年国际机器学习会议记录》,第3804-3814页。
[36] Z.Li、C.Xie和Q.Wang,《高维最小二乘估计中可证明的更多数据伤害》,预印本,2020,https://arxiv.org/abs/2008.06296。
[37] L.Lin和E.Dobriban,测试错误的原因是什么?通过方差分析超越偏差方差,预印本,2020年,https://arxiv.org/abs/2010.05170。 ·Zbl 07415098号
[38] C.Liu、B.Li、Y.Voradeombichik和A.Oprea,针对训练数据中毒的稳健线性回归,第十届ACM人工智能与安全研讨会论文集,AISec’17,纽约,2017年,第91-102页,https://doi.org/10.1145/3128572.3140447。
[39] F.Liu、Z.Liao和J.A.K.Suykens,《高维核回归:超越双重下降的精细分析》,预印本,2020年,https://arxiv.org/abs/2010.02681。
[40] A.Loukas,样本的特征向量与实际协方差矩阵的距离有多近?,《机器学习国际会议论文集》,2017年,第2228-2237页。
[41] W.F.Massy,探索性统计研究中的主成分回归,J.Amer。统计师。协会,60(1965),第234-256页。
[42] S.Mei和X.Zhu,《使用机器教学识别针对机器学习者的最佳训练集攻击》,载于《第二十届美国人工智能学会人工智能会议论文集》,美国人工智能出版社,2015年,第2871-2877页。
[43] P.Nakkiran、P.Venkat、S.Kakade和T.Ma,最优正则化可以缓解双重下降,预印本,arXiv:2003.018972020。
[44] M.Ness、D.W.Hogg、H.-W.Rix、A.Y.Ho和G.Zasowski,《加农炮:恒星标签确定的数据驱动方法》,天体物理学。J.,808(2015),第16页。
[45] A.Y.Ng和M.I.Jordan,《区分性分类器与生成性分类器:逻辑回归与朴素贝叶斯的比较》,载《第十四届神经信息处理系统国际会议论文集》,2002年,第841-848页。
[46] D.L.Pimentel-Alarcoín、A.Biswas和C.R.Soliís-Lemus,对手主成分分析,《2017年IEEE信息理论国际研讨会(ISIT)会议记录》,2017年,第2363-2367页。
[47] J.F.Queiroö,关于奇异值和特征值的交错性质,线性代数应用。,97(1987),第23-28页·Zbl 0637.15014号
[48] C.E.Rasmussen,机器学习中的高斯过程,《机器学习暑期学校》,纽约斯普林格,2003年,第63-71页·Zbl 1120.68436号
[49] R.Rosipal和N.Kraömer,《偏最小二乘法的概述和最新进展》,摘自《国际统计与优化视角子空间、潜在结构和特征选择研讨会论文集》,Springer,2005年,第34-51页。
[50] J.Rougier和C.E.Priebe,模型选择中“Ockham因子”的精确形式,Amer。统计人员。,75(2021),第288-293页·Zbl 07632866号
[51] M.Slawski,《关于主成分回归、随机投影和列子抽样》,电子。J.统计。,12(2018),第3673-3712页·Zbl 1414.62219号
[52] S.Spigler、M.Geiger、S.d'Ascoli、L.Sagun、G.Biroli和M.Wyart,《从低参数化到高参数化的干扰过渡影响损失景观和泛化》,预印本,arXiv:1810.096652018年。
[53] M.Stone和R.J.Brooks,《连续回归:包含普通最小二乘、偏最小二乘和主成分回归的交叉验证顺序构建预测》,J.R.Stat.Soc.Ser。B统计方法。,52(1990年),第237-258页·兹比尔0708.62054
[54] C.Szegedy、W.Zaremba、I.Sutskever、J.B.Estrach、D.Erhan、I.Goodfellow和R.Fergus,《神经网络的有趣特性》,载于《第二届学习表征国际会议论文集》,ICLR 20142014年。
[55] T.Tarpey、R.T.Ogden、E.Petkova和R.Christensen,估计回归系数的矛盾结果,Amer。统计人员。,68(2014),第271-276页·Zbl 07653668号
[56] M.Wahl,《关于主成分回归预测误差的注记》,预印本,2019年,https://arxiv.org/abs/1811.02998。
[57] A.G.Wilson和P.Izmailov,Bayesian Deep Learning and A Probability Perspective of Generalization,预印本,2020年,https://arxiv.org/abs/2002.08791。
[58] H.Wold,《理论知识匮乏时的模型构建和评估:偏最小二乘的理论和应用》,载于《计量经济学模型评估》,Elsevier,纽约,1980年,第47-74页。
[59] D.Wu和J.Xu,关于超参数线性回归中的最优加权正则化,预印本,2020年,https://arxiv.org/abs/2006.05800。
[60] Y.Xie、R.Ward、H.Rauhut和H.-H.Chou,加权优化:通过平滑插值实现更好的泛化,预印本,arXiv:2006.084952020。
[61] H.Xu、C.Caramanis和S.Sanghavi,通过离群点追踪实现稳健PCA,IEEE Trans。通知。《理论》,58(2012),第3047-3064页·Zbl 1365.62228号
[62] 徐智杰和徐智杰,《关于主成分回归中使用的变量数量》,载《第33届神经信息处理系统国际会议论文集》,2019年,第5094-5103页。
[63] F.Yang、S.Liu、E.Dobriban和D.P.Woodruff,《如何利用主成分分析和随机投影降低维数?》?,IEEE传输。通知。《理论》,67(2021),第8154-8189页·Zbl 1489.94047号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。