×

线性回归自适应弹性网S-估计的稳健变量选择和估计。 (英语) Zbl 07711772号

摘要:重尾误差分布和具有异常值的预测因子在高维回归问题中普遍存在,如果处理不当,可能严重影响统计分析的有效性。为了在这些不利条件下更可靠地选择和预测变量,提出了一种新的稳健正则回归估计量——自适应PENSE。即使在预测因子或残差异常污染的情况下,自适应PENSE也能产生可靠的变量选择和系数估计。结果表明,与其他惩罚相比,自适应惩罚能够带来更稳健、更可靠的变量选择,尤其是在预测空间中存在粗异常值的情况下。进一步证明了自适应PENSE具有很强的变量选择特性,即使在严重错误情况下也具有oracle特性,并且不需要估计错误规模。对模拟数据集和实际数据集的数值研究表明,与污染样本情况下的其他稳健正则化估值器相比,有限样本在很大范围内具有优越的性能。在补充材料中提供了实现用于计算所提出的方法的快速算法的R包和额外的模拟结果。

MSC公司:

62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alfons,A。;克罗克斯,C。;Gelper,S.,《用于分析高维大数据集的稀疏最小二乘回归》,Ann.Appl。统计,7,226-248(2013)·Zbl 1454.62123号
[2] Cohen Freue,G.V。;Kepplinger,D。;Salibián-Barrera,M。;Smucler,E.,《蛋白质组生物标记物变量选择和鉴定的稳健弹性净估计量》,《应用年鉴》。统计,第13期,2065-2090年(2019年)·Zbl 1436.62551号
[3] 范,J。;郭,S。;Hao,N.,超高维回归中使用改装交叉验证进行方差估计,J.R.Stat.Soc.,Ser。B、 统计方法。,74, 37-65 (2012) ·Zbl 1411.62199号
[4] 范,J。;范,Y。;Barut,E.,《自适应稳健变量选择》,《Ann.Stat.》,42,324-351(2014)·Zbl 1296.62144号
[5] 范,J。;刘,H。;孙,Q。;Zhang,T.,I-LAMM《稀疏学习:算法复杂性和统计误差的同时控制》,《Ann.Stat.》,46,814-841(2018)·Zbl 1392.62215号
[6] Filzmoser,P。;Varmuza,K.,《化学计量学:化学计计量学中的多元统计分析》(2017),r包1.4.2版
[7] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J.Stat.Softw。,33, 1-22 (2010)
[8] Gijbels,I。;Vrinssen,I.,线性回归中稳健的非负garrote变量选择,计算。统计数据分析。,85, 1-22 (2015) ·Zbl 1507.62061号
[9] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),Springer:Springer New York,NY·Zbl 1273.62005年
[10] 哈斯蒂,T。;Tibshirani,R。;Tibshirani,R.,最佳子集,向前分步还是套索?基于广泛比较的分析和建议,统计科学。,35, 579-592 (2020) ·Zbl 07307187号
[11] Hössjer,O.,关于S-估计量的最优性,Stat.Probab。莱特。,14, 413-419 (1992) ·兹比尔0761.62036
[12] Insolia,L。;肯尼,A。;奇亚罗蒙特,F。;Felici,G.,具有最佳保证的同时特征选择和离群值检测,生物统计学,78,1592-1603(2022)·Zbl 1520.62238号
[13] Janssens,K.H。;Deraedt,I。;沙尔姆,O。;Veeckman,J.,《比利时安特卫普出土的15-17世纪考古玻璃器皿的构成》(Love,G.;Nicholson,W.A.P.;Armigliato,A.,《微束分析的现代发展和应用》(1998),施普林格出版社),253-267
[14] Lambert-Lacroix,S。;Zwald,L.,通过Huber准则和自适应套索惩罚的稳健回归,Electron。J.Stat.,51015-153(2011)·Zbl 1274.62467号
[15] Lange,K.,MM优化算法(2016),工业和应用数学学会·Zbl 1357.90002号
[16] Loh,P.L.,高维稳健M-估计量的统计一致性和渐近正态性,Ann.Stat.,45866-896(2017)·Zbl 1371.62023号
[17] Loh,P.L.,高维稳健回归的尺度校准,电子。J.Stat.,15,5933-5994(2021)·Zbl 1493.62104号
[18] Maronna,R.,高维数据的鲁棒岭回归,Technometrics,53,44-53(2011)
[19] Maronna,R。;马丁·D·。;尤海,V。;Salibián-Barrera,M.,《稳健统计:理论与方法(与R)》,《概率与统计中的威利级数》(2019),John Wiley&Sons,Inc.:约翰·威利父子公司,新泽西州霍博肯·Zbl 1409.62009号
[20] Maronna,R.A。;Zamar,R.H.,高维数据集位置和离散度的稳健估计,技术计量学,44,307-317(2002)
[21] 潘,X。;孙,Q。;Zhou,W.X.,迭代重加权(ell_1)惩罚稳健回归,Electron。《美国统计杂志》,第15卷,第3287-3348页(2021年)·Zbl 1472.62116号
[22] Raymaekers,J。;Rousseeuw,P.,cellWise:使用单元格异常值分析数据(2021年),r包版本2.2.5
[23] 里德,S。;Tibshirani,R。;Friedman,J.,lasso回归中误差方差估计的研究,Stat.Sin。,26, 35-67 (2016) ·Zbl 1372.62023号
[24] Rousseeuw,P.J。;Van Driessen,K.,大型数据集的计算LTS回归,data Min.Knowl。发现。,12, 29-45 (2006)
[25] Rousseeuw,P.J。;Yohai,V.J.,通过S-估计量进行稳健回归,(Franke,J.;Härdle,W.;Martin,D.,稳健和非线性时间序列分析(1984),Springer:Springer New York,NY),256-272·Zbl 0567.62027号
[26] Salibián-Barrera,M。;Yohai,V.J.,S-回归估计的快速算法,J.Compute。图表。《统计》,第15卷,第414-427页(2006年)
[27] 她,Y。;Owen,A.B.,《使用非凸惩罚回归进行异常值检测》,美国统计协会,106,626-639(2011)·Zbl 1232.62068号
[28] 她,Y。;王,Z。;Shen,J.,《用递增分位数获得异常值阻力:快速算法和理论研究》,美国统计协会,1171282-1295(2022)·Zbl 1506.62539号
[29] Smucler,E。;Yohai,V.J.,线性回归模型的稳健和稀疏估计,计算。统计数据分析。,111, 116-130 (2017) ·Zbl 1464.62164号
[30] 孙,Q。;周伟新。;Fan,J.,自适应Huber回归,美国统计协会,115,254-265(2019)·Zbl 1437.62250号
[31] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.,Ser。B、 统计方法。,58, 267-288 (1996) ·Zbl 0850.62538号
[32] Tibshirani,R.J。;Rosset,S.,过度乐观:SURE调整的估计器的明显误差有多大偏差?,《美国统计协会期刊》,114697-712(2019)·兹比尔1420.62248
[33] Wang,H。;李·G。;Jiang,G.,通过LAD-lasso的稳健回归收缩和一致变量选择,J.Bus。经济。Stat.,25,347-355(2007)
[34] 熊,S。;Joseph,V.R.,《回归与异常收缩》,J.Stat.Plan。推理,1431988-2001(2013)·Zbl 1279.62145号
[35] Yohai,V.J.,回归的高分解点和高效稳健估计,《Ann.Stat.》,第15期,第642-656页(1987年)·Zbl 0624.62037号
[36] Zou,H.,《自适应套索及其预言属性》,美国统计协会,101,1418-1429(2006)·Zbl 1171.62326号
[37] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,J.R.Stat.Soc.,Ser。B、 统计方法。,67, 301-320 (2005) ·兹比尔1069.62054
[38] 邹,H。;袁明,复合分位数回归与预言模型选择理论,《统计年鉴》,36,1108-1126(2008)·Zbl 1360.62394号
[39] 邹,H。;Zhang,H.H.,关于参数发散的自适应弹性网,《统计年鉴》,37,1733-1751(2009)·兹比尔1168.62064
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。