×

一种无需调整的稳健高效的高维回归方法。 (英语) Zbl 1452.62525号

摘要:我们介绍了一种具有理论保证的高维回归新方法。新程序克服了拉索调谐参数选择的挑战,并具有一些吸引人的特性。它使用一个易于模拟的调谐参数,该参数自动适应未知随机误差分布和设计矩阵的相关结构。对于严重的随机误差,它具有强大的效率增益,同时对正常随机误差保持高效。与其他稳健回归方法相比,该方法在响应变量进行尺度变换时也具有等变特性。在计算上,它可以通过线性规划有效地求解。从理论上讲,在随机误差分布的弱条件下,我们为具有模拟调谐参数的新估计器建立了一个具有近预言率的有限样本误差界。我们的结果为弥补拉索及其变体的实践和理论之间的差距做出了有益的贡献。我们还证明,通过第二阶段的增强和一些光的调谐,可以进一步提高效率。我们的仿真结果表明,在各种设置下,所提出的方法通常优于交叉验证的Lasso。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
62层35 鲁棒性和自适应程序(参数推断)
62J05型 线性回归;混合模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Avella-Medina,M.和Ronchetti,E.(2018年)。高维广义线性模型中稳健且一致的变量选择。Biometrika,105:31-44·Zbl 07072391号
[2] Belloni,A.、Chernozhukov,V.和Wang,L.(2011年)。方形套索:通过圆锥曲线编程实现稀疏信号的关键恢复。《生物特征》,98(4):791-806·Zbl 1228.62083号
[3] Bickel,P.J.、Ritov,Y.和Tsybakov,A.B.(2009年)。同时分析套索和dantzig选择器。统计年鉴,37(4):1705-1732·Zbl 1173.62022号
[4] Bien,J.、Gaynanova,I.、Lederer,J.和Müller,C.(2016)。trex的非凸全局最小化和错误发现率控制。arXiv预打印arXiv:1604.06815。
[5] Bien,J.、Gaynanova,I.、Lederer,J.和Müller,C.L.(2018年)。用trex进行线性回归的预测误差界。测试,第1-24页·Zbl 1420.62304号
[6] Boyd,S.和Vandenberghe,L.(2004)。凸优化。剑桥大学出版社·Zbl 1058.90049号
[7] Bradic,J.、Fan,J.和Wang,W.(2011年)。用于超高维变量选择的惩罚复合拟似然。英国皇家统计学会杂志:B辑,73(3):325-349·Zbl 1411.62181号
[8] Bühlmann,P.和van de Geer,S.(2011)。高维数据统计:方法、理论和应用。施普林格科技与商业媒体·Zbl 1273.62015年
[9] Bunea,F.、Tsybakov,A.、Wegkamp,M.等人(2007年)。套索的稀疏预言不等式。《电子统计杂志》,1:169-194·Zbl 1146.62028号
[10] Candes,E.和Tao,T.(2007)。dantzig选择器:当p远大于n时的统计估计。《统计年鉴》,35(6):2313-2351·Zbl 1139.62019号
[11] Chatterjee,S.和Jafarov,J.(2015)。交叉验证套索的预测误差。arXiv预印本arXiv:1502.06291。
[12] Chen,J.和Chen,Z.(2008)。大模型空间模型选择的扩展贝叶斯信息准则。生物特征,95(3):759-771·Zbl 1437.62415号
[13] Chen,S.S.、Donoho,D.L.和Saunders,M.A.(2001年)。通过基追踪进行原子分解。SIAM综述,43(1):129-159·Zbl 0979.94010号
[14] Chetverikov,D.、Liao,Z.和Chernozhukov,V.(2016)。在交叉验证套索上。arXiv预印本arXiv:1605.02214。
[15] Chichignoud,M.、Lederer,J.和Wainwright,M.J.(2016)。一种实用的方案和快速算法,可在保证最优性的情况下调整套索。机器学习研究杂志,17(231):1-20·Zbl 1404.68096号
[16] Clémençon,S.、Colin,I.和Bellet,A.(2016)。扩大经验风险最小化:不完全u统计量的优化。机器学习研究杂志,17(1):2682-2717·Zbl 1360.62173号
[17] Clémençon,S.、Lugosi,G.和Vayatis,N.(2008年)。u统计量的排序和经验最小化。《统计年鉴》,36(2):844-874·Zbl 1181.68160号
[18] Dicker,L.H.(2014)。高维线性模型中的方差估计。《生物特征》,101(2):269-284·Zbl 1452.62495号
[19] Fan,J.、Fan,Y.和Barut,E.(2014)。自适应稳健变量选择。《统计年鉴》,42(1):324·Zbl 1296.62144号
[20] Fan,J.、Guo,S.和Hao,N.(2012)。超高维回归中使用改装交叉验证的方差估计。英国皇家统计学会期刊:B辑,74(1):37-65·Zbl 1411.62199号
[21] Fan,J.、Li,Q.和Wang,Y.(2017)。在缺乏对称性和轻尾假设的情况下估计高维平均回归。英国皇家统计学会杂志:B辑,79(1):247-265·兹比尔1414.62178
[22] Fan,J.和Li,R.(2001)。基于非冲突惩罚似然的变量选择及其oracle属性。美国统计协会杂志,96:1348-1360·Zbl 1073.62547号
[23] Fan,J.和Lv,J.(2010)。高维特征空间中变量选择的选择性概述。中国统计,20(1):101-148·Zbl 1180.62080号
[24] Fan,Y.和Tang,C.Y.(2013)。高维惩罚似然中的调整参数选择。英国皇家统计学会杂志,B辑,75:531-552·兹比尔1411.62216
[25] Feng,L.,Zou,C.和Wang,Z.(2012)。单指数模型的基于秩的推理。统计与概率快报,82(3):535-541·Zbl 1237.62041号
[26] Feng,Y.和Yu,Y.(2019)。高维变量选择的leave-nv-out交叉验证的受限一致性。中国统计局,29(3):1607-1630·Zbl 1422.62255号
[27] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。统计软件杂志,33(1):1-22。
[28] Hebiri,M.和Lederer,J.(2013)。相关性如何影响套索预测。IEEE信息理论汇刊,59(3):1846-1854·Zbl 1364.62186号
[29] Hettmansperger,T.P.和McKean,J.W.(1998年)。稳健的非参数统计方法。伦敦:阿诺德·Zbl 0887.62056号
[30] Hjort,N.L.和Pollard,D.(2011年)。凸过程极小值的渐近性。arXiv预打印arXiv:1107.3806。
[31] 霍姆里格豪森博士和麦克唐纳博士(2013年)。套索、持久性和交叉验证。在国际机器学习会议上,1031-1039。
[32] Homrighausen,D.和McDonald,D.J.(2017年)。交叉验证与套索型程序的风险一致性。中国统计,27(3):1017-1036·Zbl 1372.62022号
[33] Jaeckel,L.A.(1972年)。通过最小化残差的离散度来估计回归系数。《数理统计年鉴》,43(5):1449-1458·Zbl 0277.62049号
[34] Koenker,R.(2005)。分位数回归。剑桥大学出版社,纽约·兹比尔1111.62037
[35] Lederer,J.和Müller,C.(2015)。不要沉迷于调整参数:使用trex在高维度上调整自由变量选择。AAAI人工智能会议,2729-2735。
[36] Ledoux,M.和Talagrand,M.(2013)。巴拿赫空间中的概率:等高线和过程。施普林格科技与商业媒体·Zbl 1226.60003号
[37] Lee,E.R.、Noh,H.和Park,B.U.(2014年)。分位数回归模型的贝叶斯信息准则模型选择。美国统计协会杂志,109(505):216-229·Zbl 1367.62122号
[38] Leng,C.(2010年)。通过正则秩回归进行变量选择和系数估计。《中国统计》,第167-181页·Zbl 1180.62058号
[39] Li,X.,Zhao,T.,Wang,L.,Yuan,X.和Liu,H.(2018)。耀斑:拉索回归家族。R软件包版本1.6.0。
[40] Loh,P.-L.(2017)。高维稳健m-估计的统计一致性和渐近正态性。《统计年鉴》,45(2):866-896·Zbl 1371.62023号
[41] Lozano,A.C.、Meinshausen,N.、Yang,E.等人(2016)。稳健高维回归的最小距离套索。《统计学电子期刊》,10(1):1296-1340·Zbl 1349.62322号
[42] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。《统计年鉴》,34(3):1436-1462·Zbl 1113.62082号
[43] Naranjo,J.D.和McKean,J.W.(1997年)。用估计分数进行等级回归。统计与概率字母,33(2):209-216·Zbl 0901.62051号
[44] Parzen,M.、Wei,L.和Ying,Z.(1994年)。基于关键估计函数的重采样方法。生物特征,81(2):341-350·Zbl 0807.62038号
[45] Peng,B.和Wang,L.(2015)。一种用于高维非凸惩罚分位数回归的迭代坐标下降算法。计算与图形统计杂志,24(3):676-694。
[46] Prasad,A.、Suggala,A.S.、Balakrishnan,S.和Ravikumar,P.(2020)。通过稳健梯度估计进行稳健估计。英国皇家统计学会期刊B辑,82(3):601-627·Zbl 07554767号
[47] Sabourin,J.A.、Valdar,W.和Nobel,A.B.(2015)。惩罚模型选择中选择惩罚参数的置换方法。生物统计学,71(4):1185-1194·Zbl 1419.62171号
[48] 孙琦、周维新和范杰(2020)。自适应huber回归。美国统计协会杂志,115:254-265·Zbl 1437.62250号
[49] Sun,T.和Zhang,C.-H.(2012)。缩放稀疏线性回归。《生物特征》,99(4):879-898·Zbl 1452.62515号
[50] Sun,T.和Zhang,C.-H.(2013)。用缩放套索进行稀疏矩阵反演。机器学习研究杂志,14(1):3385-3418·Zbl 1318.62184号
[51] Tibshirani,R.(1996)。通过套索回归收缩和选择。英国皇家统计学会杂志。B系列,58(1):267-288·Zbl 0850.62538号
[52] Van de Geer,S.A.等人(2008年)。高维广义线性模型和套索。《统计年鉴》,36(2):614-645·Zbl 1138.62323号
[53] van der Vaart,A.和Wellner,J.(1996年)。弱收敛与经验过程:统计应用。施普林格科技与商业媒体·兹比尔0862.60002
[54] Wainwright,M.J.(2009)。使用l_1约束二次规划(lasso)恢复高维和噪声稀疏性的锐化阈值。IEEE信息理论交易,55(5):2183-2202·Zbl 1367.62220号
[55] Wang,H.、Li,B.和Leng,C.(2009a)。收缩率调谐参数选择,参数数量分散。英国皇家统计学会杂志:B辑(统计方法),71(3):671-683·Zbl 1250.62036号
[56] Wang,H.,Li,R.和Tsai,C.-L.(2007)。调整平滑剪裁绝对偏差方法的参数选择器。《生物特征》,94(3):553-568·Zbl 1135.62058号
[57] Wang,L.(2013)。高维线性回归的l_1惩罚lad估计量。多元分析杂志,120:135-151·Zbl 1279.62144号
[58] Wang,L.,Kai,B.和Li,R.(2009b)。变系数模型的局部秩推断。美国统计协会杂志,104(488):1631-1645·Zbl 1205.62092号
[59] Wang,L.、Kim,Y.和Li,R.(2013a)。校准超高维非凸惩罚回归。统计年鉴,41(5):2505-2536·Zbl 1281.62106号
[60] Wang,L.和Li,R.(2009)。加权wilcoxon型平滑剪裁绝对偏差法。生物统计学,65(2):564-571·Zbl 1167.62093号
[61] Wang,L.,Wu,Y.和Li,R.(2012)。分位数回归分析超高维异质性。美国统计协会杂志,107(497):214-222·Zbl 1328.62468号
[62] Wang,X.、Jiang,Y.、Huang,M.和Zhang,H.(2013b)。具有指数平方损失的稳健变量选择。美国统计协会杂志,108(502):632-643·Zbl 06195966号
[63] Wu,Y.和Wang,L.(2020)。高维回归调整参数选择综述。《统计及其应用年鉴》,7(1):209-226。
[64] Yu,G.和Bien,J.(2019年)。估计高维线性模型中的误差方差。Biometrika,106(3):533-546·Zbl 1464.62350号
[65] Zhang,C.H.(2010年a)。极小极大凹惩罚下的几乎无偏变量选择。《统计年鉴》,38:894-942·Zbl 1183.62120号
[66] Zhang,C.-H.和Huang,J.(2008)。高维线性回归中套索选择的稀疏性和偏差。统计年鉴,36(4):1567-1594·Zbl 1142.62044号
[67] Zhang,C.-H.和Zhang、T.(2012)。高维稀疏估计问题的凹正则化的一般理论。统计科学,27(4):576-593·Zbl 1331.62353号
[68] Zhang,T.(2010年b)。稀疏正则化的多级凸松弛分析。机器学习研究杂志,11:1081-1107·兹比尔1242.68262
[69] Zhao,P.和Yu,B.(2006)。套索的模型选择一致性。机器学习研究杂志,7:2541-2563·Zbl 1222.62008年
[70] Zou,H.和Li,R.(2008)。非凹陷惩罚似然模型中的一步稀疏估计。《统计年鉴》,36:1509-1566·Zbl 1282.62112号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。