×

极小极大凹惩罚下的几乎无偏变量选择。 (英语) Zbl 1183.62120号

小结:我们提出了MC(+),一种快速、连续、几乎无偏和精确的高维线性回归惩罚变量选择方法。LASSO速度快且连续,但有偏差。LASSO的偏差可能会阻止一致的变量选择。子集选择是无偏见的,但计算成本很高。MC(+)有两个元素:最小最大凹罚(MCP)和惩罚线性无偏选择(PLUS)算法。在给定变量选择和无偏性的某些阈值的情况下,MCP最大限度地提供了稀疏区域中惩罚损失的凸性。PLUS在惩罚损失的临界点图的某个主分支中计算可能非凸惩罚损失函数的多个精确局部极小值。它的输出是一条连续的分段线性路径,从无穷惩罚的原点到零惩罚的最小二乘解。
我们证明了在普适惩罚水平下,MC(+)具有很高的匹配未知符号的概率,从而在不假设LASSO要求的强不可表示条件的情况下进行正确选择。这种选择一致性适用于(p\ggn)的情况,并被证明在可能的多个局部极小值问题中精确地适用于MC(+)解。我们证明了对于球中回归系数的估计,MC(+)在概率上达到了一定的极小极大收敛速度。我们使用SURE方法导出了一般惩罚LSE的自由度和C(p)型风险估计,包括LASSO和MC(+)估计,并证明了它们的无偏性。基于估计的自由度,我们提出了一种噪声水平的估计方法,以便正确选择惩罚水平。对于满秩设计和一般次二次惩罚,我们提供了惩罚LSE连续的充分必要条件。仿真结果压倒性地支持了我们关于变量选择特性优越的主张,并证明了该方法的计算效率。

MSC公司:

62J05型 线性回归;混合模型
62甲12 多元分析中的估计
65C60个 统计学中的计算问题(MSC2010)
62J07型 山脊回归;收缩估计器(拉索)
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.(1973年)。信息论和最大似然原理的推广。程序中。第二届信息理论国际研讨会(V.Petrov和F.Csáki编辑)267-281。Akadmiai Kiadó,布达佩斯·Zbl 0283.62006号
[2] Antoniadis,A.和Fan,J.(2001)。正则小波近似(带讨论)。J.Amer。统计师。协会96 939-967。JSTOR公司:·Zbl 1072.62561号 ·doi:10.1198/016214501753208942
[3] 巴赫·F·R(2008)。博拉索:通过引导程序进行模型一致的拉索估计。第25届国际机器学习年会论文集(ICML 2008,芬兰赫尔辛基)(A.McCallum和S.Roweis编辑)33-40。
[4] Bunea,F.、Tsybakov,A.和Wegkamp,M.(2007年)。套索的稀疏预言不等式。电子。J.Stat.1 169-194(电子版)·Zbl 1146.62028号 ·doi:10.1214/07-EJS008
[5] Candés,E.和Tao,T.(2005)。通过线性规划进行解码。IEEE传输。通知。理论51 4203-4215·Zbl 1264.94121号 ·doi:10.1109/TIT.2005.858979
[6] Candés,E.和Tao,T.(2007年)。Dantzig选择器:当p远大于n时的统计估计(有讨论)。安。统计师。35 2313-2404. ·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[7] Chen,S.和Donoho,D.L.(1994年)。基础追求。斯坦福大学统计系技术报告。
[8] Davidson,K.和Szarek,S.(2001)。局部算子理论、随机矩阵和Banach空间。在《巴拿赫空间几何手册》(W.B.Johnson和J.Lindenstrauss,eds.)I 317-366中。荷兰北部,阿姆斯特丹·Zbl 1067.46008号 ·doi:10.1016/S1874-5849(01)80010-3
[9] Donoho,D.L.和Johnstone,I.(1994a)。针对\ell q-错误的\ell p-球的最小最大风险。普罗巴伯。理论相关领域99 277-303·Zbl 0802.62006 ·doi:10.1007/BF01199026
[10] Donoho,D.L.和Johnstone,I.M.(1994年b)。通过小波收缩实现理想的空间自适应。生物特征81 425-455。JSTOR公司:·Zbl 0815.62019号 ·doi:10.1093/biomet/81.3.425
[11] Donoho,D.L.、Johnstone,I.M.、Hoch,J.C.和Stern,A.S.(1992年)。最大熵和近乎黑色的物体(带讨论)。J.罗伊。统计师。Soc.序列号。B 54 41-81。JSTOR公司:·Zbl 0788.62103号
[12] Efron,B.(1986年)。预测规则的明显误差有多大偏差?J.Amer。统计师。协会81 461-470·Zbl 0621.62073号 ·doi:10.2307/2289236
[13] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归(讨论)。安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[14] Efron,B.、Hastie,T.和Tibshirani,R.(2007)。讨论:Dantzig选择器:当p远大于n时的统计估计。35 2358-2364. ·doi:10.1214/009053607000000433
[15] Fan,J.(1997)。A.Antoniadis对“统计中的小波:综述”的评论。J.意大利统计师。协会6 131-138。
[16] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360。JSTOR公司:·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[17] 范J.和吕金池。(2008). 确保超高维特征空间的独立筛选。J.罗伊。统计师。Soc.序列号。B 70 849-911。
[18] Fan,J.和Peng,H.(2004)。参数个数发散的非凹陷惩罚似然。安。统计师。32 928-961. ·Zbl 1092.62031号 ·doi:10.1214/009053604000000256
[19] Foster,D.P.和George,E.I.(1994年)。多元回归的风险通货膨胀标准。安。统计师。22 1947-1975. ·Zbl 0829.62066号 ·doi:10.1214/aos/1176325766
[20] Freund,Y.和Schapire,R.E.(1996)。实验一种新的boosting算法。机器学习:第十三届国际会议论文集148-156。旧金山,摩根考夫曼。
[21] Friedman,J.、Hastie,T.和Tibshirani,R.(2000)。加性logistic回归:提升的统计观点(附讨论)。安。统计师。28 337-307. ·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[22] Gao,H.Y.和Bruce,A.G.(1997)。波浪收缩和稳固收缩。统计师。Sinica 7 855-874号·Zbl 1067.62529号
[23] Genkin,A.Lewis,D.D.和Madigan,D.(2004年)。文本分类的大尺度贝叶斯逻辑回归。罗格斯大学DIMACS技术报告。
[24] Greenshtein E.和Ritov Y.(2004)。高维线性预测器选择的持续性和超参数化的优点。伯努利10 971-988·兹比尔1055.62078 ·doi:10.3150/bj/1106314846
[25] Huang,J.,Ma,S.和Zhang,C.-H.(2008)。稀疏高维回归模型的自适应拉索。统计师。Sinica公元18 1603-1618年·Zbl 1255.62198号
[26] Hunter,D.R.和Li,R.(2005)。使用MM算法选择变量。安。统计师。33 1617-1642. ·Zbl 1078.62028号 ·doi:10.1214/009053605000000200
[27] Mallows,C.L.(1973)。关于Cp.Technometrics 12 661-675的一些评论·Zbl 0269.62061号 ·doi:10.2307/1267380
[28] Meinshausen,N.(2007年)。放松的拉索。计算。统计师。数据分析。52 374-393. ·Zbl 1452.62522号
[29] Meinshausen,N.和Buhlmann,P.(2006)。用拉索选择高维图和变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[30] Meinshausen,N.、Rocha,G.和Yu,B.(2007年)。讨论:Dantzig选择器:当p远大于n时的统计估计。35 2373-2384. ·doi:10.1214/009053607000000460
[31] Meinshausen,N.和Yu,B.(2009年)。高维数据稀疏表示的Lasso类型恢复。安。统计师。37 2246-2270. ·Zbl 1155.62050号 ·doi:10.1214/07-AOS582
[32] Meyer,M.和Woodroof,M.(2000年)。形状限制回归中的自由度。安。统计师。28 1083-1104. ·Zbl 1105.62340号 ·doi:10.1214/aos/1015956708
[33] Osborne,M.、Presnell,B.和Turlach,B.(2000a)。最小二乘问题中变量选择的一种新方法。IMA J.数字。分析。20 389-404. ·Zbl 0962.65036号 ·doi:10.1093/imanum/20.3.89
[34] Osborne,M.、Presnell,B.和Turlach,B.(2000b)。在套索及其对偶上。J.计算。图表。统计师。9 319-337. JSTOR公司:·数字对象标识代码:10.2307/1390657
[35] Park,M.Y.和Hastie,T.(2007)。广义线性模型的L1正则化路径算法。J.R.统计社会服务。B Stat.方法。69 659-677. ·文件编号:10.1111/j.1467-9868.2007.00607.x
[36] Rosset,S.和Zhu,J.(2007)。分段线性正则解路径。安。统计师。35 1012-1030. ·Zbl 1194.62094号 ·doi:10.1214/0090536000001370
[37] Schapire,R.E.(1990)。弱可学性的力量。机器学习5 197-227·Zbl 1142.62372号
[38] Schwarz,G.(1978年)。估算模型的维度。安。统计师。6 461-464. ·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[39] Stein,C.(1981)。多元正态分布平均值的估计。安。统计师。9 1135-1151. ·Zbl 0476.62035号 ·doi:10.1214/aos/1176345632
[40] Tibshirani,R.(1996)。通过拉索回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288。JSTOR公司:·Zbl 0850.62538号
[41] Tropp,J.A.(2006)。放松:识别噪声中稀疏信号的凸编程方法。IEEE传输。通知。理论52 1030-1051·Zbl 1288.94025号 ·doi:10.1109/TIT.2005.864420
[42] Van de Geer,S.(2008)。高维广义线性模型和Lasso。安。统计师。36 614-645. ·Zbl 1138.62323号 ·doi:10.1214/00905360700000929
[43] Wainwright,M.(2006)。用于稀疏性的高维和噪声恢复的尖锐阈值。技术报告708,加州大学伯克利分校统计系。
[44] Ye,F.和Zhang,C.-H.(2009)。Lasso和Dantzig估计的速率极小性。技术报告编号:2009-001。罗格斯大学统计系。
[45] Yuan,M.和Lin,Y.(2007)。关于非负garrote估计。J.R.统计社会服务。B Stat.方法。69 143-161·Zbl 1120.62052号 ·文件编号:10.1111/j.1467-9868.2007.00581.x
[46] Zhang,C.-H.(2007a)。连续广义梯度下降。J.计算。图表。统计师。16 761-781·doi:10.1198/106186007X238846
[47] Zhang,C.-H.(2007b)。惩罚线性无偏选择。技术报告2007-003。罗格斯大学统计系。
[48] Zhang,C.-H.(2007c)。凹罚变量选择的信息论优化。第2007-008号技术报告。罗格斯大学统计系。
[49] Zhang,C.-H.(2008)。讨论:非凹陷惩罚似然模型中的一步稀疏估计。安。统计师。36 1553-1560. ·Zbl 1282.62110号 ·doi:10.1214/07-AOS0316C
[50] Zhang,C.-H.和Huang,J.(2008)。高维回归中LASSO选择的稀疏性和偏差。安。统计师。36 1567-1594. ·Zbl 1142.62044号 ·doi:10.1214/07-AOS520
[51] Zhao,P.和Yu,B.(2006)。关于LASSO模型选择的一致性。J.马赫。学习。第7号决议2541-2567·Zbl 1222.62008年
[52] Zhao,P.和Yu,B.(2007)。分段套索。J.马赫。学习。第8号决议2701-2726·Zbl 1222.68345号
[53] 邹华(2006)。自适应Lasso及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.19198/016214506000000735
[54] Zou,H.和Li,R.(2008)。非凹陷惩罚似然模型中的一步稀疏估计(附讨论)。安。统计师。36 1509-1533. ·Zbl 1142.62027号 ·doi:10.1214/0090536007000000802
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。