×

最小角度回归。(经过讨论)。 (英文) Zbl 1091.62054号

概要:模型选择算法(如All Subsets、Forward selection和Backward Elimination)的目的是根据模型将应用到的同一组数据选择线性模型。通常,我们有大量可能的协变量,我们希望从中选择一个简约集来有效预测响应变量。最小二乘回归(LARS)是一种新的模型选择算法,是传统正向选择方法的一种有用且不太贪婪的版本。导出了三个主要特性:
(1) LARS算法的一个简单修改实现了Lasso,这是普通最小二乘法的一个有吸引力的版本,限制了绝对回归系数的总和;LARS修正计算给定问题的所有可能Lasso估计,使用的计算机时间比以前的方法少一个数量级。(2) 一种不同的LARS修正有效地实现了另一种有前途的新模型选择方法——正向分段线性回归;这种联系解释了之前在Lasso和Stagewise中观察到的类似数值结果,并帮助我们理解这两种方法的性质,这两种方法被视为更简单的LARS算法的约束版本。(3) LARS估计的自由度有一个简单的近似值,从中我们导出了预测误差的Cp估计;这允许在可能的LARS估计范围中进行原则选择。LARS及其变体具有计算效率:本文描述了一种公开可用的算法,该算法只需要与应用于全组协变量的普通最小二乘法相同数量级的计算工作量。

MSC公司:

62J05型 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
65立方厘米60 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Breiman,L.、Friedman,J.、Olshen,R.和Stone,C.(1984)。分类和回归树。加利福尼亚州贝尔蒙特市沃兹沃斯·Zbl 0541.62042号
[2] Efron,B.(1986年)。预测规则的明显错误率有多大偏差?J.Amer。统计师。协会81 461–470·Zbl 0621.62073号 ·doi:10.2307/2289236
[3] Efron,B.和Tibshirani,R.(1997年)。交叉验证的改进:(.632+)引导方法。J.Amer。统计师。协会92 548–560·Zbl 0887.62044号 ·doi:10.2307/2965703
[4] Freund,Y.和Schapire,R.(1997)。在线学习的决策理论概括及其在助推中的应用。J.计算。系统科学。55 119–139. ·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[5] Friedman,J.(2001)。贪婪函数近似:梯度增强机。Ann.Statist公司。29 1189–1232. ·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[6] Friedman,J.、Hastie,T.和Tibshirani,R.(2000)。加性logistic回归:提升的统计观点(附讨论)。Ann.Statist公司。28 337–407. ·兹比尔1106.62323 ·doi:10.1214操作系统/1016218223
[7] Golub,G.和Van Loan,C.(1983年)。矩阵计算。约翰·霍普金斯大学出版社,马里兰州巴尔的摩·Zbl 0559.65011号
[8] Hastie,T.、Tibshirani,R.和Friedman,J.(2001)。统计学习的要素:数据挖掘、推理和预测。纽约州施普林格·Zbl 0973.62007号
[9] Lawson,C.和Hanson,R.(1974年)。解决最小二乘问题。Prentice Hall,新泽西州恩格尔伍德悬崖·Zbl 0860.65028号
[10] Mallows,C.(1973)。关于\(C_p\)的一些注释。技术计量学15 661–675·Zbl 0269.62061号 ·doi:10.2307/1267380
[11] Meyer,M.和Woodroof,M.(2000年)。形状限制回归中的自由度。Ann.Statist公司。28 1083–1104. ·Zbl 1105.62340号 ·doi:10.1214/aos/1015956708
[12] Osborne,M.、Presnell,B.和Turlach,B.(2000a)。最小二乘问题中变量选择的一种新方法。IMA J.数字。分析。20 389–403. ·Zbl 0962.65036号 ·doi:10.1093/imanum/20.3.89
[13] Osborne,M.R.、Presnell,B.和Turlach,B.(2000b)。关于LASSO及其对偶。J.计算。图表。统计师。9 319–337.
[14] Rao,C.R.(1973)。《线性统计推断及其应用》,第二版,威利出版社,纽约·Zbl 0256.6202号
[15] Stein,C.(1981)。多元正态分布平均值的估计。Ann.Statist公司。9 1135–1151. JSTOR公司:·Zbl 0476.62035号 ·doi:10.1214/aos/1176345632
[16] Tibshirani,R.(1996)。通过套索进行回归收缩和选择。J.罗伊。统计师。Soc.序列号。公元前58 267年至288年·Zbl 0850.62538号
[17] Weisberg,S.(1980)。应用线性回归。纽约威利·Zbl 0529.62054号
[18] Ye,J.(1998)。关于测量和纠正数据挖掘和模型选择的影响。J.Amer。统计师。协会93 120–131·Zbl 0920.62056号 ·doi:10.2307/2669609
[19] Breiman,L.(1992)。回归中选择维数的小bootstrap等方法:(X)-修正预测误差。J.Amer。统计师。协会87 738–754·Zbl 0850.62518号 ·doi:10.2307/2290212
[20] George,E.I.和McCulloch,R.E.(1993)。通过吉布斯采样选择变量。J.Amer。统计师。协会88 881–889。
[21] Ishwaran,H.和Rao,J.S.(2000年)。大变量选择问题的贝叶斯非参数MCMC。未发表的手稿。
[22] Ishwaran,H.和Rao,J.S.(2003年)。使用贝叶斯模型选择检测微阵列中的差异表达基因。J.Amer。统计师。协会98 438–455·兹比尔1041.62090 ·doi:10.1198/016214500300224
[23] Mallows,C.(1973)。关于\(C_p\)的一些注释。技术计量学15 661–675·Zbl 0269.62061号 ·doi:10.2307/1267380
[24] Mitchell,T.J.和Beauchamp,J.J.(1988)。线性回归中的贝叶斯变量选择(与讨论)。J.Amer。统计师。协会83 1023–1036·Zbl 0673.62051号 ·doi:10.2307/2290129
[25] Shao,J.(1993)。通过交叉验证选择线性模型。J.Amer。统计师。协会88 486–494·Zbl 0773.62051号 ·doi:10.2307/2290328
[26] Breiman,L.(1996)。装袋预测器。机器学习24 123–140·Zbl 0858.68080号
[27] Bühlmann,P.和Yu,B.(2002)。分析装袋。Ann.Statist公司。30 927–961. ·Zbl 1029.62037号 ·doi:10.1214/aos/1031689014
[28] Abramovich,F.、Benjamini,Y.、Donoho,D.和Johnstone,I.(2000)。通过控制错误发现率来适应未知稀疏性。斯坦福大学统计系2000-19年技术报告·Zbl 1092.62005年
[29] Akaike,H.(1973)。高斯自回归滑动平均模型的最大似然辨识。生物特征60 255–265·Zbl 0318.62075号 ·doi:10.1093/biomet/60.2.255
[30] Birgé,L.和Massart,P.(2001a)。高斯模型选择。欧洲数学杂志。Soc.3 203-268号·Zbl 1037.62001 ·doi:10.1007/s100970100031
[31] Birgé,L.和Massart,P.(2001b)。高斯模型选择的广义C_p准则。巴黎大学第6和第7分校第647号技术报告·Zbl 1037.62001
[32] Foster,D.和George,E.(1994年)。多元回归的风险通货膨胀标准。Ann.Statist公司。22 1947–1975. JSTOR公司:·兹伯利0829.62066 ·doi:10.1214/aos/1176325766
[33] K.奈特和B.傅(2000)。Lasso型估计量的渐近性。Ann.Statist公司。28 1356–1378. ·Zbl 1105.62357号 ·doi:10.1214/aos/1015957397
[34] Loubes,J.-M.和van de Geer,S.(2002)。具有软阈值惩罚的自适应估计。统计师。尼尔兰迪卡56 453–478·Zbl 1090.62534号 ·doi:10.1111/1467-9574.00212
[35] Mallows,C.(1973)。关于\(C_p\)的一些注释。技术计量学15 661–675·Zbl 0269.62061号 ·doi:10.2307/1267380
[36] van de Geer,S.(2001)。具有复杂度惩罚的最小二乘估计。数学。方法统计。10 355–374. ·Zbl 1005.62043号
[37] Breiman,L.(2001)。随机森林。可在ftp://ftp.stat.berkeley.edu/pub/users/breiman公司/randomforest2001.pdf·Zbl 1007.68152号
[38] 傅文杰(1998)。惩罚回归:大桥对套索。J.计算。图表。统计师。7 397–416.
[39] Osborne,M.R.、Presnell,B.和Turlach,B.A.(2000)。最小二乘问题中变量选择的一种新方法。IMA J.数字。分析。20 389–403. ·Zbl 0962.65036号 ·doi:10.1093/imanum/20.3.89
[40] Ridgeway,G.(2003)。GBM 0.7-2包装手册。可在http://cran.r-project.org/doc/软件包/gbm.pdf。
[41] Breiman,L.(1999)。预测游戏和电弧算法。神经计算11 1493–1517。
[42] Freund,Y.和Schapire,R.E.(1997)。在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55 119–139·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[43] Friedman,J.H.(2001)。贪婪函数近似:梯度增强机。Ann.Statist公司。29 1189–1232·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[44] Mason,L.、Baxter,J.、Bartlett,P.和Frean,M.(2000)。作为梯度下降的推进算法。神经信息处理系统进展12 512–518。麻省理工学院出版社,马萨诸塞州剑桥。
[45] Rosset,S.和Zhu,J.(2004)。分段线性正则解路径。神经信息处理系统进展16·Zbl 1194.62094号 ·doi:10.1214/0090536000001370
[46] Rosset,S.、Zhu,J.和Hastie,T.(2003)。作为一条正则化路径,提升到最大边缘分类器。斯坦福大学统计系技术报告·Zbl 1222.68290号
[47] Zhu,J.、Rosset,S.、Hastie,T.和Tibshirani,R.(2004)。1-范数支持向量机。神经信息处理系统16·Zbl 1222.68213号
[48] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用且强大的多重测试方法。J.罗伊。统计师。Soc.序列号。B 57 289–300·Zbl 0809.62014号
[49] Blake,C.和Merz,C.(1998年)。机器学习数据库的UCI存储库。技术报告,学校信息和计算机科学,加州大学欧文分校。网址:www.ics.uci.edu/mlearn/MLRepository.html。
[50] Donoho,D.L.和Johnstone,I.M.(1994年)。通过小波收缩实现理想的空间自适应。生物特征81 425–455·Zbl 0815.62019号 ·doi:10.1093/biomet/81.3.425
[51] Foster,D.P.和George,E.I.(1994年)。多元回归的风险通货膨胀标准。Ann.Statist公司。22 1947–1975. JSTOR公司:·Zbl 0829.62066号 ·doi:10.1214/aos/1176325766
[52] Foster,D.P.和Stine,R.A.(1996年)。通过信息论进行变量选择。西北大学经济与管理科学数学研究中心技术报告讨论稿1180。
[53] Shao,J.(1993)。通过交叉验证选择线性模型。J.Amer。统计师。协会88 486–494·Zbl 0773.62051号 ·doi:10.2307/2290328
[54] Breiman,L.(1995)。使用非负garrote进行更好的子集回归。技术指标37 373–384·Zbl 0862.62059号 ·doi:10.2307/1269730
[55] McCullagh,P.和Nelder,J.A.(1989)。广义线性模型,第二版,查普曼和霍尔,伦敦·Zbl 0588.62104号
[56] Moore,D.S.和McCabe,G.P.(1999)。《统计学实践导论》,第三版,弗里曼,纽约·Zbl 0701.6202号
[57] Nelder,J.A.(1977年)。线性模型的重新表述(带讨论)。J.罗伊。统计师。Soc.序列号。A 140 48–76。
[58] Nelder,J.A.(1994)。线性模型的统计:回到基础。统计师。计算。4 221–234.
[59] 库克·R·D(1998)。回归图形。纽约威利·Zbl 0903.62001
[60] Cook,R.D.和Weisberg,S.(1999a)。应用回归,包括计算和图形。纽约威利·Zbl 0928.62045号
[61] Cook,R.D.和Weisberg,S.(1999b)。统计分析中的图表:媒体是信息吗?阿默尔。统计师。53 29–37.
[62] Efron,B.(2001)。讨论L.Breiman的“统计建模:两种文化”。统计师。科学。16 218–219. ·Zbl 1059.62505号 ·doi:10.1214/ss/1009213726
[63] Li,K.C.(1991)。用于降维的分段逆回归(带讨论)。J.Amer。统计师。协会86 316–342·Zbl 0742.62044号 ·doi:10.2307/2290563
[64] Weisberg,S.(1981)。用于将\(C_p\)分配给各个案例的统计信息。技术计量23 27–31。
[65] Weisberg,S.(2002)。R.J.统计软件7中的降维回归。(在线期刊可从www.jstatsoft.org获取。该软件可从cran.r-project.org获取)
[66] Abramovich,F.、Benjamini,Y.、Donoho,D.和Johnstone,I.(2000)。通过控制错误发现率来适应未知稀疏性。斯坦福大学统计系2000-19年技术报告·Zbl 1092.62005年
[67] Birgé,L.和Massart,P.(2001)。高斯模型选择。欧洲数学杂志。Soc.3 203-268号·Zbl 1037.62001 ·doi:10.1007/s100970100031
[68] Efron,B.(2004)。预测误差的估计:协方差惩罚和交叉验证。J.Amer。统计师。协会·兹比尔1117.62324 ·doi:10.1198/016214500000692
[69] Foster,D.和Stine,R.(1997年)。模型选择标准的信息论比较。宾夕法尼亚大学统计系技术报告。
[70] George,E.I.和Foster,D.P.(2000)。校准和经验贝叶斯变量选择。生物特征87 731–747·Zbl 1029.62008号 ·doi:10.1093/biomet/87.4.731
[71] Leblanc,M.和Tibshirani,R.(1998年)。树木的单调收缩。J.计算。图表。统计师。7 417–433.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。