×

用于分组和分层变量选择的复合绝对惩罚系列。 (英语) Zbl 1369.62164号

摘要:从高维数据中提取有用信息是当今统计研究和实践的一个重要焦点。惩罚损失函数最小化在理论和实证上都证明是有效的。由于正则性和稀疏性的优点,(L_{1})惩罚平方误差最小化方法Lasso在回归模型和其他模型中都很流行。
在本文中,我们将包括\(L_{1}\)在内的不同范数组合起来形成智能惩罚,以便在回归或分类模型的拟合中添加辅助信息,以获得合理的估计。具体来说,我们引入了复合绝对惩罚(CAP)家族,该家族允许表达预测器之间的给定分组和层次关系。CAP惩罚是通过定义组并结合跨组和组内级别的规范惩罚的属性来构建的。分组选择适用于不重叠的组。通过定义具有特定重叠模式的组来实现分层变量选择。我们建议使用BLASSO和交叉验证来计算CAP估计值。对于仅涉及(L_{1})和(L_})范数的CAP估计的一个子族,我们引入iCAP算法来追踪分组选择问题的整个正则化路径。在该子族中,导出了自由度(df)的无偏估计,从而在没有交叉验证的情况下选择正则化参数。在一系列模拟实验中,CAP被证明可以提高LASSO的预测性能,包括具有(p\ggn)和可能的误特异性分组的情况。当正确计算模型的复杂性时,iCAP在实验中被认为是吝啬的。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.(1973)。信息论和最大似然原理的推广。程序中。第二届信息理论国际研讨会267-281·Zbl 0283.62006号
[2] Boyd,S.和Vandenberghe,L.(2004)。凸优化。剑桥大学出版社,剑桥·Zbl 1058.90049号
[3] Breiman,L.(1995)。使用非负garrote进行更好的子集回归。技术计量37 373-384。JSTOR公司:·Zbl 0862.62059号 ·doi:10.2307/1269730
[4] Chen,S.、Donoho,D.和Saunders,M.(2001)。通过基追踪进行原子分解。SIAM版本43 129-159。JSTOR公司:·Zbl 0979.94010号 ·doi:10.1137/S003614450037906X
[5] Donoho,D.和Johnstone,I.(1994年)。通过小波收缩实现理想的空间自适应。生物特征81 425-455。JSTOR公司:·Zbl 0815.62019号 ·doi:10.1093/biomet/81.3.425
[6] Efron,B.(1982)。Jackknife、Bootstrap和其他重新采样计划。费城SIAM·Zbl 0496.62036号
[7] Efron,B.(2004)。预测误差协方差惩罚和交叉验证的估计。J.Amer。统计师。协会99 619-632·Zbl 1117.62324号 ·doi:10.1198/016214500000692
[8] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。安。统计师。35 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[9] Frank,I.E.和Friedman,J.(1993年)。一些化学计量学回归工具的统计视图。技术计量35 109-148·Zbl 0775.62288号 ·doi:10.307/1269656
[10] Freund,Y.和Schapire,R.E.(1997)。在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55 119-139. ·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[11] Golub,T.R.、Slonim,D.K.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.P.、Coller,H.、Loh,M.L.、Downing,J.R.,Caligiuri,M.A.、Bloomfield,C.D.和Lander,E.S.(1999)。《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》286 531-537。
[12] Hoerl,A.E.和Kennard,R.W.(1970年)。岭回归:非正交问题的有偏估计。技术指标12 55-67·Zbl 0202.17205号 ·数字对象标识代码:10.2307/1267351
[13] Kaufman,L.和Rousseeuw,P.J.(1990)。在数据中寻找群体:聚类分析导论。纽约威利·Zbl 1345.62009号
[14] Kim,Y.、Kim,J.和Kim,Y(2006)。分块稀疏回归。统计师。中国16 375-390·Zbl 1096.62076号
[15] Mallows,C.L.(1973)。关于c p的一些评论。技术计量学15 661-675·Zbl 0269.62061号 ·doi:10.2307/1267380
[16] Obozinski,G.和Jordan,M.(2009年)。多任务功能选择。J.统计计算。
[17] Osborne,M.、Presnell,B.和Turlach,B.(2000)。最小二乘问题中变量选择的一种新方法。IMA J.数字。分析。20 389-404. ·Zbl 0962.65036号 ·doi:10.1093/imanum/20.3.89
[18] Rosset,S.和Zhu,J.(2007)。分段线性正则解路径。安。统计师。35 1012-1030. ·Zbl 1194.62094号 ·doi:10.1214/0090536000001370
[19] Schwartz,G.(1978年)。估算模型的维度。安。统计师。6 461-464. ·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[20] Stone,M.(1974年)。统计预测的交叉验证选择和评估。J.罗伊。统计师。Soc.序列号。B Methodol公司。36 111-147. JSTOR公司:·Zbl 0308.62063号
[21] Sugiura,N.(1978年)。根据Akaike的信息准则和有限修正对数据进行进一步分析。通信统计。答7 13-26·Zbl 0382.62060号 ·doi:10.1080/03610927808827599
[22] Tibshirani,R.(1996)。通过拉索回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288。JSTOR公司:·Zbl 0850.62538号
[23] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。J.罗伊。统计师。Soc.序列号。B 68 49-67·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[24] Zhao,P.和Yu,B.(2007)。分段套索。J.马赫。学习。第8号决议2701-2726·Zbl 1222.68345号
[25] Zhao,P.、Rocha,G.和Yu,B.(2006)。通过组合绝对惩罚进行分组和分层模型选择。技术报告703,加州大学伯克利分校统计系。
[26] Zou,H.和Hastie,T.(2005)。通过弹性网络进行正则化和变量选择。J.罗伊。统计师。Soc.序列号。乙67 301-320。JSTOR公司:·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
[27] Zou,H.、Hastie,T.和Tibshirani,R.(2007)。关于拉索的“自由度”。安。统计师。35 2173-2192. ·Zbl 1126.62061号 ·doi:10.1214/009053600700000127
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。