×

高维模型中群体选择的选择性综述。 (英语) Zbl 1331.62347号

摘要:分组结构在许多统计建模问题中自然出现。已经提出了几种尊重变量分组结构的变量选择方法。示例包括组LASSO和几种凹组选择方法。在本文中,我们对群体选择的方法学发展、理论性质和计算算法进行了选择性综述。我们特别关注涉及凹形惩罚的组选择方法。我们解决了群体选择和双层选择方法。我们描述了这些方法在非参数加性模型、半参数回归、看似无关的回归、基因组数据分析和全基因组关联研究中的一些应用。我们还强调了一些需要进一步研究的问题。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
62G08号 非参数回归和分位数回归

软件:

;稀疏的
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.(1973)。信息论和最大似然原理的推广。第二届信息理论国际研讨会(Tsahkamphor,1971)267-281。布达佩斯阿卡德米亚·基奥·Zbl 0283.62006号
[2] 安东尼亚迪斯,A.(1996)。使用锥形线圈系列平滑噪声数据。扫描。J.统计。23 313-330. ·Zbl 0861.62028号
[3] Antoniadis,A.和Fan,J.(2001)。小波近似的正则化。J.Amer。统计师。协会96 939-967·Zbl 1072.62561号 ·doi:10.1198/016214501753208942
[4] Argyriou,A.、Evgeniou,T.和Pontil,M.(2008)。凸多任务特征学习。机器。学习。73 243-272.
[5] 巴赫·F·R(2008)。群套索和多核学习的一致性。J.马赫。学习。第9号决议1179-1225·Zbl 1225.68147号
[6] Bakin,S.(1999)。数据挖掘问题中的自适应回归和模型选择。堪培拉澳大利亚国立大学博士论文。
[7] Bickel,P.J.、Ritov,Y.和Tsybakov,A.B.(2009年)。同时分析套索和Dantzig选择器。安。统计师。37 1705-1732. ·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[8] Bickel,P.J.、Klaassen,C.A.J.、Ritov,Y.和Wellner,J.A.(1993)。半参数模型的有效自适应估计。约翰·霍普金斯大学出版社,马里兰州巴尔的摩·Zbl 0786.62001号
[9] Breheny,P.和Huang,J.(2009)。二级变量选择的惩罚方法。统计接口2 369-380·Zbl 1245.62034号 ·doi:10.4310/SII.2009.v2.n3.a10
[10] Breheny,P.和Huang,J.(2011)。非凸惩罚回归的坐标下降算法及其在生物特征选择中的应用。附录申请。统计数字5 232-253·Zbl 1220.62095号 ·doi:10.1214/10-AOAS388
[11] Bühlmann,P.和van de Geer,S.(2011年)。高维数据统计:方法、理论和应用。海德堡施普林格·Zbl 1273.62015年 ·doi:10.1007/978-3-642-20192-9
[12] Caruana,R.(1997)。多任务学习:基于知识的归纳偏见来源。机器学习28 41-75。
[13] Donoho,D.L.和Johnstone,I.M.(1994年)。通过小波收缩实现理想的空间自适应。生物特征81 425-455·Zbl 0815.62019号 ·doi:10.1093/生物技术/81.3425
[14] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[15] Engle,R.F.、Granger,C.W.J.、Rice,J.和Weiss,A.(1986年)。天气和电力销售之间关系的半参数估计。J.Amer。统计师。协会81 310-320。
[16] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[17] Fan,J.和Peng,H.(2004年)。具有发散参数数的非凹陷惩罚似然。安。统计师。32 928-961. ·Zbl 1092.62031号 ·doi:10.1214/009053604000000256
[18] Frank,I.E.和Friedman,J.H.(1993年)。一些化学计量学回归工具的统计视图(含讨论)。技术计量35 109-148·Zbl 0775.62288号 ·doi:10.2307/1269656
[19] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。关于组套索和稀疏组套索的注释。斯坦福大学统计系预印本。
[20] Friedman,J.、Hastie,T.、Höfling,H.和Tibshirani,R.(2007)。路径坐标优化。附录申请。统计数字1 302-332·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[21] 傅文杰(1998)。惩罚回归:桥梁与套索。J.计算。图表。统计师。7 397-416.
[22] Härdle,W.、Liang,H.和Gao,J.(2000)。部分线性模型。对统计的贡献。海德堡物理学·Zbl 0968.62006年
[23] Hastie,T.J.和Tibshirani,R.J.(1990年)。广义加法模型。统计学和应用概率专著43。查普曼和霍尔,伦敦·Zbl 0747.62061号
[24] 胡佛·D·R、赖斯·J·A、吴·C·O和杨·L·P(1998)。纵向数据时变系数模型的非参数平滑估计。生物特征85 809-822·Zbl 0921.62045号 ·doi:10.1093/biomet/85.4.809
[25] Huang,J.、Horowitz,J.L.和Ma,S.(2008)。稀疏高维回归模型中桥估计的渐近性质。安。统计师。36 587-613. ·Zbl 1133.62048号 ·doi:10.1214/0090536007000000875
[26] Huang,J.、Horowitz,J.L.和Wei,F.(2010)。非参数可加模型中的变量选择。安。统计师。38 2282-2313. ·Zbl 1202.62051号 ·doi:10.1214/09-AOS781
[27] Huang,J.、Wei,F.和Ma,S.(2011年)。半参数回归追踪。统计师。中国·Zbl 1253.62024号
[28] Huang,J.和Zhang,T.(2010)。群体稀疏的好处。安。统计师。38 1978-2004. ·Zbl 1202.62052号 ·doi:10.1214/09-AOS778
[29] Huang,J.,Ma,S.,Xie,H.和Zhang,C.-H.(2009)。变量选择的组桥方法。生物特征96 339-355·Zbl 1163.62050 ·doi:10.1093/biomet/asp020
[30] Jacob,L.、Obozinski,G.和Vert,J.P.(2009)。用重叠和图形套索将套索分组。第26届国际机器学习年会论文集433-440。纽约ACM。
[31] Koltchinskii,V.(2009年)。Dantzig选择器和稀疏预言不等式。伯努利15 799-828·Zbl 1452.62486号 ·doi:10.3150/09-BEJ187
[32] Lange,K.、Hunter,D.R.和Yang,I.(2000年)。使用替代目标函数优化传输。J.计算。图表。统计师。9 1-59.
[33] Laurent,B.和Massart,P.(2000年)。通过模型选择对二次函数进行自适应估计。安。统计师。28 1302-1338. ·Zbl 1105.62328号 ·doi:10.1214操作系统/1015957395
[34] Leng,C.、Lin,Y.和Wahba,G.(2006年)。关于套索和模型选择中相关程序的注释。统计师。Sinica 16 1273-1284年·Zbl 1109.62056号
[35] Lin,Y.和Zhang,H.H.(2006)。多元非参数回归中的成分选择与平滑。安。统计师。34 2272-2297. ·Zbl 1106.62041号 ·doi:10.1214/0090536000000722
[36] Liu,J.和Ye,J.(2010)。快速重叠组拉索。可在上获取。
[37] Lounici,K.、Pontil,M.、Tsybakov,A.B.和van de Geer,S.(2009)。利用多任务学习中的稀疏性。知识和信息系统20 109-348。
[38] Lounici,K.、Pontil,M.、van de Geer,S.和Tsybakov,A.B.(2011年)。Oracle不等式与群稀疏下的最优推理。安。统计师。39 2164-2204. ·Zbl 1306.62156号 ·doi:10.1214/11-AOS896
[39] Ma,S.和Huang,J.(2009)。癌症微阵列荟萃分析中的规则化基因选择。BMC生物信息学10 1。
[40] Ma,S.、Huang,J.和Moran,M.S.(2009年)。通过综合分析鉴定与多种癌症相关的基因。BMC基因组学10 535。
[41] Ma,S.、Huang,J.和Song,X.(2010)。利用多个高维数据集进行综合分析和变量选择。生物统计学12 763-775·Zbl 1314.62243号 ·doi:10.1093/biostatistics/kxr004
[42] Ma,S.,Huang,J.,Wei,F.,Xie,Y.和Fang,K.(2011)。多肿瘤预后研究与基因表达测定的综合分析。统计医学30 3361-3371·doi:10.1002/sim.4337
[43] Mazumder,R.、Friedman,J.H.和Hastie,T.(2011年)。SparseNet:协调下降与非凸惩罚。J.Amer。统计师。协会106 1125-1138·Zbl 1229.62091号 ·doi:10.1198/jasa.2011.tm09738
[44] Meier,L.、van de Geer,S.和Bühlmann,P.(2008)。用于逻辑回归的Lasso组。J.R.统计社会服务。B统计方法。70 53-71. ·Zbl 1400.62276号 ·文件编号:10.1111/j.1467-9868.2007.00627.x
[45] Meier,L.、van de Geer,S.和Bühlmann,P.(2009)。高维加性建模。安。统计师。37 3779-3821. ·Zbl 1360.62186号 ·doi:10.1214/09-AOS692
[46] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[47] Meinshausen,N.和Bühlmann,P.(2010年)。稳定性选择。J.R.统计社会服务。B统计方法。72 417-473. ·文件编号:10.1111/j.1467-9868.2010.00740.x
[48] Nardi,Y.和Rinaldo,A.(2008)。关于线性模型的群拉索估计的渐近性质。电子。《美国联邦法律大全》第2卷第605-633页·Zbl 1320.62167号 ·doi:10.1214/08-EJS200
[49] Obozinski,G.、Wainwright,M.J.和Jordan,M.I.(2011年)。支持高维多元回归中的联合恢复。安。统计师。39 1-47. ·Zbl 1373.62372号 ·doi:10.1214/09-AOS776
[50] 潘伟、谢B和沈X(2010)。将预测网络纳入惩罚回归,并应用于微阵列数据。生物统计学66 474-484·Zbl 1192.62235号 ·文件编号:10.1111/j.1541-0420.2009.01296.x
[51] Peng,J.,Zhu,J.、Bergamaschi,A.、Han,W.、Noh,D.-Y.、Pollack,J.R.和Wang,P.(2010)。正则化多元回归用于识别主预测因子,并应用于乳腺癌的综合基因组学研究。附录申请。统计数据4 53-77·Zbl 1189.62174号 ·doi:10.1214/09-AOAS271
[52] Percival,D.(2011年)。重叠群套索的理论性质。可从获取·Zbl 1334.62131号 ·doi:10.1214/12-EJS672
[53] Puig,A.、Wiesel,A.和Hero,A.(2011年)。一种多维收缩阈值算子。IEEE信号处理。莱特。18 363-366.
[54] Ravikumar,P.、Lafferty,J.、Liu,H.和Wasserman,L.(2009年)。稀疏加性模型。J.R.统计社会服务。B统计方法。71 1009-1030. ·文件编号:10.1111/j.1467-9868.2009.00718.x
[55] Rice,J.A.(2004)。功能和纵向数据分析:关于平滑的观点。统计师。中国14 631-647·Zbl 1073.62033号
[56] Schwarz,G.(1978年)。估计模型的维度。安。统计师。6 461-464. ·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[57] Shen,X.、Zhu,Y.和Pan,W.(2011)。特征选择一致性和尖锐参数估计的充要条件。明尼苏达大学统计学院预印本。
[58] Tibshirani,R.(1996)。通过套索进行回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288·Zbl 0850.62538号
[59] 曾平(2001)。不可微极小化的块坐标下降法的收敛性。J.优化。理论应用。109 475-494. ·Zbl 1006.65062号 ·doi:10.1023/A:1017501703105
[60] van de Geer,S.A.和Bühlmann,P.(2009)。根据用于证明拉索预言结果的条件。电子。《美国联邦法律大全》第3卷第1360-1392页·Zbl 1327.62425号 ·doi:10.1214/09-EJS506
[61] Wang,L.,Chen,G.和Li,H.(2007)。微阵列时间进程基因表达数据的组SCAD回归分析。生物信息学23 1486-1494。
[62] Wang,H.和Xia,Y.(2009)。变系数模型的收缩率估计。J.Amer。统计师。协会104 747-757·Zbl 1388.62213号 ·doi:10.1198/jasa.2009.0138
[63] Wei,F.和Huang,J.(2010)。高维线性回归中的一致组选择。伯努利16 1369-1384·Zbl 1207.62146号 ·doi:10.3150/10-BEJ252
[64] Wei,F.、Huang,J.和Li,H.(2011年)。高维变系数模型中的变量选择和估计。统计师。Sinica 21 1515-1540年·Zbl 1225.62056号 ·doi:10.5705/ss.2009.316
[65] Wei,Z.和Li,H.(2007)。用于基因组数据分析的非参数路径回归模型。生物统计学8 265-284·Zbl 1129.62107号 ·doi:10.1093/biostatistics/kxl007
[66] Wu,T.T.和Lange,K.(2008)。套索惩罚回归的坐标下降算法。附录申请。统计数字2 224-244·Zbl 1137.62045号 ·doi:10.1214/07-AOAS174支持
[67] Xue,L.,Qu,A.和Zhou,J.(2010)。相关数据边际广义可加模型的一致模型选择。J.Amer。统计师。协会105 1518-1530·Zbl 1388.62223号 ·doi:10.1198/jasa.2010.tm10128
[68] Ye,F.和Zhang,C.-H.(2010)。拉索和Dantzig选择器在球中的损失率最小。J.马赫。学习。第11号决议3519-3540·Zbl 1242.62074号
[69] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。J.R.统计社会服务。B统计方法。68 49-67. ·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[70] Zellner,A.(1962年)。一种有效的方法,用于估计看似无关的回归和检验聚集偏差。J.Amer。统计师。协会57 348-368·Zbl 0113.34902号 ·doi:10.2307/2281644
[71] 张涛(2009)。带(L_{1})正则化的最小二乘回归的一些精确性能界。安。统计师。37 2109-2144. ·兹比尔1173.62029 ·doi:10.1214/08-AOS659
[72] Zhang,C.-H.(2010年a)。极小极大凹惩罚下的几乎无偏变量选择。安。统计师。38 894-942. ·Zbl 1183.62120号 ·doi:10.1214/09-AOS729
[73] Zhang,T.(2010年b)。稀疏正则化的多级凸松弛分析。J.马赫。学习。第11号决议1081-1107·Zbl 1242.68262号
[74] Zhang,C.-H和Zhang,T.(2011)。高维稀疏估计问题凹正则化的一般理论。罗格斯大学统计与生物统计系预印本。
[75] Zhang,H.H.、Cheng,G.和Liu,Y.(2011)。线性还是非线性?部分线性模型的自动结构发现。J.Amer。统计师。协会106 1099-1112·Zbl 1229.62051号 ·doi:10.1198/jasa.2011.tm10281
[76] Zhang,C.-H.和Huang,J.(2008)。高维线性回归中LASSO选择的稀疏性和偏差。安。统计师。36 1567-1594. ·Zbl 1142.62044号 ·doi:10.1214/07-AOS520
[77] Zhang,H.H.和Lin,Y.(2006)。指数族中非参数回归的分量选择和平滑。统计师。Sinica 16号,邮编:1021-1041·Zbl 1107.62036号
[78] Zhao,P.、Rocha,G.和Yu,B.(2009年)。用于分组和分层变量选择的复合绝对惩罚系列。安。统计师。37 3468-3497. ·Zbl 1369.62164号 ·doi:10.1214/07-AOS584
[79] Zhao,P.和Yu,B.(2006年)。关于拉索模型选择的一致性。J.马赫。学习。第7号决议2541-2563·Zbl 1222.62008年
[80] Zhou,N.和Zhu,J.(2010)。通过分层套索及其oracle属性对变量进行分组选择。统计接口3 557-574·Zbl 1245.62183号 ·doi:10.4310/SII.2010.v3.n4.a13
[81] Zhou,H.、Sehl,M.E.、Sinsheimer,J.S.和Lange,L.(2010)。通过惩罚回归对常见和罕见遗传变异进行关联筛查。生物信息学26 2375-2382·兹比尔1103.68978 ·doi:10.1007/s11741-003-0012-0
[82] 邹华(2006)。自适应套索及其oracle属性。J.Amer。统计师。协会101 1418-1429·兹比尔1171.62326 ·doi:10.1198/016214500000735
[83] 邹浩和李若明(2008)。非凹陷惩罚似然模型中的一步稀疏估计。安。统计师。36 1509-1533. ·Zbl 1142.62027号 ·doi:10.1214/09053607000000802
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。