×

稳定性选择。通过讨论和作者的回复。 (英语) Zbl 1411.62142号

摘要:结构估计,如变量选择、图形建模或聚类分析,是众所周知的困难,特别是对于高维数据。我们引入稳定性选择。它基于子采样和(高维)选择算法。因此,该方法非常通用,具有非常广泛的适用性。稳定性选择为一些错误发现的错误率提供了有限样本控制,因此为结构估计选择适当数量的正则化是一个透明的原则。如果应用稳定性选择,一系列选择方法的变量选择和结构估计将显著改进。我们证明了对于随机套索,即使违反了原套索方法一致性的必要条件,稳定性选择也将是变量选择一致的。我们使用实际和模拟数据演示了变量选择和高斯图形建模的稳定性选择。

MSC公司:

62甲12 多元分析中的估计
62J07型 岭回归;收缩估计器(拉索)
6220国集团 非参数推理的渐近性质
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bach,F.(2008)Bolasso:通过bootstrap进行模型一致套索估计。程序。第25届国际会议机器学习第33-40页。纽约:计算机协会。
[2] Banerjee,O.和El Ghaoui,L.(2008)通过多元高斯或二进制数据的稀疏最大似然估计进行模型选择。J.马赫。学习。物件。, 9, 485– 516. ·Zbl 1225.68149号
[3] Barbieri,M.和Berger,J.(2004)最佳预测模型选择。安。统计师。,32870-897·Zbl 1092.62033号
[4] 巴塔查吉·A、理查兹·W、斯汤顿·J、李·C、蒙蒂·S、瓦萨·P、拉德·C、贝赫什蒂·J、布埃诺·R、吉列·M、洛达·M、韦伯·G、马克·E、兰德·E、王·W、约翰逊·B、戈卢布·T、苏加贝克·D和梅耶森·M(2005)通过mRNA表达谱对人肺癌进行分类,可以发现不同的腺癌亚类。生物信息学,23301–3307。
[5] Bickel,P.和Levina,E.(2008)大型协方差矩阵的正则化估计。安。统计师。, 36, 199– 227. ·Zbl 1132.62040号
[6] Bickel,P.、Ritov,Y.和Tsybakov,A.(2009)Lasso和Dantzig选择器的同时分析。安。统计师。, 37, 1705– 1732. ·Zbl 1173.62022号
[7] Breiman,L.(2001)《随机森林》。机器。学习。, 45, 5– 32. ·Zbl 1007.68152号
[8] Bühlmann,P.和Yu,B.(2002)分析装袋。安。统计师。, 30, 927– 961. ·Zbl 1029.62037号
[9] Candes,E.和Tao,T.(2007)Dantzig选择器:统计估计第页远大于n个.安。统计师。, 35, 2312– 2351.
[10] Chen,S.、Donoho,S.和Saunders,M.(2001)《基追踪的原子分解》。SIAM版本。, 43, 129– 159. ·Zbl 0979.94010号
[11] Conlon,E.、Liu,X.、Lieb,J.和Liu,J.(2003)整合调控基序发现和全基因组表达分析。程序。国家。阿卡德。科学。美国, 100, 3339– 3344.
[12] Davis,C.、Gerick,F.、Hintermair,V.、Friedel,C.,Fundel,K.、Kuffner,R.和Zimmer,R.(2006)微阵列分类的可靠基因签名:稳定性和性能评估。生物信息学, 22, 2356– 2363.
[13] Donoho,D.和Elad,M.(2003)一般(非正交)字典中的最优稀疏表示\^{}{1}‐最小化。程序。国家。阿卡德。科学。美国, 100, 2197– 2202. ·Zbl 1064.94011号
[14] Dudoit,S.、Shaffer,J.和Boldrick,J.(2003)微阵列实验中的多重假设检验。统计师。科学。, 18, 71– 103. ·Zbl 1048.62099号
[15] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)最小角度回归。安。统计师。, 32, 407– 451. ·Zbl 1091.62054号
[16] Ein‐Dor,L.、Kela,I.、Getz,G.、Givol,D.和Domany,E.(2005)乳腺癌中的结果特征基因:是否存在一组独特的基因?生物信息学, 21, 171– 178.
[17] Fan,J.和Lv,J.(2008)超高维特征空间的确定独立筛选(含讨论)。J.R.统计。Soc.B公司, 70, 849– 911. ·Zbl 1411.62187号
[18] Fan,J.、Samworth,R.和Wu,Y.(2009)超高维变量选择:超越线性模型。J.马赫。学习。物件。, 10, 1989– 2014.
[19] Freedman,D.(1977)关于有替换和无替换抽样之间差异的评论。美国统计学杂志。助理。, 72, 681.
[20] Freund,Y.和Schapire,R.(1996)一种新的助推算法的实验。程序中。第13届国际会议机器学习,第148-156页。
[21] Friedman,J.、Hastie,T.、Hoefling,H.和Tibshirani,R.(2007)《路径坐标优化》。Ann.应用。统计师。,1302-332·Zbl 1378.90064号
[22] Friedman,J.、Hastie,T.和Tibshirani,R.(2008)用图形套索进行稀疏逆协方差估计。生物统计学, 9, 432– 441. ·兹比尔1143.62076
[23] Van De Geer,S.(2008)高维广义线性模型和套索。安。统计师。, 36, 614– 645. ·Zbl 1138.62323号
[24] Van De Geer,S.和Van Houwelingen,H.(2004)高维数据:第页n个在数理统计和生物医学应用中。伯努利, 10, 939– 943.
[25] Huang,J.、Ma,S.和Zhang,C.‐H。(2008)稀疏高维回归模型的自适应套索。统计师。罪。, 18, 1603– 1618. ·Zbl 1255.62198号
[26] Lauritzen,S.(1996)《图形模型》。牛津:牛津大学出版社·Zbl 0907.62001
[27] Lee,K.,Sha,N.,Dougherty,E.,Vannucci,M.和Mallick,B.(2003)《基因选择:贝叶斯变量选择方法》。生物信息学, 19, 90– 97.
[28] Leng,C.、Lin,Y.和Wahba,G.(2006)关于套索和模型选择相关程序的注释。统计师。罪。, 16, 1273– 1284. ·Zbl 1109.62056号
[29] Mallat,S.和Zhang,Z.(1993)将追求与时间频率词典相匹配。IEEE传输。信号处理。, 41, 3397– 3415. ·Zbl 0842.94004号
[30] Meier,L.、Van De Geer,S.和Bühlmann,P.(2008)logistic回归的组套索。J.R.统计。Soc.B公司, 70, 53– 71. ·Zbl 1400.62276号
[31] Meinshausen,N.和Bühlmann,P.(2006)高维图和套索变量选择。安。统计师。, 34, 1436– 1462. ·Zbl 1113.62082号
[32] Meinshausen,N.和Yu,B.(2009)从高维数据中恢复稀疏表示的Lasso类型。安。统计师。, 37, 246– 270. ·Zbl 1155.62050号
[33] Michiels,S.、Koscielny,S.和Hill,C.(2005)用微阵列预测癌症结果:多重随机验证策略。柳叶刀, 365, 488– 492.
[34] Monti,S.、Tamayo,P.、Mesirov,J.和Golub,T.(2003)共识聚类:基于重采样的类别发现方法和基因表达微阵列数据可视化。机器。学习。, 52, 91– 118. ·Zbl 1039.68103号
[35] Rothman,A.、Bickel,P.、Levina,E.和Zhu,J.(2008)稀疏排列不变协方差估计。电子。J.统计。, 2, 494– 515. ·Zbl 1320.62135号
[36] Sha,N.、Vannucci,M.、Tadesse,M.、Brown,P.、Dragoni,I.、Davies,N.、Roberts,T.、Contestabile,A.、Salmon,M.、Buckley,C.和Falciani,F.(2004)多项概率模型中的贝叶斯变量选择,以识别疾病阶段的分子特征。生物计量学, 60, 812– 819. ·Zbl 1274.62428号
[37] Temlyakov,V.(2000)弱贪婪算法。高级计算数学。, 12, 213– 227. ·Zbl 0964.65009号
[38] Tibshirani,R.(1996)通过套索进行回归收缩和选择。J.R.统计。Soc.B公司, 58, 267– 288. ·Zbl 0850.62538号
[39] Tropp,J.(2004)《贪婪是好的:稀疏近似的算法结果》。IEEE传输。通知。理论, 50, 2231– 2242. ·Zbl 1288.94019号
[40] Valdar,W.、Holmes,C.、Mott,R.和Flint,J.(2009)通过重采样模型平均值绘制结构化种群。遗传学, 182, 1263– 1277.
[41] Wainwright,M.(2009)高维和噪声稀疏恢复的尖锐阈值。IEEE传输。通知。西奥。, 55, 2183– 2202. ·Zbl 1367.62220号
[42] Yuan,M.和Lin,Y.(2007)高斯图形模型中的模型选择和估计。生物特征, 94, 19– 35. ·Zbl 1142.62408号
[43] Zhang,C.‐H。(2007)惩罚线性无偏选择。技术报告2007-003皮斯卡塔韦罗格斯大学统计系。
[44] Zhang,T.(2008)线性模型稀疏学习的自适应前向后向贪婪算法。程序中。神经信息处理系统。
[45] Zhang,T.(2009)关于使用贪婪最小二乘回归进行特征选择的一致性。J.马赫。学习。物件。, 10, 555– 568. ·Zbl 1235.6206号
[46] Zhang,C.和Huang,J.(2008)高维线性回归中套索选择的稀疏性和偏差。安。统计师。, 36, 1567– 1594. ·Zbl 1142.62044号
[47] Zhao,P.和Yu,B.(2006)关于套索的模型选择一致性。J.马赫。学习。物件。, 7, 2541– 2563. ·Zbl 1222.62008年
[48] Zou,H.(2006)自适应套索及其预言属性。《美国统计杂志》。助理。, 101, 1418– 1429. ·Zbl 1171.62326号
[49] Zucknick,M.、Richardson,S.和Stronach,E.A.(2008)比较单变量和多变量分类方法得出的基因表达谱特征·兹比尔1276.92033
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。