×

确保超高维特征空间的独立筛选。通过讨论和作者的回复。 (英语) Zbl 1411.62187号

摘要:变量选择在高维统计建模中发挥着重要作用,目前高维统计模型出现在许多领域,是各种科学发现的关键。对于大规模或维数的问题,估计的准确性和计算成本是两个最关心的问题。最近,E.坎迪斯陶哲轩【Ann.Stat.35,No.6,2313–2404(2007年;Zbl 1139.62019号)]提出了使用(L_1)正则化的Dantzig选择器,并表明其达到了对数因子(log(p))的理想风险。当维数超高时,由于因子(log(p))可能很大,并且统一的不确定性原理可能失效,他们的创新过程和显著结果受到了挑战。基于这些考虑,我们引入了确定性筛选的概念,并提出了一种基于相关学习的确定性筛选方法,称为确定性独立性筛选,以将维度从高降低到低于样本量的中等规模。在一个相当一般的渐近框架中,相关学习被证明对指数增长的维数具有一定的筛选特性。作为方法论的扩展,还提出了迭代确定独立筛选以提高其有限样本性能。随着维数从高到低准确地减小,变量选择可以在速度和准确性上得到改进,然后可以通过一种成熟的方法来完成,例如平滑剪裁绝对偏差、Dantzig选择器、套索或自适应套索。还阐明了这些惩罚最小二乘法之间的联系。

MSC公司:

62J05型 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
10层62层 点估计
62-02 与统计有关的研究展览(专著、调查文章)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Antoniadis,A.和Fan,J.(2001)小波近似的正则化(含讨论)。《美国统计杂志》。助理。,96939–967·Zbl 1072.62561号
[2] Bai,Z.D.(1999)《大维随机矩阵谱分析方法》,综述。统计师。罪恶。, 9, 611– 677. ·Zbl 0949.60077号
[3] Bai,Z.D和Yin,Y.Q.(1993)大维样本协方差矩阵最小特征值的极限。安·普罗巴伯。, 21, 1275– 1294. ·Zbl 0779.60026号
[4] Baron,D.、Wakin,M.B.、Duarte,M.F.、Sarvotham,S.和Baraniuk,R.G.(2005)分布式压缩传感。手稿.
[5] Barron,A.、Cohen,A.、Dahmen,W.和DeVore,R.(2008)贪婪算法的近似和学习。安。统计师。, 36, 64– 94. ·Zbl 1138.62019号
[6] Bickel,P.J.和Levina,E.(2004)Fisher线性判别函数的一些理论,“aive Bayes”,以及变量多于观测值时的一些替代方法。伯努利, 10, 989– 1010. ·Zbl 1064.62073号
[7] Bickel,P.J.和Levina,E.(2008)大型协方差矩阵的正则化估计。安。统计师。, 36, 199– 227. ·Zbl 1132.62040号
[8] Bickel,P.J.、Ritov,Y.和Tsybakov,A.(2008)《Lasso和Dantzig选择器的同步分析》。安。统计师。第36页,新闻界·兹比尔1173.62022
[9] Breiman,L.(1995)使用非负garrote进行更好的子集回归。技术计量学, 37, 373– 384. ·Zbl 0862.62059号
[10] Breiman,L.(1996)模型选择中不稳定性和稳定性的启发式。安。统计师。, 24, 2350– 2383. ·Zbl 0867.62055号
[11] Candes,E.和Tao,T.(2007)Dantzig选择器:统计估计第页远大于n个(经过讨论)。安。统计师。, 35, 2313– 2404. ·Zbl 1139.62019号
[12] Chikuse,Y.(2003)特殊流形的统计。莱克特。Notes统计器, 174. ·Zbl 1026.62051号
[13] Donoho,D.L.(2000)高维数据分析:维度的诅咒和祝福。美国数学学会会议:21世纪的数学挑战.
[14] Donoho,D.L.和Elad,M.(2003)最大稀疏表示_{1} 最小化。程序。国家。阿卡德。科学。美国, 100, 2197– 2202. ·Zbl 1064.94011号
[15] Donoho,D.L.和Huo,X.(2001)不确定性原理和理想原子分解。IEEE传输。通知。理论,472845–2862·Zbl 1019.94503号
[16] Donoho,D.L.和Johnstone,I.M.(1994)通过小波收缩实现理想的空间自适应。生物特征, 81, 425– 455. ·Zbl 0815.62019号
[17] Eaton,M.L.(1989)《群不变性在统计学中的应用》。海沃德:数理统计研究所·Zbl 0749.62005号
[18] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)最小角度回归(含讨论)。安.统计师., 32, 407– 499. ·Zbl 1091.62054号
[19] Fan,J.(1997)a.Antoniadis对“统计中的小波:综述”的评论。J.意大利。统计师。助理。, 6, 131– 138. ·Zbl 1454.62116号
[20] Fan,J.和Fan,Y.(2008)使用特征退火独立规则的高维分类。安。统计师。,待发布·Zbl 1360.62327号
[21] Fan,J.和Li,R.(2001)通过无条件惩罚似然及其预言性质进行变量选择。《美国统计杂志》。助理。, 96, 1348– 1360. ·Zbl 1073.62547号
[22] Fan,J.和Li,R.(2002)Cox比例风险模型和脆弱性模型的变量选择。安。统计师。, 30, 74– 99. ·Zbl 1012.62106号
[23] Fan,J.和Li,R.(2006)高维统计挑战:知识发现中的特征选择。程序中。国际会议。《数学家》(编辑M.Sanz‐Sole、J.Soria、J.L.Varona和J.Verdera),第三卷,第595-622页。弗赖堡:欧洲数学学会·Zbl 1117.62137号
[24] Fan,J.和Peng,H.(2004)参数数量发散的非凹陷惩罚似然。安。统计师。, 32, 928– 961. ·Zbl 1092.62031号
[25] Fan,J.和Ren,Y.(2006)DNA微阵列数据的统计分析。临床。癌症研究。, 12, 4469– 4473.
[26] Frank,I.E.和Friedman,J.H.(1993)一些化学计量学回归工具的统计观点(含讨论)。技术计量学, 35, 109– 148. ·Zbl 0775.62288号
[27] Freund,Y.和Schapire,R.E.(1997)在线学习的决策理论概括和在助推中的应用。J.计算。系统。科学。, 55, 119– 139. ·Zbl 0880.68103号
[28] Friedman,J.、Hastie,T.、Höfling,H.和Tibshirani,R.(2007)路径坐标优化。附录申请。统计师。, 1, 302– 332. ·Zbl 1378.90064号
[29] Geman,S.(1980)随机矩阵范数的极限定理。安·普罗巴伯。, 8, 252– 261. ·Zbl 0428.60039号
[30] George,E.I.和McCulloch,R.E.(1997)贝叶斯变量选择方法。统计师。罪恶。, 7, 339– 373. ·Zbl 0884.62031号
[31] Golub,T.R.、Slonim,D.K.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.P.、Coller,H.、Loh,M.L.、Downing,J.R.,Caligiuri,M.A.、Bloomfield,C.D.和Lander,E.S.(1999)《癌症的分子分类:通过表达监测的类别发现和类别预测》。科学类, 286, 531– 537.
[32] Greenshtein,E.(2006)最佳子集选择,高维统计学习和优化的持久性_{1} 约束。安。统计师。, 34, 2367– 2386. ·Zbl 1106.62022号
[33] Greenshtein,E.和Ritov,Y.(2004)高维线性预测器选择的持续性和超参数化的优点。伯努利, 10, 971– 988. ·Zbl 1055.62078号
[34] Grenander,U.和Szegö,G.(1984)Toeplitz形式及其应用。纽约:切尔西·Zbl 0611.47018号
[35] Gribonval,R.、Mailhe,B.、Rauhut,H.、Schnass,K.和Vandergheynst,P.(2007)多通道阈值化的平均案例分析。程序。国际协调声学和语音信号处理纽约:电气与电子工程师学会。
[36] Hall,P.、Marron,J.S.和Neeman,A.(2005)高维低样本数据的几何表示。J.R.统计学家。Soc.B公司, 67, 427– 444. ·Zbl 1069.62097号
[37] Huang,J.、Horowitz,J.和Ma,S.(2008)稀疏高维回归模型中桥估计量的渐近性质。安。统计师。, 36, 587– 613. ·Zbl 1133.62048号
[38] Hunter,D.和Li,R.(2005)使用MM算法的变量选择。安。统计师。, 33, 1617– 1642. ·Zbl 1078.62028号
[39] Johnstone,I.M.(2001)关于主成分分析中最大特征值的分布。安。统计师。, 29, 295– 327. ·Zbl 1016.62078号
[40] K.K.奈特和W.傅(2000)拉索型估计量的渐近性。安。统计师。, 28, 1356– 1378. ·Zbl 1105.62357号
[41] Lam,C.和Fan,J.(2007)大协方差矩阵估计中的稀疏性和收敛速度。手稿·Zbl 1191.62101号
[42] Ledoux,M.(2001)《测量现象的集中》。剑桥:美国数学学会·Zbl 0995.60002号
[43] Ledoux,M.(2005)最大特征值上的偏差不等式。手稿·Zbl 1130.15012号
[44] Meier,L.、Van De Geer,S.和Bühlmann,P.(2008)logistic回归的组套索。J.R.统计学家。Soc.B公司, 70, 53‐ 71. ·Zbl 1400.62276号
[45] Meinshausen,N.(2007)放松套索。计算统计。数据分析。, 52, 374– 393. ·Zbl 1452.62522号
[46] Meinshausen,N.和Bühlmann,P.(2006)高维图和拉索变量选择。安。统计师。, 34, 1436– 1462. ·兹比尔1113.62082
[47] Meinshausen,N.、Rocha,G.和Yu,B.(2007)“Dantzig选择器:当第页远大于n个’’.安。统计师。, 35, 2373– 2384.
[48] Nikolova,M.(2000)正则估计的局部强同质性。SIAM J.应用。数学。, 61, 633– 658. ·Zbl 0991.94015号
[49] Paul,D.、Bair,E.、Hastie,T.和Tibshirani,R.(2008)“高维问题中特征选择和回归的预处理”。安。统计师。,待发布·Zbl 1142.62022号
[50] Ravikumar,P.、Lafferty,J.、Liu,H.和Wasserman,L.(2007)《稀疏可加模型》。手稿.
[51] Silverstein,J.W.(1985)大维Wishart矩阵的最小特征值。安·普罗巴伯。, 13, 1364– 1368. ·Zbl 0591.60025号
[52] Storey,J.D.和Tibshirani,R.(2003)全基因组研究的统计意义。程序。国家。阿卡德。科学。美国, 100, 9440– 9445. ·Zbl 1130.62385号
[53] Tibshirani,R.(1996)通过套索进行回归收缩和选择。J.R.统计学家。Soc.B公司, 58, 267– 288. ·Zbl 0850.62538号
[54] Tibshirani,R.、Hastie,T.、Narasimhan,B.和Chu,G.(2002)通过基因表达的收缩质心诊断多种癌症类型。程序。国家。阿卡德。科学。美国, 99, 6567– 6572.
[55] Van Der Vaart,A.W.和Wellner,J.A.(1996)《弱收敛和经验过程》。纽约:斯普林格·Zbl 0862.60002号
[56] Zhang,C.‐H。(2007)惩罚线性无偏选择。技术报告2007-003皮斯卡塔韦罗格斯大学统计系。
[57] Zhang,C.‐H。和Huang,J.(2008)高维线性回归中LASSO选择的稀疏性和偏差。安。统计师。, 36, 1567– 1594. ·Zbl 1142.62044号
[58] Zhao,P.和Yu,B.(2006)关于拉索的模型选择一致性。J.马赫。学习。物件。, 7, 2541– 2567. ·Zbl 1222.62008年
[59] Zou,H.(2006)自适应Lasso及其oracle属性。《美国统计杂志》。助理。,1011418–1429·Zbl 1171.62326号
[60] Zou,H.和Li,R.(2008)非凹陷惩罚似然模型中的一步稀疏估计·Zbl 1282.62112号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。