×

高维问题中特征选择和回归的“预处理”。 (英语) Zbl 1142.62022号

小结:我们考虑回归问题,其中预测因子的数量大大超过了观察值的数量。我们提出了一种变量选择方法,首先估计回归函数,得到“预处理”响应变量。用于初始回归的主要方法是监督主成分。然后,我们对预处理的响应变量应用标准程序,如正向逐步选择或LASSO。在许多模拟和实际数据示例中,此两步程序优于正向逐步选择或通常的LASSO(直接应用于原始结果)。我们还表明,在一定的高斯隐变量模型下,随着预报器和观测数的增加,LASSO对预处理响应变量的应用是一致的。此外,当观测噪声较大时,所建议的方法可以比LASSO给出更准确的估计。我们在一些实际问题上说明了我们的方法,包括用微阵列数据进行生存分析。

MSC公司:

62G08号 非参数回归和分位数回归
62H25个 因子分析和主成分;对应分析
65C60个 统计中的计算问题(MSC2010)
6220国集团 非参数推理的渐近性质
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bair,E.、Hastie,T.、Paul,D.和Tibshirani,R.(2006年)。监督主成分预测。J.Amer。统计师。协会101 119-137·Zbl 1118.62326号 ·doi:10.1198/0162145050000000628
[2] Bair,E.和Tibshirani,R.(2004年)。根据基因表达数据预测患者生存率的半监督方法。PLOS生物学2 511-522。
[3] Donoho,D.(2004)。对于大多数大型欠定方程组,极小1-范数解是最稀疏的解。斯坦福大学技术报告。
[4] Donoho,D.和Elad,M.(2003年)。通过ell 1-范数最小化从过完备字典中获得最佳稀疏表示。程序。国家。阿卡德。科学。美国100 2197-2202·Zbl 1064.94011号 ·doi:10.1073/pnas.0437847100
[5] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归(讨论)。安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[6] Fan,J.和Li,R.(2005)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360。JSTOR公司:·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[7] Fan,J.和Peng,H.(2004)。具有发散参数数的非凹陷惩罚似然。安。统计师。32 928-961. ·Zbl 1092.62031号 ·doi:10.1214/009053604000000256
[8] Kalbfleisch,J.和Prentice,R.(1980)。失效时间数据的统计分析。纽约威利·Zbl 0504.62096号
[9] K.奈特和W.傅(2000)。套索型估计量的渐近性。安。统计师。28 1356-1378. ·Zbl 1105.62357号 ·doi:10.1214操作系统/1015957397
[10] Meinshausen,M.(2005年)。放松地套索。研究报告129,苏黎世联邦理工学院。
[11] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/09053606000000281
[12] Osborne,M.、Presnell,B.和Turlach,B.(2000)。在套索及其对偶上。J.计算。图表。统计师。9 319-337. JSTOR公司:·数字对象标识代码:10.2307/1390657
[13] Park,M.Y.和Hastie,T.(2006)。广义线性模型的l1正则化路径算法。未发表的手稿。
[14] Paul,D.(2005年)。主成分的非参数估计。斯坦福大学统计学系博士论文。
[15] Shen,X.和Ye,J.(2002)。自适应模型选择。J.Amer。统计师。协会97 210-221。JSTOR公司:·Zbl 1073.62509号 ·doi:10.1198/016214502753479356
[16] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288。JSTOR公司:·Zbl 0850.62538号
[17] Tibshirani,R.、Hastie,T.、Narasimhan,B.和Chu,G.(2001)。通过基因表达的收缩质心诊断多种癌症类型。程序。国家。阿卡德。科学。美国99 6567-6572。
[18] Zhao,H.、Tibshirani,R.和Brooks,J.(2005)。基因表达谱预测传统肾细胞癌的生存率。公共科学图书馆。医学3(1)e13。
[19] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。J.马赫。学习。第7号决议2541-2563·Zbl 1222.62008年
[20] 邹华(2005)。自适应套索及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。