文件Zbl 1411.62187-zbMATH Open

确保超高维特征空间的独立筛选。通过讨论和作者的回复。（英语） Zbl 1411.62187号

J.R.Stat.Soc.，塞尔维亚。B、统计方法。 70，第5号，849-911（2008）.

摘要：变量选择在高维统计建模中发挥着重要作用，目前高维统计模型出现在许多领域，是各种科学发现的关键。对于大规模或维数的问题，估计的准确性和计算成本是两个最关心的问题。最近，E.坎迪斯和陶哲轩【Ann.Stat.35，No.6，2313–2404（2007年；Zbl 1139.62019号)]提出了使用（L_1）正则化的Dantzig选择器，并表明其达到了对数因子（log（p））的理想风险。当维数超高时，由于因子（log（p））可能很大，并且统一的不确定性原理可能失效，他们的创新过程和显著结果受到了挑战。基于这些考虑，我们引入了确定性筛选的概念，并提出了一种基于相关学习的确定性筛选方法，称为确定性独立性筛选，以将维度从高降低到低于样本量的中等规模。在一个相当一般的渐近框架中，相关学习被证明对指数增长的维数具有一定的筛选特性。作为方法论的扩展，还提出了迭代确定独立筛选以提高其有限样本性能。随着维数从高到低准确地减小，变量选择可以在速度和准确性上得到改进，然后可以通过一种成熟的方法来完成，例如平滑剪裁绝对偏差、Dantzig选择器、套索或自适应套索。还阐明了这些惩罚最小二乘法之间的联系。

引用于4评论

引用于597文件

MSC公司：

62J05型	线性回归；混合模型
62J07型	岭回归；收缩估计器（拉索）
10层62层	点估计
62-02	与统计有关的研究展览（专著、调查文章）

关键词：

自适应拉索；Dantzig选择器；降维；拉索；oracle估计器；平滑剪裁绝对偏差；确定独立性筛选；确定筛选；变量选择

引文：

Zbl 1139.62019号

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Antoniadis，A.和Fan，J.（2001）小波近似的正则化（含讨论）。《美国统计杂志》。助理。，96939–967·Zbl 1072.62561号
[2]	Bai，Z.D.（1999）《大维随机矩阵谱分析方法》，综述。统计师。罪恶。, 9, 611– 677. ·Zbl 0949.60077号
[3]	Bai，Z.D和Yin，Y.Q.（1993）大维样本协方差矩阵最小特征值的极限。安·普罗巴伯。, 21, 1275– 1294. ·Zbl 0779.60026号
[4]	Baron，D.、Wakin，M.B.、Duarte，M.F.、Sarvotham，S.和Baraniuk，R.G.（2005）分布式压缩传感。手稿.
[5]	Barron，A.、Cohen，A.、Dahmen，W.和DeVore，R.（2008）贪婪算法的近似和学习。安。统计师。, 36, 64– 94. ·Zbl 1138.62019号
[6]	Bickel，P.J.和Levina，E.（2004）Fisher线性判别函数的一些理论，“aive Bayes”，以及变量多于观测值时的一些替代方法。伯努利, 10, 989– 1010. ·Zbl 1064.62073号
[7]	Bickel，P.J.和Levina，E.（2008）大型协方差矩阵的正则化估计。安。统计师。, 36, 199– 227. ·Zbl 1132.62040号
[8]	Bickel，P.J.、Ritov，Y.和Tsybakov，A.（2008）《Lasso和Dantzig选择器的同步分析》。安。统计师。第36页，新闻界·兹比尔1173.62022
[9]	Breiman，L.（1995）使用非负garrote进行更好的子集回归。技术计量学, 37, 373– 384. ·Zbl 0862.62059号
[10]	Breiman，L.（1996）模型选择中不稳定性和稳定性的启发式。安。统计师。, 24, 2350– 2383. ·Zbl 0867.62055号
[11]	Candes，E.和Tao，T.（2007）Dantzig选择器：统计估计第页远大于n个（经过讨论）。安。统计师。, 35, 2313– 2404. ·Zbl 1139.62019号
[12]	Chikuse，Y.（2003）特殊流形的统计。莱克特。Notes统计器, 174. ·Zbl 1026.62051号
[13]	Donoho，D.L.（2000）高维数据分析：维度的诅咒和祝福。美国数学学会会议：21世纪的数学挑战.
[14]	Donoho，D.L.和Elad，M.（2003）最大稀疏表示我_{1} 最小化。程序。国家。阿卡德。科学。美国, 100, 2197– 2202. ·Zbl 1064.94011号
[15]	Donoho，D.L.和Huo，X.（2001）不确定性原理和理想原子分解。IEEE传输。通知。理论，472845–2862·Zbl 1019.94503号
[16]	Donoho，D.L.和Johnstone，I.M.（1994）通过小波收缩实现理想的空间自适应。生物特征, 81, 425– 455. ·Zbl 0815.62019号
[17]	Eaton，M.L.（1989）《群不变性在统计学中的应用》。海沃德：数理统计研究所·Zbl 0749.62005号
[18]	Efron，B.、Hastie，T.、Johnstone，I.和Tibshirani，R.（2004）最小角度回归（含讨论）。安.统计师., 32, 407– 499. ·Zbl 1091.62054号
[19]	Fan，J.（1997）a.Antoniadis对“统计中的小波：综述”的评论。J.意大利。统计师。助理。, 6, 131– 138. ·Zbl 1454.62116号
[20]	Fan，J.和Fan，Y.（2008）使用特征退火独立规则的高维分类。安。统计师。，待发布·Zbl 1360.62327号
[21]	Fan，J.和Li，R.（2001）通过无条件惩罚似然及其预言性质进行变量选择。《美国统计杂志》。助理。, 96, 1348– 1360. ·Zbl 1073.62547号
[22]	Fan，J.和Li，R.（2002）Cox比例风险模型和脆弱性模型的变量选择。安。统计师。, 30, 74– 99. ·Zbl 1012.62106号
[23]	Fan，J.和Li，R.（2006）高维统计挑战：知识发现中的特征选择。程序中。国际会议。《数学家》（编辑M.Sanz‐Sole、J.Soria、J.L.Varona和J.Verdera），第三卷，第595-622页。弗赖堡：欧洲数学学会·Zbl 1117.62137号
[24]	Fan，J.和Peng，H.（2004）参数数量发散的非凹陷惩罚似然。安。统计师。, 32, 928– 961. ·Zbl 1092.62031号
[25]	Fan，J.和Ren，Y.（2006）DNA微阵列数据的统计分析。临床。癌症研究。, 12, 4469– 4473.
[26]	Frank，I.E.和Friedman，J.H.（1993）一些化学计量学回归工具的统计观点（含讨论）。技术计量学, 35, 109– 148. ·Zbl 0775.62288号
[27]	Freund，Y.和Schapire，R.E.（1997）在线学习的决策理论概括和在助推中的应用。J.计算。系统。科学。, 55, 119– 139. ·Zbl 0880.68103号
[28]	Friedman，J.、Hastie，T.、Höfling，H.和Tibshirani，R.（2007）路径坐标优化。附录申请。统计师。, 1, 302– 332. ·Zbl 1378.90064号
[29]	Geman，S.（1980）随机矩阵范数的极限定理。安·普罗巴伯。, 8, 252– 261. ·Zbl 0428.60039号
[30]	George，E.I.和McCulloch，R.E.（1997）贝叶斯变量选择方法。统计师。罪恶。, 7, 339– 373. ·Zbl 0884.62031号
[31]	Golub，T.R.、Slonim，D.K.、Tamayo，P.、Huard，C.、Gaasenbeek，M.、Mesirov，J.P.、Coller，H.、Loh，M.L.、Downing，J.R.，Caligiuri，M.A.、Bloomfield，C.D.和Lander，E.S.（1999）《癌症的分子分类：通过表达监测的类别发现和类别预测》。科学类, 286, 531– 537.
[32]	Greenshtein，E.（2006）最佳子集选择，高维统计学习和优化的持久性我_{1} 约束。安。统计师。, 34, 2367– 2386. ·Zbl 1106.62022号
[33]	Greenshtein，E.和Ritov，Y.（2004）高维线性预测器选择的持续性和超参数化的优点。伯努利, 10, 971– 988. ·Zbl 1055.62078号
[34]	Grenander，U.和Szegö，G.（1984）Toeplitz形式及其应用。纽约：切尔西·Zbl 0611.47018号
[35]	Gribonval，R.、Mailhe，B.、Rauhut，H.、Schnass，K.和Vandergheynst，P.（2007）多通道阈值化的平均案例分析。在程序。国际协调声学和语音信号处理纽约：电气与电子工程师学会。
[36]	Hall，P.、Marron，J.S.和Neeman，A.（2005）高维低样本数据的几何表示。J.R.统计学家。Soc.B公司, 67, 427– 444. ·Zbl 1069.62097号
[37]	Huang，J.、Horowitz，J.和Ma，S.（2008）稀疏高维回归模型中桥估计量的渐近性质。安。统计师。, 36, 587– 613. ·Zbl 1133.62048号
[38]	Hunter，D.和Li，R.（2005）使用MM算法的变量选择。安。统计师。, 33, 1617– 1642. ·Zbl 1078.62028号
[39]	Johnstone，I.M.（2001）关于主成分分析中最大特征值的分布。安。统计师。, 29, 295– 327. ·Zbl 1016.62078号
[40]	K.K.奈特和W.傅（2000）拉索型估计量的渐近性。安。统计师。, 28, 1356– 1378. ·Zbl 1105.62357号
[41]	Lam，C.和Fan，J.（2007）大协方差矩阵估计中的稀疏性和收敛速度。手稿·Zbl 1191.62101号
[42]	Ledoux，M.（2001）《测量现象的集中》。剑桥：美国数学学会·Zbl 0995.60002号
[43]	Ledoux，M.（2005）最大特征值上的偏差不等式。手稿·Zbl 1130.15012号
[44]	Meier，L.、Van De Geer，S.和Bühlmann，P.（2008）logistic回归的组套索。J.R.统计学家。Soc.B公司, 70, 53‐ 71. ·Zbl 1400.62276号
[45]	Meinshausen，N.（2007）放松套索。计算统计。数据分析。, 52, 374– 393. ·Zbl 1452.62522号
[46]	Meinshausen，N.和Bühlmann，P.（2006）高维图和拉索变量选择。安。统计师。, 34, 1436– 1462. ·兹比尔1113.62082
[47]	Meinshausen，N.、Rocha，G.和Yu，B.（2007）“Dantzig选择器：当第页远大于n个’’.安。统计师。, 35, 2373– 2384.
[48]	Nikolova，M.（2000）正则估计的局部强同质性。SIAM J.应用。数学。, 61, 633– 658. ·Zbl 0991.94015号
[49]	Paul，D.、Bair，E.、Hastie，T.和Tibshirani，R.（2008）“高维问题中特征选择和回归的预处理”。安。统计师。，待发布·Zbl 1142.62022号
[50]	Ravikumar，P.、Lafferty，J.、Liu，H.和Wasserman，L.（2007）《稀疏可加模型》。手稿.
[51]	Silverstein，J.W.（1985）大维Wishart矩阵的最小特征值。安·普罗巴伯。, 13, 1364– 1368. ·Zbl 0591.60025号
[52]	Storey，J.D.和Tibshirani，R.（2003）全基因组研究的统计意义。程序。国家。阿卡德。科学。美国, 100, 9440– 9445. ·Zbl 1130.62385号
[53]	Tibshirani，R.（1996）通过套索进行回归收缩和选择。J.R.统计学家。Soc.B公司, 58, 267– 288. ·Zbl 0850.62538号
[54]	Tibshirani，R.、Hastie，T.、Narasimhan，B.和Chu，G.（2002）通过基因表达的收缩质心诊断多种癌症类型。程序。国家。阿卡德。科学。美国, 99, 6567– 6572.
[55]	Van Der Vaart，A.W.和Wellner，J.A.（1996）《弱收敛和经验过程》。纽约：斯普林格·Zbl 0862.60002号
[56]	Zhang，C.‐H。（2007）惩罚线性无偏选择。技术报告2007-003皮斯卡塔韦罗格斯大学统计系。
[57]	Zhang，C.‐H。和Huang，J.（2008）高维线性回归中LASSO选择的稀疏性和偏差。安。统计师。, 36, 1567– 1594. ·Zbl 1142.62044号
[58]	Zhao，P.和Yu，B.（2006）关于拉索的模型选择一致性。J.马赫。学习。物件。, 7, 2541– 2567. ·Zbl 1222.62008年
[59]	Zou，H.（2006）自适应Lasso及其oracle属性。《美国统计杂志》。助理。，1011418–1429·Zbl 1171.62326号
[60]	Zou，H.和Li，R.（2008）非凹陷惩罚似然模型中的一步稀疏估计·Zbl 1282.62112号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

确保超高维特征空间的独立筛选。通过讨论和作者的回复。（英语） Zbl 1411.62187号

MSC公司：

关键词：

引文：

参考文献：

示例

领域

操作员

确保超高维特征空间的独立筛选。通过讨论和作者的回复。 （英语） Zbl 1411.62187号

MSC公司：

关键词：

引文：

参考文献：

确保超高维特征空间的独立筛选。通过讨论和作者的回复。（英语） Zbl 1411.62187号