×

通过距离相关性对超高维右删失数据进行稳健的特征筛选。 (英语) Zbl 1469.62043号

摘要:大规模生物医学研究中经常收集具有正确截尾生存时间的超高维数据,特征筛选已成为不可或缺的统计工具。本文提出了两种新的基于距离相关的特征筛选方法。第一种方法通过将响应和协变量分别替换为其累积分布函数的Kaplan-Meier估计和经验分布函数来进行特征筛选,而第二种方法通过复合分位数回归的思想来修改距离相关性。确定的筛选特性是在一些相当温和的技术假设下建立的,这些假设允许维度以样本大小的指数速度增加。所提出的方法具有三个理想的特性。首先,它们是无模型的,因此对模型错误指定具有鲁棒性。其次,当某些特征包含异常值或遵循重尾分布时,它们表现可靠。第三,与距离相关筛选相比,我们的方法具有更好的收敛速度[R.李等,《美国统计协会期刊》第107卷,第499期,第1129–1139页(2012年;Zbl 1443.62184号)]. 仿真和实际算例都表明,所提出的方法具有竞争力。

MSC公司:

62-08 统计问题的计算方法
62克08 非参数回归和分位数回归
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

插补
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Annest,A。;邦加纳,R。;Raftery,A。;Yeung,K.,迭代贝叶斯模型平均:一种将生存分析应用于高维微阵列数据的方法,BMC Bioninform。,10, 72, (2009)
[2] 陈,X。;陈,X。;Liu,Y.,关于通过距离相关进行分位数特征筛选的注释,Statist。论文,(2017)
[3] 范,J。;Feng,Y。;Wu,Y.,考克斯比例风险模型的高维变量选择,(IMS Collections Borrowing Strength:Theory Powering Applications C A Festschrift for Lawrence D.Brown,vol.6,(2010)),70-86
[4] 范,J。;Li,R.,通过非冲突惩罚似然进行变量选择及其预言性质,J.Amer。统计师。协会,96,1348-1360,(2001)·Zbl 1073.62547号
[5] 范,J。;Lv,J.,超高维特征空间的确定独立性筛选,J.R.Stat.Soc.Ser。B、 70,5849-911(2008)·兹比尔1411.62187
[6] 范,J。;萨姆沃思,R。;Wu,Y.,超高维特征选择:超越线性模型,J.马赫。学习。2013-2038年第10号决议(2009年)·Zbl 1235.62089号
[7] 范,J。;Song,R.,具有np维的广义线性模型中的确定独立筛选,Ann.Statist。,38, 6, 3567-3604, (2010) ·Zbl 1206.68157号
[8] Földes,A。;Rejtö,L.,乘积极限估计的LIL型结果,Z.Wahrscheinlichkeits定理。Verwandte Geb.公司。,56, 75-86, (1981) ·Zbl 0443.62031号
[9] Gorst-Rasmussen,A。;Scheike,T.,《具有超高维特征的单指标风险率模型的独立筛选》,J.R.Stat.Soc.Ser。B、 72、2、217-245(2013)·Zbl 07555446号
[10] 何,X。;Wang,L。;Hong,H.,《分位数回归的缺乏检验》,J.Amer。统计师。协会,98,1013-1022,(2003)·Zbl 1043.62039号
[11] 何,X。;Wang,L。;Hong,H.,高维遗传数据的分位数自适应无模型变量筛选,Ann.Statist。,41, 1, 342-369, (2013) ·Zbl 1295.62053号
[12] Hong,H。;Kang,J。;Li,Y.,超高维协变量与生存结果的条件筛选,《寿命数据分析》(2016)
[13] 霍,X。;Székely,G.,距离协方差的快速计算,技术计量学,58,4,435-447,(2016)
[14] 赖,P。;刘,Y。;刘,Z。;Wan,Y.,随机缺失响应的超高维数据无模型特征筛选,计算。统计师。数据分析。,105, 201-216, (2017) ·兹比尔1466.62125
[15] 李·G。;李毅。;Tsai,C.,分位数相关性和分位数自回归建模,J.Amer。统计师。协会,110,246-261,(2014)·Zbl 1373.62286号
[16] 李·G。;彭,H。;张,J。;朱磊,基于稳健秩相关的筛选,安统计学家。,40, 3, 1846-1877, (2012) ·Zbl 1257.62067号
[17] 李,J。;郑琦。;彭,L。;Huang,Z.,生存影响指数和超高维无模型筛选与生存结果,生物统计学,72,4,1145-1154,(2016)·Zbl 1390.62281号
[18] 李,R。;钟伟。;Zhu,L.,通过远程相关学习进行特征筛选,J.Amer。统计师。协会,1071129-1139,(2012)·Zbl 1443.62184号
[19] 刘杰。;李,R。;Wu,R.,具有超高维协变量的变系数模型的特征选择,J.Amer。统计师。协会,109,266-274,(2014)·Zbl 1367.62048号
[20] 罗,X。;斯蒂芬斯基,L。;Boos,D.,《通过添加噪声调整变量选择程序》,Technometrics,48,165-175,(2006)
[21] Portnoy,S.,删失回归分位数,J.Amer。统计师。协会,98,1001-1012,(2003)·Zbl 1045.62099号
[22] 邵,X。;Zhang,J.,鞅差分相关及其在高维变量筛选中的应用,J.Amer。统计师。协会,1091302-1318,(2014)·Zbl 1368.62157号
[23] 宋,R。;卢·W。;马,S。;Jeng,X.,高维生存数据的删失秩独立筛选,Biometrika,101799-814,(2014)·Zbl 1306.62207号
[24] 谢凯利,G。;Rizzo,M。;Bakirov,N.,《通过距离相关性测量和测试相关性》,Ann.Statist。,35, 2769-2794, (2007) ·Zbl 1129.62059号
[25] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B、 58267-288(1996)·Zbl 0850.62538号
[26] 俄勒冈州特罗扬斯卡娅。;康托,M。;Sherlock,G。;布朗,P。;哈斯蒂,T。;Tibshirani,R。;博茨坦,D。;Altman,R.,DNA微阵列缺失值估计方法,生物信息学,17,520-525,(2001)
[27] Uno,H。;蔡,T。;Pencina,M。;达戈斯蒂诺,R。;Wei,L.,《关于用截尾生存数据评估风险预测程序总体充分性的c统计量》,Stat.Med.,301105-1117,(2011)
[28] van t Veer,L。;戴,H。;van de Vijver,M。;他,Y。;哈特,A。;毛,M。;van der,H.P.K。;Marton,M。;Witteveen,A。;施赖伯,G。;科尔霍芬,R。;罗伯茨,C。;Linsley,P。;Bernards,R。;Firend,S.,基因表达谱预测乳腺癌的临床结果,Nature,415530-536,(2002)
[29] Wu,Y。;Yin,G.,超高维异质数据中的条件分位数筛选,Biometrika,102,1,65-76,(2015)·Zbl 1345.62097号
[30] Yan,X.、Tang,N.、Zhao,X.,2017年。超高维删失数据的spearman秩相关筛选。;Yan,X.、Tang,N.、Zhao,X.,2017年。超高维删失数据的spearman秩相关筛选,arXiv。
[31] 张,J。;刘,Y。;Wu,Y.,超高维生存数据的相关秩筛选,计算机。统计师。数据分析。,108, 121-132, (2017) ·Zbl 1466.62226号
[32] 赵,S。;Li,Y.,超高维协变量Cox模型的原则确定独立性筛选,《多元分析杂志》。,105, 397-411, (2012) ·Zbl 1233.62173号
[33] 钟伟。;Zhu,L.,基于距离相关的确定独立性筛选的迭代方法,J.Stat.Compute。同时。,85, 1-15, (2014)
[34] 钟伟。;朱,L。;李,R。;Cui,H.,单指数模型的正则分位数回归和稳健特征筛选,Statist。Sinica,26,69-95,(2016)·Zbl 1419.62096号
[35] 周,T。;Zhu,L.,超高维删失回归的无模型特征筛选,统计计算。,27, 947-961, (2017) ·Zbl 1384.62144号
[36] 朱,L。;李,L。;李,R。;Zhu,L.,超高维数据的无模型特征筛选,J.Amer。统计师。协会,1061464-1475,(2011)·Zbl 1233.62195号
[37] Zou,H.,《自适应套索及其预言属性》,J.Amer。统计师。协会,101,1418-1429,(2006)·Zbl 1171.62326号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。