×

特征筛选的基尼系数。 (英语) Zbl 1471.62386号

小结:本文提出了基尼相关筛选(GCS)方法来选择具有超高维数据的重要变量。新程序基于基尼相关系数,通过响应和预测变量秩之间的协方差,而不是皮尔逊相关系数和肯德尔相关系数。新方法不需要对回归函数施加特定的模型结构,只需要预测因子和响应具有连续分布函数的条件。我们证明,随着预测因子的数量以样本量的指数速度增长,所提出的方法在排名方面具有一致性,这本身就很有用,并且可以导致选择的一致性。该程序计算效率高且简单,在我们的密集模拟和实际数据分析中表现出了良好的经验性能。

MSC公司:

62H20个 关联度量(相关性、典型相关性等)
62兰特 大数据和数据科学的统计方面
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 布曼,P。;van de Geer,S.,《高维数据方法统计》(2011),海德堡,多德雷赫特,伦敦,纽约:理论与应用,施普林格,海德伯格,多德雷赫特,英国伦敦,纽约·Zbl 1273.62015年 ·doi:10.1007/978-3-642-20192-9
[2] 陈,JH;Chen,ZH,《大模型空间模型选择的扩展贝叶斯信息准则》,Biometrika,95759-771(2008)·Zbl 1437.62415号 ·doi:10.1093/biomet/asn034
[3] 范,J。;Gijbels,I.,局部多项式建模及其应用(1996),纽约:Chapman和Hall,纽约·Zbl 0873.62037号
[4] 范,J。;Li,R.,《通过非临界惩罚可能性进行变量选择及其Oracle属性》,《Ann.Statist》。协会,96,1348-1360(2001)·兹比尔1073.62547 ·doi:10.1198/016214501753382273
[5] 范,J。;Ren,Y.,DNA微阵列数据的统计分析,Em Clin。癌症研究,12,4469-4473(2006)·doi:10.1158/1078-0432.CCR-06-1033
[6] 范,J。;Song,R.,具有NP-维数的广义线性模型中的确定独立筛选,Ann.Statist。协会,38,3567-3604(2010)·Zbl 1206.68157号
[7] 范,M。;马云(Ma,Y.)。;戴伟,稀疏超高维变系数模型中的非参数独立筛选,《统计年鉴》。协会,1091270-1284(2013)·Zbl 1368.62095号 ·doi:10.1080/01621459.2013.879828
[8] 范,J。;Lv,J.,超高维特征空间的确定独立筛选(讨论),J.Roy。统计师。Soc.B.,70,849-911(2008)·Zbl 1411.62187号 ·doi:10.1111/j.1467-9868.2008.00674.x
[9] 范,J。;冯,Y。;Song,R.,稀疏超高维可加模型中的非参数独立筛选,J.Am.Statist。协会,106,544-557(2011)·Zbl 1232.62064号 ·doi:10.1198/jasa.2011.tm09779
[10] 霍尔,P。;Miller,H.,《使用广义相关性影响超高维问题中的变量选择》,《计算与图形统计杂志》,18533-550(2009)·doi:10.1198/jcgs.2009.08041
[11] 哈斯蒂,T。;Tibshirani,R.,广义加性模型,统计科学,3297-318(1986)·Zbl 0645.62068号
[12] 李,R。;Liang,H.,半参数回归模型中的变量选择,Ann Statist。,36, 261-286 (1999) ·兹比尔1132.62027
[13] Li,G.等人。;彭,H。;张杰。;朱磊,基于稳健秩相关的筛选,Ann.Statist。,1846-1877年(2012年)·Zbl 1257.62067号
[14] Luo,S。;Chen,Z.,《利用超高维特征空间进行特征选择的序列Lasso Cum Ebic》,J.Am.Statist。协会,1091229-1240(2014)·Zbl 1368.62205号 ·doi:10.1080/01621459.2013.877275
[15] Redfern,CH;科沃德,P。;Degtyarev,车型年款;Lee,EK;夸,AT;Hennighausen,L.公司。;Bujard,H。;菲什曼,GI;Conklin,BR,转基因小鼠中特定设计的Gi-coupled受体的条件表达和信号传递,《国家生物技术》,17,165-169(1999)·doi:10.1038/6165
[16] Shorack,G。;Wellen,J.,《统计应用的经验过程》(1986年),纽约:威利出版社,纽约·Zbl 1170.62365号
[17] Schechtman,E。;Yitzhaki,S.,基于基尼平均差的关联度量,Comm.Statist。,16, 1, 207-231 (1987) ·Zbl 0617.62061号 ·doi:10.1080/03610928708829359
[18] Schechtman,E。;Yitzhaki,S.,《基尼系数的适当界限》,《经济学》。莱特。,63, 133-138 (1999) ·Zbl 0924.90043号 ·doi:10.1016/S0165-1765(99)00033-6
[19] Schechtman,E。;Yitzhaki,S.,基于扩展基尼指数的相关系数族,J.Econ。不平等。,12, 129-146 (2003) ·doi:10.1023/A:1026152130903
[20] Schechtman,E。;Yizhaki,S。;Artsev,Y.,《均值-方差和均值-基尼之间的相似性:基尼相关性的相等性检验》,《投资分析和投资组合管理进展》(AIAPM),第3103-128页(2007年)
[21] 谢夫利亚科夫,德国劳埃德船级社;Smirnov,PO,《相关系数的稳健估计:一次调查尝试》,《奥地利统计杂志》,第40期,第147-156页(2011年)
[22] Storey,京东;Tibshirani,R.,《全基因组研究的统计意义》,Proc。国家。阿卡德。科学。美国,1009440-9445(2003)·Zbl 1130.62385号 ·doi:10.1073/pnas.1530509100
[23] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2009),柏林:施普林格出版社,柏林·Zbl 1273.62005年
[24] Tibshirani,R.,通过LASSO进行回归收缩和选择,英国皇家统计学会期刊,B辑,58267-288(1996)·Zbl 0850.62538号
[25] Wang,H。;Xia,Y.,变系数模型的收缩率估计,J.Am.Statis。协会,104747-757(2009)·Zbl 1388.62213号 ·doi:10.1198/jasa.2009.0138
[26] Li,G.等人。;彭,H。;Zhu,L.,参数个数发散的无条件惩罚M-估计,Statist。Sinica,21,391-419(2011)·Zbl 1206.62036号
[27] Wang,H.,Factor profiled sure independence筛查,Biometrika,99,15C-28(2012)·Zbl 1234.62108号 ·doi:10.1093/biomet/asr074
[28] 朱,L。;李,X。;Li,Z。;Zhu,X.,超高精度数据的无模型特征筛选,J.Amer。统计师。协会,1061464-1474(2011)·Zbl 1233.62195号 ·doi:10.1198/jasa.2011.tm10563
[29] 张杰。;张,R。;Lu,Z.,超高维变系数模型中的分位数自适应变量筛选,应用统计杂志,43643-654(2016)·Zbl 1514.62970号 ·doi:10.1080/02664763.2015.072141
[30] 张杰。;张,R。;Zhang,J.,超高维协变量非参数和半参数模型的特征筛选,J.Syst。科学。综合体,311350-1361(2018)·Zbl 1409.62093号 ·doi:10.1007/s11424-017-6310-6
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。