×

高维二元分类中一致的筛选程序。 (英语) Zbl 1524.62267号

摘要:我们在高维二进制分类中考虑变量筛选。首先,我们针对两样本分布比较问题提出了非参数检验统计量。这些检验统计量结合了chi-squared和Kolmogorov-Smirnov统计量的优点,为两个独立样本下未指定分布的等式检验提供了新的见解。基于我们的新统计数据,我们提出了一种边缘筛选程序和两两联合筛选程序,用于检测高维二进制分类中的重要变量。这两种筛选程序都具有一致的筛选特性,比大多数现有方法的确定筛选特性更强。边际筛选程序在广泛的情况下比其他方法强大得多,两两联合筛选程序提供了一种检测具有联合效应但没有边际效应的变量的方法。大量仿真和实际数据应用表明了所提方法的有效性和优势。

MSC公司:

62小时15分 多元分析中的假设检验
62G10型 非参数假设检验
62时20分 关联度量(相关性、典型相关性等)
62H30型 分类和歧视;聚类分析(统计方面)
62-08 统计问题的计算方法

软件:

能量
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bera,A.K.、Ghosh,A.和Xiao,Z.J.(2013)。分布均匀性的平滑测试。计量经济学理论29,419-446·Zbl 1271.62093号
[2] Biswas,M.和Ghosh,A.K.(2014年)。适用于高维数据的非参数双样本检验。多元分析杂志123,160-171·Zbl 1278.62059号
[3] Byrne,E.M.、Carrillo-Roa,T.、Henders,A.K.、Bowdler,L.、McRae,A.F.、Heath,A.C.等人(2013年)。患有严重抑郁障碍的单卵双胞胎在甲基化方面的差异大于未患抑郁症的同卵双胞胎。转化精神病学3,e269。
[4] Chen,H.和Friedman,J.(2017)。一种新的基于图形的多变量和对象数据双样本测试。《美国统计协会杂志》112,397-409。
[5] Cui,H.、Li,R.和Zhong,W.(2015)。超高维判别分析的无模型特征筛选。美国统计协会杂志110,630-641·Zbl 1373.62305号
[6] Darling,D.A.(1957年)。Kolmogorov Smirnov,Cramér-von Mises测试。数学统计年鉴28823-838·Zbl 0082.13602号
[7] Eubank,R.L.和LaRiccia,V.N.(1992年)。克拉梅·冯·米塞斯(Cramér-von Mises)和非参数函数估计技术的渐近比较,用于测试图像质量。统计年鉴2071-2086·Zbl 0769.62033号
[8] Fan,J.(1996)。基于小波阈值和内曼截断的显著性检验。《美国统计协会杂志》91,674-688·兹比尔0869.62032
[9] Fan,J.和Fan,Y.(2008)。使用特征退火独立性规则进行高维分类。《统计年鉴》36,2605-2637·Zbl 1360.62327号
[10] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。《美国统计协会杂志》96,1348-1360·兹比尔1073.62547
[11] Fan,J.和Lv,J.(2008年)。确保超高维特征空间的独立筛选。英国皇家统计学会杂志:B辑(统计方法)70849-911·Zbl 1411.62187号
[12] Fan,J.和Song,R.(2010年)。具有NP-维数的广义线性模型中的确定独立筛选。《统计年鉴》70,3567-3604·Zbl 1206.68157号
[13] Fan,J.、Feng,Y.和Song,R.(2012)。稀疏超高维可加模型中的非参数独立筛选。《美国统计协会杂志》106,544-557·Zbl 1232.62064号
[14] Friedman,J.和Rafsky,L.(1979年)。Wald-Wolfowitz和Smirnov双样本检验的多元推广。统计年鉴7697-717·Zbl 0423.62034号
[15] Hall,P.和Miller,H.(2012)。在高维问题中使用广义相关性来影响变量选择。计算与图形统计杂志18,533-550。
[16] Hall,P.和Tajvidi,N.(2002年)。高维环境中分布均匀性的置换测试。生物特征89,359-374·Zbl 1017.62040号
[17] Henze,N.(1988)。基于最近邻型重合数的多元双样本检验。《统计年鉴》16,772-783·Zbl 0645.62062号
[18] Huang,Q.和Zhu,Y.(2016)通过最大相关性进行无模型确定筛选。多元分析杂志148,89-106·Zbl 1383.62112号
[19] Kim,I.、Balakrishnan,S.和Wasserman,L.(2020)《通过投影预测进行稳健多元非参数检验》。统计年鉴。arXiv预打印arXiv:1803.00715。出现·Zbl 1460.62087号
[20] Li,G.,Peng,H.,Zhang,J.和Zhu,L.(2012a)。基于稳健秩相关的筛选。《统计年鉴》第40卷,1846-1877年·兹比尔1257.62067
[21] Li,R.,Zhong,W.和Zhu,L.(2012年b)。通过距离相关学习进行特征筛选。《美国统计协会杂志》107,1129-1139·Zbl 1443.62184号
[22] Ludwig,B.和Carsten,F.(2004年)。关于一个新的多元双样本检验。多变量分析杂志88,190-206·Zbl 1035.62052号
[23] Ludwig,B.和Carsten,F.(2010年)。刚性运动不变性双样本测试。统计Sinica 20,1333-1361·Zbl 1200.62045号
[24] Mai,Q.和Zou,H.(2013)。用于高维二进制分类中的变量筛选的Kolmogorov滤波器。生物特征1,229-234·Zbl 1452.62456号
[25] Neyman,J.(1937年)。平滑测试配合度。《斯堪的纳维亚精算杂志》,149-199年·Zbl 0018.03403号
[26] Olsson,A.、Volkov,P.、Bacos,K.、Dayeh,T.、Hall,E.、Nilsson,E.A.等人(2014年)。基因和表观遗传变异之间的全基因组关联影响人类胰岛中mRNA表达和胰岛素分泌。公共科学图书馆遗传学10,e1004735。
[27] Rosenbaum,P.(2005)。基于邻接性比较两个多元分布的精确无分布检验。英国皇家统计学会杂志:B辑(统计方法学)67,515-530·Zbl 1095.62053号
[28] Schilling,M.(1986年)。基于最近邻的多变量双样本检验。《美国统计协会杂志》81,799-806·Zbl 0612.62081号
[29] Székely,G.和Rizzo,M.(2013)。能量统计:一类基于距离的统计。《统计规划与推断杂志》143,1249-1272·Zbl 1278.62072号
[30] Thas,O.(2010)。比较分布。纽约施普林格-弗拉格·Zbl 1234.62014年
[31] Weiss,L.(1960)。多元分布的两个样本检验。《数理统计年鉴》31,159-164·Zbl 0092.36401号
[32] Zhou,W.,Zheng,C.和Zhang,Z(2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。