×

一些基于聚类的精确无分布样本检验适用于高维、小样本数据。 (英语) Zbl 1493.62349号

摘要:检验(k)((geq 2))多元分布的同质性是统计学中一个具有挑战性的问题,尤其是当数据的维数远大于样本量时。大多数现有测试在这种高维、低样本量(HDLSS)状态下通常表现不佳,其中许多测试根本无法使用。在本文中,我们为此目的提出了一些非参数检验。这些测试在有限样本情况下具有无分布特性。它们基于一种高维聚类算法,对数据进行分区以形成列联表。使用该表的单元格频率,我们构建了测试统计数据。我们可以基于数据的(k)-分区开发测试,或者从数据中估计分区的数量,并基于此构造测试。在适当的正则性条件下,我们证明了这些测试在HDLSS渐近状态下的一致性。我们还考虑了一种多尺度方法,其中对不同数量分区的结果进行了明智的聚合。通过对一些基准数据集的大量仿真研究和分析,说明了所提出的测试方法相对于一些现有方法的优越性。

MSC公司:

62H15型 多元分析中的假设检验
62G10型 非参数假设检验
62H17型 应急表
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahn,J。;李,M.H。;Yoon,Y.J.,使用最大数据堆积距离聚类高维、低样本数据,Statist。Sinica,22,2,443-464(2012)·Zbl 1238.62073号
[2] Bai,Z。;Saranadasa,H.,《高维的影响:通过一个双样本问题的例子》,统计学家。Sinica,6,2,311-329(1996)·Zbl 0848.62030号
[3] 巴林豪斯,L。;Franz,C.,《关于一种新的多元双样本检验》,J.multivariate Anal。,88, 1, 190-206 (2004) ·Zbl 1035.62052号
[4] 巴林豪斯,L。;Franz,C.,《刚性运动不变量双样本测试》,Statist。中国科学院,20121333-1361(2010)·兹比尔1200.62045
[5] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用且强大的多重测试方法》,J.R.Stat.Soc.Ser。B统计方法。,57, 1, 289-300 (1995) ·Zbl 0809.62014号
[6] 比斯瓦斯,M。;Ghosh,A.K.,《适用于高维数据的非参数双样本检验》,《多元分析杂志》。,123, 160-171 (2014) ·Zbl 1278.62059号
[7] 比斯瓦斯,M。;Mukhopadhyay,M。;Ghosh,A.K.,适用于高维数据的无分布双样本运行测试,Biometrika,101,4,913-926(2014)·Zbl 1306.62122号
[8] Chakraborty,A。;Chaudhuri,P.,《基于均值、空间符号和空间等级的高维数据测试》,《统计年鉴》。,45, 2, 771-799 (2017) ·Zbl 1368.62147号
[9] 陈,H。;陈,X。;Su,Y.,多变量和目标数据的加权边数双样本检验,J.Amer。统计师。协会,113,523,1146-1155(2018)·Zbl 1402.62079号
[10] Chen,S.X。;Qin,Y.-L.,高维数据的双样本检验及其在基因检测中的应用,Ann.Statist。,38, 2, 808-835 (2010) ·Zbl 1183.62095号
[11] Dunn,J.C.,《ISODATA过程的模糊关系及其在检测紧密且分离良好的星团中的应用》,J.Cybern。,3,3,32-57(1973年)·Zbl 0291.68033号
[12] 冯·L。;邹,C。;Wang,Z.,双样本定位问题的基于多变量符号的高维检验,J.Amer。统计师。协会,111,514,721-735(2016)
[13] Fisher,R.A.,《关于从列联表中解释(chi^2)和计算(P)》,J.R.Stat.Soc.Ser。B统计方法。,85, 1, 87-94 (1922)
[14] 弗里德曼,J.H。;Rafsky,L.C.,Wald-Wolfowitz和Smirnov两样本检验的多元推广,Ann.Statist。,7, 4, 697-717 (1979) ·Zbl 0423.62034号
[15] Ghosh,A.K。;Biswas,M.,基于区分超平面的无分布高维两样本检验,Test,25,3,525-547(2016)·Zbl 06833261号
[16] Ghosh,A.K。;乔杜里,P。;Murthy,C.A.,《最近邻分类器的可视化和聚合》,IEEE Trans。模式分析。机器。智力。,27, 10, 1592-1602 (2005)
[17] Giraud,C.,《高维统计导论》(2014),CRC出版社
[18] 霍尔,P。;Marron,J.S。;Neeman,A.,《高维低样本数据的几何表示》,J.R.Stat.Soc.Ser。B统计方法。,67,3427-444(2005年)·Zbl 1069.62097号
[19] 霍尔,P。;Tajvidi,N.,高维环境中分布均匀性的置换测试,生物特征,89,2,359-374(2002)·Zbl 1017.62040号
[20] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.H.,《统计学习的要素:数据挖掘、推断和预测》(2009),施普林格科学与商业媒体·Zbl 1273.62005年
[21] Henze,N.,《基于最近邻型重合数的多元双样本检验》,Ann.Statist。,16, 2, 772-783 (1988) ·Zbl 0645.62062号
[22] Huberty,C.J。;Olejnik,S.,应用MANOVA和判别分析(2006),John Wiley&Sons·Zbl 1117.62071号
[23] Jung,S。;Marron,J.S.,《高维、低样本量背景下PCA一致性》,Ann.Statist。,37、6B、4104-4130(2009)·Zbl 1191.62108号
[24] Krzanowski,W.J。;Lai,Y.T.,使用平方和聚类法确定数据集中组数的标准,生物计量学,44,1,23-34(1988)·Zbl 0707.62122号
[25] Lindeberg,T.,《计算机视觉中的尺度空间理论》(2013),Springer Science&Business Media
[26] 刘,Z。;Modarres,R.,《高维分布函数相等性的三角检验》,J.Nonparametr。统计,23,3,605-615(2011)·Zbl 1228.62055号
[27] 梅塔,C.R。;Patel,N.R.,在列联表中执行Fisher精确检验的网络算法,J.Amer。统计师。协会,78,382,427-434(1983)·Zbl 0545.62039号
[28] Modarres,R.,高维分布的图形比较,Int.Stat.Rev.,88,3,698-714(2020)
[29] Mondal,P.K。;比斯瓦斯,M。;Ghosh,A.K.,《基于最近邻的高维双样本检验》,《多元分析》。,141, 168-178 (2015) ·Zbl 1323.62037号
[30] Mukhopadhyay,S。;Wang,K.,高维样本比较问题的非参数方法,生物统计学,107,3,555-572(2020)·Zbl 1451.62065号
[31] Ng,A.Y。;M.I.乔丹。;Weiss,Y.,《关于谱聚类:分析和算法》,(神经信息处理系统进展(2002)),849-856
[32] Oja,H.,《带R的多元非参数方法:基于空间符号和等级的方法》(2010),施普林格科学与商业媒体·Zbl 1269.62036号
[33] Park,J。;Ayyala,D.N.,《大尺寸和小样本中平均向量的检验》,J.Statist。计划。推理,143,5,929-943(2013)·Zbl 1428.62251号
[34] 保罗,B。;德·S·K。;Ghosh,A.K.,HDLSSkST:无分布精确高维低样本量K样本测试(2020),R包版本2.0.0
[35] Puri,M.L。;Sen,P.K.,《多元分析中的非参数方法》(1971),John Wiley&Sons·Zbl 0237.62033号
[36] Rand,W.M.,聚类方法评价的客观标准,J.Amer。统计师。协会,66,336,846-850(1971)
[37] Rosenbaum,P.R.,《基于邻接性比较两个多元分布的精确无分布检验》,J.R.Stat.Soc.Ser。B统计方法。,67, 4, 515-530 (2005) ·Zbl 1095.62053号
[38] Rousseeuw,P.J.,《Silhouettes:聚类分析解释和验证的图形辅助》,J.Comput。申请。数学。,20, 53-65 (1987) ·兹伯利0636.62059
[39] Sarkar,S。;比斯瓦斯,R。;Ghosh,A.K.,《关于高维低样本数据的一些基于图形的双样本测试》,马赫。学习。,109, 2, 279-306 (2020) ·Zbl 1446.62150号
[40] Sarkar,S。;Ghosh,A.K.,《基于点间距平均值的一些高维双样本测试》,Stat,7,1,Article e187 pp.(2018)
[41] Sarkar,S。;Ghosh,A.K.,《关于高维低样本数据的完美聚类》,IEEE Trans。模式分析。机器。智力。,42, 9, 2257-2272 (2020)
[42] Schilling,M.F.,基于最近邻的多元双样本检验,J.Amer。统计师。协会,81,395,799-806(1986)·Zbl 0612.62081号
[43] Sriperumbudur,B.K。;Fukumizu,K。;格雷顿,A。;兰克里特,G.R。;Schölkopf,B.,概率分布RKHS嵌入的核选择和分类,(神经信息处理系统进展,第22卷(2009)),1750-1758
[44] Srivastava,M.S。;Katayama,S。;Kano,Y.,《高维数据的双样本检验》,《多元分析杂志》。,114, 349-358 (2013) ·Zbl 1255.62165号
[45] 糖,C.A。;James,G.M.,《寻找数据集中的聚类数量:一种信息论方法》,J.Amer。统计师。协会,98,463,750-763(2003)·Zbl 1046.62064号
[46] 谢凯利,G.J。;Rizzo,M.L.,高维等分布测试,InterStat,5,16.10,1249-1272(2004)
[47] 谢凯利,G.J。;Rizzo,M.L.,《能源统计:一类基于距离的统计》,J.Statist。计划。推理,143,8,1249-1272(2013)·Zbl 1278.62072号
[48] Tibshirani,R。;沃尔瑟,G。;Hastie,T.,《通过间隙统计估算数据集中的簇数》,J.R.Stat.Soc.Ser。B统计方法。,63, 2, 411-423 (2001) ·Zbl 0979.62046号
[49] Tsukada,S.-I.,基于点间距的高维双样本检验,计算。统计人员。,34, 2, 599-615 (2019) ·Zbl 1417.62153号
[50] 嗯,Y。;Randles,R.H.,多元多样本位置问题的非参数检验,统计。Sinica,8,3,801-812(1998)·Zbl 0905.62048号
[51] Wang,J.,通过交叉验证对聚类数量的一致选择,Biometrika,97,4893-904(2010)·Zbl 1204.62104号
[52] Wei,S。;Lee,C。;威彻斯,L。;Marron,J.S.,高维假设检验的方向投影置换,J.Compute。图表。统计人员。,25, 2, 549-569 (2016)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。