×

高维数据分布均匀性的图论多样本检验。 (英语) Zbl 1468.62158号

摘要:测试两个或多个独立样本是否来自同一分布是统计学中的一个经典问题。多个多元双样本等式检验基于图,如最小生成树、最近邻和最优非二部完美匹配。这里,样本被合并,测试统计是图中连接具有不同样本身份的点的边数。这些测试通常是无偏的,并且在潜在概率密度估计较差时表现良好。然而,当数据是非常高维的或在多样本情况下,这些测试尚未得到彻底研究。我们介绍了使用正交完美匹配来测试分布的均匀性。对人工数据和实际数据的一组蒙特卡罗模拟表明,正交完美匹配和生成树通常比其他图具有更高的功效,并且与其他非参数测试(如能量测试和三角形测试)相比,在识别样本协方差结构有差异时也更有效。

MSC公司:

62-08 统计学相关问题的计算方法
62H15型 多元分析中的假设检验
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anderson,北卡罗来纳州。;霍尔,P。;Titterington,D.,《使用基于核的密度估计测量两个多元概率密度函数之间差异的双样本检验统计》,J.multivariate Anal。,50,41-54,(1994年)·Zbl 0798.62055号
[2] Bache,K.,Lichman,M.,2014年。UCI机器学习库http://archive.ics.uci.edu/ml。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院。
[3] 巴林豪斯,L。;Franz,C.,《关于一种新的多元双样本检验》,J.multivariate Anal。,88, 190-206, (2004) ·Zbl 1035.62052号
[4] 比克尔,P。;Breiman,L.,最近邻距离函数之和,矩界,极限定理和拟合优度检验,Ann.Probab。,11, 185-214, (1983) ·Zbl 0502.62045号
[5] Borodin,A.,Ostrovsky,R.,Rabani,Y.,1999年。高维最近邻搜索和相关问题的下限。摘自:《理论与计算研讨会论文集》,第312-321页·Zbl 1346.68077号
[6] Daniels,H.E.,《样本排列宇宙中相关性度量之间的关系》,《生物特征》,第33期,第120-135页,(1944年)·Zbl 0063.01034号
[7] 德怀尔,R。;Squire,M.,《使用Voronoi图的多元双样本检验》,技术代表TR-93-21,(1993),北卡罗来纳州立大学罗利分校计算机科学系
[8] 弗里德曼,J。;Rafsky,L.,Wald-wolfowitz和Smirnov两样本检验的多元推广,《统计年鉴》。,7, 697-717, (1979) ·Zbl 0423.62034号
[9] 弗里德曼,J。;拉夫斯基,L.,多元关联和预测的图论度量,《统计年鉴》。,11, 377-391, (1983) ·Zbl 0528.62052号
[10] Galil,Z.,图中最大匹配的高效算法,ACM Compute。调查。,18, 23-38, (1986) ·Zbl 0606.68064号
[11] Gifi,A.,非线性多元分析,(1990),英国威利·奇切斯特·Zbl 0697.62048号
[12] Henze,N.,基于最近邻类型重合次数的多元双样本检验,Ann.Statist。,16, 772-783, (1988) ·Zbl 0645.62062号
[13] 亨泽,N。;Penrose,M.,《多元运行检验》,Ann.Statist。,27, 290-298, (1999) ·兹比尔0944.62057
[14] Hinneburg,A.,Aggarwal,C.,Keim,D.,0000。高维空间中最近的邻居是什么?摘自:《第26届超大数据库国际会议论文集》,第506-515页。
[15] 景,P。;Wang,J.,《使用bootstrap和综合经验过程测试多元分布的相等性》,Comm.Statist。理论方法,35,661-670,(2006)·Zbl 1093.62059号
[16] Justel,A。;佩纳,D。;Zamar,A.,多元Kolmogorov-Smirnov拟合优度检验,统计学。普罗巴伯。莱特。,35, 251-259, (1997) ·Zbl 0883.62054号
[17] Kim,K。;Foutz,R.,《基于经验概率测度的多元双样本问题的检验》,加拿大。J.统计。,15, 41-50, (1987) ·Zbl 0669.62025号
[18] 刘,Z。;Modarres,R.,《高维分布函数相等性的三角检验》,J.Nonparametr。统计,23,605-615,(2011)·Zbl 1228.62055号
[19] 卢,B。;格里维,R。;Xu,X。;Beck,C.,最优非二部匹配及其统计应用,Amer。统计学。,65, 21-30, (2011)
[20] Nettleton,D。;Banerjee,T.,用分类分量测试随机向量分布的相等性,计算。统计师。数据分析。,37, 195-208, (2001) ·Zbl 1077.62519号
[21] Petrie,A.,《生成树作为数据分析工具》(2007),伦斯勒理工学院(Ph.D.diss)
[22] Pham,D。;Mocks,J。;Sroka,L.,双指标线性置换统计的渐近正态性,《Ann.Inst.Statist》。数学。,41, 415-427, (1989) ·Zbl 0693.62021号
[23] Rizzo,M。;Szekey,G.,DISCO分析:方差分析的非参数扩展,Ann.Appl。统计,41034-1055,(2010)·Zbl 1194.62054号
[24] Rosenbaum,P.,《基于邻接性比较两个多元分布的精确无分布检验》,J.R.Stat.Soc.Ser。B统计方法。,67515-530(2005年)·兹比尔1095.62053
[25] Rousson,V.,《关于多元双样本位置-尺度模型的无分布检验》,《多元分析杂志》。,第80页,第43-57页,(2002年)·Zbl 1010.62035号
[26] Schilling,M.,基于最近邻的多元双样本检验,J.Amer。统计师。协会,81,799-806,(1986)·Zbl 0612.62081号
[27] 斯科特·D·W。;Wand,M.P.,多元密度估计的可行性,生物统计学,78,197-205,(1991)
[28] Song,W.,Wu,M.,Jermaine,C.,Ranka,S.,2007年。多维数据的统计变化检测。摘自:第13届ACM SIGKDD国际数据知识发现会议记录,第667-676页。
[29] 弗吉尼亚州斯维特尼克。;Liaw,A。;Tong,C。;卡尔伯森,J。;Sheridan,R。;Feuston,B.,《随机森林:用于分类和QSAR建模的分类和回归工具》,J.Chem。Inf.计算。科学。,43, 1947-1958, (2003)
[30] 谢克利,G。;Rizzo,M.,《高维均匀分布测试》,Interstat,5,(2004)
[31] Zimmerman,D.J.,《空间随机性的双变量cramer-von Mises类型测试》,应用。统计,42,43-54,(1993)·Zbl 0825.62466号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。