×

多维数据一致性检验的实证研究。 (英语) Zbl 1468.62159号

摘要:高维数据分析中的一个重要问题是确定样本点是否在某些紧支撑上均匀分布(即表现出完全的空间随机性),或者更确切地说,是否具有一些基础结构(例如,簇或其他非均匀性)。我们提出了两种新的一致性图形理论测试,利用最小生成树和蛇(连接每个数据点的短的非分支非循环路径)。我们将基于这些图的统计数据与文献中关于各种支持下非均匀替代方案数组的其他统计数据进行了比较。对于超立方体中的数据,我们发现当数据显示出规律性时(例如,抑制过程的结果),基于最小生成树的测试统计量具有更高的功效。对于任意形状或未知的支撑,我们使用沿着蛇形路径的线段长度序列的游程统计来测试一致性。snake特别有用,因为计算测试统计数据不需要了解或估计支持度,它可以快速计算任何维度的支持度,并且它显示了存在的各种不均匀性。这些特性使得snake在多元一致性测试中独一无二,因为其他测试只在特定和已知的支持下工作,在高维中存在计算困难,或者具有不一致的I型错误率。

MSC公司:

2008年6月62日 统计问题的计算方法
62H15型 多元分析中的假设检验
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Avram,F。;Bertsimas,D.,《几何概率和独立模型下的最小生成树常数:统一方法》,《应用概率年鉴》,2113-130,(1992)·Zbl 0755.60011号
[2] Baddeley,A。;格雷戈里,P。;马图,J。;斯托伊卡,R。;Stoyan,D.,(《空间点过程建模案例研究》,《统计学讲义》,第185卷,(2006年),纽约施普林格出版社)·Zbl 1084.62501号
[3] Baddeley,A。;莫耶德,R。;霍华德,C。;Boyde,A.,《用复制分析三维点模式》,《皇家统计学会杂志》。C辑(应用统计学),42,4,641-668,(1993)·Zbl 0825.62476号
[4] Baddeley,A。;Turner,R.,空间点模式的实际最大伪似然,澳大利亚和新西兰统计杂志,42,283-322,(2000)·Zbl 0981.62078号
[5] 巴伯,C。;Dobkin,D。;Huhdanpaa,H.,凸壳的快速壳算法,ACM数学软件汇刊,22,4,469-483,(1996)·Zbl 0884.65145号
[6] 巴罗,J。;巴夫萨尔,S。;Sonoda,D.,最小生成树、细丝和星系团,英国皇家天文学会,月报,216,17-35,(1985)
[7] Beardwood,J。;霍尔顿,J。;Hammersley,J.,《通过多个点的最短路径》,《剑桥哲学学会学报》,55,299-327,(1959)·Zbl 0118.35601号
[8] 贝伦德罗,J。;Cuevas,A。;Pateiro Lopez,B.,未知支持情况下的多变量一致性测试,统计学和计算,2259-271,(2012)·Zbl 1322.62142号
[9] 贝伦德罗,J。;Cuevas,A。;Pateiro-Lopez,B.,平面未知支承情况下的均匀性测试,加拿大统计杂志,40,378-395,(2012)·Zbl 1348.62157号
[10] 贝伦德罗,J。;Cuevas,A。;Vasquez,F.,《检验多元一致性:距离边界法》,《加拿大统计杂志》,34693-707,(2006)·Zbl 1115.62046号
[11] Cuevas,A。;Rodriguez-Casal,A.,关于边界估计,应用概率进展,36,2340-354,(2004)·Zbl 1045.62019号
[12] Diggle,P.,《空间点模式的统计分析》,(2003年),阿诺德/霍德标题组伦敦·Zbl 1021.62076号
[13] Friedman,J.,探索性投影追求,《美国统计协会杂志》,397,249-266,(1987)·Zbl 0664.62060号
[14] 弗里德曼,J。;Tukey,J.,探索性数据分析的投影寻踪算法,IEEE计算机学报,C23,9,881-890,(1974)·Zbl 0284.68079号
[15] Ho,L。;Chiu,S.,空间点模式的均匀性测试,计算与图形统计杂志,16,378-398,(2007)
[16] 霍夫曼,R。;Jain,A.,基于最小生成树的随机性测试,模式识别字母,175-180,(1983)
[17] 伊利安·J。;Penttinen,A。;Stoyan,H。;Stoyan,D.,空间点模式的统计分析和建模,(2008),Wiley Chichester·Zbl 1197.62135号
[18] 贾法里·马马加尼,M。;安德森,M。;Krieger,P.,使用ripley’s(k)-功能对神经元进行三维空间点模式分析,神经信息学前沿,4,9,1-10,(2010)
[19] Jain,A.,Xu,X.,Ho,T.,Xiao,F.,2002年。使用最小生成树进行一致性测试。摘自:《第16届模式识别国际会议论文集》,第4卷,第281-284页。
[20] 约翰逊,D。;McGeoch,L.,《旅行推销员问题:局部优化的案例研究》,(Aarts,E.;Lenstra,J.,《组合优化中的局部搜索》(1997),John Wiley and Sons Ltd.),215-310·Zbl 0947.90612号
[21] Justel,A。;佩纳,D。;Zamar,R.,多元kolmogorov–smirnov拟合优度检验,统计学与概率快报,35,35251-259,(1997)·Zbl 0883.62054号
[22] Lee,S.,欧氏最小生成树的中心极限定理ii,应用概率的进展,31969-984,(1999)·Zbl 0949.60027号
[23] 莱维纳,E。;Bickel,P.,内在维度的最大似然估计,(神经信息处理系统进展,第17卷,(2005),麻省理工出版社),777-784
[24] 梁振杰。;方,K.-T。;H、 F、。;Li,R.,测试多元均匀性及其应用,计算数学,70337-355,(2001)·Zbl 0958.65016号
[25] Mardia,K。;Jupp,P.,方向统计,(2000),威利·奇切斯特·兹比尔0935.62065
[26] Marsaglia,G.,《随机数主要落在平面上》,《美国国家科学院院刊》,61,1,25-28,(1968)·Zbl 0172.21002号
[27] Petrie,A.,2007年。生成树作为数据分析的工具。伦斯勒理工学院博士论文。
[28] Petrie,A。;Willemain,T.,《可视化和聚类多元数据的蛇》,统计分析和数据挖掘,3,4,236-252,(2010)·Zbl 07260246号
[29] Ripley,B.,《空间统计》(2004年),Wiley-Interscience·Zbl 0558.62083号
[30] 史密斯,S。;Jain,A.,多维数据一致性测试,IEEE模式分析和机器智能汇刊,673-81,(1984)
[31] Steele,J.,带幂加权边的欧几里德最小生成树的增长率,《概率年鉴》,16,1767-1787,(1988)·Zbl 0655.60023号
[32] 谢克利,G。;Rizzo,M.,《高维均匀分布测试》,Interstat,5,(2004),URLhttp://interstat.statjournals.net/YEAR/2004/abstracts/0411005.php
[33] Tenreiro,C.,《关于单变量和多变量均匀性的固定带宽bickel–rosenblatt检验的有限样本行为》,《统计模拟与计算中的通信》,36,827-846,(2007)·Zbl 1126.62036号
[34] Theodoridis,Y.,Stefanakis,E.,Sellis,T.,1998年。空间数据库中联接查询的成本模型。摘自:IEEE ICDE会议记录。第476-483页。
[35] 威根,T。;Moloney,K.,《生态学中点模式分析的环、圈和零模型》,OIKOS,104,2,209-229,(2004)
[36] Zimmerman,D.,《空间随机性的双变量cramer-von Mises型检验》,应用统计学,42,1,43-54,(1993)·兹比尔0825.62466
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。