×

用于检测高维异常值的非参数测试。 (英文) Zbl 1493.62223号

摘要:基于每个观测值与其他观测值的总相似度的有序值,我们提出了一种检测高维异常值的非参数方法。我们提供了基于百分位bootstrap获得测试统计分布的算法,并提供了一个离群值可视化图,作为检测数据集中离群值的非参数图形工具。我们在四种分布下,使用实际数据集,将点间距离群值检验(IDOT)与五种竞争方法进行了比较。IDOT在平均检测到的离群值数量和正确识别概率方面显示了离群值检测的最佳性能。

MSC公司:

62G10型 非参数假设检验
62E15型 统计学中的精确分布理论
62H10型 统计的多元分布
62H15型 多元分析中的假设检验
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿马多,C。;Bianco,A.M。;Boente,G。;Pires,A.M.,《稳健引导:稳健估计的替代方法》,REVSTAT,12,2,169-197(2014)·Zbl 1314.62090号
[2] Angiulli,F.,《关于内在高维空间的行为:距离、直接和反向最近邻以及Hubness》,《机器学习研究杂志》,18,1-60(2018)·Zbl 1471.62368号
[3] Azzalini,A.(2020),“Skew-Normal和相关分布,如Skew-t”,包“sn”,http:Azzalini.stat.unipd.itSN。
[4] 阿扎里尼,A。;Valle,A.D.,《多元偏正态分布》,《生物统计学》,第83、4、715-726页(1996年)·Zbl 0885.62062号
[5] 巴内特,V。;Lewis,T.,《统计数据中的异常值》(1994),伦敦:John Wiley&Sons出版社,伦敦·Zbl 0801.62001
[6] Beath,K.J.,Meta分析中异常值检测和稳健性的有限混合方法,研究综合方法,5,4,285-293(2014)
[7] Bernoulli,D.(1777),重印于《生物统计学》(1961),48,1-18。
[8] Bhandary,M.,《多元异常值检测试验的稳健性》,统计学,41,5,377-384(2007)·Zbl 1126.62044号
[9] 比斯瓦斯,M。;Ghosh,A.K.,《适用于高维数据的非参数双样本检验》,《多元分析杂志》,123,160-171(2014)·Zbl 1278.62059号
[10] Caroni,C。;普雷斯科特,P.,《威尔克斯多元离群检验的序贯应用》,《皇家统计学会杂志》,C辑,41,2,355-364(1992)·Zbl 0825.62663号
[11] 埃夫隆,B。;Tibshirani,R.J.,Bootstrap简介(1993),华盛顿特区:Chapman和Hall/CRC,华盛顿特区·Zbl 0835.62038号
[12] Frees,E.W.,《估计观测函数密度》,美国统计协会杂志,89,426,517-525(1994)·Zbl 0798.62051号
[13] 郭,L。;Modarres,R.(2019年)
[14] Gao,J.,Hu,W.,Zhang,Z.,Zang,X.,and Wu,O.(2011),“RKOF:基于稳健内核的局部异常检测”,《知识发现和数据挖掘的进展》,PAKDD 2011,编辑J.Z.Huang,L.Cao和J.Srivastava,《计算机科学讲义》,第6635卷,柏林:施普林格出版社。
[15] Hadi,A.S.,《识别多元数据中的多个异常值》,英国皇家统计学会杂志。系列B,54,3,761-771(1992)
[16] 哈迪,A.S。;伊蒙·R·A·H·M。;Werner,M.,《异常值的检测》,威利跨学科评论:计算统计学,1,1,57-70(2009)
[17] 霍尔,P。;Marron,J.S。;Neeman,A.,《高维低样本数据的几何表示》,《皇家统计学会杂志》,B辑,67427-444(2005)·兹比尔1069.62097
[18] Hautamaki,V.、Karkkainen,I.和Franti,P.(2004),“使用k-最近邻图进行孤立点检测”,在IAPR模式识别国际会议(ICPR'04)上,第3卷,英国剑桥,第430-433页。
[19] 霍金斯,D.,《异常值的识别》(1980),伦敦:查普曼和霍尔出版社,伦敦·Zbl 0438.62022号
[20] 胡,J。;Bai,Z.D.,《高维均值向量和协方差矩阵20年朴素显著性检验述评》,《科学中国数学》,59,1,2281-2300(2016)·Zbl 1360.62290号
[21] 休伯特,M。;Van der Veeken,S.,《偏斜数据的离群检测》,化学计量学杂志,特刊:Conferentia Chemmetrica,22,3-4,235-246(2007)
[22] Krzanowski,W.J.,《多元分析原理》(1988),牛津:牛津大学出版社,牛津·Zbl 0678.62001号
[23] Jin,W。;Tung,A.K。;Han,J.(2001)
[24] 约翰逊·R·A。;Wichern,D.W.(2002)
[25] Li,J.,高维数据点间距的渐近正态性及其在双样本问题中的应用,生物特征,105,31,529-546(2018)·Zbl 1499.62182号
[26] Lopez Pintado,S.和Torrente,A.(2020),R Package“depthTools”,https://cran.r-project.org/web/packages/depthTools/index.html。
[27] 马哈拉诺比斯,P.C.,《统计学中的广义距离》,印度国家科学院学报,249-55(1936)·Zbl 0015.03302号
[28] Marozzi,M.,《高维低样本病例对照研究的多元多距离检验》,《医学统计学》,34,9,1511-1526(2015)
[29] Marozzi,M.,基于点间距的多元检验及其在磁共振成像中的应用,医学研究中的统计方法,25,2593-2610(2016)
[30] Marozzi,M。;穆克吉,A。;Kalina,J.,《高维比较研究的点间距检验》,应用统计学杂志,47,4,653-665(2020)·Zbl 1521.62401号
[31] Martin,医学硕士。;Roberts,S.,《最小二乘回归中异常检测的Bootstrap方法评估》,应用统计学杂志,33,7,703-720(2006)·Zbl 1118.62317号
[32] Modarres,R.,《高维分布的图形比较》,《国际统计评论》,88,3,698-714(2020)
[33] Modarres,R.(2021)
[34] 莫达雷斯,R。;Song,Y.,Interpoint Distances:Applications,Properties and Visualization,Applied随机模型在商业和工业中的应用,36,6,1147-1168(2020)
[35] Pal,A.K。;Mondal,P.K。;Ghosh,A.K.,基于高维最近邻分类的点间距差异,模式识别字母,74,1-8(2016)
[36] 佩尼亚,D。;Prieto,F.,《多元异常值检测和稳健协方差矩阵估计》,技术计量学,43,3,286-310(2001)
[37] Penny,K.I.,《使用马氏距离测试单多变量离群值时的适当临界值》,英国皇家统计学会杂志。C辑(应用统计学),45,1,73-81(1996)·Zbl 1076.62528号
[38] Penny,K.I。;Jolliffe,I.T.,临床实验室安全数据的多变量异常值检测方法的比较,英国皇家统计学会杂志:D系列(统计学家),50,4295-307(2001)
[39] Rousseeuw,P.J.(1985),“高崩溃点的多元估计”,《数理统计与应用》,编辑W.Grossmann,G.Pflug,I.Vincze和W.Wertz,卷B.Dordrecht:Reidel Publishing Company,第283-297页·Zbl 0609.62054号
[40] Sarkar,S。;Ghosh,A.K.,《关于高维低样本数据的完美聚类》,IEEE模式分析和机器智能汇刊,42,9,2257-2272(2020)
[41] Song,Y。;Modarres,R.,多元混合模型同质性的点间距检验,国际统计评论,87,3,613-638(2019)·Zbl 07763608号
[42] 辛格,K。;Xie,M.,Bootler-Plot:基于Bootstrap的离群点检测图,Sankhya Series A,65,3,532-559(2003)·Zbl 1193.62075号
[43] Tiwari,V.和Kashikar,A.(2019),R包“异常检测”,https://cran.r-project.org/web/packages/OutlierDetection/OutlierDeection.pdf。
[44] Wilks,S.S.,《多元统计异常值》,Sankhya,25407-426(1963)·Zbl 0128.13401号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。