×

高维数据中的异常检测。 (英语) Zbl 07499872号

摘要:HDoutliers算法是一种强大的无监督算法,用于检测高维数据中的异常,具有强大的理论基础。然而,在某些情况下,它受到一些限制,严重阻碍了其性能水平。在本文中,我们提出了一种解决这些限制的算法。我们将异常定义为一种观察,其中具有最大间隙的(k)-最近邻距离与我们预期的距离显著不同,如果具有最大间隙(k)的最近邻的分布在Gumbel分布的最大吸引域中。采用基于极值理论的方法计算异常阈值。使用各种合成数据集和实际数据集,我们证明了我们的算法的广泛适用性和实用性,我们称之为杂散算法。我们还演示了该算法如何使用特征工程来帮助检测其他数据结构中存在的异常。我们展示了在精度和计算时间方面,杂散算法优于HD离群值算法的情况。该框架在开源R包中实现迷路。可在线获取本文的补充材料。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿布扎伊德,A。;Hussin,A。;Mohamed,I.,“使用平均圆误差统计法检测简单循环回归模型中的异常值,统计计算与模拟杂志,83,269-277(2013)·Zbl 1349.62180号 ·网址:10.1080/00949655.2011.602679
[2] Aggarwal,C.C.,《离群值分析》(2017),查姆:斯普林格,查姆·Zbl 1353.68004号
[3] 本·加尔,I。;麦蒙,O。;Rokack,L.,《数据挖掘和知识发现手册,离群点检测》,131-146(2005),纽约:Springer,纽约·Zbl 1087.68029号
[4] Beygelzimer,A.、Kakadet,S.、Langford,J.、Arya,S.、Mount,D.和Li,S.(2019),“FNN:快速最近邻搜索算法和应用程序”,R软件包1.1.3版,可在https://CRAN.R-project.org/package=FNN。
[5] Breunig,M.M。;Kriegel,H.-P。;Ng,R.T。;Sander,J.,“LOF:识别基于密度的局部异常值,ACM Sigmod记录,2993-104(2000)·doi:10.1145/335191.335388
[6] 伯里奇,P。;Taylor,A.M.R.,“通过极值理论进行加性异常值检测,时间序列分析杂志,27685-701(2006)·Zbl 1112.62086号 ·文件编号:10.1111/j.1467-9892.2006.00483.x
[7] Campos,G.O。;Zimek,A。;桑德,J。;坎佩罗,R.J。;Micenková,B。;舒伯特,E。;同意,I。;Houle,M.E.,“关于非监督异常检测的评估:度量、数据集和实证研究,数据挖掘和知识发现,30891-927(2016)·doi:10.1007/s10618-015-0444-8
[8] V·钱多拉。;班纳吉,A。;Kumar,V.,“异常检测:一项调查,ACM计算调查,41,1-58(2009)·doi:10.1145/1541880.1541882
[9] 墨尔本市(2019年)
[10] 克利夫顿,D.A。;Hugueny,S。;Tarassenko,L.,“利用多元极值统计进行新颖性检测,信号处理系统杂志,65,371-389(2011)·doi:10.1007/s11265-010-0513-6
[11] Dang,T.N。;Wilkinson,L.,“将地貌转化为隐藏特征,IEEE可视化和计算机图形学报,201624-1632(2014)·doi:10.1109/TVCG.2014.2346572
[12] Elseberg,J。;马格纳特,S。;Siegwart,R。;Nüchter,A.,“最近邻搜索策略和有效形状注册实现的比较”,《机器人软件工程杂志》,3,2-12(2012)
[13] Embrechts,P。;Klüppelberg,C。;Mikosch,T.,《极端事件建模:保险和金融》(2013),《随机建模与应用概率:随机建模与应用概率》,柏林,海德堡:施普林格,《随机建模与应用概率:随机建模与应用概率》,柏林,海德堡
[14] Fraley,C.(2018),“HDoutliers:Leland Wilkinson检测多维异常值的算法”,R软件包1.0版,可在https://CRAN.R-project.org/package=HDoutliers。
[15] Galambos,J。;Lechner,J.等人。;Simiu,E.(2013)
[16] 高杰。;胡,W。;张志明。;张,X。;Wu,O.,RKOF:基于稳健内核的局部异常检测,亚太知识发现和数据挖掘会议,270-283(2011),Springer
[17] 戈德斯坦,M。;Uchida,S.,“多元数据非监督异常检测算法的比较评估,PLOS ONE,11,e0152173(2016)·doi:10.1371/journal.pone.0152173
[18] Grubbs,F.E.,“检测样本中异常观测值的程序,技术计量学,11,1-21(1969)·doi:10.1080/00401706.1969.10490657
[19] 古普塔,M。;高杰。;阿加瓦尔,C.C。;Han,J.,“时间数据的异常检测:一项调查”,IEEE知识与数据工程汇刊,262250-2267(2014)·doi:10.1109/TKDE.2013.184
[20] Hadi,A.S.,“识别多元数据中的多个异常值”,《皇家统计学会期刊》,B辑,54,761-771(1992)·doi:10.1111/j.2517-6161.1992.tb01449.x
[21] Hartigan,J.A。;Hartigan,J.,《聚类算法》,209(1975),纽约:威利,纽约·Zbl 0321.62069号
[22] 霍奇,V。;Austin,J.,“异常检测方法的调查”,《人工智能评论》,22,85-126(2004)·Zbl 1101.68023号 ·doi:10.1023/B:AIRE.000045502.10941.a9
[23] 霍夫曼,H。;Wickham,H。;Kafadar,K.,“价值图:大数据的箱线图”,《计算与图形统计杂志》,26,469-477(2017)·doi:10.1080/10618600.2017.1305277
[24] Hyndman,R.J.,“计算和绘制最高密度区域,美国统计学家,50,120-126(1996)
[25] Hyndman,R.J。;王,E。;Laptev,N.,《大尺度异常时间序列检测》,2015年IEEE国际数据挖掘研讨会(ICDMW)(2015)·doi:10.1109/ICDMW.2015.104
[26] Jin,W。;Tung,A.K。;韩,J。;Wang,W.,“使用对称邻域关系对异常值进行排名”,亚太知识发现和数据挖掘会议,577-593(2006),Springer
[27] Kandanaarachi,S。;穆尼奥斯,M.A。;Hyndman,R.J。;Smith-Miles,K.(2018年)
[28] Kang,Y。;Hyndman,R.J。;Smith-Miles,K.,“使用时间序列实例空间可视化预测算法性能,国际预测杂志,33,345-358(2017)·doi:10.1016/j.ij预测2016.09.004
[29] Kanungo,T。;芒特,D.M。;内塔尼亚胡,新南威尔士州。;Piatko,C.D。;西尔弗曼,R。;Wu,A.Y.,“一种有效的k-Means聚类算法:分析与实现,IEEE模式分析与机器智能汇刊,24881-892(2002)
[30] 刘,S。;Maljovec,D。;王,B。;布雷默,P.-T。;Pascucci,V.,“可视化高维数据:过去十年的进展”,IEEE可视化与计算机图形学汇刊,231249-1268(2016)·doi:10.1109/TVCG.2016.2640960
[31] Madsen,J.H.(2018)
[32] 诺沃特尼,M。;Hauser,H.,“平行坐标中的离群-保留焦点+上下文可视化,IEEE可视化和计算机图形汇刊,12893-900(2006)·doi:10.1109/TVCG.2006.170
[33] 核心团队,R.,R:统计计算语言与环境(2019),奥地利维也纳:R统计计算基金会,奥地利维也纳
[34] Schwarz,K.T.,《地下序列泄漏二氧化碳的风扩散以及使用极值理论在涡流协方差数据中检测异常值》(2008),密歇根州安阿伯:ProQuest
[35] 北沙希德。;Naqvi,I.H。;Qaisar,S.B.,“恶劣环境下无线传感器网络异常检测技术的特征和分类:调查,人工智能评论,43,193-228(2015)·doi:10.1007/s10462-012-9370-y
[36] Smith-Miles,K。;巴塔,D。;Wreford,B。;Lewis,R.,“跨实例空间的算法性能客观度量,计算机与运筹学,45,12-24(2014)·Zbl 1348.90646号
[37] Talagala,P.D。;Hyndman,R.J。;Leigh,C。;Mengersen,K。;Smith-Miles,K.,“从现场传感器检测水质数据中技术异常值的基于特征的程序,水资源研究,55,8547-8568(2019)·doi:10.1029/2019WR024906
[38] Talagala,P.D.、Hyndman,R.J.和Smith-Miles,K.(2019),“杂散:高维和时间数据中的异常检测”,R包0.1.1版。
[39] Talagala,P.D。;Hyndman,R.J。;Smith-Miles,K。;Kandanaarachi,S。;Muñoz,M.A.,“流式非平稳时间数据中的异常检测,计算与图形统计杂志,29,13-27(2020)·Zbl 07499268号 ·doi:10.1080/10618600.2019.1617160
[40] Tang,J。;陈,Z。;Fu,A.W.-C。;Cheung,D.W.,《提高低密度模式异常检测的有效性》,亚太知识发现和数据挖掘会议,535-548(2002),Springer·Zbl 1048.68925号
[41] Unwin,A.,“多元异常值和O3图,计算与图形统计杂志,28635-643(2019)·Zbl 07499082号 ·doi:10.1080/10618600.2019.1575226
[42] Wang,E.(2018)
[43] Weissman,I.,“基于k个最大观测值的参数和大分位数估计”,《美国统计协会杂志》,73812-815(1978)·Zbl 0397.62034号
[44] Wickham,H.,ggplot2:数据分析的优雅图形(2016),纽约:Springer-Verlag,纽约·Zbl 1397.62006年
[45] Wickham,H。;弗朗索瓦,R。;亨利。;穆勒,K.(2019)
[46] Wickham,H。;亨利·L(2019)
[47] Wickham,H。;Hofmann,H.(2016)
[48] Wilkinson,L.,“通过分布式聚合可视化大数据孤立点,IEEE可视化和计算机图形汇刊,24,256-266(2017)
[49] 威尔金森。;阿南德,A。;Grossman,R.,IEEE信息可视化研讨会,2005年。INFOVIS 2005,图论统计,157-164(2005),IEEE
[50] Williams,K.T.,基于局部参数密度的孤立点检测和集成学习及其在恶意软件检测中的应用(2016),德克萨斯大学圣安东尼奥分校
[51] 张瑞(2017)
[52] 张,S。;李,X。;宗,M。;朱,X。;Wang,R.,“不同相邻数的有效kNN分类,IEEE神经网络和学习系统汇刊,291774-1785(2017)·doi:10.1109/TNNLS.2017.2673241
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。