×

基于极值理论和应用的异常值检测。 (英语) Zbl 07748392号

摘要:极值观察值是否为离群值在很大程度上取决于潜在分布的相应尾部行为。我们开发了一种基于极值数学理论的自动数据驱动方法,以识别偏离中间和中心特征的观测值。该算法是文献中针对重尾Pareto型分布的特定情况提出的方法的扩展,适用于所有最大吸引域。我们提出了一些应用程序,如尾部调整箱线图,它可以更准确地表示可能的异常值,以及通过分析相关随机变量(如局部异常值因子)来识别多元环境中的异常值。几个示例和仿真结果说明了该算法的有限样本行为及其应用。
{©2023作者。斯堪的纳维亚统计杂志由John Wiley&Sons Ltd代表斯堪的纳维亚统计杂志基金会董事会出版。}

MSC公司:

62至XX 统计学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Beirlant,J.、Dierckx,G.和Guillou,A.(2005年)。在广义分位数图上估计极值指数和回归。伯努利,11(6),949-970·Zbl 1123.62034号
[2] Beirlant,J.、Goegebeur,Y.、Segers,Y.和Teugels,J.(2004)。极值统计:理论与应用()。威利·Zbl 1070.62036号
[3] Bernard,E.、Naveau,P.、Vrac,M.和Mestre,O.(2013)。最大值聚类:法国暴雨的空间依赖性。《气候杂志》,26(20),7929-7937。
[4] Bhattacharya,S.、Kallitsis,M.和Stoev,S.(2019年)。Hill估计值的数据自适应调整和重尾数据极值中异常值的检测。《统计电子期刊》,13(1),1872-1925·Zbl 1418.62215号
[5] Breunig,M.、Kriegel,H.、Ng,R.和Sander,J.(2000)。LOF:识别基于密度的局部异常值[会议演示]。2000年ACM SIGMOD国际数据管理会议记录,德克萨斯州达拉斯,93-104。
[6] Campello,R.、Moulavi,D.、Zimek,A.和Sander,J.(2015)。数据聚类、可视化和离群检测的分层密度估计。ACM数据知识发现事务,10(1),1-51。
[7] deHaan,L.和Ferreira,A.(2006年)。极值理论:导论()。斯普林格·Zbl 1101.62002号
[8] Dua,D.和Graff,C.(2019年)。UCI机器学习库。加利福尼亚大学信息与计算机学院iencehttp://archive.ics.uci.edu/ml
[9] Dupuis,D.和Field,C.(1998年)。极值的稳健估计。加拿大统计杂志,26199-215·Zbl 0915.62017号
[10] Ester,M.、Kriegel,H.、Sander,J.和Xu,X.(1996)。一种基于密度的算法,用于在带有噪声的大型空间数据库中发现集群[会议演示]。第二届知识发现和数据挖掘国际会议论文集,226-231。
[11] Goegebeur,Y.、Planchon,V.、Beirlant,J.和Oger,R.(2005)。使用极值方法对土壤化学数据进行质量评估。《应用科学杂志》,5,1092-1102。
[12] Hahsler,M.、Piekenbrock,M.和Doran,D.(2019年)。DBSCAN:使用R.Journal of Statistical Software快速基于密度的聚类,91(1),1-30。https://doi.org/10.18637/jss.v091.i01 ·doi:10.18637/jss.v091.i01
[13] Hill,B.M.(1975)。推断分布尾部的简单通用方法。统计年鉴,3,1163-1174·Zbl 0323.62033号
[14] Hubert,M.和Vandervieren,E.(2008)。倾斜分布的调整箱线图。计算统计与数据分析,52(12),5186-5201·Zbl 1452.62074号
[15] Jin,W.、Tung,A.K.H.、Han,J.和Wang,W.(2006)。使用对称邻域关系对离群值进行排序[会议演示]。第十届亚太知识发现和数据挖掘进展会议记录,577-593。
[16] Juarez,S.和Schucany,W.(2004)。广义Pareto分布的鲁棒有效估计。极端,7237-251·Zbl 1091.62017年
[17] Kriegel,H.、Kröger,P.、Schubert,E.和Zimek,A.(2009年)。LoOP:局部异常概率[会议演示]。第18届ACM信息和知识管理会议记录,1649-1652年。
[18] Liu,F.T.,Ting,K.M.,&Zhou,Z.(2008)。隔离林[会议演示]。2008年IEEE第八届数据挖掘国际会议论文集,413-422。
[19] Madsen,J.H.(2018)。DDoutlier:基于距离和密度的离群值检测。https://CRAN.R‐project.org/package=DDoutlier
[20] Peng,L.和Welsh,A.(2001)。广义Pareto分布的稳健估计。极端,453-65·Zbl 1008.62024号
[21] Quinlan,J.(1993)。结合基于实例和基于模型的学习[会议演示]。第十届国际机器学习会议记录,236-243。
[22] Ramaswamy,S.、Rastogi,R.和Shim,K.(2000年)。从大型数据集中挖掘离群值的高效算法[会议演示]。2000年ACM SIGMOD国际数据管理会议记录,427-438。
[23] Satopaa,V.、Albrecht,J.、Irwin,D.和Raghavan,B.(2011年)。大海捞针:在系统行为中检测拐点[会议演示]。2011年第31届分布式计算系统国际会议论文集,166-171。
[24] Steinbuss,G.和Böhm,K.(2021)。用实际合成数据对无监督离群值检测进行基准测试。ACM数据知识发现事务,15(4),1-20。
[25] Tam,E.(2022)。Kneedle:检测图形中膝盖的Kneedler算法。https://github.com/etam4260/kneedle
[26] Tang,J.、Chen,Z.、Fu,A.W.和Cheung,D.W.(2002)。提高低密度模式异常值检测的有效性[会议演示文稿]。第六届亚太知识发现和数据挖掘进展会议记录,535-548·Zbl 1048.68925号
[27] Tukey,J.W.(1977年)。探索性数据分析。艾迪生-卫斯理·Zbl 0409.62003号
[28] Vandwalle,B.、Beirlant,J.、Christmann,A.和Hubert,M.(2007年)。Pareto型分布尾部指数的稳健估计。计算统计与数据分析,51(12),6252-6268·兹比尔1445.62102
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。