×

关于无监督异常值检测的归一化和算法选择。 (英语) Zbl 1464.62281号

总结:本文证明了各种离群值检测方法的性能对数据集的特征和所采用的数据规范化方案都很敏感。为了理解这些依赖关系,我们正式证明了规范化会影响数据集的最近邻结构和密度;因此,影响哪些观测结果可以被视为异常值。然后,我们对归一化方法和检测方法的组合进行实例空间分析。这样的分析可以可视化这些组合的优点和缺点。此外,我们还深入了解了对于给定数据集,哪种方法组合可以获得最佳性能。

MSC公司:

62G32型 极值统计;尾部推断
62H25个 因子分析和主成分;对应分析
60层10 大偏差
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Achtert E、Kriegel H-P、Zimek A(2008)Elki:用于评估子空间聚类算法的软件系统。参加:科学和统计数据库管理国际会议。施普林格,pp 580-585
[2] Angiulli F,Pizzuti C(2002)高维空间中的快速离群点检测。参加:关于数据挖掘和知识发现原则的欧洲会议。施普林格,第15-27页·Zbl 1020.68527号
[3] 巴内特,V。;Lewis,T.,《统计数据中的异常值》(1974年),霍博肯:威利
[4] 贝茨,D。;Mächler,M。;博克尔,B。;Walker,S.,使用lme4拟合线性混合效应模型,J Stat Softw,67,1,1-48(2015)·doi:10.18637/jss.v067.i01
[5] Beygelzimer A、Kakadet S、Langford J、Arya S、Mount D、Li S(2018)FNN:快速最近邻搜索算法和应用。R包版本1.1.2.2。https://CRAN.R-project.org/package=FNN
[6] Billor,N。;哈迪,As;Velleman,Pf,Bacon:块自适应计算效率离群值提名器,《计算统计数据分析》,34,3,279-298(2000)·Zbl 1145.62314号 ·doi:10.1016/S0167-9473(99)00101-2
[7] Bischl B、Mersmann O、Trautmann H、PreußM(2012)基于探索性景观分析和成本敏感学习的算法选择。摘自:第14届遗传和进化计算年会论文集。ACM,第313-320页
[8] Braddil,P。;Giraud-Carrier,C。;苏亚雷斯,C。;Villata,R.,《元学习:数据挖掘应用》(2008),柏林:施普林格出版社,柏林·兹比尔1173.68625
[9] Breheny,P。;Burchett,W.,《使用visreg可视化回归模型》,R J,9,2,56-71(2017)·doi:10.32614/RJ-2017-046
[10] Breunig MM、Kriegel H-P、Ng RT、Sander J(2000)《LOF:识别基于密度的局部异常值》。In:ACM sigmod记录,第29卷。ACM,第93-104页
[11] 坎波斯,围棋;Zimek,A。;桑德,J。;坎佩罗,Rj;Micenková,B。;舒伯特,E。;同意,I。;Houle,Me,《非监督异常值检测的评估:测量、数据集和实证研究》,《Data Min Knowl Discov》,30,4,891-927(2016)·doi:10.1007/s10618-015-0444-8
[12] Crashwell,N.,Precision at N,2127-2128(2009),波士顿:斯普林格,波士顿
[13] Csardi,G。;Nepusz,T.,复杂网络研究的igraph软件包,InterJ complex Syst,1695,5,1-9(2006)
[14] Culberson,Jc,《论盲目搜索的徒劳性:“没有免费午餐”的算法观点》,Evol-Comput,6,2,109-127(1998)·doi:10.1162/evco.1998.6.2.109
[15] Davis J,Goadrich M(2006),《精确复测和ROC曲线之间的关系》。摘自:第23届机器学习国际会议论文集。ACM,第233-240页
[16] Duong T(2018)ks:内核平滑。R软件包版本1.11.3。https://CRAN.R-project.org/package=ks
[17] Emmott A、Das S、Dietterich T、Fern A、Wong W-K(2015)《异常检测问题的荟萃分析》。ArXiv预印ArXiv:1503.01158
[18] Emmott AF,Das S,Dietterich T,Fern A,Wong W-K(2013)根据实际数据系统构建异常检测基准。摘自:ACM SIGKDD异常值检测和描述研讨会论文集。ACM,第16-21页
[19] Goix N(2016)如何评估无监督异常检测算法的质量?arXiv预打印arXiv:1607.01152
[20] 戈德斯坦,M。;Uchida,S.,多元数据无监督异常检测算法的比较评估,PLoS ONE,11,4,e0152173(2016)·doi:10.1371/journal.pone.0152173
[21] Hahsler M、Piekenbrock M(2018)dbscan:基于密度的噪声应用集群(dbscan)和相关算法。R包版本1.1-3。https://CRAN.R-project.org/package=dbscan
[22] Hautamaki V,Karkkainen I,Franti P(2004)使用k-最近邻图进行离群点检测。摘自:第17届模式识别国际会议记录,ICPR 2004,第3卷。IEEE,第430-433页
[23] 霍金斯博士,《离群值的识别》(1980),柏林:施普林格出版社,柏林·Zbl 0438.62022号
[24] Ho,Y-C;Pepyne,Dl,《无冲定理及其含义的简单解释》,《最优化理论应用杂志》,115,3,549-570(2002)·Zbl 1031.91018号 ·doi:10.1023/A:1021251113462
[25] Hothorn,T。;布雷茨,F。;Westfall,P.,《一般参数模型中的同时推断》,Biom J,50,3,346-363(2008)·Zbl 1442.62415号 ·doi:10.1002/bimj.200810425
[26] 休伯特,M。;Van Der Veeken,S.,偏斜数据的离群检测,化学杂志,22,3-4,235-246(2008)·doi:10.1002/cem.1123
[27] 伊格尔,C。;Toussaint,M.,目标函数非均匀分布的非自由凸定理,数学模型算法J,3,4,313-322(2005)·Zbl 1079.90111号 ·doi:10.1007/s10852-005-2586-y
[28] Jin W,Tung AK,Han J,Wang W(2006)使用对称邻域关系对异常值进行排序。参加:亚太知识发现和数据挖掘会议。施普林格,第577-593页
[29] Kandanaarachi S(2018)Outselect:无监督离群值检测的算法选择。R包版本0.0.0.9000。https://github.com/sevvandi/outselect
[30] Kandanaarachchi S,Munoz MA,Smith Miles K(2019)无监督异常值检测的实例空间分析。摘自:2019年5月4日在加拿大阿尔伯塔省卡尔加里市与暹罗国际数据挖掘会议(SDM 2019)合办的第一届数据挖掘和机器学习评估和实验设计研讨会会议记录,第32-41页。http://ceur-ws.org/Vol-2436/article_4.pdf
[31] Kandanaarachi S、Muñoz MA、Smith-Miles K、Hyndman R(2019)离群值检测数据集。https://monash.figuhare.com/articles/Datasets_12338_zip/7705127/4
[32] 康,Y。;Hyndman,R。;Smith-Miles,K.,使用时间序列实例空间可视化预测算法性能,国际J预测,33,2,345-358(2017)·doi:10.1016/j.ij预测2016.09.004
[33] Komsta L,Novomestky F(2015)矩:矩、累积量、偏度、峰度和相关检验。R包版本0.14。https://CRAN.R-project.org/package=瞬间
[34] Kourentzes N(2019)海啸:时间序列探索、建模和预测。R包版本0.9.0。https://CRAN.R-project.org/package=tsutils
[35] Kriegel H-P,Kröger P,Schubert E,Zimek A(2009)LoOP:局部异常概率。摘自:第18届ACM信息和知识管理会议记录。ACM,第1649-1652页
[36] Kriegel H-P,Schubert M,Zimek A(2008)高维数据中基于角度的离群值检测。摘自:第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第444-452页
[37] Latecki LJ,Lazarevic A,Pokrajac D(2007),利用核密度函数进行异常检测。参加:模式识别中的机器学习和数据挖掘国际研讨会。施普林格,第61-75页
[38] Leigh,C。;O.阿尔西拜。;Rj Hyndman;Kandanaarachi,S。;金,Oc;Mcgree,Jm;Neelamraju,C。;施特劳斯,J。;Talagala,Pd;Turner,Rd,《来自现场传感器的高频水质数据中自动异常检测框架》,《Sci Total Environ》,664885-898(2019)·doi:10.1016/j.scitotenv.2019.02.085
[39] Leyton-Brown K,Nudelman E,Andrew G,McFadden J,Shoham Y(2003)算法选择的组合方法。2003年国际人工智能联合会议(IJCAI),第3卷。第1542-1543页
[40] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[41] Liu FT(2009)《隔离森林:隔离森林》。R包版本0.0-26/r4。https://R-Forge.R-project.org/projects/iforest/
[42] 刘FT,婷KM,周志海(2008)《隔离林》。2008年第八届IEEE数据挖掘国际会议。IEEE,第413-422页
[43] Maechler M、Rousseeuw P、Struyf A、Hubert M、Hornik K(2018)《集群:集群分析基础与扩展》。R包版本2.0.7-1
[44] Meschiari S(2015)latex2exp:在图中使用LaTeX表达式。R包版本0.4.0。https://CRAN.R-project.org/package=latex2exp
[45] Meyer D、Dimitriadou E、Hornik K、Weingessel A、Leisch F(2018)e1071:统计部门的杂项职能,概率理论小组(前:e1071),TU Wien。R包版本1.7-0。https://CRAN.R-project.org/package=e1071
[46] Meyer PE(2014)Infotheo:信息理论测度。R包版本1.2.0。https://CRAN.R-project.org/package=infotheo
[47] Muñoz MA(2019)《实例空间分析:算法能力评估工具包》。https://github.com/andremun/InstanceSpace网站
[48] 穆尼奥斯,马;维拉诺瓦,L。;巴塔,D。;Smith-Miles,K.,机器学习分类的实例空间,Mach Learn,107,1,109-147(2018)·Zbl 1457.68235号 ·数字对象标识代码:10.1007/s10994-017-5629-5
[49] Peng Y,Flach PA,Soares C,Braddil P(2002),元学习的改进数据集特征。参加:发现科学国际会议。施普林格,第141-152页·Zbl 1024.68579号
[50] Pfahringer B,Bensusan H,Giraud-Carrier CG(2000)通过标记各种学习算法进行元学习。In:机器学习国际会议(ICML),第743-750页
[51] Ramaswamy S,Rastogi R,Shim K(2000)从大型数据集中挖掘离群值的高效算法。In:ACM sigmod记录,第29卷。ACM,第427-438页
[52] Rice J(1976)算法选择问题。收录:《计算机进展》,第15卷。Elsevier,第65-118页
[53] 罗宾,X。;图尔克,N。;海纳德,A。;Tiberti,N。;Lisacek,F。;桑切斯,J-C;Müller,M.,pROC:R和S+用于分析和比较ROC曲线的开源软件包,BMC Bioninform,12,77(2011)·doi:10.186/1471-2105-12-77
[54] Pj卢梭;Hubert,M.,通过稳健统计进行异常检测,Wiley Interdiscip Rev Data Min Knowl Discov,8,e1236(2017)·doi:10.1002/widm.1236
[55] Ryan JA、Ulrich JM(2018)《定量金融建模框架》,R包版本0.4-13。https://CRAN.R-project.org/package=quantmod
[56] Schubert E,Zimek A,Kriegel H-P(2014a)具有灵活核密度估计的广义异常值检测。摘自:2014年SIAM数据挖掘国际会议记录。SIAM,第542-550页
[57] 舒伯特,E。;Zimek,A。;Kriegel,H-P,“重新考虑的局部离群值检测:应用于空间、视频和网络离群值探测的局部性广义观点”,《Data Min Knowl Discov》,28,1,190-237(2014)·Zbl 1281.68192号 ·文件编号:10.1007/s10618-012-0300-z
[58] Smith-Miles K(2019)MATILDA:具有数据分析的墨尔本算法测试实例库。https://matilda.unimelb.edu.au网址
[59] Smith-Miles,Ka,《针对算法选择的元学习的跨学科观点》,ACM Compute Surv(CSUR),41,1,6(2009)
[60] Smith-Miles,K。;巴塔,D。;Wreford,B。;Lewis,R.,面向跨实例空间的算法性能客观度量,Comput Oper Res,45,12-24(2014)·Zbl 1348.90646号 ·doi:10.1016/j.cor.2013.11.015
[61] Smith-Miles,K。;Bowly,S.,通过实例空间中的演化生成新的测试实例,Compute Oper Res,63,102-113(2015)·Zbl 1349.68325号 ·doi:10.1016/j.cor.2015.04.022
[62] Smith-Miles K,Tan TT(2012)测量实例空间中的算法足迹。2012年IEEE进化计算大会。IEEE,第3446-3453页
[63] Talagala,Pd;Rj Hyndman;Smith-Miles,K。;坎达纳拉奇,S。;Munoz,Ma,流式非平稳时间数据中的异常检测,J Comput Graph Stat(2019)·Zbl 07499268号 ·doi:10.1080/10618600.2019.1617160
[64] Tang J,Chen Z,Fu AW-C,Cheung DW(2002)增强低密度模式的异常检测有效性。在:太平洋-亚洲知识发现和数据挖掘会议。施普林格,第535-548页·Zbl 1048.68925号
[65] Wickham,H.,用整形包重塑数据,J Stat Softw,21,12,1-20(2007)·doi:10.18637/jss.v021.i12
[66] Wickham H(2016)ggplot2:用于数据分析的优雅图形。纽约州施普林格。http://ggplot2.org ·Zbl 1397.62006年
[67] Wilkinson,L.,通过分布式聚合可视化大数据异常值,IEEE Trans-Vis计算图,24,1,256-266(2018)·doi:10.1109/TVCG.2017.2744685
[68] Wolpert,Dh;Macready,Wg,优化的无免费午餐定理,IEEE Trans Evolut Comput,1,1,67-82(1997)·doi:10.1109/4235.585893
[69] Wolpert DH、Macready WG等人(1995年),没有关于搜索的免费午餐定理。技术报告,SFI-TR-95-02-010,圣菲研究所
[70] Zhang E,Zhang Y(2009)平均精度。收录:数据库系统百科全书。柏林施普林格,第192-193页
[71] Zhang K,Hutter M,Jin H(2009)一种新的基于局部距离的离散现实世界数据离群值检测方法。参加:亚太知识发现和数据挖掘会议。施普林格,第813-822页
[72] Zimek,A。;舒伯特,E。;Kriegel,H-P,《关于高维数值数据中非监督离群值检测的调查》,《Stat Ana data Min ASA data Sci J》,5,5,363-387(2012)·Zbl 07260336号 ·doi:10.1002/sam.11161
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。