×

一种用于异常值检测的精确排序方法。 (英语) Zbl 1390.62111号

摘要:最近关于离群点检测的研究主要集中在检测数据对象的最近邻结构以度量其离群度。这导致了两个弱点:应该预先确定的最近邻域的大小极大地影响了最终的检测结果,并且现有方法产生的异常值分数不足以对异常值进行精确排序。为了克服这些问题,本文提出了一种新的包含迭代随机抽样过程的离群值检测方法。该方法的灵感来源于一个简单的概念,即在盲随机抽样中,外围对象比内嵌对象更容易被选择,因此,所选对象的内嵌性得分更高。利用这一思想,我们开发了一种新的测量方法,称为可观测性因子(OF)。为了提供一个启发式准则来确定最近邻的最佳大小,我们还建议使用of得分的熵。基于各种合成数据集和真实数据集的深入数值评估表明了该方法的优越性和有效性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
94甲17 信息的度量,熵
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.,《离群值分析》(2013),Springer:Springer New York·Zbl 1291.68004号
[2] 阿加瓦尔,C.C.,《离群系:立场文件》,ACM SIGKDD Explorations Newslett。,14, 49-58 (2013)
[3] Angiulli,F。;Pizzuti,C.,《高维空间中的快速离群点检测》(Elomaa,T.;Mannila,H.;Toivonen,H.,《第六届欧洲数据挖掘和知识发现原则会议论文集》(2002),芬兰赫尔辛基),15-26·Zbl 1020.68527号
[4] M.J.阿塔拉。;西斯潘科夫斯基。;Gwadera,R.,《事件序列中重要事件集的检测》(Rastogi,R.;Morik,K.;Bramer,M.;Wu,X.,《第四届IEEE数据挖掘国际会议论文集》(2004),英国布莱顿),3-10
[5] 博尔顿,R.J。;Hand,D.J.,《用于欺诈检测的非监督分析方法》(Thomas,L.C.;Crook,J.N.;Edelman,D.B.,《第七届信用评分和信用控制会议论文集》(2001年),苏格兰爱丁堡),235-255
[6] Breunig,M.M。;Kriegel,H.P。;Ng,R.T。;Sander,J.,LOF:识别基于密度的局部异常值,(Chen,W.;Naughton,J.F.;Bernstein,P.A.,《第26届ACM SIGMOD国际会议论文集》(2000),美国达拉斯),93-104
[7] 卡波佐利,A。;Lauro,F.等人。;Khan,I.,《使用数据挖掘技术对智能办公建筑集群进行故障检测分析》,专家系统。申请。,42, 4324-4338 (2015)
[8] 尚多拉,V。;Banerjee,A。;Kumar,V.,《异常检测:一项调查》,ACM Comput。,41, 15 (2009)
[9] 陈,C。;张博士。;卡斯特罗,P.S。;李,N。;Sun,L。;Li,S.,从GPS轨迹实时检测异常滑行轨迹,(Puiatti,A.;Gu,T.,《第八届移动和普及系统国际会议论文集》(2011),丹麦哥本哈根),63-74
[10] Dash,M。;Lie,N.W.,《事务数据中的异常检测》,《智能》。数据分析。,14, 283-298 (2010)
[11] Donoho,S.,《期权市场内幕交易的早期发现》,(Kohavi,R.;Gehrke,J.;DuMouchel,W.;Ghosh,J.,《第十届ACM SIGKDD国际会议论文集》(2004),美国西雅图,420-429
[12] Fawcett,T.,ROC分析简介,模式识别。莱特。,27, 861-874 (2006)
[13] 哈·J。;Seok,S。;Lee,J.S.,使用不稳定因子的稳健异常值检测,Knowl。基于系统。,63, 15-23 (2014)
[14] 霍金斯,D.M.,《离群人的识别》(1980),查普曼与霍尔:查普曼和霍尔伦敦·Zbl 0438.62022号
[15] He,H。;Garcia,E.A.,《从不平衡数据中学习》,IEEE Trans。知识。数据工程,21,1263-1284(2009)
[16] 霍奇,V.J。;Austin,J.,《离群值检测方法的调查》,Artif。智力。修订版,22,85-126(2004)·Zbl 1101.68023号
[17] 胡,T。;Sung,S.Y.,检测基于模式的异常值,模式识别。莱特。,24, 3059-3068 (2003)
[18] 黄,J。;Ling,C.X.,《使用AUC和准确性评估学习算法》,IEEE Trans。知识。数据工程,17,299-310(2005)
[19] 江丙坤。;Yang,W.H。;Yang,C.Y.,《一种基于SPC的心律失常检测和分类的前向后退算法》,工业工程管理。系统。,12, 380-388 (2013)
[20] Jin,W。;Tung,A.K。;Han,J。;Wang,W.,使用对称邻域关系对异常值进行排序,(Ng,W.K.;Kitsuregawa,M.;Li,J.;Chang,K.,《第十届亚太地区知识发现和数据挖掘进展会议论文集》(2006),新加坡,新加坡),577-593
[21] Kriegel,H.P。;科尔格,P。;舒伯特,E。;Zimek,A.,LoOP:局部异常概率,(Cheung,D.;Song,I.Y.;Chu,W.;Hu,X.;Lin,J.;Lin
[22] 克里格尔,H.P。;科尔格,P。;舒伯特,E。;Zimek,A.,解释和统一异常值分数,(Liu,B.;Liu,H.;Clifton,C.;Washio,T.;Kamath,C.,第11届数据挖掘SIAM国际会议论文集(2011),美国梅萨),13-24
[23] Latecki,L.J。;拉扎列维奇,A。;Pokrajac,D.,核密度函数的异常值检测,(Perta,P.,第五届模式识别中的机器学习和数据挖掘国际会议论文集(2007),德国莱比锡),61-75
[24] 拉扎列维奇,A。;Kumar,V.,《异常值检测的特征打包》,(Grossman,R.;Bayardo,R.,Bennett,K.;Vaidya,J.,《第十一届ACM SIGKDD国际会议论文集》(2005),美国芝加哥),157-166
[25] Lee,J.-S。;Olafsson,S.,《一种考虑最近邻居的元学习方法,用于确定簇数》,《信息科学》。,232, 208-224 (2013)
[26] 林,J。;基奥,E。;傅,A。;Van,H.,《魔法近似:发现不寻常的医学时间序列》(Tsymbal,A.;Cunningham,P.,《第26届IEEE基于计算机的医学系统国际会议论文集》(2005),爱尔兰都柏林),329-334
[27] 卢,C.T。;寇,Y。;赵,J。;陈磊,检测和跟踪气象数据中的区域异常值,信息科学。,177, 1609-1632 (2007)
[28] 梅赫兰,R。;Oyama,A。;Shah,M.,使用社会力量模型检测异常人群行为,(第22届IEEE计算机视觉和模式识别国际会议论文集(2009),美国佛罗里达州迈阿密),935-942
[29] Nguyen,H.V。;Ang,H.H。;Gopalkrishnan,V.,用随机子空间上的异质检测器集合挖掘离群值,(Kitagawa,H.;Ishikawa,Y.;Li,Q.;Watanabe,C.,《第十五届高级应用数据库系统国际会议论文集》(2010),日本筑波,368-383
[30] Pokrajac,D.,数据流的增量局部异常值检测,(Duch,W.;Ghosh,J.,IEEE第一届计算智能和数据挖掘研讨会论文集(2007),美国檀香山),504-515
[31] 拉马斯瓦米,S。;Rastogi,R。;Shim,K.,《从大数据集挖掘离群值的高效算法》(Chen,W.;Naughton,J.F.;Bernstein,P.A.,《第26届ACM SIGMOD国际会议论文集》(2000),美国达拉斯),427-438
[32] Schölkopf,B。;普拉特,J.C。;肖-泰勒,J。;Smola,A.J。;Williamson,R.C.,估计高维分布的支持,神经计算。,13, 1443-1471 (2001) ·兹比尔1009.62029
[33] 舒伯特,E。;Wojdanowski,R。;Zimek,A。;Kriegel,H.P.,《关于离群值排名和离群值得分的评估》(Ghosh,J.;Liu,H.;Davidson,I.;Domeniconi,C.;Kamath,C.,《第十二届数据挖掘SIAM国际会议论文集》(2012),美国阿纳海姆),1047-1058
[34] 舒伯特,E。;Zimek,A。;Kriegel,H.P.,《重新考虑局部异常值检测:应用于空间、视频和网络异常值检测的局部性通用观点》,《数据挖掘知识》。发现。,28, 190-237 (2014) ·Zbl 1281.68192号
[35] Srivastava,A.N。;Zane-Ulman,B.,《发现复杂空间系统文本报告中反复出现的异常》,(IEEE航空航天会议论文集(2005),美国洛斯阿拉米托斯),3853-3862
[36] Shannon,C.E.,《通信数学理论》,贝尔系统。《技术期刊》,27,379-423(1948)·Zbl 1154.94303号
[37] 谢泼德,J.M。;Burian,S.J.,《主要沿海城市城市诱发降雨异常的检测》,地球相互作用。,7, 1-17 (2003)
[38] Tang,J。;陈,Z。;Fu,A.W.C。;Cheung,D.W.L.,增强低密度模式异常值检测的有效性,(Cheng,M.S.;Yu,P.S.;Liu,B.,第六届太平洋-亚洲知识发现和数据挖掘进展会议论文集(2002),台湾台北),535-548·Zbl 1048.68925号
[39] 税务博士。;Duin,R.P.,支持向量数据描述,马赫数。学习。,54,45-66(2004年)·Zbl 1078.68728号
[40] Yeung,R.W.,信息理论第一课程(2002),施普林格:施普林格纽约
[41] Yu,B。;宋,M。;Wang,L.,基于局部隔离系数的离群点挖掘算法,(第二届IEEE信息技术和计算机科学国际会议论文集(2009),乌克兰基辅),448-451
[42] 张凯。;Hutter,M。;Jin,H.,一种新的基于局部距离的分散真实世界数据离群值检测方法,(Theeramunkong,T.;Kijsirikul,B.;Cercone,N.;Ho,T.B.,《第十三届亚太地区知识发现和数据挖掘进展会议论文集》(2009),泰国曼谷,813-822
[43] Zimek,A。;坎佩罗,R.J。;Sander,J.,《非监督异常值检测的集成:挑战和研究问题》,ACM SIGKDD Explorations Newslett。,15, 11-22 (2014)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。