×

使用二进制决策图进行异常检测。 (英语) Zbl 1416.62278号

摘要:我们提出了一种使用二进制决策图进行异常值检测的新方法。提出了一种新的离群点检测方法,即剔除聚焦数据后,区域内数据元素数量与区域体积的比值。我们表明,通过使用二元决策图,可以在给定数据集中每个数据周围的一组区域上非常有效地评估漏失密度。所提出的方法的时间复杂度相对于数据集的大小几乎是线性的,而异常值检测的准确性仍然与其他方法相当。实验结果表明了该方法的有效性。

MSC公司:

62G32型 极值统计;尾部推断
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aryal,S。;Ting,KM;威尔斯,JR;Washio,T。;Tseng,VS(编辑);Ho,TB(编辑);Zhou,ZH(编辑);陈,AL(编辑);Kao,HY(编辑),《用相对质量改善iforest》,510-521(2014),纽约·doi:10.1007/978-3-319-06605-9_42
[2] Bache K,Lichman M(2013)UCI机器学习库。http://archive.ics.uci.edu/ml。2014年6月24日访问
[3] Bay SD(2003)Orca:基于距离的离群值挖掘程序。http://www.stephenbay.net/orca。2015年7月6日访问
[4] Bay SD,Schwabacher M(2003)使用随机和简单的修剪规则在近线性时间内挖掘基于距离的离群值。摘自:第九届ACM SIGKDD知识发现和数据挖掘国际会议记录(KDD’03),ACM,纽约,第29-38页
[5] Beckmann N,Kriegel H,Schneider R,Seeger B(1990)《R*-树:点和矩形的高效且稳健的访问方法》。SIGMOD记录19(2):322-331·doi:10.1145/93605.98741
[6] Blackard JA,Dean DJ(1999),从制图变量预测森林覆盖类型的人工神经网络和判别分析的比较精度。计算机电子农业24(3):131-151·doi:10.1016/S0168-1699(99)00046-0
[7] Brace K、Rudell R、Bryant R(1990)《BDD包的高效实施》。附:第27届ACM/IEEE设计自动化会议,第40-45页
[8] Breunig MM,Kriegel HP,Ng RT,Sander J(2000)LOF:识别基于密度的局部异常值。在:2000年美国计算机学会SIGMOD数据管理国际会议记录(SIGMOD'00),美国计算机学会,纽约,第93-104页
[9] Bryant R(1986)布尔函数操作的基于图形的算法。IEEE传输计算35(8):677-691·Zbl 0593.94022号 ·doi:10.1109/TC.1986.1676819
[10] Chandola V,Banerjee A,Kumar V(2009)异常检测:一项调查。ACM计算概况41(3):15:1-15:58·doi:10.1145/1541880.1541882
[11] Fawcett T(2006)ROC分析简介。图案识别信27(8):861-874·doi:10.1016/j.parec.2005.010
[12] Ghoting A,Parthasarathy S,Otey ME(2008)高维数据集中基于距离的离群值的快速挖掘。数据最小知识发现16(3):349-364·doi:10.1007/s10618-008-0093-2
[13] Karatzoglou A,Smola A,Hornik K,Zeileis A(2004)《R.J Stat Softw 11(9):1-20中内核方法的内核与S4包》·doi:10.18637/jss.v011.i09
[14] Kutsuna T(2010)基于二元决策图的一类分类器。摘自:第十届IEEE数据挖掘国际会议记录(ICDM’10),第284-293页
[15] Kutsuna,T。;山本,A。;Tseng,V.(编辑);Ho,T.(编辑);Zhou,ZH(编辑);Chen,A.(编辑);Kao,HY(编辑),使用二进制决策图基于离开密度的离群检测,486-497(2014),纽约·doi:10.1007/978-3-319-06605-9_40
[16] Kutsuna T,Yamamoto A(2014b)使用二元决策图进行一类分类的无参数方法。智能数据分析18(5):889-910·doi:10.3233/IDA-140674
[17] Lazarevic A,Kumar V(2005)《异常值检测的特征打包》。摘自:第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集(KDD’05),ACM,纽约,第157-166页
[18] Aleksandar Lazarevic;勒文特·埃尔托兹;维平·库马尔;艾塞尔·奥兹古尔(Aysel Ozgur);Srivastava,Jaideep,《网络入侵检测中异常检测方案的比较研究》,25-36(2003),宾夕法尼亚州费城·doi:10.1137/1.9781611972733.3
[19] 刘FT(2009)《隔离林:隔离林》。http://sourceforge.net/projects/iforest。2014年11月11日查阅。R包版本0.0-25
[20] Liu FT,Ting KM,Zhou ZH(2008)隔离林。摘自:第八届IEEE数据挖掘国际会议记录(ICDM’08),第413-422页
[21] Mahalanobis P(1936)关于统计学中的广义距离。Proc Natl Inst Sci(加尔各答)2:49-55·兹标0015.03302
[22] Moro S、Cortez P、Rita P(2014)预测银行电话营销成功的数据驱动方法。Decis支持系统62:22-31·doi:10.1016/j.dss.2014.03.001
[23] R核心团队(2014)R:统计计算的语言和环境。R统计计算基金会,维也纳。http://www.R-project.org。2016年1月20日访问
[24] Schölkopf B,Platt J,Shawe-Taylor J,Smola A,Williamson R(2001)《估计高维分布的支持度》。神经计算13(7):1443-1471·Zbl 1009.62029号 ·doi:10.1162/089976601750264965
[25] Somenzi,F。;Broy,M.(编辑);Steninbruggen,R.(编辑),《计算系统设计》,第173期,第303-366页(1999年),阿姆斯特丹·Zbl 0948.68215号
[26] Somenzi F(2012)CUDD:CU决策图包。http://vlsi.colorado.edu/法比奥/CUDD。2014年6月24日访问
[27] Torgo L(2010)《R的数据挖掘,案例学习》。查普曼和霍尔/CRC,博卡拉顿·doi:10.1201/b10328
[28] Yamanishi K,Takeuchi JI,Williams G,Milne P(2004)使用有限混合和折扣学习算法的在线无监督离群值检测。数据最小知识发现8(3):275-300·doi:10.1023/B:DAMI.0000023676.72185.7c
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。