×

非IID分类数据中的同质性异常检测。 (英语) Zbl 1473.68159号

摘要:大多数现有的离群值检测方法都假设离群因子数据实体(例如,特征值和数据对象)的(即离群值打分度量)是独立且相同分布的(IID)。在不同实体的异常值相互依赖和/或取自不同概率分布(非IID)的实际应用中,此假设不成立。这可能会导致在不考虑非IID性质的情况下,无法检测出过于细微的重要异常值。在更具挑战性的环境中,例如具有许多噪声特征的高维数据,这个问题甚至会加剧。本文介绍了一种新的离群值检测框架及其两个实例,用于识别分类数据通过捕获非IID异常因素。我们的方法首先定义并将分布敏感的离群因子及其相互依赖性合并到基于值-值图的表示中。然后对值图中的异常值传播过程建模,以学习要素值。学习值异常值允许直接异常检测或异常特征选择。这里采用图表示和挖掘方法来很好地捕获丰富的非IID特征。我们对15个具有不同数据复杂性水平的真实世界数据集的实证结果表明:(i)在95%/99%置信水平下,所提出的离群值检测方法显著优于五种最先进的方法,在10个最复杂的数据集上实现了10-28%的AUC改进;并且(ii)在对两个不同的现有检测器进行后续异常检测方面,所提出的特征选择方法明显优于三种竞争方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aggarwal CC(2017a)分类、文本和混合属性数据中的异常检测。摘自:离群值分析,第249-272页。柏林施普林格
[2] Aggarwal,CC,离群分析(2017),柏林:施普林格,柏林·Zbl 1353.68004号
[3] Akoglu L,Tong H,Vreeken J,Faloutsos C(2012)分类数据中快速可靠的异常检测。包含:CIKM,第415-424页。ACM公司
[4] Akoglu,L。;汤,H。;Koutra,D.,基于图形的异常检测和描述:一项调查,Data Min Knowl Disc,29,3626-688(2015)
[5] Andersen R,Chellapilla K(2009)寻找具有大小边界的稠密子图。收录:web-graph的算法和模型,第25-37页·Zbl 1207.05191号
[6] Angiulli,F。;Palopoli,L.,使用默认推理进行离群检测,Artif Intell,172,16-17,1837-1872(2008)·Zbl 1184.68480号
[7] Angiulli,F。;Fassetti,F。;Palopoli,L.,检测异常对象的外围属性,ACM Trans Datab Syst,34,1,7(2009)
[8] Angiulli,F。;Ben-Eliyahu-Zohary,R。;Palopoli,L.,简单默认理论的离群检测,Artif Intell,174,15,1247-1253(2010)·Zbl 1210.68109号
[9] Azmandian F,Yilmazer A,Dy JG,Aslam J,Kaeli DR,et al(2012)GPU加速特征选择,用于使用局部核密度比进行离群值检测。在ICDM中,第51-60页。电气与电子工程师协会
[10] Boriah S、Chandola V、Kumar V(2008)分类数据的相似性度量:比较评估。包含:SDM,第243-254页。暹罗
[11] Breunig,MM;Kriegel,惠普;Ng、RT;Sander,J.,LOF:识别基于密度的局部异常值,ACM SIGMOD记录,29,2,93-104(2000)
[12] Brin,S.等人。;Motwani,R。;Silverstein,C.,《超越市场篮子:将关联规则推广到相关性》,ACM SIGMOD Record,26,2,265-276(1997)
[13] 坎波斯,GO;齐梅克,A。;桑德,J。;坎佩罗,RJGB;Micenková,B。;舒伯特,E。;同意,I。;Houle,ME,《非监督离群值检测的评估:测量、数据集和实证研究》,Data Min Knowl Disc,30,4,891-927(2016)
[14] Cao,L.,行为和社会数据中的非独立学习,Compute J,57,9,1358-1370(2014)
[15] Cao,L.,复杂交互的耦合学习,Inf Process Manag,51,2,167-186(2015)
[16] 曹磊(2018)《数据科学思考:下一个科学》。柏林施普林格科技与经济革命
[17] 曹,L。;余明,O。;Philip,SY,耦合行为分析与应用,IEEE Trans Knowl Data Eng,24,8,1378-1392(2012)
[18] 曹,L。;Dong,X。;Zheng,e-nsp:高效负序列模式挖掘,Artif Intell,235,156-182(2016)·Zbl 1352.68219号
[19] V·钱多拉。;Banerjee,A。;Kumar,V.,《异常检测:一项调查》,ACM Compute Surv,41、3、15(2009)
[20] Chau DH、Nachenberg C、Wilhelm J、Wright A、Faloutsos C(2011)《钋:用于恶意软件检测的Tera-scale图挖掘和推理》。包含:SDM,第131-142页。暹罗
[21] Das K,Schneider J(2007)在分类数据集中检测异常记录。收录于:KDD,第220-229页。ACM公司
[22] Diaconis,P。;Stroock,D.,马尔可夫链特征值的几何界,Ann Appl Probab,1,1,36-61(1991)·Zbl 0731.60061号
[23] Emmott AF、Das S、Dietterich T、Fern A、Wong W-K(2013),从实际数据系统构建异常检测基准。收录于:KDD研讨会,第16-21页。ACM公司
[24] Fan X,Xu RYD,Cao L(2016)Copula混合成员随机区组模型。收录:IJCAI,第1462-1468页
[25] Fill,JA,不可逆马尔可夫链收敛到平稳性的特征值界,及其在排除过程中的应用,Ann Appl Probab,1,1,62-87(1991)·Zbl 0726.60069号
[26] 福勒,JH;Christakis,NA,《大型社交网络中幸福感的动态传播:弗雷明翰心脏研究20年来的纵向分析》,BMJ,337,a2338(2008)
[27] MC Ganiz;乔治,C。;Pottenger,WM,《高阶朴素贝叶斯:一种新的非iid文本分类方法》,IEEE Trans Knowl Data Eng,23,7,1022-1034(2011)
[28] Giacometi A,Soulet A(2016)频繁模式离群点检测的任意时间算法。国际数据科学分析杂志,第1-12页
[29] 戈麦斯·加尔德尼斯,J。;Latora,V.,《复杂网络上扩散过程的熵率》,Phys Rev E,78,6,065102(2008)
[30] Guha S、Mishra N、Roy G、Schrijvers O(2016)基于随机砍伐森林的河流异常检测。收录于:ICML,第2712-2721页
[31] 古普塔,M。;高杰。;阿加瓦尔,C。;Han,J.,时间数据的离群检测,Synth Lect data Min Knowl Discov,5,1,1-129(2014)·Zbl 1307.62002号
[32] 霍尔,M。;E.弗兰克。;霍姆斯,G。;Pfahringer,B。;鲁特曼,P。;Witten,IH,WEKA数据挖掘软件:更新,ACM SIGKDD Explor Newsl,11,1,10-18(2009)
[33] 手,DJ;Till,RJ,多类别分类问题ROC曲线下面积的简单概括,《马赫学习》,45,2,171-186(2001)·Zbl 1007.68180号
[34] 何J(2017)《从数据异质性中学习:算法和应用》。In:IJCAI,第5126-5130页
[35] 他,J。;Carbonell,J.,《非监督稀有类别分析的特征和实例共选》,《统计分析数据最小值》,第3、6、417-430页(2010年)·Zbl 07260260号
[36] 何,Z。;Xu,X。;黄,ZJ;Deng,S.,FP-outlier:基于频繁模式的离群值检测,计算机科学信息系统,2,1,103-118(2005)
[37] Ho,TK;Basu,M.,监督分类问题的复杂性度量,IEEE Trans-Pattern Ana Mach Intell,24,3,289-300(2002)
[38] 伊恩科,D。;彭萨,RG;Meo,R.,分类数据中异常值检测和表征的半监督方法,IEEE Trans Neural Netw Learn Syst,28,5,1017-1029(2017)
[39] Jian S,Cao L,Pang G,Lu K,Gao H(2017)基于层次值耦合学习的类别数据嵌入表示。收录:IJCAI,第1937-1943页
[40] Khuller S,Barna S(2009)关于寻找稠密子图。自动机,语言与编程,第597-608页·Zbl 1248.68560号
[41] Koufakou,A。;Georgiopoulos,M.,混合属性分布式高维数据集的快速异常值检测策略,data Min Knowl Disc,20,2259-289(2010)
[42] Koufakou,A。;Secretan,J。;Georgiopoulos,M.,用于快速检测大型高维分类数据中离群值的非可推导项集,Knowl Inf Syst,29,3,697-725(2011)
[43] Koutra D,Ke T-Y,Kang U,Chau D,Pao H-K,Faloutsos C(2011)通过关联方法统一有罪:定理和快速算法。摘自:数据库中的机器学习和知识发现,第245-260页
[44] Leyva,E。;González,A。;Perez,R.,《一组用于将元学习应用于实例选择的复杂性度量》,IEEE Trans Knowl Data Eng,27,2,354-367(2015)
[45] Li J,Cheng K,Wang S,Morstatter F,Trevino RP,Tang J,Liu H(2016)《特征选择:数据透视》。CoRR,arXiv:abs/1601.07996
[46] Liang J,Parthasarathy S(2016)《稳健的上下文离群点检测:上下文遇到稀疏性的地方》。摘自:第25届ACM国际信息和知识管理会议记录,第2167-2172页。ACM公司
[47] 刘,FT;Ting,KM;Zhou,Z-H,基于隔离的异常检测,ACM Trans-Nowl Discov Data,6,1,3:1-3:39(2012)
[48] 马尔多纳多,S。;韦伯,R。;Famili,F.,使用支持向量机进行高维类平衡数据集的特征选择,Inf Sci,286228-246(2014)
[49] McGlohon M、Bay S、Anderle MG、Steier DM、Faloutsos C(2009)SNARE:用于图形标记和风险检测的链接分析系统。收录:KDD,第1265-1274页。ACM公司
[50] 麦克弗森,M。;Smith-Lovin,L。;JM Cook,《羽毛之鸟:社交网络中的亲同性》,Ann Rev social,27,1,415-444(2001)
[51] Meyer,CD,矩阵分析和应用线性代数(2000),费城:SIAM,费城·Zbl 0962.15001号
[52] 奥蒂,ME;Ghoting,A。;Parthasarathy,S.,混合属性数据集中的快速分布离群值检测,data Min Knowl Disc,12,2-3,203-228(2006)
[53] Page L,Brin S,Motwani R,Winograd T(1998)PageRank引文排名:给网络带来秩序。收录:WWW会议,第161-172页
[54] Pang G,Ting KM,Albrecht D(2015)LeSiNN:通过识别最不相似的最近邻来检测异常。位于:ICDM车间,第623-630页。电气与电子工程师协会
[55] Pang G,Cao L,Chen L(2016)通过特征值耦合建模在复杂类别数据中检测离群值。在IJCAI中,第1902-1908页
[56] Pang G,Cao L,Chen L,Lian D,Liu H(2018)基于稀疏模型的序列集成学习,用于高维数值数据中有效的离群点检测。参加:第三十二届AAAI人工智能会议
[57] Pang G,Shen C,Cao L,van den Hengel A(2020)《异常检测的深度学习:综述》。arXiv预打印arXiv:2007.02500
[58] 拉亚纳,S。;Akoglu,L.,《少即是多:构建选择性异常集合》,ACM Trans Knowl Discov Data,10,4,42(2016)
[59] Rayana S,Zhong W,Akoglu L(2016)离群值检测的序贯集成学习:偏差-方差视角。2016年IEEE第16届数据挖掘国际会议(ICDM),第1167-1172页。电气与电子工程师协会
[60] Schubert E,Wojdanowski R,Zimek A,Kriegel H-P(2012)关于异常值排名和异常值得分的评估。摘自:2012年SIAM数据挖掘国际会议记录,第1047-1058页。暹罗
[61] Smets K,Vreeken J(2011)《奇怪的一点:识别和表征异常》。包含:SDM,第109-148页。暹罗
[62] 史密斯,MR;马丁内斯,T。;Giraud-Carrier,C.,《数据复杂性的实例级分析》,《马赫学习》,第95、2、225-256页(2014年)·Zbl 1469.62290号
[63] Sugiyama M,Borgwardt K(2013)通过采样快速基于距离的离群值检测。输入:NIPS,第467-475页
[64] 孙,Y。;Han,J.,《挖掘异构信息网络:原理和方法》,Synth Lect Data Min Knowl Discov,3,2,1-159(2012)
[65] 唐·G。;裴,J。;Bailey,J。;Dong,G.,从分类关系数据中挖掘多维上下文离群值,《智能数据分析》,19,5,1171-1192(2015)
[66] 唐J,高H,胡X,刘H(2013)利用亲同性效应进行信任预测。摘自:WSDM,第53-62页。ACM公司
[67] Ting,KM;周,GT;刘,FT;Tan,SC,质量估算,马赫数学习,90,1,127-160(2013)·Zbl 1260.68349号
[68] Ting,KM;Washio,T。;威尔斯,JR;Aryal,S.,Defying the gravity of learning curve:a characteristic of neighbor annormation detectors,马赫学习,106,1,55-91(2017)·Zbl 1412.68193号
[69] Wong W-K,Moore A,Cooper G,Wagner M(2003)疾病暴发的贝叶斯网络异常模式检测。In:ICML,第808-815页
[70] 舒,W。;Wang,S.,大型分类数据的信息论异常值检测,IEEE Trans Knowl data Eng,25,3,589-602(2013)
[71] Zhang Q,Cao L,Zhu C,Li Z,Sun J(2018)Coupledcf:学习深层协同过滤推荐中的显式和隐式用户-项目耦合。in:IJCAI’2018,pp 3662-3668
[72] Zheng G,Brantley SL,Lauvaux T,Li Z(2017)使用度量学习的上下文空间离群点检测。摘自:第23届ACM SIGKDD知识发现和数据挖掘国际会议记录,第2161-2170页。ACM公司
[73] Zhou Z-H,Sun Y-Y,Li Y-F(2009)通过将实例视为非iid样本进行多实例学习。收录于:ICML,第1249-1256页。ACM公司
[74] Zimek,A。;坎佩罗,RJGB;Sander,J.,无监督异常值检测的集合:挑战和研究问题,ACM SIGKDD Explor Newsl,15,1,11-22(2013)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。