×

ORCA:属性图的离群点检测和稳健聚类。 (英文) Zbl 1481.90274号

摘要:提出了一个框架来同时对对象进行聚类并检测属性图数据中的异常。我们的目标函数和精心构建的约束提高了聚类和异常检测组件的可解释性,以及我们方法的可扩展性。此外,我们在此框架内开发了一种称为离群检测和属性图鲁棒聚类(ORCA)的算法。ORCA在温和条件下快速收敛,产生高质量的聚类结果,并发现可以自然映射到输入数据特征的异常。ORCA的有效性和效率在现实世界的数据集上通过多种最先进的技术得到了证明。

MSC公司:

90立方厘米27 组合优化
90立方厘米 数学规划中的稳健性
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 阿加瓦尔,C.C.:离群分析。摘自:《数据挖掘》,第237-263页。斯普林格(2015)。doi:10.1007/978-3-319-14142-8_8
[2] Aggarwal,C.C.:离群值分析简介。摘自:离群值分析,第1-34页。施普林格(2017)。doi:10.1007/978-3-319-47578-3_1·Zbl 1353.68004号
[3] Akoglu,L.,McGlohon,M.,Faloutsos,C.:奇数球:发现加权图中的异常。摘自:《知识发现和数据挖掘进展》,第410-421页(2010年)。doi:10.1007/978-3642-13672-640
[4] Akoglu,L。;Tong,H。;Koutra,D.,《基于图形的异常检测和描述:调查》,Data Min.Knowl。发现。,292626-688(2015年)·doi:10.1007/s10618-014-0365-y
[5] Bertsekas,DP,非线性规划(1999),Belmont:Athena Scientific,Belmon·Zbl 1015.90077号
[6] 布曼,T。;Sobral,A。;贾维德,S。;SK Jung;Zahzah,EH,《分解为低秩加性矩阵用于背景/前景分离:与大规模数据集进行比较评估的综述》,计算。科学。版次:23,1-71(2017)·Zbl 1398.68572号 ·doi:10.1016/j.cosrev.2016.11.001
[7] 坎迪斯,EJ;李,X。;马云(Ma,Y.)。;Wright,J.,稳健主成分分析?,J.ACM(JACM),58、3、11(2011)·兹比尔1327.62369 ·数字对象标识代码:10.1145/1970392.1970395
[8] 坎迪斯,EJ;Recht,B.,通过凸优化实现精确矩阵补全,Found。计算。数学。,9, 6, 717 (2009) ·Zbl 1219.90124号 ·doi:10.1007/s10208-009-9045-5
[9] 查克拉巴蒂,D。;Faloutsos,C.,《图形挖掘:法则、生成器和算法》,ACM Compute。Surv公司。(CSUR),38,1,2-es(2006)·doi:10.145/1132952.1132954
[10] Davis,J.,Goadrich,M.:精确再调用和roc曲线之间的关系。摘自:《第23届机器学习国际会议论文集》,第233-240页。ACM(2006)。doi:10.1145/1143844.1143874
[11] Dhillon,I.S.,Guan,Y.,Kulis,B.:核k-means:谱聚类和归一化切割。摘自:第十届ACM SIGKDD知识发现和数据挖掘国际会议记录,第551-556页。ACM(2004)。doi:10.1145/1014052.1014118
[12] 德里尼亚斯,P。;弗里兹,A。;Kannan,R。;Vempala,S。;Vinay,V.,通过奇异值分解对大型图进行聚类,Mach。学习。,56, 1, 9-33 (2004) ·Zbl 1089.68090号 ·doi:10.1023/B:MACH.0000033113.59016.96
[13] 杜,R。;德雷克,B。;Park,H.,使用联合非负矩阵分解基于内容和连接结构的混合聚类,J.Glob。最佳。,74, 861-877 (2017) ·Zbl 1434.15011号 ·doi:10.1007/s10898-017-0578-x
[14] 杜,R。;Kuang,D。;德雷克,B。;Park,H.,通过秩-2对称非负矩阵分解进行分层社区检测,Computat。Soc.Netw.公司。,4、1、7(2017)·doi:10.1186/s40649-017-0043-5
[15] 邓拉维,DM;科尔达,TG;Acar,E.,使用矩阵和张量因子分解进行时间链接预测,ACM Trans。知识。发现。数据(TKDD),5,2,1-27(2011)·数字对象标识代码:10.1145/1921632.1921636
[16] Fortunato,S.,《图形中的社区检测》,Phys。众议员,486,3-5,75-174(2010)·doi:10.1016/j.physrep.2009.11.002
[17] 高,H。;陈,Y。;Lee,K。;帕尔塞提亚,D。;Choudhary,AN,《社交网络中的在线垃圾邮件过滤》,NDSS,12,1-16(2012)·doi:10.1109/ICDM.2011.124
[18] Gao,J.,Liang,F.,Fan,W.,Wang,C.,Sun,Y.,Han,J.:关于信息网络中的社区离群值及其有效检测。摘自:第16届ACM SIGKDD知识发现和数据挖掘国际会议记录,第813-822页。ACM(2010)。数字对象标识代码:10.1145/1835804.1835907
[19] Henderson,K.、Gallagher,B.、Li,L.、Akoglu,L.,Eliassi-Rad,T.、Tong,H.、Faloutsos,C.:这就是你认识的人:使用递归结构特征的图挖掘。摘自:第17届ACM SIGKDD国际知识发现和数据挖掘会议记录,第663-671页。ACM(2011)。doi:10.1145/2020408.2020512
[20] 休伯,PJ,稳健统计(2004),霍博肯:威利,霍博肯·Zbl 1276.62022号 ·doi:10.1002/9780470434697
[21] Kannan,R。;巴拉德·G。;Park,H.,Mpi-faun:基于Mpi的交替更新非负矩阵分解框架,IEEE Trans。知识。数据工程,30,3,544-558(2018)·doi:10.1109/TKDE.2017.2767592
[22] Kannan,R.,Woo,H.,Aggarwal,C.C.,Park,H.:文本数据的异常检测。摘自:2017年SIAM国际数据挖掘会议记录,第489-497页。SIAM(2017)。doi:10.1137/1.9781611974973.55
[23] Kim,J。;何毅。;Park,H.,《非负矩阵和张量分解算法:基于块坐标下降框架的统一视图》,J.Glob。优化。,58, 2, 285-319 (2014) ·Zbl 1321.90129号 ·doi:10.1007/s10898-013-0035-4
[24] Kim,J。;Park,H.,《快速非负矩阵分解:一种活性集样方法和比较》,SIAM J.Sci。计算。,33, 6, 3261-3281 (2011) ·Zbl 1232.65068号 ·数字对象标识代码:10.1137/10821172
[25] Kleinberg,JM,超链接环境中的权威来源,J.ACM(JACM),46,5,604-632(1999)·兹比尔1065.68660 ·doi:10.1145/324133.324140
[26] Kuang,D。;Yun,S。;Park,H.,Symnmf:图聚类相似矩阵的非负低阶近似,J.Glob。最佳。,62, 3, 545-574 (2015) ·Zbl 1326.90080号 ·doi:10.1007/s10898-014-0247-2
[27] Kumar,S.、Hooi,B.、Makhija,D.、Kumar,M.、Faloutsos,C.、Subrahmanian,V.:第2版:评级平台中的欺诈用户预测。摘自:第十一届ACM网络搜索和数据挖掘国际会议记录,第333-341页。ACM(2018)。doi:10.1145/3159652.3159729
[28] Lee,D.D.,Seung,H.S.:(1999)通过非负矩阵分解学习对象的部分。《自然》401(6755),788-791。doi:10.1038/44565·Zbl 1369.68285号
[29] Lee,D.D.,Seung,H.S.:非负矩阵分解算法。《神经信息处理系统进展》,第556-562页(2001年)。数字对象标识码:10.5555/3008751.3008829
[30] Leskovec,J.、Lang,K.J.、Dasgupta,A.、Mahoney,M.W.:大型社会和信息网络中社区结构的统计特性。摘自:第17届万维网国际会议记录,第695-704页。ACM(2008)。doi:10.1145/1367497.1367591
[31] Leskovec,J.,Lang,K.J.,Mahoney,M.:网络社区检测算法的实证比较。摘自:《第19届万维网国际会议记录》,第631-640页。ACM(2010)。doi:10.1145/1772690.1772755
[32] Li,J.,Dani,H.,Hu,X.,Liu,H.:雷达:属性网络中异常检测的残差分析。收录于:IJCAI,第2152-2158页(2017年)。doi:10.24963/ijcai.2017/299
[33] Liu,N.,Huang,X.,Hu,X.:通过解析属性网络加速局部异常检测。摘自:《第26届国际人工智能联合会议论文集》(2017年)。doi:10.24963/ijcai.2017/325
[34] Lu,Q.,Getoor,L.:基于链接的分类。摘自:《第20届国际机器学习会议论文集》(ICML-03),第496-503页(2003年)。doi:10.5555/3041838.3041901
[35] 马奥尼,MW;Drineas,P.,用于改进数据分析的Cur矩阵分解,Proc。国家。阿卡德。科学。,106, 3, 697-702 (2009) ·Zbl 1202.68480号 ·doi:10.1073/pnas.0803205106
[36] 阿拉斯加州麦卡卢姆;Nigam,K。;Rennie,J。;Seymore,K.,《利用机器学习自动构建互联网门户》,Inf.Retrieval,3,2,127-163(2000)·doi:10.1023/A:1009953814988
[37] Muller,E.,Sánchez,P.I.,Mulle,Y.,Bohm,K.:属性图子空间中离群节点的排名。2013年IEEE第29届国际数据工程研讨会(ICDEW),第216-222页。IEEE(2013)。doi:10.1109/ICDEW.2013.6547453
[38] Peng,Z.,Luo,M.,Li,J.,Liu,H.,Zheng,Q.:异常:一种用于属性网络异常检测的联合建模方法。收录于:IJCAI,第3513-3519页(2018年)。doi:10.5555/3304222.3304256
[39] Pfeiffer III,J.J.,Moreno,S.,La Fond,T.,Neville,J.,Gallagher,B.:属性图模型:用相关属性建模网络结构。摘自:第23届万维网国际会议记录,第831-842页。ACM(2014)。数字对象标识代码:10.1145/2566486.2567993
[40] Revelle,M.、Domeniconi,C.、Sweeney,M.和Johri,A.:在图表中寻找社区主题和成员。在:数据库中的机器学习和知识发现。计算机科学课堂讲稿,第9285卷,第625-640页。斯普林格(2015)。doi:10.1007/978-3-319-2325-7_38
[41] 她,Y。;Owen,AB,《使用非凸惩罚回归进行异常值检测》,美国统计协会,106,494,626-639(2011)·Zbl 1232.62068号 ·doi:10.198/jasa/2011.tm10390
[42] Tong,H.,Lin,C.Y.:非负剩余矩阵分解及其在图形异常检测中的应用。摘自:《2011年SIAM国际数据挖掘会议记录》,第143-153页。SIAM(2011)。doi:10.1137/1.9781611972818.13
[43] Von Luxburg,U.,《光谱聚类教程》,统计计算。,17, 4, 395-416 (2007) ·数字对象标识代码:10.1007/s11222-007-9033-z
[44] Wang,G.,Xie,S.,Liu,B.,Philip,S.Y.:基于评论图的在线商店评论垃圾邮件发送者检测。2011年IEEE第11届数据挖掘国际会议(ICDM),第1242-1247页。IEEE(2011)
[45] 黄,JJ;杜,R。;Jung,S。;Lee,G。;德雷克,B。;刘,Q。;Kang,S。;Park,H.,Mega:超图的多视图半监督聚类,Proc。VLDB捐赠,13,5,698-711(2020年)·doi:10.14778/3377369.3377378
[46] Wright,J.,Ganesh,A.,Rao,S.,Peng,Y.,Ma,Y.:稳健主成分分析:通过凸优化精确恢复损坏的低秩矩阵。摘自:《神经信息处理系统进展》,第2080-2088页(2009年)。doi:10.5555/2984093.2984326
[47] Xu,H.,Caramanis,C.,Sanghavi,S.:通过离群值追踪的稳健PCA。摘自:《神经信息处理系统进展》,第2496-2504页(2010年)。doi:10.5555/2997046.2997174·Zbl 1365.62228号
[48] Yu,R。;何,X。;Liu,Y.,Glad:社交媒体分析中的群体异常检测,ACM Trans。知识。发现。数据(TKDD),10,2,18(2015)·doi:10.1145/2811268
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。