×

对象关系数据的基于模型的异常挖掘。 (英语) Zbl 1433.68375号

摘要:本文针对对象关系数据的情况,开发了基于模型的异常挖掘和离群点检测。对象关系数据表示一个复杂的异构网络,其中包含不同类型的对象、这些对象之间的链接以及这些链接的属性。我们遵循早已确立的例外模型挖掘(EMM)框架,该框架以前曾用于命题数据中的子组发现;我们的新贡献是为关系数据开发EMM。EMM利用机器学习模型进行异常挖掘:如果为对象数据学习的模型与为一般人群学习的模型不同,那么对象就是异常的。因此,在关系数据中,EMM可以用于检测单个异常值或异常对象。我们将EMM与最先进的统计关系模型发现方法相结合,以构建图形模型(贝叶斯网络),该模型紧凑地表示数据中的概率关联。我们研究了几个基于学习对象关系模型的outlieness度量,这些度量量化了潜在异常对象的关联模式与整个群体的关联模式的偏离程度。我们的方法在合成数据集和关于足球和曲棍球比赛、IMDb电影和致突变化合物的真实世界数据集上得到了验证。与基线方法相比,EMM方法在与新的轮廓度度量相结合时获得了最佳的检测精度。对足球和电影数据的实证评估表明,我们新的离群度指标和成功指标之间存在着强烈的相关性:我们的指标标记为不寻常的个人往往会取得不寻常的成功。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Achtert E、Kriegel H-P、Schubert E、Zimek A(2013)《利用三维平行坐标树进行交互式数据挖掘》。摘自:美国纽约州纽约市ACM数据管理特别利益小组会议记录,第1009-1012页。doi:10.1145/2463676.2463696
[2] Aggarwal CC(2013)离群值分析。纽约州施普林格市,ISBN 9781461463955。http://books.google.ca/books?id=900CkgEACAAJ ·Zbl 1291.68004号
[3] Akoglu L,McGlohon M,Faloutsos C(2010)《奇数球:在加权图中发现异常》。摘自:太平洋亚洲知识发现和数据挖掘会议记录,第410-421页。doi:10.1007/978-3642-13672-640
[4] Akoglu,L。;Tong,H。;Koutra,D.,《基于图形的异常检测和描述:一项调查》,Data Min Knowl Discov,29,3,626-688(2015)·doi:10.1007/s10618-014-0365-y
[5] 艾伯特·J。;格利克曼,ME;斯瓦茨,TB;Koning,RH,《体育统计方法和分析手册》(2017),博卡拉顿:CRC出版社,博卡拉顿
[6] Anderson G,Pfahringer B(2008)利用基于随机关系规则的命题化进行半监督学习。摘自:太平洋亚洲知识发现和数据挖掘会议记录,第494-502页。doi:10.1007/978-3-540-68125-043
[7] Angiulli,F。;格雷科,G。;Palopoli,L.,逻辑编程异常检测,ACM Trans-Comput logic,9,1-7,7(2004)·Zbl 1367.68314号
[8] 贝兰特,J。;Györfi,L。;Lugosi,G.,关于直方图密度估计中L1-和L2-误差的渐近正态性,Can J Stat,22,3,309-318(1994)·Zbl 0816.62037号 ·doi:10.2307/3315594
[9] 贝兰特,J。;Devroye,L。;吉尔菲(Györfi,L.)。;Vajda,I.,分区上发散测度的大偏差,J Stat Plan推断,93,1-2,1-16(2001)·兹比尔0996.62052 ·doi:10.1016/S0378-3758(00)00202-0
[10] Breunig M、Kriegel H-P、Ng RT、Sander J(2000)《LOF:识别基于密度的局部异常值》。摘自:ACM数据管理特别兴趣小组会议记录,第93-104页。doi:10.1145/342009.335388
[11] Cansado,A。;Soto,A.,《使用贝叶斯网络在大型数据库中进行无监督异常检测》,《Appl Artif Intell》,22,309-330(2008)·doi:10.1080/08839510801972801
[12] de Campos,L.,基于互信息和条件独立性测试的贝叶斯网络学习评分函数,J Mach Learn Res,7,2149-2187(2006)·Zbl 1222.62036号
[13] 多明戈斯,P。;Lowd,D.,《马尔可夫逻辑:人工智能的接口层》(2009),旧金山:摩根和克莱普尔出版社,旧金山·Zbl 1202.68403号
[14] 多明戈斯,P。;理查森,M。;盖托,L。;Taskar,B.,《马尔可夫逻辑:统计关系学习的统一框架》,《统计关系学习导论》(2007),剑桥:麻省理工学院出版社,剑桥·Zbl 1141.68054号
[15] Duivesteijn,W。;塞尺,AJ;Knobbe,A.,《例外模型挖掘》,Data Min Knowl Discov,30,1,47-98(2016)·Zbl 1411.68096号 ·文件编号:10.1007/s10618-015-0403-4
[16] Fawcett,T.,ROC分析简介,模式识别快报,27,8,861-874(2006)·doi:10.1016/j.patrec.2005.10.010
[17] Fisher,RA,关于从小样本推导出的相关系数的可能误差,Metron,1,3-32(1921)
[18] 高J,梁凤,樊伟,王C,孙毅,韩J(2010)论信息网络中的社区离群点及其有效检测。摘自:Proceedings ACM special interest group on knowledge discovery and data mining,New York,NY,USA,第813-822页。ACM公司。ISBN 978-1-4503-0055-1。数字对象标识代码:10.1145/1835804.1835907
[19] Garcia-del Barrio P,Pujol F(2004)《西班牙足球联赛中的薪酬与表现:谁能获得预期的垄断租金?》?2004年3月,纳瓦拉大学经济与商业管理学院,教员工作文件05/04。https://ideas.repec.org/p/una/unccee/wp0504.html
[20] Getoor L(2001)从关系数据中学习统计模型。斯坦福大学计算机科学系博士论文
[21] 盖托,L。;Taskar,B.,《统计关系学习导论》(2007),剑桥:麻省理工学院出版社,剑桥·Zbl 1141.68054号
[22] 霍尔,S。;Szymanski,S。;《测试团队绩效与工资之间的因果关系:美国职业棒球大联盟和英国足球案例》,《体育经济学杂志》,第3期,第2期,第149-168页(2002年)·doi:10.1177/152700250200300204
[23] Halpern,JY,《概率的一阶逻辑分析》,Artif Intell,46,3,311-350(1990)·Zbl 0723.03007号 ·doi:10.1016/0004-3702(90)90019-V
[24] 赫克曼博士。;米克,C。;科勒,D。;盖托,L。;Taskar,B.,概率实体关系模型、PRM和板块模型,统计关系学习导论(2007),剑桥:麻省理工学院出版社,剑桥·Zbl 1141.68054号
[25] Horváth T、Alexin Z、Gyimóthy T、Wrobel S(1999)《不同学习方法在匈牙利语词性标注中的应用》。In:Dzeroski S,Flach P(eds)Inductive logic programming:第九届国际研讨会。ILP-99漂白。柏林施普林格,第128-139页
[26] Horváth,T。;弗罗贝尔,S。;Bohnebeck,U.,基于关系实例的列表和术语学习,Mach Learn,43,1,53-80(2001)·Zbl 0988.68039号 ·doi:10.1023/A:1007668716498
[27] Khosravi H,Man T,Hu J,Gao E,Mar R,Schulte O(2019)Factorbase代码。https://github.com/sfu-ml-lab/FactorBase。2016年11月15日访问
[28] Khot T,Natarajan S,Shavlik JW(2014),关系一类分类:非参数方法。摘自:加拿大魁北克省魁北克市人工智能进步程序协会,第2453-2459页。http://www.aaai.org/ocs/index.php/aaai/AAAI14/paper/view/8578。2017年12月10日访问
[29] Kimmig,A。;米哈尔科娃,L。;Getoor,L.,《提升图形模型:一项调查》,《马赫学习》,99,1,1-45(2014)·Zbl 1320.62016年 ·doi:10.1007/s10994-014-5443-2
[30] Kirsten,M。;Wrobel,S。;Horváth,T。;Dzeroski,S。;Lavrac,N.,关系学习和聚类的基于距离的方法,关系数据挖掘,213-232(2001),柏林:施普林格出版社,柏林·Zbl 1003.68039号
[31] Knobbe,AJ,多关系数据挖掘(2006),阿姆斯特丹:IOS出版社,阿姆斯特朗·Zbl 1138.68376号
[32] Koh JLY,Lee ML,Hsu W,Ang WT(2008)XML中基于相关性的属性离群值检测。收录:墨西哥坎昆国际开放和远程教育理事会会议记录。IEEE,第1522-1524页。http://ieeexplore.ieee.org/xpl/mostRecentIssue.jsp?punumber=4492792
[33] Koller D,Pfeffer A(1997)面向对象的贝叶斯网络。收录:Geiger D,Shenoy PP(编辑)《人工智能中的不确定性》。Morgan Kaufmann,Burlington,第302-313页。arXiv:1302.1554
[34] Kramer S,Lavrac N,Flach P(2000)关系数据挖掘的命题方法。在:Dzeroski S(ed)关系数据挖掘中。柏林施普林格,第262-286页
[35] Kuzelka O,Zelezn公司F(2008)Hifi:通过层次特征构建的易处理命题。收录:最新论文,归纳逻辑编程,第69页
[36] Liu G,Schulte O(2018)冰上曲棍球深度强化学习,用于情境球员评估。摘自:人工智能国际联合会议论文集。人工智能组织国际联合会议,第3442-3448页。doi:10.24963/ijcai.2018/478
[37] 梅尔沃特,J。;文斯,C。;Berghe,GV;Blockeel,H。;Causmaecker,PD,《关系数据中的离群点检测:地理信息系统中的案例研究》,Expert Syst Appl,39,5,4718-4728(2012)·doi:10.1016/j.eswa.2011.09.125
[38] Müller E,Assent I,Iglesias P,Müelle Y,Böhm K(2012)通过子空间分析在多个数据视图中进行离群值排名。摘自:数据挖掘国际会议论文集(ICDM),第529-538页
[39] 镍,M。;墨菲,K。;Tresp,V。;Gabrilovich,E.,《知识图的关系机器学习综述》,IEEE Proc,104,1,11-33(2016)·doi:10.1109/JPROC.2015.2483592
[40] 尼尔森,F。;Nock,R.,《关于近似f发散的卡方距离和高阶卡方距离》,IEEE Signal Process Lett,21,1,10-13(2014)·doi:10.1109/LSP.2013.2288355
[41] 诺瓦克,PK;拉夫拉奇,N。;Webb,GI,监管描述性规则发现:对比集、新兴模式和子组挖掘的统一调查,J Mach Learn Res,10,377-403(2009)·Zbl 1235.68178号
[42] Pearl,J.,《智能系统中的概率推理》(1988),伯灵顿:Morgan Kaufmann,Burlington
[43] Peralta V(2007)《电影镜头和IMDb的提取和整合》。技术报告。备选项目交付方法
[44] Perovsek M,Vavpetic A,Cestnik B,Lavrac N(2013)关系数据挖掘的一种文字化方法。摘自:DS会议录,计算机科学课堂讲稿,第141-154页。新加坡施普林格。doi:10.1007/978-3-642-40897-7_10
[45] Poole D(2003)一阶概率推断。摘自:《人工智能国际联合会议论文集》,第985-991页
[46] Ramaswamy S,Rastogi R,Shim K(2000)从大型数据集中挖掘离群值的高效算法。摘自:ACM数据管理特别兴趣小组会议记录,第427-438页。数字对象标识代码:10.1145/342009.335437
[47] Riahi F,Schulte O(2015a)基于模型的对象关系数据异常值检测。摘自:计算机智能会议论文集系列。IEEE,第1590-1598页。doi:10.1109/SSCI.2015.224
[48] Riahi F,Schulte O(2015b)代码和数据集。ftp://ftp.fas.sfu.ca/pub/cs/oschulte/CodesAndDatasets/。2016年11月15日访问
[49] Riahi F,Schulte O(2016)多关系数据中无监督离群值检测的命题化。摘自:《佛罗里达州人工智能国际会议论文集》,美国佛罗里达州基拉戈,第448-453页。http://www.aaai.org/ocs/index.php/FLAIRS/FLAIRS16/paper/view/12786。2017年1月2日访问
[50] Riedel S,Yao L,McCallum A,Marlin BM(2013)《使用矩阵分解和通用模式的关系提取》。摘自:计算语言学协会北美分会年会论文集,美国佐治亚州亚特兰大市威斯汀桃树广场酒店,第74-84页。http://aclweb.org/选集/N/N13/N13-1008.pdf
[51] Routley K,Schulte O(2015)一个用于评估冰球运动员动作的马尔可夫博弈模型。在:《人工智能的不确定性》,第782-791页
[52] Sarawagi S、Agrawal R、Megiddo N(1998),OLAP数据立方体的发现驱动探索。收录:《数据库技术扩展会议录》,西班牙巴伦西亚,第168-182页。柏林施普林格。doi:10.1007/BFb0100984
[53] Schulte O(2011)适用于关系数据的贝叶斯网络的易处理伪似然函数。摘自:《工业和应用数学学报》,第462-473页。doi:10.1137/1.9781611972818.40
[54] Schulte O,Ghoma S(2017)多关系数据的局部一致贝叶斯网络分数。摘自:《人工智能国际联合会议论文集》,澳大利亚墨尔本,第2693-2700页。doi:10.24963/ijcai.2017/375
[55] 舒尔特,O。;Khosravi,H.,《通过格搜索学习关系数据的图形模型》,《Mach Learn》,第88、3、331-368页(2012年)·文件编号:10.1007/s10994-012-5289-4
[56] Schulte O,Routey K(2014)关系分类的聚合预测与聚合特征。地址:Proceedings center for information development management,Orlando,FL,USA,pp 121-128。电气与电子工程师协会。doi:10.1109/CIDM.2014.7008657
[57] 舒尔特,O。;Khosravi,H。;柯克帕特里克,A。;高,T。;Zhu,Y.,用贝叶斯网络建模关系统计,Mach Learn,94,105-125(2014)·Zbl 1319.68190号 ·doi:10.1007/s10994-013-5362-7
[58] Sing T,Sander O,Beerenwinkel N,Lengauer T(2012)ROCR:可视化评分分类器的性能。http://cran.r-project.org/package=ROCR。2016年11月15日访问
[59] 孙毅,韩杰,赵鹏(2009)Rankclus:将聚类与排序相结合进行异构信息网络分析。摘自:《数据库技术扩展会议录》,美国纽约州纽约市,第565-576页。ACM公司
[60] Tang G,Bailey J,Pei J,Dong G(2013)从类别关系数据中挖掘多维上下文离群值。摘自:《科学与统计数据库管理会议论文集》,第1171-1192页。doi:10.3233/IDA-150764
[61] Tuffery S(2011)决策数据挖掘和统计。计算统计学中的威利级数。http://ca.wiley.com/WileyCDA/WileyTitle/productCd-0470688297.html。2016年11月15日访问·兹比尔1216.62005
[62] Wang DZ,Michelakis E,Garofalakis M,Hellerstein JM(2008)BayesStore:使用概率图形模型管理大型不确定数据存储库。In:大型数据库会议记录。VLDB捐赠,第340-351页。doi:10.144778/1453856.1453896。http://www.vldb.org/pvldb/1/1453896.pdf。访问日期:2016年11月15日
[63] Xiang R,Neville J(2011)《单网络关系学习:渐近分析》。摘自:《人工智能与统计学报》,第779-788页。http://proceedings.mlr.press/v15/siang11a/xiang11a.pdf。2016年11月15日访问
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。