×

概率频繁子树用于有效的图分类和检索。 (英语) Zbl 1475.68361号

摘要:频繁子图被证明是图分类和预测任务的强大特征。然而,由于模式枚举和图嵌入到频繁子图特征空间的计算复杂性,它们的实际应用受到了限制。我们提出了一种简单的概率技术来解决这两个限制。特别是,我们将模式语言限制为树,并通过用生成树的小随机样本替换事务图和查询图来放宽对挖掘算法完整性以及模式匹配算子正确性的要求。用这种方法,我们只考虑可以有效枚举的频繁子树的随机子集,称为概率频繁子树。我们对人工和基准分子图数据集的广泛经验评估表明,概率频繁子树可以在实际可行的时间内列出,并且它们的预测和检索性能甚至与完整频繁子图集的预测和搜索性能非常接近。我们还提出了不同的快速技术,用于计算将看不见的图嵌入(概率频繁)子树特征空间。这些算法利用了子图同构引起的树模式的偏序,并且,如我们的经验所示,与标准brute-force算法相比,需要更少的子树同构评估。我们还考虑了部分嵌入,即只需计算特征向量的一部分。特别是,我们提出了一种高效实用的算法,该算法大大减少了经典min-hashing算法所需的近似Jaccard相似性的模式匹配评估数量。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Broder,A.Z.(1997)。关于文件的相似性和包容性。序列的压缩和复杂性论文集,IEEE计算机学会(第21-29页)。电气与电子工程师协会。https://doi.org/10.109/sequence.1997.666900。
[2] 亚利桑那州布罗德;Charikar,M。;中楣,AM;Mitzenmacher,M.,Min-wise独立排列,《计算机与系统科学杂志》,60,630-659,(2000)·Zbl 0958.68047号 ·doi:10.1006/jcss.1999.1690
[3] Chang,CC;Lin,CJ,Libsvm:支持向量机库,《ACM智能系统与技术汇刊》,2011年第2期,第1-27页·数字对象标识代码:10.1145/1961189.1961199
[4] Chi,Y。;Muntz,RR;Nijssen,S。;Kok,JN,《频繁子树挖掘概述》,《基础信息学》,66,161-198,(2005)·Zbl 1096.68044号
[5] Deshpande,M。;Kuramochi,M。;北威尔士。;Karypis,G.,《基于频繁子结构的化合物分类方法》,《知识与数据工程学报》,第17期,第1036-1050页,(2005年)·doi:10.1109/tkde.2005.127
[6] Diestel,R.(2012年)。图论,数学研究生课文(第四版,第173卷)。柏林:斯普林格。
[7] Erdős,P.和Rényi,A.(1959)。关于随机图。数学出版物, \(6\)(290-297). ·Zbl 0092.15705号
[8] Garey,M.R.和Johnson,D.S.(1979年)。计算机与难处理性:NP-完备性理论指南旧金山:W.H.Freeman·Zbl 0411.68039号
[9] Gärtner,T.、Flach,P.和Wrobel,S.(2003)。关于图核:硬度结果和有效的替代品。在B.Schölkopf和M.K.Warmuth(编辑)中,计算学习理论和内核研讨会(COLT/kernel)年度会议记录,计算机科学课堂讲稿(第2777卷,第129-143页)。柏林:斯普林格。https://doi.org/10.1007/978-3-540-45167-9_11。 ·Zbl 1274.68312号
[10] Geppert,H。;Horváth,T。;Gärtner,T。;Wrobel,S。;Bajorath,J.,基于支持向量的机器排序显著提高了使用二维指纹和多个参考化合物进行相似性搜索的有效性,《化学信息与建模杂志》,48,742-746,(2008)·doi:10.1021/ci700461
[11] Horváth,T。;Ramon,J.,有界树宽图中的高效频繁连通子图挖掘,理论计算机科学,4112784-2797,(2010)·Zbl 1192.68483号 ·doi:10.1016/j.tcs.2010.03.030
[12] Horváth,T.、Bringmann,B.和Raedt,L.D.(2007年)。频繁超图挖掘。S.Muggleton、R.P.Otero和A.Tamaddoni-Nezhad(编辑),归纳逻辑程序设计(ILP)修订了计算机科学的论文、课堂讲稿(第4455卷,第244-259页)。柏林:斯普林格。https://doi.org/10.1007/978-3-540-73847-3_26 ·Zbl 1201.68088号
[13] Mannila,H。;Toivonen,H.,知识发现中的水平搜索和理论边界,数据挖掘和知识发现,1241-258,(1997)·doi:10.1023/a:1009796218281
[14] Nijssen,S。;Kok,JN,《频繁子图挖掘的gaston工具》,《理论计算机科学中的电子笔记》,12777-87,(2005)·doi:10.1016/j.entcs.2004.12.039
[15] Ralaivola,L。;斯旺达斯,SJ;Saigo,H。;Baldi,P.,《化学信息学的图形内核》,神经网络,18,1093-1110,(2005)·doi:10.1016/j.neunet.2005.07.009
[16] 沙米尔,R。;Tsur,D.,更快的子树同构,算法期刊,33267-280,(1999)·Zbl 0949.68122号 ·doi:10.1006/jagm.1999.1044
[17] 施,Q。;彼得森,J。;Dror,G.公司。;Langford,J。;斯莫拉,AJ;Vishwanathan,SVN,结构化数据的哈希核,机器学习研究杂志,102615-2637,(2009)·Zbl 1235.68188号 ·doi:10.1145/1577069.1755873
[18] Teixeira,C.H.C.、Silva,A.和Jr Meira,W.(2012年)。图形内核的米哈什指纹:在准确性、效率和压缩之间进行权衡。信息与数据管理杂志,3(3), 227-242. http://ser.lcc.ufmg.br/index.php/jidm/article/view/199。
[19] Welke,P.、Horváth,T.和Wrobel,S.(2016a)。概率频繁子树特征空间的二叉树。在T.Calders、M.Ceci和D.Malerba(编辑)中,发现科学学报(DS),计算机科学课堂讲稿(第9956卷,第67-82页)。https://doi.org/10.1007/978-3-319-46307-0_5。
[20] Welke,P.、Horváth,T.和Wrobel,S.(2016b)。概率频繁子树核。在M.Ceci、C.Loglisci、G.Manco、E.Masciari和Z.W.Ras(编辑)中,挖掘复杂模式的新前沿(NFMCP)修订了计算机科学的论文、课堂讲稿(第9607卷,第179-193页)。柏林:斯普林格。https://doi.org/10.1007/978-3-319-39315-5_12。
[21] Willett,P.,使用二维指纹进行基于相似性的虚拟筛查,《今日药物发现》,第11期,第1046-1053页,(2006年)·doi:10.1016/j.drudis.2006.10.005
[22] Wilson,D.B.(1996年)。生成随机生成树的速度比覆盖时间更快。G.L.Miller(编辑),ACM计算理论研讨会论文集(第296-303页)。ACM公司。https://doi.org/10.1145/237814.237880。 ·Zbl 0946.60070号
[23] 赵,P。;Yu,JX,图形数据库中的快速频繁自由树挖掘,万维网,11,71-92,(2008)·数字对象标识代码:10.1007/s11280-007-0031-z
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。