×

外平面图的多项式最大公共子图算法及其在化学信息学中的应用。 (英语) Zbl 1357.68184号

摘要:结构化数据的度量在机器学习社区中受到越来越多的关注。图为结构化数据提供了一种自然的表示,但对图的许多操作在计算上都很困难。在本文中,我们提出了一种多项式时间算法,用于计算两个外平面图的最大公共子图。该算法利用了保持块和桥的子图同构,具有显著的效率优势,并且从化学角度出发。我们专注于学习结构-活性关系的应用,其中的任务是预测分子的化学活性。我们展示了如何使用该算法构建结构化数据的度量,并且我们评估了该度量,更广泛地说,还评估了60个分子数据集上的保留块和桥的匹配算子,从预测性能和效率方面获得了最先进的结果。

MSC公司:

68T05型 人工智能中的学习和自适应系统
05C85号 图形算法(图形理论方面)
68瓦40 算法分析
92E10型 分子结构(图形理论方法、微分拓扑方法等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Akutsu,T.:一种多项式时间算法,用于寻找几乎有界树的最大公共子图。IEICE传输。芬丹。电子。Commun公司。计算。科学。E76-A1488-1493(1993)
[2] Bringmann,B.,Zimmermann,A.,De Raedt,L.,Nijssen,S.:不要害怕更简单的模式。摘自:《第十届欧洲数据库知识发现原则与实践会议记录》,第55-66页(2006年)·Zbl 1006.68857号
[3] Bunke,H.,Shearer,K.:基于最大公共子图的图距离度量。模式识别。莱特。19(3-4), 255-259 (1998) ·Zbl 0905.68128号 ·doi:10.1016/S0167-8655(97)00179-7
[4] Cao,Y.,Jiang,T.,Girke,T.:搜索和预测类药物化合物的最大通用子结构算法。生物信息学24(13),i366-i374(2008)·doi:10.1093/bioinformatics/btn186
[5] Ceroni,A.,Costa,F.,Frasconi,P.:通过二维和三维分解核对小分子进行分类。生物信息学23(16),2038-2045(2007)·doi:10.1093/bioinformatics/btm298
[6] Chaoji,V.,Al Hasan,M.,Salem,S.,Besson,J.,Zaki,M.J.:折纸:挖掘代表性正交图模式的一种新的有效方法。统计分析。数据最小值1(2),67-84(2008)·Zbl 07260185号 ·doi:10.1002/sam.10004
[7] Chi,Y.,Muntz,R.R.,Nijssen,S.,Kok,J.N.:频繁子树挖掘概述。芬丹。通知。66(1-2), 161-198 (2005) ·Zbl 1096.68044号
[8] Conte,D.,Foggia,P.,Sansone,C.,Vento,M.:模式识别中的图形匹配三十年。国际J模式识别。Artif公司。智力。18(3), 265-298 (2004) ·doi:10.1142/S0218001404003228
[9] De Raedt,L.:逻辑和关系学习。施普林格(2008)·兹比尔1203.68145
[10] De Raedt,L.,Ramon,J.:从一般关系导出距离度量。模式识别。莱特。30(3), 187-191 (2009) ·doi:10.1016/j.patrec.2008.09.007
[11] Demšar,J.:多个数据集上分类器的统计比较。J.马赫。学习。第7号决议,1-30(2006年)·Zbl 1222.68184号
[12] Deshpande,M.、Kuramochi,M.,Wale,N.、Karypis,G.:对化合物进行分类的常见亚结构方法。IEEE传输。知识。数据工程17(8),1036-1050(2005)·doi:10.1109/TKDE.2005.127
[13] Diestel,R.:图论。Springer-Verlag(2000)·Zbl 0945.05002号
[14] Garey,M.R.,Johnson,D.S.:《计算机与难治性:NP-完备性理论指南》。弗里曼公司(1979)·Zbl 0411.68039号
[15] Gärtner,T.:结构化数据的内核。《世界科学》(2008)·Zbl 1168.68039号
[16] Hansch,C.,Maolney,P.P.,Fujita,T.,Muir,R.M.:苯氧乙酸生物活性与hammett取代基常数和分配系数的相关性。《自然》194178-180(1962)·数字对象标识代码:10.1038/194178b0
[17] He,H。;Singh,AK,Graphrank:特征空间中重要子图的统计建模和挖掘,885-890(2006),华盛顿特区
[18] Helma,C.、Kramer S.、De Raedt,L:非通用化合物致突变亚结构和构效关系鉴定的数据挖掘和机器学习技术。化学杂志。信息模型。44(4), 1402-141 (2004) ·doi:10.1021/ci034254q
[19] Hopcroft,J.E.,Karp,R.M.:二部图中最大匹配的n5/2算法。SIAM J.计算。2, 225-231 (1973) ·兹比尔0266.05114 ·doi:10.1137/02019年2月20日
[20] Horváth,T.、Gärtner,T.和Wrobel,S.:预测图挖掘的循环模式内核。收录于:KDD’04:第十届ACM SIGKDD知识发现和数据挖掘国际会议记录,第158-167页(2004)
[21] Horváth,T.,Ramon,J.,Wrobel,S.:外平面图中的频繁子图挖掘。收录于:KDD’06:第十二届ACM SIGKDD知识发现和数据挖掘国际会议记录,第197-206页。宾夕法尼亚州费城(2006)
[22] Horváth,T.,Ramon,J.,Wrobel,S.:外平面图中的频繁子图挖掘。数据最小知识。迪斯科。21(3), 472-508 (2010) ·doi:10.1007/s10618-009-0162-1
[23] Joachims,T.:学习使用支持向量机分类文本:方法、理论和算法。斯普林格(2002)·Zbl 0466.68053号
[24] Johnson,M.A.,Maggiora,G.M.:分子相似性的概念和应用。约翰·威利(1990)
[25] Karunaatne,T.,Boström,H.:学习通过图形命题对结构化数据进行分类。摘自:第二届IASTED国际计算智能会议记录,第393-398页(2006)·Zbl 1222.68184号
[26] King,R.D.,Muggleton,S.,Srinivasan,A.,Sternberg,M.J.E.:由机器学习导出的结构-活性关系:使用原子及其键连接性通过归纳逻辑编程预测诱变性。程序。国家。阿卡德。科学。93, 438-442 (1996) ·doi:10.1073/pnas.93.1.438
[27] Koch,I.:枚举两个图中的所有连通最大公共子图。西奥。计算。科学。250(1-2), 1-30 (2001) ·Zbl 0952.68105号 ·doi:10.1016/S0304-3975(00)00286-3
[28] Kramer,S.、De Raedt,L.、Helma,C.:HIV数据中的分子特征挖掘。摘自:第七届ACM SIGKDD知识发现和数据挖掘国际会议记录(KDD-01),第136-143页。ACM出版社(2001)·Zbl 0949.68122号
[29] Kramer,S.,Lavrać,N.,Flach,P.:关系数据挖掘的命题方法。收录于:Díeroski,S.,Lavrać,N.(编辑)《关系数据挖掘》,第262-291页。Springer-Verlag(2001)·Zbl 1003.68039号
[30] Lingas,A.:立方时间中双连通外平面图的子图同构。西奥。计算。科学。63, 295-302 (1989) ·Zbl 0681.68090号 ·doi:10.1016/0304-3975(89)90011-X
[31] Maunz,A。;赫尔马,C。;Kramer,S.,《使用主干细化类的大尺度图挖掘》,617-626(2009),纽约州纽约市·doi:10.1145/1557019.1557089
[32] McGregor,J.J.:回溯搜索算法和最大公共子图问题。柔和。实际。实验12,23-34(1982)·Zbl 0466.68053号 ·doi:10.1002/spe.4380120103
[33] Mitchell,S.L.:识别外平面图和最大外平面图的线性算法。信息处理。莱特。9(5),229-232(1979)·Zbl 0444.68055号 ·doi:10.1016/0020-0190(79)90075-9
[34] Munkres,J.:分配和运输问题的算法。J.Soc.Ind.申请。数学。5(1), 32-38 (1957) ·Zbl 0083.15302号 ·数字对象标识代码:10.1137/0105003
[35] Nijssen,S.,Kok,J.N.:频繁结构采矿的快速启动可以带来不同。摘自:第十届ACM SIGKDD知识发现和数据挖掘国际会议(KDD)会议记录,第647-652页(2004)
[36] Raymond,J.,Gardiner,E.,Willett,P.:Rascal:使用最大公共边子图计算图形相似性。计算。J.45,631-644(2002)·Zbl 1037.68101号 ·doi:10.1093/comjnl/45.6.631
[37] Raymond,J.,Willett,P.:基于图形和指纹的相似性度量在二维化学结构数据库虚拟筛选中的有效性。J.计算。辅助分子设计。16, 59-71 (2002) ·doi:10.1023/A:1016387816342
[38] Raymond,J.,Willett,P.:化学结构匹配的最大公共子图同构算法。J.计算。辅助分子设计。16, 521-533 (2002) ·doi:10.1023/A:1021271615909
[39] Schietgat,L.,Ramon,J.,Bruynooghe,M.,Blockel,H.:一种用于小分子分类的高效可计算的基于图形的度量。摘自:《第十一届发现科学国际会议论文集》,人工智能讲稿第5255卷,第197-209页(2008)
[40] Schietgat,L.,Costa,F.,Ramon,J.,De Raedt,L.:通过最大公共子图抽样进行有效特征构建。机器。学习。83(2), 137-161 (2011) ·Zbl 1237.68162号 ·doi:10.1007/s10994-010-5193-8
[41] Shamir,R.,Tsur,D.:更快的子树同构。J.算法33(2),267-280(1992)·Zbl 0949.68122号 ·doi:10.1006/jagm.1999.1044
[42] Shearer,K.,Bunke,H.,Venkatesh,S.:使用决策树通过最大公共子图检测进行视频索引和相似性检索。模式识别。34(5), 1075-1091 (2001) ·Zbl 1006.68857号 ·doi:10.1016/S0031-3203(00)00048-0
[43] Shervashidze,N.,Borgwardt,K.:图上的快速子树核。收录于:Bengio,Y.,Schuurmans,D.,Lafferty,J.,Williams,C.K.I.,Culotta,A.(编辑)《神经信息处理系统进展》,第22卷,第1660-1668页(2009)·Zbl 0444.68055号
[44] Swamidass,S.J.、Chen,J.、Bruand,J.,Phung,P.、Ralaivola,L.、Baldi,P.:小分子的核以及诱变性、毒性和抗癌活性的预测。生物信息学21,i359-i368(2005)·doi:10.1093/bioinformatics/bti1055
[45] Syslo,M.:外平面图的子图同构问题。西奥。公司。科学。17(1), 91-97 (1982) ·兹伯利0522.68061 ·doi:10.1016/0304-3975(82)90133-5
[46] Wale,N.,Watson,I.A.,Karypis,G.:化合物检索和分类描述符空间的比较。知识。信息系统。14347-375(2008年)·数字对象标识代码:10.1007/s10115-007-0103-5
[47] Wilcoxon,F.:通过排名方法进行的个体比较。生物统计学1,80-83(1945)·doi:10.2307/3001968
[48] Willett,P.:使用2D指纹进行基于相似性的虚拟筛选。药物研发。今天11(23/24),1046-1051(2006)·doi:10.1016/j.drudis.2006.10.005
[49] Yan,X.,Han,J.:gSpan:基于图的子结构模式挖掘。摘自:2002年IEEE国际数据挖掘会议记录(ICDM 2002),第721-724页。IEEE计算机学会(2002)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。