×

通过最大公共子图采样有效地构造特征。 (英语) Zbl 1237.68162号

摘要:在分子数据集中进行特征构建和预测学习的标准方法是使用计算成本高昂的图形挖掘技术,并使用频率或相关性度量来偏向特征搜索探索。然后,这些特征通常用于预测模型中,这些预测模型可以使用SVM或决策树等构建。我们采取了不同的方法:不是挖掘所有最佳局部模式,而是从成对最大公共子图集中提取特征。从多项式时间内的外平面例子中,在块和桥保持子图同构的情况下计算最大公共子图。我们在NCI的60个基准数据集上实证观察到,当使用最大公共子图特征而不是相关的局部模式时,预测性能显著提高。此外,我们还表明,当我们随机采样从中提取最大公共子图的成对图时,我们获得了一组较小的特征,这些特征仍然允许与穷尽枚举所有可能模式的方法相同的预测性能。采样策略是预测性能略有下降(尽管仍与最先进的方法相当)和运行时显著减少(在流行的中等规模化学信息数据集上为两个数量级)之间的一个很好的折衷方案。这表明最大公共子图是有趣且有意义的特征。

MSC公司:

68T05型 人工智能中的学习和自适应系统
92C40型 生物化学、分子生物学
68兰特 计算机科学中的图论(包括图形绘制)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Ben-David,S.、Eiron,N.和Simon,H.U.(2002年)。通过嵌入欧氏半空间学习的局限性。机器学习研究杂志,3441-461·Zbl 1084.68551号 ·doi:10.1162/153244303321897681
[2] Bringmann,B.、Zimmermann,A.、Raedt,L.D.和Nijssen,S.(2006)。不要害怕更简单的模式。第十届欧洲数据库知识发现原则与实践会议论文集(第55-66页)。
[3] Bunke,H.和Shearer,K.(1998年)。基于最大公共子图的图距离度量。模式识别字母,19,255-259·Zbl 0905.68128号 ·doi:10.1016/S0167-8655(97)00179-7
[4] Ceroni,A.、Costa,F.和Frasconi,P.(2007年)。通过二维和三维分解核对小分子进行分类。生物信息学,23(16),2038-2045·doi:10.1093/bioinformatics/btm298
[5] Chaoji,V.、Al Hasan,M.、Salem,S.、Besson,J.和Zaki,J.(2008年)。折纸:一种挖掘具有代表性的正交图模式的新颖而有效的方法。统计分析与数据挖掘,1(2),67-84·Zbl 07260185号 ·doi:10.1002/sam.10004
[6] De Raedt,L.(2008)。逻辑和关系学习。柏林:斯普林格·Zbl 1203.68145号 ·doi:10.1007/978-3-540-68856-3
[7] De Raedt,L.和Ramon,J.(2009年)。从一般性关系推导距离度量。模式识别字母,30(3),187-191·Zbl 1197.47067号 ·doi:10.1016/j.patrec.2008.09.007
[8] Demšar,J.(2006)。多个数据集上分类器的统计比较。机器学习研究杂志,7,1-30·Zbl 1222.68184号
[9] Deshpande,M.、Kuramochi,M.,Wale,N.和Karypis,G.(2005年)。常用的基于子结构的化合物分类方法。IEEE知识与数据工程汇刊,17(8),1036-1050·doi:10.1109/TKDE.2005.127
[10] Diestel,R.(2000)。图论。柏林:斯普林格·Zbl 0945.05002号
[11] Garey,M.R.和Johnson,D.(1979年)。计算机与难处理性:NP-完备性理论指南。纽约:弗里曼·Zbl 0411.68039号
[12] Gärtner,T.(2005)。结构化数据的内核。德国波恩大学博士论文·Zbl 1168.68039号
[13] Hand,D.J.(2009)。衡量分级机性能:ROC曲线下面积的一致替代方案。机器学习,77(1),103-123·兹比尔1470.62085 ·doi:10.1007/s10994-009-5119-5
[14] He,H。;Singh,A.K.,Graphrank:特征空间中重要子图的统计建模和挖掘,华盛顿特区,美国,拉斯阿拉米托斯·doi:10.1109/ICDM.2006.79
[15] Horváth,T.、Gärtner,T.和Wrobel,S.(2004)。用于预测图挖掘的循环模式核。在KDD’04:第十届ACM SIGKDD知识发现和数据挖掘国际会议记录(第158-167页)。
[16] Horváth,T.、Ramon,J.和Wrobel,S.(2006)。外平面图中的频繁子图挖掘。《第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,宾夕法尼亚州费城,2006年8月,第197-206页。
[17] Joachims,T.(2002)。学习使用支持向量机对文本进行分类:方法、理论和算法。柏林:斯普林格。
[18] Karunaatne,T.和Boström,H.(2006)。学习通过图命题化对结构化数据进行分类。第二届IASTED国际计算智能会议论文集(第393-398页)·Zbl 1222.68184号
[19] 克莱默,S。;Raedt,L。;Helma,C.,《HIV数据中的分子特征挖掘》,136-143(2001),纽约·数字对象标识代码:10.1145/502512.502533
[20] 克莱默,S。;拉夫拉奇,N。;弗拉奇,P。;Džeroski,S.(编辑);Lavrač,N.(编辑),关系数据挖掘的命题方法,262-291(2001),柏林·Zbl 1003.68039号
[21] Munkres,J.(1957年)。分配和运输问题的算法。《工业和应用数学学会杂志》,5(1),32-38·Zbl 0083.15302号 ·数字对象标识代码:10.1137/0105003
[22] Plotkin,G.,关于归纳推广的进一步说明,第6期,101-124(1971),爱丁堡·Zbl 0261.68042号
[23] Provost,F。;Fawcett,T.,《分类器性能的分析和可视化:不精确类和成本分布下的比较》,43-48(1998),门洛·帕克
[24] Raymond,J.和Willett,P.(2002年)。用于化学结构匹配的最大公共子图同构算法。计算机辅助分子设计杂志,16,521-533·doi:10.1023/A:1021271615909
[25] Schietgat,L。;Ramon,J。;Bruynooghe,M。;Blockeel,H.,《一种高效可计算的基于图形的小分子分类量度》,第5255号,197-209(2008),柏林
[26] 塞巴格,M。;拉夫拉奇,N.(编辑);Díeroski,S.(编辑),一阶逻辑中的距离归纳,第1297、264-272号(1997),柏林
[27] Swamidass,S.J.、Chen,J.、Bruand,J.,Phung,P.、Ralaivola,L.和Baldi,P.(2005)。小分子核的诱变性、毒性和抗癌活性预测。生物信息学,21(suppl_1),359-368·doi:10.1093/bioinformatics/bti1055
[28] Wale,N.、Watson,I.和Karypis,G.(2008)。用于化合物检索和分类的描述符空间的比较。知识和信息系统,14347-375·数字对象标识代码:10.1007/s10115-007-0103-5
[29] Watanabe,S.(1960年)。多元相关的信息理论分析。IBM研究与开发杂志,4(1),66-82·Zbl 0097.35003号 ·数字对象标识代码:10.1147/rd.41.0066
[30] Willett,P.(2006)。使用2D指纹进行基于相似性的虚拟筛选。今日药物发现,11(23/24),1046-1051·doi:10.1016/j.drudis.2006.10.005
[31] 严,X。;Han,J.,gSpan:基于图的子结构模式挖掘,日本,拉斯阿拉米托斯
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。