×

gBoost:用于图形分类和回归的数学编程方法。 (英语) Zbl 1470.68167号

摘要:图挖掘方法列举了频繁出现的子图模式,这些子图模式可以作为后续分类或回归的特征。然而,对于给定的学习问题,频繁模式不一定能提供信息。我们提出了一种逐步收集信息模式的数学编程增强方法(gBoost)。与AdaBoost相比,gBoost可以用更少的迭代次数构建预测规则。为了将boosting方法应用于图形数据,开发了一种基于DFS代码树的分枝定界模式搜索算法。构造的搜索空间在以后的迭代中被重用,以最小化计算时间。我们的方法比基于频繁子结构挖掘的简单方法学习效率更高,因为输出标签被用作修剪搜索空间的额外信息源。此外,通过设计数学程序,可以在不修改模式搜索算法的情况下解决广泛的机器学习问题。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68兰特 计算机科学中的图论(包括图形绘制)
68吨10 模式识别、语音识别
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abiteboul,S.、Buneman,P.和Suciu,D.(2000年)。网络数据:从关系到半结构化数据和XML。圣马特奥:摩根·考夫曼。
[2] Borgwardt,K.M.、Ong,C.S.、Schönauer,S.、Vishwanathan,S.V.N.、Smola,A.J.和Kriegel,H.P.(2006年)。通过图核预测蛋白质功能。生物信息学,21(补充1),i47-i56。
[3] Boyd,S.和Vandenberghe,L.(2004)。凸优化。剑桥:剑桥大学出版社·Zbl 1058.90049号
[4] Bringmann,B.、Zimmermann,A.、Raedt,L.D.和Nijssen,S.(2006)。不要害怕更简单的模式。第十届欧洲数据库知识发现原则与实践会议(PKDD)(第55-66页)。
[5] 蔡,L。;Hofmann,T.,《支持向量机分层文档分类》,78-87(2004),纽约
[6] Cohen,W.W.,《快速有效规则归纳》,115-123(1995),圣马特奥
[7] Demiriz,A.、Bennet,K.P.和Shawe-Taylor,J.(2002)。通过列生成进行线性编程增强。机器学习,46(1-3),225-254·Zbl 0998.68105号 ·doi:10.1023/A:1012470815092
[8] du Merle,O.、Villeneuve,D.、Desrosiers,J.和Hansen,P.(1999)。稳定柱生成。离散数学,194,229-237·Zbl 0949.90063号 ·doi:10.1016/S0012-365X(98)00213-1
[9] Duran,J.L.、Leland,B.A.、Henry,D.R.和Nourse,J.G.(2002)。重新优化用于药物发现的MDL密钥。化学信息与计算机科学杂志,42(6),1273-1280。
[10] Durbin,R.、Eddy,S.、Krogh,A.和Mitchison,G.(1998年)。生物序列分析:蛋白质和核酸的概率模型。剑桥:剑桥大学出版社·Zbl 0929.92010号
[11] E.弗兰克。;Witten,I.H.,《在不进行全局优化的情况下生成精确的规则集》,114-151(1998),圣马特奥
[12] Freund,Y.和Schapire,R.E.(1997)。在线学习的决策理论推广及其在助推中的应用。计算机与系统科学杂志,55(1),119-139·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[13] Fröhrich,H.、Wegner,J.、Sieker,F.和Zell,Z.(2006年)。属性化分子图的核函数——一种新的基于相似性的分类和回归ADME预测方法。QSAR与组合科学,25(4),317-326·doi:10.1002/qsar.200510135
[14] Gärtner,T。;弗拉奇,P。;Wrobel,S.,《关于图核:硬度结果和有效替代品》,129-143(2003),柏林·Zbl 1274.68312号
[15] Gasteiger,J.和Engel,T.(2003)。化学信息学:一本教科书。纽约:Wiley-VCH。 ·doi:10.1002/9783527618279
[16] 滨田,M.,津田,K.,久多,T.,金,T.和朝井,K.(2006)。从未对齐的RNA序列中挖掘频繁的茎模式。生物信息学,22,2480-2487·doi:10.1093/bioinformatics/btl431
[17] Helma,C.、Cramer,T.、Kramer,S.和Raedt,L.D.(2004年)。数据挖掘和机器学习技术,用于识别非通用化合物的致突变性亚结构和构效关系。化学信息与计算机科学杂志,441402-1411。
[18] Hong,H.、Fang,H、Xie,Q.、Perkins,R.、Sheehan,D.M.和Tong,W.(2003)。比较分子场分析(CoMFA)模型使用大量不同的天然、合成和环境化学品与雄激素受体结合。环境研究中的SAR和QSAR,14(5-6),373-388·网址:10.1080/10629360310001623962
[19] Horváth,T。;Gärtner,T。;Wrobel,S.,预测图挖掘的循环模式核,158-167(2004),纽约·doi:10.1145/1014052.1014072
[20] Inokuchi,A.,从一组标记图中挖掘广义子结构,415-418(2005),洛斯·阿拉米托斯
[21] James,C.A.、Weininger,D.和Delany,J.(2004)。日光理论手册。
[22] 鹿岛,H。;Tsuda,K。;Inokuchi,A.,标记图之间的边缘化核,321-328(2003),Menlo Park
[23] Kazius,J.、Nijssen,S.、Kok,J.,Bäck,T.和Ijzerman,A.P.(2006)。使用精细化学表征的下部结构采矿。《化学信息与建模杂志》,46,597-605·doi:10.1021/ci0503715
[24] Kohavi,R.和John,G.H.(1997年)。特征子集选择的包装器。人工智能,1-2273-324·Zbl 0904.68143号 ·doi:10.1016/S0004-3702(97)00043-X
[25] Kudo,T。;Maeda,E。;Matsumoto,Y.,《增强在图形分类中的应用》,729-736(2005),剑桥
[26] Le,Q.V。;Smola,A.J。;Gärtner,T.,《更简单的基于知识的支持向量机》,521-528(2006),纽约·doi:10.1145/1143844.1143910
[27] Luenberger,D.G.(1969年)。向量空间法优化。纽约:Wiley·Zbl 0176.12701号
[28] Mahé,P.、Ueda,N.、Akutsu,T.、Perret,J.-L.和Vert,J.-P.(2005)。用支持向量机进行分子结构-活性关系分析的图形核。《化学信息与建模杂志》,45939-951·doi:10.1021/ci050039t
[29] Mahé,P.、Ralaivola,L.、Stoven,V.和Vert,J.-P.(2006年)。支持向量机虚拟筛选的药效团核。《化学信息与建模杂志》,46(5),2003-2014年·doi:10.1021/ci060138m
[30] Morishita,S.(2001)。有效地计算最佳假设以进行助推。《发现科学》(第471-481页)·Zbl 1052.68674号
[31] Morishita,S.和Sese,J.(2000)。使用统计度量修剪遍历项集格。《ACM SIGACT-SIGMOD-SIGART数据库系统(PODS)研讨会论文集》(第226-236页)。
[32] Nijssen,S。;Kok,J.N.,《频繁结构采矿的快速启动可以产生影响》,647-652(2004),纽约·doi:10.1145/1014052.1014134
[33] Quinlan,J.R.(1993)。C4.5:机器学习程序。圣马特奥:摩根·考夫曼。
[34] Ralaivola,L.、Swamidass,S.J.、Saigo,H.和Baldi,P.(2005)。化学信息学的图形内核。神经网络,18(8),1093-1110·doi:10.1016/j.neunet.2005.07.009
[35] Rätsch,G.、Mika,S.、Schölkopf,B.和Müller,K.-R.(2002)。从SVM构造boosting算法:一个应用于单类分类。IEEE模式分析和机器智能汇刊,24(9),1184-1199·doi:10.1109/TPAMI.2002.1033211
[36] Saigo,H.、Kadowaki,T.和Tsuda,K.(2006年)。分子QSAR分析的线性规划方法。在T.Gärtner、G.C.Garriga和T.Meinl(编辑)的《图形挖掘与学习国际研讨会》(MLG)(第85-96页)中。
[37] Schölkopf,B.和Smola,A.J.(2002年)。使用内核学习:支持向量机、正则化、优化及其他。剑桥:麻省理工学院出版社。
[38] Shi,L.M.、Fang,H.、Tong,W.、Wu,J.、Perkins,R.和Blair,R.M.(2001)。使用大量不同雌激素的QSAR模型。化学信息与计算机科学杂志,41186-195。
[39] Takabayashi,K.,Nguyen,P.C.,Ohara,K.、Motoda,H.和Washio,T.(2006年)。利用约束搜索从图结构数据中挖掘判别模式。T.Gärtner、G.C.Garriga和T.Meinl(编辑),《图形挖掘和学习国际研讨会论文集》(MLG)(第205-212页)。
[40] Tibshrani,R.(1996年)。通过LASSO进行回归收缩和选择。英国皇家统计学会杂志,B辑,58(1),267-288·Zbl 0850.62538号
[41] Wale,N.和Karypis,G.(2006年)。用于化合物检索和分类的描述符空间的比较。2006年IEEE数据挖掘国际会议论文集(第678-689页)。
[42] 严,X。;Han,J.,gSpan:基于图的子结构模式挖掘,721-724(2002),洛斯·阿拉米托斯
[43] Yan,X.和Han,J.(2002b)。gSpan:基于图的子结构模式挖掘(技术报告)。伊利诺伊大学厄本那-香槟分校计算机科学系。
[44] Yuan,C.和Casasent,D.(2003)。一种具有较好抑制性能的新型支持向量分类器。2003年IEEE计算机学会关于模式识别和计算机视觉(CVPR)的会议记录(第419-424页)。
[45] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。英国皇家统计学会杂志,B辑,67(2),301-320·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。