文件Zbl 1470.68167-zbMATH Open

西戈、平藤;塞巴斯蒂安·诺沃津;Tadashi Kadowaki;工藤忠雄;佐治筑田

gBoost：用于图形分类和回归的数学编程方法。（英语） Zbl 1470.68167号

机器。学习。 75，第1期，69-89（2009）.

摘要：图挖掘方法列举了频繁出现的子图模式，这些子图模式可以作为后续分类或回归的特征。然而，对于给定的学习问题，频繁模式不一定能提供信息。我们提出了一种逐步收集信息模式的数学编程增强方法（gBoost）。与AdaBoost相比，gBoost可以用更少的迭代次数构建预测规则。为了将boosting方法应用于图形数据，开发了一种基于DFS代码树的分枝定界模式搜索算法。构造的搜索空间在以后的迭代中被重用，以最小化计算时间。我们的方法比基于频繁子结构挖掘的简单方法学习效率更高，因为输出标签被用作修剪搜索空间的额外信息源。此外，通过设计数学程序，可以在不修改模式搜索算法的情况下解决广泛的机器学习问题。

引用于10文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
62H30型	分类和区分；聚类分析（统计方面）
68兰特	计算机科学中的图论（包括图形绘制）
68吨10	模式识别、语音识别
90 C90	数学规划的应用

关键词：

图挖掘;数学规划;分类;回归，回归;定量构效关系

软件：

AFGen公司;gBoost公司;gSpan（量程）;4.5条;阿达·布斯特。MH公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

OA许可证

参考文献：

[1]	Abiteboul，S.、Buneman，P.和Suciu，D.（2000年）。网络数据：从关系到半结构化数据和XML。圣马特奥：摩根·考夫曼。
[2]	Borgwardt，K.M.、Ong，C.S.、Schönauer，S.、Vishwanathan，S.V.N.、Smola，A.J.和Kriegel，H.P.（2006年）。通过图核预测蛋白质功能。生物信息学，21（补充1），i47-i56。
[3]	Boyd，S.和Vandenberghe，L.（2004）。凸优化。剑桥：剑桥大学出版社·Zbl 1058.90049号
[4]	Bringmann，B.、Zimmermann，A.、Raedt，L.D.和Nijssen，S.（2006）。不要害怕更简单的模式。第十届欧洲数据库知识发现原则与实践会议（PKDD）（第55-66页）。
[5]	蔡，L。；Hofmann，T.，《支持向量机分层文档分类》，78-87（2004），纽约
[6]	Cohen，W.W.，《快速有效规则归纳》，115-123（1995），圣马特奥
[7]	Demiriz，A.、Bennet，K.P.和Shawe-Taylor，J.（2002）。通过列生成进行线性编程增强。机器学习，46（1-3），225-254·Zbl 0998.68105号 ·doi:10.1023/A：1012470815092
[8]	du Merle，O.、Villeneuve，D.、Desrosiers，J.和Hansen，P.（1999）。稳定柱生成。离散数学，194，229-237·Zbl 0949.90063号 ·doi:10.1016/S0012-365X（98）00213-1
[9]	Duran，J.L.、Leland，B.A.、Henry，D.R.和Nourse，J.G.（2002）。重新优化用于药物发现的MDL密钥。化学信息与计算机科学杂志，42（6），1273-1280。
[10]	Durbin，R.、Eddy，S.、Krogh，A.和Mitchison，G.（1998年）。生物序列分析：蛋白质和核酸的概率模型。剑桥：剑桥大学出版社·Zbl 0929.92010号
[11]	E.弗兰克。；Witten，I.H.，《在不进行全局优化的情况下生成精确的规则集》，114-151（1998），圣马特奥
[12]	Freund，Y.和Schapire，R.E.（1997）。在线学习的决策理论推广及其在助推中的应用。计算机与系统科学杂志，55（1），119-139·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[13]	Fröhrich，H.、Wegner，J.、Sieker，F.和Zell，Z.（2006年）。属性化分子图的核函数——一种新的基于相似性的分类和回归ADME预测方法。QSAR与组合科学，25（4），317-326·doi:10.1002/qsar.200510135
[14]	Gärtner，T。；弗拉奇，P。；Wrobel，S.，《关于图核：硬度结果和有效替代品》，129-143（2003），柏林·Zbl 1274.68312号
[15]	Gasteiger，J.和Engel，T.（2003）。化学信息学：一本教科书。纽约：Wiley-VCH。 ·doi:10.1002/9783527618279
[16]	滨田，M.，津田，K.，久多，T.，金，T.和朝井，K.（2006）。从未对齐的RNA序列中挖掘频繁的茎模式。生物信息学，22，2480-2487·doi:10.1093/bioinformatics/btl431
[17]	Helma，C.、Cramer，T.、Kramer，S.和Raedt，L.D.（2004年）。数据挖掘和机器学习技术，用于识别非通用化合物的致突变性亚结构和构效关系。化学信息与计算机科学杂志，441402-1411。
[18]	Hong，H.、Fang，H、Xie，Q.、Perkins，R.、Sheehan，D.M.和Tong，W.（2003）。比较分子场分析（CoMFA）模型使用大量不同的天然、合成和环境化学品与雄激素受体结合。环境研究中的SAR和QSAR，14（5-6），373-388·网址：10.1080/10629360310001623962
[19]	Horváth，T。；Gärtner，T。；Wrobel，S.，预测图挖掘的循环模式核，158-167（2004），纽约·doi:10.1145/1014052.1014072
[20]	Inokuchi，A.，从一组标记图中挖掘广义子结构，415-418（2005），洛斯·阿拉米托斯
[21]	James，C.A.、Weininger，D.和Delany，J.（2004）。日光理论手册。
[22]	鹿岛，H。；Tsuda，K。；Inokuchi，A.，标记图之间的边缘化核，321-328（2003），Menlo Park
[23]	Kazius，J.、Nijssen，S.、Kok，J.，Bäck，T.和Ijzerman，A.P.（2006）。使用精细化学表征的下部结构采矿。《化学信息与建模杂志》，46，597-605·doi:10.1021/ci0503715
[24]	Kohavi，R.和John，G.H.（1997年）。特征子集选择的包装器。人工智能，1-2273-324·Zbl 0904.68143号 ·doi:10.1016/S0004-3702（97）00043-X
[25]	Kudo，T。；Maeda，E。；Matsumoto，Y.，《增强在图形分类中的应用》，729-736（2005），剑桥
[26]	Le，Q.V。；Smola，A.J。；Gärtner，T.，《更简单的基于知识的支持向量机》，521-528（2006），纽约·doi:10.1145/1143844.1143910
[27]	Luenberger，D.G.（1969年）。向量空间法优化。纽约：Wiley·Zbl 0176.12701号
[28]	Mahé，P.、Ueda，N.、Akutsu，T.、Perret，J.-L.和Vert，J.-P.（2005）。用支持向量机进行分子结构-活性关系分析的图形核。《化学信息与建模杂志》，45939-951·doi:10.1021/ci050039t
[29]	Mahé，P.、Ralaivola，L.、Stoven，V.和Vert，J.-P.（2006年）。支持向量机虚拟筛选的药效团核。《化学信息与建模杂志》，46（5），2003-2014年·doi:10.1021/ci060138m
[30]	Morishita，S.（2001）。有效地计算最佳假设以进行助推。《发现科学》（第471-481页）·Zbl 1052.68674号
[31]	Morishita，S.和Sese，J.（2000）。使用统计度量修剪遍历项集格。《ACM SIGACT-SIGMOD-SIGART数据库系统（PODS）研讨会论文集》（第226-236页）。
[32]	Nijssen，S。；Kok，J.N.，《频繁结构采矿的快速启动可以产生影响》，647-652（2004），纽约·doi:10.1145/1014052.1014134
[33]	Quinlan，J.R.（1993）。C4.5：机器学习程序。圣马特奥：摩根·考夫曼。
[34]	Ralaivola，L.、Swamidass，S.J.、Saigo，H.和Baldi，P.（2005）。化学信息学的图形内核。神经网络，18（8），1093-1110·doi:10.1016/j.neunet.2005.07.009
[35]	Rätsch，G.、Mika，S.、Schölkopf，B.和Müller，K.-R.（2002）。从SVM构造boosting算法：一个应用于单类分类。IEEE模式分析和机器智能汇刊，24（9），1184-1199·doi:10.1109/TPAMI.2002.1033211
[36]	Saigo，H.、Kadowaki，T.和Tsuda，K.（2006年）。分子QSAR分析的线性规划方法。在T.Gärtner、G.C.Garriga和T.Meinl（编辑）的《图形挖掘与学习国际研讨会》（MLG）（第85-96页）中。
[37]	Schölkopf，B.和Smola，A.J.（2002年）。使用内核学习：支持向量机、正则化、优化及其他。剑桥：麻省理工学院出版社。
[38]	Shi，L.M.、Fang，H.、Tong，W.、Wu，J.、Perkins，R.和Blair，R.M.（2001）。使用大量不同雌激素的QSAR模型。化学信息与计算机科学杂志，41186-195。
[39]	Takabayashi，K.，Nguyen，P.C.，Ohara，K.、Motoda，H.和Washio，T.（2006年）。利用约束搜索从图结构数据中挖掘判别模式。T.Gärtner、G.C.Garriga和T.Meinl（编辑），《图形挖掘和学习国际研讨会论文集》（MLG）（第205-212页）。
[40]	Tibshrani，R.（1996年）。通过LASSO进行回归收缩和选择。英国皇家统计学会杂志，B辑，58（1），267-288·Zbl 0850.62538号
[41]	Wale，N.和Karypis，G.（2006年）。用于化合物检索和分类的描述符空间的比较。2006年IEEE数据挖掘国际会议论文集（第678-689页）。
[42]	严，X。；Han，J.，gSpan:基于图的子结构模式挖掘，721-724（2002），洛斯·阿拉米托斯
[43]	Yan，X.和Han，J.（2002b）。gSpan：基于图的子结构模式挖掘（技术报告）。伊利诺伊大学厄本那-香槟分校计算机科学系。
[44]	Yuan，C.和Casasent，D.（2003）。一种具有较好抑制性能的新型支持向量分类器。2003年IEEE计算机学会关于模式识别和计算机视觉（CVPR）的会议记录（第419-424页）。
[45]	Zou，H.和Hastie，T.（2005）。通过弹性网进行规则化和变量选择。英国皇家统计学会杂志，B辑，67（2），301-320·Zbl 1069.62054号 ·数字对象标识代码：10.1111/j.1467-9868.2005.0050.x

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
皮	出版年份
车辆	评审员
立方厘米	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

gBoost：用于图形分类和回归的数学编程方法。（英语） Zbl 1470.68167号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

gBoost：用于图形分类和回归的数学编程方法。 （英语） Zbl 1470.68167号

MSC公司：

关键词：

软件：

参考文献：

gBoost：用于图形分类和回归的数学编程方法。（英语） Zbl 1470.68167号