×

具有最优性保证的判别频繁子图挖掘。 (英语) Zbl 07260252号

摘要:频繁子图挖掘的目标是检测在图形数据集中频繁出现的子图。在分类设置中,人们通常对发现有区别的频繁子图,其存在或不存在表示图的类成员身份。在本文中,我们提出了一种对频繁子图进行特征选择的方法,称为软木塞这结合了两个核心优势。首先,它优化了子模块质量标准,这意味着我们可以使用贪婪的特征选择来获得接近最优的解决方案。其次,我们的子模块质量函数准则可以集成到gSpan中,gSpan是最先进的频繁子图挖掘工具,它甚至有助于修剪区分频繁子图的搜索空间在期间频繁子图挖掘。

MSC公司:

62至XX 统计
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] H.Kubinyi,《药物研究:神话、炒作和现实》,《Nat Rev Drug Discov 2》(2003年),第665-668页。
[2] S.Kramer、L.Raedt和C.Helma,HIV数据中的分子特征挖掘,《KDD学报》,加利福尼亚州旧金山,2001年,136-143。
[3] M.Deshpande、M.Kuramochi、N.Wale和G.Karypis,基于频繁子结构的化合物分类方法,IEEE Trans-Nowl Data Eng 17(8)(2005),1036-1050。
[4] H.Cheng,X.Yan,J.Han,和C.Hsu,有效分类的判别频繁模式分析,《ICDE会议记录》,土耳其伊斯坦布尔,2007年,716-725。
[5] H.Kashima、K.Tsuda和A.Inokuchi,标记图之间的边缘化核,《ICML学报》,华盛顿特区,2003年,第321-328页。
[6] N.Wale和G.Karypis,《化合物检索和分类描述符空间的比较》,《ICDM会议录》,香港,2006年,第678-689页。
[7] N.Shervashidze和K.M.Borgwardt,图上的快速子树内核,NIPS,2009,1660-1668。
[8] T.Kudo、E.Maeda和Y.Matsumoto,《增强在图形分类中的应用》,《神经信息处理系统进展》17(NIPS'04),不列颠哥伦比亚省温哥华,2004年,729-736。
[9] K.Tsuda,图形数据的完整正则化路径,收录于美国俄勒冈州ICML会议记录,2007年,919-926。
[10] M.Thoma、H.Cheng、A.Gretton、J.Han、H.-P.Kriegel、A.Smola、L.Song、P.S.Yu、X.Yan和K.Borgwardt,频繁子图中的近最优监督特征选择,《SDM学报》,美国内华达州斯帕克斯,2009年,1075-1087。
[11] X.Yan和J.Han,gSpan:基于图的子结构模式挖掘,《2002年国际数据挖掘会议论文集》(ICDM’02),日本前桥市,2002年,721-724。
[12] G.Nemhauser、L.Wolsey和M.Fisher,《最大化子模集函数的近似分析》,《数学程序》14(1978),265-294·Zbl 0374.90045号
[13] W.Fan,K.Zhang,H.Cheng,J.Gao,X.Yan,J.Han,P.S.Yu,and O.Verscheure,通过基于模型的搜索树直接挖掘区分性和基本频繁模式,In KDD,Y.Li,B.Liu,and S.Sarawagi,eds.ACM,美国内华达州拉斯维加斯,2008,230-238。
[14] H.Saigo、S.Nowozin、T.Kadowaki、T.Kudo和K.Tsuda,gBoost:图形分类和回归的数学规划方法,《马赫学习》75(1)(2009),69-89·兹比尔1470.68167
[15] H.Saigo、N.Kr¨amer和K.Tsuda,图挖掘的偏最小二乘回归,第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集(KDD’08),美国内华达州拉斯维加斯,ACM,2008,578-586。
[16] X.Yan,H.Cheng,J.Han,P.S.Yu,通过跳跃搜索挖掘重要的图形模式,在SIGMOD会议上,加拿大温哥华,2008,433-444。
[17] N.Jin,C.Young,和W.Wang,基于模式共现的图形分类,CIKM’09:
[18] C.Guestrin、A.Krause和A.Singh,高斯过程中的近最优传感器布置,《ICML会议记录》,德国波恩,2005年,265-272·Zbl 1225.68192号
[19] A.Inokuchi、T.Washio和H.Motoda,一种基于先验的算法,用于从图形数据中挖掘频繁子结构,《2000年欧洲数据挖掘和知识发现原理研讨会论文集》,法国里昂,2000年,13-23。
[20] M.Kuramochi和G.Karypis,《频繁子图发现》,《2001年国际会议数据挖掘论文集》(ICDM’01),加利福尼亚州圣何塞,美国,2001年,第313-320页。
[21] N.Vanetik、E.Gudes和S.E.Shimony,从半结构化数据计算频繁图形模式,《2002年国际数据挖掘会议论文集》(ICDM’02),日本前桥市,2002年,458-465。
[22] R.Agrawal和R.Srikant,挖掘关联规则的快速算法,《1994年超大数据库国际会议论文集》(VLDB’94),智利圣地亚哥,1994,487-499。
[23] C.Borgelt和M.Berthold,《挖掘分子片段:发现分子的相关亚结构》,《2002年国际数据挖掘会议论文集》(ICDM’02),日本前桥市,2002年,211-218。
[24] J.Huan、W.Wang和J.Prins,同构存在下频繁子图的高效挖掘,《2003年国际数据挖掘会议论文集》(ICDM’03),美国佛罗里达州墨尔本,2003年,549-552。
[25] S.Nijssen和J.Kok,《频繁结构挖掘的快速入门可以带来改变》,载于《2004年ACM SIGKDD数据库知识发现国际会议论文集》(KDD’04),美国华盛顿州西雅图,2004年,647-652。
[26] N.Shervashidze、S.Vishwanathan、T.Petri、K.Mehlhorn和K.Borgwardt,用于大型图比较的高效图核,AISTATS,2009。
[27] C.Borgelt、T.Meinl和M.Berthold,Moss:分子亚结构挖掘程序,OSDM’05:第一届开源数据挖掘国际研讨会论文集,纽约,ACM,2005年6月15日。
[28] A.Zimmermann和B.Bringmann,CTC-分类相关树模式,《2005年国际会议数据挖掘论文集》(ICDM’05),美国德克萨斯州休斯顿,2005,833-836。
[29] M.Dash、H.Liu和H.Motoda,基于一致性的特征选择,PADKK’00:第四届亚太知识发现和数据挖掘会议论文集,当前问题和新应用,伦敦,SpringerVerlag,2000,98-109。
[30] E.Boros、T.Horiyama、T.Ibaraki、K.Makino和M.Yagiura,《从二进制数据中寻找基本属性》,《Ann Math Artif Intell》39(3)(2003),第223-257页·Zbl 1038.68092号
[31] P.D.Dobson和A.J.Doig,区分酶结构和非酶结构,《分子生物学杂志》330(4)(2003),771-783。
[32] A.Bairoch,《2000年酶数据库》,《核酸研究》28(1)(2000),304-305。
[33] S.Wernicke,《检测网络基序的更快算法》,《WABI》,西班牙马洛卡岛帕尔玛·德·马洛卡,2005年,第165-177页。
[34] N.Przulj,使用graphlet度分布进行生物网络比较,2006年欧洲计算生物学会议(ECCB),以色列埃拉特,2006年。
[35] C.Chang和C.Lin,LIBSVM:支持向量机库,2001年网址:http://www.csie.ntu.edu.tw/~cjlin/libsvm。
[36] L.J.van’t Veer,H.Dai,M.J.van de Vijver,Y.D.He,A.A.M.Hart等。基因表达谱预测乳腺癌的临床结局,《自然》415(2002),530-536。
[37] L.Ein Dor、O.Zuk和E.Domany,需要数千个样本来生成用于预测癌症结果的强大基因列表,美国国家科学院院刊103(15)(2006),5923-5928。
[38] 杨扬(Y.Yang)和佩德森(J.O.Pedersen),文本分类中特征选择的比较研究,《ICML学报》,加州旧金山,摩根考夫曼出版社,1997年,第412-420页。
[39] P.Radivojac、Z.Obradovic、A.K.Dunker和S.Vucetic,基于置换测试的特征选择过滤器,机器学习:ECML 2004,第15届欧洲机器学习会议,意大利比萨,Pedreschi,ed.,Springer,2004,334-346·Zbl 1132.68585号
[40] A.Krause和C.Guestrin,图形模型中信息的近最优非奇异值,《人工智能中的不确定性》,UAI’05,2005,324-331。
[41] B。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。