×

一种快速复合算法,用于挖掘生成器、封闭项集和计算等价类之间的链接。 (英语) Zbl 1357.68186号

摘要:在模式挖掘和关联规则挖掘中,有多种算法用于挖掘频繁闭项集(FCI)和频繁生成器(FG),而较小的部分涉及FCI之间的优先关系。这三种结构及其联合计算的相互作用已经在形式概念分析(FCA)领域中进行了研究,但没有一种提出的算法是可扩展的。在频繁模式挖掘中,至少设计了一套高效算法,这些算法利用了基本相同的思想,并遵循相同的总体计算模式。基于对上述基于超图理论的基本二重性的相互作用的深入分析,我们提出了一种新的模式,该模式应能实现更节省的计算。我们在雪地触摸,一个重用现有算法的具体FCI/FG/优先挖掘器,魅力,用于挖掘FCI,并分别使用两种原始的挖掘FG和优先级的方法来完成它。的性能雪地触摸以及最接近的竞争对手,魅力L使用大量数据集进行了实验比较。实验研究的结果表明,我们的方法优于魅力L在密集数据上,而在稀疏数据上,趋势相反。此外,我们通过对基因组数据集的分析应用,证明了我们的方法和新模式的有用性。此处报告的初始结果证实了该方法专注于显著关联的能力。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68立方英尺 知识表示
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 阿格拉瓦尔,R。;Srikant,R.,《在大型数据库中挖掘关联规则的快速算法》,487-499(1994),加利福尼亚州旧金山
[2] Bastide,Y.,Taouil,R.,Pasquier,N.,Stumme,G.,Lakhal,L.:使用频繁闭合项集挖掘最小非冗余关联规则。In:程序。计算逻辑(CL'00)。LNAI,第1861卷,第972-986页。斯普林格(2000)·Zbl 0983.68511号
[3] Kryszkiewicz,M.:关联规则的简明表示。In:程序。ESF模式检测和发现探索研讨会,第92-109页(2002年)·Zbl 1019.68715号
[4] Ganter,B.,Wille,R.:形式概念分析:数学基础。施普林格,柏林/海德堡(1999)·Zbl 0909.06001号 ·doi:10.1007/978-3-642-59830-2
[5] Pasquier,N.、Bastide,Y.、Taouil,R.、Lakhal,L.:发现关联规则的频繁闭合项集。In:程序。第七届国际数据库理论会议(ICDT’99),第398-416页。耶路撒冷,以色列(1999年)·Zbl 0983.68511号
[6] Stumme,G.,Taouil,R.,Bastide,Y.,Pasquier,N.,Lakhal,L.:用泰坦尼克号计算冰山概念格。数据知识。工程42(2),189-222(2002)·Zbl 0996.68046号 ·doi:10.1016/S0169-023X(02)00057-5
[7] Zaki,M.J.,Hsiao,C.J.:CHARM:一种有效的封闭项集挖掘算法。摘自:SIAM国际数据挖掘会议(SDM’02),第33-43页(2002)
[8] Zaki,M.J.:挖掘非冗余关联规则。数据最小知识。光盘。9(3), 223-248 (2004) ·doi:10.1023/B:DAMI.0000040429.96086.c7
[9] Zaki,M.J.,Xiao,C.J.:挖掘闭项集及其格结构的高效算法。IEEE传输。知识。数据工程17(4),462-478(2005)·doi:10.1109/TKDE.2005.60
[10] Zaki,M.J.,Ramakrishnan,N.:使用重新描述挖掘对集合进行推理。In:程序。第11届ACM SIGKDD国际知识发现和数据挖掘大会(KDD’05),第364-373页。芝加哥,伊利诺伊州,美国(2005年)
[11] Godin,R.,Missaoui,R.:从数据库学习的增量概念形成方法。西奥。计算。科学。133, 387-419 (1994) ·Zbl 0938.68806号 ·doi:10.1016/0304-3975(94)90195-3
[12] Pfaltz,J.L.:格的增量转换:有效知识发现的关键。In:程序。第1届图形变换国际会议(ICGT'02),第351-362页。西班牙巴塞罗那(2002)·Zbl 1028.68630号
[13] Le Floc'h,A.,Fisette,C.,Missaoui,R.,Valtchev,P.,Godin,R.:JEN:非算法效率,构建专家,为协会提供识别。新技术信息规范编号1(1),135-146(2003)
[14] Szathmary,L。;瓦尔切夫,P。;那不勒斯,A。;Godin,R.,《使用发电机从频繁关闭处建造冰山格架》,136-147(2008),匈牙利布达佩斯
[15] Szathmary,L。;瓦尔切夫,P。;那不勒斯,A。;Godin,R.,《频繁关闭和发电机的高效垂直开采》,393-404(2009),法国里昂
[16] Boulicaut,J.F.,Bykowski,A.,Rigotti,C.:自由集:布尔数据的浓缩表示,用于频率查询的近似。数据最小知识。光盘。7(1), 5-22 (2003) ·doi:10.1023/A:1021571501451
[17] Calders,T.,Rigotti,C.,Boulicaut,J.F.:关于频繁集的凝聚表示的调查。收录:Boulicaut,J.F.,Raedt,L.D.,Mannila,H.(编辑)基于约束的挖掘和归纳数据库。计算机科学课堂讲稿,第3848卷,第64-80页。斯普林格(2004)·Zbl 1172.68446号
[18] Pei,J.、Han,J.,Mao,R.:CLOSET:挖掘频繁闭合项集的有效算法。摘自:ACM SIGMOD数据挖掘和知识发现研究问题研讨会,第21-30页(2000年)
[19] Zaki,M.J.,Parthasarathy,S.,Ogihara,M.,Li,W.:快速发现关联规则的新算法。In:程序。第三届国际数据库知识发现大会,第283-286页(1997年)
[20] Zaki,M.J.:关联挖掘的可伸缩算法。IEEE传输。知识。数据工程12(3),372-390(2000)·数字对象标识代码:10.1109/69.846291
[21] MJ Zaki;Gouda,K.,《使用差异集的快速垂直采矿》,326-335(2003),纽约州纽约市·数字对象标识代码:10.1145/956750.956788
[22] Uno,T.、Asai,T.,Uchida,Y.、Arimura,H.:LCM:枚举频繁闭合项集的有效算法。收录:Goethals,B.,Zaki,M.J.(编辑)FIMI。CEUR研讨会记录,第90卷。CEUR-WS.org(2003)
[23] Uno,T.,Kiyomi,M.,Arimura,H.:LCM第2版:频繁/闭合/最大项集的高效挖掘算法。收录人:Bayardo,R.J.Jr.,Goethals,B.,Zaki,M.J.(编辑)FIMI。CEUR研讨会记录,第126卷。CEUR-WS.org(2004)
[24] Wang,J.、Han,J.和Pei,J.:CLOSET+:搜索挖掘频繁闭合项集的最佳策略。In:程序。第九届ACM SIGKDD国际知识发现和数据挖掘大会(KDD’03),第236-245页。ACM出版社(2003)
[25] Vo,B.,Hong,T.P.,Le,B.:DBV-Miner:快速挖掘频繁闭项集的动态位向量方法。专家系统。申请。39(8), 7196-7206 (2012) ·doi:10.1016/j.eswa.2012.01.062
[26] Calders,T.,Goethals,B.:深度优先的不可导出项集挖掘。In:程序。SIAM国际数据挖掘会议(SDM’05)。美国纽波特海滩(2005)·Zbl 1020.68566号
[27] Berge,C.:超图:有限集的组合学。北荷兰,阿姆斯特丹(1989)·Zbl 0674.05001号
[28] Eiter,T.,Gottlob,G.:识别超图的最小横截和相关问题。SIAM J.计算。24(6), 1278-1304 (1995) ·Zbl 0842.05070号 ·doi:10.1137/S0097539793250299
[29] Pfaltz,J.L.,Taylor,C.M.:通过概念格的迭代转换发现科学知识。In:程序。《结合第二届SIAM国际数据挖掘大会的离散应用数学研讨会》,第65-74页。弗吉尼亚州阿灵顿,美国(2002年)
[30] Szathmary,L.,Napoli,A.,Kuznetsov,S.O:ZART:一种多功能项集挖掘算法。In:程序。第五届国际概念格及其应用大会(CLA’07),第26-37页。法国蒙彼利埃(2007年)
[31] Szathmary,L.,Valtchev,P.,Napoli,A.:高效挖掘具有优先链接和相关生成器的频繁闭包。研究报告RR-6657,INRIA(2008)
[32] Baixeries,J。;Szathmary,L。;瓦尔切夫,P。;Godin,R.,《构建伽罗瓦晶格哈塞图的更快算法》,162-177(2009),德国达姆施塔特·Zbl 1248.68473号
[33] Pasquier,N.:使用形式概念分析挖掘关联规则。In:程序。第八届国际概念结构会议(ICCS’00),第259-264页。Shaker-Verlag(2000)
[34] Li,J.、Li,H.、Wong,L.、Pei,J.和Dong,G.:最小描述长度原则:生成器优于闭合模式,第409-414页。In:AAAI,AAAI出版社(2006)
[35] Philippon,A.、Arlet,G.、Jacoby,G.A.:质粒决定的AmpC型β-内酰胺酶。抗微生物。代理Chemother。46(1), 1-11 (2002) ·doi:10.1128/AAC.46.1-11.2002年
[36] Schwartz,T.、Kohnen,W.、Jansen,B.、Obst,U.:检测废水、地表水和饮用水生物膜中的抗生素耐药细菌及其耐药基因。微生物。经济。43(3), 325-335 (2003) ·doi:10.1111/j.1574-6941.2003.tb01073.x
[37] Boc,A.、Philippe,H.、Makarenkov,V.:利用两分法差异性推断和验证水平基因转移事件。系统。生物学59(2),195-211(2010)·doi:10.1093/sysbio/syp103
[38] Gjuvsland,A.B.,Hayes,B.J.,Omholt,S.W.,Carlborg,O.:统计上位性是基因调控网络的一般特征。遗传学175,411-420(2007)·doi:10.1534/genetics.106.058859
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。