×

使用前缀树进行高效的单程频繁模式挖掘。 (英语) Zbl 1170.68035号

摘要:使用FP-树的FP-growth算法已经被广泛研究用于频繁模式挖掘,因为与Apriori的候选生成和测试范式相比,它可以显著提高性能。但是,它仍然需要两次数据库扫描,这与高效的数据流处理不一致。本文提出了一种新的树结构,称为CP-tree(紧凑模式树),它通过一次扫描(插入阶段)捕获数据库信息,并提供与FP-growth方法相同的挖掘性能(重构阶段)。CP-树引入了动态树重组的概念,以在运行时生成高度紧凑的降频树结构。本文还提出了一种有效的树重组方法,称为分支排序法,该方法对前缀树分支进行重组。此外,CP-tree还为交互式和增量挖掘提供了完整的功能。大量实验结果表明,CP-tree在单次数据库扫描的情况下,对于频繁模式挖掘、交互式和增量挖掘是有效的。

MSC公司:

68T05型 人工智能中的学习和自适应系统
第68页,共15页 数据库理论
68吨10 模式识别、语音识别

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] R.C.Agarwal、C.C.Aggarwal、V.V.V.Prasad,《深度第一代长图案》,载《第六届ACM SIGKDD会议论文集》,2000年,第108-118页。;R.C.Agarwal、C.C.Aggarwal、V.V.V.Prasad,《深度第一代长图案》,载《第六届ACM SIGKDD会议论文集》,2000年,第108-118页。
[2] R.Agrawal,T.Imielnski,A.N.Swami,《挖掘大型数据库中项目集之间的关联规则》,载于:《ACM SIGMOD数据管理会议论文集》,1993年,第207-216页。;R.Agrawal,T.Imielinski,A.N.Swami,大型数据库中项目集之间的关联规则挖掘,收录于:ACM SIGMOD数据管理会议论文集,1993年,第207-216页。
[3] R.Agrawal,R.Srikant,挖掘关联规则的快速算法,摘自:《第20届大型数据库国际会议论文集》,1994年,第487-499页。;R.Agrawal,R.Srikant,挖掘关联规则的快速算法,摘自:《第20届大型数据库国际会议论文集》,1994年,第487-499页。
[4] 布莱克,C.L。;Merz,C.J.,UCI机器学习数据库库(1998),加州大学欧文分校:加州大学欧文欧文分校
[5] T.Brijs,G.Swinnen,K.Vanhoof,G.Wets,《将关联规则用于产品分类决策:案例研究》,载于:《第五届知识发现和数据挖掘国际会议论文集》,圣地亚哥(美国),1999年,第254-260页。;T.Brijs,G.Swinnen,K.Vanhove,G.Wets,《使用关联规则进行产品分类决策:案例研究》,载于《第五届知识发现和数据挖掘国际会议论文集》,圣地亚哥(美国),1999年,第254-260页。
[6] C.H.Chang,S.H.Yang,通过项目集维护增强SWF以进行增量关联挖掘,载于:《亚太知识发现和数据挖掘会议论文集》,2003年。;C.H.Chang,S.H.Yang,通过项目集维护增强SWF以进行增量关联挖掘,载于:《亚太知识发现和数据挖掘会议论文集》,2003年·Zbl 1032.68588号
[7] 陈,E。;曹,H。;李强。;钱,T.,《基于严格聚合约束的序列模式挖掘的有效策略》,信息科学,1781498-1518(2008)·Zbl 1132.68629号
[8] 陈,G。;Wei,Q.,模糊关联规则和扩展挖掘算法,信息科学,147,1-4,201-228(2002)·Zbl 1033.68043号
[9] D.W.Cheung,S.D.Lee,B.Kao,《维护发现关联规则的通用增量技术》,载《第五届高级应用数据库系统国际会议论文集》,1997年,第185-194页。;D.W.Cheung,S.D.Lee,B.Kao,《维护发现关联规则的通用增量技术》,载《第五届高级应用数据库系统国际会议论文集》,1997年,第185-194页。
[10] W.Cheung,O.R.Zaiane,《无候选生成或支持约束的频繁模式增量挖掘》,载《第七届国际数据库工程与应用研讨会论文集》,2003年。;W.Cheung,O.R.Zaiane,无候选生成或支持约束的频繁模式增量挖掘,载于:第七届国际数据库工程与应用研讨会(IDEAS)论文集,2003年。
[11] 科尔莫德,G。;Muthukrishnan,S.,什么是热门的,什么不是:动态跟踪最频繁的项目,ACM数据库系统事务,30,1,249-278(2005)
[12] Grahne,G。;Zhu,J.,使用FP-树进行频繁项集挖掘的快速算法,IEEE知识与数据工程学报,17,10,1347-1362(2005)
[13] Han,J。;Cheng,H。;Xin,D。;Yan,X.,《频繁模式挖掘:现状与未来方向》,《数据挖掘与知识发现》(2007年),第10期
[14] J.Han,G.Dong,G.Yin,时间序列数据库中部分周期模式的高效挖掘,收录于:IEEE国际数据挖掘会议论文集,1999年。;J.Han,G.Dong,G.Yin,时间序列数据库中部分周期模式的高效挖掘,收录于:IEEE国际数据挖掘会议论文集,1999年。
[15] J.Han,J.Pei,Y.Yin,《无候选生成的频繁模式挖掘》,载《2000年ACM SIGMOD国际数据管理会议论文集》,2000年,第1-12页。;J.Han,J.Pei,Y.Yin,《无候选生成的频繁模式挖掘》,载《2000年ACM SIGMOD国际数据管理会议论文集》,2000年,第1-12页。
[16] Hong,T.-P。;林,C.-W。;Wu,Y.-L.,增量快速更新频繁模式树,应用专家系统,34,4,2424-2435(2008)
[17] 胡,T。;Sung,S.Y。;熊,H。;Fu,Q.,最大长度频繁项集的发现,信息科学,17869-87(2008)
[18] H.Huang,X.Wu,R.Relue,数据库扫描关联分析,载《IEEE数据挖掘国际会议论文集》,2002年,第629-632页。;H.Huang,X.Wu,R.Relue,数据库扫描关联分析,载《IEEE数据挖掘国际会议论文集》,2002年,第629-632页。
[19] IBM、QUEST数据挖掘项目、<http://www.almaden.ibm.com/cs/quest>.; IBM、QUEST数据挖掘项目、<http://www.almaden.ibm.com/cs/quest>.
[20] Koh,J.-L。;Shieh,S.-F.,《基于调整FP-树结构维护关联规则的有效方法》,(Lee,Y.-J.;Li,J.;Whang,K.-Y.;Lee,D.,《DASFAA会议记录》(2004),Springer-Verlag:Springer-Verlag Berlin Heidelberg,纽约),417-424
[21] Lee,A.J.T。;Hong,R.W。;Ko,W.M.先生。;曹伟强。;Lin,H.H.,在图像数据库中挖掘空间关联规则,信息科学,177,7,1593-1608(2007)
[22] Lee,A.J.T。;Wang,C.-S.,《挖掘频繁交互模式的有效算法》,信息科学,1773453-3476(2007)
[23] Lee,Y.-S。;Yen,S.-J.,web遍历模式的增量和交互式挖掘,信息科学,178287-306(2008)
[24] Leung,C.K。;Q.I.Khan。;李,Z。;Hoque,T.,CanTree:增量频率模式挖掘的规范有序树,知识与信息系统,11,3,287-311(2007)
[25] Leung,C.K.-S。;Lakshmanan,L.V.S。;Ng,R.T.,使用FP-树开发简洁约束,SIGKDD Explorer,4,1,40-49(2002)
[26] 李晓霞,邓晓霞,唐晓霞,增量数据库中关联规则维护的快速算法,载:ADMA,2006,第56-63页。;李晓霞,邓晓霞,唐晓霞,增量数据库中关联规则维护的快速算法,载:ADMA,2006,第56-63页。
[27] 李强。;冯·L。;Wong,A.,《从内部事务到广义交互事务:关联规则挖掘中的多维环境美化》,信息科学,172361-395(2005)
[28] Lin,M.-Y。;Lee,S.-Y.,通过增量挖掘进行交互式序列发现,信息科学,165187-205(2004)·Zbl 1073.68716号
[29] 刘亚,G。;Lua,H。;Yub,J.X.,《CFP-tree:一种用于存储和查询频繁项集的基于磁盘的紧凑结构》,《信息系统》,32,295-319(2007)
[30] N.F.Ayan A.U.Tansel E.Akrun,《用早期修剪更新大型项集的有效算法》,载于《第五十届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,1999年,第287-291页。;N.F.Ayan A.U.Tansel E.Akrun,《用早期修剪更新大型项集的有效算法》,载于《第五十届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,1999年,第287-291页。
[31] 裴,J。;Han,J。;Lakshmanan,L.V.S.,《带可转换约束的频繁项集挖掘》(Buchmann,A.;Georgakopoulos,D.,《国际数据工程会议论文集》(2001),IEEE计算机学会出版社:IEEE计算机协会出版社,加利福尼亚州洛斯阿拉米托斯),433-442
[32] Tsay,Y.J。;Chiang,J.Y.,挖掘关联规则的高效聚类和分解算法,信息科学,160,1-4,161-171(2004)
[33] Wua,F。;S.W.蒋。;Linb,J.-R.,《使用项转换方法挖掘频繁模式的新方法》,信息系统,32,1056-1072(2007)
[34] 张,S。;张杰。;Zhang,C.,EDUA:一种高效的动态数据库挖掘算法,信息科学,1772756-2767(2007)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。