×

一种时间效率高的第一级横向格遍历算法,用于发现罕见项集。 (英语) Zbl 1294.68074号

摘要:在本文中,我们面临着搜索稀有项集的问题。一个主要问题是在探索幂集格时所采用的策略。假设幂集格的顶部是全集,底部是空集,大多数算法都采用自下而上的探索,即从较小的集合移动到较大的集合。虽然这种方法在频繁项集的情况下是有利的,但它可能不值得用于稀有项集,因为它们出现在晶格的顶部。我们提出了Rarity,一种自上而下的宽度第一级算法。为了定量描述算法的性能和复杂性,对实验结果和比较进行了说明。提供了在一些UCI基准和实际数据集中的应用。概述了一种算法并行化。实验表明,与其他解决方案相比,该方法可以在更短的时间内找到所有罕见的非零项集,但需要更高的内存需求。

MSC公司:

68第20页 信息存储和数据检索
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Adda M,Wu L,Feng Y(2007)稀有项集挖掘。摘自:2007年ICMLA第六届机器学习与应用国际会议论文集。IEEE计算机学会,华盛顿特区,第73–80页
[2] Agrawal R、Imieliánski T、Swami A(1993)《数据库挖掘:性能视角》。IEEE传输已知数据工程5(6):914–925·数字对象标识代码:10.1109/69.250074
[3] Agrawal R,Imieliñski T,Swami A(1993)大型数据库中项目集之间的关联规则挖掘。ACM SIGMOD Int Conf管理数据22:207–216·doi:10.1145/170036.170072
[4] Agrawal R、Mannila H、Srikant R、Toivonen H、Inkeri Verkamo A(1996)关联规则的快速发现。领域:知识发现和数据挖掘的进展。AAAI/MIT出版社,剑桥
[5] Agrawal R,Shafer JC(1996)关联规则的并行挖掘。IEEE Trans Knowl Data Eng 8(6):962–969·数字对象标识代码:10.1109/69.553164
[6] Agrawal R,Srikant R(1994)挖掘关联规则的快速算法。In:第20届VLDB会议
[7] Bastide Y,Taouil R,Pasquier N,Stumme G,Lakhal L(2000)利用计数推理挖掘频繁模式。SIGKDD探索新闻2(2):66–75·Zbl 0983.68511号 ·数字对象标识代码:10.1145/380995.381017
[8] Brin S、Motwani R、Ullman JD、Tsur S(1997)《市场篮子数据的动态项目集计数和隐含规则》。摘自:SIGMOD’97:1997年ACM SIGMOD-国际数据管理会议记录。ACM,纽约,第255-264页
[9] Burdick D,Calimlim M,Gehrke J(2001)黑手党:事务数据库的最大频繁项集算法。摘自:《第17届国际数据工程会议记录》,IEEE计算机学会,华盛顿特区,第443-452页
[10] Forina M(1991)《葡萄酒数据集》。http://archive.ics.uci.edu/ml/datasets/wine . 2012年11月5日访问
[11] Haglin DJ,Manning AM(2007),关于最小不频繁项集挖掘。输入:DMIN。CSREA出版社,拉斯维加斯,第141–147页
[12] Han J,Pei J,Yin Y,Mao R(2004)无候选生成的频繁模式挖掘:一种频繁模式树方法。摘自:Mannila H(ed)数据挖掘和知识发现。纽约克鲁沃,第53–87页
[13] Koh YS,Rountree N(2005)使用先验-逆发现零星规则。包含:PAKDD。纽约州施普林格,第97–106页
[14] Koh YS,Rountree N,O'Keefe RA(2008)挖掘有趣的非完美零星规则。知识信息系统14(2):179-196·doi:10.1007/s10115-007-0074-6
[15] Liu B,Hsu W,Ma Y(1999)挖掘具有多个最小支持度的关联规则。在:KDD'99:第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,纽约,第337-341页
[16] Mannila H,Toivonen H,Verkamo I(1994)发现关联规则的有效算法。收录:KDD'94:AAAI数据库知识发现研讨会论文集。AAAI出版社,西雅图,第181-192页
[17] Nakai K(1996a)Ecoli数据集。http://archive.ics.uci.edu/ml/datasets/ecoli . 2012年11月5日访问
[18] Nakai K(1996b)《酵母数据集》。http://archive.ics.uci.edu/ml/datasets/酵母 . 2012年11月5日访问
[19] Park JS,Chen M-S,Yu PS(1995)关联规则的高效并行数据挖掘。摘自:CIKM’95:第四届信息和知识管理国际会议记录。ACM,纽约,第31-36页
[20] Pasquier N,Bastide Y,Taouil R,Lakhal L(1999)基于闭集的关联规则小覆盖发现。收录:Proceedings 15emes Journees Bases de Donnees Avances。BDA,第361–381页
[21] Pei J,Han J,Lu H,Nishio S,Tang S,Yang D(2001)《H-mine:大型数据库中频繁模式的超结构挖掘》。收录于:ICDM'01:2001年IEEE国际数据挖掘会议记录。华盛顿特区,第441-448页
[22] Piatetsky-Shapiro G,Frawley WJ(eds)(1991),数据库中的知识发现。AAAI/MIT出版社,剑桥
[23] Savasere A,Omiecinski E,Navathe SB(1995)大型数据库中挖掘关联规则的有效算法。1995年VLDB:第21届超大数据库国际会议论文集。Morgan Kaufmann,旧金山,第432-444页
[24] Shenoy P、Haritsa JR、Sudarshan S、Bhalotia G、Bawa M、Shah D(2000)大型数据库的涡轮增压垂直挖掘。SIGMOD记录29(2):22–33·doi:10.1145/335191.335376
[25] Song M,Rajasekaran S(2006)频繁项集挖掘的事务映射算法。IEEE Trans Knowl Data Eng 18(4):472–481·doi:10.1109/TKDE.2006.1599386
[26] Szathmary L,Napoli A,Kuznetsov SO(2007)ZART:一种多功能项集挖掘算法。收录:第五届概念格及其应用国际会议论文集(CLA'07)。蒙彼利埃,第26-37页
[27] Szathmary L,Napoli A,Valtchev P(2007)《走向稀有项集开采》。收录于:ICTAI’07:第19届IEEE人工智能工具国际会议记录。华盛顿特区,第305-312页
[28] Troiano L,Scibelli G,Birtolo C(2009)挖掘稀有项集的快速算法。在:ISDA'09,第1149-1155页
[29] Tsang S,Koh YS,Dobbie G(2011)Rp-tree:稀有模式树挖掘。摘自:CLA会议记录,第277-288页
[30] Uno T,Asai T,Uchida Y,Arimura H(2003)Lcm:枚举频繁闭项集的有效算法。In:FIMI03:频繁项集挖掘实施研讨会会议记录
[31] Uno T,Kiyomi M,Arimura H(2004)第2版:频繁/闭合/最大项集的高效挖掘算法。收录于:FIMI’04,IEEE ICDM频繁项集挖掘实现研讨会论文集
[32] Uno T,Kiyomi M,Arimura H(2005)Lcm第3版:数组、位图和前缀树的协作,用于频繁项集挖掘。摘自:第一届开源数据挖掘国际研讨会论文集:频繁模式挖掘实现,ACM,纽约,第77–86页
[33] Weiss GM(2004)《稀有采矿:统一框架》,SIGKDD Explore Newsl 6(1):7–19·数字对象标识代码:10.1145/1007730.1007734
[34] Yang G(2004)挖掘最大频繁项集和最大频繁模式的复杂性。收录于:KDD’04:第十届ACM SIGKDD知识发现和数据挖掘国际会议记录。纽约,第344-353页
[35] Yun H,Ha D,Hwang B,Ryu KH(2003)使用相对支持挖掘重要稀有数据的关联规则。《系统软件杂志》67(3):181–191·doi:10.1016/S0164-1212(02)00128-0
[36] Zaki MJ,Gouda K(2003)《使用差异集的快速垂直采矿》。收录于:KDD’03:第九届ACM SIGKDD知识发现和数据挖掘国际会议记录。纽约,第326–335页
[37] Zaki MJ,Parthasarathy S,Ogihara M,Li W(1997)关联规则快速发现的新算法。技术报告,罗切斯特
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。