×

基于频繁、封闭和最大关联规则分类的评估和优化。 (英语) Zbl 1322.62039号

摘要:关联规则挖掘的实际应用程序存在着发现大量规则的众所周知的问题,其中许多规则对于当前的应用程序来说并不有趣或有用。闭项集和最大项集挖掘算法显著减少了发现的规则数量和与任务相关的复杂性,但在分类问题中使用它们的含义以及在泛化能力、精确度和召回率方面的重要差异尚未得到研究。本文结合常见数据挖掘和统计兴趣度度量,对从频繁项集、封闭项集和最大项集挖掘算法中发现的关联规则进行了系统评估,并概述了适当的使用顺序。实验使用了许多代表数据/项目不同特征的真实世界数据集进行,并提供了规则集的整体详细评估和单个类的评估。实证结果表明,通过数据挖掘和统计分析的适当结合,可以消除大量不重要、冗余和矛盾的规则,同时保持较高的精确度和召回率。更重要的是,结果揭示了在分类任务中使用频繁项集、闭合项集和最大项集之间的重要特征和差异,以及合并统计/启发式措施对优化此类规则集的效果。由于闭项集挖掘已经成为规则生成过程中减少复杂性和冗余的首选,本研究进一步证实,基于闭项集的关联规则在分类精度和召回率以及单个类示例的精确度和召回率方面也具有更好的质量。另一方面,基于最大项集的关联规则是基于封闭项集的规则的子集,在这方面表现出不足,通常具有较差的召回和泛化能力。实证结果还表明,像在关联规则框架中通常做的那样,在开始时使用置信度来生成关联规则是失败的,还将把数据中存在任何矛盾的知识去除到相对较高的置信度规则,因此可以通过在应用置信度约束之前忽略矛盾的规则来提高精度。

MSC公司:

2007年6月62日 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿格拉瓦尔,R。;Srikant,R.,在大型数据库中挖掘关联规则的快速算法,智利圣地亚哥
[2] 阿格拉瓦尔,R。;Imieliski,T。;Swami,A.,《挖掘大型数据库中项目集之间的关联规则》,华盛顿特区,5月16日至18日
[3] Agresti,A.:分类数据分析导论,第2版。威利,纽约(2007)·Zbl 1266.62008号 ·doi:10.1002/0470114754
[4] 艾丁,T。;Güvenir,H.A.,将流式关联规则的兴趣度建模为一个效益最大化的分类问题,第22期,85-99(2009),阿姆斯特丹
[5] Bay,S.D.,Pazzani,M.J.:检测群体差异:挖掘对比集。最小已知数据。发现。5, 213-246 (2001) ·Zbl 0982.68048号 ·doi:10.1023/A:1011429418057
[6] Bayardo,R.J.,从数据库中高效挖掘长模式,85-93(1998)
[7] Bayardo,R.J.、Agrawal,R.、Gunopulos,D.:大型密集数据库中基于约束的规则挖掘。最小已知数据。发现。4, 217-240 (2000) ·doi:10.1023/A:1009895914772
[8] 布兰查德,J。;吉列特,F。;格拉斯,R。;Briand,H.,《使用信息理论方法评估关联规则的趣味性》,美国德克萨斯州休斯顿
[9] Brijs,T.、Vanhoof,K.、Wets,G.:定义关联规则的趣味性。国际信息理论应用杂志。10(4), 370-376 (2003)
[10] Cheng,H。;严,X。;Han,J。;Hsu,C.-W.,有效分类的判别频繁模式分析,716-725(2007)·doi:10.1109/ICDE.2007.367917
[11] Cheng,H。;严,X。;Han,J。;Yu,P.S.,有效分类的直接判别模式挖掘,169-178(2008)·doi:10.1109/ICDE.2008.4497425
[12] Frank,A.,Asuncion,A.:UCI机器学习库http://archive.ics.uci.edu/ml加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院(2010年)
[13] Garriga,G.C.,Kralj,P.,Lavrac,N.:标记数据的闭集。J.马赫。学习。第9555-580号决议(2008年)·Zbl 1225.68179号
[14] Geng,L.,Hamilton,H.J.:数据挖掘的有趣度量:一项调查。ACM计算。Surv公司。38(3), 9 (2006) ·数字对象标识代码:10.1145/1132960.1132963
[15] Goodman,A.,Kamath,C.,Kumar,V.:21世纪的数据分析。统计分析。数据最小值1(1),1-3(2008)·Zbl 07260177号 ·doi:10.1002/sam.10000
[16] Gouda,K。;Zaki,M.J.,高效挖掘最大频繁项集,163-170(2001)
[17] Hadzic,F。;Dillon,T.S.,使用对称τ(τ)准则进行决策树和神经网络学习中的特征选择(2006)
[18] 西伯利亚州Hämäläinen。;Nykänen,M.,《有效发现具有统计意义的关联规则》,203-212(2008)
[19] Han,J.,Cheng,H.,Xin,D.,Yan,X.:频繁模式挖掘:现状和未来方向。最小已知数据。发现。15(1), 55-86 (2007) ·doi:10.1007/s10618-006-0059-1
[20] Hosmer,D.W.,Lemeshow,S.:应用逻辑回归。威利,纽约(1989)·Zbl 0967.62045号
[21] 拉利奇,S。;Teytaud,O。;普拉多姆,E。;Guillet,F.J.(编辑);Hamilton,H.J.(编辑),《关联规则的趣味性:测量和统计验证》,251-275(2007),柏林·doi:10.1007/978-3-540-44918-8_11
[22] Lavrac,N.、Flach,P.、Zupan,B.:规则评估措施:统一观点。感应测井。程序。174-185 (1999)
[23] 文胸,Y。;Lenca,P。;Lallich,S.,《无支持的挖掘分类规则:Jaccard测度的反单调性》,第6926号,179-193(2011),柏林·doi:10.1007/978-3-642-24477-3_16
[24] 文胸,Y。;Lenca,P。;拉利奇,S。;Holmes,D.E.(编辑);Jain,L.C.(编辑),《客观兴趣度测度算法性质研究的形式框架》,第24期,第77-98页(2012年)·Zbl 1231.68210号
[25] Lenca,P.,Meyer,P.、Vaillant,B.、Lallich,S.:关于关联规则兴趣度的选择:面向用户的描述和多准则决策辅助。欧洲药典。第184、610-626号决议(2008年)·Zbl 1168.90513号 ·doi:10.1016/j.ejor.2006.10.059
[26] Li,J.:关于最佳规则发现。IEEE TKDD 18(4),460-471(2006)
[27] 李伟(Li,W.)。;Han,J。;Pei,J.,CMAR:基于多类关联规则的准确高效分类,369-376(2001)
[28] Li,J.,Shen,H.,Topor,R.W.:挖掘最佳类关联规则集。知识-基于系统。15, 399-405 (2002) ·doi:10.1016/S0950-7051(02)00024-2
[29] Little,R.J.A.,Rubin,D.B.:缺失数据的统计分析,第2版。威利,纽约(2002)·Zbl 1011.62004号
[30] 刘,B。;徐伟。;Ma,Y.,《集成分类和关联规则挖掘》,80-86(1998)
[31] 刘,B。;马云(Ma,Y.)。;Wong,C。;Zighed,D.(编辑);Komorowski,J.(编辑);Zytkow,J.(编辑),改进基于关联规则的分类器,504-509(2000)·doi:10.1007/3-540-45372-5_58
[32] McGarry,K.:关于知识发现兴趣度的调查。知识。工程修订版20,39-61(2005)·doi:10.1017/S0269888905000408
[33] 梅吉多,N。;Srikant,R.,发现预测关联规则,274-278(1998)
[34] Novak,P.K.,Lavrac,N.,Webb,G.I.:监督描述性规则发现:对比集、新兴模式和子组挖掘的统一调查。J.马赫。学习。第10号决议,377-403(2009年)·Zbl 1235.68178号
[35] Piatetsky Shapiro,G.:强规则的发现、分析和呈现。知识。发现。数据库229-248(1991)
[36] Refaat,M.:使用SAS进行数据挖掘的数据准备。Morgan Kaufmann,旧金山(2007)
[37] Shaharanee,I.N.M.,Hadzic,F.,Dillon,T.S.:基于统计有效性的关联规则有趣度量。知识-基于系统。24, 386-392 (2011) ·doi:10.1016/j.knosys.2010.11.005
[38] Silverstein,C.,Brin,S.,Motwani,R.:超越市场篮子:将关联规则推广到依赖规则。最小已知数据。发现。2, 39-68 (1998) ·doi:10.1023/A:1009713703947
[39] 西蒙·G·J。;库马尔,V。;Li,P.W.,《用于分类的简单统计模型和关联规则过滤》,823-831(2011)·doi:10.1145/2020408.2020550
[40] Tan,P.N。;库马尔,V。;Srivastava,J.,为关联模式选择正确的兴趣度,32-41(2002)
[41] Veloso,A。;梅拉,W。;Zaki,M.J.,《懒惰联想分类》,645-654(2006)
[42] 王凯。;何毅。;Cheung,D.W.,《在没有支持要求的情况下挖掘自信规则》,89-96(2001)
[43] Webb,G.I.:发现重要模式。机器。学习。1-33 (2007) ·Zbl 1470.68195号
[44] Wei,J.-M.,Yi,W.-G.,Wang,M.-Y.:挖掘有效关联规则的新度量。知识-基于系统。19, 739-743 (2006) ·doi:10.1016/j.knosys.2006.05.011
[45] 尹,X。;Han,J.,CPAR:基于预测关联规则的分类,369-376(2003)
[46] Zaki,M.J.:挖掘非冗余关联规则。最小已知数据。发现。9(3), 223-248 (2004) ·doi:10.1023/B:DAMI.0000040429.96086.c7
[47] Zaki,M.J。;Xiao,C.J.,CHARM:闭项集挖掘的有效算法(2002)
[48] 张,C。;Zhang,S.,为数据库挖掘收集质量数据,131-142(2001)·Zbl 1052.68598号
[49] Zhou,X.J.,Dillon,T.S.:决策树归纳的统计神经特征选择准则。IEEE传输。模式分析。机器。智力。13, 834-841 (1991) ·数字对象标识代码:10.1109/34.85676
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。