×

最佳规则发现的最佳单调度量。 (英语) Zbl 1274.68330号

摘要:许多研究表明阿普里奥里-比如挖掘关联规则的算法。有很多基于支持的反单调特性的高效实现,但候选集生成(例如,频繁项集挖掘)仍然代价高昂。此外,许多规则都是无趣的或多余的,人们可能会错过一些有趣的规则,比如掘金。因此,我们面临着复杂性问题和质量问题。一种解决方案是不使用频繁项集挖掘,并使用额外的兴趣度度量尽快关注有趣的规则。我们在这里提出了一个形式化框架,它允许我们在兴趣度度量的分析和算法属性之间建立联系。我们在最优规则发现框架中引入了最优性的概念,然后证明了最优性存在的一个充要条件。因此,该结果可用于对措施进行分类。我们研究了39个经典测度的情况,发现其中31个是最优测度。因此,这些最优色调度量可以与底层修剪策略一起使用。实证评估表明,该剪枝策略是有效的,并导致使用最优度量和无支持约束的块金发现。

MSC公司:

68T05型 人工智能中的学习和自适应系统
第68页第20页 信息存储和数据检索
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿格拉瓦尔,ACM SIGMOD国际数据管理会议,华盛顿特区,第207页–(1993)
[2] Aggarwal,C.C.P.S.Yu 1998年《第17届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会论文集》,西雅图,华盛顿州ACM出版社18 24
[3] 阿格拉瓦尔,第20届超大数据库国际会议,第478页–(1994年)
[4] Asuncion,A.D.Newman 2007 UCI机器学习库网址:http://www.ics.uci.edu/mlearn/MLRepository.html
[5] Azé,第二届Connaissances会议,第1-4卷,Extraction des Connaissences et Apprentissage。第143页–(2002)
[6] Barthélemy,J.-P.A.Legrain P.Lenca B.Vaillant 2006第三届人工智能决策建模国际会议上应用于关联规则兴趣度量的价值关系聚合,西班牙塔拉戈纳,V.Torra Y.Narukawa A.Valls J.编辑的计算机科学讲稿第3885卷。多明戈·费雷·斯普林格203 214
[7] Bayardo,Jr,R.J.R.Agrawal D.Gunopulos 1999大型密集数据库中基于约束的规则挖掘第15届数据工程国际会议,澳大利亚悉尼IEEE计算机学会188 197
[8] Bonchi,计算机科学课堂讲稿第114页–(2005)
[9] Boulicaut,J.-F.B.Jeudy 2001第五届国际数据库工程与应用研讨会格勒诺布尔限制下的自由项集挖掘,M.E.Adiba C.Collet B.C.Desai IEEE计算机学会编辑322 329
[10] Boulicaut,《数据挖掘和知识发现手册》第399页–(2005年)·数字对象标识码:10.1007/0-387-25465-X18
[11] Brin,S.R.Motwani C.Silverstein 1997a《超越市场篮子:将关联规则推广到相关性》,亚利桑那州图森市ACM SIGMOD国际数据管理会议编辑J.Peckham ACM出版社265 276
[12] Brin,S.R.Motwani J.D.Ullman S.Tsur 1997b《市场篮子数据的动态项目集计数和隐含规则》,ACM SIGMOD国际数据管理会议,亚利桑那州图森市,J.Peckham ACM出版社,255 264
[13] 教会,词汇联想规范,相互信息,词典编纂,计算语言学16(1),第22页–(1990)
[14] 克利夫顿,ASLIB Cranfield项目技术报告(1966年)
[15] Cohen,《在不支持剪枝的情况下发现有趣的关联》,IEEE知识与数据工程汇刊13(1),第64页–(2001)·数字对象标识代码:10.1109/69.908981
[16] 科恩,名义量表的一致系数,《教育与心理测量》20(1),第37页–(1960)·doi:10.1177/001316446002000104
[17] Collard,M.J.-C.Vansnick 2007《如何衡量数据挖掘中的趣味性:一种多标准决策分析方法》,《第一届信息科学研究挑战国际会议论文集》,摩洛哥瓦尔扎扎特。C.Rolland、O.Pastor和J.-L.Cavarero编辑。第395-400页
[18] Crémilleux,B.A.Soulet 2008在意大利佩鲁贾举行的第八届计算科学及其应用国际会议上,从具有全球约束的局部模式中发现知识,《计算机科学讲义》第5073卷,作者:O.Gervasi B.Murgante A.LaganàD.Taniar Y.Mun M.L.Gavrilova Springer 1242 1257·Zbl 1178.68210号
[19] 迪亚塔,《数据挖掘中的质量度量》,《计算智能研究》第43卷,第237页–(2007年)·doi:10.1007/978-3-540-44918-8_10
[20] 福田,ACM SIGMOD国际数据管理会议,加拿大魁北克省蒙特利尔。H.V.Jagadish和I.S.Mumick编辑。ACM出版社:纽约第13页–(1996)
[21] 耿,《数据挖掘的有趣度量:一项调查》,ACM计算调查(3,第9条)(2006年)
[22] 基尼,《不平等和收入的衡量》,《经济杂志》31页124–(1921)·doi:10.2307/2223319
[23] Goethals,《数据挖掘和知识发现手册》第377页–(2005年)·doi:10.1007/0-387-25465-X17
[24] Good,I.J.1965《概率估计:现代贝叶斯方法论文》麻省理工出版社·Zbl 0168.39603号
[25] Gray,B.M.E.Orlowska 1998 CCAIIA:将范畴属性聚类为有趣的关联规则第二届亚太知识发现和数据挖掘会议,澳大利亚墨尔本,X.Wu K.Ramamohanarao K.B.Korb编辑的计算机科学讲稿第1394卷。施普林格132 143
[26] 纪尧姆,第六届唐纳品质研讨会,第15页–(2010年)
[27] Hajek,自动假设确定的guha方法,Computing 1 pp 293–(1966)·Zbl 0168.26105号 ·doi:10.1007/BF02345483
[28] Han,《频繁模式挖掘:现状与未来方向》,《数据挖掘与知识发现》15(1),第55页–(2007)·doi:10.1007/s10618-006-0059-1
[29] Han,ACM SIGMOD国际数据管理会议,德克萨斯州达拉斯,pp 1–(2000)·doi:10.1145/342009.335372
[30] Hébert,C.B.Crémilleux 2006通过兴趣度量的统一框架优化规则挖掘第八届数据仓库和知识发现国际会议,波兰克拉科夫,a.M.Tjoa J.Trujillo Springer:Berlin Heidelberg 238 247编辑的计算机科学讲稿第4081卷
[31] Hébert,C.B.Crémilleux 2007在德国莱比锡举行的第五届机器学习和数据挖掘国际会议上对客观兴趣度量的统一观点,P.Perner Springer编辑的计算机科学讲稿第4571卷:柏林-海德堡533 547
[32] Hilderman,R.J.H.J.Hamilton 2000《在数据挖掘和知识发现原则第四届欧洲会议上在数据挖掘系统中应用目标兴趣度测量》,法国里昂,D.A.Zighed H.J·Komorowski J.M.Zytkow Springer Verlag编辑的计算机科学讲稿第1910卷,第432 439页
[33] Hipp,关联规则挖掘算法——一般调查和比较,SIGKDD Explorations 2(1),第58页–(2000)·数字对象标识代码:10.1145/360402.360421
[34] Holeňa,一般规则提取方法的规则集质量度量,国际近似推理杂志50(6),第867页–(2009)·Zbl 1191.68679号 ·doi:10.1016/j.ijar.2009.03.002
[35] 雅卡德,《阿尔卑斯山和侏罗纪植物区系分布比较》,《自然科学协会公报》37第547页–(1901)
[36] Jalali-Heravi,M.O.R.Zaiane,2010年,第25届ACM应用计算研讨会,瑞士西尔,ACM出版社1039 1046
[37] 杰弗里斯(Jeffreys),《概率论处理的意义测试》,《剑桥哲学学会学报》31页203–(1935)·doi:10.1017/S030500410001330X文件
[38] Klemettinen,M.H.Mannila P.Ronkainen H.Toivonen A.I.Verkamo 1994从发现的大量关联规则中发现有趣的规则第三届信息和知识管理国际会议ACM出版社:纽约401 407
[39] Klösgen,数据库中知识发现的问题及其在统计解释器中的处理EXPLORA,《国际智能系统杂志》第7卷第649页–(1992)·兹伯利0795.68065 ·数字对象标识代码:10.1002/int.4550070707
[40] Koh,Y.S 2008在日本大阪第十二届亚太知识发现和数据挖掘会议上,在没有用户定义支持阈值的情况下挖掘非巧合规则,T.Washio E.Suzuki K.M.Ting a.Inokuchi Springer:Berlin Heidelberg 910 915编辑的计算机科学讲稿第5012卷·doi:10.1007/978-3-540-68125-092
[41] Lallich,关联规则兴趣度度量参数化的概率框架,应用概率9中的方法和计算,第447页–(2007)·Zbl 1183.62098号 ·doi:10.1007/s11009-007-9025-7
[42] Lavrac,N.P.A.Flach B.Zupan 1999规则评估措施:第九届归纳逻辑编程国际研讨会论文集的统一观点,斯洛文尼亚布莱德,Springer-Verlag 174 185计算机科学讲稿第1634卷
[43] Le Bras,Y.P.Lenca S.Lallich 2009《最优规则挖掘:反单调性的框架和充分必要条件》,第13届亚太知识发现和数据挖掘会议,泰国曼谷,T.Theeramunkong B.Kijsirikul N.Cercone H.T编辑的《计算机科学讲义》第5476卷。鲍斯普林格:柏林-海德堡705 712
[44] Lenca,《关于为关联规则选择兴趣度度量:面向用户的描述和多准则决策辅助》,《欧洲运筹学杂志》184(2),第610页–(2008)·Zbl 1168.90513号 ·doi:10.1016/j.ejor.2006.10.059
[45] 勒曼(Lerman),《数学与科学》(Mathématiques et Sciences Humaines,74,75)第5页-(1981)·Zbl 0493.62093号
[46] Li,关于最佳规则发现,IEEE知识与数据工程汇刊18(4),第460页–(2006)·doi:10.1109/TKDE.2006.1599385
[47] Li,J.X.Zhang G.Dong K.Ramamohanarao Q.Sun 1999在捷克共和国布拉格举行的第三届欧洲数据挖掘和知识发现原则会议上,高效挖掘无支持阈值的高置信度关联规则,J.M.Zytkow J.编辑的计算机科学讲稿第1704卷。劳克·斯普林格:柏林-海德堡406 411
[48] Li,J.A.W.-C.Fu H.He J.Chen H.Jin D.McAullay G.Williams R.Sparks C.Kelman 2005医学数据中的风险模式挖掘第11届ACM SIGKDD知识发现和数据挖掘国际会议,伊利诺伊州芝加哥,R.Grossman R.J.Bayardo K.P.Bennett ACM出版社770 775
[49] Li,W.J.Han J.Pei 2001 CMAR:基于多类关联规则的准确高效分类在加利福尼亚州圣何塞市第一届IEEE数据挖掘国际会议上由N.Cercone T.Y.Lin X.Wu编辑IEEE计算机学会369 376
[50] Liu,B.W.Hsu Y.Ma 1998在第四届ACM SIGKDD知识发现和数据挖掘国际会议上集成分类和关联规则挖掘,由R.Agrawal P.E.Stolorz G.Piatetsky Shapiro AAAI出版社编辑80 86
[51] Loevinger,《构建和评估能力测试的系统方法》,《心理学专著》61(4)第1页–(1947)·doi:10.1037/h0093565
[52] Morishita,S J.Sese 2000第19届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会论文集,德克萨斯州达拉斯ACM出版社226 236
[53] Ng,R.T.L.V.S.Lakshmanan J.Han A.Pang 1998年ACM SIGMOD数据管理国际会议约束关联规则的探索性挖掘和修剪优化
[54] Omiecinski,数据库中采矿协会的替代利益衡量,IEEE知识与数据工程汇刊15(1),第57页–(2003)·doi:10.1109/TKDE.2003.1161582
[55] Pasquier,使用闭项集格高效挖掘关联规则,信息系统24(1)第25页–(1999)·doi:10.1016/S0306-4379(99)00003-4
[56] 皮尔逊,进化论的数学贡献,III.回归,遗传和混血。伦敦皇家学会哲学学报。A辑,包含数学或物理性质的论文187 pp 253–(1896)
[57] Piatetsky-Shapiro,《数据库中的知识发现》,第229页–(1991年)
[58] Rauch,J.M.Simunek 2001年在第14届Prolog应用国际会议上挖掘4ft关联规则285 294
[59] Salton,G.M.J.McGill 1983现代检索导论McGraw-Hill图书公司
[60] Sebag,《欧洲知识获取研讨会》,第28页–(1988年)
[61] Slowinñski,R S.Greco I.Szczęch 2008年荷兰代尔夫特人本过程国际会议新规范化规则有趣度测度单调性分析,第1卷,P.Brézillon G.Coppin P.Lenca Telecom Bretagne编辑231 242
[62] Smyth,《数据库中的知识发现》,第159页–(1991年)
[63] Suzuki,《统计隐含分析、理论与应用》,《计算智能研究》,第127卷,第383页-(2008)·Zbl 1343.62003号
[64] Tan,选择正确的客观指标进行关联分析,信息系统4(29)第293页–(2004)·doi:10.1016/S0306-4379(03)00072-3
[65] Toloo,DEA对数据挖掘中发现的规则进行排序的新方法,《应用专家系统》36(4),第8503页–(2009)·doi:10.1016/j.eswa.2008年10月38日
[66] Tsumoto,第四届欧洲数据挖掘和知识发现原则会议,法国里昂,pp 652–(2000)·doi:10.1007/3-540-45372-580
[67] Vaillant,B.S.Lallich P.Lenca 2006反例建模和关联规则兴趣度度量行为内华达州拉斯维加斯2006年国际数据挖掘会议S.Crone S.Lessmann R.Stahlbock编辑132 137
[68] Wang,K.Y.He D.W.Cheung 2001《无支持要求的自信规则挖掘》,第十届信息和知识管理国际会议,亚特兰大,GA ACM出版社89 96
[69] Wang,K.S.H.W.Tay B.Liu 1998数字关联规则的基于兴趣的区间合并在第四届ACM SIGKDD知识发现和数据挖掘国际会议上,纽约ACM出版社121 128
[70] Webb,K-optimal规则发现,数据挖掘和知识发现10(1),第39页–(2005)·doi:10.1007/s10618-005-0255-4
[71] Wong,M.K.Leung 2000使用基于语法的遗传编程和应用进行数据挖掘Kluwer学术出版社·Zbl 0944.68172号
[72] Wu,《数据挖掘十大算法》,《知识与信息系统》14(1),第1页–(2008)·doi:10.1007/s10115-007-0114-2
[73] Xiong,H.P.-N.Tan V.Kumar 2003利用倾斜支持度分布挖掘数据集中的强亲和力关联模式第三届IEEE数据挖掘国际会议,佛罗里达州墨尔本IEEE计算机学会387 394
[74] 杨,数据挖掘研究中的10个挑战性问题,《国际信息技术与决策杂志》5(4),第597页–(2006)·doi:10.1142/S0219622006002258
[75] Yao,Y.Y.Chen X.Yang 2003规则兴趣度评估的测量理论基础结合第三届IEEE数据挖掘国际会议召开的数据挖掘基础和新方向研讨会,佛罗里达州墨尔本IEEE计算机学会221 227
[76] Yao,J.H.Liu 1997在第一届太平洋-亚洲知识发现和数据挖掘会议上搜索多个数据库以寻找有趣的复合物,新加坡,KDD:技术与应用,H.Lu H.Motoda H.Liu编辑世界科学出版公司:台湾台北198 210
[77] Yin,X.J.Han 2003 CPAR:基于预测关联规则的分类在第三届SIAM国际数据挖掘会议上由D.BarbaráC.Kamath SIAM编辑331 335
[78] Yule,《关于统计中属性的关联:以童年社会的材料为例》,《伦敦皇家学会哲学学报》。A辑,包含数学或物理性质的论文194 pp 257–(1900)·doi:10.1098/rsta.1900.0019
[79] Zaki,挖掘非冗余关联规则,数据挖掘和知识发现9(3)pp 223–(2004)·doi:10.1023/B:DAMI.0000040429.96086.c7
[80] Zhang,T.2000协会规则第四届亚太知识发现和数据挖掘会议,日本京都,计算机科学讲义第1805卷,T.Terano H.Liu A.L.P.Chen Springer:Berlin Heidelberg 245 256
[81] Zimmermann,A.L.De Raedt 2004 CorClass:分类相关关联规则挖掘第七届发现科学国际会议,意大利帕多瓦,计算机科学讲稿第3245卷,E.Suzuki S.Arikawa Springer编辑60 72·Zbl 1110.68485号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。