×

挖掘事务数据库和动态数据流中的最大频繁模式:基于Spark的方法。 (英语) Zbl 1436.68089号

摘要:挖掘最大频繁模式(MFP公司)在事务数据库中(TDB(TDB))和动态数据流(驾驶员侧车门开关(DDS))对商业智能至关重要。MFP作为最小的模式集,有助于揭示客户的购买规则和市场篮子分析(工商管理硕士). 尽管在这一领域已经进行了大量研究,但大多数研究都扩展了基于主内存的Apriori或FP-growth算法。因此,这些方法不仅无法扩展,而且缺乏并行性。因此,无法满足不断增长的大数据源需求。此外,由于存在空事务,一些现有方法中的挖掘性能急剧下降。因此,我们提出了一种有效的采矿方法MFP公司具有阿帕奇火花克服这些问题。为了更快地计算和有效地利用内存,我们使用了一种基于素数的数据转换技术,其中保留了单个事务的值。在删除空事务和不经常出现的项之后,与原始分布相比,转换后的数据集变得更加密集。我们在两个真实静态环境中测试了我们提出的算法时差驾驶员侧车门开关(DDS)实验结果和性能分析表明,我们的方法是有效的,并且可以扩展到大数据集大小。

MSC公司:

第68页,共15页 数据库理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 阿格拉瓦尔,D。;亚历山大,L。;H.V.Jagadish,《大数据的挑战和机遇》,Proc。荷兰VLDB。,5, 12, 2032-2033 (2012)
[2] 阿格拉瓦尔,R。;Srikant,R.,挖掘关联规则的快速算法,第二十届超大数据库国际会议论文集,VLDB,1215487-499(1994)
[3] 阿格拉瓦尔,R。;Srikant,R.,挖掘关联规则的快速算法,第二十届超大数据库国际会议论文集,VLDB,1215487-499(1994)
[4] Apostol,T.,《解析数论导论》,1(1976),施普林格·Zbl 0335.10001号
[5] Bayardo Jr,R.J.,从数据库中高效挖掘长模式,ACM Sigmod Rec.,27,2,85-93(1998)
[6] Bhuvan,M.S。;Rao,V.D。;Jain,S。;Ashwin,T。;Guddeti,R.M.R.,《使用上下文特定语法进行语义情感分析》,《国际计算、通信和自动化会议论文集》(ICCCA),28-35(2015),IEEE
[7] Brijs,T。;斯温宁,G。;Vanhoof,K。;Wets,G.,《使用关联规则进行产品分类决策:案例研究》,第五届ACM SIGKDD国际知识发现和数据挖掘会议论文集,254-260(1999),ACM
[8] Burdick,D。;Calimlim,M。;弗兰尼克,J。;盖尔克,J。;Yiu,T.,MAFIA:最大频繁项集算法,IEEE Trans。知识。数据工程,17,11,1490-1504(2005)
[9] Cuzzocrea,A。;江,F。;梁振英。;刘,D。;Peddle,A。;Tanbee,S.K.,《挖掘流行模式:一个新的挖掘问题及其在静态事务数据库和动态数据流中的应用》,《大规模数据和知识中心系统事务》第二十一期,第115-139页(2015年),施普林格出版社
[10] 迪安·J。;Ghemawat,S.,MapReduce:大型集群上的简化数据处理,Commun。ACM,51,1,107-113(2008)
[11] 爱立信,大数据分析,爱立信白皮书,1-12(2015),爱立森
[12] Gouda,K。;Zaki,M.,高效挖掘最大频繁项集,IEEE数据挖掘国际会议论文集,163-170(2001)
[13] Gouda,K。;Zaki,M.,Genmax:挖掘最大频繁项集的有效算法,Data Min Knowl。发现。,11, 3, 223-242 (2005)
[14] 古普塔,A。;巴特纳加,V。;Kumar,N.,《使用形式概念分析挖掘数据流中的闭合项集》,《数据仓库和知识发现》,285-296(2010),施普林格出版社
[15] Han,J。;裴,J。;Yin,Y。;Mao,R.,《无候选生成的频繁模式挖掘:频率模式树方法》,Data Min.Knowl。发现。,8, 1, 53-87 (2004)
[16] Harnie,D。;Saey,M。;Vapirev,A.E。;韦格纳,J.K。;Gedich,A。;斯泰亚特,M。;Ceulemans,H。;Wuts,R。;Meuter,W.D.,《使用Apache Spark进行药物发现中靶点预测的缩放机器学习》,《未来基因》。计算。系统。,67,附录C,409-417(2017)
[17] 蒋,N。;Gruenwald,L.,数据流关联规则挖掘中的研究问题,ACM Sigmod Rec.,35,1,14-19(2006)
[18] Kai,Y。;Yuan,M.,发现最大频繁项集的快速算法,第三届国际通信软件与网络会议论文集,434-438(2011),IEEE
[19] 卡里姆·M·R。;哈尔德,S。;Jeong,B.-S。;Choi,H.-J.,《通过消除零交易同步高效挖掘频繁相关、关联相关和独立模式》(Park,J.;Jin,Q.;Sangsoo Yeo,M.;Hu,B.,《智能空间中以人为中心的技术和服务》,《电气工程讲义》,第182卷(2012),Springer:Springer Dordrecht)
[20] 卡里姆·M·R。;Jeong,B。;Choi,H.,《基于最大频繁模式的挖掘电子购物者的购买行为:电子商务视角》,《第二届信息科学与应用国际会议论文集》,234-238(2012),IEEE
[21] 卡里姆,M.R。;拉希德,M.M。;Jeong,B。;Choi,H.,事务数据库中的隐私保护挖掘最大频繁模式,高级应用程序数据库系统(DASFAA),303-319(2012),Springer
[22] 卡里姆,M.R。;Sahay,R。;Rebholz-Schhmann,D.,使用Apache Spark的可扩展、安全和实时医疗分析框架,第二届INSIGHT学生数据分析会议论文集(2015年),INSIGHT Centre for Data analytics,83-83
[23] 卡里姆·M·R。;Sridhar,A.,《Scala和Spark for Big Data Analytics》(2017年),Packt Publishing Limited
[24] Leung,C。;Q.Khan。;Hoque,T.,CanTree:高效增量挖掘频繁模式的树结构,第五届IEEE数据挖掘国际会议(ICDM)论文集,8-pp(2005),IEEE
[25] Leung,C.K.-S。;Hao,B.,从不确定数据流中挖掘频繁项集,第二十五届IEEE国际数据工程会议论文集,1663-1670(2009),IEEE
[26] Leung,C.K.-S。;Jiang,F.,从不确定数据的时间衰减流中进行频繁模式挖掘,数据仓库和知识发现,252-264(2011),Springer
[27] Leung,C.K.-S。;Q.Khan。;Li,Z。;Hoque,T.,CanTree:增量频率模式挖掘的规范有序树,Knowl。信息系统。,11, 3, 287-311 (2007)
[28] 林博士。;Kedem,Z.,Pincer-search:发现最大频繁集的有效算法,IEEE Trans。知识。数据工程,14,3,553-566(2002)
[29] 卢,X。;拉赫曼,M.W.U。;伊斯兰,N。;Shankar,D。;Panda,D.K.,《利用RDMA加速大数据处理的火花:早期经验》,IEEE第二十二届高性能互连(HOTI)年会论文集,9-16(2014),IEEE
[30] Meenakshi,A。;Alagarsamy,K.,《垂直数据布局中项目频率的高效存储减少》,国际计算机科学杂志。工程师,3,2,728-738(2011)
[31] 穆斯塔法,N。;Nadimi-Shahraki,M。;A.马马特。;Sulaiman,M.,《频繁模式挖掘的数值方法》,J.Theor。申请。技术信息。,92-98 (2005)
[32] Nadimi-Shahraki,M。;穆斯塔法,N。;苏莱曼,M。;Mamat,A.,挖掘最大频繁项集的新方法,信息技术国际研讨会论文集,2,1-4(2008),IEEE
[33] 奈尔,B。;Tripathy,A.K.,《通过消除空事务加速闭合频繁项集挖掘》,J.Emerg.Trends Compute。信息科学。,317-324年7月2日(2011年)
[34] Rymon,R.,通过系统集合枚举进行搜索,技术报告(CIS),297(1992)
[35] Selberg,A.,素数定理的初等证明,《数学年鉴》。,50305-313(1949年)·Zbl 0036.30604号
[36] Solaimani,M。;伊夫特哈尔,M。;Khan,L。;Thurasingham,B.,使用多源vmware性能数据中的火花覆盖异构数据进行在线异常检测的统计技术,IEEE国际大数据会议论文集,1086-1094(2014),IEEE
[37] Vaidya,J。;Clifton,C.,垂直分区数据中的隐私保护关联规则挖掘,《八届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,639-644(2002),ACM
[38] Wang,H。;Hu,C.,基于改进的FP-树和数组技术的最大模式挖掘,第三届智能信息技术与安全信息学国际研讨会论文集,567-571(2010),IEEE
[39] Wang,J。;徐,C。;Pan,Y.,挖掘隐私保护频繁项目集的增量算法,第五届机器学习和控制论国际会议论文集,13-16(2006),Citeseer
[40] Zaharia,M。;乔杜里,M。;Das,T。;Dave,A。;马,J。;McCauley,M。;富兰克林,M.J。;申克,S。;Stoica,I.,《弹性分布式数据集:内存集群计算的容错抽象》,《第九届USENIX网络系统设计与实现会议论文集》(2012年),USENIX协会,2-2
[41] Zaharia,M。;乔杜里,M。;富兰克林,M.J。;申克,S。;Stoica,I.,Spark:带工作集的集群计算,第二届USENIX云计算热点会议论文集。第二届USENIX云计算热点会议论文集,HotCloud’10(2010),USENIX-协会:USENIX-Association Berkeley,CA,USA,10-10
[42] Zaki,M.,关联挖掘的可伸缩算法,IEEE Trans。知识。数据工程,12,3,372-390(2000)
[43] 赵,G。;Ling,C。;Sun,D.,SparkSW:大规模生物序列比对的可扩展分布式计算系统,第十五届IEEE/ACM集群、云和网格计算国际研讨会论文集,845-852(2015),IEEE
[44] 郑洁。;Dagnino,A.,《电力系统应用中大量历史数据的预测机器学习分析的初步研究》,IEEE国际大数据会议论文集,952-959(2014),IEEE
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。