×

大规模数据的三向聚类集成方法。 (英语) Zbl 1471.62401号

摘要:集群集成已经成为一种用于组合多个集群结果的强大技术。为了解决大规模数据的聚类问题,本文提出了一种基于Spark的高效三向聚类集成方法,该方法能够同时处理硬聚类和软聚类,本文受三向决策理论的启发,提出了基于Spark的三向聚类集成框架,并开发了一种分布式三向k均值聚类算法。然后,我们引入了簇单元的概念,它反映了所有集成成员一致同意的最小粒度分布结构。我们还介绍了用于计算单元之间和簇之间关系的定量度量。最后,我们提出了一种基于聚类单元的一致性聚类算法,并设计了各种三方决策策略来分配小的聚类单元和无单元对象。使用19个真实数据集的实验结果从ARI、ACC、NMI和F1-Measure等不同指标验证了该方法的有效性。实验结果表明,该方法能够有效地处理大规模数据,并且所提出的一致性聚类算法具有较低的时间开销,并且不会牺牲聚类质量。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62C25型 统计决策理论中的复合决策问题
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Afridi,M.K。;北阿扎姆。;Yao,J.T。;Alanazi,E.,《使用GTRS处理缺失数据的三向聚类方法》,《国际期刊近似原因》。,98, 11-24 (2018) ·Zbl 1451.62070号
[2] Bouma,G.,搭配提取中的归一化(逐点)互信息,(GSCL(2009)论文集),31-40
[3] Campagner,A。;Ciucci,D.,《正交分区和软聚类:聚类验证的软互信息度量》,Knowl-基于系统。,180, 51-61 (2019)
[4] 陈,H。;沈,X。;Lv,Y。;Long,J.,基于软划分和隶属度信息的新型自动模糊聚类算法,神经计算,236104-112(2017)
[5] 陈,M。;Miao,D.,区间集聚类,专家系统。应用。,38, 4, 2923-2932 (2011)
[6] Choi,W。;洪,S。;Jeong,W.K.,Vispark:使用spark的GPU加速分布式视觉计算,SIAM J.Sci。计算。,38、5、S700-S719(2016)·Zbl 1349.68032号
[7] 邓,X。;Yao,Y.,模糊集的决策论三元近似,信息科学。,279, 702-715 (2014) ·Zbl 1354.03073号
[8] 弗恩,X.Z。;Brodley,C.E.,通过二部图划分解决集群集成问题,(第二十届第一届机器学习国际会议论文集(2004),ACM),36
[9] Gionis,A。;曼尼拉,H。;Tsaparas,P.,聚类聚合,ACM Trans。知识。发现。数据,1,1,4(2007)
[10] 冈萨雷斯,J.E。;Xin,R.S。;Dave,A。;曲柄肖,D。;富兰克林,M.J。;Stoica,I.,GraphX:分布式数据流框架中的图形处理,(第11届USENIX操作系统设计与实现研讨会,第14卷)。第11届USENIX操作系统设计与实现研讨会,第14卷,OSDI(2014),599-613
[11] 戈帕拉尼,S。;Arora,R.,将apache spark和map reduce与使用k-means的性能分析进行比较,Int.J.Comput。应用。,113, 1 (2015)
[12] 休伯特,L。;Arabie,P.,比较分区,J.Classif。,2, 1, 193-218 (1985)
[13] Jin,C。;刘,R。;陈,Z。;亨德里克斯·W。;阿格拉瓦尔。;Choudhary,A.,《使用spark的可扩展层次聚类算法》,(2015 IEEE第一届大数据计算服务和应用国际会议,2015 IEEE首次大数据计算业务和应用国际大会,BigDataService(2015),IEEE),418-426
[14] Jing,L。;田,K。;黄建忠,高维数据集成聚类的分层特征抽样方法,模式识别。,48, 11, 3688-3702 (2015)
[15] 李,P。;罗,Y。;张,N。;Heterospark,Y.Cao,机器学习算法的异构CPU/GPU火花平台,(2015 IEEE网络、架构和存储国际会议,2015 IEEE国际网络、架构与存储会议,NAS(2015),IEEE),347-348
[16] Liang,D。;刘丹,基于区间值决策理论粗糙集的三方决策系统研究,信息科学。,276, 186-203 (2014)
[17] Lin,W。;吴,Z。;林,L。;文,A。;Li,J.,《保险大数据分析的集成随机森林算法》,IEEE Access,516568-16575(2017)
[18] Lingras,P。;Peters,G.,将粗糙集概念应用于聚类,(第14届粗糙集、模糊集、数据挖掘和粒度计算国际会议论文集。第14届粗集、模糊集合、数据挖掘与粒度计算国际大会论文集,RSFDGrC 2013(2012),Springer),23-37
[19] Lingras,P。;Yan,R.,使用模糊和粗糙集理论的区间聚类,(IEEE模糊信息年会,2004年,第2卷)。IEEE模糊信息年会,2004年,第2卷,处理NAFIPS’04(2004),IEEE),780-784
[20] 刘,Y。;徐,L。;李明,反向传播神经网络在mapreduce和spark中的并行化,国际并行程序。,45760-779(2017年)
[21] 卢·W。;曹,P.,基于spark上分布式局部亲和传播的大规模数据集聚类,国际数据库理论应用杂志。,9, 10, 241-250 (2016)
[22] Makhoul,J。;库巴拉,F。;施瓦茨,R。;Weischedel,R.,信息提取的性能度量,(美国国防高级研究计划局广播新闻研讨会论文集。美国国防高级研究计划局广播新闻研讨会论文集,弗吉尼亚州赫恩登(1999)),249-252
[23] X孟。;布拉德利,J。;Yavuz,B。;斯帕克斯,E。;Venkataraman,S。;刘博士。;弗里曼,J。;蔡,D。;Amde,M。;Owen,S.,MLlib:Apache Spark,J.Mach中的机器学习。学习。第17,1235-1241号决议(2016年)·Zbl 1360.68697号
[24] 任,Y。;多梅尼科尼,C。;张,G。;Yu,G.,加权对象集合聚类,(2013年IEEE第13届国际数据挖掘会议,2013年IEEE第13届数据挖掘国际会议,ICDM(2013),IEEE),627-636
[25] 任,Y。;多梅尼科尼,C。;张,G。;Yu,G.,加权对象集合聚类:方法和分析,知识。信息系统。,51, 2, 661-689 (2017)
[26] 伦登,E。;阿布恩德斯,I。;Arizmendi,A。;Quiroz,E.M.,《内部与外部集群验证指数》,《国际计算杂志》。社区。,5, 1, 27-34 (2011)
[27] Sarazin,T。;阿扎格,H。;Lebbah,M.,使用spark-mapreduce进行SOM聚类,(2014 IEEE国际并行与分布式处理研讨会研讨会,2014 IEEE International Parallel&Distributed Processing Symposium Workshops,IPDPSW(2014),IEEE),1727-1734
[28] 斯特雷尔,A。;Ghosh,J.,《集群集成——用于组合多个分区的知识重用框架》,J.Mach。学习。决议,第3号,12月,583-617(2002)·Zbl 1084.68759号
[29] Vega-Pons,S。;Ruiz-Shulcloper,J.,《聚类集成算法综述》,国际J。模式识别。Artif公司。智力。,25, 03, 337-372 (2011)
[30] 王,P.X。;Yao,Y.Y.,CE3:一种基于数学形态学的三元聚类方法,Knowl-基于系统。,155, 54-65 (2018)
[31] Xin,R.S。;冈萨雷斯,J.E。;富兰克林,M.J。;Stoica,I.,GraphX:基于火花的弹性分布式图形系统,(第一届图形数据管理经验和系统国际研讨会(2013年),ACM),2
[32] Xu,R。;Wunsch,D.,《聚类算法综述》,IEEE Trans。神经网络。,1645-678年3月16日(2005年)
[33] Yang,Y。;滕,F。;李·T。;Wang,H。;Wang,H。;Zhang,Q.,基于mapreduce方法的并行半监督多智能体群体聚类集成,IEEE Trans。云计算。,6, 3, 857-867 (2015)
[34] 姚,J。;Azam,N.,基于Web的医疗决策支持系统,用于使用游戏理论粗糙集进行三方医疗决策,IEEE Trans。模糊系统。,23, 1, 3-15 (2015)
[35] Yao,Y.,《三元决策:粗糙集理论中规则的解释》,(2009年粗糙集与知识技术国际会议,Springer),642-649
[36] Yao,Y.,《三种决策和认知计算》,Cogn。计算。,8月4日,543-554(2016)
[37] Yu,H.,三元聚类分析框架,(《国际粗糙集联合会议论文集》,国际粗糙集联席会议论文集,2017(2017),Springer),300-312
[38] Yu,H。;焦,P。;姚,Y。;Wang,G.,用三方决策检测和细化复杂网络中的重叠区域,信息科学。,373, 21-41 (2016) ·Zbl 1429.68245号
[39] Yu,H。;王,G。;李·T。;梁,J。;Miao,D。;Yao,Y.,《三种决策:复杂问题解决的方法和实践》(2015),科学出版物:科学出版物北京
[40] Yu,H。;张,C。;Wang,G.,使用三方决策理论的基于树的增量重叠聚类方法,Knowl-基于系统。,91, 189-203 (2016)
[41] 扎哈里亚,M。;乔杜里,M。;富兰克林,M.J。;申克,S。;Spark,I.Stoica,使用工作集的集群计算,HotCloud,10,10-10,95(2010)
[42] 扎哈里亚,M。;Das,T。;李,H。;亨特,T。;申克,S。;Stoica,I.,《离散流:大规模容错流计算》(第二十四届ACM操作系统原理研讨会论文集(2013),ACM),423-438
[43] 周,B。;姚,Y。;Luo,J.,成本敏感型三向电子邮件垃圾邮件过滤,J.Intell。信息系统。,42, 1, 19-45 (2014)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。