×

加快处理大数据的大规模一致性模糊聚类。 (英语) Zbl 1397.62231号

总结:海量数据可以为公司创造真正的竞争优势;它用于更好地响应客户、跟踪消费者的行为、预测演变等。然而,它也有自己的不足。这种数据量不仅需要很大的存储空间,而且还使得分析、处理和检索操作非常困难,非常耗时。克服这些问题的一种方法是将这些数据聚集到一个紧凑的格式中,该格式仍然是整个数据的信息版本。已经提出了许多聚类算法。然而,只要数据的大小变大,就计算时间而言,它们的伸缩性就很差。在本文中,我们充分利用一致性聚类来处理大数据聚类,然后使用RHadoop的并行处理MapReduce模型从中本地生成基本分区,然后遵循一致的趋势来获得最终结果。通过在满足体积和速度维度的同时增加计算节点数和样本大小,进行了可伸缩性分析,以验证所提出的聚类模型的性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
68层37 人工智能背景下的不确定性推理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿卜迪,H。;Valentin,D.,多重对应分析,(Salkind,N.J.,《计量与统计百科全书》,(2007年),加州千橡树协会)
[2] Al-Madi,N。;一、阿尔贾拉。;Ludwig,S.A.,基于mapreduce的并行萤火虫群优化聚类算法(IEEE swarm Intelligence研讨会论文集,(2014)),189-196
[3] 安德烈奥普洛斯,B。;安,A。;王,X。;Schroeder,M.,《集群算法路线图:寻找生物医学应用的匹配项》,Brief。生物信息。,10, 3, 297-314, (2009)
[4] 阿亚德,H。;Kamel,M.S.,《集群数量可变的分区的累积投票一致性方法》,IEEE Trans。模式分析。机器。智力。,30, 1, 160-173, (2008)
[5] Benzécri,J.,《历史学与历史研究》。第五部分:对应分析,Cah。分析。Données,2岁,1岁,9-40岁(1977年)
[6] Bezdek,J.,《模糊计算手册中的模式识别》,(1998),IOP出版有限公司,第F6章
[7] Bezdek,J.C.,《模糊集数值分类法》,J.Math。生物学,1,1,57-71,(1974)·Zbl 0403.62039号
[8] Bezdek,J.C.,用模糊目标函数算法进行模式识别,(1981),Plenum出版社·兹比尔0503.68069
[9] Bezdek,J.C.,FCM:模糊C均值聚类算法,计算。地质科学。,10, 191-203, (1984)
[10] Blackard,J.A.,神经网络和判别分析在预测森林覆盖类型中的比较,(1998),科罗拉多州立大学森林科学系,博士论文
[11] 布莱克,C。;基奥,E。;Merz,C.J.,UCI机器学习数据库库,(1998)
[12] 博尔多尼亚,G。;Ienco,D.,Fuzzy core dbscan聚类算法,(第十五届基于知识的系统中信息处理和不确定性管理国际会议论文集,(2014)),100-109
[13] 蔡,X。;聂,F。;Huang,H.,大数据的多视图k-means聚类,(第23届国际人工智能联合会议论文集,(2013)),2598-2604
[14] 卡宾托,C。;Romano,G.,基于新概率随机指数的共识聚类及其在次主题检索中的应用,IEEE Trans。模式分析。机器。智力。,34, 12, 2315-2326, (2012)
[15] Chatterjee,S。;昆杜,E。;Mukhopadhyay,A.,基于马尔可夫链的众包聚类集成方法,(2016),CoRR
[16] Chiu,Y.-W.,《R烹饪书的机器学习》(2015),Packt Publishing Ltd。
[17] 盖,T。;Thomas,J.,《信息理论的要素》(2006),John Wiley and Sons,Inc.Hoboken,NJ,USA·Zbl 1140.94001号
[18] 迪安·J。;Ghemawat,S.,Mapreduce:大型集群上的简化数据处理,(第六届操作系统设计与实现国际研讨会论文集,(2004)),137-150
[19] 德帕尔,B。;Falcón,R。;Vanhoof,K。;Wets,G.,PSO驱动的协作集群:一种适用于普遍存在环境的集群算法,Intell。数据分析。,15, 1, 49-68, (2011)
[20] Dimitriadou,E。;Weingessel,A。;Hornik,K.,《投票合并:聚类的集成方法》,(《人工神经网络国际会议论文集》,(2001年),217-224·Zbl 1005.68932号
[21] Dunn,J.,isodata过程的模糊关系及其在检测紧密、分离良好的簇中的应用,J.Cybern。,3, 3, 32-57, (1974) ·Zbl 0291.68033号
[22] Everitt,B.,聚类分析,(1993),爱德华·阿诺德
[23] Fa、R。;南迪,A.K。;Gong,L.-Y.,基因表达数据的聚类分析:方法综述,(第五届通信、控制和信号处理国际研讨会论文集,(2012)),1-6
[24] 菲尔科夫,V。;Skiena,S.,通过共识聚类整合微阵列数据,Int.J.Artif。智力。工具,13,4,863-880,(2004)
[25] 财富,S。;Wyllie,J.,随机访问机器中的并行性,(第十届ACM计算理论年度研讨会论文集,(1978)),114-118·Zbl 1282.68104号
[26] 加格,A。;曼格拉,A。;古普塔,N。;Bhatnagar,V.,PBIRCH:增量数据的可扩展并行聚类算法,(第十届国际数据库工程与应用会议论文集,(2006)),315-316
[27] 加格,D。;戈希尔,P。;Trivedi,K.,在hadoop和云中使用mapreduce修改模糊K-means聚类,(IEEE电气、计算机和通信技术国际会议论文集,(2015)),1-5
[28] 北加迪里。;加法里,M。;Nikbakht,M.A.,《Bigfcm:基于hadoop的快速、精确和可扩展的FCM》,(2016),CoRR
[29] Ghassany,M。;北卡罗来纳州格罗扎武。;Bennani,Y.,协作多视图聚类,(IEEE神经网络国际联合会议论文集,(2013)),1-8
[30] Ghosh,J。;Acharya,A.,《集群合奏》,威利跨学科。版本数据最小知识。发现。,1, 4, 305-315, (2011)
[31] Gionis,A。;Mannila,H。;Tsaparas,P.,聚类聚合,(第21届国际数据工程会议论文集,(2005)),341-352
[32] 格拉玛,A。;古普塔,A。;卡利皮斯,G。;库马尔,V.,《并行计算导论》(2003),艾迪森·韦斯利
[33] Guha,S。;Rastogi,R。;Shim,K.,CURE:大型数据库的高效聚类算法,Inf.Syst。,26, 1, 35-58, (2001) ·Zbl 1006.68661号
[34] Guo,K。;Iu,Z.,一种新的高效分层分布式p2p聚类算法,(第五届模糊系统与知识发现国际会议论文集,(2008)),352-355
[35] 哈吉杜卡斯,体育。;Amsaleg,L.,使用openmp对分层数据聚类算法进行并行化,(openmp共享内存并行编程国际研讨会论文集,(2006)),289-299
[36] Hadjitodorov,S.T。;Kuncheva,L.I.,为集群集合选择多样化启发式,(第七届多分类器系统国际研讨会论文集,(2007)),200-209
[37] Hadjitodorov,S.T。;Kuncheva,L.I。;Todorova,L.P.,为更好的集群群提供适度多样性,Inf.Fusion,7,3,264-275,(2006)
[38] Hall,L.O.,《利用可扩展软聚类探索大数据》(《第六届概率统计软方法国际会议论文集》,第190卷,(2012),斯普林格出版社),11-15
[39] Hammouda,K.M。;Kamel,M.S.,《协作文档聚类》(第六届SIAM数据挖掘国际会议论文集,(2006)),453-463
[40] 哈穆达,K.M。;Kamel,M.S.,《分层分布式对等文档聚类和集群摘要》,IEEE Trans。知识。数据工程,21,5,681-698,(2008)
[41] Hartigan,J.A.,《聚类算法》(1975),John Wiley&Sons·Zbl 0372.62040号
[42] 哈文斯,T。;Bezdek,J。;Leckie,C。;霍尔,L。;Palaniswami,M.,《超大数据的模糊C均值算法》,IEEE Trans。模糊系统。,2013年6月20日至1146日(2012年)
[43] Hore,P。;洛杉矶霍尔。;Goldgof,D.B.,大型数据集的集群集成框架,(IEEE国际系统会议论文集,人与控制论,第4卷,(2006)),3342-3347
[44] 胡,C。;康,X。;罗,N。;赵琦,时空轨迹大数据的并行聚类,(第十一届国际自然计算会议论文集,(2015)),769-774
[45] Iam-on,N。;Boongoen,T。;加勒特,S.M。;Price,C.J.,分类数据聚类的基于链接的集群集成方法,IEEE Trans。知识。数据工程,24,3,413-425,(2012)
[46] Jain,A。;Dubes,R.,聚类数据算法,(1988),Prentice Hall·Zbl 0665.62061号
[47] Januzaj,E。;Hans-Peter,K。;Pfeifle,M.,《走向有效和高效的分布式聚类》,(大型数据集聚类国际研讨会论文集,(2003年),49-58
[48] 贾德·D。;麦金利,P.K。;Jain,A.K.,《大规模并行数据聚类》,IEEE Trans。模式分析。机器。智力。,20, 871-876, (1998)
[49] Katselis,D。;Beck,C.L。;van der Schaar,M.,通过分散观测实现的集成在线聚类,(第53届IEEE决策与控制国际会议论文集,(2014)),910-915
[50] 凯拉雷夫公司。;斯特拉尼埃里,A。;Yearwood,J。;Jelinek,H.F.,大型心电图数据集共识聚类的实证研究,(第25届IEEE基于计算机的医疗系统国际研讨会论文集,(2012)),1-4
[51] Kim,W.,《调查主题:并行聚类算法详细说明了结果的注释书目和分类》(2009)
[52] Kim,Y。;垫片,K。;Kim,M.-S。;Sup Lee,J.,DBCURE-MR:一种高效的基于密度的大数据聚类算法,使用mapreduce,Inf.Syst。,42, 15-35, (2014)
[53] V.Y.Kiselev、K.Kirschner、M.T.Schaub、T.Andrews、A.Yiu、T.Chandra、K.N.Natarajan、W.Reik、M.Barahona、A.R.Green、M.Hemberg、Sc3-单细胞RNA-seq数据共识聚类,2016年,bioRxiv。;V.Y.Kiselev,K.Kirschner,M.T.Schaub,T.Andrews,A.Yiu,T.Chandra,K.N.Natarajan,W.Reik,M.Barahona,A.R.Green,M.Hemberg,Sc3-单细胞RNA-seq数据的一致性聚类,2016,bioRxiv。
[54] 克里希纳普兰,R。;Keller,J.M.,《可能性c-means算法:见解和建议》,IEEE Trans。模糊系统。,4, 3, 385-393, (1996)
[55] 克里希纳萨米,G。;Kulkarni,A.J。;Raveendran,P.,基于改进队列智能和k-means的数据聚类混合方法,专家系统。申请。,41, 13, 6009-6016, (2014)
[56] 郭台铭。;史密斯,K.A。;洛扎诺,S。;Taniar,D.,大型数据集的并行模糊c-均值聚类,(第八届并行处理国际会议论文集,Euro-Par,(2002)),365-374·Zbl 1068.68679号
[57] Liu,A.Y。;Lam,D.N.,使用共识聚类进行多视图异常检测,(IEEE安全与隐私研讨会论文集,(2012)),117-124
[58] 刘,H。;Cheng,G。;Wu,J.,《大数据共识聚类》(第十二届服务系统与服务管理国际会议论文集,(2015)),1-6
[59] Ludwig,S.A.,《基于Mapreduce的模糊C-means聚类算法:实现和可扩展性》,Int.J.Mach。学习。赛博。,6, 6, 923-934, (2015)
[60] MacQueen,J.,《多元观测分类和分析的一些方法》(Le Cam,L.M.;Neyman,J.),《第五届伯克利数理统计与概率研讨会论文集》(1967),281-297·Zbl 0214.46201号
[61] 马森,M。;Denoeux,T.,ECM:模糊c均值算法的证据版本,模式识别。,41, 4, 1384-1397, (2008) ·Zbl 1131.68081号
[62] Merugu,S。;Ghosh,J.,使用生成模型保护隐私的分布式集群,(第三届IEEE数据挖掘国际会议论文集,(2003)),211-218
[63] 奥利维拉,J。;Pedrycz,W.,《模糊聚类及其应用进展》,(2007),John Wiley&Sons
[64] Othman,F。;阿卜杜拉·R。;拉希德,N.A。;Salam,R.A.,DNA数据集上的并行k-means聚类算法,(第五届并行与分布式计算国际会议论文集:应用与技术,2004年),248-251
[65] 北卡罗来纳州帕尔。;Pal,K。;Bezdek,J.,混合c均值聚类模型,(第六届IEEE模糊系统国际会议论文集,(1997)),11-21
[66] Pedrycz,W.,协作模糊聚类,模式识别。莱特。,23, 14, 1675-1686, (2002) ·Zbl 1010.68136号
[67] 佩德里茨,W。;Hirota,K.,共识驱动的模糊聚类,模式识别。莱特。,29, 9, 1333-1343, (2008)
[68] 佩利格,D。;Moore,A.W.,X-means:extending k-means with effective estimate of clusters,(《第17届国际机器学习会议论文集》,(2000)),727-734
[69] 新墨西哥州波特拉。;卡瓦尔坎蒂,哥伦比亚特区。;Ren,T.I.,MR脑图像分割的半监督聚类,专家系统。申请。,41, 4, 1492-1497, (2014)
[70] Sassi Hidri,M。;Grissa-Touzi,A。;Ounelli,H.,基于模糊FCA的聚类质量评价,(第18届数据库和专家系统应用国际会议论文集,(2007)),62-72
[71] 佐藤,M。;佐藤,Y。;Jain,L.,模糊聚类模型和应用,模糊性和软计算研究,第9卷,(1997),Springer·兹比尔0892.62033
[72] Shirkhorshidi,A.S。;Aghabozorgi,S。;Wah,T.Y。;Herawan,T.,《大数据聚类:综述》,707-720,(2014),施普林格国际出版公司
[73] 什瓦奇科,K。;Kuang,H。;Radia,S。;Chansler,R.,《hadoop分布式文件系统》(The hadoop distributed file system)(第26届海量存储系统与技术研讨会论文集,(2010)),1-10
[74] 斯尼尔,M。;奥托,S。;Huss-Lederman,S。;Walker,D。;Dongarra,J.,MPI-完整参考,第1卷:MPI核心,(1998),麻省理工学院出版社,马萨诸塞州剑桥,美国
[75] 斯特雷尔,A。;Ghosh,J.,《集群集成——用于组合多个分区的知识重用框架》,J.Mach。学习。决议,3583-617,(2002)·Zbl 1084.68759号
[76] Sublime,J。;北卡罗来纳州格罗扎武。;Bennani,Y。;Cornuéjols,A.,《异构算法的协同聚类》(神经网络国际联合会议论文集,(2015)),1-8
[77] Sun,H。;王,S。;姜强,基于FCM的确定聚类数的模型选择算法,模式识别,37,10,2027-2037,(2004)·Zbl 1056.68583号
[78] Talia,D.,《知识发现技术中的并行性》,(第六届应用并行计算国际会议论文集,高级科学计算,(2002)),127-138·Zbl 1048.68921号
[79] Topchy,A.P。;Jain,A.K。;Punch,W.F.,结合多个弱聚类,(第三届IEEE数据挖掘国际会议论文集,(2003)),331-338
[80] Tumer,K。;Agogino,A.K.,带投票活动簇的集成簇,模式识别。莱特。,29, 14, 1947-1953, (2008)
[81] Vega-Pons,S。;Ruiz Shulcloper,J.,聚类集成算法调查,Int.J.模式识别。Artif公司。智力。,25, 3, 337-372, (2011)
[82] Wang,H。;Yang,Y。;Wang,H。;Chen,D.,软视频集群集成,307-318,(2013),施普林格柏林,海德堡
[83] 王,P。;Laskey,K.B。;多梅尼科尼,C。;Jordan,M.I.,非参数贝叶斯联合聚类集成,(第十一届SIAM国际数据挖掘会议论文集,(2011)),331-342
[84] Wemmert,C。;甘萨尔斯基,P。;Korczak,J.J.,《结合多种学习方法的协作方法》,国际期刊Artif。智力。工具,9,1,59-78,(2000)
[85] 谢,X。;Beni,G.,模糊聚类的有效性度量,IEEE Trans。模式分析。机器。智力。,13, 8, 841-847, (1991)
[86] 熊,X。;Chan,K.L。;Tan,K.L.,无监督模糊聚类的相似驱动聚类合并方法,(第20届国际人工智能不确定性会议论文集,(2004)),611-618
[87] Xu,R。;Wunsch,D.,《聚类算法综述》,IEEE Trans。神经网络。,16, 3, 645-678, (2005)
[88] Xu,X。;Jgerand,J。;Kriegel,H.,大型空间数据库的快速并行聚类算法,Data Min Knowl。发现。,263-290年3月3日,(1999年)
[89] Zadeh,L.,模糊集,信息控制,8,338-353,(1965)·Zbl 0139.24606号
[90] Zarinbal,M。;Fazel Zarandi,M。;Turksen,I.,相对熵协同模糊聚类方法,模式识别。,48, 3, 933-940, (2015) ·Zbl 1381.62201号
[91] 张杰。;吴,G。;胡,X。;李,S。;Hao,S.,使用MPI-mkmeans的并行聚类算法,J.Compute。,8, 1, 10-17, (2013)
[92] 张永平。;孙振中。;Zhang,Y。;Zhang,X.,使用PVM并行实现CLARANS,(IEEE机器学习和控制论国际会议论文集,(2004)),1646-1649
[93] Zoghlami,医学硕士。;Sassi Hidri,M。;Ben Ayed,R.,基于抽样的大数据共识模糊聚类,(IEEE模糊系统国际会议论文集,FUZZ-IEEE,(2016)),1501-1508
[94] Zoghlami,医学硕士。;Sassi Hidri,M。;Ben Ayed,R.,基于合并的共识驱动分布式数据模糊聚类,(IEEE模糊系统国际会议论文集,FUZZ-IEEE,(2015)),1-6
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。