×

利用多核和多核并行进行子空间聚类。 (英语) Zbl 1420.62269号

摘要:在高维数据中发现聚类是一个具有挑战性的研究问题。子空间聚类算法的目标是在数据集的所有可能子空间中找到聚类,其中子空间是数据维度的子集。但是,随着数据维数的增加,子空间数量呈指数级增加,使得大多数算法效率低下。此外,这些算法在聚类过程中具有根深蒂固的数据依赖性,这意味着并行化变得困难且效率低下。SUBSCALE是一种最新的子空间聚类算法,它具有维数可扩展性,包含独立的处理步骤,可以通过并行进行利用。在本文中,我们旨在利用广泛可用的多核处理器的计算能力来提高SUBSCALE算法的运行时性能。实验评估显示线性加速。此外,我们开发了一种使用图形处理单元(GPU)实现细粒度数据并行的方法,以进一步加快计算速度。GPU实现的首次测试显示了非常有希望的结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62A09号 统计学中的图形方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.和Reddy,C.K.(2013)。《数据聚类:算法与应用》,第1版。,查普曼和霍尔/CRC。;
[2] Aggarwal,C.C.、Wolf,J.L.、Yu,P.S.、Procopiuc,C.和Park,J.S.(1999年)。投影聚类的快速算法SIGMOD记录28(2): 61-72.;
[3] Agrawal,R.、Gehrke,J.、Gunopulos,D.和Raghavan,P.(1998年)。用于数据挖掘应用的高维数据的自动子空间聚类,ACM SIGMOD国际数据管理会议,美国华盛顿州西雅图,第27卷,第94-105页。;
[4] Alcantara,D.A.F.(2011年)。GPU上的高效哈希表,加州大学戴维斯分校博士论文,加利福尼亚州戴维斯。;
[5] Anderson,S.E.(2018)。比特缠绕黑客——计算词典编纂的下一位置换。;
[6] Berkhin,P.(2006)。《聚类数据挖掘技术的调查》,J.Kogan等人(编辑),《多维数据分组》,施普林格出版社,柏林/海德堡,第25-71页。;
[7] Cheng,C.-H.,Fu,A.W.和Zhang,Y.(1999)。用于挖掘数值数据的基于熵的子空间聚类,第五届ACM SIGKDD国际知识发现和数据挖掘会议,美国纽约州纽约市,第84-93页。;
[8] Dagum,L.和Menon,R.(1998年)。OpenMP:共享内存编程的行业标准API,IEEE计算科学工程5(1): 46-55.;
[9] Datta,A.、Kaur,A.、Lauer,T.和Chabbouh,S.(2017年)。使用多核和多核架构的并行子空间聚类,M.Kirikova等人(编辑),《数据库和信息系统的新趋势》,Springer International Publishing,Cham,第213-223页·Zbl 1420.62269号
[10] Elhamifar,E.和Vidal,R.(2013)。稀疏子空间聚类:算法、理论和应用,IEEE模式分析和机器智能汇刊35(11): 2765-2781.;
[11] Ester,M.、Kriegel,H.-P.、Sander,J.和Xu,X.(1996年)。用于在有噪声的大型空间数据库中发现簇的基于密度的算法,美国俄勒冈州波特兰知识发现和数据挖掘国际会议,第226-231页。;
[12] Fan,J.、Han,F.和Liu,H.(2014)。《国家科学评论》大数据分析的挑战1(2): 293-314.;
[13] Fukunaga,K.(1990年)。《统计模式识别导论》,学术出版社,加利福尼亚州圣地亚哥·Zbl 0711.62052号
[14] Geiger,A.、Lenz,P.、Stiller,C.和Urtasun,R.(2013)。视觉与机器人:KITTI数据集,《国际机器人研究杂志》32(11): 1231-1237.;
[15] 2020-01-09 14:03:22谷歌学者(2018)。搜索“数据聚类”,<ext-link ext-link type=“uri”xlink.href=“https://scholar.google.com/scholaro?q=data+聚类(&amp;);btnG=“>https://scholar.google.com/scholaro?q=data+聚类&amp;btnG=</ext-link></混合搅拌>;
[16] Han,J.、Kamber,M.和Pei,J.(2011年)。数据挖掘:概念和技术,第三版。,Morgan Kaufmann出版社,加利福尼亚州旧金山·兹比尔1230.68018
[17] Harris,M.、Sengupta,S.和Owens,J.D.(2007年)。带CUDA、GPU Gems的并行前缀和(扫描)(39): 851-876.;
[18] Jain,A.K.和Dubes,R.C.(1988年)。聚类数据算法,新泽西州上鞍河Prentice-Hall公司·Zbl 0665.62061号
[19] Jain,A.K.、Murty,M.N.和Flynn,P.J.(1999)。数据聚类:ACM计算调查综述31(3): 264-323.;
[20] Joliffe,I.T.(2002)。主成分分析,第二版。,施普林格,纽约州纽约市·Zbl 1011.62064号
[21] Jun,J.、Chung,S.和McLeod,D.(2006年)。基于域转换的微阵列数据子空间聚类,VLDB数据挖掘和生物信息学研讨会,韩国首尔,第14-28页。;
[22] Kailing,K.、Kriegel,H.-P.和Kröger,P.(2004)。高维数据的密度连接子空间聚类,SIAM国际数据挖掘会议,佛罗里达州布埃纳维斯塔湖,美国,第4卷,第246-256页。;
[23] Kaur,A.和Datta,A.(2014)。子尺度:高维数据的快速可扩展子空间聚类,IEEE国际数据挖掘研讨会,中国深圳,第621-628页。;
[24] Kaur,A.和Datta,A.(2015)。一种新的高维数据快速可扩展子空间聚类算法,《大数据杂志》2(1): 1-24.;
[25] Kriegel,H.-P.、Kröger,P.和Zimek,A.(2009年)。高维数据聚类:关于子空间聚类、基于模式聚类和相关聚类的调查,ACM从数据中发现知识的事务(1): 1-58.;
[26] Li,T.、Ma,S.和Ogihara,M.(2004)。通过自适应子空间迭代进行文档聚类,第27届国际ACM SIGIR信息检索研究与开发年会,英国谢菲尔德,第218-225页。;
[27] Lichman,M.(2013)。UCI机器学习库。;
[28] Loughry,J.、van Hemert,J.和Schoofs,L.(2000)。有效枚举集合的子集。;
[29] MacQueen,J.(1967)。多元观测的一些分类和分析方法,第五届伯克利数学统计与概率研讨会,美国加利福尼亚州伯克利,第1卷,第281-297页·Zbl 0214.46201号
[30] McCaffrey,J.(2004)。生成数学组合的MTH词典元素,MSDN Library,Microsoft,Redmond,WA。;
[31] Murtagh,F.(1983年)。层次聚类算法的最新进展综述,《计算机杂志》26(4) :354-359·Zbl 0523.68030号
[32] Nagesh,H.、Goil,S.和Choudhary,A.(2001年)。用于聚类海量数据集的自适应网格,第一届SIAM国际数据挖掘会议,美国伊利诺伊州芝加哥,第1-17页。;
[33] Nvidia CUDA(2018)。CUDA并行计算平台及编程模型。;
[34] Parsons,L.、Haque,E.和Liu,H.(2004)。高维数据的子空间聚类:综述,ACM SIGKDD Explorations Newsletter6(1): 90-105.;
[35] Sim,K.、Gopalkrishnan,V.、Zimek,A.和Cong,G.(2013年)。增强子空间聚类、数据挖掘和知识发现研究综述26(2): 332-397.; ·Zbl 1270.68260号
[36] Steinbach,M.、Ertöz,L.和Kumar,V.(2004)。高维数据聚类的挑战,L.T.Wille(编辑),《统计物理新方向》,柏林/海德堡斯普林格出版社,第273-309页·Zbl 1078.62066号
[37] Strohm,P.T.、Wittmer,S.、Haberstroh,A.和Lauer,T.(2015)。多维数据库中分析查询的GPU加速量化过滤器,见N.Bassiliades等人(编辑),数据库和信息系统新趋势II,Springer,Cham,第229-242页。;
[38] Thalamuthu,A.、Mukhopadhyay,I.、Zheng,X.和Tseng,G.C.(2006年)。生物信息学微阵列分析中基因聚类方法的评价与比较22(19): 2405-2412.;
[39] Tierney,S.、Gao,J.和Guo,Y.(2014)。序列数据的子空间聚类,IEEE计算机视觉和模式识别会议,美国俄亥俄州哥伦布,第1019-1026页。;
[40] Xu,D.和Tian,Y.(2015)。《聚类算法的综合调查》,《数据科学年鉴》2(2): 165-193.;
[41] Xu,R.和Wunsch,D.(2005)。聚类算法综述,IEEE神经网络事务16(3): 645-678.;
[42] Zhu,B.、Mara,A.和Mozo,A.(2015)。CLUS:基于spark的并行子空间聚类算法,收录于T.Morzy等人(编辑),《数据库和信息系统的新趋势》,《计算机和信息科学中的通信》,第539卷,Springer International Publishing,Cham,第175-185页。;
[43] Zhu,J.、Liao,S.、Lei,Z.、Yi,D.和Li,S.Z.(2013)。《监控中的行人属性分类:数据库和评估》,ICCV大型视频搜索和挖掘研讨会(LSVSM’13),澳大利亚悉尼,第331-338页。;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。