×

大规模(k)-表示使用GPU进行集群。 (英语) Zbl 1514.62117号

摘要:(k)-means算法广泛用于聚类、压缩和汇总矢量数据。我们提出了一种基于GPU的快速高效内存算法,用于精确(k)均值、异步选择性批量(k)均值(ASB)均值。与大多数基于GPU的意味着需要将整个数据集加载到GPU上进行聚类的算法不同,可以选择运行我们的算法所需的GPU内存量远小于整个数据集的大小。因此,我们的算法可以对大小超过可用GPU内存的数据集进行聚类。该算法以批处理方式工作,并在每个(k)均值迭代中应用三角形不等式,以忽略数据点,前提是其成员分配,即其所属的簇保持不变,从而显著减少了需要在CPU RAM和GPU全局内存之间传输的数据点数量,并使算法能够非常有效地处理大型数据集。即使在应用标准算法可行的情况下,我们的算法也比基于GPU的标准(k)均值实现快得多,因为整个数据集都适合GPU内存。实验表明,ASB(K)-means的运行速度比基于GPU的标准(K)-meas实现快15倍,并且在我们实验中使用的所有数据集上,它也优于NVIDIA开源RAPIDS机器学习库中基于GPU(K)-means的实现。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴赫马尼,B。;莫斯利,B。;Vattani,A.,可扩展k-means++,Proc VLDB Endow,5,7,622-633(2012)·doi:10.14778/2180912.2180915
[2] Bejarano J,Koushiki B,Brannan T,et al(2011)用k-means算法进行采样以聚类大型数据集。技术代表HPCF-2011-12,美国马里兰州巴尔的摩县马里兰大学UMBC高性能计算设施
[3] Berkhin P(2006)《聚类数据挖掘技术调查》。In:分组多维数据。施普林格,第25-71页
[4] 布罗德科布,AR;黑根,TR;Stra,ML,图形处理单元(GPU)编程策略和GPU计算趋势,J Parallel Distrib Compute,73,1,4-13(2013)·doi:10.1016/j.jpdc.2012.04.003
[5] Che,S。;博伊尔,M。;Meng,J.,《使用CUDA的图形处理器上通用应用程序的性能研究》,J Parallel Distrib Compute,68,10,1370-1380(2008)·doi:10.1016/j.jpdc.2008.05.014
[6] Chiosa,I。;Kolb,A.,基于GPU的多级聚类,IEEE Trans-Visual Comput Graphics,17,2,132-145(2011)·doi:10.1109/TVCG.2010.55
[7] Coates A,Ng AY(2012)使用k-means学习特征表示。摘自:《神经网络:贸易的诡计》。施普林格,第561-580页
[8] Drake J,Hamerly G(2012)具有自适应距离边界的加速k均值。In:NIPS机器学习优化研讨会,第42-53页
[9] Elkan C(2003)使用三角形不等式加速k均值。参加:机器学习国际会议。AAAI出版社,第147-153页
[10] Fahad,A。;北阿尔沙特里。;Tari,Z.,《大数据聚类算法调查:分类法和实证分析》,IEEE Trans-Emerg Top Compute,2,3,267-279(2014)·doi:10.1109/TETC.2014.2330519
[11] Fang W,Lau KK,Lu M,et al(2008)图形处理器上的并行数据挖掘。香港科技大学技术代表HKUST-CS08-07。和技术,中国香港
[12] Farivar R,Rebolledo D,Chan E等人(2008)GPU上k均值聚类的并行实现。在:并行和分布式处理技术与应用国际会议。CSREA出版社,第340-345页
[13] Hamerly G(2010)使k表示更快。参加:SIAM国际数据挖掘会议。SIAM,第130-140页
[14] Hamerly G,Drake J(2015)《加速Lloyd算法进行k-means聚类》。摘自:《分区聚类算法》。施普林格,第41-78页
[15] He,G。;Vialle,S。;Baboulin,M.,用于谱聚类的CPU-GPU架构上的并行和精确k-means算法,Concurr Comput:Pract Exp,34,14(2022)·doi:10.1002/cpe.6621
[16] Hong-Tao B,Li-Li H,Dantong O,et al(2009)K-表示商品GPU与CUDA。收录于:WRI计算机科学和信息工程世界大会。IEEE计算机学会,第651-655页
[17] Jain,AK,《数据聚类:超越k-means的50年》,Pattern Recogn Lett,31,8,651-666(2010)·doi:10.1016/j.parec.2009.0011
[18] Jian,L。;王,C。;Liu,Y.,具有计算统一设备体系结构(CUDA)的图形处理单元上的并行数据挖掘技术,J Supercomput,64,3,942-967(2013)·doi:10.1007/s11227-011-0672-7
[19] KrulišM,Kratochvíl M(2020)CUDA k-means算法的详细分析和优化。摘自:第49届并行处理国际会议-ICPP,第1-11页
[20] Langdon WB(2013)在图形处理单元上使用并行遗传编程进行大规模生物信息学数据挖掘。In:GPGPU上的大规模并行进化计算。施普林格,第311-347页
[21] Lee CC,Chu KY(2012)CUDA-加速分级k-means,未出版手稿
[22] 李毅。;Zhao,K。;Chu,X.,用GPU加速k-means算法,计算系统科学杂志,79,2,216-229(2013)·doi:10.1016/j.jcss.2012.05.004
[23] Lloyd,S.,PCM中的最小二乘量化,IEEE Trans-Inf理论,28,2,129-137(1982)·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[24] 卢茨,C。;Breß,S。;Rabl,T.,《GPU上的高效和可扩展k-means》,Datenbank-Spektrum,18,3,157-169(2018)·doi:10.1007/s13222-018-0293-x
[25] 米塔尔,S。;Vetter,JS,CPU-GPU异构计算技术调查,ACM Compute Surv(CSUR),47,4,69(2015)·doi:10.1145/2788396
[26] Mohebi A、Aghabozorgi S、Ying Wah T等人(2016)《迭代大数据聚类算法:综述》。软件:实践与经验46(1):107-129
[27] NVIDIA(2021)CUDA C编程指南。https://docs.nvidia.com/cuda/cuda-c-programming-guide网站/
[28] Owens JD、Luebke D、Govindaraju NK等人(2005)图形硬件通用计算综述。年:欧洲计算机图形学协会会议。欧洲制图协会,第21-51页
[29] JD欧文斯;马萨诸塞州休斯顿。;Luebke,D.,GPU计算,IEEE程序,96,5,879-899(2008)·doi:10.1109/JPROC.2008.917757
[30] Pennington J,Socher R,Manning CD(2021)《单词表示的全球向量》。https://nlp.stanford.edu/projects/glove网站/
[31] Phillips SJ(2002)k-means和相关聚类算法的加速。参加:算法工程与实验研讨会。施普林格,第166-177页·Zbl 1014.68581号
[32] Sajana,T。;拉尼,CS;Narayana,K.,《大数据挖掘聚类技术调查》,《印度科学技术杂志》,9,3,1-12(2016)·doi:10.17485/ijst/2016/v9i3/75971
[33] Shirkhorshidi AS、Aghabozorgi S、Wah TY等人(2014)《大数据聚类:综述》。参加:国际计算科学及其应用会议。施普林格,第707-720页
[34] Taylor C,Gowanlock M(2021)使用GPU加速阴阳k均值算法。收录于:2021年IEEE第37届国际数据工程会议(ICDE),IEEE,第1835-1840页
[35] Upadhyaya,SR,《机器学习的并行方法——综合调查》,J Parallel Distrib Compute,73,3,284-292(2013)·doi:10.1016/j.jpdc.2012.11.001
[36] Vassilvitskii S,Arthur D(2006)k-means++:细心播种的优势。年ACM-SIAM离散算法研讨会。SIAM,第1027-1035页·Zbl 1302.68273号
[37] Wu R,Zhang B,Hsu M(2009)使用GPU聚类数十亿个数据点。In:非传统高性能计算研讨会+内存访问研讨会联合研讨会,ACM,第1-6页
[38] Xu,R。;Wunsch,D.,《聚类算法综述》,IEEE Trans Neural Netw,16,3,645-678(2005)·doi:10.1109/TNN.2005.845141
[39] Yang C,Li Y,Cheng F(2020)利用CUDA编程加速GPU上的k-means。In:IOP会议系列:材料科学与工程,IOP出版社,第012036页
[40] Zechner M,Granizer M(2009)通过CUDA在图形处理器上加速k-means。参加:第一届密集型应用和服务国际会议。IEEE计算机学会,第7-15页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。