×

一种高效的高数据的K均值聚类算法。 (英语) Zbl 1433.68330号

摘要:分析不断扩大的数据集在各种科学领域都是一项重要的任务。因此,开发高效的并行算法来执行这种分析是无监督学习中的一个重要课题。聚类分析算法是探索性数据分析的一个关键元素,其中,K均值算法因其易于实现、简单的并行性和相对较低的计算成本而成为最流行的方法。不幸的是,(K)-均值算法也有一些已经被广泛研究过的缺点,例如它对初始条件的高度依赖性,以及它在大规模数据集上可能无法很好地扩展的事实。在本文中,我们提出了对K均值算法的递归并行近似,该算法可以很好地根据问题实例的数量进行缩放,而不会影响近似的质量。为了实现这一点,我们不分析整个数据集,而是研究代表点的小加权集,这些代表点的分布方式使那些难以确定原始实例的正确簇分配的区域更加重要。除了解释算法背后的推理的不同理论属性外,实验结果表明,在距离计算次数和获得的解的质量之间的权衡方面,我们的方法优于最先进的方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿洛伊斯,D。;Deshpande,A。;Hansen,P。;Popat,P.,欧几里得平方和聚类的NP硬度,Mach Learn,75,2245-248(2009)·Zbl 1378.68047号 ·doi:10.1007/s10994-009-5103-0
[2] Arthur D,Vassilvitskii S(2007)k-means++:谨慎播种的优势。摘自:第18届ACM-SIAM离散算法年会论文集,第1027-1035页·Zbl 1302.68273号
[3] ala yrämöS,Kärkkäinen T(2006)《基于分区的聚类方法介绍与稳健示例》。数学信息技术系C系列报告,软件工程和计算智能1/2006
[4] Bachem O、Lucic M、Hassani H、Krause A(2016)《K-means快速且显著的良好播种》。主题:神经信息处理系统的进展,第55-63页
[5] Bachem O、Lucic M、Krause A(2018)Scalable K表示通过轻量级核心集进行聚类。摘自:第24届ACM SIGKDD知识发现和数据挖掘国际会议记录,第1119-1127页
[6] 巴赫马尼,B。;莫斯利,B。;Vattani,A。;库马尔,R。;Vassilvitskii,S.,可扩展K-means++,Proc VLDB Endow,5,7,622-633(2012)·doi:10.14778/2180912.2180915
[7] Balcan MFF、Ehrlich S、Liang Y(2013)《一般拓扑上的分布式K-means和K-median聚类》。主题:神经信息处理系统的进展,第1995-2003页
[8] Berkhin,P.,《聚类数据挖掘技术的调查》,Group Multidimens data,25,71(2006)
[9] Bottou L,Bengio Y(1995)K-means算法的收敛性。主题:神经信息处理系统的进展,第585-592页
[10] Boutsidis C、Drineas P、Mahoney MW(2009)《K-means聚类问题的无监督特征选择》。主题:神经信息处理系统的进展,第153-161页·Zbl 1420.68235号
[11] Boutsidis C,Zouzias A,Drineas P(2010),K-means聚类的随机投影。In:神经信息处理系统的进展,第298-306页
[12] Bradley PS,Fayyad UM(1998),《改进K-means聚类的初始点》。摘自:《第15届机器学习国际会议论文集》,第98卷,第91-99页
[13] Capó,M。;佩雷斯,A。;Lozano,JA,大规模数据K-means聚类的有效近似,基于知识的系统,117,56-69(2017)·doi:10.1016/j.knosys.2016.06.031
[14] Cohen MB、Elder S、Musco C、Musco C、Persu M(2015),K-means聚类和低秩近似的维数缩减。摘自:第47届ACM计算理论年会论文集。ACM,第163-172页·Zbl 1321.68398号
[15] Davidson I,Satyanarayana A(2003)通过bootstrap平均加速K-means聚类。收录:IEEE大型数据集聚类数据挖掘研讨会
[16] 丁C,贺X(2004)K-表示主成分分析聚类。摘自:第21届机器学习国际会议论文集。ACM,第29页
[17] 丁Y,赵Y,沈X,穆苏瓦蒂M,Mytkowicz T(2015)《阴阳k-means:以持续加速取代经典k-means》。在:机器学习国际会议,第579-587页
[18] Drake J,Hamerly G(2012)具有自适应距离边界的加速K-means。In:第五届NIPS机器学习优化研讨会,第42-53页
[19] Elkan C(2003)使用三角形不等式加速K-means。摘自:第20届机器学习国际会议论文集,第147-153页
[20] Feldman D、Monemizadeh M、Sohler C(2007)基于弱核集的K-means聚类的PTAS。摘自:第23届计算几何年会论文集,第11-18页·兹比尔1209.68639
[21] Forgy,EW,多元数据的聚类分析:分类的效率与可解释性,生物统计学,21768-769(1965)
[22] Hamerly G(2010年)制作K意味着更快。摘自:SIAM国际数据挖掘会议记录,第130-140页
[23] Har-Peled S,Mazumdar S(2004)《关于K-means和K-median聚类的核心集》,摘自:第36届ACM计算理论研讨会论文集,第291-300页·兹比尔1192.68904
[24] Jain,AK,《数据聚类:超越K-means 50年》,Pattern Recogn Lett,31,8,651-666(2010)·doi:10.1016/j.patrec.2009.09.011
[25] 阿拉斯加州贾恩;Dubes,RC,聚类数据算法(1988),Upper Saddle River:Prentice Hall,Inc,Upper Saddle River·Zbl 0665.62061号
[26] 正义与发展党贾恩;明尼苏达州默蒂;弗林,PJ,《数据聚类:综述》,ACM Compute Surv,31,3,264-323(1999)·数字对象标识代码:10.1145/331499.331504
[27] Jordan M(2013)海量数据分析委员会,应用统计和理论统计委员会,数学科学及其应用委员会,工程和物理科学部,理事会,海量数据分析的新前沿。前部质量数据分析
[28] Kanungo,T。;底座,DM;内塔尼亚胡,NS;Piatko,CD;西尔弗曼,R。;Wu,AY,一种有效的K-means聚类算法:分析与实现,IEEE Trans-Pattern Ana Mach Intell,24,7,881-892(2002)·doi:10.1109/TPAMI.2002.1017616
[29] Kanungo T,Mount DM,Netanyahu NS,Piatko CD,Silverman R,Wu AY(2002b)K-means聚类的局部搜索近似算法。摘自:第18届计算几何年会论文集,第10-18页·Zbl 1414.68128号
[30] 考夫曼,L。;Rousseeuw,P.,通过medoids聚类(1987),阿姆斯特丹:荷兰北部
[31] Kumar A,Sabharwal Y,Sen S(2004)一种简单的线性时间((1+varepsilon)-近似算法,用于任意维的K-means聚类。摘自:第45届IEEE计算机科学基础研讨会论文集,第454-462页
[32] Lloyd,S.,PCM中的最小二乘量化,IEEE Trans-Inf理论,28,2,129-137(1982)·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[33] Lucic M、Bachem O、Krause A(2016)硬Bregman和软Bregman聚类的强大核心集,以及指数族混合的应用。收录:人工智能与统计,第1-9页
[34] Mahajan M,Nimbhorkar P,Varadarajan K(2009)平面K-means问题是NP-hard。摘自:算法与计算国际研讨会,第274-285页·兹比尔1211.68212
[35] Manning CD,Raghavan P,Schütze H(2008)信息检索中的评估。In:信息检索导论第151-175页·兹比尔1160.68008
[36] Matoušek,J.,关于近似几何K聚类,离散计算几何,24,1,61-84(2000)·Zbl 0959.68126号 ·doi:10.1007/s004540010019
[37] Newling J,Fleuret F(2016)Nested minibatch K-means公司。In:《神经信息处理系统的进展》,第1352-1360页
[38] 佩尼亚,吉咪;日本洛扎诺;Larrañaga,P.,《K均值算法四种初始化方法的经验比较》,Pattern Recogn Lett,20,10,1027-1040(1999)·doi:10.1016/S0167-8655(99)00069-0
[39] 雷蒙德,SJ;Heneghan,C.,使用KD-树初始化K-means聚类算法的方法,Pattern Recogn Lett,28,8,965-973(2007)·doi:10.1016/j.parec.2007.01.001
[40] Sculley D(2010)Web-scale K-means clustering。摘自:《第19届国际互联网会议论文集》,第1177-1178页
[41] Shen X,Liu W,Tsang I,Shen F,Sun QS(2017)压缩K-means用于大规模聚类。In:第31届AAAI人工智能会议
[42] 斯坦利,D。;Brusco,MJ,《初始化K-means批聚类:几种技术的关键评估》,J Classif,24,1,99-121(2007)·Zbl 1144.62331号 ·doi:10.1007/s00357-007-0003-0
[43] Vattani,A.,K-means即使在平面上也需要指数多次迭代,离散计算几何,45,4,596-616(2011)·Zbl 1218.68088号 ·doi:10.1007/s00454-011-9340-1
[44] 吴,X。;库马尔,V。;JR昆兰;Ghosh,J。;杨琼。;Motoda,H。;GJ麦克拉克伦;Ng,A。;刘,B。;Philip,SY,数据挖掘中的十大算法,Knowl Inf Syst,14,1,1-37(2008)·doi:10.1007/s10115-007-0114-2
[45] Zhao W,Ma H,He Q(2009)基于MapReduce的并行K-means聚类。收录:IEEE云计算国际会议,第674-679页
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。