×

加速K-means和相关聚类算法。 (英语) Zbl 1014.68581号

Mount,David M.(编辑)等人,《算法工程与实验》。第四届国际研讨会,2002年1月4日至5日,美国加利福尼亚州旧金山,ALENEX 2002。修订论文。柏林:斯普林格。莱克特。注释计算。科学。2409, 166-177 (2002).
摘要:本文介绍了两种简单的K-means修改和相关的聚类算法,它们在不改变输出的情况下提高了运行时间。由此产生的两种算法称为COMPARE-MEANS和SORT-MEANS。对于SORT-means,K均值迭代的时间从\(O(ndk)\)减少到\(O(nd\gamma+K^2d+K^2\logk)\),其中\(n\)是数据点的数量,\(K\)是簇的数量,\(d\)是维度。这里,(gamma \leq k)是平均数所有点(p)的平均值,该平均数与上一次迭代中指定的平均值(p)之间的距离不超过2倍。COMPARE-MEANS执行与SORT-MEANS相似数量的距离计算,并且当平均数非常大时速度更快。这两种修改都非常简单,可以很容易地添加到现有的集群实现中。
我们在实际应用中获得的三个数据集上研究了这些算法的经验性能。作为主要测试案例,我们对从陆地卫星7号卫星图像中提取的230万个6维点的样本使用K-means的Isodata变体。对于这个数据集,\(\gamma\)很快下降到\(\log_2k\)以下,运行时间相应减少。例如,对于COMPARE-MEANS,使用\(k=100\)的跑步时间从一个半小时降至十六分钟,对于SORT-MEANS则为六个半分钟。进一步的实验表明,从林业应用程序和IP网络中BGP更新分析得到的数据集也有类似的改进。
关于整个系列,请参见[Zbl 1008.68692号].

MSC公司:

68单位99 计算方法和应用
68周05 非数值算法
68页第10页 搜索和排序
PDF格式BibTeX公司 XML格式引用
全文: 链接