文件Zbl 1014.68581-zbMATH打开

加速K-means和相关聚类算法。（英语） Zbl 1014.68581号

Mount，David M.（编辑）等人，《算法工程与实验》。第四届国际研讨会，2002年1月4日至5日，美国加利福尼亚州旧金山，ALENEX 2002。修订论文。柏林：斯普林格。莱克特。注释计算。科学。2409, 166-177 (2002).

摘要：本文介绍了两种简单的K-means修改和相关的聚类算法，它们在不改变输出的情况下提高了运行时间。由此产生的两种算法称为COMPARE-MEANS和SORT-MEANS。对于SORT-means，K均值迭代的时间从\（O（ndk）\）减少到\（O（nd\gamma+K^2d+K^2\logk）\），其中\（n\）是数据点的数量，\（K\）是簇的数量，\（d\）是维度。这里，（gamma \leq k）是平均数所有点（p）的平均值，该平均数与上一次迭代中指定的平均值（p）之间的距离不超过2倍。COMPARE-MEANS执行与SORT-MEANS相似数量的距离计算，并且当平均数非常大时速度更快。这两种修改都非常简单，可以很容易地添加到现有的集群实现中。
我们在实际应用中获得的三个数据集上研究了这些算法的经验性能。作为主要测试案例，我们对从陆地卫星7号卫星图像中提取的230万个6维点的样本使用K-means的Isodata变体。对于这个数据集，\（\gamma\）很快下降到\（\log_2k\）以下，运行时间相应减少。例如，对于COMPARE-MEANS，使用\（k=100\）的跑步时间从一个半小时降至十六分钟，对于SORT-MEANS则为六个半分钟。进一步的实验表明，从林业应用程序和IP网络中BGP更新分析得到的数据集也有类似的改进。
关于整个系列，请参见[Zbl 1008.68692号].

引用于4文件

MSC公司：

68单位99	计算方法和应用
68周05	非数值算法
68页第10页	搜索和排序

PDF格式 BibTeX公司 XML格式引用

全文：链接

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

加速K-means和相关聚类算法。（英语） Zbl 1014.68581号

MSC公司：

示例

领域

操作员

加速K-means和相关聚类算法。 （英语） Zbl 1014.68581号

MSC公司：

加速K-means和相关聚类算法。（英语） Zbl 1014.68581号