×

带Bregman分歧的聚类。 (英文) Zbl 1190.62117号

摘要:聚类使用了多种畸变函数,如平方欧几里德距离、马氏距离、Itakura-Saito距离和相对熵。本文提出并分析了基于称为Bregman发散的一大类畸变函数的参数硬聚类和软聚类算法。提出的算法统一了基于质心的参数聚类方法,如经典的k-means算法、Linde-Buzo-Gray(LBG)算法和信息理论聚类,这些方法都是由Bregman散度的特殊选择引起的。这些算法保持了经典k-means算法的简单性和可扩展性,同时将该方法推广到了一大类聚类损失函数。这是通过首先提出硬聚类问题,以最小化Bregman信息(一个由速率失真理论驱动的量)中的损失,然后推导一个单调减少这种损失的迭代算法来实现的。此外,我们还证明了正则指数族和一大类Bregman发散之间存在双射,我们称之为正则Bregman散度。这一结果使得对指数族分布混合学习的有效EM方案的另一种解释得以发展,并导致对规则Bregman发散的简单软聚类算法。最后,我们讨论了率失真理论和Bregman聚类之间的联系,并从Bregman信息的压缩和丢失之间的权衡角度对Bregman分类算法进行了信息论分析。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62B10型 信息理论主题的统计方面
65立方厘米60 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 链接