×

有多少簇?信息理论视角。 (英语) Zbl 1062.82045号

摘要:聚类提供了一种识别复杂数据结构的通用方法,人们对聚类作为分析许多领域中大型数据集的工具重新产生了兴趣。一个自然的问题是,有多少簇适合描述给定系统。解决这个问题的传统方法要么基于一个框架,在这个框架中,将具有特定形状的簇假设为系统的模型,要么基于两步过程,其中一个聚类标准确定给定数量簇的最佳分配,另一个单独的标准衡量分类的优度确定簇的数量。在统计力学方法中,集群可以被视为能量和类熵术语之间的权衡,较低的温度推动集群的扩散,以提供更详细的数据描述。对于有限的数据集,我们预计可以解析的有意义的结构会有一个限制,因此,我们将捕获采样噪声的最低温度。这表明,校正由于采样误差而产生的偏差的聚类标准将使我们能够在最佳温度下找到聚类解决方案,即我们捕获最大有意义的结构,而不必定义聚类的优度或稳定性的外部标准。我们证明了在一般信息理论框架下,数据集的有限大小决定了最佳温度,并且我们介绍了一种在硬聚类极限下从数据中求出最大聚类数的方法。

MSC公司:

82立方32 神经网络在含时统计力学问题中的应用
68吨10 模式识别、语音识别
94甲15 信息论(总论)

关键词:

群集
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 内政部:10.1162/neco.1997.9.2.349·Zbl 0870.62006号 ·doi:10.1162/neco.1999.9.2.349
[2] DOI:10.1103/PhysRevLett.76.3251·doi:10.1103/PhysRevLett.76.3251
[3] 数字对象标识码:10.1073/pnas.95.25.14863·doi:10.1073/pnas.95.25.14863
[4] 内政部:10.1198/016214502760047131·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[5] DOI:10.1093/biomet/75.4.705·Zbl 0661.62025号 ·doi:10.1093/biomet/75.4.705
[6] DOI:10.1103/PhysRevLett.88.018702·doi:10.1103/PhysRevLett.88.018702
[7] DOI:10.1103/PhysRevLett.65.945·doi:10.103/PhysRevLett.65.945
[8] 内政部:10.1162/089976604773717621·Zbl 1089.68100号 ·doi:10.1162/089976604773717621
[9] 数字对象标识码:10.1002/j.1538-7305.1948.tb01338.x·Zbl 1154.94303号 ·doi:10.1002/j.1538-7305.1948.tb01338.x
[10] DOI:10.1023/A:1008940618127·doi:10.1023/A:1008940618127
[11] Stone M.,J.R.Stat.Soc.36第111页–(1974年)
[12] 内政部:10.1111/1467-9868.00293·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[13] 内政部:10.1162/neco.1995.7.2.399·doi:10.1116/neco.1995.7.2.399
[14] 内政部:10.2307/2282967·doi:10.2307/2282967
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。