光谱计

SpectralCAT:数值和名义数据的分类谱聚类。数据聚类是一种常用的数据分析技术,广泛应用于机器学习、数据挖掘、客户细分、趋势分析、模式识别和图像分析等领域。虽然已经提出了许多聚类算法,但大多数算法都是针对一种数据类型(数值型或标称型)或混合型数据类型(数值型和标称型)的聚类,只有少数几种算法提供了一种对所有类型数据进行聚类的通用方法。大多数实际应用程序数据都需要处理特征类型及其组合。在本文中,我们提出了一种自动化的技术,称为SpectralCAT,用于无监督地对包含数值、名义或混合属性的高维数据进行聚类。我们建议将高维输入数据自动转换为类别值。这是通过根据Calinski–Harabasz索引为数据集中的每个特征和属性发现最佳转换来实现的。然后,提出了一种通过对变换后的数据进行降维的谱聚类方法。通过投影到低维空间中,找出它们之间的非线性关系,从而实现对它们的自动转换。我们将我们的方法与几种使用不同领域和类型的16个公共数据集的聚类算法进行了比较。实验表明,我们的方法在大多数情况下都优于这些算法。