摘要

在没有任何关于聚类数的先验信息的情况下,确定正确的聚类数是聚类分析中的一个核心问题。在本文中,我们提出了一种基于不同加权空间秩(WSR)函数的非参数聚类方法。WSR背后的主要思想是基于多变量秩的本地化版本在本地定义差异性度量。我们考虑一个非参数高斯核权重函数。我们将该方法的性能与其他标准技术进行了比较,并评估了其误分类率。该方法是完全由数据驱动的,对分布假设具有鲁棒性,并且对于直观可视化而言是准确的,可以用于确定簇数并将每个观测值分配给其簇。

1.简介

近年来,聚类方法在数据科学和机器学习领域取得了重大进展。基于密度的带噪声应用程序空间聚类(DBSCAN)已成为一种流行的非参数聚类算法,该算法将相邻且被低密度区域包围的点聚集在一起[1]. 此外,分层聚类[2]已被广泛用于通过将较小的集群合并为较大的集群或将较大的集群拆分为较小的集群来构建集群层次结构。K-均值聚类[]仍然是最流行的分区方法之一,其中数据被划分为K个不同的、不重叠的集群。

此外,光谱聚类[4]由于其能够使用相似度矩阵的特征向量将数据划分为簇,因此受到了欢迎。亲和力传播[5]将每个数据点分配给一个示例,该示例是集群的代表点,并迭代更新示例直到收敛。模糊聚类[6]为每个数据点分配属于每个集群的概率,而不是将其分配给单个集群。由引入的K-medoids算法[7]使用实际数据点作为每个簇的代表或medoid,从数据集中选择的medoid通常是簇内最集中的点。与K-means相比,这使得K-medoids对异常值和噪声更具鲁棒性。另一种最近的聚类方法是由[8]. 它是一种距离密度聚类方法,是一种考虑时间序列数据密度的基于medoid的聚类,以层次方式提供聚类结果。

快速搜索和发现密度峰(densityClust)方法的聚类[9]是一种基于密度的聚类方法,其目的是根据数据点的局部密度和它们之间的距离来识别簇,这使得它适合于具有不规则形状簇和不同密度的数据集。此外,由[10]是一种基于密度的聚类算法,旨在根据数据点的局部密度及其空间关系识别簇。它使用基于网格的方法将数据空间划分为单元,然后将数据点分配给相应的单元。然后,该算法通过考虑每个单元内点的密度和空间邻近性来确定簇分配。

这些方法各有优缺点,适用于不同类型的数据和应用。选择合适的聚类方法取决于各种因素,例如数据的大小和性质、所需的聚类数以及所要解决的研究问题。

在使用空间秩分析多元数据方面取得了进一步的进展,非参数方法的发展尤为显著[11——13]. 它们有许多吸引人的特性,包括无分布和易于计算。此外,传统的空间等级函数给出了每个观测点的中心位置及其相对于中心的方向的信息。然而,它们没有捕获每对观测值之间的距离,这对于聚类分析很重要。

最近,Baragilly和Chakraborty[11]利用空间秩作为聚类工具,使用基于非参数多元空间秩函数的前向搜索方法来确定数据中的簇数。他们的方法不依赖于初始子样本的选择,并且已经证明在不同的混合分布中表现良好。这项工作已扩展到医学应用中的功能数据集聚类[14].

本文提出了一种利用空间秩进行聚类的新方法,该方法使用非参数加权空间秩函数,该函数考虑了每对观测值之间的距离作为权重,并定义了基于空间秩的差异性度量。通过测量每对观测值之间的距离而不是它们的中心趋势,可以更容易地将给定的数据集分割成特定数量的簇。

加权空间秩(WSR)的主要思想是基于空间秩的本地化版本定义差异性度量,这样加权秩可以用作分类器和验证工具,以确定簇数并将每个观测值分配给其簇。正确选择权重函数可以更好地识别聚类,核权重是模式分析、分类、聚类分析、机器学习和支持向量机中的常用选择。

本文还演示了如何使用加权空间秩来可视化聚类,以便在降维后使用低维输入空间的加权秩轮廓来确定聚类数。

章节2本文介绍了加权空间秩函数,并对其在不同参数和非参数权重函数中的应用进行了评估。章节演示了基于加权秩的聚类算法,并提出了基于加权等级的验证分类器,可用于将观测值分配给二维数据的最合适的聚类。章节4对高维数据演示了基于加权秩的聚类算法5提供了基于模拟和真实数据集的数值示例,以检验所提出算法的性能。该算法与第节中的其他聚类方法进行了比较6,结论见第节7.

2.加权空间秩函数

在本节中,我们提出了两种不同的加权空间秩函数。假设有一个-尺寸分布F类,则该点的未加权空间秩函数关于F类可以定义为

点的第一加权空间秩函数关于F类是一个向量函数,可以定义为

第二加权空间秩函数可以定义为其中L2规范是

请注意(2)以及()取决于刻度(分母)(2)是以下各项的权重之和哪里因此与数据相关,而在()这取决于n个它与数据无关。

核权重函数通常用于非参数估计,如前所述,也用于一系列分类和模式识别问题。这里,我们考虑高斯核权重,它是常用的非参数核权重函数之一,定义如下:哪里欧几里德规范是这样的吗d日-量纲向量(有关内核权重的详细信息,请参阅Souza[15])

3.加权空间秩聚类算法

我们现在从二元情况开始介绍加权空间秩聚类算法()在考虑高维情况之前.

3.1. 二元情形下的加权空间秩聚类算法(d日 = 2)
(1)是一个有两个变量的随机样本然后让是两个等距集的笛卡尔积,所以每个是二维向量。(2)对于每个我们计算关于作为哪里.(3)根据然后确定簇的数量K(K)从等高线。(4)根据等高线,在每个簇中指定指定的观测值。您可以使用较低的轮廓级别以获得更好的可视化效果。(5)使用第节中定义的加权空间秩分类器规则3.2确认每个观测值的分配,并将未分配的观测值分配给适当的簇。
3.2. 加权空间秩分类器

假设我们有k个组,带分布然后基于中的第二个WSR函数(),我们可以分配d日-维观测向量-第th组if哪里.注意,如果我们使用那么从那以后从空间中值向外增加

因此,在使用WSR轮廓确定簇数后(8)可用于将每个观测值分配给最合适的簇。

3.3. 基于加权空间秩聚类算法的验证性分析

为了评估加权空间秩函数的性能,我们将其与其他标准方法(如欧几里德距离、马氏距离、空间秩和空间深度)进行了比较。模拟研究用于评估所提出的基于加权秩的聚类在定义多元数据中的组结构方面的性能。模拟数据是从一个二元正态混合分布中采样的,该分布被假定为分为两组,其中混合比例第页 = 0.3和样本量n个 = 1000这样 是来自的随机样本哪里 .

对于接下来的所有等高线图,它们都是从一个随机样本中导出的,该样本由1000个观测值组成,这些观测值是根据(10). 1显示了欧氏距离、马氏距离、空间等级和空间深度的等高线图。该图清楚地表明,生成的等高线未能映射出二元混合分布中两个簇的结构形状。

在图中2(定义见(4))和(定义见(5))用于根据中定义的非参数高斯核权重函数导出等高线图(6)(参见第节4). 一般来说,图2显示了与图相比1,由两者生成的轮廓基于高斯核函数捕获更多的模拟数据的结构。然而,轮廓基于未能检测到一些不靠近任何一个簇的观察结果。这些未被发现的观测结果由两个星团之间的一些线表示,这表明可能存在第三个星团。相反,很明显,通过使用与来自在图中2(a).

这是因为是一个常量,值从簇的中心或空间中值向外增加。因此,可以将未分配的点分配给该簇,从而使该点的加权秩最低。相反,由第二赋范加权空间秩函数导出的轮廓,定义于(5),基于的值从空间中位数向外减少。因此,单个点的加权空间秩值越大,它离簇中心越近。

总之,捕获模拟数据的簇结构。总的来说,当使用高斯核权重。

4.基于加权空间秩的高维聚类算法(d日>2)

对于真实数据集,我们经常需要分析复杂的多维数据,这使得数据可视化和计算更加复杂。在这种情况下,可以采用降维策略,这里我们使用主成分分析(PCA)将数据的维数降到二维,以便导出等高线图(参见[16]).

使用主成分分析的主要思想是找到一个低维子空间来捕获数据中的大部分方差。具体来说,它涉及到找到使方差最大化的轴的正交旋转。对于d维随机变量X(X) = (X(X)1X(X)2, …,X(X)d日)具有协方差矩阵哪里是d维常量向量。由于为了找到主成分,需要查找

有必要约束具有单位长度以确保有限值。这可以通过使用拉格朗日乘子方法来解决,因此对于拉格朗日乘子,这归结为求解本征方程。

这也意味着对于产生最大特征值的分量,方差最大是相应的特征向量。这也很简单地表明对于j个 = 1, …,d日是正交的。因此,对于特征向量矩阵,和主成分得分矩阵C类由提供.这表示X(X)轴指向最大方差的方向。因此,第一个主成分C类1的方差最大X(X)和第二个组件C类2具有第二大方差,依此类推(有关PCA的更多详细信息,请参阅[17]).

4.1. 加权空间秩聚类算法d日>2
(1)成为d日-维随机样本,然后使用主成分分析得到前两个分量12并构造矩阵它是由两个分量组成的矩阵12.(2)考虑12并在以下情况下执行加权空间秩聚类算法的步骤.

5.数值示例

在本节中,我们将基于加权空间秩的聚类算法应用于两个模拟数据集和三个实际数据集。

5.1. 模拟数据示例

在第一个模拟数据示例中,我们考虑了三个四元正态分布的混合,和样本大小这样的话是来自四维混合正态分布的随机样本。哪里 .

3(a)显示了主成分的散点图矩阵,并显示了混合图像。从组件1和组件2面板可以清楚地看出,有3个集群。相比之下,组件2与组件3以及组件2和组件4表明只有2个集群。3(b)给出了由每个分量解释的总方差的比例,即总方差的97%由前两个分量解释。数字3(c)3(d)证明了加权空间秩轮廓能够准确地拟合三个聚类的形状,没有任何误分类。最后,以数字表示3(e)3(f)基于加权秩分类器的前两个分量的验证图表明,观测值已正确分配给三个模拟聚类。

在第二个例子中,我们模拟了一个大小为n个 = 100来自四个6维正态分布的混合,权重比例相等第页 = 0.25,即。,具有 .

从图中的散点图矩阵4(a)我们可以看到,尽管组件1中有四个清晰的集群,而组件面板中的集群数量在其他面板中不太清晰。然而,从图中可以清楚地看出4(b)前两个成分解释了大多数(98%)的方差。

加权空间等级等高线图如图所示4(c)4(d)清楚地显示了四个簇的形状,在后者中,轮廓水平较低 = 已经使用了0.001。最后,基于前两个分量的加权空间秩分类器和图中所示的原始数据的验证图4(e)4(f)演示将模拟观测值正确分配给正确的簇。

5.2. 真实数据集示例

在本小节中,该算法应用于三个实际数据集:虹膜数据[18],财务数据[19]和古老可靠的间歇泉数据[2021]. 虹膜数据集由三种不同类型的虹膜组成(Setosa、Versicolour和Virginica)。然而,大多数聚类技术认为有两类,因为如果没有Fisher使用的物种信息,维吉尼亚鸢尾和Versicolour鸢尾是不可分离的。如图所示5(c)基于前两个分量的加权秩轮廓表示两个聚类,解释了总方差的97.8%。图中的验证图5(e)5(f)将所有观察结果分配给两组。

第二个真正的数据集是财务数据[19],其中包含对自1996年4月以来在意大利经营的103只投资基金业绩的三个变量的测量(Atkinson等人[19])。这些数据包括两种不同的基金(股票基金和平衡基金)。从图中6(c)分量1和分量3的加权秩等高线解释了总方差的96.4%,表明存在两个聚类。此外,验证图提供了观察值的有效赋值,这与两种类型的资金一致。

第三个数据集是古老的间歇泉数据,取自阿扎里尼和鲍曼[20]以及MASS Venables和Ripley图书馆[21]. 它包括272个观测值和两个变量,即两次喷发之间的等待时间,以及美国怀俄明州黄石国家公园古老的忠实间歇泉的喷发持续时间(以分钟为单位)。该数据集由两个明显的簇组成,即短喷发和长喷发。从数字7(b)7(c)可以看出,数据的加权秩轮廓表示两个具有未分配观测值的簇(编号174)。使用图中所示的验证分类器7(d),将观测值174正确分配给第二个簇。

6.与其他聚类方法的比较

WSRN方法确定数据集中的簇数,并将数据分类为每个簇。在本节中,我们将WSRN方法与其他聚类和分类方法进行比较。

第一种方法是基于模型的聚类“mclust”[22]. 这是基于高斯混合模型GMM[23]其中,簇数对应于返回最大贝叶斯信息准则(BIC)的模型。第二种方法是结合Calinski–Harabasz(CH)指数的K-means算法[24]. 在应用K平均值之前,选择返回最高CH指数的簇数[25]分类数据的算法。

用作比较器的第三种方法是高维数据聚类(HDDC)[26]这也是一种基于高斯混合模型的聚类方法,其中BIC用于选择簇数。使用的第四种方法是混合概率主成分分析“MixtPPCA”[27]其中簇数对应最大的BIC。第五种比较方法是围绕medoids“PAM”聚类进行划分[28]方法,其中簇数是根据最佳平均轮廓宽度估计的[29]. 比较中使用的第六种方法是基于密度的噪声应用程序空间聚类(DBSCAN),其中使用基于密度的方法估计簇数,以识别数据中的高密度区域,这些区域被视为簇[1]. 在比较中使用的其他方法是KMD:使用K-medoids聚类[7],FCM:模糊C-均值聚类[30],GG:Gath–Geva聚类算法[31],DDC:距离密度聚类[8],SNN:使用共享最近邻聚类进行聚类[32]和densityClust:通过快速搜索和查找密度峰值进行聚类[9].

每种方法都应用于第5节中的三个实际数据集。由于外部类是已知的,因此使用纯度、熵和误分类率对不同的聚类方法进行了比较。尽管纯度和熵是分类中常用的外部验证方法,但它们测量聚类数据的同质性,不会惩罚识别不正确聚类数的算法。事实上,如果每个簇对于一个特定的类都是同质的,那么即使簇的数量不正确,纯度和熵都会给出一个完美的分数(1代表纯度,0代表熵)。以下的错误分类率确实会惩罚识别错误聚类数量的算法。

就这样吧n个存在的数据点第页真正的类,这样T型 = {T型1T型2, …,T型第页}算法在其中识别k个集群,以便C类 = {C类1C类2, …,C类k个}. 一个 = {1, 2, …,k个}和B类 = {1, 2, …,第页}. 误分类率小时定义为受约束,如果两个条件出现在总和中,然后 = t吨当且仅当j个 = 单位[1433].

因此,矩阵的每一行和每一列一个B类对总和最多贡献一个元素。结果是设置为零,如果是将括号中的总和最大化的术语之一。此外,当只有一个簇时,总和只包含一个项。

调整后的兰德指数(ARI)是另一种常用的衡量聚类算法性能的指标[34]. H基于集合匹配比较聚类,ARI通过计算一致或不一致的点对来评估聚类。此外,ARI还考虑了未经调整的兰德指数的预期值,该值是通过在列联表中随机选择具有固定列和行总数的条目来确定的。

其他聚类有效性指数可用于评估不同聚类结构的优缺点,如连通性指数[35],CS索引[36]、和Sym索引[37](有关更多详细信息,请参阅[38]).

1显示了应用于虹膜数据集的不同算法的结果,其中12种方法中有9种在纯度和熵方面取得了完美的分数,尽管只有4种算法能够识别正确的簇数。对于这些数据,WSR、mclust和densityClust的误分类率最高,H和两者都具有完美的熵、纯度和ARI得分。

对于财务数据集,如表2WSR与其他七种算法的联合误分类率最低。HDDC算法记录了纯度和熵的最佳分数,但这标识了错误的簇数。根据ARI、WSR、K-means、MixtPPCA、PAM、KMD、FCM和GG记录最佳分数。最后,对于旧的忠实数据集,表显示WSR算法具有联合第三低H值,但HDDC和GG算法在该数据集的所有四个指标中都是最佳的。

7.结束语

本文介绍了一种新的基于加权空间秩的聚类方法。WSRN算法完全由数据驱动,它既可以确定簇的数量,也可以对数据进行分类。作为一种非参数方法,它不需要对数据的基本分布做出任何假设。当数据具有两个以上的维度时,基于主成分分析的加权秩轮廓合成允许直观地可视化与数据点分布相关的簇结构。

我们考虑了非参数核权重,并引入了基于高斯核权重的WSRN函数。与其他标准方法相比,基于高斯核权重的WSRN函数在聚类检测和可视化方面提供了最佳结果。基于高斯权重的加权秩轮廓更加精确,并且最适合簇结构的形状。他们仔细地收集了每个观察结果,并将其分配给适当的组,错误分类的可能性最小。在对来自三个真实数据集的数据进行聚类和分类时,它也与其他方法具有竞争力。

虽然WSRN方法在正交变换下是不变的,但它不是仿射不变的。如果不同簇的规模不相似,使用仿射不变秩有可能改善结果[39]. 该方法的另一个可能扩展是考虑欧几里德范数的推广,以估计WSRN规范可以进行调查以确定.

数据可用性

用于支持研究结果的数据可在公共领域获得,并在本文中适当引用。

披露

本文是MB论文(Baragilly[40]).

利益冲突

提交人声明他们没有利益冲突。

鸣谢

作者感谢Biman Chakraborty对这项工作的有益讨论和建议,BHW和MB获得了英国医学研究委员会颁发的临床科学家奖(MR/N007999/1)。