Clustering Analysis of Multivariate Data: A Weighted Spatial Ranks-Based Approach

Baragilly, Mohammed H.; Gabr, Hend; Willis, Brian H.

doi:https://doi.org/10.1155/2023/8849404

概率统计杂志

在本页上

摘要介绍数据可用性披露利益冲突鸣谢工具书类版权相关文章

研究文章|开放式访问

体积2023|文章ID8849404|https://doi.org/10.1155/2023/8849404

多元数据的聚类分析：一种基于加权空间秩的方法

穆罕默德·巴拉吉利，^1,2亨德·加布，^3、4和布莱恩·威利斯²

学术编辑：Cho Hyunjun

收到2022年12月15日

修订过的2023年3月27日

认可的2023年6月5日

出版2023年9月30日

摘要

在没有任何关于聚类数的先验信息的情况下，确定正确的聚类数是聚类分析中的一个核心问题。在本文中，我们提出了一种基于不同加权空间秩（WSR）函数的非参数聚类方法。WSR背后的主要思想是基于多变量秩的本地化版本在本地定义差异性度量。我们考虑一个非参数高斯核权重函数。我们将该方法的性能与其他标准技术进行了比较，并评估了其误分类率。该方法是完全由数据驱动的，对分布假设具有鲁棒性，并且对于直观可视化而言是准确的，可以用于确定簇数并将每个观测值分配给其簇。

1.简介

近年来，聚类方法在数据科学和机器学习领域取得了重大进展。基于密度的带噪声应用程序空间聚类（DBSCAN）已成为一种流行的非参数聚类算法，该算法将相邻且被低密度区域包围的点聚集在一起[1]. 此外，分层聚类[2]已被广泛用于通过将较小的集群合并为较大的集群或将较大的集群拆分为较小的集群来构建集群层次结构。K-均值聚类[三]仍然是最流行的分区方法之一，其中数据被划分为K个不同的、不重叠的集群。

此外，光谱聚类[4]由于其能够使用相似度矩阵的特征向量将数据划分为簇，因此受到了欢迎。亲和力传播[5]将每个数据点分配给一个示例，该示例是集群的代表点，并迭代更新示例直到收敛。模糊聚类[6]为每个数据点分配属于每个集群的概率，而不是将其分配给单个集群。由引入的K-medoids算法[7]使用实际数据点作为每个簇的代表或medoid，从数据集中选择的medoid通常是簇内最集中的点。与K-means相比，这使得K-medoids对异常值和噪声更具鲁棒性。另一种最近的聚类方法是由[8]. 它是一种距离密度聚类方法，是一种考虑时间序列数据密度的基于medoid的聚类，以层次方式提供聚类结果。

快速搜索和发现密度峰（densityClust）方法的聚类[9]是一种基于密度的聚类方法，其目的是根据数据点的局部密度和它们之间的距离来识别簇，这使得它适合于具有不规则形状簇和不同密度的数据集。此外，由[10]是一种基于密度的聚类算法，旨在根据数据点的局部密度及其空间关系识别簇。它使用基于网格的方法将数据空间划分为单元，然后将数据点分配给相应的单元。然后，该算法通过考虑每个单元内点的密度和空间邻近性来确定簇分配。

这些方法各有优缺点，适用于不同类型的数据和应用。选择合适的聚类方法取决于各种因素，例如数据的大小和性质、所需的聚类数以及所要解决的研究问题。

在使用空间秩分析多元数据方面取得了进一步的进展，非参数方法的发展尤为显著[11——13]. 它们有许多吸引人的特性，包括无分布和易于计算。此外，传统的空间等级函数给出了每个观测点的中心位置及其相对于中心的方向的信息。然而，它们没有捕获每对观测值之间的距离，这对于聚类分析很重要。

最近，Baragilly和Chakraborty[11]利用空间秩作为聚类工具，使用基于非参数多元空间秩函数的前向搜索方法来确定数据中的簇数。他们的方法不依赖于初始子样本的选择，并且已经证明在不同的混合分布中表现良好。这项工作已扩展到医学应用中的功能数据集聚类[14].

本文提出了一种利用空间秩进行聚类的新方法，该方法使用非参数加权空间秩函数，该函数考虑了每对观测值之间的距离作为权重，并定义了基于空间秩的差异性度量。通过测量每对观测值之间的距离而不是它们的中心趋势，可以更容易地将给定的数据集分割成特定数量的簇。

加权空间秩（WSR）的主要思想是基于空间秩的本地化版本定义差异性度量，这样加权秩可以用作分类器和验证工具，以确定簇数并将每个观测值分配给其簇。正确选择权重函数可以更好地识别聚类，核权重是模式分析、分类、聚类分析、机器学习和支持向量机中的常用选择。

本文还演示了如何使用加权空间秩来可视化聚类，以便在降维后使用低维输入空间的加权秩轮廓来确定聚类数。

章节2本文介绍了加权空间秩函数，并对其在不同参数和非参数权重函数中的应用进行了评估。章节三演示了基于加权秩的聚类算法，并提出了基于加权等级的验证分类器，可用于将观测值分配给二维数据的最合适的聚类。章节4对高维数据演示了基于加权秩的聚类算法5提供了基于模拟和真实数据集的数值示例，以检验所提出算法的性能。该算法与第节中的其他聚类方法进行了比较6，结论见第节7.

2.加权空间秩函数

在本节中，我们提出了两种不同的加权空间秩函数。假设有一个-尺寸分布F类，则该点的未加权空间秩函数关于F类可以定义为

点的第一加权空间秩函数关于F类是一个向量函数，可以定义为

第二加权空间秩函数可以定义为其中L₂规范是

请注意(2)以及(三)取决于刻度（分母）(2)是以下各项的权重之和哪里因此与数据相关，而在(三)这取决于n个它与数据无关。

核权重函数通常用于非参数估计，如前所述，也用于一系列分类和模式识别问题。这里，我们考虑高斯核权重，它是常用的非参数核权重函数之一，定义如下：哪里欧几里德规范是这样的吗是d日-量纲向量（有关内核权重的详细信息，请参阅Souza[15])

3.加权空间秩聚类算法

我们现在从二元情况开始介绍加权空间秩聚类算法()在考虑高维情况之前.

3.1. 二元情形下的加权空间秩聚类算法(d日 = 2)

(1)让是一个有两个变量的随机样本和然后让是两个等距集的笛卡尔积，和所以每个是二维向量。(2)对于每个，我们计算关于作为哪里和.（3）根据和，然后确定簇的数量K（K）从等高线。(4)根据等高线，在每个簇中指定指定的观测值。您可以使用较低的轮廓级别以获得更好的可视化效果。(5)使用第节中定义的加权空间秩分类器规则3.2确认每个观测值的分配，并将未分配的观测值分配给适当的簇。

3.2. 加权空间秩分类器

假设我们有k个组，带分布，然后基于中的第二个WSR函数(三)，我们可以分配d日-维观测向量到-第th组if哪里.注意，如果我们使用，那么从那以后从空间中值向外增加

因此，在使用WSR轮廓确定簇数后(8)可用于将每个观测值分配给最合适的簇。

3.3. 基于加权空间秩聚类算法的验证性分析

为了评估加权空间秩函数的性能，我们将其与其他标准方法（如欧几里德距离、马氏距离、空间秩和空间深度）进行了比较。模拟研究用于评估所提出的基于加权秩的聚类在定义多元数据中的组结构方面的性能。模拟数据是从一个二元正态混合分布中采样的，该分布被假定为分为两组，其中混合比例第页 = 0.3和样本量n个 = 1000这样，是来自的随机样本哪里，，和.

对于接下来的所有等高线图，它们都是从一个随机样本中导出的，该样本由1000个观测值组成，这些观测值是根据(10). 图1显示了欧氏距离、马氏距离、空间等级和空间深度的等高线图。该图清楚地表明，生成的等高线未能映射出二元混合分布中两个簇的结构形状。

（a）

（b）

（c）

（d）

在图中2，（定义见(4))和（定义见(5))用于根据中定义的非参数高斯核权重函数导出等高线图(6)（参见第节4). 一般来说，图2显示了与图相比1，由两者生成的轮廓和基于高斯核函数捕获更多的模拟数据的结构。然而，轮廓基于未能检测到一些不靠近任何一个簇的观察结果。这些未被发现的观测结果由两个星团之间的一些线表示，这表明可能存在第三个星团。相反，很明显，通过使用与来自在图中2（a）.

（a）

（b）

这是因为是一个常量，值从簇的中心或空间中值向外增加。因此，可以将未分配的点分配给该簇，从而使该点的加权秩最低。相反，由第二赋范加权空间秩函数导出的轮廓，，定义于(5)，基于的值从空间中位数向外减少。因此，单个点的加权空间秩值越大，它离簇中心越近。

总之，比捕获模拟数据的簇结构。总的来说，当使用高斯核权重。

4.基于加权空间秩的高维聚类算法(d日>2)

对于真实数据集，我们经常需要分析复杂的多维数据，这使得数据可视化和计算更加复杂。在这种情况下，可以采用降维策略，这里我们使用主成分分析（PCA）将数据的维数降到二维，以便导出等高线图（参见[16]).

使用主成分分析的主要思想是找到一个低维子空间来捕获数据中的大部分方差。具体来说，它涉及到找到使方差最大化的轴的正交旋转。对于d维随机变量X（X） = (X（X）₁，X（X）₂, …,X（X）_d日)具有协方差矩阵，让，哪里是d维常量向量。由于，为了找到主成分，需要查找

有必要约束具有单位长度以确保有限值。这可以通过使用拉格朗日乘子方法来解决，因此对于拉格朗日乘子，，这归结为求解本征方程。

这也意味着对于产生最大特征值的分量，方差最大是相应的特征向量。这也很简单地表明对于j个 = 1, …,d日是正交的。因此，对于特征向量矩阵，和主成分得分矩阵C类由提供.这表示X（X）轴指向最大方差的方向。因此，第一个主成分C类₁的方差最大X（X）和第二个组件C类₂具有第二大方差，依此类推（有关PCA的更多详细信息，请参阅[17]).

4.1. 加权空间秩聚类算法d日>2

(1)让成为d日-维随机样本，然后使用主成分分析得到前两个分量₁和₂并构造矩阵，它是由两个分量组成的矩阵₁和₂.(2)考虑₁和₂并在以下情况下执行加权空间秩聚类算法的步骤.

5.数值示例

在本节中，我们将基于加权空间秩的聚类算法应用于两个模拟数据集和三个实际数据集。

5.1. 模拟数据示例

在第一个模拟数据示例中，我们考虑了三个四元正态分布的混合，和，和样本大小，这样的话是来自四维混合正态分布的随机样本。哪里，，和.

图3（a）显示了主成分的散点图矩阵，并显示了混合图像。从组件1和组件2面板可以清楚地看出，有3个集群。相比之下，组件2与组件3以及组件2和组件4表明只有2个集群。图3（b）给出了由每个分量解释的总方差的比例，即总方差的97%由前两个分量解释。数字3（c）和3（d）证明了加权空间秩轮廓能够准确地拟合三个聚类的形状，没有任何误分类。最后，以数字表示3（e）和3（f）基于加权秩分类器的前两个分量的验证图表明，观测值已正确分配给三个模拟聚类。

（a）

（b）

（c）

（d）

（e）

（f）

在第二个例子中，我们模拟了一个大小为n个 = 100来自四个6维正态分布的混合，权重比例相等第页 = 0.25，即。，具有，，，和.

从图中的散点图矩阵4（a）我们可以看到，尽管组件1中有四个清晰的集群，而组件面板中的集群数量在其他面板中不太清晰。然而，从图中可以清楚地看出4（b）前两个成分解释了大多数（98%）的方差。

（a）

（b）

（c）

（d）

（e）

（f）

加权空间等级等高线图如图所示4（c）和4（d）清楚地显示了四个簇的形状，在后者中，轮廓水平较低 = 已经使用了0.001。最后，基于前两个分量的加权空间秩分类器和图中所示的原始数据的验证图4（e）和4（f）演示将模拟观测值正确分配给正确的簇。

5.2. 真实数据集示例

在本小节中，该算法应用于三个实际数据集：虹膜数据[18]，财务数据[19]和古老可靠的间歇泉数据[20，21]. 虹膜数据集由三种不同类型的虹膜组成（Setosa、Versicolour和Virginica）。然而，大多数聚类技术认为有两类，因为如果没有Fisher使用的物种信息，维吉尼亚鸢尾和Versicolour鸢尾是不可分离的。如图所示5（c）基于前两个分量的加权秩轮廓表示两个聚类，解释了总方差的97.8%。图中的验证图5（e）和5（f）将所有观察结果分配给两组。

（a）

（b）

（c）

（d）

（e）

（f）

第二个真正的数据集是财务数据[19]，其中包含对自1996年4月以来在意大利经营的103只投资基金业绩的三个变量的测量（Atkinson等人[19])。这些数据包括两种不同的基金（股票基金和平衡基金）。从图中6（c）分量1和分量3的加权秩等高线解释了总方差的96.4%，表明存在两个聚类。此外，验证图提供了观察值的有效赋值，这与两种类型的资金一致。

（a）

（b）

（c）

（d）

（e）

（f）

第三个数据集是古老的间歇泉数据，取自阿扎里尼和鲍曼[20]以及MASS Venables和Ripley图书馆[21]. 它包括272个观测值和两个变量，即两次喷发之间的等待时间，以及美国怀俄明州黄石国家公园古老的忠实间歇泉的喷发持续时间（以分钟为单位）。该数据集由两个明显的簇组成，即短喷发和长喷发。从数字7（b）和7（c）可以看出，数据的加权秩轮廓表示两个具有未分配观测值的簇（编号174）。使用图中所示的验证分类器7（d），将观测值174正确分配给第二个簇。

（a）

（b）

（c）

（d）

6.与其他聚类方法的比较

WSRN方法确定数据集中的簇数，并将数据分类为每个簇。在本节中，我们将WSRN方法与其他聚类和分类方法进行比较。

第一种方法是基于模型的聚类“mclust”[22]. 这是基于高斯混合模型GMM[23]其中，簇数对应于返回最大贝叶斯信息准则（BIC）的模型。第二种方法是结合Calinski–Harabasz（CH）指数的K-means算法[24]. 在应用K平均值之前，选择返回最高CH指数的簇数[25]分类数据的算法。

用作比较器的第三种方法是高维数据聚类（HDDC）[26]这也是一种基于高斯混合模型的聚类方法，其中BIC用于选择簇数。使用的第四种方法是混合概率主成分分析“MixtPPCA”[27]其中簇数对应最大的BIC。第五种比较方法是围绕medoids“PAM”聚类进行划分[28]方法，其中簇数是根据最佳平均轮廓宽度估计的[29]. 比较中使用的第六种方法是基于密度的噪声应用程序空间聚类（DBSCAN），其中使用基于密度的方法估计簇数，以识别数据中的高密度区域，这些区域被视为簇[1]. 在比较中使用的其他方法是KMD：使用K-medoids聚类[7]，FCM:模糊C-均值聚类[30]，GG:Gath–Geva聚类算法[31]，DDC：距离密度聚类[8]，SNN：使用共享最近邻聚类进行聚类[32]和densityClust：通过快速搜索和查找密度峰值进行聚类[9].

每种方法都应用于第5节中的三个实际数据集。由于外部类是已知的，因此使用纯度、熵和误分类率对不同的聚类方法进行了比较。尽管纯度和熵是分类中常用的外部验证方法，但它们测量聚类数据的同质性，不会惩罚识别不正确聚类数的算法。事实上，如果每个簇对于一个特定的类都是同质的，那么即使簇的数量不正确，纯度和熵都会给出一个完美的分数（1代表纯度，0代表熵）。以下的错误分类率确实会惩罚识别错误聚类数量的算法。

就这样吧n个存在的数据点第页真正的类，这样T型 = {T型₁，T型₂, …,T型_第页}算法在其中识别k个集群，以便C类 = {C类₁，C类₂, …,C类_k个}. 让一个 = {1, 2, …,k个}和B类 = {1, 2, …,第页}. 误分类率小时定义为受约束，如果两个条件和出现在总和中，然后我 = t吨当且仅当j个 = 单位[14，33].

因此，矩阵的每一行和每一列一个 B类对总和最多贡献一个元素。结果是设置为零，如果是将括号中的总和最大化的术语之一。此外，当只有一个簇时，总和只包含一个项。

调整后的兰德指数（ARI）是另一种常用的衡量聚类算法性能的指标[34]. H基于集合匹配比较聚类，ARI通过计算一致或不一致的点对来评估聚类。此外，ARI还考虑了未经调整的兰德指数的预期值，该值是通过在列联表中随机选择具有固定列和行总数的条目来确定的。

其他聚类有效性指数可用于评估不同聚类结构的优缺点，如连通性指数[35]，CS索引[36]、和Sym索引[37]（有关更多详细信息，请参阅[38]).

表1显示了应用于虹膜数据集的不同算法的结果，其中12种方法中有9种在纯度和熵方面取得了完美的分数，尽管只有4种算法能够识别正确的簇数。对于这些数据，WSR、mclust和densityClust的误分类率最高，H和两者都具有完美的熵、纯度和ARI得分。

对于财务数据集，如表2WSR与其他七种算法的联合误分类率最低。HDDC算法记录了纯度和熵的最佳分数，但这标识了错误的簇数。根据ARI、WSR、K-means、MixtPPCA、PAM、KMD、FCM和GG记录最佳分数。最后，对于旧的忠实数据集，表三显示WSR算法具有联合第三低H值，但HDDC和GG算法在该数据集的所有四个指标中都是最佳的。

7.结束语

本文介绍了一种新的基于加权空间秩的聚类方法。WSRN算法完全由数据驱动，它既可以确定簇的数量，也可以对数据进行分类。作为一种非参数方法，它不需要对数据的基本分布做出任何假设。当数据具有两个以上的维度时，基于主成分分析的加权秩轮廓合成允许直观地可视化与数据点分布相关的簇结构。

我们考虑了非参数核权重，并引入了基于高斯核权重的WSRN函数。与其他标准方法相比，基于高斯核权重的WSRN函数在聚类检测和可视化方面提供了最佳结果。基于高斯权重的加权秩轮廓更加精确，并且最适合簇结构的形状。他们仔细地收集了每个观察结果，并将其分配给适当的组，错误分类的可能性最小。在对来自三个真实数据集的数据进行聚类和分类时，它也与其他方法具有竞争力。

虽然WSRN方法在正交变换下是不变的，但它不是仿射不变的。如果不同簇的规模不相似，使用仿射不变秩有可能改善结果[39]. 该方法的另一个可能扩展是考虑欧几里德范数的推广，以估计WSRN磅规范可以进行调查以确定.

数据可用性

用于支持研究结果的数据可在公共领域获得，并在本文中适当引用。

披露

本文是MB论文（Baragilly[40]).

利益冲突

提交人声明他们没有利益冲突。

鸣谢

作者感谢Biman Chakraborty对这项工作的有益讨论和建议，BHW和MB获得了英国医学研究委员会颁发的临床科学家奖（MR/N007999/1）。

工具书类

M.Ester、H.P.Kriegel、J.Sander和X.Xu，“在有噪声的大型空间数据库中发现簇的基于密度的算法”第二届知识发现和数据挖掘国际会议论文集第226-231页，俄勒冈州波特兰，1996年8月。
查看位置：谷歌学者
A.K.Jain和R.C.Dubes，数据聚类算法，Prentice Hall，Inc，美国纽约州霍博肯，1988年。
J.B.Macqueen，“多元观测分类和分析的一些方法”第五届伯克利数理统计与概率研讨会论文集第1卷，第281-297页，1967年。
查看位置：谷歌学者
A.Y.Ng、M.I.Jordan和Y.Weiss，“关于谱聚类：分析和算法”神经信息处理系统研究进展第849-856页，2002年。
查看位置：谷歌学者
B.J.Frey和D.Dueck，“通过在数据点之间传递消息进行聚类，”科学类第315卷，第5814号，第972-976页，2007年。
查看位置：发布者网站|谷歌学者
J.C.Bezdek，基于模糊目标函数算法的模式识别，Plenum出版社，美国纽约州纽约市，1981年。
H.S.Park和C.H.Jun，“K-medoids聚类的简单快速算法”带应用程序的专家系统，第36卷，第2期，第3336–3341页，2009年。
查看位置：发布者网站|谷歌学者
R.Ma和R.Angryk，“时间序列数据的距离和密度聚类”，in2017 IEEE国际数据挖掘研讨会（ICDMW）会议记录，IEEE，美国洛杉矶新奥尔良，2017年11月。
查看位置：谷歌学者
A.Rodriguez和A.Laio，“通过快速搜索和发现密度峰值进行聚类，”科学类第344卷，第6191号，第1492-1496页，2014年。
查看位置：发布者网站|谷歌学者
M.Suo、B.Zhu、D.Zhou、R.An和S.Li，“邻域电网聚类及其在卫星电力系统故障诊断中的应用”机械工程师学会会刊，G部分：航空航天工程杂志，第233卷，第4期，第1270–1283页，2019年。
查看位置：发布者网站|谷歌学者
M.Baragilly和B.Chakraborty，《使用多元秩确定簇数》稳健统计的最新进展：理论与应用C.Agostinelli、A.Basu、P.Filzmoser和D.Mukherjee，Eds.，第19-36页，印度斯普林格出版社，2016年。
查看位置：谷歌学者
J.Möttönen和H.Oja，“多元空间符号和秩方法”非参数统计杂志1995年，第5卷，第2期，第201–213页。
查看位置：发布者网站|谷歌学者
S.Sirkiä、S.Taskinen、H.Oja和D.E.Tyler，“基于空间符号和等级的形状测试和估计，”非参数统计杂志，第21卷，第2期，第155-176页，2009年。
查看位置：发布者网站|谷歌学者
M.Baragilly、H.Gabr和B.H.Willis，“利用基于功能空间等级的前向搜索将功能数据聚类到医疗应用中，”医学研究中的统计方法第31卷，第1期，第47–61页，2021年。
查看位置：发布者网站|谷歌学者
C.R.Souza，“机器学习应用程序的内核函数”，2010年，http://crsouza.blogspot.com/2010/03/kernel-functions-for-machine-learning.html.
查看位置：谷歌学者
I.T.Jolliffe，主成分分析2002年，德国柏林施普林格。
W.J.Kzanowski，多元分析原理英国牛津大学出版社，1988年。
R.A.Fisher，“分类问题中多重测量的使用”优生学年鉴第7卷，第2期，第179-188页，1936年。
查看位置：发布者网站|谷歌学者
A.C.Atkinson、M.Riani和A.Cerioli，用前向搜索探索多元数据，施普林格，纽约，纽约，美国。
A.Azzalini和A.Bowman，“关于古老忠实间歇泉的一些数据，”应用统计学，第39卷，第3期，第357-365页，1990年。
查看位置：发布者网站|谷歌学者
W.Venables和B.Ripley，现代应用统计学与S，施普林格，纽约，纽约，美国。
C.Fraley和A.E.Raftery，“基于模型的聚类、判别分析和密度估计”美国统计协会杂志2002年，第97卷，第458号，第611-631页。
查看位置：发布者网站|谷歌学者
J.D.Banfield和A.E.Raftery，“基于模型的高斯和非高斯聚类”生物计量学。JSTOR公司第21卷，第803页，1993年。
查看位置：谷歌学者
T.Calinski和J.Harabasz，“聚类分析的树枝晶方法”统计学中的传播——理论与方法第3卷，第1-27页，1974年。
查看位置：发布者网站|谷歌学者
S.P.Lloyd，“PCM中的最小二乘量化。技术说明，贝尔实验室，”IEEE信息理论汇刊第28卷，第128–137页，1957年。
查看位置：谷歌学者
C.Bouveyron、S.Girard和C.Schmid，“高维数据聚类”计算统计与数据分析2007年，第52卷，第1期，第502-519页。
查看位置：发布者网站|谷歌学者
M.E.Tipping和C.Bishop，“概率主成分分析仪的混合物”神经计算，第11卷，第2期，第443-482页，1999年。
查看位置：发布者网站|谷歌学者
A.Reynolds、G.Richards、B.de la Iglesia和V.Rayward-Smith，“聚类规则：分区和层次聚类算法的比较”数学建模与算法杂志2006年，第5卷，第4期，第475–504页。
查看位置：发布者网站|谷歌学者
L.Kaufman和P.J.Rousseeuw，在数据中查找组。聚类分析导论，John Wiley and Sons Inc，美国纽约州纽约市，1990年。
A.J.Torabi、M.J.Er、X.Li、B.S.Lim和G.O.Peen，“聚类方法在高速铣削过程中在线刀具状态监测和故障诊断中的应用”IEEE系统期刊2016年，第10卷，第2期，第721-732页。
查看位置：发布者网站|谷歌学者
K.Yu、T.R.Lin和J.W.Tan，“基于EEMD空间条件矩阵奇异值和Gath-Geva聚类的轴承故障诊断技术”应用声学第121卷，第33-45页，2017年。
查看位置：发布者网站|谷歌学者
L.Ertoz、M.Steinbach和V.Kumar，“在噪声高维数据中发现不同大小、形状和密度的集群”SIAM国际数据挖掘会议记录第47-59页，美国密歇根州明尼苏达州，2003年4月。
查看位置：谷歌学者
M.Meila，“比较聚类——基于信息的距离”多变量分析杂志第98卷，第5期，第873–895页，2007年。
查看位置：发布者网站|谷歌学者
L.Hubert和P.Arabie，“比较分区”分类杂志，第2卷，第1期，第193–218页，1985年。
查看位置：发布者网站|谷歌学者
J.Handl和J.Knowles，“多目标聚类的进化方法”IEEE进化计算汇刊2007年，第11卷，第1期，第56–76页。
查看位置：发布者网站|谷歌学者
C.H.Chou、M.C.Su和E.Lai，“一种新的聚类有效性度量及其在图像压缩中的应用”模式分析与应用，第7卷，第2期，第205-220页，2004年。
查看位置：发布者网站|谷歌学者
S.Bandyopadhyay和S.Saha，“基于点对称的聚类技术，用于集群的自动演化”IEEE知识与数据工程汇刊2008年，第20卷，第11期，第1441–1457页。
查看位置：发布者网站|谷歌学者
A.José-GarcíA和W.Gómez-Flores，“使用自然启发元启发式的自动聚类：一项调查”应用软计算2016年，第41卷，第192-213页。
查看位置：发布者网站|谷歌学者
B.Chakraborty，“关于仿射等变多元分位数”统计数学研究所年鉴2001年，第53卷，第2期，第380–403页。
查看位置：发布者网站|谷歌学者
M.H.H.Baragilly，利用空间秩函数聚类多元和函数数据英国伯明翰伯明翰大学，2016年。

版权

PDF格式下载引文

下载其他格式

订购打印副本

意见

390

下载

316

引文