1.简介
无监督学习包括所有机器学习方法,这些方法用于识别没有确定因变量的数据观测之间的关系。目标是根据数据的独立特征确定观测值之间的关系[1]. 聚类方法是一种流行的无监督学习方法,有助于识别同质数据观察分组。对于欧几里德空间中的数据,存在几种常用的工具来识别相似数据的簇,例如主成分分析(PCA)[2],K-均值聚类[三],分层聚类[4]和基于密度的噪声应用程序空间聚类(DBSCAN)[5]等等。 虽然热带线性空间上的监督学习方法正在兴起(参见[6,7,8]),用于热带线性空间的无监督学习方法是有限的。在[9],作者提出了热带主成分分析(PCA)来估计描述为热带凸的数据的最佳拟合多面体。除热带PCA外,无监督学习方法大多被忽视,欧几里德聚类方法的热带类似物也不存在。 为了弥补热带非监督学习方法的不足,我们引入了两种热带聚类方法:热带K均值聚类和热带层次聚类。在本文中,我们遵循了[1],调整其算法以用于热带凸数据。在第2节,本文简要概述了热带投影环面使用我们的集群技术所需的定义和操作。在第3节,我们介绍了热带聚类方法、相关的差异性度量以及聚类分析工具。第4节提供了两种聚类方法的计算实验结果。最后,在第5节,我们将热带层次聚类应用于超度量空间,以说明其在系统发育中的应用。 2.热带基础知识
本文考虑热带投影环面,其中是包含所有值的向量。这意味着如果,那么也就是说与同构. 例子 1 考虑一下这一点哪里.通过方程式(1),. 本节简要概述了与热带代数和几何有关的一些必要定义,因为它们与后面章节介绍的热带聚类方法有关。有关热带代数和热带几何的深入讨论,请参见[10,11]. 定义 1 (热带算术运算). 热带半环之下,我们有加法和乘法的热带算术运算,定义如下:请注意是正在添加的身份元素吗⊕和0是乘法下的标识元素⊙在这个半环上。 定义 2 (热带标量乘法和矢量加法). 对于任何以及任何,我们有热带标量乘法和热带矢量加法,定义如下: 定义 三。 假设我们有.如果对于任何以及任何,则称为S热带凸起。假设。包含V的最小热带凸子集称为热带凸壳或热带多面体可以写成V中所有热带线性元素组合的集合A类热带线段在两点之间是一个热带多面体,,属于一组两点计算公式为在欧几里德几何中,热带线段是测地线。 例子 2 考虑点集.通过方程式(1),由这些点定义的热带多面体的平面表示如所示图1。中各点之间的黑线图1表示每对顶点之间的热带线段。 定义 4 对于任何点,热带距离(也称为热带公制)在v和w之间定义如下: 接下来,我们提醒读者根据热带公制在热带多面体上的投影的定义。热带投影公式见[11]. 定义 5 让然后让是顶点集为V的热带多面体,让哪里对于. 然后对所有人来说换句话说,是的投影以热带公制表示在热带多面体上. 我们对环境点区域感兴趣根据投影规则,即方程式(三),如果两个一般相邻点具有相同的位置,则将它们投影到相同的位置对所有人来说我。当最小值为在方程式中(三)同时达到(例如,j个-th)所有坐标我因此,我们认为x个,其中对所有人来说我包括用于固定j个即对所有人来说我,以便该区域中的所有点都具有相同的事实上,变为常量,如之后减去因此,对所有人来说x个在区域中表示同一点。这个论点可以概括为引理1。 引理 1 让是具有顶点集的热带多面体,其中对于.让,因此对于固定j和所有k。然后具有也就是说,满足上述不等式的所有点x都投影到同一点。
证明。 让对所有人来说k个.然后对所有人来说k个以及所有我.或对所有人来说k个以及所有我.然后对所有人来说我. □
3.热带聚类方法
在本节中,我们介绍两种热带聚类方法。我们调用的第一种方法热带K均值聚类,类似于中描述的欧几里德版本[1]. 接下来,我们介绍热带层次聚类这些方法与欧几里德的对应方法非常相似,主要区别在于将欧几里得距离度量替换为热带度量。 3.1. 热带投影环面上的K-均值聚类
在欧几里德空间中,K-means聚类是一种迭代方法,它将数据观测划分为预定义的簇集,其中群集和基数基于从观测到质心 群集的 [1]. 每次迭代时,对于每个基于的当前成员身份计算然后,根据以下内容重新分配数据观测值在距离测量方面最接近。此距离测量具有定义簇内变异,它成为指示集群中观测值之间相似性(或差异性)的度量。在[1]采用平方欧氏距离作为测量簇内变异的方法。此度量在数学上定义为哪里是我输入数据中的第个观测值、和表示分配给簇的观察数为了将观测值分配给聚类,从而使聚类内的变化最小化,我们得出以下最小化问题:它根据平方欧氏距离定义了K-means聚类[1]. 算法1显示了基于平方欧氏距离在欧氏空间中进行K-means聚类的基本步骤。算法1欧氏空间中的K-Means聚类(来自[1]) |
输入:表示数据的矩阵,X(X),其中每行是一个观察值列是第页特征;一组可能的簇、和. 输出:集群。 随机分配每个到其中一个K(K)集群。 虽然至少一个更改群集分配。做 计算质心对于每个群集. 分配每个到集群,,其中的欧几里得距离到最小化。 结束while 返回 .
|
热带K均值聚类类似于欧几里德空间中的K均值聚类,但使用热带度量代替欧几里得距离作为簇内变化的度量。首先,我们介绍了算法2,它显示了在热带投影环面中执行K-means聚类的基本步骤。请注意,算法2模拟了算法1,但不是由每个坐标代表簇内特征平均值的点定义的质心,而是现在根据费马-韦伯使用热带距离的点。算法2K-表示热带投影环面上的聚类。 |
输入:表示数据的矩阵,X(X),其中每行是一个观察值列是e(电子)特征;所需的簇数:K(K). 输出:集群。 随机分配每个到其中一个K(K)集群。 虽然至少一个更改集群分配。做 计算F-W点,对于每个群集. 分配每个到集群,,其中最小化。 结束while 返回 .
|
计算热带费马-韦伯点
如中所述[12],由于热带几何学的非欧几里德性质,使用费马-韦伯积分公式中定义的给定样本(6). 在热带K-means聚类中,我们使用热带Fermat–Weber点表示每个聚类的质心。一般来说,对于给定的一组观测值,X(X),其中,费马-韦伯点是一个点,年,满足哪里表示距离测量和。除使用热带公制外,热带费马-韦伯点的定义类似。因此,热带费马-韦伯点满足 费马-韦伯点u个,计算自(6),提供了基于热带公制的质心表示。对于算法2的每次迭代,只要观测结果继续被重新分配到不同的聚类,我们就会为每个聚类重新计算一个费马-韦伯点。使用热带Fermat–Weber点可能面临的挑战是,该点可能不是唯一的。因此,可以想象集群成员身份在应该更改时可能不会更改,反之亦然。这需要进一步研究和探索。有关热带费马-韦伯点的详细讨论,请参见[13]. 例子 三。 考虑要点(回忆方程式(1))在是集群的成员.让重点在群集中具有成员身份.中的灰色三角形图2显示了中各点的费马-韦伯区域,这意味着三角形中包含的任何点都表示满足以下条件的热带Fermat–Weber点(6).将三角形的顶点表示为,、和,我们计算,、和.如果我们允许代表Fermat–Weber点、和,y有可能保留成员身份尽管在费马-韦伯地区根据热带公制,这更接近。 使用F-W点来表示聚类的质心,我们现在引入算法2来定义热带投影环面上的K-means聚类。
如算法2所示,初始化后有两个主要步骤。首先,我们计算对于每个由的当前成员身份定义第二步涉及计算对于每个并分配到,因此最小化。K-means聚类的目标是最小化一个类似于(4),但我们没有使用平方欧几里德距离作为簇内变化的度量,而是用热带度量代替它。这给我们留下了以下目标函数,使簇内变化最小化哪里具有是群集中的元素数. 3.2. 热带投影环面上的层次聚类
欧氏空间中常用的另一种聚类方法是层次聚类。与K-means聚类不同,层次聚类不需要预定数量的簇来分配观测值。相反,层次聚类通过逐步计算我们称之为簇间距离使用差异性度量[1]. 在欧几里得空间中,有几种不同性度量可用。有关更流行的差异性度量的列表,请参阅中的表10.2[1]. 算法3显示了欧氏空间中的通用层次聚类算法。 算法3首先允许每个观测值表示自己的簇。然后使用相异性度量,在每一步对聚类进行成对分组,直到所有观测结果都被分组到一个聚类中。此外,在每次迭代中,都会捕获差异性度量的值。确定数据中集群数量的一种(非正式的)方法是检查两次迭代之间的差异度量。如果从当前迭代到下一个迭代的差异度量非常大,那么这可以指示当前迭代中集群之间的分离。
从视觉上看,这种集群的渐进融合有一种树表示,称为树状图层次聚类产生的树状图包括和轴,其中轴显示观察结果。The
轴表示簇融合时簇之间的差异度量(通常称为高度)。图3提供了使用层次聚类后的树状图示例模拟数据的观测,其中50个点分别取自具有不同平均值和标准偏差参数的两个高斯分布。 3.3. 基于成对距离的热带层次聚类的相异性度量
经典层次聚类中最常用的差异性度量使用欧几里德距离[1]. 通过将欧几里德距离替换为热带距离,我们可以对热带层次聚类使用类似的方法。热带差异测量(或热带联系)使用两两热带距离的定义方式与欧几里德空间中的联系方式类似。表1显示了热带成对差异度量的摘要。 定义 6 (热带成对完整链接). 这个热带全联动在两个集群之间,和,是通过识别点确定的差异性度量和,其中是最大的。这在数学上定义为 例子 4 考虑集群、和(0,6,4),.图4和图5说明中的哪些点为我们考虑的热带层次聚类的每个不同度量定义不同性。 定义 7 (热带成对单连杆). 对于两个集群,和,一个热带单一联系取决于和,其中最小化。那就是
图5。例4的热带成对单链。根据方程式计算的红色热带线段定义的单一连接(2),表示定义每个簇中多边形的一对顶点之间的最小距离。
图5。实施例4的热带成对单键。根据方程式计算的红色热带线段定义的单一连接(2),表示定义每个簇中多边形的一对顶点之间的最小距离。
定义 8 (热带成对平均联系). 对于给定集群,的热带成对平均联系之间和一个单独的集群取的平均值总的来说具体来说, 定义热带联系的好处如表1我们可以利用hclust公司中的函数对因为它的输入是对 距离对象。这使得我们可以像使用欧几里德距离那样构建树状图。 基于投影的热带层次聚类的相异性度量
不同集群中的点之间的成对热带距离的另一种选择是计算集群中的一个点与其在另一个集群上的投影之间的热带距离。热带投影环面上的点簇是一个热带凸集,可以定义为热带多面体。我们表示由簇中的点定义的热带多面体作为.为了确定两个簇之间的差异,和,我们可以从中投影每个点到上面点的投影是里面的要点吗就热带距离而言,这是距离投影点最近的。计算点与其投影之间的距离是差异度量的基础。
对于中的点簇我们称之为差异度量,或联动装置,相对于另一个星团,由每个点之间的热带距离及其在由另一星团定义的热带多面体上的投影决定[1]. 这里,我们让代表我簇中的第个点、和表示的投影到集群上,定义如下(三). 下面的定义描述了我们在本文中考虑的联系,我们称之为热带全联动,热带单一联系、和热带平均连锁.表2总结了这些联系。 定义 9 (热带完全联动). 这个热带全联动在两个集群之间,和,是由识别点确定的差异性度量,其中是最大的。这在数学上定义为 例子 5 考虑集群和,.图6,图7和图8说明中的哪些点定义我们考虑的热带层次聚类的每个不同度量的不同性。 定义 10 (热带单连杆). 对于两个集群,和,热带单一联系由,因此最小化。那就是
图7。例4的热带单一联系。虚线表示到上面按公式计算(三).
图7。例4的热带单一联系。虚线表示到上面按公式计算(三).
定义 11 (热带平均联系). 对于给定集群,热带平均联系和一个单独的集群取的平均值总的来说具体来说,
图8。例4的热带平均联系。虚线表示中每个顶点的投影到上面按公式计算(三). 请注意,我们平均热带距离以确定和.
图8。例4的热带平均联系。虚线表示中每个顶点的投影到上面按公式计算(三). 请注意,我们平均热带距离以确定和.
3.4. 聚类分析
在下一节接下来的实验中,我们将把热带聚类算法应用于可以进行可视化分析的模拟数据。然而,在大多数情况下,数据的维度太大,我们无法可视化,因此我们必须建立一些指标来分析集群结果。利用图论中的术语,在本节中,我们提供了我们称之为热带软毛和热带中间地带.
定义 12 (平均热带干涩度). 考虑一个集群,,由热带聚类算法生成。平均热带粘稠度,表示为,表示中数据的关系。数学上,我们将其定义为 定义 13 (最大热带干涩度). 考虑一个集群,,由热带聚类算法生成。最大热带范围,表示为表示集群中的异常值。数学上,我们将其定义为 定义 14 (热带中间地带). 考虑两个集群,和,由热带聚类算法生成。热带介数,表示为,表示集群之间的关系和正式地,热带中间带定义为 由于热带介数是根据从一个星团中的一个点到另一个星群定义的热带多面体上的投影的热带距离来测量的,因此从星团测量的介数到群集可能与从到然而,这些值应该相对接近,所以我们使用这两个度量值的平均值。那就是, 无论是热带粘连性还是中间性都不能单独提供足够的信息来描述集群或它们之间的关系。然而,将两者联系起来可以提供关于簇中的点和簇本身之间的总体关系的一些信息。一种这样的方法是取粘稠度与粘稠度之间的比值,表示为并定义为 的大值表明密度不是很高和很小。这种情况可能表明数据点子组之间存在一些重叠,并且难以确定有意义的簇。值很小可能表示分配给热带距离与星团到在这种情况下,集群可能会被分离,数据中几乎没有重叠。在接下来的部分中,我们将看到分离良好的数据和重叠数据的例子,以及重叠数据对我们的热带聚类方法构成的挑战。
4.计算实验
在本节中,我们使用热带k均值和层次聚类方法进行了计算实验。在每种情况下,我们在使用马尔可夫链蒙特卡罗(MCMC)点击运行(HAR)方法,通过使用高斯核从热带多面体中采样热带点。采样器采用用户定义的位置和比例参数,和分别为[15]. 该采样器在欧氏空间中模拟高斯HAR采样器控制采样点的离散度,用作质心。此外,我们将热带K-means聚类应用于来自MV测试中的程序包版本2.1.1对. 对于我们的每种聚类方法,我们对采样点分为三组,每组50个点。使用不同的位置和比例参数对每组进行采样。在第一个实验中,用和,使用和; 此外,使用和。获得的样本表示组成样本的每个组之间存在分离的情况。
第二个实验样品点。在这种情况下,使用参数对50个点进行采样和; 使用以下方法采样50个点和; 使用和。各点之间存在明显的重叠,这使得区分不同组变得更加困难。
4.1. 热带K均值聚类
我们首先将热带K均值聚类应用于上述两个样本中的每一个。
4.1.1. 实验1
在第一个实验中,我们观察了图9。数据根据其产生的参数集进行着色。 将算法2应用于-预定义的簇,我们观察到三个原始组都已定义,并且根据真实分配几乎完美地分配了成员。图10显示了算法2的进展。 在这个实验中,该算法用了五次迭代来完成集群分配。只有五个观测值分配错误。对于这三个簇,我们还计算。簇的最终赋值显示在图10.是带有;是带有; 和是绿色点簇. 4.1.2. 实验2
这个实验强调了识别观测重叠的簇的挑战。图11显示了使用类高斯MCMC HAR采样器采样的观测值。观察结果中有明显的(有意的)重叠。 实验结果如所示图12,显示观测值的簇分配进度。左上窗格显示开始赋值,右上和左下绘图分别显示第一次和第二次迭代。最后的赋值显示在右下角的图中。完成集群分配需要六次迭代。 算法2在相对位置上识别三个簇;它具有更高的错误分配率。总共,150个观测值中的19个被分配到了不正确的聚类中。这在一定程度上是意料之中的,因为观察结果之间有很大的重叠。对于这三个簇,我们计算。在中引用右下角的绘图图12,是一组绿点;是一组带有; 最后一组黑点,,具有这些值明显高于实验1的结果,尽管这并不令人惊讶。簇彼此相邻,导致较小的介数值。此外,每个簇中的点并不是紧紧围绕其各自计算的质心。 4.1.3. Iris数据集
在本节中,我们将热带K-means聚类应用于来自MV测试包装入对数据由四个特征的150个观测值组成。在这些数据中,有一个多项式响应变量,其中每个观察都被归类为三种鸢尾花中的一种。对于每个物种,按物种类型分类的观察数量为在本实验中,我们删除了响应变量,并与欧几里德K均值聚类方法相比,观察我们的热带K均值聚类法对数据的正确聚类效果。对于这两种方法,我们在应用聚类方法之前对数据进行缩放。结果如所示表3具有代表每个物种的实际数量,以及表示每个集群中每种类型的计数。 在这两种情况下,我们在应用聚类方法之前对数据进行了缩放,并获得了类似的结果。在这种情况下,热带k-means聚类提供了稍好的结果,正确的聚类分配率为与正确的集群分配率相比.
4.2. 热带层次聚类
现在,我们将注意力转向算法4中描述的热带层次聚类。我们将算法4应用于热带K均值聚类所用的类似观测。
本实验的目的是确定算法4使用不同的链接正确确定簇的程度。从算法4中可以清楚地看出N个在算法中迭代,直到所有点都是单个簇的成员。因为我们知道有三组采样点与不同的尺度和位置参数相关,所以目标是在迭代148之前看到三个具有正确成员身份的簇。
4.2.1. 实验1
在第一个实验中,我们采样使用高斯型热带HAR采样器采样的点点使用高斯型热带HAR采样器。在这个实验中,用和,使用和,使用采样50个点和然后,我们使用上一节中定义的每个不同度量应用算法4。图13显示按颜色区分的采样点。我们看到,样本组在视觉上是可分离的。然后,我们使用前面章节中定义的每个不同度量应用算法4。图13显示按颜色区分的采样点。我们看到样本组在视觉上是可分离的。 图14显示了使用热带平均值(左上)、热带完整值(右上)和热带单一值(下)链接的结果。 热带完整联系提供了最佳结果,将所有点完美地分配给与其位置和尺度参数相关的簇。对于使用完整链接定义的三个簇中的每一个,我们还计算了在这种情况下,是蓝色点的簇,是品红点簇,以及是黄色点的簇。对于每个集群,我们都有,、和.
4.2.2. 实验2
现在,我们想观察算法4识别聚类的效果,其中采样点之间存在重叠。图15显示按颜色区分的采样点。 由于分组重叠,算法很难区分不同的簇。无论使用哪种差异性度量,聚类结果都会导致一个非常大的簇和两个很小的簇,它们只包含少数几个点。图16显示了每个连杆的结果。 就层次聚类而言,完整的关联似乎优于其他关联;然而,对于实验2,所有链接方法的表现都很差。考虑到这一点,我们放弃了计算相关的集群度量。
在这两种聚类方法中,热带K均值在识别观测值并将其正确分配给正确的聚类方面表现更好。然而,正如我们将在以下章节中看到的,对于给定的数据,K-means聚类并不总是一个可行的选项。
5.系统发生树的应用
系统发育树是特定物种进化历史的树表示。在本文中,我们重点关注等距树,这是一个有根的系统发育树,其从根到每片叶子的距离对于所有叶子来说都是相同的。等距树可以被视为根据分子钟推断出的系统发育树。当根据多物种合并模型下的基因树(从每个基因推断出的系统发育树)推断物种树时,我们假设输入样本中的所有系统发育树都是等距树[16]. 系统发育学是一个将系统发育学工具应用于基因组数据的新领域。在系统发育学中,我们在系统发育树空间上对基因树样本进行统计分析,系统发育树是一组所有可能的系统发育树,具有一组给定的叶子标签,即物种。然而,系统发育树的空间不是欧几里德空间,而是低维多面体锥与共维的结合结束,其中米是树叶的数量[17,18,19]. 因此,如果我们将经典统计方法应用于系统发育树样本,这些方法的结果可能会导致错误的结论。 2006年,Ardila和Klivans指出,等距树的空间是一个热带线性空间。因此,如果我们应用热带度量,我们可以使用热带线性代数在等距树的空间上进行统计分析。例如,Yoshida等人。热带度量在等距树空间主成分分析中的应用[9]. 在本节中,我们将系统发育树空间的层次聚类应用于米树叶。我们特别关注层次聚类,因为获取Fermat–Weber点(如热带K-means聚类所需)可能不在等距树的空间中[13]. 在接下来的部分中,我们将回顾超测量学及其与系统发育树空间的关系。然后,我们将使用层次聚类来识别超度量空间上的不同树拓扑. 5.1. Ultrametrics基础
让假设有一张地图公制是否超过。这意味着u个必须满足以下条件: 假设u个是上的度量然后,如果u个满足以下条件,这是关于三角形不等式的一个更强的条件:然后,我们打电话u个一个超测量的. 例子 6 假设然后,公制u,因此是一种超音波。 系统发育树是一种加权树,其内部节点没有标签,外部节点(即叶子)有标签。我们考虑具有给定叶标签集的根系统发育树.
定义 15 假设我们有一个带叶标签集的根系统发育树T。如果从根到每片叶子的唯一路径中的总分枝长度对所有人来说都是一样的然后我们叫Tan等距树。
为了进行与系统发育树相关的任何统计分析,我们必须用到矢量表示。将系统发育树映射到载体的一种方法是将其映射到差异图这导致了以下两个定义。
定义 16 (来自[20]). 相异映射d是一个函数,因此和每对. 我们可以表示不同的地图d日由矩阵谁的条目是.因为是对称的,所有对角线项都是零,我们可以认为d日作为向量,其中.
定义 17 (来自[20]). 设T是一个系统发育树,有m片叶子标记有.指定长度到每个边缘.定义,因此是从叶i到叶j的唯一路径的总长度。我们将以此方式获得的函数d称为树距离。此外,如果距离矩阵的每个条目为非负,则d为度量。我们称这样的树距离为树度量。这允许我们将D嵌入,其中. 在系统发育学中,我们考虑叶集乘积上的差异图,其中是叶子之间的成对距离到叶子.中所有可能成对距离的矢量T型在任意两片叶子之间提供系统发育树的表示T型带有叶标签集这导致了以下定理。
定理 1 ([21]). 假设我们有一个带叶标签集的等距树T然后假设对所有人来说是叶i到叶j的距离。那么,u是超度量当且仅当T是等距树。 利用定理1,如果我们考虑所有可能等距树的空间,那么我们可以考虑上的超度量空间,,作为系统发育树的空间.
5.2. 超度量空间上的层次聚类
在本节中,我们将热带层次聚类方法应用于米叶子,表示为超空间,。我们关注热带层次聚类(与热带K-means聚类相对)的原因很简单:算法2中定义的热带K-meins聚类需要计算Fermat–Weber点,但得到的点可能不是超度量,这可能会导致我们得出错误的结论[13]. 热带层次聚类不需要这样的计算。在一个超测量案例中,我们使用DIvisie ANAnalysis(DIANA)聚类算法[22]在给定的样本中,所有超几何对之间的热带距离(度量)。 我们用给定的物种树从多物种合并模型生成等距树梅斯基特[23]. 在多物种融合模型下,有两个参数:物种深度(SD)和有效人口规模 .我们修复我们根据比率改变SD对,因此 对于每个,我们生成两个独立的样本。对于每个样本,我们使用固定物种树从多物种合并模型生成1000个基因树样本。这两个独立的样本对有不同种类的树。请注意,众所周知对,两种不同的多物种融合模型越难分类(例如[24]). 在这个计算实验中,我们修正了,这意味着。我们从每个样本中随机抽取20棵树,并重复100次,以估计不同分布的聚类准确率。在图17,我们绘制每种比率100次重复的准确率平均值对。我们还将DIANA的准确率与欧几里德度量进行了比较(规范)。 6.结论
本文介绍了两种用于热带无监督机器学习的热带聚类工具。热带K均值聚类是欧几里德K均值聚类方法的类比。我们不使用欧几里德距离,而是采用热带度量,通过找到每个簇的热带Fermat–Weber点来计算质心,而不是使用特征方法。热带层次聚类模拟了欧几里德层次聚类,在算法4的每次迭代中使用不同的度量将聚类逐步融合在一起。我们没有使用一个簇中的点与另一个簇的点之间的成对距离来计算相异性,而是计算一个簇内的点与其在热带多面体上的投影之间的距离,该投影由另一个集群中的点定义。在每种情况下,都引入了聚类分析指标,以了解簇之间的分离程度以及每个簇中的点之间的关系。
计算实验表明,只要簇之间分离良好,这两种方法都是有效的。热带K-means聚类提供了有希望的结果,而不考虑数据的重叠;然而,由于一些热带凸数据,例如定义为超度量的数据,Fermat–Weber点不一定是超度量的,这使得这种技术在这种情况下可能无效。在热带层次聚类中,热带完全连锁提供了最佳的总体聚类分配。进一步,在分析上等距树的空间时米树叶,如果我们在热带公制中使用DIANA作为树上的距离度量,以计算给定样本中树之间的所有成对距离,那么它表现得很好。