Clustering Methods over the Tropical Projective Torus

Barnhill, David; Yoshida, Ruriko

doi:10.3390/math11153433

开放式访问专题论文第条

热带投影环面上的聚类方法

通过

大卫·巴恩希尔

和

吉田鲁里科

^*

海军研究生院，1411 Cunningham Road，Monterey，CA 93943-5219，USA

^*

信件应寄给的作者。

数学 2023,11(15), 3433;https://doi.org/10.3390/math11153433

收到的提交文件：2023年6月29日/修订日期：2023年8月2日/接受日期：2023年8月4日/出版日期：2023年8月7日

（本条属于本节代数、几何和拓扑)

下载

浏览地物

版本说明

摘要

:

在本文中，我们提出了用于热带凸数据的聚类方法。我们的方法类似于欧几里德空间中使用的聚类方法，在欧几里得空间中，我们使用K均值的热带类比和层次聚类来识别相似观测的分组。我们提供了通用模拟数据的计算实验结果，以及使用超微计量学在系统发育中的应用，证明了这些方法的有效性。

关键词：

凸性;系统发育树;热带几何学;无监督学习

MSC公司：

14T90；52B70型

1.简介

无监督学习包括所有机器学习方法，这些方法用于识别没有确定因变量的数据观测之间的关系。目标是根据数据的独立特征确定观测值之间的关系[1]. 聚类方法是一种流行的无监督学习方法，有助于识别同质数据观察分组。对于欧几里德空间中的数据，存在几种常用的工具来识别相似数据的簇，例如主成分分析（PCA）[2]，K-均值聚类[三]，分层聚类[4]和基于密度的噪声应用程序空间聚类（DBSCAN）[5]等等。

虽然热带线性空间上的监督学习方法正在兴起（参见[6,7,8])，用于热带线性空间的无监督学习方法是有限的。在[9]，作者提出了热带主成分分析（PCA）来估计描述为热带凸的数据的最佳拟合多面体。除热带PCA外，无监督学习方法大多被忽视，欧几里德聚类方法的热带类似物也不存在。

为了弥补热带非监督学习方法的不足，我们引入了两种热带聚类方法：热带K均值聚类和热带层次聚类。在本文中，我们遵循了[1]，调整其算法以用于热带凸数据。在第2节，本文简要概述了热带投影环面

对^{e（电子） + 1} / 对 1

使用我们的集群技术所需的定义和操作。在第3节，我们介绍了热带聚类方法、相关的差异性度量以及聚类分析工具。第4节提供了两种聚类方法的计算实验结果。最后，在第5节，我们将热带层次聚类应用于超度量空间，以说明其在系统发育中的应用。

本文中使用的所有代码和渐晕图都可以在https://github.com/barnhilldave/热带聚集（2023年6月10日访问）。

2.热带基础知识

本文考虑热带投影环面

对^{e（电子） + 1} / 对 1

，其中

1 : = (1, 1, \dots, 1)

是包含所有值的向量

对^{e（电子） + 1}

。这意味着如果

v（v） : = ({v（v）}_{1}, \dots, {v（v）}_{e（电子） + 1}) \in 对^{e（电子）} / 对 1

，那么

({v（v）}_{1} + c（c）, \dots, {v（v）}_{e（电子） + 1} + c（c）) = ({v（v）}_{1}, \dots, {v（v）}_{e（电子） + 1}) = v（v） .

(1)

也就是说

对^{e（电子） + 1} / 对 1

与同构

对^{e（电子）}

.

例子 1

考虑一下这一点

x个 \in 对^{e（电子）} / 对 1

哪里

x个 = (5, 7, 2)

.通过方程式(1),

(5, 7, 2) = (0, 2, - 三) = (- 2, 0, - 5) = (三, 5, 0)

.

本节简要概述了与热带代数和几何有关的一些必要定义，因为它们与后面章节介绍的热带聚类方法有关。有关热带代数和热带几何的深入讨论，请参见[10,11].

定义 1

（热带算术运算）. 热带半环之下

(对 \cup {- \infty}, \oplus, ⊙)

，我们有加法和乘法的热带算术运算，定义如下：

{c（c）}_{1} \oplus {c（c）}_{2} : = 最大值 {{c（c）}_{1}, {c（c）}_{2}}, {c（c）}_{1} ⊙ {c（c）}_{2} : = {c（c）}_{1} + {c（c）}_{2} w个 小时 e（电子） 第页 e（电子） {c（c）}_{1}, {c（c）}_{2} \in 对 \cup {- \infty} .

请注意

- \infty

是正在添加的身份元素吗⊕和0是乘法下的标识元素⊙在这个半环上。

定义 2

（热带标量乘法和矢量加法）. 对于任何

{c（c）}_{1}, {c（c）}_{2} \in 对 \cup {- \infty}

以及任何

v（v） = ({v（v）}_{1}, \dots, {v（v）}_{e（电子） + 1}), w个 = ({w个}_{1}, \dots, {w个}_{e（电子） + 1}) \in 对^{e（电子） + 1} / 对 1

，我们有热带标量乘法和热带矢量加法，定义如下：

({c（c）}_{1} ⊙ v（v）) \oplus ({c（c）}_{2} ⊙ w个) : = (最大值 {{c（c）}_{1} + {v（v）}_{1}, {c（c）}_{2} + {w个}_{1}}, \dots, 最大值 {{c（c）}_{1} + {v（v）}_{e（电子） + 1}, {c（c）}_{2} + {w个}_{e（电子） + 1}}) .

定义三。

假设我们有

S公司 \subset 对^{e（电子） + 1} / 对 1

.如果

{c（c）}_{1} ⊙ v（v） \oplus {c（c）}_{2} ⊙ w个 \in S公司

对于任何

{c（c）}_{1}, {c（c）}_{2} \in 对

以及任何

v（v）, w个 \in S公司

，则称为S热带凸起。假设

V（V） = {{v（v）}^{1}, \dots, {v（v）}^{秒}} \subset 对^{e（电子） + 1} / 对 1

。包含V的最小热带凸子集称为热带凸壳或热带多面体可以写成V中所有热带线性元素组合的集合

tconv公司 (V（V）) = {一_{1} ⊙ {v（v）}^{1} \oplus 一_{2} ⊙ {v（v）}^{2} \oplus \dots \oplus 一_{秒} ⊙ {v（v）}^{秒} ∣ 一_{1}, \dots, 一_{秒} \in 对} .

A类热带线段在两点之间

{v（v）}^{1}, {v（v）}^{2}

是一个热带多面体，

P（P）

，属于一组两点

{{v（v）}^{1}, {v（v）}^{2}} \subset 对^{e（电子） + 1} / 对 1

计算公式为

\{\begin{matrix} ({v（v）}_{e（电子） + 1} - {u个}_{e（电子） + 1}) ⊙ u个 \oplus v（v） & = & v（v） \\ ({v（v）}_{e（电子）} - {u个}_{e（电子）}) ⊙ u个 \oplus v（v） & = & ({v（v）}_{1}, {v（v）}_{2}, {v（v）}_{三}, \dots, {v（v）}_{e（电子） - 1}, {v（v）}_{e（电子）} - {u个}_{e（电子）} + {u个}_{e（电子） + 1}) \\ ⋮ \\ ({v（v）}_{2} - {u个}_{2}) ⊙ u个 \oplus v（v） & = & ({v（v）}_{1}, {v（v）}_{2}, {v（v）}_{2} - {u个}_{2} + {u个}_{三}, \dots, {v（v）}_{2} - {u个}_{2} + {u个}_{e（电子） + 1}) \\ ({v（v）}_{1} - {u个}_{1}) ⊙ u个 \oplus v（v） & = & u个 . \end{matrix}

(2)

在欧几里德几何中，热带线段是测地线。

例子 2

考虑点集

V（V） : = {(4, 4, 4), (2, 5, 三), (6, 8, 11)}

.通过方程式(1),

V（V） : = {(0, 0, 0), (0, 三, 1), (0, 2, 5)}

由这些点定义的热带多面体的平面表示如所示图1。中各点之间的黑线图1表示每对顶点之间的热带线段。

定义 4

对于任何点

v（v） : = ({v（v）}_{1}, \dots, {v（v）}_{e（电子） + 1}), w个 : = ({w个}_{1}, \dots, {w个}_{e（电子） + 1}) \in 对^{e（电子） + 1} / 对 1

，热带距离（也称为热带公制）

{d日}_{信托收据}

在v和w之间定义如下：

{d日}_{信托收据} (v（v）, w个) : = \underset{我 \in {1, \dots, e（电子） + 1}}{最大值} \{{v（v）}_{我} - {w个}_{我}\} - \underset{我 \in {1, \dots, e（电子） + 1}}{最小值} \{{v（v）}_{我} - {w个}_{我}\} .

接下来，我们提醒读者根据热带公制在热带多面体上的投影的定义。热带投影公式见[11].

定义 5

让

V（V） : = {{v（v）}^{1}, \dots, {v（v）}^{秒}} \subset 对^{e（电子） + 1} / 对 1

然后让

P（P） = t吨 c（c） o个 n个 v（v） ({v（v）}^{1}, \dots, {v（v）}^{秒}) \subseteq 对^{e（电子） + 1} / 对 1

是顶点集为V的热带多面体

x个 \in 对^{e（电子）} / 对 1

，让

π_{P（P）} (x个) : = ⨁_{我 = 1}^{秒} λ_{我} ⊙ {v（v）}^{我},

(3)

哪里

λ_{我} = {最小值}_{我 = 1, \dots, e（电子） + 1} ({x个}_{我} - {v（v）}_{我}^{我})

对于

{v（v）}^{我} : = ({v（v）}_{1}^{我}, \dots, {v（v）}_{e（电子） + 1}^{我}), x个 : = ({x个}_{1}, \dots, {x个}_{e（电子） + 1})

.

然后

{d日}_{信托收据} (x个, π_{P（P）} (x个)) \leq {d日}_{信托收据} (x个, 年)

对所有人来说

年 \in P（P）

换句话说，

π_{P（P）} (x个)

是的投影

x个 \in 对^{e（电子） + 1} / 对 1

以热带公制表示

{d日}_{信托收据}

在热带多面体上

P（P）

.

我们对环境点区域感兴趣

π_{P（P）} (x个)

根据投影规则，即方程式(三)，如果两个一般相邻点具有相同的位置，则将它们投影到相同的位置

λ_{我}

对所有人来说我。当最小值为

最小值 {x个 - {v（v）}^{我}}

在方程式中(三)同时达到（例如，j个-th）所有坐标我因此，我们认为x个，其中

λ_{我}

对所有人来说我包括

{x个}_{j个}

用于固定j个即

λ_{我} = {x个}_{j个} - {v（v）}_{j个}^{我}

对所有人来说我，以便该区域中的所有点都具有相同的

λ_{我}

事实上，

λ_{我}

变为常量，如

λ_{我} = - {w个}_{j个}^{我}

之后

{x个}_{j个} 1

减去

对^{e（电子） + 1} / 对 1

因此，

π_{P（P）} (x个) = λ \cdot V（V）

对所有人来说x个在区域中表示同一点。这个论点可以概括为引理1。

引理 1

让

P（P） = t吨 c（c） o个 n个 v（v） ({v（v）}^{1}, \dots, {v（v）}^{秒}) \subseteq 对^{e（电子） + 1} / 对 1

是具有顶点集的热带多面体

{{v（v）}^{1}, \dots, {v（v）}^{秒}} \subset 对^{e（电子）} / 对 1

，其中

{v（v）}^{我} : = ({v（v）}_{1}^{我}, \dots, {v（v）}_{e（电子）}^{我})

对于

我 = 1, \dots, 秒

.让

x个 = ({x个}_{1}, \dots, {x个}_{e（电子）}) \in 对^{e（电子）} / 对 1

，因此

{x个}_{j个} \leq {x个}_{k个} + {最小值}_{我 = 1, \dots, e（电子）} {{v（v）}_{j个}^{我} - {v（v）}_{k个}^{我}}

对于固定j和所有k。然后

π_{P（P）} {(x个)}_{我} = {最大值}_{我} {{v（v）}_{我}^{我} - {v（v）}_{j个}^{我}}

具有

λ_{我} = - {v（v）}_{j个}^{我}

也就是说，满足上述不等式的所有点x都投影到同一点。

证明。

让

{x个}_{j个} \leq {x个}_{k个} + {最小值}_{我 = 1, \dots, e（电子） + 1} {{v（v）}_{j个}^{我} - {v（v）}_{k个}^{我}}

对所有人来说k个.然后

{x个}_{j个} \leq {x个}_{k个} + ({v（v）}_{j个}^{我} - {v（v）}_{k个}^{我})

对所有人来说k个以及所有我.或

{x个}_{j个} - {v（v）}_{j个}^{我} \leq {x个}_{k个} - {v（v）}_{k个}^{我}

对所有人来说k个以及所有我.然后

λ_{我} = 最小值 {x个 - {v（v）}^{我}} = {x个}_{j个} - {v（v）}_{j个}^{我}

对所有人来说我. □

3.热带聚类方法

在本节中，我们介绍两种热带聚类方法。我们调用的第一种方法热带K均值聚类，类似于中描述的欧几里德版本[1]. 接下来，我们介绍热带层次聚类这些方法与欧几里德的对应方法非常相似，主要区别在于将欧几里得距离度量替换为热带度量。

3.1. 热带投影环面上的K-均值聚类

在欧几里德空间中，K-means聚类是一种迭代方法，它将数据观测划分为预定义的簇集

C类 : = {{C类}_{1}, \dots, {C类}_{K（K）}}

，其中群集

{C类}_{k个} \in C类

和基数

C类 = | K（K） |

基于从观测到质心

{c（c）}_{k个}

群集的

{C类}_{k个}

[1]. 每次迭代时，

{c（c）}_{k个}

对于每个

{C类}_{k个} \in C类

基于的当前成员身份计算

{C类}_{k个}

然后，根据以下内容重新分配数据观测值

{c（c）}_{k个}

在距离测量方面最接近。此距离测量具有定义簇内变异，它成为指示集群中观测值之间相似性（或差异性）的度量。在[1]采用平方欧氏距离作为测量簇内变异的方法。此度量在数学上定义为

W公司 ({C类}_{k个}) = \frac{1}{| {C类}_{k个} |} \sum_{我, 我^{'} \in {C类}_{k个}} \sum_{j个 = 1}^{e（电子） + 1} {({x个}_{我 j个} - {x个}_{我^{'} j个})}^{2},

哪里

{x个}_{我} : = ({x个}_{我 1}, \dots, {x个}_{我 e（电子） + 1})

是我输入数据中的第个观测值

{{x个}_{1}, \dots, {x个}_{n个}} \subset 对^{e（电子） + 1} / 对 1

、和

| {C类}_{k个} |

表示分配给簇的观察数

{C类}_{k个}

为了将观测值分配给聚类，从而使聚类内的变化最小化，我们得出以下最小化问题：

\underset{{C类}_{1}, \dots, {C类}_{K（K）}}{最小值} \sum_{k个 = 1}^{K（K）} \frac{1}{| {C类}_{k个} |} \sum_{我, 我^{'} \in {C类}_{k个}} \sum_{j个 = 1}^{e（电子）} {({x个}_{我 j个} - {x个}_{我^{'} j个})}^{2},

(4)

它根据平方欧氏距离定义了K-means聚类[1]. 算法1显示了基于平方欧氏距离在欧氏空间中进行K-means聚类的基本步骤。

算法1欧氏空间中的K-Means聚类（来自[1])

输入：表示数据的矩阵，X（X），其中每行是一个观察值 ${x个}_{我} \in 对^{第页}$ 列是第页特征；一组可能的簇 $C类 = {{C类}_{1}, \dots, {C类}_{K（K）}}$ 、和 $| C类 | = K（K）$ .
输出：集群。
随机分配每个 ${x个}_{我} \in X（X）$ 到其中一个K（K）集群。
虽然至少一个 ${x个}_{我}$ 更改群集分配。做
计算质心 ${c（c）}_{k个}$ 对于每个群集 $k个 \in K（K）$ .
分配每个 ${x个}_{我} \in X（X）$ 到集群， ${C类}_{k个}$ ，其中的欧几里得距离 ${x个}_{我}$ 到 ${c（c）}_{k个}$ 最小化。
结束while
返回 $x个 : = {x个}_{我}$ .

热带K均值聚类类似于欧几里德空间中的K均值聚类，但使用热带度量代替欧几里得距离作为簇内变化的度量。首先，我们介绍了算法2，它显示了在热带投影环面中执行K-means聚类的基本步骤。请注意，算法2模拟了算法1，但不是由每个坐标代表簇内特征平均值的点定义的质心，而是现在根据费马-韦伯使用热带距离的点。

算法2K-表示热带投影环面上的聚类。

输入：表示数据的矩阵，X（X），其中每行是一个观察值 ${x个}_{我} \in 对^{e（电子） + 1} / 对 1$ 列是e（电子）特征；所需的簇数：K（K）.
输出：集群。
随机分配每个 ${x个}_{我} \in X（X）$ 到其中一个K（K）集群。
虽然至少一个 ${x个}_{我}$ 更改集群分配。做
计算F-W点 ${c（c）}_{k个}$ ，对于每个群集 $k个 \in K（K）$ .
分配每个 ${x个}_{我} \in X（X）$ 到集群， ${C类}_{k个}$ ，其中 ${d日}_{信托收据} ({x个}_{我}, {c（c）}_{k个})$ 最小化。
结束while
返回 $x个 : = {x个}_{我}$ .

计算热带费马-韦伯点

如中所述[12]，由于热带几何学的非欧几里德性质，使用费马-韦伯积分公式中定义的给定样本(6). 在热带K-means聚类中，我们使用热带Fermat–Weber点表示每个聚类的质心。一般来说，对于给定的一组观测值，X（X），其中

| X（X） | = 第页

，费马-韦伯点是一个点，年，满足

参数 \underset{年}{最小值} \sum_{我 = 1}^{第页} d日 (年, {x个}_{我}),

(5)

哪里

d日 (.)

表示距离测量和

{x个}_{我} \in X（X）

。除使用热带公制外，热带费马-韦伯点的定义类似。因此，热带费马-韦伯点

u个 \in 对^{e（电子）} / 对 1

满足

参数 \underset{u个}{最小值} \sum_{我 = 1}^{第页} {d日}_{信托收据} (u个, {x个}_{我}) .

(6)

费马-韦伯点u个，计算自(6)，提供了基于热带公制的质心表示。对于算法2的每次迭代，只要观测结果继续被重新分配到不同的聚类，我们就会为每个聚类重新计算一个费马-韦伯点。使用热带Fermat–Weber点可能面临的挑战是，该点可能不是唯一的。因此，可以想象集群成员身份在应该更改时可能不会更改，反之亦然。这需要进一步研究和探索。有关热带费马-韦伯点的详细讨论，请参见[13].

例子三。

考虑要点

V（V） = {(0, 0, 0), (0, 2, 5), (0, 三, 1)}

（回忆方程式(1))在

对^{三} / 对 1

是集群的成员

{C类}_{1}

.让重点

年 = (0, 6, 三)

在群集中具有成员身份

{C类}_{2}

.中的灰色三角形图2显示了中各点的费马-韦伯区域

{C类}_{1}

，这意味着三角形中包含的任何点都表示满足以下条件的热带Fermat–Weber点(6).将三角形的顶点表示为

{z（z）}_{1} = (0, 1, 1)

,

{z（z）}_{2} = (0, 2, 2)

、和

{z（z）}_{三} = (0, 2, 1)

，我们计算

{d日}_{信托收据} (年, {z（z）}_{1}) = 5

,

{d日}_{信托收据} (年, {z（z）}_{2}) = 4

、和

{d日}_{信托收据} (年, {z（z）}_{三}) = 4

.如果我们允许

{u个}_{2}

代表Fermat–Weber点

{C类}_{2}

、和

4 \leq {d日}_{信托收据} ({u个}_{2}, 年) \leq 5

，y有可能保留成员身份

{C类}_{2}

尽管在费马-韦伯地区

{C类}_{1}

根据热带公制，这更接近。

使用F-W点来表示聚类的质心，我们现在引入算法2来定义热带投影环面上的K-means聚类。

如算法2所示，初始化后有两个主要步骤。首先，我们计算

{c（c）}_{k个}

对于每个

{C类}_{k个} \in C类

由的当前成员身份定义

{C类}_{k个}

第二步涉及计算

{d日}_{信托收据} ({x个}_{我}, {c（c）}_{k个})

对于每个

k个 \in [K（K）]

并分配

{x个}_{我}

到

{C类}_{k个}

，因此

{d日}_{信托收据} ({x个}_{我}, {c（c）}_{k个})

最小化。K-means聚类的目标

对^{e（电子）} / 对 1

是最小化一个类似于(4)，但我们没有使用平方欧几里德距离作为簇内变化的度量，而是用热带度量代替它。这给我们留下了以下目标函数，使簇内变化最小化

\underset{{C类}_{1}, \dots, {C类}_{K（K）}}{最小值} \sum_{k个 = 1}^{K（K）} \frac{1}{| {C类}_{k个} |} \sum_{j个 \in [| {C类}_{k个} |]} {d日}_{信托收据} ({u个}_{k个}, {x个}_{j个}),

哪里

[| {C类}_{k个} |] : = {1, \dots, | {C类}_{k个} |}

具有

| {C类}_{k个} |

是群集中的元素数

{C类}_{k个}

.

3.2. 热带投影环面上的层次聚类

欧氏空间中常用的另一种聚类方法是层次聚类。与K-means聚类不同，层次聚类不需要预定数量的簇来分配观测值。相反，层次聚类通过逐步计算我们称之为簇间距离使用差异性度量[1]. 在欧几里得空间中，有几种不同性度量可用。有关更流行的差异性度量的列表，请参阅中的表10.2[1]. 算法3显示了欧氏空间中的通用层次聚类算法。

算法3欧氏空间中的层次聚类（来自[1])

输入：矩阵X（X）以行作为观察值来表示数据，每行 ${x个}_{我} \in X（X）$ 成为一个要点 ${x个}_{我} \in 对^{e（电子）}$ ，列是e（电子）功能，以及 $| X（X） |$ 表示观察次数；差异性度量。
输出：簇集 $C类$ 对于每个迭代。
让每个 ${x个}_{我} \in X（X）$ 表示集群。
对于i=|X|，…，2做
检查所有成对集群间距离。
以最小的簇间距离融合两个簇。
计算剩余的成对簇间距离 $我 - 1$ 集群。
结束
返回 $C类$ .

算法3首先允许每个观测值表示自己的簇。然后使用相异性度量，在每一步对聚类进行成对分组，直到所有观测结果都被分组到一个聚类中。此外，在每次迭代中，都会捕获差异性度量的值。确定数据中集群数量的一种（非正式的）方法是检查两次迭代之间的差异度量。如果从当前迭代到下一个迭代的差异度量非常大，那么这可以指示当前迭代中集群之间的分离。

从视觉上看，这种集群的渐进融合有一种树表示，称为树状图层次聚类产生的树状图包括

x个 -

和

年 -

轴，其中

x个 -

轴显示观察结果。The

年 -

轴表示簇融合时簇之间的差异度量（通常称为高度）。图3提供了使用层次聚类后的树状图示例

N个 = 100

模拟数据的观测，其中50个点分别取自具有不同平均值和标准偏差参数的两个高斯分布。

3.3. 基于成对距离的热带层次聚类的相异性度量

经典层次聚类中最常用的差异性度量使用欧几里德距离[1]. 通过将欧几里德距离替换为热带距离，我们可以对热带层次聚类使用类似的方法。热带差异测量（或热带联系)使用两两热带距离的定义方式与欧几里德空间中的联系方式类似。表1显示了热带成对差异度量的摘要。

定义 6

（热带成对完整链接）. 这个热带全联动在两个集群之间，

{C类}_{k个}

和

{C类}_{j个}

，是通过识别点确定的差异性度量

{x个}_{k个}^{我} \in {C类}_{k个}

和

{x个}_{j个}^{我} \in {C类}_{j个}

，其中

{d日}_{信托收据} ({x个}_{k个}^{我}, {x个}_{j个}^{我})

是最大的。这在数学上定义为

\underset{\begin{matrix} 我 \in [| {C类}_{k个} |] \\ 我 \in [| {C类}_{j个} |] \end{matrix}}{最大值} {d日}_{信托收据} ({x个}_{k个}^{我}, {x个}_{j个}^{我}) .

例子 4

考虑集群

{C类}_{1} : = {(0, 0, 0), (0, 2, 5), (0, 三, 1)}

、和

{C类}_{1} : = {(0, 5.5, 三),

(0,6,4),

(0, 7, 3.5)

.图4和图5说明中的哪些点

{C类}_{2}

为我们考虑的热带层次聚类的每个不同度量定义不同性。

定义 7

（热带成对单连杆）. 对于两个集群，

{C类}_{k个}

和

{C类}_{j个}

，一个热带单一联系取决于

{x个}_{k个}^{我} \in {C类}_{k个}

和

{x个}_{j个}^{我} \in {C类}_{j个}

，其中

{d日}_{信托收据} ({x个}_{k个}^{我}, {x个}_{j个}^{我})

最小化。那就是

\underset{\begin{matrix} 我 \in [| {C类}_{k个} |] \\ 我 \in [| {C类}_{j个} |] \end{matrix}}{最小值} {d日}_{信托收据} ({x个}_{k个}^{我}, {x个}_{j个}^{我}) .

图5。例4的热带成对单链。根据方程式计算的红色热带线段定义的单一连接(2)，表示定义每个簇中多边形的一对顶点之间的最小距离。

图5。实施例4的热带成对单键。根据方程式计算的红色热带线段定义的单一连接(2)，表示定义每个簇中多边形的一对顶点之间的最小距离。

定义 8

（热带成对平均联系）. 对于给定集群

{C类}_{k个}

，的热带成对平均联系之间

{C类}_{k个}

和一个单独的集群

{C类}_{j个}

取的平均值

{d日}_{信托收据} ({x个}_{k个}^{我}, {x个}_{j个}^{我}))

总的来说

{x个}_{k个}^{我} \in {C类}_{k个}

具体来说，

\frac{1}{| {C类}_{k个} |} \sum_{我 = 1}^{| {C类}_{k个} |} \sum_{我 = 1}^{| {C类}_{j个} |} {d日}_{信托收据} ({x个}_{k个}^{我}, {x个}_{j个}^{我}) .

定义热带联系的好处如表1我们可以利用hclust公司中的函数对因为它的输入是对 距离对象。这使得我们可以像使用欧几里德距离那样构建树状图。

基于投影的热带层次聚类的相异性度量

不同集群中的点之间的成对热带距离的另一种选择是计算集群中的一个点与其在另一个集群上的投影之间的热带距离。热带投影环面上的点簇是一个热带凸集，可以定义为热带多面体。我们表示由簇中的点定义的热带多面体

{C类}_{k个}

作为

P（P） ({C类}_{k个})

.为了确定两个簇之间的差异，

{C类}_{k个}

和

{C类}_{j个}

，我们可以从中投影每个点

{C类}_{k个}

到上面

P（P） ({C类}_{j个})

点的投影

P（P） ({C类}_{j个})

是里面的要点吗

P（P） ({C类}_{j个})

就热带距离而言，这是距离投影点最近的。计算点与其投影之间的距离是差异度量的基础。

对于中的点簇

对^{e（电子） + 1} / 对 1

我们称之为差异度量，或联动装置，相对于另一个星团，由每个点之间的热带距离及其在由另一星团定义的热带多面体上的投影决定[1]. 这里，我们让

{x个}_{k个}^{我}

代表我簇中的第个点

{C类}_{k个}

、和

π_{P（P） ({C类}_{j个})} ({x个}_{k个}^{我})

表示的投影

{x个}_{k个}^{我}

到集群上

{C类}_{j个}

，定义如下(三). 下面的定义描述了我们在本文中考虑的联系，我们称之为热带全联动,热带单一联系、和热带平均连锁.表2总结了这些联系。

定义 9

（热带完全联动）. 这个热带全联动在两个集群之间，

{C类}_{k个}

和

{C类}_{j个}

，是由识别点确定的差异性度量

{x个}_{k个}^{我} \in {C类}_{k个}

，其中

{d日}_{信托收据} ({x个}_{k个}^{我}, π_{P（P） ({C类}_{j个})} ({x个}_{k个}^{我}))

是最大的。这在数学上定义为

\underset{我 \in [| {C类}_{k个} |]}{最大值} {d日}_{信托收据} ({x个}_{k个}^{我}, π_{P（P） ({C类}_{j个})} ({x个}_{k个}^{我})) .

例子 5

考虑集群

{C类}_{1} : = {(0, 0, 0), (0, 2, 5), (0, 三, 1)}

和

{C类}_{1} : = {(0, 5.5, 三)

,

(0, 6, 4), (0, 7, 3.5)

.图6,图7和图8说明中的哪些点

{C类}_{2}

定义我们考虑的热带层次聚类的每个不同度量的不同性。

定义 10

（热带单连杆）. 对于两个集群，

{C类}_{k个}

和

{C类}_{j个}

，热带单一联系由

{x个}_{k个}^{我} \in {C类}_{k个}

，因此

{d日}_{信托收据} ({x个}_{k个}^{我}, π_{P（P） ({C类}_{j个})} ({x个}_{k个}^{我}))

最小化。那就是

\underset{我 \in [| {C类}_{k个} |]}{最小值} {d日}_{信托收据} ({x个}_{k个}^{我}, π_{P（P） ({C类}_{j个})} ({x个}_{k个}^{我})) .

图7。例4的热带单一联系。虚线表示

(0, 5.5, 三) \in {C类}_{2}

到上面

{C类}_{1}

按公式计算(三).

图7。例4的热带单一联系。虚线表示

(0, 5.5, 三) \in {C类}_{2}

到上面

{C类}_{1}

按公式计算(三).

定义 11

（热带平均联系）. 对于给定集群

{C类}_{k个}

，热带平均联系

{C类}_{k个}

和一个单独的集群

{C类}_{j个}

取的平均值

{d日}_{信托收据} ({x个}_{k个}^{我}, π_{P（P） ({C类}_{j个})} ({x个}_{k个}^{我}))

总的来说

{x个}_{k个}^{我} \in {C类}_{k个}

具体来说，

\frac{1}{| {C类}_{k个} |} \sum_{我 = 1}^{| {C类}_{k个} |} {d日}_{信托收据} ({x个}_{k个}^{我}, π_{P（P） ({C类}_{j个})} ({x个}_{k个}^{我})) .

图8。例4的热带平均联系。虚线表示中每个顶点的投影

{C类}_{2}

到上面

{C类}_{1}

按公式计算(三). 请注意，我们平均热带距离以确定

{C类}_{2}

和

{C类}_{1}

.

图8。例4的热带平均联系。虚线表示中每个顶点的投影

{C类}_{2}

到上面

{C类}_{1}

按公式计算(三). 请注意，我们平均热带距离以确定

{C类}_{2}

和

{C类}_{1}

.

算法4提供了与热带层次聚类相关的通用算法。

算法4热带投影空间中的层次聚类

输入：矩阵X（X）用行表示数据N个观察，其中每个 ${x个}_{我} \in X（X）$ 是一个点 ${x个}_{我} \in 对^{e（电子） + 1} / 对 1$ ，列是e（电子）功能，以及 $| X（X） |$ 表示观察次数；热带差异测量。
输出：簇集 $C类$ 对于每个迭代。
让每个 ${x个}_{我} \in X（X）$ 表示集群。
对于i=n，…，2做
检查所有成对集群间的差异。
融合两个簇间差异最小的簇。
计算剩余的成对簇间差异 $我 - 1$ 集群。
结束
返回 $C类$ .

3.4. 聚类分析

在下一节接下来的实验中，我们将把热带聚类算法应用于可以进行可视化分析的模拟数据。然而，在大多数情况下，数据的维度太大，我们无法可视化，因此我们必须建立一些指标来分析集群结果。利用图论中的术语，在本节中，我们提供了我们称之为热带软毛和热带中间地带.

定义 12

（平均热带干涩度）. 考虑一个集群，

{C类}_{k个}

，由热带聚类算法生成。平均热带粘稠度，表示为

{W公司}_{信托收据} ({C类}_{k个})

，表示中数据的关系

{C类}_{k个}

。数学上，我们将其定义为

{W公司}_{信托收据} ({C类}_{k个}) = \frac{1}{| {C类}_{k个} |} \sum_{我 \in | {C类}_{k个} |} \sum_{\begin{matrix} j个 \in | {C类}_{k个} | \\ j个 \neq 我 \end{matrix}} {d日}_{信托收据} ({x个}_{我}, {x个}_{j个}) .

定义 13

（最大热带干涩度）. 考虑一个集群，

{C类}_{k个}

，由热带聚类算法生成。最大热带范围，表示为

{W公司}_{信托收据}^{最大值} ({C类}_{k个})

表示集群中的异常值。数学上，我们将其定义为

{W公司}_{信托收据}^{最大值} ({C类}_{k个}) = \underset{\begin{matrix} 我, j个 \in | {C类}_{k个} | \\ 我 \neq j个 \end{matrix}}{最大值} {d日}_{信托收据} ({x个}_{我}, {x个}_{j个}) .

定义 14

（热带中间地带）. 考虑两个集群，

{C类}_{k个}

和

{C类}_{j个}

，由热带聚类算法生成。热带介数，表示为

B类 {W公司}_{信托收据} ({C类}_{k个}, {C类}_{j个})

，表示集群之间的关系

{C类}_{k个}

和

{C类}_{j个}

正式地，热带中间带定义为

B类 {W公司}_{信托收据} ({C类}_{k个}, {C类}_{j个}) = \frac{1}{| {C类}_{k个} |} \sum_{我 \in {C类}_{k个}} {d日}_{信托收据} ({x个}_{k个}^{我}, π_{P（P） ({C类}_{j个})} ({x个}_{k个}^{我})) .

由于热带介数是根据从一个星团中的一个点到另一个星群定义的热带多面体上的投影的热带距离来测量的，因此从星团测量的介数

{C类}_{k个}

到群集

{C类}_{j个}

可能与从

{C类}_{j个}

到

{C类}_{k个}

然而，这些值应该相对接近，所以我们使用这两个度量值的平均值。那就是，

B类 {W公司}_{信托收据}^{一 v（v） 克} ({C类}_{k个}, {C类}_{j个}) = \frac{1}{2} (B类 {W公司}_{信托收据} ({C类}_{k个}, {C类}_{j个}) + B类 {W公司}_{信托收据} ({C类}_{j个}, {C类}_{k个})) .

无论是热带粘连性还是中间性都不能单独提供足够的信息来描述集群或它们之间的关系。然而，将两者联系起来可以提供关于簇中的点和簇本身之间的总体关系的一些信息。一种这样的方法是取粘稠度与粘稠度之间的比值，表示为

对 ({C类}_{k个})

并定义为

对 ({C类}_{k个}) = \frac{{W公司}_{信托收据} ({C类}_{k个})}{\frac{1}{K（K） - 1} \sum_{\begin{matrix} j个 \in K（K） \\ j个 \neq k个 \end{matrix}} B类 {W公司}_{信托收据}^{一 v（v） 克} ({C类}_{k个}, {C类}_{j个})} .

的大值

对 ({C类}_{k个})

表明

{C类}_{k个}

密度不是很高

{C类}_{k个}

和

{C类}_{j个}

很小。这种情况可能表明数据点子组之间存在一些重叠，并且难以确定有意义的簇。值很小

对 ({C类}_{k个})

可能表示分配给

{C类}_{k个}

热带距离与星团到

{C类}_{j个}

在这种情况下，集群可能会被分离，数据中几乎没有重叠。在接下来的部分中，我们将看到分离良好的数据和重叠数据的例子，以及重叠数据对我们的热带聚类方法构成的挑战。

4.计算实验

在本节中，我们使用热带k均值和层次聚类方法进行了计算实验。在每种情况下，我们在

对^{三} / 对 1

使用马尔可夫链蒙特卡罗（MCMC）点击运行（HAR）方法，通过使用高斯核从热带多面体中采样热带点。采样器采用用户定义的位置和比例参数，

μ

和

σ_{信托收据}

分别为[15]. 该采样器在欧氏空间中模拟高斯HAR采样器

σ_{信托收据}

控制采样点的离散度

μ

，用作质心。此外，我们将热带K-means聚类应用于来自MV测试中的程序包版本2.1.1对.

对于我们的每种聚类方法，我们对

N个 = 150

采样点分为三组，每组50个点。使用不同的位置和比例参数对每组进行采样。在第一个实验中，用

μ_{1} = (0, - 10, - 20)

和

σ_{信托收据}^{1} = 5

，使用

μ_{2} = (0, 20, 30)

和

σ_{信托收据}^{2} = 8

; 此外，使用

μ_{三} = (0, 30, 10)

和

σ_{信托收据}^{三} = 三

。获得的样本表示组成样本的每个组之间存在分离的情况。

第二个实验样品

N个 = 150

点。在这种情况下，使用参数对50个点进行采样

μ_{1} = (0, - 5, - 5)

和

σ_{信托收据}^{1} = 4

; 使用以下方法采样50个点

μ_{2} = (0, 5, 5)

和

σ_{信托收据}^{2} = 4

; 使用

μ_{三} = (0, 10, 0)

和

σ_{信托收据}^{三} = 4

。各点之间存在明显的重叠，这使得区分不同组变得更加困难。

4.1. 热带K均值聚类

我们首先将热带K均值聚类应用于上述两个样本中的每一个。

4.1.1. 实验1

在第一个实验中，我们观察了图9。数据根据其产生的参数集进行着色。

将算法2应用于

K（K） = 三

-预定义的簇，我们观察到三个原始组都已定义，并且根据真实分配几乎完美地分配了成员。图10显示了算法2的进展。

在这个实验中，该算法用了五次迭代来完成集群分配。只有五个观测值分配错误。对于这三个簇，我们还计算

对 ({C类}_{k个})

。簇的最终赋值显示在图10.

{C类}_{1}

是带有

对 ({C类}_{1}) = 0.618

;

{C类}_{2}

是带有

对 ({C类}_{2}) = 0.463

; 和

{C类}_{三}

是绿色点簇

对 ({C类}_{三}) = 0.310

.

4.1.2. 实验2

这个实验强调了识别观测重叠的簇的挑战。图11显示了使用类高斯MCMC HAR采样器采样的观测值。观察结果中有明显的（有意的）重叠。

实验结果如所示图12，显示观测值的簇分配进度。左上窗格显示开始赋值，右上和左下绘图分别显示第一次和第二次迭代。最后的赋值显示在右下角的图中。完成集群分配需要六次迭代。

算法2在相对位置上识别三个簇；它具有更高的错误分配率。总共，150个观测值中的19个被分配到了不正确的聚类中。这在一定程度上是意料之中的，因为观察结果之间有很大的重叠。对于这三个簇，我们计算

对 ({C类}_{k个})

。在中引用右下角的绘图图12,

{C类}_{1}

是一组绿点

对 ({C类}_{1}) = 1.068

;

{C类}_{2}

是一组带有

对 ({C类}_{2}) = 0.826

; 最后一组黑点，

{C类}_{三}

，具有

对 ({C类}_{三}) = 0.95

这些值明显高于实验1的结果，尽管这并不令人惊讶。簇彼此相邻，导致较小的介数值。此外，每个簇中的点并不是紧紧围绕其各自计算的质心。

4.1.3. Iris数据集

在本节中，我们将热带K-means聚类应用于来自MV测试包装入对数据由四个特征的150个观测值组成。在这些数据中，有一个多项式响应变量，其中每个观察都被归类为三种鸢尾花中的一种。对于每个物种，按物种类型分类的观察数量为

秒_{1} = 秒_{2} = 秒_{三} = 50

在本实验中，我们删除了响应变量，并与欧几里德K均值聚类方法相比，观察我们的热带K均值聚类法对数据的正确聚类效果。对于这两种方法，我们在应用聚类方法之前对数据进行缩放。结果如所示表3具有

秒_{我}

代表每个物种的实际数量，以及

{\hat{秒}}_{我}

表示每个集群中每种类型的计数。

在这两种情况下，我们在应用聚类方法之前对数据进行了缩放，并获得了类似的结果。在这种情况下，热带k-means聚类提供了稍好的结果，正确的聚类分配率为

0.8533

与正确的集群分配率相比

0.8333

.

4.2. 热带层次聚类

现在，我们将注意力转向算法4中描述的热带层次聚类。我们将算法4应用于热带K均值聚类所用的类似观测。

本实验的目的是确定算法4使用不同的链接正确确定簇的程度。从算法4中可以清楚地看出N个在算法中迭代，直到所有点都是单个簇的成员。因为我们知道有三组采样点与不同的尺度和位置参数相关，所以目标是在迭代148之前看到三个具有正确成员身份的簇。

4.2.1. 实验1

在第一个实验中，我们采样

N个 = 150

使用高斯型热带HAR采样器采样的点

N个 = 150

点使用高斯型热带HAR采样器。在这个实验中，用

μ_{1} = (0, - 10, - 20)

和

σ_{信托收据}^{1} = 5

，使用

μ_{2} = (0, 20, 30)

和

σ_{信托收据}^{2} = 8

，使用采样50个点

μ_{三} = (0, 30, 10)

和

σ_{信托收据}^{三} = 三

然后，我们使用上一节中定义的每个不同度量应用算法4。图13显示按颜色区分的采样点。我们看到，样本组在视觉上是可分离的。然后，我们使用前面章节中定义的每个不同度量应用算法4。图13显示按颜色区分的采样点。我们看到样本组在视觉上是可分离的。

图14显示了使用热带平均值（左上）、热带完整值（右上）和热带单一值（下）链接的结果。

热带完整联系提供了最佳结果，将所有点完美地分配给与其位置和尺度参数相关的簇。对于使用完整链接定义的三个簇中的每一个，我们还计算了

对 ({C类}_{k个})

在这种情况下，

{C类}_{1}

是蓝色点的簇，

{C类}_{2}

是品红点簇，以及

{C类}_{三}

是黄色点的簇。对于每个集群，我们都有

对 ({C类}_{1}) = 0.453

,

对 ({C类}_{2}) = 0.626

、和

对 ({C类}_{三}) = 0.287

.

4.2.2. 实验2

现在，我们想观察算法4识别聚类的效果，其中采样点之间存在重叠。图15显示按颜色区分的采样点。

由于分组重叠，算法很难区分不同的簇。无论使用哪种差异性度量，聚类结果都会导致一个非常大的簇和两个很小的簇，它们只包含少数几个点。图16显示了每个连杆的结果。

就层次聚类而言，完整的关联似乎优于其他关联；然而，对于实验2，所有链接方法的表现都很差。考虑到这一点，我们放弃了计算相关的集群度量。

在这两种聚类方法中，热带K均值在识别观测值并将其正确分配给正确的聚类方面表现更好。然而，正如我们将在以下章节中看到的，对于给定的数据，K-means聚类并不总是一个可行的选项。

5.系统发生树的应用

系统发育树是特定物种进化历史的树表示。在本文中，我们重点关注等距树，这是一个有根的系统发育树，其从根到每片叶子的距离对于所有叶子来说都是相同的。等距树可以被视为根据分子钟推断出的系统发育树。当根据多物种合并模型下的基因树（从每个基因推断出的系统发育树）推断物种树时，我们假设输入样本中的所有系统发育树都是等距树[16].

系统发育学是一个将系统发育学工具应用于基因组数据的新领域。在系统发育学中，我们在系统发育树空间上对基因树样本进行统计分析，系统发育树是一组所有可能的系统发育树，具有一组给定的叶子标签，即物种。然而，系统发育树的空间不是欧几里德空间，而是低维多面体锥与共维的结合

(\binom{米}{2}) - (米 - 1)

结束

对^{(\binom{米}{2})}

，其中米是树叶的数量[17,18,19]. 因此，如果我们将经典统计方法应用于系统发育树样本，这些方法的结果可能会导致错误的结论。

2006年，Ardila和Klivans指出，等距树的空间是一个热带线性空间。因此，如果我们应用热带度量，我们可以使用热带线性代数在等距树的空间上进行统计分析。例如，Yoshida等人。热带度量在等距树空间主成分分析中的应用[9].

在本节中，我们将系统发育树空间的层次聚类应用于米树叶。我们特别关注层次聚类，因为获取Fermat–Weber点（如热带K-means聚类所需）可能不在等距树的空间中[13]. 在接下来的部分中，我们将回顾超测量学及其与系统发育树空间的关系。然后，我们将使用层次聚类来识别超度量空间上的不同树拓扑

{U型}_{米}

.

5.1. Ultrametrics基础

让

[米] : = {1, \dots, 米}

假设有一张地图

u个 : [米] \times [米] \to 对

公制是否超过

[米]

。这意味着u个必须满足以下条件：

\begin{matrix} 对称 : & u个 (我, j个) = u个 (j个, 我) & 对于 全部的 我, j个 \in [米] \\ 身份 : & u个 (我, j个) = 0 & 如果 和 只有 如果 我 = j个 \\ 三角形 不平等 : & u个 (我, j个) \leq u个 (我, k个) + u个 (j个, k个) & 对于 全部的 我, j个, k个 \in [米] . \end{matrix}

假设u个是上的度量

[米]

然后，如果u个满足以下条件，这是关于三角形不等式的一个更强的条件：

\begin{matrix} 最大值 {u个 (我, j个), u个 (我, k个), u个 (j个, k个)} 是 实现 在 最少的 两次, \end{matrix}

然后，我们打电话u个一个超测量的.

例子 6

假设

米 = 三

然后，公制u

[三]

，因此

u个 (1, 2) = 2, u个 (1, 三) = 2, u个 (2, 三) = 1,

是一种超音波。

系统发育树是一种加权树，其内部节点没有标签，外部节点（即叶子）有标签。我们考虑具有给定叶标签集的根系统发育树

[米]

.

定义 15

假设我们有一个带叶标签集的根系统发育树T

[米]

。如果从根到每片叶子的唯一路径中的总分枝长度

我 \in [米]

对所有人来说都是一样的

我 \in [米]

然后我们叫Tan等距树。

为了进行与系统发育树相关的任何统计分析，我们必须用

[米]

到矢量表示。将系统发育树映射到载体的一种方法是将其映射到差异图这导致了以下两个定义。

定义 16

（来自[20]). 相异映射d是一个函数

d日 : [米] \times [米] \to 对_{\geq 0}

，因此

d日 (我, 我) = 0

和

d日 (我, j个) = d日 (j个, 我) \geq 0

每对

我, j个 \in [米]

.

我们可以表示不同的地图d日由

米 \times 米

矩阵

D类

谁的

(我, j个) t吨 小时

条目是

d日 (我, j个)

.因为

D类

是对称的，所有对角线项都是零，我们可以认为d日作为向量，其中

d日 \in 对^{(\binom{米}{2})}

.

定义 17

（来自[20]). 设T是一个系统发育树，有m片叶子标记有

[米]

.指定长度

ℓ_{第页} \in 对_{\geq 0}

到每个边缘

第页 \in T型

.定义

d日 : [米] \times [米] \to 对_{\geq 0}

，因此

d日 (我, j个)

是从叶i到叶j的唯一路径的总长度。我们将以此方式获得的函数d称为树距离。此外，如果距离矩阵的每个条目

D类

为非负，则d为度量。我们称这样的树距离为树度量。这允许我们将D嵌入

对^{e（电子）}

，其中

e（电子） = (\binom{米}{2})

.

在系统发育学中，我们考虑叶集乘积上的差异图

[米]

，其中

d日 (我, j个)

是叶子之间的成对距离

我 \in [米]

到叶子

j个 \in [米]

.中所有可能成对距离的矢量T型在任意两片叶子之间

[米]

提供系统发育树的表示T型带有叶标签集

[米]

这导致了以下定理。

定理 1

([21]). 假设我们有一个带叶标签集的等距树T

[米]

然后假设

u个 (我, j个)

对所有人来说

我, j个 \in [米]

是叶i到叶j的距离。那么，u是超度量当且仅当T是等距树。

利用定理1，如果我们考虑所有可能等距树的空间，那么我们可以考虑上的超度量空间

[米]

,

{U型}_{米}

，作为系统发育树的空间

[米]

.

5.2. 超度量空间上的层次聚类

在本节中，我们将热带层次聚类方法应用于米叶子，表示为超空间，

{U型}_{米}

。我们关注热带层次聚类（与热带K-means聚类相对）的原因很简单：算法2中定义的热带K-meins聚类需要计算Fermat–Weber点，但得到的点可能不是超度量，这可能会导致我们得出错误的结论[13]. 热带层次聚类不需要这样的计算。在一个超测量案例中，我们使用DIvisie ANAnalysis（DIANA）聚类算法[22]在给定的样本中，所有超几何对之间的热带距离（度量）。

我们用给定的物种树从多物种合并模型生成等距树梅斯基特[23]. 在多物种融合模型下，有两个参数：物种深度（SD）和有效人口规模

{N个}_{e（电子）}

.我们修复

{N个}_{e（电子）} = 10,000

我们根据比率改变SD对，因此

对 = \frac{标准偏差}{{N个}_{e（电子）}} .

对于每个

对 = 0.25, 0.5, 1, 2, 5, 10

，我们生成两个独立的样本。对于每个样本，我们使用固定物种树从多物种合并模型生成1000个基因树样本。这两个独立的样本对有不同种类的树。请注意，众所周知对，两种不同的多物种融合模型越难分类（例如[24]).

在这个计算实验中，我们修正了

米 = 10

，这意味着

e（电子） = 45

。我们从每个样本中随机抽取20棵树，并重复100次，以估计不同分布的聚类准确率。在图17，我们绘制每种比率100次重复的准确率平均值对。我们还将DIANA的准确率与欧几里德度量进行了比较(

我_{2}

规范）。

6.结论

本文介绍了两种用于热带无监督机器学习的热带聚类工具。热带K均值聚类是欧几里德K均值聚类方法的类比。我们不使用欧几里德距离，而是采用热带度量，通过找到每个簇的热带Fermat–Weber点来计算质心，而不是使用特征方法。热带层次聚类模拟了欧几里德层次聚类，在算法4的每次迭代中使用不同的度量将聚类逐步融合在一起。我们没有使用一个簇中的点与另一个簇的点之间的成对距离来计算相异性，而是计算一个簇内的点与其在热带多面体上的投影之间的距离，该投影由另一个集群中的点定义。在每种情况下，都引入了聚类分析指标，以了解簇之间的分离程度以及每个簇中的点之间的关系。

计算实验表明，只要簇之间分离良好，这两种方法都是有效的。热带K-means聚类提供了有希望的结果，而不考虑数据的重叠；然而，由于一些热带凸数据，例如定义为超度量的数据，Fermat–Weber点不一定是超度量的，这使得这种技术在这种情况下可能无效。在热带层次聚类中，热带完全连锁提供了最佳的总体聚类分配。进一步，在分析上等距树的空间时米树叶，如果我们在热带公制中使用DIANA作为树上的距离度量，以计算给定样本中树之间的所有成对距离，那么它表现得很好。

作者贡献

方法、D.B.和R.Y。；软件、D.B.和R.Y。；数据管理，R.Y.。所有作者都已阅读并同意手稿的出版版本。

基金

这项研究由国家科学基金会拨款DMS 1916037资助。

数据可用性声明

不适用。

致谢

作者感谢所有审稿人提出的意见和建议，这些意见和建议改进了手稿。R.Y.和D.B.部分由NSF DMS 1916037支持。

利益冲突

作者声明没有利益冲突。

工具书类

詹姆斯·G。；维滕，D。；哈斯蒂，T。；Tibshirani，R。统计学习导论：在R中的应用; 施普林格：德国柏林/海德堡，2013年。[谷歌学者]
Hotelling，H.将复杂的统计变量分析为主要成分。J.教育。精神病。 1933,24, 417–441, +498–520. [谷歌学者] [交叉参考]
MacQueen，J.多元观测的分类和分析。在第五届伯克利数理统计与概率研讨会论文集; 加利福尼亚大学：洛杉矶，加利福尼亚州，美国，1967年；第281-297页。[谷歌学者]
安德伯格，M.R。应用程序的聚类分析; 学术出版社：剑桥，马萨诸塞州，美国，1973年。[谷歌学者]
埃斯特，M。；克里格尔，H.P。；桑德，J。；Xu，X.一种基于密度的算法，用于发现带有噪声的大型空间数据库中的簇。知识。发现。数据最小值。 1996,96, 226–231. [谷歌学者]
阿基安，M。；Gaubert，S。；齐，Y。；Saadi，O。热带线性回归和平均回报游戏：或者，如何测量到平衡的距离。SIAM J.谨慎。数学。 2023,37, 632–674. [谷歌学者] [交叉参考]
吉田，R。；Takamori，M。；松本，H。；Miura，K.热带支持向量机：函数空间的评估和扩展。2021.在线提供：https://arxiv.org/abs/2101.11531（2023年6月10日访问）。
Yoshida，R.热带球及其在系统发生树空间上K最近邻的应用。数学 2021,9, 779. [谷歌学者] [交叉参考]
吉田，R。；张，L。；Zhang，X.热带主成分分析及其在系统发生学中的应用。牛市。数学。生物。 2019,81, 568–597. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
Joswig，M。热带组合学基础; 数学研究生课程；美国数学学会：普罗维登斯，RI，美国，2022年。[谷歌学者]
麦克拉根，D。；斯图尔姆费尔斯，B。热带几何学导论; 数学研究生课程；美国数学学会：普罗维登斯，RI，美国，2015年；第161卷。[谷歌学者]
Lin，B。；Sturmfels，B。；唐，X。；树空间中的Yoshida，R.凸性。SIAM谨慎。数学 2017,三, 2015–2038. [谷歌学者] [交叉参考] [绿色版本]
Lin，B。；Yoshida，R.热带蕨类植物——韦伯点。SIAM离散数学。 2018,32, 1229–1245. [谷歌学者] [交叉参考] [绿色版本]
R核心团队。R：统计计算语言与环境; R统计计算基金会：奥地利维也纳，2023年。[谷歌学者]
Barnhill，D.热带凸集的马尔可夫链蒙特卡罗抽样。2024年，美国加利福尼亚州蒙特利市海军研究生院博士论文。出版中. [谷歌学者]
Rannala，B。；爱德华兹S.V.V。；Leaché，A。；Yang，Z.多谱联合模型与物种树推断。在基因组时代的系统遗传学; Scornavaca，C.，Delsuc，F.，Galtier，N.，编辑。；2020; 第3.3:1–3.3:21页。在线提供：https://discovery.ucl.ac.uk/id/eprint/10097364/1/2020RannalaSpeciestree.pdf（2023年6月10日访问）。
阿迪拉，F。；Klivans，C.J.《拟阵和系统发生树的伯格曼复合体》。J.库姆。理论。序列号。B类 2006,96, 38–49. [谷歌学者] [交叉参考] [绿色版本]
Billera，L。；霍姆斯，S。；Vogtmann，K.系统发育树空间的几何学。高级申请。数学。 2001,27, 733–767. [谷歌学者] [交叉参考] [绿色版本]
斯派尔，D。；Sturmfels，B.热带数学。数学。美格。 2009,82, 163–173. [谷歌学者] [交叉参考]
第页，R。；吉田，R。；Zhang，L.系统发育树空间的热带主成分分析。生物信息学 2020,36, 4590–4598. [谷歌学者] [交叉参考] [公共医学]
Buneman，P.关于树的度量属性的注释。J.库姆。理论系列。B类 1974,17, 48–50. [谷歌学者] [交叉参考] [绿色版本]
考夫曼，L。；罗塞乌，P。在数据中查找组：聚类分析简介; 威利：美国新泽西州霍博肯，2009年。[谷歌学者]
威斯康星州麦迪逊。；麦迪森，D.梅斯基特：进化分析的模块化系统，2.72版。2009年。在线提供：http://mesquiteproject.org（2023年6月8日访问）。
霍斯，D。；哈金斯，P。；O'Neill，E.M。；魏斯洛克，D.W。；Yoshida，R.基于支持向量机的树空间中树集不一致性测试。BMC生物信息。 2012,13, 210. [谷歌学者] [交叉参考] [公共医学] [绿色版本]

图1。例1中定义的热带多面体。

图2。Fermat–Weber区域由示例3中的三个点定义。灰色三角形中的任何点都满足(6).

图3。使用“完整”差异度量的模拟数据的树状图，如[1]. 高度表示簇融合的不同度量值。构建的树状图使用hclust公司函数统计数据中的程序包版本4.4.0对统计软件[14].

图3。使用“完整”差异度量的模拟数据的树状图，如[1]. 高度表示簇融合的不同度量值。构建的树状图使用hclust公司的函数统计数据中的程序包版本4.4.0对统计软件[14].

图4。示例4的热带成对完整链接。根据方程式计算出的红色热带线段定义的完整连接(2)，表示在每个簇中定义多面体的一对顶点之间的最大距离。

图4。示例4的热带成对完整链接。根据方程式计算出的红色热带线段定义的完整连接(2)，表示定义每个簇中多边形的一对顶点之间的最大距离。

图6。示例4的热带完整联动。虚线表示

(0, 7, 3.5) \in {C类}_{2}

到上面

{C类}_{1}

按公式计算(三).

图6。示例4的热带完整联动。虚线表示

(0, 7, 3.5) \in {C类}_{2}

到上面

{C类}_{1}

按公式计算(三).

图9。参数集彩色编码的模拟观测值

μ_{我}

和

σ_{信托收据}^{我}

用于K-均值聚类实验1。颜色表示三个簇之一的成员身份。

图9。参数集彩色编码的模拟观测值

μ_{我}

和

σ_{信托收据}^{我}

用于K-均值聚类实验1。颜色表示三个簇之一的成员身份。

图10。K表示实验1的级数。左上角的图表示开始的簇分配。右上角和左下角表示第一次和第二次迭代结果。右下角的图表示最终的聚类分配。颜色表示三个预定义簇之一的成员身份，实心圆表示质心的位置。

图10。K表示实验1的级数。左上角的图表示开始的簇分配。右上角和左下角表示第一次和第二次迭代的结果。右下角的图表示最终的聚类分配。颜色表示三个预定义簇之一的成员身份，实心圆表示质心的位置。

图11。参数集彩色编码的模拟观测值

μ_{我}

和

σ_{信托收据}^{我}

用于K-均值聚类实验2。颜色表示三个集群之一的成员身份。

图11。参数集彩色编码的模拟观测值

μ_{我}

和

σ_{信托收据}^{我}

用于K-均值聚类实验2。颜色表示三个簇之一的成员身份。

图12。K-表示实验2的级数。左上角的图表示开始的簇分配。右上角和左下角表示第一次和第二次迭代结果。右下角的图表示最终的聚类分配。颜色表示三个预定义簇之一的成员身份，实心圆表示质心的位置。

图12。K-表示实验2的级数。左上角的图表示开始的簇分配。右上角和左下角表示第一次和第二次迭代的结果。右下角的图表示最终的聚类分配。颜色表示三个预定义簇之一的成员身份，实心圆表示质心的位置。

图13。参数集彩色编码的模拟观测值

μ_{我}

和

σ_{信托收据}^{我}

用于实验1。颜色表示三个簇之一的成员身份。

图13。参数集彩色编码的模拟观测值

μ_{我}

和

σ_{信托收据}^{我}

用于实验1。颜色表示三个簇之一的成员身份。

图14。对150个采样点使用高斯型MCMC HAR进行热带层次聚类的结果。每个图表示由热带平均值（左上）、热带完整值（右上）和热带单一值（下）关联确定的簇。颜色表示三个集群之一的成员身份。

图14。对150个采样点使用高斯型MCMC HAR进行热带层次聚类的结果。每个图表示由热带平均值（左上）、热带完整值（右上）和热带单一值（下）关联确定的簇。颜色表示三个簇之一的成员身份。

图15。通过参数集进行颜色编码的模拟观测

μ_{我}

和

σ_{信托收据}^{我}

用于实验2。颜色表示三个簇之一的成员身份。

图15。参数集彩色编码的模拟观测值

μ_{我}

和

σ_{信托收据}^{我}

用于实验2。颜色表示三个簇之一的成员身份。

图16。使用高斯型MCMC HAR对150个采样点进行热带层次聚类的结果。每个图表示由热带平均值（左上）、热带完整值（右上）和热带单一值（下）关联确定的簇。颜色表示三个簇之一的成员身份。

图17。估计准确率的曲线图。我们每个重复100次对图中显示了100次重复的准确率平均值。红线表示采用热带公制的DIANA准确率，蓝线表示采用欧几里德公制的DANAA准确率。

表1。热带成对差异测量。

联动装置	描述
完成	从两地之间的所有两地热带距离获得的两地热带最大距离一个群集中的点和另一个群中的点。
单个	从两地之间所有两地热带距离获得的两地热带最小距离一个群集中的点和另一个群中的点。
平均	一个集群中的点和点之间计算的平均成对热带距离在另一个集群中。

表2。热带差异测量。

联动装置	描述
完成	计算热带距离后获得的最大成对热带距离在一个簇中的每个点与其在另一个簇上的投影之间。
单个	计算热带距离后获得的最小成对热带距离在一个簇中的每个点和它在另一个簇上的投影之间。
平均	计算的平均两两热带距离在一个簇中的点和它们在另一个簇上的投影之间。

表3。虹膜数据的热带K均值聚类（左）和经典K均值聚类的结果（右）。

热带K均值				聚类
	$秒_{1}$	$秒_{2}$	$秒_{三}$		$秒_{1}$	$秒_{2}$	$秒_{三}$
${\hat{秒}}_{1}$	49	0	0	${\hat{秒}}_{1}$	50	0	0
${\hat{秒}}_{2}$	1	38	9	${\hat{秒}}_{2}$	0	39	14
${\hat{秒}}_{三}$	0	12	41	${\hat{秒}}_{三}$	0	11	36

免责声明/出版商说明：所有出版物中包含的声明、意见和数据仅为个人作者和贡献者的声明、观点和数据，而非MDPI和/或编辑的声明、看法和数据。MDPI和/或编辑对内容中提及的任何想法、方法、说明或产品造成的任何人员或财产伤害不承担任何责任。

分享和引用

MDPI和ACS样式

巴恩希尔，D。；吉田，R。热带投影环面上的聚类方法。数学 2023,11, 3433.https://doi.org/10.3390/math11153433

AMA风格

Barnhill D，Yoshida R。热带投影环面上的聚类方法。数学. 2023; 11(15):3433.https://doi.org/10.3390/math11153433

芝加哥/图拉宾风格

Barnhill、David和Ruriko Yoshida。2023.“热带投影环面上的聚类方法”数学11，编号15:3433。https://doi.org/10.3390/math11153433

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单

热带投影环面上的聚类方法

摘要

1.简介

2.热带基础知识

3.热带聚类方法

3.1. 热带投影环面上的K-均值聚类

计算热带费马-韦伯点

3.2. 热带投影环面上的层次聚类

3.3. 基于成对距离的热带层次聚类的相异性度量

基于投影的热带层次聚类的相异性度量

3.4. 聚类分析

4.计算实验

4.1. 热带K均值聚类

4.1.1. 实验1

4.1.2. 实验2

4.1.3. Iris数据集

4.2. 热带层次聚类

4.2.1. 实验1

4.2.2. 实验2

5.系统发生树的应用

5.1. Ultrametrics基础

5.2. 超度量空间上的层次聚类

6.结论

作者贡献

基金

数据可用性声明

致谢

利益冲突

工具书类

分享和引用

文章指标

文章访问统计

更多信息

指导方针

MDPI计划

遵循MDPI