Functional distributional clustering using spatio-temporal data

A. Venkatasubramaniam; L. Evers; P. Thakuriah; K. Ampountolas

doi:10.1080/02664763.2021.2001443

J应用统计。2023; 50(4): 909–926.

2021年11月16日在线发布。数字对象标识：10.1080/02664763.2021.2001443

预防性维修识别码：项目经理1013458

PMID：36925906

基于时空数据的功能分布聚类

A.文卡塔苏布拉曼尼亚,^一 L.埃弗斯,^b条 P.Thakuriah先生,^c（c）和K.安波托拉斯^日期：，^{e（电子）}

作者信息版权和许可信息 PMC免责声明

摘要

本文提出了一种新的方法，称为函数分布聚类算法（FDCA），旨在识别空间上相邻的集群，并纳入过度拥挤网络中时间模式的变化。该方法由一个基于图形的网络驱动，该网络由布置在空间上的传感器组成，其中每个传感器的记录观测值代表多模态分布。该方法是完全非参数的，并基于距离度量在凝聚层次聚类方法中生成聚类，该距离度量定义了空间中不同位置随时间变化的累积分布函数。传统的空间自适应层次聚类算法通常不能适应底层数据的时间特性。通过应用于加利福尼亚州旧金山市中心2.5平方英里网络区域内约400个传感器的经验和模拟数据，说明了FDCA的有效性。结果表明，FDCA具有卓越的识别能力真簇与仅功能和仅分布算法相比，性能与基于模型的聚类算法相似。

关键词：聚合层次聚类、功能、分布、空间、非参数

2020年数学学科分类：62P30、62H11、62H30

1.简介

聚类是一种无监督的学习方法，它最大化对象组之间的相似性度量，以识别具有同质特征的簇[35,41]. 异构数据集在确定有价值的见解方面面临着各种挑战，并需要能够适应多种约束（空间、时间和网络）的定制聚类算法。这种探索性方法的传统方法包括分层[39]和分区（例如。k个-手段[29]高斯混合模型等）技术。层次方法（例如聚合过程）生成一组簇，其中较小的簇嵌套在较大的簇中，树状图说明了层次聚类框架生成的簇的排列。另一方面，k个-means是一个分区过程，它将对象分配给预先指定数量的集群。

为了对时空数据集进行聚类，已经开发了许多聚类方法。聚类方法的发展受到不同特征的推动，例如生成数据的来源（静态来源（例如，道路网络中固定位置的传感器）与动态来源（例如特定汽车在网络中记录的行程对应的轨迹）以及功能模型的选择。对层次聚类算法进行了修改，以纳入不同的约束并生成空间上相邻的聚类。确定时空数据相似性概念的距离度量的几个定义包括使用自适应Ward链接[7,8]，用于平滑观测数据的基函数系数[16]并通过多元空间数据相关结构的核估计[15]. 分层聚类算法也已与其他模型结合使用，作为一个两阶段过程，以更好地结合空间和时间约束（例如贝叶斯时空模型[1,23]和克里格插值[6]). 还开发了其他经典聚类算法来识别曲线模式形状的差异[11]，以利用不同的功能特性[9,21,22]或检测网络特定位置的时间模式[10].

动态簇（例如，通过测量轨迹对之间的相似性形成的簇）对应于空间的划分及其随时间的演化，相关的簇方法寻求同时适应时间和空间的变化。方法包括修改的DBSCAN[2]扩展核密度估计方法[4,40]和最近邻方法[31]. 最近，一种自适应动态时间扭曲方法[26]引入自适应惩罚函数来计算轨迹之间的距离（例如，监测选定个体的移动行为和交通模式）。最近提出了一种基于深度学习的卷积自动编码器（CAE）神经网络的无监督学习方法，用于计算（更稳健的）轨迹相似性[28].

本文在层次凝聚聚类框架中开发了一种新的函数分布算法，用于识别图网络中空间相邻的簇，并适应每个顶点的时间特征。这种时空数据的空间聚类方法是由静态数据源生成的数据特别驱动的。这种非参数聚类方法通过网格式图形网络生成的簇是根据曲线的性质和形状而不是在不同顶点的单个时间观测值来区分的。据我们所知，在层次聚类框架中，一种功能性和分布式的算法以前从未被引入。这个同步框架能够对复杂的依赖关系进行充分建模，而现有方法无法满足这一要求。此外，通过使用层次聚类框架，该方法保留了其相关优势（例如易于解释和很少假设）。

本文中的示例来自交通建模，我们假设城市道路网络由连接相关交叉口的交叉口和路段组成。在我们的分析中，我们假设传感器在网络中的排列方式可以定义邻域结构，或者更准确地说，可以定义邻接矩阵。更正式地说，我们假设，传感器网络可以表示为无向图，传感器是连接相邻传感器的顶点和边。占用率是指道路上某个位置被车辆占用的时间百分比，以及描述每个路口和时间单位的拥堵情况的占用率度量。由路段直接连接的交叉口被视为相邻，我们的目标是识别具有类似交通模式的相邻区域。例如，图1显示了单个交叉口在传入链路上聚合的占用率观测值的分布。该图代表了聚集占用率数据的双峰分布，其中占用率水平在0%到100%之间。一段时间内占用率水平的连续跳跃将因无法适应占用率水平分布且仅包括汇总值的聚类方法而丢失。相反，距离度量通过考虑为适应时间模式而定义的函数来合并多模态分布。

保存图片、插图等的外部文件。对象名称为CJAS_A_2001443_F0001_OB.jpg

在单独的窗口中打开

图1。

在六个小时内记录单个交叉口的双模特性占用率测量值。

论文的其余部分组织如下。章节2提出了函数分布聚类算法，描述了选择最佳聚类数的方法，以及确定的聚类与给定的“真”聚类集之间的聚类相似性度量。本文描述的功能分布式聚类算法可在R包中实现FdiClust俱乐部.¹章节三介绍了该算法在加利福尼亚州旧金山市中心2.5平方英里网络区域的精确微型模拟机生成的预定义数据中的应用。模拟研究通过比较成对簇之间的相似性来评估算法的性能。在章节中4，我们说明了该算法在相同流量网络和持续时间的真实数据中的应用，但不了解底层的“真实”簇。最后，第节5总结了该算法并强调了其优缺点。

2.功能分布聚类模型

本节分两个阶段进行，以开发拟议的聚类方法，该方法识别网络中空间上相邻的簇，并结合记录观测的时间模式。第一阶段使用层次凝聚聚类算法，生成一系列集群配置。聚类算法建立在距离度量的基础上，该距离度量是使用每个簇的估计条件累积分布函数（CDF）定义的，并使用根据单个观测值而非聚合观测值计算的函数确定。在第二阶段，我们使用明确定义的标准来确定最优聚类数量，并生成网络的不同划分结构。我们还描述了聚类相似性的度量，以检查已识别聚类的准确性。

2.1. 层次凝聚聚类算法

让 $G公司 = (V（V）, E类)$ 是一个无向图，其中V（V）是一组顶点和E类是连接相邻顶点的边的集合。假设 $V（V） = {{v（v）}_{1}, \dots, {v（v）}_{N个}}$ 图的邻接矩阵G公司是一个正方形矩阵 $W公司$ 带有元素 ${W公司}_{我 j} = 1$ 如果 ${{v（v）}_{我}, {v（v）}_{j}} \in E类$ （即，如果顶点之间存在边 ${v（v）}_{我}$ 和 ${v（v）}_{j}$ )和 ${W公司}_{我 j} = 0$ 否则。让观察顶点j时间 ${t吨}_{我}$ 用表示 $x_{我 j}$ ，其中 $我 = 1, \dots, n个$ 和 $j = 1, \dots, N个$ 和表1描述了记录的观察结果。例如，有时 ${t吨}_{1}, \dots, {t吨}_{n个}$ ，顶点处的观测值j = 1被记录为 $x_{11}, x_{21}, \dots, x_{n个 1}$ 和在顶点j = N个记录为 $x_{1 N个}, \dots x_{n个 N个}$ .

表1。

观察结果的表示 $x_{我 j}$ 随时间记录 ${t吨}_{我} = {t吨}_{1} \dots {t吨}_{n个}$ 对于 $j = 1 \dots N个$ 顶点。

我	1	2	三	…	n个
次( ${t吨}_{我}$ )	${t吨}_{1}$	${t吨}_{2}$	${t吨}_{三}$	…	${t吨}_{n个}$
顶点(j = 1)	$x_{11}$	$x_{21}$	$x_{31}$	…	$x_{n个 1}$
⋮	⋮	⋮	⋮	⋮	⋮
顶点(j = N个)	$x_{1 N个}$	$x_{2 N个}$	$x_{三 N个}$	…	$x_{n个 N个}$

在单独的窗口中打开

与顶点相关的观测的概率密度函数（PDF）j由定义，

{\hat{（f）}}^{(j)} (x_{0}) = \frac{1}{n个 {小时}_{x}} \sum_{我 = 1}^{n个} ϕ (\frac{x_{我 j} - x_{0}}{{小时}_{x}}),

而估计的条件概率密度函数（PDF）被定义为[17,19,27],

{\hat{（f）}}_{{t吨}_{我}}^{(j)} (x_{0}) = \frac{1}{{小时}_{x}} \sum_{我 = 1}^{n个} ϕ (\frac{x_{我 j} - x_{0}}{{小时}_{x}}) {w个}_{{t吨}_{0}} ({t吨}_{我}),

(1)

哪里

{w个}_{{t吨}_{0}} ({t吨}_{我}) = \frac{ϕ (\frac{{t吨}_{0} - {t吨}_{我}}{{小时}_{t吨}})}{\sum_{η = 1}^{n个} ϕ (\frac{{t吨}_{η} - {t吨}_{我}}{{小时}_{t吨}})},

$ϕ (.)$ 是标准正常PDF， ${小时}_{t吨}$ 是为时间和 ${小时}_{x}$ 是与记录的观测值相对应的带宽。让一组簇 ${C类}_{我 = 1}$ 最初由 ${C类}_{1} = {{C类}_{1}, \dots, {C类}_{k个}} = {{1}, {2}, \dots, {N个}}$ ，其中每个簇由单个顶点组成。在算法的后续级别，集群被合并，最终形成一个由所有N个网络中的顶点。簇的条件概率密度函数C类根据相关顶点的观测值确定，定义为，

{\hat{（f）}}_{{t吨}_{我}}^{(C类)} (x_{0}) = \frac{1}{| C类 |} \sum_{j \in C类} {\hat{（f）}}_{{t吨}_{我}}^{(j)} (x_{0}) .

(2)

条件累积分布函数（CDF）的估计量定义为

{\hat{F类}}_{{t吨}_{我}}^{(j)} (x_{0}) = \sum_{我 = 1}^{n个} Φ (\frac{x_{我 j} - x_{0}}{{小时}_{x}}) {w个}_{{t吨}_{0}} ({t吨}_{我}),

(3)

哪里 $Φ (\cdot)$ 是标准正常CDF，并且

{\hat{F类}}_{{t吨}_{我}}^{(C类)} (x_{0}) = \frac{1}{| C类 |} \sum_{j \in C类} {\hat{F类}}_{{t吨}_{我}}^{(j)} (x_{0}) .

(4)

与中的单个值相比，单个观测提供的每个顶点的时间模式信息较少 ${\hat{F类}}_{{t吨}_{我}}^{(j)} (x_{0})$ .一对簇 ${C类}_{1}$ 和 ${C类}_{2}$ 如果它们与为所有其他簇对计算的距离相比具有最低的距离，则被合并。距离d日使用 ${L（左）}_{1}$ 规范，而不是更常用的 ${L（左）}_{2}$ 范数或平方 ${L（左）}_{2}$ 范数和距离d日确定的是高估的条件CDF，而不是单个观测值。让距离d日集群之间 ${C类}_{1}$ 和集群 ${C类}_{2}$ 时间 ${t吨}_{我}$ 定义为两个CDF之间的区域，即。

d日 ({\hat{F类}}_{{t吨}_{我}}^{({C类}_{1})} (\cdot), {\hat{F类}}_{{t吨}_{我}}^{({C类}_{2})} (\cdot)) = \int | {\hat{F类}}_{{t吨}_{我}}^{({C类}_{1})} (x_{0}) - {\hat{F类}}_{{t吨}_{我}}^{({C类}_{2})} (x_{0}) | d日 x_{0} \approx Δ \sum_{秒 = 1}^{S公司} | {\hat{F类}}_{{t吨}_{我}}^{({C类}_{1})} (ξ_{秒}) - {\hat{F类}}_{{t吨}_{我}}^{({C类}_{2})} (ξ_{秒}) |

(5)

对于规则网格 $ξ_{1}, \dots, ξ_{S公司}$ 具有 $ξ_{秒 + 1} - ξ_{秒} = Δ$ .

因此，让D类是距离矩阵，其中簇之间的距离 ${C类}_{1}$ 和 ${C类}_{2}$ 矩阵中定义为上述距离随时间的总和 ${t吨}_{1}$ , …, ${t吨}_{n个}$ ,

{D类}_{{C类}_{1}, {C类}_{2}} = {\begin{cases} \sum_{我 = 1}^{n个} d日 ({\hat{F类}}_{{t吨}_{我}}^{({C类}_{1})} (\cdot), {\hat{F类}}_{{t吨}_{我}}^{({C类}_{2})} (\cdot)), & 如果 {C类}_{1} \sim {C类}_{2}, \\ \infty, & 否则, \end{cases}

(6)

哪里 ${C类}_{1} \sim {C类}_{2}$ 指示仅当簇中任意两个顶点之间存在边时，计算簇之间的距离才可行。此条件有助于在簇的形成中加强空间连续性，并且在每次迭代时合并两个簇，以便它们对应于最小的计算距离d日.集群对应的CDF ${C类}_{1}$ 和 ${C类}_{2}$ 也合并为，

{\hat{F类}}_{{t吨}_{我}}^{({C类}_{1} \cup {C类}_{2})} (x_{0}) = \frac{| {C类}_{1} |}{| {C类}_{1} | + | {C类}_{2} |} {\hat{F类}}_{{t吨}_{我}}^{({C类}_{1})} (x_{0}) + \frac{| {C类}_{1} |}{| {C类}_{1} | + | {C类}_{2} |} {\hat{F类}}_{{t吨}_{我}}^{({C类}_{2})} (x_{0}) .

(7)

然后使用更新的CDF计算距离d日在随后的每次迭代中，这个过程都会继续，直到获得包含网络中每个顶点的单个较大簇。在层次聚类方法中，每次迭代都会进行分区，以确定非重叠的聚类。

保存图片、插图等的外部文件。对象名称为CJAS_A_2001443_ILG0001.jpg

2.2. 带宽选择

本节介绍如何选择平滑参数或带宽来估计条件PDF ${\hat{（f）}}_{{t吨}_{我}}^{(j)} (x_{0})$ 在方程式中定义(1). 数据驱动的方法，如交叉验证[三,18,37]选择与预期损失函数的最小值相对应的带宽，并避免任意选择可能导致欠平滑或过平滑的带宽。我们使用扩展的交叉验证方法[14]选择最佳带宽 ${小时}_{x}$ 和 ${小时}_{t吨}$ 并表示集群的估计条件PDFC类取决于带宽 ${\hat{（f）}}_{{t吨}_{我}}^{(C类) 小时} (x_{0})$ 积分平方误差（ISE）定义为，

\begin{aligned} ISE公司 & = \frac{1}{| {C类}_{我} |} \sum_{C类 \in {C类}_{我}} (\frac{1}{n个} \sum_{我 = 1}^{n个} \int {{\hat{（f）}}_{{t吨}_{我}}^{(C类) 小时} (x_{0}) - {（f）}_{{t吨}_{我}}^{(C类)} (x_{0})}^{2} d日 x_{0}) \\ = \frac{1}{| {C类}_{我} |} \sum_{C类 \in {C类}_{我}} (\frac{1}{n个} \sum_{我 = 1}^{n个} \int {\hat{（f）}}_{{t吨}_{我}}^{(C类) 小时} (x_{0})^{2} d日 x_{0} - \frac{2}{n个} \sum_{我 = 1}^{n个} \int {\hat{（f）}}_{{t吨}_{我}}^{(C类) 小时} (x_{0}) {（f）}_{{t吨}_{我}}^{(C类)} (x_{0}) d日 x_{0} \\ + \frac{1}{n个} \sum_{我 = 1}^{n个} \int {（f）}_{{t吨}_{我}}^{(C类)} (x_{0})^{2} d日 x_{0}) . \end{aligned}

(8)

最后一项与带宽无关小时因此，在带宽选择过程中可以忽略。ISE的合理估计值为：，

C类 V（V） (小时) = \frac{1}{| {C类}_{我} |} \sum_{C类 \in {C类}_{我}} (\frac{1}{n个} \sum_{我 = 1}^{n个} \int {\hat{（f）}}_{{t吨}_{我}}^{(C类) 小时} (x_{0})^{2} d日 x_{0} - \frac{2}{n个 | C类 |} \sum_{我 = 1}^{n个} \sum_{j \in C类} {\hat{（f）}}_{{t吨}_{我}, - 我 j}^{(C类) 小时} (x_{我 j})) .

(9)

最佳带宽参数对应于最小交叉验证误差 $\hat{小时} = {参数最小值}_{{小时}^{*}} C类 V（V） ({小时}^{*})$ .实际上，初步估计 ${小时}_{x} = 10$ 用于确定最佳带宽，即。 ${小时}_{x}$ 和 ${小时}_{t吨}$ 通过网格搜索。有人可能会争辩说，对于集群结构中的每次更新，都应该重新调整带宽；然而，为了减少计算量，我们只在算法开始时确定最佳带宽。算法接近尾声时，集群会大大增加，可能会有进一步减小带宽的空间。我们发现，在整个算法中使用相同的带宽通常会给出类似的聚类。

2.3. 最佳簇数

聚类中的一个主要挑战是确定最佳聚类数。在分层聚类算法中，用于确定聚类的参数的分配通常依赖于“真实”聚类的数量，而“真实”的聚类可能不一定可用或容易定义。确定“真实”聚类数的聚类验证方法包括CH指数[5]，邓恩指数[13]，戴维斯-伯丁指数[12]和Silhouette索引[36]这些方法试图识别紧密且分隔良好的簇，对于较小的指数值，簇被认为更加明显。与其他方法相比，Davies-Bouldin指数的计算时间复杂度远低于Silhouette方法[32]. 或者间隙统计[38]将观察数据中的簇内误差与为来自适当的空引用分布的数据计算的簇内错误进行比较，并消除了计算验证分数的需要。然而，在间隙统计方法中需要引导样本，这导致该方法在计算簇数时计算成本较高且效率低下。

我们修改了聚类平衡准则[24]这是一种类似于Davies-Bouldin指数的方法，用于以计算效率高的方式比较较大数据集的簇间距离和簇内距离。让聚合的CDF覆盖集群中的所有传感器C类定义为 ${F类}_{{t吨}_{我}}^{(C类)} (\cdot) = \frac{1}{| C类 |} \sum_{j \in C类} {F类}_{{t吨}_{我}}^{(j)} (\cdot)$ 使用这个定义，让 $Λ = \sum_{C类 \in {C类}_{我}} \sum_{j \in C类} d日 ({F类}_{{t吨}_{我}}^{(j)} (\cdot), {F类}_{{t吨}_{我}}^{(C类)} (\cdot))$ 是为所有k个已识别的簇 ${C类}_{我}$ 。簇间距离和由定义 $Γ = \sum_{C类 \in {C类}_{我}} d日 ({F类}_{{t吨}_{我}}^{(C类)} (\cdot), {F类}_{{t吨}_{我}}^{({C类}_{0})} (\cdot))$ ，其中 ${F类}_{{t吨}_{我}}^{({C类}_{0})} (\cdot) = \frac{1}{| {C类}_{我} |} \sum_{C类 \in {C类}_{我}} {F类}_{{t吨}_{我}}^{(C类)} (\cdot)$ 在凝聚层次聚类框架内，对于单粒子簇，簇内和∧的距离为零，当网络中的所有传感器都属于单个簇时，该值最大化。另一方面，当所有传感器都属于单个簇时，簇间和Γ最小，当每个传感器都是单个簇时最大。因此，集群平衡定义为 $ϵ = α Λ + (1 - α) Γ$ ，其中重量α和 $1 - α$ 分配给∧和Γ。在示例中，我们使用了α值为0.5。

上面描述的层次聚类算法产生了一系列嵌套分区。然后，我们保留分区，以最小化对聚类平衡准则的上述修改，该准则被视为具有最佳簇数。

2.4. 聚类相似性度量

最佳簇数通过使用构建的簇层次结构确定每个簇中的对象。这组定义的簇及其元素将与外部条件进行比较，例如预定义的簇结构或已知的标签集。让网络中的一组顶点定义为 $J型 = {1, 2, 三, \dots N个}$ 和 $U型$ 和 $V（V）$ 是两个分区 $J型$ ，其中 $U型 = {{U型}_{1}, \dots, {U型}_{u个}}$ 定义为u个真实集群和 $V（V） = {{V（V）}_{1}, \dots, {V（V）}_{v（v）}}$ 表示由以下内容组成的聚类结果v（v）集群。让一是中顶点对的数量 $J型$ 位于同一集群中的 $U型$ 和内部相同的集群 $V（V）$ ,b条是中的顶点对数 $J型$ 位于中同一集群中的 $U型$ 但不是同一个集群 $V（V）$ ,c（c）是中的顶点对数 $J型$ 中不在同一集群中的 $U型$ 但在同一集群中 $V（V）$ 、和d日是中的顶点对数 $J型$ 都在不同的集群中 $U型$ 和 $V（V）$ 。可以使用一种称为兰德指数（RI）[34]. 然后，兰德指数定义为

RI公司 = \frac{一 + d日}{一 + b条 + c（c） + d日},

(10)

哪里一+d日指开发算法的聚类输出与给定真理之间的协议数量一 + b条 + c（c） + d日包括协议和分歧。RI的值介于0和1之间，其中0表示很少同意，1表示强烈同意。然而，两个随机分区的RI的期望值不一定是常量，随着簇数的增加，RI接近单位的上限。

RI的修改版本由引入[20]解释RI方法中的问题，称为调整后的兰德指数（ARI）。通常，较大的ARI表示两个分区之间的一致性较高，ARI的最大值为1，但也可以取负值。通常建议使用该指数来衡量任意两个聚类结果之间的一致性，即使聚类数不同[30]并使用以下公式进行计算：

\frac{(一 + b条 + c（c） + d日) (一 + d日) - [(一 + b条) (一 + c（c）) + (c（c） + d日) (b条 + d日)]}{(一 + b条 + c（c） + d日)^{2} - [(一 + b条) (一 + c（c）) + (c（c） + d日) (b条 + d日)]} .

(11)

3.模拟占用数据

在本节中，作为网络排列的传感器组对应于城市道路网络中的交叉口，其中相邻的交叉口由路段连接。城市道路网络构成了一个网络，它可以表示为一个无向图，以交叉点为顶点，以连接相关交叉点的路段为边。

3.1. 数据

我们模拟了加利福尼亚州旧金山市中心2.5平方英里网络区域的入住率数据，包括 $N个 =$ 158个结点和316个链路，以反映由同质集群组成的异构网络。R版本3.4.2中生成了相关占用率数据[33]使用时空精度矩阵定义网络中的三个不同簇，其中每个簇内 ${C类}_{我}$ ，给定的状态空间模型生成零个和一个与定义的占用级别对应的值。我们假设城市道路网中的每个交叉口最多有四条连接到相邻交叉口的连接线。网络中交叉口之间的路段数量有限，导致稀疏的空间精度矩阵被建模为一种条件自回归（CAR）模型[25]. 时间精度结构被定义为一阶自回归模型（AR-1），每个交叉口的占用观测值在6小时（21600秒）内以60秒的采样率进行记录。

图2显示了模拟的占用率数据，以表示不同的集群。集群A以紫色显示的占用率值（20–50%）通常较低，连续观测之间的跳跃变化随时间而减少。为集群C绘制的黄色值（40–100%）由较高和较低的值组成，随着时间的推移，连续观测值之间的差异略有减少。集群B的绿色占用率值（70–100%）在前三个小时通常较高，在接下来的三个小时内变化较大（50–90%）。

保存图片、插图等的外部文件。对象名称为CJAS_A_2001443_F0002_OC.jpg

在单独的窗口中打开

图2。

针对三个不同集群生成的占用率测量值。

3.2. 结果

第节中介绍的拟议算法2.1应用于第节所述的城市网络内生成的模拟占用率观测3.1在凝聚聚类框架中，每个连接最初被视为一个单体。条件CDF ${F类}_{{t吨}_{我}}^{(C类)} (x_{0})$ 对于群集C类通过360个观测值的样本进行估计，其中带宽 ${小时}_{x} = 10$ （占用率以%计）和 ${小时}_{t吨} = 6$ 使用第节中描述的扩展交叉验证方法选择（以秒为单位的时间）2.2。为每个簇估计条件CDF，并将其存储在算法的单个迭代之外，以提高所提算法的计算效率。距离d日使用公式在相邻簇之间计算(5)和(6)在算法的每次迭代中，对应于最小距离合并各个簇。当所有连接都属于一个更大的簇，并且我们从层次聚类算法中获得了一系列合并的簇时，此过程停止。

图三显示了由三种不同的群集算法场景和定义的“真”群集标识的具有群集的网络。图中的这些“真实”集群图3（a）三（a）对应于图中的模拟占用率数据图2。2.图图3（b）三（b）显示距离测量使用时标识的簇(1)和(三)仅随时间观察而无功能ϕ和Φ。集群C与集群B没有区别仅分配算法无法确定“真”簇。特别是，该算法无法识别由连续在高值和低值之间跳跃的占用观测值组成的簇C。图图3（c）三（c）描述了由仅用于功能算法，其中方程式(三)使用随时间聚合的观测值确定。在图中图3（c），三（c），所识别的聚类反映了与图中所识别的聚类相比，算法区分聚类c和聚类B的能力减弱图3（d）。三（d） ●●●●。图中的集群网络图3（d）三（d）显示的结果功能分布聚类计算的算法 ${F类}_{{t吨}_{我}}^{(C类)} (x_{0})$ 使用中的所有组件(三). 该算法具有功能性和分布性，因为距离测量值是使用随时间记录的占用率观测值的条件CDF计算的。函数分布算法确定的簇几乎等同于图中显示的三个“真实”簇图3（a）。三（a） ●●●●。这表明，当每个簇对应于不同的占用观测分布时，函数分布算法能够恢复真正的空间相邻簇。

保存图片、插图等的外部文件。对象名称为CJAS_A_2001443_F0003_OC.jpg

在单独的窗口中打开

图3。

FDCA应用于网络中六小时内模拟的数据。（a）模拟真相。（b）仅分发。（c）仅功能性和（d）功能性和分布性。

网络中的最佳簇数是使用常用的间隙统计和第节中定义的簇平衡标准确定的2.3对于每个聚类算法，针对从网络具有十个聚类时到所有传感器属于单个聚类时的场景的场景，计算间隙统计和聚类平衡标准。图4（a，b）针对函数分布聚类算法确定的结果，显示聚类平衡准则和与相应聚类数相对应的差距统计。聚类平衡标准选择 $k个 = 三$ 对于α=0.5，对于较高和较低的值α.间隙统计选择最小值k个这样Gap(k个)≥间隙(k个 + 1) – $秒_{k个 + 1}$ 这个规则也决定了 $k个 = 三$ 然而，确定差距统计的引导样本的计算成本很高，我们使用聚类平衡标准来确定章节中的最佳聚类数3.3和4.

保存图片、插图等的外部文件。对象名称为CJAS_A_2001443_F0004_OC.jpg

在单独的窗口中打开

图4。

确定最佳簇数的方法。（a）聚类平衡准则和（b）差距统计。

将功能和分布式集群算法识别的集群与图中显示的“真实”集群进行比较图3（a），三（a），我们计算第节中讨论的调整后兰德指数2.4.ARI表示一组集群之间的一致性 $V（V）$ 这是由函数分布聚类算法和一组“真”聚类确定的 $U型$ 等于0.93。同样， $V（V）$ 由纯功能算法确定，三个集群的ARI为0.68 $V（V）$ 由仅分布算法确定的两个已识别聚类的ARI为0.57。仅功能算法无法正确识别属于B类的所有连接，而仅分布算法只能识别三个不同簇中的两个。

图5显示了占用率观测值的三维密度图，该密度图与图中的函数分布算法识别的集群相对应图3（d）。三（d） ●●●●。这些图描述了每个集群100个占用率观测值（值介于0%和100%之间）、6小时（21600 s）的时间段（采样率为60秒）和带宽等于15%的高斯核密度估计值（相关集群内的过度占用率观测）之间的关系。该带宽值可以在簇内的曲线之间进行有意义的比较；较低的值会导致“chopper”密度曲线，从而抑制识别差异的能力。

保存图片、插图等的外部文件。对象名称为CJAS_A_2001443_F0005_OC.jpg

在单独的窗口中打开

图5。

使用函数分布聚类算法确定不同簇的三维密度图。

在图中图5，5，集群A的子图表示密度水平在0.015到0.025之间的观测值，但集中在10%到40%之间的较低占用水平。在六个小时内，密度值也在稳步增加。集群B的子图显示了密度水平达到约0.020且占用率水平集中在30%至75%之间的观察结果。该子图还反映了图中集群B的入住率数据集中图3（d）三（d）在最初的几个小时内，浓度趋于较高水平，而在随后的半个时间段内，浓度降低则反映出较低的密度。集群C的子图表示整个观察时间段内不同的密度和占用水平。这对应于图中集群C中确定的变化图3（d）三（d）并反映了聚类方法的能力，以充分表示曲线形状的差异和占用值随时间的扩展，如图所示图22.

3.3. 模拟研究

本节对所提出的函数分布聚类算法进行了定量分析，以验证第节中的聚类结果3.2用于各种数据集。为此，我们模拟了第节中描述的数据集3.1用种子从1到100来评估开发的算法识别簇的能力。将确定的集群结构与图中描述的“真实”集群数量进行比较图3（a）。三（a） ●●●●。对于给定的种子，使用定义的聚类平衡准则确定最佳簇数。在选定的集群数量上，ARI测量其与“真实”集群数量的一致性。我们对所有仿真结果的ARI进行平均，并对函数分配算法、函数唯一算法和分配唯一算法进行了比较。所有三种算法的ARI平均值和相应的标准误差如表所示2此外，还描述了不同算法确定的最佳聚类数的第25个分位数、中位数和第75个分位数。

表2。

针对函数分布式聚类算法、仅函数算法和仅分布算法，使用不同种子聚合了100多个模拟结果。

	急性呼吸道感染		集群数量
算法	平均值	东南方	第25季度	第50季度	第75季度
功能分布	0.85	0.174	三	三	4
仅用于功能	0.69	0.176	2	三	三
仅分配	0.59	0.070	2	2	2

在单独的窗口中打开

函数分布算法生成的簇与定义的“真”簇相当相似，如聚合ARI值（等于0.85）所示。仅函数算法的平均ARI较低，相当于0.69，而仅分布聚类算法难以识别ARI相当于0.59的三个聚类。这反映在较低的ARI和建议的两个最佳集群上。

在表中三将核密度估计的有效性与b样条基函数的系数和主成分得分进行了比较。这两个修改都更接近于仅功能和仅分布框架的性能，而不是函数分布聚类算法的优越性能。这些模拟有助于突出功能分布框架内改进的核密度估计的有效性。一种最近开发的基于模型的聚类方法[9]也用于表中的比较三并被称为在R中实现的STM模型，称为SpaTimeClus。STM混合模型（具有三个混合成分）适用于模拟网络。每个单独成分（混合模型内）是一个基于空间和时间维度的逻辑加权自回归多项式回归。然后在最大似然框架内使用期望最大化算法估计参数。如表所示三在层次结构框架内，函数分布聚类算法的性能与STM方法非常相似。

表3。

针对函数分布聚类算法和SpaTimeClus方法的变化，使用不同种子聚合了100多个模拟结果。

	急性呼吸道感染		集群数量
算法	平均值	东南方	第25季度	第50季度	第75季度
B样条基系数	0.63	0.143	2	2	2
主成分得分	0.58	0.258	三	4	8
SpaTimeClus俱乐部	0.87	0.128	三	三	三

在单独的窗口中打开

4.应用

4.1. 占用率数据

为了说明函数分布算法，我们将开发的聚类方法应用于为加利福尼亚州旧金山市中心2.5平方英里网络区域生成的占用率数据。城市道路网的高分辨率时空数据在开放数据源中不可用，因此我们使用AIMSUN微观交通模拟器模拟相关的始发地交通需求场景。对这些场景进行了模拟，以大致代表三个不同的集群。在6小时（21600秒）内记录了120个观测值，采样率为180s，我们试图确定反映网络拥堵扩散的占用率水平差异。由于前两个小时内的数据仅限于网络上非常低的占用率，因此将函数分布算法应用于上午10点到下午2点（14400 s）之间记录的80个占用率观测值。

4.1.1. 结果

在所描述的数据集中，网络中“真实”集群数量的底层结构不可用，并且对分区结构进行假设具有挑战性。函数分布算法使用等式中指定的距离度量来实现(6)使用第节中描述的扩展交叉验证方法计算带宽2.2。选择的带宽 ${小时}_{x}$ 和 ${小时}_{t吨}$ 相当于15（占用率，%）和7.5（时间，秒），条件函数是在80个占用率观测值的样本上估计的。聚类平衡准则提出了函数和分布算法、仅函数算法和仅分布算法的最优聚类数。在图中6（c）函数分布聚类算法将网络划分为九个簇，其中包含三个主簇（绿色、紫色和橙色）。这与图图6（a，b），6（a，b），其中，聚类平衡标准建议仅用于分布式聚类算法的单个较大簇，以及仅用于功能性聚类算法的主要较大簇和几个较小簇。

保存图片、插图等的外部文件。对象名称为CJAS_A_2001443_F0006_OC.jpg

在单独的窗口中打开

图6。

使用四个小时的微观数据对结果进行聚类。（a）仅分发。（b）仅功能和（c）功能和分配。

图7显示由函数分布聚类算法确定的簇的相应密度分布。在单个集群的子图中，在四小时（1400秒）内的规定时间点（间隔30分钟）显示相关占用率观测值的高斯密度曲线（带宽等于15%）。该带宽值使密度曲线能够保留每条曲线中的差异，并允许在簇之间进行比较。个别曲线还描述了全天入住率的集中度及其在0%和100%之间的对应值。与橙色和紫色星团的子图相比，绿色星团的三维子图中的曲线密度级别更高。绿色集群的子图还显示了四小时内占用率集中度和占用率范围的变化。黄色聚类的子图中可以看到类似的变化，但更为明显。紫色集群的入住率集中在中午较高的值。另一方面，橙色集群的占用值在较低和较高的值上更加集中，并且在四小时内密度值的分布变化较小。第三行的子图显示了密度曲线和占用水平的变化，对应于网络下部较小的不同集群。

保存图片、插图等的外部文件。对象名称为CJAS_A_2001443_F0007_OC.jpg

在单独的窗口中打开

图7。

图中确定的簇的三维图图66（c） ●●●●。

5.讨论

本文提出了一种在凝聚层次框架内的函数分布聚类算法，用于识别连通网格式图网络中的空间连续聚类。该算法试图识别异构网络中的同质区域，以便单个簇反映对应于顶点的差异。在给定的网络中，这些簇通过网络对应不同的时间模式。在这种聚类方法的框架内，该算法是功能性的，以便使用累积分布函数和分布来定义距离度量，以说明可用数据中存在的时间模式，而不是在相关数据上进行聚合。在这种提出的非参数方法中，条件CDF被确定并存储在算法的单个迭代之外，以提高较大数据集的计算效率。仿真研究表明，与仅功能、仅分布算法相比，功能分布式聚类算法在识别“真实”聚类方面具有优越的能力，并且性能与更复杂（即更多假设）的基于模型的时空数据聚类方法类似。然而，该算法是在凝聚的层次聚类框架内构建的，并继承了相关的缺点。例如，在算法的每次迭代中确定的簇依赖于前面步骤中构造的结构，并且无法撤消。该算法生成簇的层次结构，然后使用定义明确的方法（例如间隙统计）确定簇的最佳数量。一般来说，凝聚层次聚类方法更适合于小型图形网络上的数据集；计算大量集群对的距离可能会耗费大量的计算成本。此外，该方法识别仅适应时间模式的空间相邻簇。在未来的工作中，我们试图扩展功能分布式聚类算法，使其能够识别随时间变化的簇（即动态簇）。

资金筹措表

KA和PT感谢英国经济和社会研究委员会（ESRC）的支持（批准号：ES/S007105/1，ES/L011921/1）。

注释

¹ https://github.com/AshwiniKV/FdiClust网站

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Adin A.、Lee D.、Goicoa T.和Ugarte M.D。，在存在局部不连续性和集群的情况下估计空间和时空疾病风险的两阶段方法,统计方法。医学研究。 28（2019年），第2595-2613页。[公共医学][谷歌学者]

2Birant D.和Kut A。，ST-DBSCAN：一种时空数据聚类算法,数据知识。工程师。 60（2007），第208-221页。[谷歌学者]

三。鲍曼·A.W。，密度估计平滑的交叉验证替代方法,生物计量学 71（1984），第353–360页。[谷歌学者]

4Brunsdon C.、Corcoran J.和Higgs G。，犯罪模式中空间和时间的可视化：方法比较,计算。环境。城市系统。 31（2007），第52-75页。[谷歌学者]

5.Caliánski T.和Harabasz J。，聚类分析的枝晶方法,通信统计。理论方法三（1974年），第1-27页。[谷歌学者]

6曹荣、李斌、王姿、彭志瑞、陶诗、娄诗。，使用分布式空气传感器网络研究PM2.5浓度的时空分布模式,环境。波卢特。 264（2020），文章ID 114549。[公共医学][谷歌学者]

7卡瓦略·A.X.Y.、阿尔伯克基·P.H.M.、阿尔梅达青年总经理和吉马拉斯·R.D。，空间层次聚类,布拉斯牧师。生物。 27（2009），第411-442页。[谷歌学者]

8Chavent M.、Kuentz-Simonet V.、Labenne A.和Saracco J。，Clustgeo：一个具有空间约束的层次聚类R包,计算。斯达。 33（2018），第1799–1822页。[谷歌学者]

9.Cheam A.、Marbac M.和McNicholas P。，基于模型的空气质量时空数据聚类,环境计量学 28（2017），文章ID e2437。[谷歌学者]

10Chiou J.M.和Li P.L。，功能聚类和识别纵向数据的子结构,J.R.统计社会服务。B（统计方法） 69（2007），第679-699页。[谷歌学者]

11Chiou J.M.和Li P.L。，基于子空间投影的相关函数聚类,美国统计协会。 103（2008），第1684–1692页。[谷歌学者]

12Davies D.L.和Bouldin D.W。，集群分离措施,IEEE传输。模式分析。机器。因特尔。 2（1979年），第224-227页。[公共医学][谷歌学者]

13邓恩J.C。，ISODATA过程的模糊关系及其在检测紧密分离簇中的应用,J.网络。三（1973），第32-57页。[谷歌学者]

14Fan J.和Yim T.H。，估计条件密度的交叉验证方法,生物计量学 91（2004），第819-834页。[谷歌学者]

15Fouedjio F。，多元地质统计数据的层次聚类方法,小争吵。斯达。 18（2016），第333–351页。[谷歌学者]

16Giraldo R.、Delicado P.和Mateu J。，空间相关功能数据的层次聚类,内尔统计局。 66（2012），第403-421页。[谷歌学者]

17Hall P.、Racine J.和Li Q。，交叉验证与条件概率密度估计,美国统计协会。 99（2004），第1015-1026页。[谷歌学者]

18Hart J.D.和Vieu P。，基于相关数据的密度估计的数据驱动带宽选择,安。统计师。 18（1990年），第873-890页。[谷歌学者]

19Harvey A.和Oryshchenko V。，时间序列数据的核密度估计,国际期刊预测。 28（2012），第3-14页。[谷歌学者]

20Hubert L.和Arabie P。，比较分区,J.分类。 2（1985），第193-218页。[谷歌学者]

21Ignacolo R.、Ghigo S.和Giovenali E。，基于功能聚类的空气质量监测网络分析,环境计量学 19（2008），第672-686页。[谷歌学者]

22James G.M.和Sugar C.A。，稀疏采样函数数据的聚类,美国统计协会。 98（2003），第397–408页。[谷歌学者]

23Jaya I.G.N.M.和Folmer H。，通过聚集层次聚类和具有时空变化系数的贝叶斯回归分析确定时空聚类：方法学及其在印尼万隆登革热疾病中的应用,地理。分析。53（2021年），第767-817页。[谷歌学者]

24Jung Y.、Park H.、Du D.Z.和Drake B.L。，层次聚类中最优聚类数的一个决策准则,J.全球优化。 25（2003），第91–111页。[谷歌学者]

25Leroux B.G.、Lei X.和Breslow N。，小区域疾病率估计：一种新的空间相关性混合模型，M.Elizabeth Halloran和Donald Berry编辑。，流行病学、环境和临床试验中的统计模型斯普林格出版社，2000年，第179-191页。https://link.springer.com/book网站/ 10.1007/978-1-4612-1284-3. [交叉参考]

26李宏、刘杰、杨姿、刘瑞伟、吴凯、万毅。，用于时间序列分类和聚类的自适应约束动态时间扭曲,信息科学。 534（2020年），第97-116页。[谷歌学者]

27李强和拉辛J.S。，分类和连续混合数据条件cdf和分位数函数的非参数估计,J.总线。经济学。斯达。 26（2008），第423-434页。[谷歌学者]

28.梁明、刘瑞伟、李S.、肖泽、刘欣、陆飞。，一种基于卷积自动编码器的无监督学习方法用于船舶轨迹相似性计算,海洋工程。 225（2021），文章编号108803。[谷歌学者]

29麦奎因J。，等。,多元观测数据的分类和分析方法，英寸第五届伯克利数理统计与概率研讨会论文集，第1卷。美国加利福尼亚州奥克兰，1967年，第281-297页。

30Milligan G.W.和Cooper M.C。，层次聚类分析外部标准的可比性研究,多元行为。物件。 21（1986），第441-458页。[公共医学][谷歌学者]

31裴涛、周川、朱安祥、李斌、秦川。，噪声环境下时空聚类的窗口最近邻挖掘方法,国际地质杂志。信息科学。 24（2010），第925-948页。[谷歌学者]

32彼得罗维奇S。，Silhouette指数和Davies-Bouldin指数在IDS聚类标记中的比较，英寸第十一届北欧安全IT系统研讨会会议记录，2006年，第53–64页。

33R核心团队，R：统计计算语言与环境，R统计计算基金会，奥地利维也纳。网址：https://www.R-project.org.

34兰德·W·M·。，聚类方法评价的客观标准,美国统计协会。 66（1971年），第846-850页。[谷歌学者]

35罗德里格斯M.Z.、Comin C.H.、Casanova D.、Bruno O.M.、Amancio D.R.、Costa L.D.F.和罗德里格斯F.A。，聚类算法：比较方法,公共图书馆 14（2019），文章编号e0210236。[PMC免费文章][公共医学][谷歌学者]

36卢梭P.J。，轮廓：用于解释和验证聚类分析的图形辅助工具,J.计算。申请。数学。 20（1987），第53-65页。[谷歌学者]

37Rudemo M。，直方图和核密度估计的经验选择,扫描。J.统计。 9（1982），第65-78页。[谷歌学者]

38Tibshirani R.、Walther G.和Hastie T。，通过间隙统计估计数据集中的簇数,J.R.统计社会服务。B（统计方法） 63（2001），第411-423页。[谷歌学者]

39小沃德·J.H。，分层分组以优化目标函数,美国统计协会。 58（1963年），第236–244页。[谷歌学者]

40魏奇、谢杰、张S、马杰。，利用个人gps轨迹探索美食曝光：北京大都市区的案例研究,国际环境杂志。公共资源。健康 15（2018），第405页。[PMC免费文章][公共医学][谷歌学者]

41徐德、田毅。，聚类算法综述,数据科学年鉴。 2（2015），第165-193页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯