2.1. 层次凝聚聚类算法
让是一个无向图,其中V(V)是一组顶点和E类是连接相邻顶点的边的集合。假设图的邻接矩阵G公司是一个正方形矩阵带有元素如果(即,如果顶点之间存在边和)和否则。让观察顶点j时间用表示,其中和和表描述了记录的观察结果。例如,有时,顶点处的观测值j = 1被记录为和在顶点j = N个记录为.
表1。
观察结果的表示随时间记录对于顶点。
我 | 1 | 2 | 三 | … | n个 |
---|
次() |
|
|
| … |
|
---|
顶点(j = 1) |
|
|
| … |
|
⋮ | ⋮ | ⋮ | ⋮ | ⋮ | ⋮ |
顶点(j = N个) |
|
|
| … |
|
与顶点相关的观测的概率密度函数(PDF)j由定义,
而估计的条件概率密度函数(PDF)被定义为[17,19,27],
哪里
是标准正常PDF,是为时间和是与记录的观测值相对应的带宽。让一组簇最初由,其中每个簇由单个顶点组成。在算法的后续级别,集群被合并,最终形成一个由所有N个网络中的顶点。簇的条件概率密度函数C类根据相关顶点的观测值确定,定义为,
条件累积分布函数(CDF)的估计量定义为
哪里是标准正常CDF,并且
与中的单个值相比,单个观测提供的每个顶点的时间模式信息较少.一对簇和如果它们与为所有其他簇对计算的距离相比具有最低的距离,则被合并。距离d日使用规范,而不是更常用的范数或平方范数和距离d日确定的是高估的条件CDF,而不是单个观测值。让距离d日集群之间和集群时间定义为两个CDF之间的区域,即。
对于规则网格具有.
因此,让D类是距离矩阵,其中簇之间的距离和矩阵中定义为上述距离随时间的总和, …,,
哪里指示仅当簇中任意两个顶点之间存在边时,计算簇之间的距离才可行。此条件有助于在簇的形成中加强空间连续性,并且在每次迭代时合并两个簇,以便它们对应于最小的计算距离d日.集群对应的CDF和也合并为,
然后使用更新的CDF计算距离d日在随后的每次迭代中,这个过程都会继续,直到获得包含网络中每个顶点的单个较大簇。在层次聚类方法中,每次迭代都会进行分区,以确定非重叠的聚类。
2.2. 带宽选择
本节介绍如何选择平滑参数或带宽来估计条件PDF在方程式中定义(1). 数据驱动的方法,如交叉验证[三,18,37]选择与预期损失函数的最小值相对应的带宽,并避免任意选择可能导致欠平滑或过平滑的带宽。我们使用扩展的交叉验证方法[14]选择最佳带宽和并表示集群的估计条件PDFC类取决于带宽积分平方误差(ISE)定义为,
最后一项与带宽无关小时因此,在带宽选择过程中可以忽略。ISE的合理估计值为:,
最佳带宽参数对应于最小交叉验证误差.实际上,初步估计用于确定最佳带宽,即。和通过网格搜索。有人可能会争辩说,对于集群结构中的每次更新,都应该重新调整带宽;然而,为了减少计算量,我们只在算法开始时确定最佳带宽。算法接近尾声时,集群会大大增加,可能会有进一步减小带宽的空间。我们发现,在整个算法中使用相同的带宽通常会给出类似的聚类。
2.3. 最佳簇数
聚类中的一个主要挑战是确定最佳聚类数。在分层聚类算法中,用于确定聚类的参数的分配通常依赖于“真实”聚类的数量,而“真实”的聚类可能不一定可用或容易定义。确定“真实”聚类数的聚类验证方法包括CH指数[5],邓恩指数[13],戴维斯-伯丁指数[12]和Silhouette索引[36]这些方法试图识别紧密且分隔良好的簇,对于较小的指数值,簇被认为更加明显。与其他方法相比,Davies-Bouldin指数的计算时间复杂度远低于Silhouette方法[32]. 或者间隙统计[38]将观察数据中的簇内误差与为来自适当的空引用分布的数据计算的簇内错误进行比较,并消除了计算验证分数的需要。然而,在间隙统计方法中需要引导样本,这导致该方法在计算簇数时计算成本较高且效率低下。
我们修改了聚类平衡准则[24]这是一种类似于Davies-Bouldin指数的方法,用于以计算效率高的方式比较较大数据集的簇间距离和簇内距离。让聚合的CDF覆盖集群中的所有传感器C类定义为使用这个定义,让是为所有k个已识别的簇。簇间距离和由定义,其中在凝聚层次聚类框架内,对于单粒子簇,簇内和∧的距离为零,当网络中的所有传感器都属于单个簇时,该值最大化。另一方面,当所有传感器都属于单个簇时,簇间和Γ最小,当每个传感器都是单个簇时最大。因此,集群平衡定义为,其中重量α和分配给∧和Γ。在示例中,我们使用了α值为0.5。
上面描述的层次聚类算法产生了一系列嵌套分区。然后,我们保留分区,以最小化对聚类平衡准则的上述修改,该准则被视为具有最佳簇数。
2.4. 聚类相似性度量
最佳簇数通过使用构建的簇层次结构确定每个簇中的对象。这组定义的簇及其元素将与外部条件进行比较,例如预定义的簇结构或已知的标签集。让网络中的一组顶点定义为和和是两个分区,其中定义为u个真实集群和表示由以下内容组成的聚类结果v(v)集群。让一是中顶点对的数量位于同一集群中的和内部相同的集群,b条是中的顶点对数位于中同一集群中的但不是同一个集群,c(c)是中的顶点对数中不在同一集群中的但在同一集群中、和d日是中的顶点对数都在不同的集群中和。可以使用一种称为兰德指数(RI)[34]. 然后,兰德指数定义为
哪里一+d日指开发算法的聚类输出与给定真理之间的协议数量一 + b条 + c(c) + d日包括协议和分歧。RI的值介于0和1之间,其中0表示很少同意,1表示强烈同意。然而,两个随机分区的RI的期望值不一定是常量,随着簇数的增加,RI接近单位的上限。
RI的修改版本由引入[20]解释RI方法中的问题,称为调整后的兰德指数(ARI)。通常,较大的ARI表示两个分区之间的一致性较高,ARI的最大值为1,但也可以取负值。通常建议使用该指数来衡量任意两个聚类结果之间的一致性,即使聚类数不同[30]并使用以下公式进行计算: