<trans data-src="Functional Clustering and Identifying Substructures of Longitudinal Data">纵向数据的功能聚类与子结构识别

比较聚类方法的模拟设计

设计的平均函数	以下设计的特征空间：
设计的平均函数	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类₁,𝒮⁽²⁾=E类₂
μ⁽¹⁾=μ⁽²⁾=米₀		C1a：λ⁽¹⁾=λ⁽²⁾=θ₂
		第1b条：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂
μ⁽¹⁾+2=μ⁽²⁾=米₀	C2a：λ⁽¹⁾=λ⁽²⁾=10θ₂	C2b：λ⁽¹⁾=λ⁽²⁾=10θ₂
μ⁽¹⁾=米₁,μ⁽²⁾=米₂	C3a：λ⁽¹⁾=λ⁽²⁾=θ₁	C3b：λ⁽¹⁾=λ⁽²⁾=θ₁
μ⁽¹⁾=−μ⁽²⁾=√2φ₁₁	C4a：λ⁽¹⁾=λ⁽²⁾=10θ₁	C4b类：λ⁽¹⁾=λ⁽²⁾=10θ₂

设计的平均函数	以下设计的特征空间：
设计的平均函数	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类₁,𝒮⁽²⁾=E类₂
μ⁽¹⁾=μ⁽²⁾=米₀		C1a：λ⁽¹⁾=λ⁽²⁾=θ₂
		第1b条：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂
μ⁽¹⁾+2=μ⁽²⁾=米₀	C2a：λ⁽¹⁾=λ⁽²⁾=10θ₂	C2b类：λ⁽¹⁾=λ⁽²⁾=10θ₂
μ⁽¹⁾=米₁,μ⁽²⁾=米₂	C3a：λ⁽¹⁾=λ⁽²⁾=θ₁	C3b：λ⁽¹⁾=λ⁽²⁾=θ₁
μ⁽¹⁾=−μ⁽²⁾=√2φ₁₁	C4a：λ⁽¹⁾=λ⁽²⁾=10θ₁	C4b类：λ⁽¹⁾=λ⁽²⁾=10θ₂

表1

比较聚类方法的模拟设计

设计的平均函数	以下设计的特征空间：
设计的平均函数	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类₁,𝒮⁽²⁾=E类₂
μ⁽¹⁾=μ⁽²⁾=米₀		C1a：λ⁽¹⁾=λ⁽²⁾=θ₂
		第1b条：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂
μ⁽¹⁾+2=μ⁽²⁾=米₀	C2a：λ⁽¹⁾=λ⁽²⁾=10θ₂	C2b类：λ⁽¹⁾=λ⁽²⁾=10θ₂
μ⁽¹⁾=米₁,μ⁽²⁾=米₂	C3a：λ⁽¹⁾=λ⁽²⁾=θ₁	C3b：λ⁽¹⁾=λ⁽²⁾=θ₁
μ⁽¹⁾=−μ⁽²⁾=√2φ₁₁	C4a：λ⁽¹⁾=λ⁽²⁾=10θ₁	C4b类：λ⁽¹⁾=λ⁽²⁾=10θ₂

设计的平均函数	以下设计的特征空间：
设计的平均函数	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类₁,𝒮⁽²⁾=E类₂
μ⁽¹⁾=μ⁽²⁾=米₀		C1a：λ⁽¹⁾=λ⁽²⁾=θ₂
		第1b条：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂
μ⁽¹⁾+2=μ⁽²⁾=米₀	C2a：λ⁽¹⁾=λ⁽²⁾=10θ₂	C2b类：λ⁽¹⁾=λ⁽²⁾=10θ₂
μ⁽¹⁾=米₁,μ⁽²⁾=米₂	C3a：λ⁽¹⁾=λ⁽²⁾=θ₁	C3b：λ⁽¹⁾=λ⁽²⁾=θ₁
μ⁽¹⁾=−μ⁽²⁾=√2φ₁₁	C4a：λ⁽¹⁾=λ⁽²⁾=10θ₁	C4b类：λ⁽¹⁾=λ⁽²⁾=10θ₂

我们注意到，设计C1a和C1b的平均函数与条件（C3）中的相同，设计C2a和C3a的簇特征空间与条件（C2）中的一样，设计C4b具有与条件（C4）中属于特征空间的相反符号的相同平均函数。值得注意的是，设计C4a属于满足条件（C2）和（C3）的不可识别情况。将以下方法应用于这些合成数据集以进行模拟比较：FPCA，k-指FPC得分的聚类；kCFC、k-提议的中心FC方法；FCM公司_一和FCM_bJames and Sugar的FC模型FCM(2003)，包括具有后验概率（FCM）的方法_一)和低维曲线投影（FCM_b); 碾压混凝土₀和碾压混凝土_0.1García-Escudero和Gordaliza的稳健曲线聚类(2005)具有修剪尺寸α=0.0和α分别=0.1。对于RCC方法_0.1根据90%的未修剪曲线计算聚类质量。FPCA方法用作中的初始聚类步骤k-中心FC。在FCM和RCC方法中，我们使用具有五个等距节点的自然三次样条。我们注意到，选择3–10节都会导致类似的结果。

表2现在将仿真结果总结为n个₁=n个₂=50,米=20和各种测量误差σ²集群质量结果基于每个仿真设计的100次复制。符号 $\bar{M（M）}$ 是的平均数M（M）（8），选择用于FPCA方法中边际FPC得分的维度，以及 ${\bar{M（M）}}_{c（c）}$ 是的平均数M（M）_c（c）（11）在的最后一次迭代中c（c）=1,2，在中选择k-中心FC。在大多数模拟中，收敛发生在四到五次迭代之后，但有些情况下需要多达10次迭代。这些结果表明了k-在大多数情况下，在可识别性条件下，FC方法优于其他方法，而FCM和RCC方法的表现优于k-将FC集中在设计C4a中，设计用于不可识别条件。当两个簇结构处于不可识别的情况下时，属于这些簇的曲线将随机分配给任一簇，因为这两个簇的结构都能很好地拟合曲线。我们注意到，FCM和RCC方法分别在设计C2a和C3a中表现最佳，而k-中心足球俱乐部在这两种情况下都表现第二好。在这两种情况下，两个星团的本征空间是相同的，而k-与FCM和RCC方法相比，FC中心仍然提供了一种具有竞争力的方法，这种方法持续有效。

表2

表1中模型设计的集群质量仿真结果

索引	以下方法的结果：
	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
C1a公司(σ²=0.25)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 1.9, 1.8)$
a兰德	0.001	0.258	0.001	0.001	0	−0.001
机箱	0.540	0.715	0.540	0.540	0.540	0.536
C1b类(σ²=0.25)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.007	0.421	0.004	0.004	0.002	0.002
机箱	0.550	0.793	0.547	0.545	0.542	0.546
C2a公司(σ²=1.0)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.261	0.643	0.680	0.686	0.311	0.317
机箱	0.755	0.882	0.891	0.894	0.775	0.777
C2b类(σ²=1.0)	$(\bar{M（M）} = 2.1)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.392	0.854	0.367	0.386	0.287	0.441
机箱	0.809	0.960	0.796	0.804	0.741	0.822
C3a公司(σ²=0.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.129	0.737	0.338	0.341	0.851	0.872
机箱	0.674	0.905	0.745	0.747	0.961	0.967
C3b型(σ²=0.5)	$(\bar{M（M）} = 2.3)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.187	0.931	0.512	0.515	0.844	0.857
机箱	0.712	0.976	0.824	0.825	0.959	0.963
C4a公司(σ²=2.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.352	0.018	0.325	0.335	0.293	0.315
机箱	0.797	0.570	0.785	0.789	0.768	0.777
C4b型(σ²=2.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.425	0.684	0.335	0.358	0.303	0.350
机箱	0.825	0.913	0.785	0.795	0.756	0.782

索引	以下方法的结果：
	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
C1a公司(σ²=0.25)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 1.9, 1.8)$
a兰德	0.001	0.258	0.001	0.001	0	−0.001
机箱	0.540	0.715	0.540	0.540	0.540	0.536
C1b类(σ²=0.25)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.007	0.421	0.004	0.004	0.002	0.002
机箱	0.550	0.793	0.547	0.545	0.542	0.546
C2a公司(σ²=1.0)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.261	0.643	0.680	0.686	0.311	0.317
机箱	0.755	0.882	0.891	0.894	0.775	0.777
C2b类(σ²=1.0)	$(\bar{M（M）} = 2.1)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
aRand公司	0.392	0.854	0.367	0.386	0.287	0.441
机箱	0.809	0.960	0.796	0.804	0.741	0.822
C3a公司(σ²=0.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.129	0.737	0.338	0.341	0.851	0.872
机箱	0.674	0.905	0.745	0.747	0.961	0.967
C3b型(σ²=0.5)	$(\bar{M（M）} = 2.3)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.187	0.931	0.512	0.515	0.844	0.857
机箱	0.712	0.976	0.824	0.825	0.959	0.963
C4a公司(σ²=2.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.352	0.018	0.325	0.335	0.293	0.315
机箱	0.797	0.570	0.785	0.789	0.768	0.777
C4b型(σ²=2.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.425	0.684	0.335	0.358	0.303	0.350
机箱	0.825	0.913	0.785	0.795	0.756	0.782

表2

表1中模型设计的集群质量仿真结果

索引	以下方法的结果：
	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
C1a型(σ²=0.25)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 1.9, 1.8)$
a兰德	0.001	0.258	0.001	0.001	0	−0.001
机箱	0.540	0.715	0.540	0.540	0.540	0.536
C1b级(σ²=0.25)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.007	0.421	0.004	0.004	0.002	0.002
机箱	0.550	0.793	0.547	0.545	0.542	0.546
C2a公司(σ²=1.0)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.261	0.643	0.680	0.686	0.311	0.317
机箱	0.755	0.882	0.891	0.894	0.775	0.777
C2b类(σ²=1.0)	$(\bar{M（M）} = 2.1)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.392	0.854	0.367	0.386	0.287	0.441
机箱	0.809	0.960	0.796	0.804	0.741	0.822
C3a公司(σ²=0.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.129	0.737	0.338	0.341	0.851	0.872
机箱	0.674	0.905	0.745	0.747	0.961	0.967
C3b型(σ²=0.5)	$(\bar{M（M）} = 2.3)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.187	0.931	0.512	0.515	0.844	0.857
机箱	0.712	0.976	0.824	0.825	0.959	0.963
C4a公司(σ²=2.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.352	0.018	0.325	0.335	0.293	0.315
机箱	0.797	0.570	0.785	0.789	0.768	0.777
C4b型(σ²=2.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.425	0.684	0.335	0.358	0.303	0.350
机箱	0.825	0.913	0.785	0.795	0.756	0.782

索引	以下方法的结果：
	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
C1a公司(σ²=0.25)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 1.9, 1.8)$
a兰德	0.001	0.258	0.001	0.001	0	−0.001
机箱	0.540	0.715	0.540	0.540	0.540	0.536
C1b类(σ²=0.25)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.007	0.421	0.004	0.004	0.002	0.002
机箱	0.550	0.793	0.547	0.545	0.542	0.546
C2a公司(σ²=1.0)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.261	0.643	0.680	0.686	0.311	0.317
机箱	0.755	0.882	0.891	0.894	0.775	0.777
C2b类(σ²=1.0)	$(\bar{M（M）} = 2.1)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.392	0.854	0.367	0.386	0.287	0.441
机箱	0.809	0.960	0.796	0.804	0.741	0.822
C3a公司(σ²=0.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.129	0.737	0.338	0.341	0.851	0.872
机箱	0.674	0.905	0.745	0.747	0.961	0.967
C3b型(σ²=0.5)	$(\bar{M（M）} = 2.3)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.187	0.931	0.512	0.515	0.844	0.857
机箱	0.712	0.976	0.824	0.825	0.959	0.963
C4a公司(σ²=2.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.352	0.018	0.325	0.335	0.293	0.315
机箱	0.797	0.570	0.785	0.789	0.768	0.777
C4b型(σ²=2.5)	$(\bar{M（M）} = 2)$	$({\bar{M（M）}}_{c（c）} = 2, 2)$
a兰德	0.425	0.684	0.335	0.358	0.303	0.350
机箱	0.825	0.913	0.785	0.795	0.756	0.782

5.数据应用

5.1. 增长曲线数据

伯克利增长研究的增长曲线数据（Tuddenham和Snyder，1954)用作比较各种聚类结果的示例。在这项研究中，54名女孩和39名男孩在1至18岁的31个阶段测量了身高。我们的目标是按增长模式进行聚类，以确定聚类结果是否反映了性别差异。

对仿真研究中的方法进行了聚类质量比较。对于FPCA方法，前两个FPC得分(M（M）=2）用于聚类，其中第一个分量解释80.3%，第二个分量解释13.8%的总方差。图。1显示了男孩和女孩的生长曲线，以及前两个FPC分数与真实性别指标的配对散点图。可以看出，前两个FPC分数大致反映了性别群体，中间有几个分数。在k-中心FC，M（M）₁=1和M（M）₂=1根据标准（11）选择τ_D类=0.2（对于两个簇）。表三表示k-中心FC在区分性别组方面优于其他方法，而RCC方法在本例中是一个竞争对手。

（a）男孩（---）和女孩（––）的生长曲线，以及（b）从k中心FC程序获得的前两个FPC分数的散点图，具有真实的性别指示（•，男孩；，女孩）

图1

（a）男孩（---）和女孩（––）的生长曲线和（b）根据k-中心FC程序，具有真实的性别指示（•，男孩； $◯$ ⁠，女孩）

表3

增长曲线数据的聚类质量

索引	以下方法的结果：
索引	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
a兰德	0.0872	0.7560	0.1485	0.1666	0.7186	0.7316
机箱	0.6559	0.9355	0.6989	0.7097	0.9247	0.9286

索引	以下方法的结果：
索引	FPCA公司	千立方英尺	FCM公司_一	流式细胞仪_b	碾压混凝土₀	碾压混凝土_0.1
a兰德	0.0872	0.7560	0.1485	0.1666	0.7186	0.7316
机箱	0.6559	0.9355	0.6989	0.7097	0.9247	0.9286

表3

增长曲线数据的聚类质量

索引	以下方法的结果：
索引	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
a兰德	0.0872	0.7560	0.1485	0.1666	0.7186	0.7316
机箱	0.6559	0.9355	0.6989	0.7097	0.9247	0.9286

索引	以下方法的结果：
索引	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
a兰德	0.0872	0.7560	0.1485	0.1666	0.7186	0.7316
机箱	0.6559	0.9355	0.6989	0.7097	0.9247	0.9286

我们通过跨越协方差的均值和本征函数进一步研究每个簇的结构。图。2显示了两个簇的估计平均和特征函数。两组的平均功能在13岁之前非常接近；然后，集群2（雌性组）的增长趋势减缓，而集群1（雄性组）的增加趋势仍然很明显。对于第一本征函数，对于簇1，峰值出现在大约14岁，对于簇2，峰值出现在大约12岁。这个k-中心FC程序确定了具有最高集群质量的性别群体，集群结构合理地反映了增长模式中的性别差异。

（a）使用k-centers FC程序估算生长曲线数据的平均值（---，簇1；––，簇2）和（b），（c）前两个特征函数：（b）第一个特征函数（--，簇1（88.2%）；–，簇2（90.9%）；（c）第二特征函数（---，簇1（4.8%）；––，集群2（4.1%）

图2

（a）通过使用k-中心FC程序：（b）第一特征函数（——，簇1（88.2%）；————，簇2（90.9%）；（c）第二特征函数（---，簇1（4.8%）；––，集群2（4.1%））

5.2. 生命周期基因表达谱数据

这个果蝇属生命周期基因表达谱数据（Arbeitman等。,2002)用作第二个示例。这项研究记录了一项涉及4028个基因的互补DNA微阵列实验中从受精到衰老成年人的数据。这些基因已根据其生物学功能进行了鉴定和分类，并辅以各种聚类方法。我们使用部分数据进行聚类分析，包括21个瞬时早期合子基因、23个肌肉特异性基因和33个眼睛特异性基因。我们分析该基因表达谱数据，并将聚类结果与之前确定的类别进行比较，作为外部标准。

在本分析中，我们使用胚胎期（30个时间点）、幼虫期（10个时间点”）和蛹期（18个时间点“）的前58个连续时间点进行聚类。这58个时间点以10天不等的间隔记录，由于早期胚胎的快速变化，前30个时间点在前24小时取样。Liu和Müller研究了这些数据中基因表达轨迹的时间扭曲问题(2003). 在本研究中，我们将所有记录时间视为等距的时间单位，以表征FC的表达谱模式。由于基因表达轨迹可能包含测量误差，因此通过高斯收缩估计获得FPC分数。对于初始k-中心FC，前两个FPC得分(M（M）=2），其中前两个FPC解释了总变化的95.4%。图中显示的成对散点图。三表示三个簇。在k-提议的中心FC方法，M（M）₁,M（M）₂和M（M）_三都被选为1，根据标准（11）τ_D类=0.2. 在本图中k-选择中心FC和方法FCM和RCC中的节点数，以最大限度地提高集群质量，其中选择小带宽1.0，方法FCM的节点数38，方法RCC的节点数7。

基因表达谱数据的k中心FC程序的前两个FPC得分散点图：瞬时早期合子基因；◯, 肌肉；*，眼睛

图3

前两个FPC得分的散点图k-中心FC程序的基因表达谱数据：，瞬时早期合子基因； $◯$ ⁠，肌肉；*，眼睛

生成簇的轨迹k-图中显示了中心FC。4图中显示了与三个簇相对应的平均值和前两个特征函数。5，显示了三个集群之间截然不同的模式。我们注意到，标记为1、2和3的簇分别对应于肌肉特异性、眼睛特异性和暂时性早期合子基因。表4与三类生物分类的外部标准相比，给出了聚类质量。总的来说k-对于这些基因表达谱数据，中心FC获得了与之前确定的类别最接近的分组结果。值得注意的是，使用三类生物分类的外部聚类标准并不一定意味着这些是“真正的”聚类。然而，结果表明k-中心FC确实确定了合理的集群。

通过使用k中心FC程序对基因表达谱进行聚类，对应于眼睛和肌肉特异性和暂时性早期合子基因：（a）簇1；（b）集群2；（c）集群3

图4

通过使用k-中心FC程序，对应眼睛和肌肉特异性和暂时性早期合子基因：（a）簇1；（b）集群2；（c）集群3

（a）使用基因表达谱数据的k中心FC程序估计平均值（---，簇1；---，簇2；---，集群3）和（b），（c）前两个特征函数：（b）第一个特征函数（---，集群1（78.0%）；---，集群2（50.6%）；---，簇3（67.6%）；（c）第二特征函数（---，簇1（9.6%）；---，集群2（1.7%）；---，集群3（1.4%）

图5

（a）使用k-基因表达谱数据的中心FC程序：（b）第一特征函数（---，簇1（78.0%）；---，集群2（50.6%）；---，簇3（67.6%）；（c）第二特征函数（---，簇1（9.6%）；---，集群2（1.7%）；---，集群3（1.4%）

表4

基因表达谱数据的聚类质量

索引	以下方法的结果：
索引	FPCA公司	千立方英尺	FCM公司_一	流式细胞仪_b	碾压混凝土₀	碾压混凝土_0.1
a兰德	0.9183	0.9176	0.7377	0.7059	0.8415	0.8681
机箱	0.9740	0.9740	0.9091	0.8961	0.9481	0.9571

索引	以下方法的结果：
索引	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
a兰德	0.9183	0.9176	0.7377	0.7059	0.8415	0.8681
机箱	0.9740	0.9740	0.9091	0.8961	0.9481	0.9571

表4

基因表达谱数据的聚类质量

索引	以下方法的结果：
索引	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
a兰德	0.9183	0.9176	0.7377	0.7059	0.8415	0.8681
机箱	0.9740	0.9740	0.9091	0.8961	0.9481	0.9571

索引	以下方法的结果：
索引	FPCA公司	千立方英尺	FCM公司_一	FCM公司_b	碾压混凝土₀	碾压混凝土_0.1
a兰德	0.9183	0.9176	0.7377	0.7059	0.8415	0.8681
机箱	0.9740	0.9740	0.9091	0.8961	0.9481	0.9571

6.讨论和总结

这个k-提出的中心FC计算量大，特别是对于在迭代更新步骤中实现保留一条曲线的过程。对于这个案例n个=100和米在模拟中=20，k-基于带有奔腾4 3.2 GHz中央处理器单元的个人计算机，固定带宽的中心FC平均每模拟数据集执行四次迭代大约需要3分钟。计算时间受聚类数量、每个聚类的曲线、每个曲线的观测值、算法迭代和带宽选择方法的影响。增长曲线数据示例(n个=93和米=31）处理只需7秒，因为不需要平滑，因为观察到的曲线本身看起来很平滑。处理基因表达谱数据的三次迭代大约需要15分钟(n个=77和米=58). 大多数计算时间是由于通过二维平滑进行聚类协方差估计而产生的。对于大量曲线，簇结构受单个曲线和方程中预测曲线的影响较小(9)如果偏差对于大样本是可以忽略的，则可以在没有保留一条曲线的情况下实施。这可以大大节省大量计算时间。

我们开发了一种新的基于函数预测的FC算法，该算法通过重新分类和预测簇成员身份，同时考虑了簇之间变化差异的平均值和模式。虽然我²-预测曲线和观测曲线之间的距离可以结合条件概率使用（6），也可以根据数据的特征和目标或聚类兴趣使用其他距离度量。初始集群结果很重要，因为它们可能会影响集群质量和中的迭代次数k-中心FC。如果首字母k-centers FC距离其最佳分区很远，因此即使经过多次迭代更新步骤，也可能很难恢复正确的集群结构。这可能是集群算法中的一个常见问题。我们的计算表明k-意味着边际FPC分数的聚类提供了一个自然合理的起点，但其他方法也可以作为替代方法。敏感性k-中心FC到初始集群需要进一步调查。

这个k-提出的中心FC方法依赖于用于随机曲线展开的一致估计的聚类均值和协方差函数。与随机变化相比，当簇中曲线的数量相对较少时，或者当观测曲线中的测量误差占主导地位时，簇平均值和协方差函数可能无法一致估计。在这种情况下，即使在可识别条件下，k-与其他不需要大样本量来获得一致估计值的方法相比，中心FC可能表现不佳。此外，对于引理1和定理1（第三)明显地取决于具有正确簇成员关系的观测曲线。在实践中，由于聚类成员的错误分类，这些估计的额外偏差可能导致聚类质量下降。利用基于估计簇的观测值估计簇中心的问题与聚类算法的收敛性和由此估计的簇中心的一致性有关。在多变量中也会出现类似的情况k-估计聚类样本均值时表示聚类，但在k-由于收敛的复杂性以及估计聚类平均值和特征函数的速度比简单的多元样本平均值慢，中心FC。波拉德(1981)很好地建立了经典聚类均值集的几乎必然收敛性k-表示有限维多元数据的聚类。所开发的技术和结果可应用于任何k-表示具有“所有闭合球都是紧的度量空间”的聚类方法类型，如Pollard所示(1981)（第140页）。然而k-具有无限维功能数据的中心FC不适合此范围。在确定集群中心的一致性属性时，需要进一步提高技术性k-中心FC，即簇平均值和特征函数，低于估计的簇。

在本文中，我们假设簇的数量是已知的或预先确定的。在实践中，我们可以通过选择一组簇数并观察结果是否产生物理意义来启发式地确定簇的数量。然而，作为未来的研究方向，仍然需要一种正式和系统的方法来确定簇的数量。最后，该定理中导出的可辨识条件可以通过统计假设检验进行实际检验。这可以通过使用重采样方案的引导测试来实现。由于测试方法不是本文的重点，因此建议的引导测试在附录C，包括一个小型模拟研究。数值结果表明，所提出的试验在检测这些条件方面相当有效。总的来说，我们认为k-提出的中心FC算法概念简单，易于实现，具有实用价值。

致谢

作者感谢联合主编、副主编和两位裁判，他们的问题和富有洞察力的评论使本文得到了很大的改进和澄清。本研究部分由中央研究院拨款GRC 94B001-1支持。

工具书类

1

亚伯拉罕

,

C、。

,

科尔尼永

,

私人助理。

,

马特兹内·勒伯

,

E.公司。

和

莫里纳里

,

N。

(

2003

)

基于B样条的无监督曲线聚类

.

扫描。J.统计学家。

,

30

,

581

–

595

.

2

阿尔贝特曼

,

M.编号。

,

弗隆

,

电气工程师。

,

伊玛目

,

F、。

,

约翰逊

,

E.公司。

,

无效的

,

B.H.公司。

,

贝克

,

学士学位。

,

克拉斯诺

,

文学硕士。

,

斯科特

,

M.P.公司。

,

戴维斯

,

右侧。

和

白色

,

K.P.公司。

(

2002

)

生命周期中的基因表达黑腹果蝇

.

科学类

,

297

,

2270

–

2275

.

三

灰烬

,

右侧。

(

1972

)

实分析与概率

.伦敦：

学术出版社

.

4

灰烬

,

钢筋混凝土。

和

加德纳

,

M.F.公司。

(

1975

)

随机过程专题

纽约：

学术出版社

.

5

球

,

G.H.公司。

和

霍尔

,

D.J.博士。

(

1967

)

一种用于汇总多元数据的聚类技术

.

行为。科学。

,

12

,

153

–

155

.

6

博克牌手表

,

H.H.公司。

(

1987

)关于聚类分析、主成分分析和多维尺度之间的接口。在

多元统计建模与数据分析

（编辑

H。

波茨多根

和

答：K。

古普塔

)，第页。

17

–

44

多德雷赫特：

雷德尔

.

7

邱

,

J.-M.公司。

,

米勒

,

高-高。

和

王

,

J.-L.公司。

(

2003

)

具有光滑随机效应的函数拟似然回归模型

.

J.R.统计。Soc.B公司

,

65

,

405

–

423

.

8

风扇

,

J。

和

吉贝尔斯

,

一、。

(

1996

)

局部多项式建模及其应用

.伦敦：

查普曼和霍尔

.

9

弗雷利

,

C、。

和

拉夫特里

,

答：E。

(

2002

)

基于模型的聚类、判别分析和密度估计

.

《美国统计杂志》。助理。

,

97

,

611

–

631

.

10

加西亚·埃斯库德罗

,

洛杉矶。

和

戈尔达利萨

,

答：。

(

2005

)

一种稳健曲线聚类的建议

.

J.分类

,

22

,

185

–

201

.

11

霍尔

,

第页。

,

米勒

,

H.G.公司。

和

王

,

J·L·。

(

2006

)

函数和纵向数据分析的主成分方法的特性

.

安。统计师。

,

34

,

1493

–

1517

.

OpenURL占位符文本

12

赫克曼

,

东北。

和

扎马

,

右侧。

(

2000

)

比较回归函数的形状

.

生物特征

,

87

,

135

–

144

.

13

休伯特

,

L。

和

阿拉伯

,

第页。

(

1985

)

比较分区

.

J.分类

,

2

,

193

–

218

.

14

耆那教

,

答：K。

和

迪布

,

钢筋混凝土。

(

1988

)

数据聚类算法

Englewood悬崖：

普伦蒂斯·霍尔

.

15

詹姆斯

,

总经理。

和

糖

,

C.答。

(

2003

)

稀疏采样函数数据的聚类

.

《美国统计杂志》。助理。

,

98

,

397

–

408

.

16

乔利夫

,

信息技术。

(

2002

)

主成分分析

纽约：

施普林格

.

17

冷

,

十、。

和

米勒

,

H.G.公司。

(

2006

)

时序基因表达数据的功能数据分析分类

.

生物信息学

,

22

,

68

–

76

.

18

锂

,

J。

(

2005

)

基于多层混合模型的聚类

.

J.计算。图表。统计师。

,

14

,

547

–

568

.

19

线路接口单元

,

十、。

和

米勒

,

H.G.公司。

(

2003

)

时间扭曲基因表达谱数据的模式和聚类

.

生物信息学

,

19

,

1937

–

1944

.

20

栾

,

年。

和

锂

,

H。

(

2003

)

基于B样条混合效应模型的时程基因表达数据聚类

.

生物信息学

,

19

,

474

–

482

.

21

麦奎因

,

J·B

. (

1967

)多元观测值分类和分析的一些方法。在

程序。第五届伯克利交响乐团。数理统计与概率

，第1卷，pp。

281

–

297

伯克利：

加利福尼亚大学出版社

.

22

波拉德

,

D。

(

1981

)

k-means聚类的强一致性

.

安。统计师。

,

9

,

135

–

140

.

23

兰德

,

W.M.公司。

(

1971

)

评价聚类方法的客观标准

.

《美国统计杂志》。助理。

,

66

,

846

–

850

.

24

雷

,

美国。

和

马利克

,

B。

(

2006

)

贝叶斯小波方法的函数聚类

.

J.R.统计。Soc.B公司

,

68

,

305

–

332

.

25

塞尔邦

,

N。

和

瓦瑟曼

,

L。

(

2005

)

CATS:变换和平滑后的聚类

.

《美国统计杂志》。助理。

,

100

,

990

–

999

.

26

塔尔佩

,

T。

和

Kinateder公司

,

K·K·J。

(

2003

)

聚类功能数据

.

J.分类

,

20

,

93

–

114

.

27

图登厄姆

,

钢筋混凝土。

和

斯奈德

,

M.M.先生。

(

1954

)

加州男孩和女孩从出生到18岁的身体发育

.

加州大学出版社。Chld开发

,

1

,

183

–

364

.

OpenURL占位符文本

28

病房

,

J.H。

(

1963

)

优化目标函数的分层分组

.

《美国统计杂志》。助理。

,

58

,

236

–

244

.

29

威斯特福尔

,

P.H.公司。

和

年轻

,

S.S.公司。

(

1993

)

基于重采样的多重测试：p值调整的示例和方法

纽约：

威利

.

30

姚明

,

F、。

,

米勒

,

H.G.公司。

,

克利福德

,

A.J.公司。

,

迪克尔

,

S.R.公司。

,

福列特

,

J。

,

林

,

年。

,

布赫霍尔茨

,

学士。

和

沃格尔

,

J.S.公司。

(

2003

)

功能主成分得分的收缩估计及其在血浆叶酸总体动力学中的应用

.

生物计量学

,

59

,

676

–

685

.

31

姚明

,

F、。

,

米勒

,

H.G.公司。

和

王

,

J·L·。

(

2005

)

稀疏纵向数据的功能数据分析

.

《美国统计杂志》。助理。

,

100

,

577

–

590

.

32

杨

,

K.年。

,

弗雷利

,

C、。

,

Muruan村

,

答：。

,

拉夫特里

,

答：E。

和

鲁佐

,

重量。

(

2001

)

基于模型的基因表达数据聚类和数据转换

.

生物信息学

,

17

,

977

–

987

.

33

杨

,

K.Y.公司。

和

鲁佐

,

W.L.公司。

(

2001

)

聚类基因表达数据的主成分分析

.

生物信息学

,

17

,

763

–

774

.

附录A：模型组件估算

让{(t吨_伊尔,年_伊尔),我=1,…,n个,我=1,…,米_我}是…的观察结果n个曲线，其中年_伊尔=年_我(t吨_伊尔). FPC模型的估计总结如下。有关更多详细信息，请参阅Chiou等。(2003)和姚明等。(2003).

A.1、。平均函数的估计μ(t吨)

我们只需应用局部线性回归（例如Fan和Gijbels(1996))到的汇总数据n个曲线，

\underset{_{(β_{0}, β_{1})}}{最小值} (\sum_{我, 我} {[年_{我 我} - {β_{0} + β_{1} ({t吨}_{我 我} - t吨)}]}^{2} {K（K）}_{小时} ({t吨}_{我 我} - t吨)),

这样的话 $\hat{μ} (t吨) = {\hat{β}}_{0}$ ⁠，其中

{K（K）}_{小时} (\cdot) = \frac{1}{小时} K（K） (\frac{\cdot}{小时})

是具有带宽的已知内核函数小时.

A.2、。协方差函数Γ的估计(秒,t吨)

该估计基于对原始估计进行局部多项式拟合的二维散点图平滑 $γ_{j个我}^{我}$ ⁠，其中 $γ_{j个我}^{我} = {年_{我 j个} - \hat{μ} ({t吨}_{我 j个})} {年_{我我} - \hat{μ} ({t吨}_{我我})}$ ⁠.考虑到等式中的测量误差(18)，只有原始协方差的非对角元素， $γ_{j个我}^{我}$ 对于j个≠我，输入平滑散点图以拟合局部线性平面，

\underset{_{(β_{0}, β_{1}, β_{2})}}{最小值} (\sum_{我, j个 \neq 我} {[γ_{j个 我}^{我} - {β_{0} + β_{1} ({t吨}_{我 j个} - 秒) + β_{2} ({t吨}_{我 我} - t吨)}]}^{2} {K（K）}_{{小时}_{1}, {小时}_{2}} ({t吨}_{我 j个} - 秒, {t吨}_{我 我} - t吨)),

获得协方差估计 $\hat{Γ} (秒, t吨) = {\hat{β}}_{0}$ ⁠，其中K（K）（·，·）是一个具有带宽的二元非负核函数小时₁和小时₂.给，小时₁和小时₂被选择为对于协方差估计是相同的。有关方差估计的更多详细信息σ²有关测量误差，请参阅Yao等。(2003).

答3。特征函数的估计ρ_j个(t吨)和功能主成分得分ξ_ij公司

通过求解方程获得估计的本征值和本征函数 $\int_{0}^{吨} \hat{Γ} (秒, t吨) {\hat{ρ}}_{j个} (秒) d日秒 = {\hat{λ}}_{j个} {\hat{ρ}}_{j个} (t吨)$ 在约束条件下 $\int_{0}^{吨} {\hat{ρ}}_{j个} (t吨) {\hat{ρ}}_{我} (t吨) d日 t吨 = δ_{j个我}$ ⁠通过离散近似。估计ξ_ij公司可以近似为

{\tilde{ξ}}_{我 j个} = \sum_{j个 = 1}^{米_{我}} {年_{我 我} - \hat{μ} ({t吨}_{我 我})} {\hat{ρ}}_{j个} ({t吨}_{我 我}) Δ_{我 我},

带正交权重Δ_伊尔在存在测量误差的情况下，高斯收缩估计（Yao等。,2003)使用方式如下 ${\hat{ξ}}_{我 j个} = {\hat{λ}}_{j个} {({\hat{λ}}_{j个} + 吨 {\hat{σ}}^{2} / 米_{我})}^{- 1} {\tilde{ξ}}_{我 j个}$ ⁠.

附录B：证明

B.1、。引理2

如果条件（C1）成立，则对于随机曲线Y（Y）_c（c）在里面我²从簇中提取的（𝒯）c（c）

{‖ {\hat{Y（Y）}}_{c（c）}^{(c（c）)} - {\hat{Y（Y）}}_{c（c）}^{(d日)} ‖}^{2} = {‖ {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - {\tilde{Y（Y）}}_{c（c）}^{(d日)} ‖}^{2} + {O（运行）}_{第页} (α_{n个}^{c（c）} + α_{n个}^{d日}),

19

哪里 $α_{n个}^{c（c）} = τ_{n个}^{c（c）} + γ_{n个}^{c（c）}$ 和 $α_{n个}^{d日} = τ_{n个}^{d日} + γ_{n个}^{d日}$ ⁠.

证明。根据的定义 ${\hat{ξ}}_{j个}^{(d日)} ({Y（Y）}_{c（c）})$ ⁠以及在条件（C1）的一致性假设下，

\begin{matrix} {\hat{ξ}}_{j个}^{(d日)} ({Y（Y）}_{c（c）}) & = 〈 {Y（Y）}_{c（c）} - {μ^{(d日)} + {O（运行）}_{第页} (τ_{n个}^{d日})}, ρ_{j个}^{(d日)} + {O（运行）}_{第页} (γ_{n个}^{d日}) 〉 \\ = ξ_{j个}^{(d日)} ({Y（Y）}_{c（c）}) - {O（运行）}_{第页} (τ_{n个}^{d日}) \int ρ_{j个}^{(d日)} (t吨) d日 t吨 + {O（运行）}_{第页} (γ_{n个}^{d日}) \int {{Y（Y）}_{c（c）} (t吨) - μ^{(d日)} (t吨)} d日 t吨 + {O（运行）}_{第页} (τ_{n个}^{d日} γ_{n个}^{d日}) \\ = ξ_{j个}^{(d日)} ({Y（Y）}_{c（c）}) + {O（运行）}_{第页} (α_{n个}^{d日}) . \end{matrix}

因此，对于任何t吨∈ 𝒯,

\begin{matrix} {\hat{Y（Y）}}_{c（c）}^{(d日)} (t吨) & = {\hat{μ}}^{(d日)} (t吨) + \sum_{j个 = 1}^{{M（M）}_{d日}} {\hat{ξ}}_{j个}^{(d日)} ({Y（Y）}_{c（c）}) {\hat{ρ}}_{j个}^{(d日)} (t吨) \\ = μ^{(d日)} (t吨) + {O（运行）}_{第页} (τ_{n个}^{d日}) + \sum_{j个 = 1}^{{M（M）}_{d日}} {ξ_{j个}^{(d日)} ({Y（Y）}_{c（c）}) + {O（运行）}_{第页} (α_{n个}^{d日})} {ρ_{j个}^{(d日)} (t吨) + {O（运行）}_{第页} (γ_{n个}^{d日})} \\ = {\tilde{Y（Y）}}_{c（c）}^{(d日)} (t吨) + {O（运行）}_{第页} (α_{n个}^{d日}) . \end{matrix}

类似地，我们得到 ${\hat{Y（Y）}}_{c（c）}^{(c（c）)} (t吨) = {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} (t吨) + {O（运行）}_{第页} (α_{n个}^{c（c）})$ 对于任何t吨∈𝒯。然后，结果（19）紧随其后。

B.2节。引理1的证明

自 ${Y（Y）}_{c（c）} = {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} + {R（右）}_{c（c）}$ ⁠，我们有 $ξ_{我}^{(d日)} ({Y（Y）}_{c（c）}) = 〈 {Y（Y）}_{c（c）} - μ^{(d日)}, ρ_{我}^{(d日)} 〉 = ξ_{我}^{(d日)} ({\tilde{Y（Y）}}_{c（c）}^{(c（c）)}) + 〈 {R（右）}_{c（c）}, ρ_{我}^{(d日)} 〉$ ⁠.通过更换 ${\tilde{Y（Y）}}_{c（c）}^{(d日)}$ 使用等式(14)并使用表达式 ${\tilde{Y（Y）}}_{c（c）}^{(c（c）)}$ （5），我们获得

\begin{matrix} {‖ {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - {\tilde{Y（Y）}}_{c（c）}^{(d日)} ‖}^{2} & = {‖ {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} - \sum_{我 = 1}^{{M（M）}_{d日}} ξ_{我}^{(d日)} ({Y（Y）}_{c（c）}) ρ_{我}^{(d日)} ‖}^{2} \\ = {‖ {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} ‖}^{2} + {‖ \sum_{我 = 1}^{{M（M）}_{d日}} ξ_{我}^{(d日)} ({Y（Y）}_{c（c）}) ρ_{我}^{(d日)} ‖}^{2} - 2 \sum_{我 = 1}^{{M（M）}_{d日}} ξ_{我}^{(d日)} ({Y（Y）}_{c（c）}) 〈 {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)}, ρ_{我}^{(d日)} 〉 \\ = {‖ {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} ‖}^{2} + \sum_{我 = 1}^{{M（M）}_{d日}} {| ξ_{我}^{(d日)} ({Y（Y）}_{c（c）}) |}^{2} - 2 \sum_{我 = 1}^{{M（M）}_{d日}} {ξ_{我}^{(d日)} ({\tilde{Y（Y）}}_{c（c）}^{(c（c）)}) + 〈 {R（右）}_{c（c）}, ρ_{我}^{(d日)} 〉} ξ_{我}^{(d日)} ({\tilde{Y（Y）}}_{c（c）}^{(c（c）)}) \\ = {‖ {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} ‖}^{2} - \sum_{我 = 1}^{{M（M）}_{d日}} {| ξ_{我}^{(d日)} ({\tilde{Y（Y）}}_{c（c）}^{(c（c）)}) |}^{2} + \sum_{我 = 1}^{{M（M）}_{d日}} {| 〈 {R（右）}_{c（c）}, ρ_{我}^{(d日)} 〉 |}^{2} . \end{matrix}

20

此外，

\begin{matrix} {‖ {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} ‖}^{2} & = {‖ μ^{(c（c）)} - μ^{(d日)} + \sum_{j个 = 1}^{{M（M）}_{c（c）}} ξ_{j个}^{(c（c）)} ({Y（Y）}_{c（c）}) ρ_{j个}^{(c（c）)} ‖}^{2} \\ = {‖ μ^{(c（c）)} - μ^{(d日)} ‖}^{2} + {| \sum_{j个 = 1}^{{M（M）}_{c（c）}} ξ_{j个}^{(c（c）)} ({\tilde{Y（Y）}}_{c（c）}^{(c（c）)}) ρ_{j个}^{(c（c）)} |}^{2} + 2 〈 μ^{(c（c）)} - μ^{(d日)}, \sum_{j个 = 1}^{{M（M）}_{c（c）}} ξ_{j个}^{(c（c）)} ({\tilde{Y（Y）}}_{c（c）}^{(c（c）)}) ρ_{j个}^{(c（c）)} 〉 \\ = {‖ μ^{(c（c）)} - μ^{(d日)} ‖}^{2} + \sum_{j个 = 1}^{{M（M）}_{c（c）}} {| ξ_{j个}^{(c（c）)} ({\tilde{Y（Y）}}_{c（c）}^{(c（c）)}) |}^{2} + 2 \sum_{j个 = 1}^{{M（M）}_{c（c）}} ξ_{j个}^{(c（c）)} ({\tilde{Y（Y）}}_{c（c）}^{(c（c）)}) 〈 μ^{(c（c）)} - μ^{(d日)}, ρ_{j个}^{(c（c）)} 〉 . \end{matrix}

21

通过方程式(20)和(21)和引理2，我们得到方程(16).自

\begin{matrix} \sum_{我 = 1}^{{M（M）}_{d日}} {| 〈 {R（右）}_{c（c）}, ρ_{我}^{(d日)} 〉 |}^{2} & = \sum_{我 = 1}^{{M（M）}_{d日}} {| \sum_{j个 = {M（M）}_{c（c）} + 1}^{\infty} ξ_{j个}^{(c（c）)} ({Y（Y）}_{c（c）}) 〈 ρ_{j个}^{(c（c）)}, ρ_{我}^{(d日)} 〉 |}^{2} \\ = \sum_{我 = 1}^{{M（M）}_{d日}} \sum_{j个, k = {M（M）}_{c（c）} + 1}^{\infty} ξ_{j个}^{(c（c）)} ({Y（Y）}_{c（c）}) ξ_{k}^{(c（c）)} ({Y（Y）}_{c（c）}) 〈 ρ_{j个}^{(c（c）)}, ρ_{我}^{(d日)} 〉 〈 ρ_{k}^{(c（c）)}, ρ_{我}^{(d日)} 〉, \end{matrix}

通过不相关 $ξ_{j个}^{(c（c）)}$ 和 $ξ_{k}^{(c（c）)}$ ⁠以及Cauchy–Schwartz不等式

\sum_{我 = 1}^{{M（M）}_{d日}} E类 ({| 〈 {R（右）}_{c（c）}, ρ_{我}^{(d日)} 〉 |}^{2}) = \sum_{我 = 1}^{{M（M）}_{d日}} \sum_{j个 = {M（M）}_{c（c）} + 1}^{\infty} λ_{j个}^{(c（c）)} {| 〈 ρ_{j个}^{(c（c）)}, ρ_{我}^{(d日)} 〉 |}^{2} ⩽ {M（M）}_{d日} \sum_{j个 = {M（M）}_{c（c）} + 1}^{\infty} λ_{j个}^{(c（c）)}

通过假设收敛到0，这意味着 $\sum_{我 = 1}^{{M（M）}_{d日}} {| 〈 {R（右）}_{c（c）}, ρ_{我}^{(d日)} 〉 |}^{2}$ 概率收敛到0。

B.3。定理1的证明

自 ${ρ_{我}^{(d日)}, 我 ⩾ 1}$ 是簇中FPC子空间的正交基d日根据Parseval的身份（例如Ash(1972)), ${‖ {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} ‖}^{2} = \sum_{我 = 1}^{{M（M）}_{d日}} {| 〈 {\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)}, ρ_{我}^{(d日)} 〉 |}^{2}$ 当且仅当 ${\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} \in {S公司}_{{M（M）}_{d日}}^{(d日)}$ ⁠.观测方程(20)和

{\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} = μ^{(c（c）)} - μ^{(d日)} + \sum_{j个 = 1}^{{M（M）}_{c（c）}} ξ_{j个}^{(c（c）)} ({Y（Y）}_{c（c）}) ρ_{j个}^{(c（c）)},

我们发现了 ${\tilde{Y（Y）}}_{c（c）}^{(c（c）)} - μ^{(d日)} \in {S公司}_{{M（M）}_{d日}}^{(d日)}$ 当且仅当以下条件（C2）和（C3）分别成立时：

（a）
${S公司}_{{M（M）}_{c（c）}}^{(c（c）)} \subseteq {S公司}_{{M（M）}_{d日}}^{(d日)}$ ⁠、和
（b）
$μ^{(c（c）)} - μ^{(d日)} \in {S公司}_{{M（M）}_{d日}}^{(d日)}$ ⁠，即μ^(c（c）)=μ^(d日)或两者兼而有之μ^(c（c）)和μ^(d日)在中 ${S公司}_{{M（M）}_{d日}}^{(d日)}$ ⁠.

通过引理1，结果（17）紧随其后。

附录C：测试不可识别性条件

基于以下零假设，我们提出了定理1中不可识别条件的两阶段测试程序：

\begin{array}{l} {H（H）}_{01} : {S公司}_{{M（M）}_{c（c）}}^{(c（c）)} \subseteq {S公司}_{{M（M）}_{d日}}^{(d日)}, & 对于任何两个群集 c（c）, d日 \in {1, \dots, K（K）}; \\ {H（H）}_{02} : μ^{(c（c）)} \in {S公司}_{{M（M）}_{c（c）})}, & 对于任何群集 c（c） \in {1, \dots, K（K）}; \\ {H（H）}_{03} : μ^{(c（c）)} = μ^{(d日)}, & 对于任何两个群集 c（c）, d日 \in {1, \dots, K（K）} . \end{array}

在第一阶段，我们测试假设H（H）₀₁条件（C2）。如果H（H）₀₁被拒绝，则不可识别条件无法保持。相反，如果某些簇对对应于H（H）₀₁无法拒绝，则我们继续进行第2阶段的测试条件（C3）。在第二阶段，如果至少有一个假设，H（H）₀₂和H（H）₀₃，则我们没有足够的统计证据来拒绝不可识别条件。然而，如果两者都是H（H）₀₂和H（H）₀₃在第二阶段被拒绝，则不可识别条件不成立。让 ${年_{我}^{(c（c）)}, 我 = 1, \dots, {n个}_{c（c）}}$ 表示划分为簇的曲线的实现c（c），其中n个_c（c）是簇中的曲线数c（c）上述假设的建议引导测试如下所述。

C.1、。检验假设H（H）₀₁

对于任何两个群集c（c）和d日在{1，…，中…，K（K）}，执行以下步骤。

第1步：计算测试统计 ${D类}_{1} = \sum_{我 = 1}^{{M（M）}_{c（c）}} {‖ {\hat{ρ}}_{我}^{(c（c）)} - {\tilde{ρ}}_{我}^{(c（c）)} ‖}^{2} + \sum_{我 = 1}^{{M（M）}_{d日}} {‖ {\hat{ρ}}_{我}^{(d日)} - {\tilde{ρ}}_{我}^{(d日)} ‖}^{2}$ 什么时候M（M）_c（c）=M（M）_d日，或 ${D类}_{1} = \sum_{我 = 1}^{{M（M）}_{c（c）}} {‖ {\hat{ρ}}_{我}^{(c（c）)} - {\tilde{ρ}}_{我}^{(c（c）)} ‖}^{2}$ 什么时候M（M）_c（c）≠M（M）_d日，其中 ${\tilde{ρ}}_{我}^{(c（c）)} (t吨) = \sum_{j个 = 1}^{{M（M）}_{d日}} 〈 {\tilde{ρ}}_{我}^{(c（c）)}, {\hat{ρ}}_{j个}^{(d日)} 〉 {\hat{ρ}}_{j个}^{(d日)} (t吨)$ 和 ${\tilde{ρ}}_{我}^{(d日)} (t吨) = \sum_{j个 = 1}^{{M（M）}_{c（c）}} 〈 {\hat{ρ}}_{我}^{(d日)}, {\hat{ρ}}_{j个}^{(c（c）)} 〉 {\hat{ρ}}_{j个}^{(c（c）)} (t吨)$ ⁠.
第2步：计算残差 ${e（电子）}_{我}^{(c（c）)} = 年_{我}^{(c（c）)} - {\hat{μ}}^{(c（c）)} - {\hat{η}}_{我}^{(c（c）)}$ ⁠，其中 ${\hat{η}}_{我}^{(c（c）)} (t吨) = \sum_{j个 = 1}^{{M（M）}_{c（c）}} 〈 年_{我}^{(c（c）)} - {\hat{μ}}^{(c（c）)}, {\hat{ρ}}_{j个}^{(c（c）)} 〉 {\hat{ρ}}_{j个}^{(c（c）)} (t吨)$ ⁠.计算 ${e（电子）}_{我}^{(d日)}$ 通过类推 ${e（电子）}_{我}^{(c（c）)}$ ⁠.
步骤3：获取b第个引导示例 ${年_{b 我}^{(c（c）)} (t吨)}$ 集群中c（c）, $年_{b 我}^{(c（c）)} (t吨) = {\hat{μ}}^{(c（c）)} (t吨) + {\tilde{η}}_{我}^{(c（c）)} (t吨) + {e（电子）}_{b 我}^{(c（c）)} (t吨)$ 对于我=1,…,n个_c（c），其中 ${{e（电子）}_{b 1}^{(c（c）)}, \dots, {e（电子）}_{b {n个}_{c（c）}}^{(c（c）)}}$ 通过对残差进行替换重新采样获得 ${{e（电子）}_{1}^{(c（c）)}, \dots, {e（电子）}_{{n个}_{c（c）}}^{(c（c）)}}$ ⁠、和 ${\tilde{η}}_{我}^{(c（c）)} (t吨) = \sum_{j个 = 1}^{{M（M）}_{c（c）}} 〈 年_{我}^{(c（c）)} - {\hat{μ}}^{(c（c）)}, {\hat{ρ}}_{j个} 〉 {\hat{ρ}}_{j个} (t吨)$ ⁠，其中 ${\hat{ρ}}_{j个} (t吨)$ 通过以下剩余过程的合并协方差估计获得 ${年_{我}^{(c（c）)} - {\hat{μ}}^{(c（c）)}}$ 和 ${年_{我}^{(d日)} - {\hat{μ}}^{(d日)}}$ 个集群c（c）和d日. Theb集群中的第个引导示例d日, ${年_{b 我}^{(d日)} (t吨)}$ ⁠，通过类比获得。计算测试统计， ${D类}_{1}^{(b)}$ 来自b第个引导示例。
第4步：重复步骤3B类获得时间 ${D类}_{1}^{(b)}$ ⁠，用于b=1,…,B类.计算第页-价值 ${第页}_{1} = \sum_{b = 1}^{B类} 我 ({D类}_{1}^{(b)} ⩾ {D类}_{1}) / B类$ ⁠，其中我是一个指示函数。
第5步：拒绝假设H（H）₀₁如果第页₁ $⩽$ α^*，其中 $α * = α / (_{2}^{K（K）})$ ⁠，给定集群总数K（K）以及重要性水平α.

C.2、。检验假设H（H）₀₂

对于任何群集c（c）在{1，…，中…，K（K）}，执行以下步骤。

第1步：计算测试统计 ${D类}_{2} = {‖ {\hat{μ}}^{(c（c）)} - {\tilde{μ}}^{(c（c）)} ‖}^{2}$ 哪里 ${\hat{μ}}^{(c（c）)}$ 如前所述，并且 ${\hat{μ}}^{(c（c）)} = \sum_{j个 = 1}^{{M（M）}_{c（c）}} 〈 {\hat{μ}}^{(c（c）)}, {\hat{ρ}}_{j个}^{(c（c）)} 〉 {\hat{ρ}}_{j个}^{(c（c）)} (t吨)$ ⁠.
第2步：用残差替换重采样 ${{第页}_{1}^{(c（c）)}, \dots, {第页}_{{n个}_{c（c）}}^{(c（c）)}}$ ⁠，其中 ${第页}_{我}^{(c（c）)} = 年_{我}^{(c（c）)} - {\hat{μ}}^{(c（c）)}$ ⁠，以获取引导程序残差 ${{第页}_{b 1}^{(c（c）)}, \dots, {第页}_{b {n个}_{c（c）}}^{(c（c）)}}$ ⁠，并形成b第个引导示例 ${年_{b 1}^{(c（c）)}, \dots, 年_{b {n个}_{c（c）}}^{(c（c）)}}$ ⁠，其中 $年_{b 我}^{(c（c）)} = {\tilde{μ}}^{(c（c）)} + {第页}_{b 我}^{(c（c）)}$ ⁠.计算测试统计 ${D类}_{2}^{(b)}$ 在bootstrap示例的基础上。
步骤3：重复步骤2B类次数并获得 ${D类}_{2}^{(b)}$ ⁠，用于b=1,…,B类.
第4步：计算第页-测试值 ${第页}_{2}^{(c（c）)} = \sum_{b = 1}^{B类} 我 ({D类}_{2}^{(b)} ⩾ {D类}_{2}) / B类$ ⁠.
第5步：拒绝假设H（H）₀₂如果 ${第页}_{2}^{(c（c）)} ⩽ α$ ⁠，给定显著性水平α.

C.3、。检验假设H（H）₀₃

对于任何两个群集c（c）和d日在{1，…，中…，K（K）}，执行以下步骤。

第1步：计算测试统计D类_三, ${D类}_{三} = {‖ {\hat{μ}}^{(c（c）)} - {\hat{μ}}^{(d日)} ‖}^{2}$
第2步：用残差替换重采样 ${{第页}_{1}^{(c（c）)}, \dots, {第页}_{{n个}_{c（c）}}^{(c（c）)}}$ ⁠，其中 ${第页}_{我}^{(c（c）)} = 年_{我}^{(c（c）)} - {\hat{μ}}^{(c（c）)}$ ⁠，以获取引导程序残差 ${{第页}_{b 1}^{(c（c）)}, \dots, {第页}_{b {n个}_{c（c）}}^{(c（c）)}}$ ⁠，并形成b集群的第个引导示例c（c）, ${年_{b 1}^{(c（c）)}, \dots, 年_{b {n个}_{c（c）}}^{(c（c）)}}$ ⁠，其中 $年_{b 我}^{(c（c）)} = \hat{μ} + {第页}_{b 我}^{(c（c）)}$ ⁠，其中 $\hat{μ}$ 是簇平均函数的集合估计c（c）和d日类似地，形成b第个引导示例 ${年_{b 1}^{(d日)}, \dots, 年_{b {n个}_{d日}}^{(d日)}}$ 对于群集d日.
步骤3：计算测试统计 ${D类}_{三}^{(b)}$ 在bootstrap示例的基础上。
第4步：重复步骤2和3B类次数并获得 ${D类}_{三}^{(b)}$ ⁠，用于b=1,…,B类.计算第页-价值 ${第页}_{三} = \sum_{b = 1}^{B类} 我 ({D类}_{三}^{(b)} ⩾ {D类}_{三}) / B类$ ⁠.
第5步：拒绝假设H（H）₀₃如果第页_三 $⩽$ α^*，其中 $α * = α / (_{2}^{K（K）})$ ⁠、和K（K）是簇数。

假设的测试程序H（H）₀₁和H（H）₀₃检查所有可能的簇对，以及假设对H（H）₀₂适用于所有群集。我们注意到，当有两个以上的簇时，K（K）>2，多次试验修正第页-在上述步骤5中，根据Bonferroni校正方法考虑了引导调整的值，以降低假阳性概率。其他调整方法第页-在Westfall和Young中可以找到基于重采样的多重测试的平均值和测试相等性(1993).

C.4款。仿真

bootstrap测试的性能通过拒绝率来证明，拒绝率对应于测试的大小或功率，取决于表中总结的假设和模拟模型5，带有附加符号：E类_三=跨度(φ₃₁,φ₃₂)，其中φ₃₁(t吨)=2√3(t吨−0.5）和 $ϕ_{32} (t吨) = 6 \sqrt 5 ({t吨}^{2} - t吨 - \frac{1}{6})$ ⁠。我们设置观察次数米=每条曲线和簇的大小为20n个₁=n个₂=50.这里，我们考虑独立且同分布的测量误差N个(0,σ²)，其中σ²=0.01，对于设计B1和B2，以及σ²=设计B3和B4时为1。引导样本数为B类=500.我们注意到设计B1和B3满足不可识别条件。表6总结了基于1000次复制的仿真结果。总的来说，每个假设的拒绝概率表明，bootstrap测试在大多数情况下都具有很好的能力和合理的大小，并且两阶段测试可以成功地检测到不可识别的条件。

表5

引导测试的仿真设计

设计的平均函数	以下设计的特征空间：
设计的平均函数	𝒮⁽¹⁾=𝒮⁽²⁾	𝒮⁽¹⁾≠𝒮⁽²⁾
μ⁽¹⁾=μ⁽²⁾=米₀	地下一层：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂	B2层：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂
	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类_三,𝒮⁽²⁾=E类₂
μ⁽¹⁾=−μ⁽²⁾=√2φ₁₁	B3：λ⁽¹⁾=10θ₁,λ⁽²⁾=10θ₂	B4：λ⁽¹⁾=10θ₁,λ⁽²⁾=10θ₂
	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类₁,𝒮⁽²⁾=E类₂
	μ⁽¹⁾∈ 𝒮⁽¹⁾,μ⁽²⁾∈ 𝒮⁽²⁾	只有μ⁽¹⁾∈ 𝒮⁽¹⁾

设计的平均函数	以下设计的特征空间：
设计的平均函数	𝒮⁽¹⁾=𝒮⁽²⁾	𝒮⁽¹⁾≠𝒮⁽²⁾
μ⁽¹⁾=μ⁽²⁾=米₀	地下一层：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂	B2层：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂
	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类_三,𝒮⁽²⁾=E类₂
μ⁽¹⁾=−μ⁽²⁾=√2φ₁₁	B3：λ⁽¹⁾=10θ₁,λ⁽²⁾=10θ₂	B4：λ⁽¹⁾=10θ₁,λ⁽²⁾=10θ₂
	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类₁,𝒮⁽²⁾=E类₂
	μ⁽¹⁾∈ 𝒮⁽¹⁾,μ⁽²⁾∈ 𝒮⁽²⁾	只有μ⁽¹⁾∈ 𝒮⁽¹⁾

表5

引导测试的仿真设计

设计的平均函数	以下设计的特征空间：
设计的平均函数	𝒮⁽¹⁾=𝒮⁽²⁾	𝒮⁽¹⁾≠𝒮⁽²⁾
μ⁽¹⁾=μ⁽²⁾=米₀	地下一层：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂	B2层：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂
	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类_三,𝒮⁽²⁾=E类₂
μ⁽¹⁾=−μ⁽²⁾=√2φ₁₁	B3：λ⁽¹⁾=10θ₁,λ⁽²⁾=10θ₂	B4：λ⁽¹⁾=10θ₁,λ⁽²⁾=10θ₂
	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类₁,𝒮⁽²⁾=E类₂
	μ⁽¹⁾∈ 𝒮⁽¹⁾,μ⁽²⁾∈ 𝒮⁽²⁾	只有μ⁽¹⁾∈ 𝒮⁽¹⁾

设计的平均函数	以下设计的特征空间：
设计的平均函数	𝒮⁽¹⁾=𝒮⁽²⁾	𝒮⁽¹⁾≠𝒮⁽²⁾
μ⁽¹⁾=μ⁽²⁾=米₀	地下一层：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂	B2层：λ⁽¹⁾=θ₁,λ⁽²⁾=θ₂
	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类_三,𝒮⁽²⁾=E类₂
μ⁽¹⁾=−μ⁽²⁾=√2φ₁₁	B3条：λ⁽¹⁾=10θ₁,λ⁽²⁾=10θ₂	B4：λ⁽¹⁾=10θ₁,λ⁽²⁾=10θ₂
	𝒮⁽¹⁾=𝒮⁽²⁾=E类₁	𝒮⁽¹⁾=E类₁,𝒮⁽²⁾=E类₂
	μ⁽¹⁾∈ 𝒮⁽¹⁾,μ⁽²⁾∈ 𝒮⁽²⁾	只有μ⁽¹⁾∈ 𝒮⁽¹⁾

表6

与表对应的引导测试的模拟结果5

案例	以下设计的结果：
案例	地下一层	地下二层	地下三层	B4类
拒绝概率
H（H）₀₁:𝒮⁽¹⁾=𝒮⁽²⁾	0.065†	1‡	0.053†	1‡
H（H）₀₂:μ⁽¹⁾∈ 𝒮⁽¹⁾	1‡	1‡	0.013†	0.013†
H（H）₀₂:μ⁽²⁾∈ 𝒮⁽²⁾	0.984‡	1‡	0.014†	1‡
H（H）₀₃:μ⁽¹⁾=μ⁽²⁾	0.045†	0.054†	1‡	1‡
通过两阶段测试的概率
H（H）₀₁和H（H）₀₂	0	0	0.947	0
H（H）₀₁和H（H）₀₃	0.893	0	0	0
H（H）₀₁以及(H（H）₀₂或H（H）₀₃)	0.893	0	0.947	0

案例	以下设计的结果：
案例	地下一层	地下二层	地下三层	B4类
拒绝概率
H（H）₀₁:𝒮⁽¹⁾=𝒮⁽²⁾	0.065†	1‡	0.053†	1‡
H（H）₀₂:μ⁽¹⁾∈ 𝒮⁽¹⁾	1‡	1‡	0.013†	0.013†
H（H）₀₂:μ⁽²⁾∈ 𝒮⁽²⁾	0.984‡	1‡	0.014†	1‡
H（H）₀₃:μ⁽¹⁾=μ⁽²⁾	0.045†	0.054†	1‡	1‡
通过两阶段测试的概率
H（H）₀₁和H（H）₀₂	0	0	0.947	0
H（H）₀₁和H（H）₀₃	0.893	0	0	0
H（H）₀₁以及(H（H）₀₂或H（H）₀₃)	0.893	0	0.947	0

†

大小。

‡

电源。

表6