总结
功能聚类(FC)方法,k-中心FC,用于纵向数据。这个k-中心FC方法通过重新分类步骤预测聚类成员关系,同时考虑了聚类之间差异的均值和模式。聚类成员预测基于截断Karhunen–Loève展开的非参数随机效应模型,以及非参数迭代平均值和协方差更新方案。我们表明,在导出的可识别条件下k-与传统的聚类算法相比,本文提出的中心FC方法可以大大提高聚类质量。此外,通过探索每个聚类的均值和协方差函数k-centers-FC方法提供了对集群结构的额外见解,有助于功能集群分析。的实际性能k-通过模拟研究和数据应用,包括生长曲线和基因表达谱数据,证明了中心FC方法。
1.简介
聚类分析通常在数据集中搜索同质的个体亚群。传统的启发式方法,如层次聚类算法(Ward,1963)和k-表示聚类算法(Ball和Hall,1967; 麦奎因,1967),已广泛应用于许多应用中。当需要对每个个体进行大量观察时,这些方法通常与降维技术相结合,例如主成分分析和奇异值分解(例如Jolliffe(2002)). 这些传统的聚类算法经常应用于纵向数据,例如生长曲线、重复测量的基因表达谱和许多其他数据集。在某些概率模型假设下的各种基于模型的方法(例如杨等。(2001)弗雷利和拉弗瑞(2002)和李(2005))也作为可行的聚类技术。这些方法主要用于分析多元数据向量,可能不利于或不直接适用于密集收集的纵向数据或功能数据。造成这种情况的原因包括但不限于,曲线的索引集或记录时间并不总是与不规则设计的索引集或记录时间相同,索引集中的测量数量非常大,并且可能存在测量误差(Abraham等。,2003).
在纵向收集的功能数据中,通常需要找到对应于不同形状和变化的代表性曲线模式。这是功能聚类分析的主要关注点。最近出现了利用功能特性的聚类方法。典型的方法是首先拟合曲线或函数数据,通常使用样条近似。然后将经典的启发式聚类算法应用于拟合系数以找到聚类。此方法的示例包括B类-样条拟合方法与k-均值算法(Abraham等。,2003)或坚固的修剪k-意指方法(García-Escudero和Gordaliza,2005),k-指通过随机函数(Tarpey和Kinateder,2003)以及变换后的聚类和平滑技术(塞族人和瓦瑟曼,2005). 变换后的聚类和平滑技术对大量曲线进行聚类,但使用傅里叶基。这些方法还可以利用基于模型的技术,如功能聚类(FC)模型,特别强调稀疏采样的功能数据(James和Sugar,2003),混合效应建模方法B类-样条线(Luan和Li,2003)最近,采用小波方法的非参数贝叶斯聚类模型(Ray和Mallick,2006). 其他相关研究包括利用两个函数(Heckman和Zamar,2000)以及基于函数逻辑回归的函数判别分析(Leng和Müller,2006). 这些都是使用函数数据方法进行纵向数据聚类的有趣研究。在本研究中,我们提出了一种新的FC方法,该方法同时考虑了簇间差异的均值和模式。
本研究涉及函数数据聚类,其中单个观测值被视为随机函数的实现。假设随机函数遵循一个带有随机簇变量的随机过程,该过程由簇子过程的混合组成。提出的FC方法,k-中心FC,通过重新分类步骤预测集群成员身份,解释了集群之间的平均值和变化模式差异。在这一步中,使用非参数迭代平均值和协方差更新方案来估计簇结构,并且这些函数结构用于根据截断Karhunen–Loève展开(例如Ash和Gardner)的非参数随机效应模型预测每条曲线的簇属性(1975))或随机函数的函数主成分分析。我们表明,在导出的可识别条件下,所提出的k-和传统的聚类算法相比,中心FC方法可以大大提高聚类质量。使用k-中心FC方法,探索了每个聚类的平均和协方差结构,通过提供对聚类的直观了解,促进了功能聚类分析。
与k-中心FC方法提出,最近基于聚类基系数的方法必须为所有聚类选择相同的基函数,才能使用拟合系数作为待聚类的代理。这可能会带来一些困难,因为必须选择适当的基函数,以便拟合系数能够充分反映聚类差异。Tarpey和Kinateder(2003)在他们的讨论部分提出了这个问题。加西亚·埃斯库德罗和戈达利扎(2005)讨论了使用不同基函数的相对优点。相反,k-中心FC使用集群特征基进行过程扩展。这些是通过数据曲线估计的,并且它们最大化了由前几个本征分量解释的总变化的百分比。此外,与k-中心FC方法。James和Sugar(2003)第1.2节还讨论了基于系数的方法的其他缺点。这个k-与大多数需要高斯模型假设的基于模型的聚类方法相比,中心FC方法不依赖于任何分布假设。我们比较k-基于拟合的两种典型FC方法将FC数值性能中心化B类-样条系数:García-Escudero和Gordaliza的稳健曲线聚类(2005)(RCC方法)和James和Sugar基于模型的FC模型(2003)(方法FCM)。
本文的其余部分组织如下。章节2介绍了k-提出了中心FC方法,并提出了k-中心FC算法。的理论性质k-第节提供了具有可识别性条件的中心FC方法三第节中的模拟研究说明了数值结果4以及第节中的数据应用5包括生长曲线和基因表达谱数据。讨论和结论见第节6技术细节和附加材料汇编在附录A-C中。第节中用于分析的数据集和计算机程序5可以从以下位置获得
http://www.blackwellpublishing.com/rss
2k-中心功能聚类
2.1. 基本原则
我们假设随机曲线或函数Y(Y)从随机过程的混合物中独立采样我2(𝒯)与随机簇变量相关C类.给,我2(\119983;)是实数区间𝒯=[0,吨],具有两个函数的内积(f)和克通过〈积分算子定义(f),克〉=∫(f)(t吨)克(t吨)规范?·?=〈·,·〉1/2.混合过程Y(Y)具有边际平均值μ(t吨)=E类{Y(Y)(t吨)}和协方差Γ(秒,t吨)=覆盖{Y(Y)(秒),Y(Y)(t吨)}连续且光滑,并且存在随机函数的Karhunen-Loève展开,使得
1
其中本征函数ρj个与协方差Γ相关,与相应的特征值相关λj个这样〈Γ(·,t吨),ρj个〉=λj个 ρj个(t吨). 这些特征函数是满足〈ρj个,ρk〉=δjk公司,其中δjk公司是带有1s的Kronecker符号j个=k否则为0。特征值λj个以非递增顺序假设,λ1λ2…,具有对于我2随机过程。随机系数ξj个(Y(Y)),j个=1,2,…,是均值和方差为零的不相关随机变量λj个,因此
2
它是Y(Y)−μ在的方向j个第个特征函数ρj个.
假设混合过程Y(Y)由中的子流程组成我2(𝒯),每个子进程对应一个集群。random-cluster变量C类对于每个成员,在簇{1,…,中随机分布,…,K(K)}概率质量表示为第页C类(c(c))的c(c)∈ {1,…,K(K)}. 此外,平均值μ(c(c))和协方差Γ(c(c))与集群关联的子进程的c(c)有条件地定义为
对于c(c)∈ {1,…,K(K)}. 假设这些子过程中的每一个都有一个Karhunen–Loève展开式,与等式类似(1),具有相应的特征值-特征函数对,因此,t吨∈\119983;。在这些假设下,可以证明
因此,边际均值是子过程条件均值的加权和,而边际协方差和条件协方差之间的关系更为复杂。
我们考虑非参数随机效应模型Y(Y)(c(c))属于Y(Y),给定结构组件μ(c(c))和集群的c(c),因此
三
哪里
4
如果的群集成员身份Y(Y)实际上属于集群c(c),给定一条观察曲线Y(Y),然后Y(Y)(c(c))是Karhunen–Loève扩建Y(Y); 否则,两者之间存在差异Y(Y)(c(c))和Y(Y)根据这一基本原则Y(Y)(c(c))(3) 将用作预测集群成员身份的基本模型。虽然方程中的展开式(3)是无限维的,一个值M(M)c(c)对于给定的功能数据集存在,因此第一个前导M(M)c(c)本征函数可以有效地跨越这个过程。此数字通常随采样曲线的数量增加而增加n个,我们可以假设M(M)c(c)=M(M)c(c)(n个)在渐近理论中(参见示例Yao等。(2005)和霍尔等。(2006)). 在实际应用中,M(M)c(c)必须从数据中选择M(M)c(c)总是有限的。关于选择的讨论M(M)c(c)在第节中提供2.2.选择M(M)c(c)导致截断Karhunen–Loève扩展,
5
最佳群集成员身份c(c)*(年)对于观察到的曲线年通常通过最大化条件概率来确定P(P)C类|Y(Y)(·|·)这样
6
需要额外的分布假设来定义条件概率P(P)C类|Y(Y)(··)分析性地,如许多基于参数模型的聚类方法。然而,为了实现聚类的最终目标,主要任务是确定观测曲线指向的聚类年很可能属于。我们不想做额外的分布假设,因为条件概率函数本身并不重要。相反,只有给定曲线的簇成员的相对可能性年这是一个值得关注的问题。这与曲线之间的距离度量有关,这是聚类中最重要的部分我2-曲线之间的距离是FC中合理的距离度量,尽管基于相关性的距离度量也是可能的选择。给定观察曲线Y(Y)=年和集群结构组件μ(c(c))和,我们建议根据标准确定集群成员
7
哪里是截断的Karhunen–Loève展开式(5)。考虑到k-中心FC算法,如下所示。
标准(7)表明,每个个体都与一个簇相关联,该簇通过投影以相应的均值和特征函数为中心。根据最小距离进行分类时,使用了簇内变量相等的隐式假设。该标准类似于k-表示聚类,其中聚类中心是多元样本均值。相反,集群中心位于k-中心FC是由聚类均值和本征函数组成的随机结构。这些用于获得曲线在单个簇的函数主成分(FPC)子空间上的投影。这个想法与博克的一致(1987)作为的功能版本k-表示算法类型。我们注意到,这个距离度量可以对应于经验定义的条件概率函数(6),如下
哪里此外,如果随机函数的条件分布Y(Y)如果给定其聚类隶属度,则对应于高斯过程假设,则聚类准则(7)与最大化高斯过程的分类可能性相同,类似于Bock引理2.1(1987)用于多元数据设置。
在的初始步骤中k-中心FCk-采用均值法对边际FPC得分进行聚类。其他多元聚类方法,如层次聚类方法和基于模型的方法,也可以用于初始聚类(2002)该方法为考虑差异聚类协方差结构的多元数据聚类提供了一种灵活的方法。如果聚类差异可以通过边际FPC得分的差异协方差结构反映出来,那么Fraley和Raftery的方法可能比k-表示初始聚类。然而,与k-表示初始聚类k-中心FC。由于统计软件的广泛可用性k-选择均值法作为边际FPC得分的初始聚类方法。
2.2. 功能聚类过程
我们使用以下符号:n个是曲线总数;米我是我第条曲线,我=1,…,n个;t吨伊尔是我的第个记录时间我第个曲线按升序排列,我=1,…,米我;年我(t吨)是我在时间上观察到的th曲线t吨;是估计的总平均函数t吨;和是j个基于方程的特征值-特征函数对估计(1);是j个第次FPC得分我通过数值逼近得到的第条曲线。同样,估算以及FPC得分通过使用给定簇中的曲线获得c(c)这些成分的估算简要总结于附录A建议的FC程序如下所述。
2.2.1. 功能主成分得分的初始聚类
在初始步骤中,由于聚类成员是未知的,因此聚类是基于整个随机过程的边际均值和协方差结构。我们将第一个M(M)FPC得分领先通过FPC分析,使用所有采样曲线获得和,j个=1,…,M(M).给,M(M)是用于初始群集的FPC的最小所需数量,以便
8
哪里τ是预选的阈值,0τ1,和P(P)是FPC的最大数量.设置τ=0.9或τ在我们的数值经验中,=0.8相当有效。FPC得分由以下公式得出,通过数值近似。我们注意到,在存在测量误差的情况下,使用FPC分数的收缩估计值,如附录A。给定集群数量K(K),通过应用常规算法(如k-表示方法M(M)-FPC分数的维向量.
2.2.2. 通过重新分类进行迭代更新
根据初始聚类结果,我们可以使用聚类的均值和协方差结构,通过标准(7)将每条曲线重新分类为最佳预测聚类。让是集群成员身份的标签我第th条曲线我第次迭代。给定一组聚类结果,我们获得了每个簇的平均函数估计和本征函数基于观测曲线为所有人我≠我,忽略了我第个观察曲线。然后,我们获得我每个簇的预测曲线c(c),c(c)=1,…,K(K),
9
哪里、和M(M)c(c)是待确定的FPC数量。我们注意到,只有包含我第条曲线需要重新计算,以便进行“留一曲线”估算和. The我然后将th曲线分为簇这样的话
10
如标准(7)所示,基于我第次迭代。此步骤适用于所有我,提供一组更新的结果重复执行该程序,直到无法重新分类更多曲线。用于选择FPC数量M(M)c(c)在方程式中(9)对于群集c(c),我们定义
哪里是群集的积分平方误差之和c(c)这样的话,带有曲线数n个c(c)集群中c(c)、和,作为的函数M(M)c(c)=κ.数字M(M)c(c)从零分量(仅均值函数)开始,依次增加1,直到满足以下标准:
11
给定预定阈值τD类。的值M(M)c(c)在每个集群的每次迭代中由数据自适应选择M(M)c(c)被允许在算法的迭代期间改变。
我们注意到组件数量的选择M(M)c(c)有几个选项。这些包括使用屏幕图或用于初始聚类的总方差累积百分比(8)、最小化交叉验证预测误差的标准和伪Akaike信息标准(Yao等。,2005). 对于FC中的重新分类,建议的标准(11)在我们的数值经验中工作得相当好,设置为τD类=0.1(模拟中)或τD类=0.2(在数据应用中)。
3.属性k-中心功能聚类
我们检验了k-中心FC程序。为了方便记法,让Y(Y)c(c)表示从簇中提取的随机函数c(c),即。Y(Y)c(c)表示随机函数Y(Y)群集条件c(c)此外,让是方程中的展开式(5)具有M(M)c(c)组件和,定义类似于方程式(4)在初始聚类步骤中,聚类过程基于ξj个(Y(Y)c(c))=〈Y(Y)c(c)−μ,ρj个〉从边际过程中获得。可以看出ξj个(Y(Y)c(c))是
12
协方差是
13
当特征函数和ρj个是相同的,使用ξj个(Y(Y)c(c))如首字母所示k-中心FC步骤可能工作得相当好。这是因为在这种情况下,集群仅通过集群方式进行区分μ(c(c))和μ由以下预期值反映ξj个(Y(Y)c(c))如方程式所示(12)然而,当特征函数和ρj个不一样,集群差异无法与ξj个(Y(Y)c(c))不考虑集群之间。因此,我们建议k-通过重新分类和预测,将FC程序与更新步骤结合起来,以提高集群质量,这不仅适用于集群间差异变化模式的情况,也适用于集群在以下特定可识别条件下的情况。我们将通过两个集群的底层子流程进行更详细的讨论。
为了举例说明,我们构造了一个随机模型通过结构组件μ(d日)和来自群集d日,但使用随机Y(Y)c(c)从簇中提取c(c)对于,j个=1,…,M(M)d日,因此
14
这意味着和协方差构建过程的是
和
我们注意到是曲线的投影Y(Y)c(c)在由簇的平均函数和特征函数跨越的FPC子空间上d日。此投影用于与,由簇的平均函数和特征函数跨越的FPC子空间上的投影c(c)对应于其真正的集群成员身份。
根据的定义,的我2-规范表示模型之间的差异Y(Y)c(c)基于集群结构的d日以及正确的集群结构Y(Y)c(c)已绘制。差异的大小揭示了集群成员的可预测性。如果距离较大,则可以很容易地将曲线划分为其真实簇c(c); 相反,曲线可以任意分为簇c(c)或d日如果距离足够小。下面的定理仔细检查了平方我2-距离,进而揭示了每条曲线的簇成员关系的可预测性和可识别性。根据估计和对于μ(c(c))和在真正的簇成员关系下,通过中的估计过程获得附录A,让
15
哪里类似地,定义如下(15)通过更换M(M)c(c),和具有M(M)d日,和。我们做出以下假设(条件(C1))。
假设1。假设正则性条件适用于Yao的表达式(A1.1)–(A4)和(B1.1)-(B2.2)中的设计点、核函数、核函数的带宽和响应函数的矩等。(2005). 给定观测曲线的真实簇成员,对于每个簇c(c)在{1,…,中,…,K(K)}估计的均值和特征函数满足一致一致性特性,从而和用于固定j个,j个=1,2,…,带有序列和,作为n个c(c)→∞, 哪里和分别是估计均值和协方差函数的带宽。
在下面的引理中,我们证明了平方我2-之间的距离和取决于μ(c(c))和μ(d日)、和之间和和投影μ(c(c))−μ(d日)到跨越的FPC子空间上.
引理1。在条件(C1)下,给定值M(M)c(c)和M(M)d日,平方我2-之间的距离和定义见方程式(15)可以表示为
16
哪里定义如下(5),,、和
如果特征值快速衰减j个>M(M)c(c)这样的话收敛为0M(M)c(c)=M(M)c(c)(n个c(c))→∞和M(M)d日=M(M)d日(n个d日)→∞,然后是余项概率收敛到0。
我们注意到在方程式的右边(16)是由于截断Karhunen–Loève展开的剩余项Y(Y)c(c).在实践中,M(M)c(c)被认为是有限的。在下面的定理中,我们假设值M(M)c(c)和M(M)d日是固定的,因此余项保持原样,它应该很小,并且可以用适当选择的值忽略M(M)c(c)和M(M)d日。技术细节见附录B.
定理1。让和是由正交基函数跨越的空间和分别针对给定值M(M)c(c)和M(M)d日条件(C2)和(C3)分别定义如下:
在条件(C1)下,如果条件(C2)和(C3)都保持不变(不可识别条件),然后
17
作为n个c(c)→∞ 和n个d日→∞.
方程式(17)表明平方我2-之间的距离和与0不可区分,忽略余项由于截断展开近似和偏差项由于估计。相反,我们期望平方我2-距离在可识别条件条件(C2)和条件(C3)均不成立。因此,在可识别的情况下,可以通过预测(9)和基于估计的簇结构的聚类准则(10)来区分曲线的簇成员身份。我们注意到,条件(C1)中假设的估计平均值和本征函数是基于具有正确簇属性的观测曲线。在实践中,我们只有未知潜在簇成员和中心(平均函数和特征函数)的曲线实现。因此,在k-中心FC估计簇下估计平均和特征函数的实际收敛速度慢于条件(C1)中列出的真实簇下的最佳收敛速度,这是由于可能的簇错误分类。然而,真实簇下的导出条件(C2)和(C3)可用于通过形式化假设检验簇的可识别性,这些检验在附录C请参阅第节中的进一步讨论6.
4.模拟
的实际性能k-通过仿真研究了所提出的中心FC方法。假设聚类数量已知,聚类质量通过将聚类结果与已知的外部标准或分类进行比较来衡量。本研究使用了两种聚类质量度量方法。第一个是正确的分类率cRate。cRate定义为正确分类的对象与待聚类对象总数的最大可能比率,“正确”聚类与已知的外部标准相对应,即cRate是聚类结果和“正确”簇之间所有可能对应的最大值。第二个衡量集群质量的指标是Hubert和Arabie调整后的Rand指数aRand(1985),这是Rand指数(Rand,1971). Rand索引通过两个分区中位于同一组或不同组中的成对对象的数量来衡量两个分区之间的一致性、外部标准和所有对象的聚类结果。aRand进一步调整了Rand指数,使其具有0的预期值,并以1为界。aRand值越大,表示两个分区之间的相似性越高。aRand的全面总结见Jain和Dubes第4.4.1节(1988)节中的、和2.1杨和鲁佐(2001)及其补充材料。
曲线数据对于群集c(c)根据以下被随机测量误差污染的模型,在簇{1,2}之间以相等的概率生成:
18
用平均函数μ(c(c))和第一个M(M)c(c)本征函数由仿真设计给出。变量由独立的同分布生成,其中特征值对应于,以及测量误差由独立的同分布生成N个(0,σ2). 时间点是根据等距网格上的常规设计生成的t吨伊尔=(我−1)/(米−1)用于我=1,…,米。簇间平均函数和本征函数的各种组合如表所示1,使用以下符号:米0(t吨)=−2(t吨−0.5)2+t吨;米1(t吨)=4(t吨−0.5)2+1;米2(t吨)=2.5经验{−25(t吨−0.25)2}+2经验{−50(t吨−0.75)2};E类1=跨度(φ11,φ12),其中φ11(t吨)=√2 sin(πt吨)以及φ12(t吨)=√2 cos(πt吨);E类2=跨度(φ21,φ22),其中φ21(t吨)=√2 sin(2πt吨)以及φ22(t吨)=√2 cos(2πt吨);θ1=(0.4,0.3);θ2=(0.2,0.1).
设计的平均函数. | 以下设计的特征空间:. |
---|
𝒮(1)=𝒮(2)=E类1. | 𝒮(1)=E类1,𝒮(2)=E类2. |
---|
μ(1)=μ(2)=米0 | | C1a:λ(1)=λ(2)=θ2 |
| | 第1b条:λ(1)=θ1,λ(2)=θ2 |
μ(1)+2=μ(2)=米0 | C2a:λ(1)=λ(2)=10θ2 | C2b:λ(1)=λ(2)=10θ2 |
μ(1)=米1,μ(2)=米2 | C3a:λ(1)=λ(2)=θ1 | C3b:λ(1)=λ(2)=θ1 |
μ(1)=−μ(2)=√2φ11 | C4a:λ(1)=λ(2)=10θ1 | C4b类:λ(1)=λ(2)=10θ2 |
设计的平均函数. | 以下设计的特征空间:. |
---|
𝒮(1)=𝒮(2)=E类1. | 𝒮(1)=E类1,𝒮(2)=E类2. |
---|
μ(1)=μ(2)=米0 | | C1a:λ(1)=λ(2)=θ2 |
| | 第1b条:λ(1)=θ1,λ(2)=θ2 |
μ(1)+2=μ(2)=米0 | C2a:λ(1)=λ(2)=10θ2 | C2b类:λ(1)=λ(2)=10θ2 |
μ(1)=米1,μ(2)=米2 | C3a:λ(1)=λ(2)=θ1 | C3b:λ(1)=λ(2)=θ1 |
μ(1)=−μ(2)=√2φ11 | C4a:λ(1)=λ(2)=10θ1 | C4b类:λ(1)=λ(2)=10θ2 |
设计的平均函数. | 以下设计的特征空间:. |
---|
𝒮(1)=𝒮(2)=E类1. | 𝒮(1)=E类1,𝒮(2)=E类2. |
---|
μ(1)=μ(2)=米0 | | C1a:λ(1)=λ(2)=θ2 |
| | 第1b条:λ(1)=θ1,λ(2)=θ2 |
μ(1)+2=μ(2)=米0 | C2a:λ(1)=λ(2)=10θ2 | C2b类:λ(1)=λ(2)=10θ2 |
μ(1)=米1,μ(2)=米2 | C3a:λ(1)=λ(2)=θ1 | C3b:λ(1)=λ(2)=θ1 |
μ(1)=−μ(2)=√2φ11 | C4a:λ(1)=λ(2)=10θ1 | C4b类:λ(1)=λ(2)=10θ2 |
设计的平均函数. | 以下设计的特征空间:. |
---|
𝒮(1)=𝒮(2)=E类1. | 𝒮(1)=E类1,𝒮(2)=E类2. |
---|
μ(1)=μ(2)=米0 | | C1a:λ(1)=λ(2)=θ2 |
| | 第1b条:λ(1)=θ1,λ(2)=θ2 |
μ(1)+2=μ(2)=米0 | C2a:λ(1)=λ(2)=10θ2 | C2b类:λ(1)=λ(2)=10θ2 |
μ(1)=米1,μ(2)=米2 | C3a:λ(1)=λ(2)=θ1 | C3b:λ(1)=λ(2)=θ1 |
μ(1)=−μ(2)=√2φ11 | C4a:λ(1)=λ(2)=10θ1 | C4b类:λ(1)=λ(2)=10θ2 |
我们注意到,设计C1a和C1b的平均函数与条件(C3)中的相同,设计C2a和C3a的簇特征空间与条件(C2)中的一样,设计C4b具有与条件(C4)中属于特征空间的相反符号的相同平均函数。值得注意的是,设计C4a属于满足条件(C2)和(C3)的不可识别情况。将以下方法应用于这些合成数据集以进行模拟比较:FPCA,k-指FPC得分的聚类;kCFC、k-提议的中心FC方法;FCM公司一和FCMbJames and Sugar的FC模型FCM(2003),包括具有后验概率(FCM)的方法一)和低维曲线投影(FCMb); 碾压混凝土0和碾压混凝土0.1García-Escudero和Gordaliza的稳健曲线聚类(2005)具有修剪尺寸α=0.0和α分别=0.1。对于RCC方法0.1根据90%的未修剪曲线计算聚类质量。FPCA方法用作中的初始聚类步骤k-中心FC。在FCM和RCC方法中,我们使用具有五个等距节点的自然三次样条。我们注意到,选择3–10节都会导致类似的结果。
表2现在将仿真结果总结为n个1=n个2=50,米=20和各种测量误差σ2集群质量结果基于每个仿真设计的100次复制。符号是的平均数M(M)(8) ,选择用于FPCA方法中边际FPC得分的维度,以及是的平均数M(M)c(c)(11) 在的最后一次迭代中c(c)=1,2,在中选择k-中心FC。在大多数模拟中,收敛发生在四到五次迭代之后,但有些情况下需要多达10次迭代。这些结果表明了k-在大多数情况下,在可识别性条件下,FC方法优于其他方法,而FCM和RCC方法的表现优于k-将FC集中在设计C4a中,设计用于不可识别条件。当两个簇结构处于不可识别的情况下时,属于这些簇的曲线将随机分配给任一簇,因为这两个簇的结构都能很好地拟合曲线。我们注意到,FCM和RCC方法分别在设计C2a和C3a中表现最佳,而k-中心足球俱乐部在这两种情况下都表现第二好。在这两种情况下,两个星团的本征空间是相同的,而k-与FCM和RCC方法相比,FC中心仍然提供了一种具有竞争力的方法,这种方法持续有效。
索引. | 以下方法的结果:. |
---|
. | FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
C1a公司(σ2=0.25) | | | | | | |
a兰德 | 0.001 | 0.258 | 0.001 | 0.001 | 0 | −0.001 |
机箱 | 0.540 | 0.715 | 0.540 | 0.540 | 0.540 | 0.536 |
C1b类(σ2=0.25) | | | | | | |
a兰德 | 0.007 | 0.421 | 0.004 | 0.004 | 0.002 | 0.002 |
机箱 | 0.550 | 0.793 | 0.547 | 0.545 | 0.542 | 0.546 |
C2a公司(σ2=1.0) | | | | | | |
a兰德 | 0.261 | 0.643 | 0.680 | 0.686 | 0.311 | 0.317 |
机箱 | 0.755 | 0.882 | 0.891 | 0.894 | 0.775 | 0.777 |
C2b类(σ2=1.0) | | | | | | |
a兰德 | 0.392 | 0.854 | 0.367 | 0.386 | 0.287 | 0.441 |
机箱 | 0.809 | 0.960 | 0.796 | 0.804 | 0.741 | 0.822 |
C3a公司(σ2=0.5) | | | | | | |
a兰德 | 0.129 | 0.737 | 0.338 | 0.341 | 0.851 | 0.872 |
机箱 | 0.674 | 0.905 | 0.745 | 0.747 | 0.961 | 0.967 |
C3b型(σ2=0.5) | | | | | | |
a兰德 | 0.187 | 0.931 | 0.512 | 0.515 | 0.844 | 0.857 |
机箱 | 0.712 | 0.976 | 0.824 | 0.825 | 0.959 | 0.963 |
C4a公司(σ2=2.5) | | | | | | |
a兰德 | 0.352 | 0.018 | 0.325 | 0.335 | 0.293 | 0.315 |
机箱 | 0.797 | 0.570 | 0.785 | 0.789 | 0.768 | 0.777 |
C4b型(σ2=2.5) | | | | | | |
a兰德 | 0.425 | 0.684 | 0.335 | 0.358 | 0.303 | 0.350 |
机箱 | 0.825 | 0.913 | 0.785 | 0.795 | 0.756 | 0.782 |
索引. | 以下方法的结果:. |
---|
. | FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
C1a公司(σ2=0.25) | | | | | | |
a兰德 | 0.001 | 0.258 | 0.001 | 0.001 | 0 | −0.001 |
机箱 | 0.540 | 0.715 | 0.540 | 0.540 | 0.540 | 0.536 |
C1b类(σ2=0.25) | | | | | | |
a兰德 | 0.007 | 0.421 | 0.004 | 0.004 | 0.002 | 0.002 |
机箱 | 0.550 | 0.793 | 0.547 | 0.545 | 0.542 | 0.546 |
C2a公司(σ2=1.0) | | | | | | |
a兰德 | 0.261 | 0.643 | 0.680 | 0.686 | 0.311 | 0.317 |
机箱 | 0.755 | 0.882 | 0.891 | 0.894 | 0.775 | 0.777 |
C2b类(σ2=1.0) | | | | | | |
aRand公司 | 0.392 | 0.854 | 0.367 | 0.386 | 0.287 | 0.441 |
机箱 | 0.809 | 0.960 | 0.796 | 0.804 | 0.741 | 0.822 |
C3a公司(σ2=0.5) | | | | | | |
a兰德 | 0.129 | 0.737 | 0.338 | 0.341 | 0.851 | 0.872 |
机箱 | 0.674 | 0.905 | 0.745 | 0.747 | 0.961 | 0.967 |
C3b型(σ2=0.5) | | | | | | |
a兰德 | 0.187 | 0.931 | 0.512 | 0.515 | 0.844 | 0.857 |
机箱 | 0.712 | 0.976 | 0.824 | 0.825 | 0.959 | 0.963 |
C4a公司(σ2=2.5) | | | | | | |
a兰德 | 0.352 | 0.018 | 0.325 | 0.335 | 0.293 | 0.315 |
机箱 | 0.797 | 0.570 | 0.785 | 0.789 | 0.768 | 0.777 |
C4b型(σ2=2.5) | | | | | | |
a兰德 | 0.425 | 0.684 | 0.335 | 0.358 | 0.303 | 0.350 |
机箱 | 0.825 | 0.913 | 0.785 | 0.795 | 0.756 | 0.782 |
索引. | 以下方法的结果:. |
---|
. | FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
C1a型(σ2=0.25) | | | | | | |
a兰德 | 0.001 | 0.258 | 0.001 | 0.001 | 0 | −0.001 |
机箱 | 0.540 | 0.715 | 0.540 | 0.540 | 0.540 | 0.536 |
C1b级(σ2=0.25) | | | | | | |
a兰德 | 0.007 | 0.421 | 0.004 | 0.004 | 0.002 | 0.002 |
机箱 | 0.550 | 0.793 | 0.547 | 0.545 | 0.542 | 0.546 |
C2a公司(σ2=1.0) | | | | | | |
a兰德 | 0.261 | 0.643 | 0.680 | 0.686 | 0.311 | 0.317 |
机箱 | 0.755 | 0.882 | 0.891 | 0.894 | 0.775 | 0.777 |
C2b类(σ2=1.0) | | | | | | |
a兰德 | 0.392 | 0.854 | 0.367 | 0.386 | 0.287 | 0.441 |
机箱 | 0.809 | 0.960 | 0.796 | 0.804 | 0.741 | 0.822 |
C3a公司(σ2=0.5) | | | | | | |
a兰德 | 0.129 | 0.737 | 0.338 | 0.341 | 0.851 | 0.872 |
机箱 | 0.674 | 0.905 | 0.745 | 0.747 | 0.961 | 0.967 |
C3b型(σ2=0.5) | | | | | | |
a兰德 | 0.187 | 0.931 | 0.512 | 0.515 | 0.844 | 0.857 |
机箱 | 0.712 | 0.976 | 0.824 | 0.825 | 0.959 | 0.963 |
C4a公司(σ2=2.5) | | | | | | |
a兰德 | 0.352 | 0.018 | 0.325 | 0.335 | 0.293 | 0.315 |
机箱 | 0.797 | 0.570 | 0.785 | 0.789 | 0.768 | 0.777 |
C4b型(σ2=2.5) | | | | | | |
a兰德 | 0.425 | 0.684 | 0.335 | 0.358 | 0.303 | 0.350 |
机箱 | 0.825 | 0.913 | 0.785 | 0.795 | 0.756 | 0.782 |
索引. | 以下方法的结果:. |
---|
. | FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
C1a公司(σ2=0.25) | | | | | | |
a兰德 | 0.001 | 0.258 | 0.001 | 0.001 | 0 | −0.001 |
机箱 | 0.540 | 0.715 | 0.540 | 0.540 | 0.540 | 0.536 |
C1b类(σ2=0.25) | | | | | | |
a兰德 | 0.007 | 0.421 | 0.004 | 0.004 | 0.002 | 0.002 |
机箱 | 0.550 | 0.793 | 0.547 | 0.545 | 0.542 | 0.546 |
C2a公司(σ2=1.0) | | | | | | |
a兰德 | 0.261 | 0.643 | 0.680 | 0.686 | 0.311 | 0.317 |
机箱 | 0.755 | 0.882 | 0.891 | 0.894 | 0.775 | 0.777 |
C2b类(σ2=1.0) | | | | | | |
a兰德 | 0.392 | 0.854 | 0.367 | 0.386 | 0.287 | 0.441 |
机箱 | 0.809 | 0.960 | 0.796 | 0.804 | 0.741 | 0.822 |
C3a公司(σ2=0.5) | | | | | | |
a兰德 | 0.129 | 0.737 | 0.338 | 0.341 | 0.851 | 0.872 |
机箱 | 0.674 | 0.905 | 0.745 | 0.747 | 0.961 | 0.967 |
C3b型(σ2=0.5) | | | | | | |
a兰德 | 0.187 | 0.931 | 0.512 | 0.515 | 0.844 | 0.857 |
机箱 | 0.712 | 0.976 | 0.824 | 0.825 | 0.959 | 0.963 |
C4a公司(σ2=2.5) | | | | | | |
a兰德 | 0.352 | 0.018 | 0.325 | 0.335 | 0.293 | 0.315 |
机箱 | 0.797 | 0.570 | 0.785 | 0.789 | 0.768 | 0.777 |
C4b型(σ2=2.5) | | | | | | |
a兰德 | 0.425 | 0.684 | 0.335 | 0.358 | 0.303 | 0.350 |
机箱 | 0.825 | 0.913 | 0.785 | 0.795 | 0.756 | 0.782 |
5.数据应用
5.1. 增长曲线数据
伯克利增长研究的增长曲线数据(Tuddenham和Snyder,1954)用作比较各种聚类结果的示例。在这项研究中,54名女孩和39名男孩在1至18岁的31个阶段测量了身高。我们的目标是按增长模式进行聚类,以确定聚类结果是否反映了性别差异。
对仿真研究中的方法进行了聚类质量比较。对于FPCA方法,前两个FPC得分(M(M)=2)用于聚类,其中第一个分量解释80.3%,第二个分量解释13.8%的总方差。图。1显示了男孩和女孩的生长曲线,以及前两个FPC分数与真实性别指标的配对散点图。可以看出,前两个FPC分数大致反映了性别群体,中间有几个分数。在k-中心FC,M(M)1=1和M(M)2=1根据标准(11)选择τD类=0.2(对于两个簇)。表三表示k-中心FC在区分性别组方面优于其他方法,而RCC方法在本例中是一个竞争对手。
图1
(a) 男孩(---)和女孩(––)的生长曲线和(b)根据k-中心FC程序,具有真实的性别指示(•,男孩;,女孩)
索引. | 以下方法的结果:. |
---|
FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
a兰德 | 0.0872 | 0.7560 | 0.1485 | 0.1666 | 0.7186 | 0.7316 |
机箱 | 0.6559 | 0.9355 | 0.6989 | 0.7097 | 0.9247 | 0.9286 |
索引. | 以下方法的结果:. |
---|
FPCA公司. | 千立方英尺. | FCM公司一. | 流式细胞仪b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
a兰德 | 0.0872 | 0.7560 | 0.1485 | 0.1666 | 0.7186 | 0.7316 |
机箱 | 0.6559 | 0.9355 | 0.6989 | 0.7097 | 0.9247 | 0.9286 |
索引. | 以下方法的结果:. |
---|
FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
a兰德 | 0.0872 | 0.7560 | 0.1485 | 0.1666 | 0.7186 | 0.7316 |
机箱 | 0.6559 | 0.9355 | 0.6989 | 0.7097 | 0.9247 | 0.9286 |
索引. | 以下方法的结果:. |
---|
FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
a兰德 | 0.0872 | 0.7560 | 0.1485 | 0.1666 | 0.7186 | 0.7316 |
机箱 | 0.6559 | 0.9355 | 0.6989 | 0.7097 | 0.9247 | 0.9286 |
我们通过跨越协方差的均值和本征函数进一步研究每个簇的结构。图。2显示了两个簇的估计平均和特征函数。两组的平均功能在13岁之前非常接近;然后,集群2(雌性组)的增长趋势减缓,而集群1(雄性组)的增加趋势仍然很明显。对于第一本征函数,对于簇1,峰值出现在大约14岁,对于簇2,峰值出现在大约12岁。这个k-中心FC程序确定了具有最高集群质量的性别群体,集群结构合理地反映了增长模式中的性别差异。
图2
(a) 通过使用k-中心FC程序:(b)第一特征函数(——,簇1(88.2%);————,簇2(90.9%);(c) 第二特征函数(---,簇1(4.8%);––,集群2(4.1%))
5.2. 生命周期基因表达谱数据
这个果蝇属生命周期基因表达谱数据(Arbeitman等。,2002)用作第二个示例。这项研究记录了一项涉及4028个基因的互补DNA微阵列实验中从受精到衰老成年人的数据。这些基因已根据其生物学功能进行了鉴定和分类,并辅以各种聚类方法。我们使用部分数据进行聚类分析,包括21个瞬时早期合子基因、23个肌肉特异性基因和33个眼睛特异性基因。我们分析该基因表达谱数据,并将聚类结果与之前确定的类别进行比较,作为外部标准。
在本分析中,我们使用胚胎期(30个时间点)、幼虫期(10个时间点”)和蛹期(18个时间点“)的前58个连续时间点进行聚类。这58个时间点以10天不等的间隔记录,由于早期胚胎的快速变化,前30个时间点在前24小时取样。Liu和Müller研究了这些数据中基因表达轨迹的时间扭曲问题(2003). 在本研究中,我们将所有记录时间视为等距的时间单位,以表征FC的表达谱模式。由于基因表达轨迹可能包含测量误差,因此通过高斯收缩估计获得FPC分数。对于初始k-中心FC,前两个FPC得分(M(M)=2),其中前两个FPC解释了总变化的95.4%。图中显示的成对散点图。三表示三个簇。在k-提议的中心FC方法,M(M)1,M(M)2和M(M)三都被选为1,根据标准(11)τD类=0.2. 在本图中k-选择中心FC和方法FCM和RCC中的节点数,以最大限度地提高集群质量,其中选择小带宽1.0,方法FCM的节点数38,方法RCC的节点数7。
图3
前两个FPC得分的散点图k-中心FC程序的基因表达谱数据:,瞬时早期合子基因;,肌肉;*,眼睛
生成簇的轨迹k-图中显示了中心FC。4图中显示了与三个簇相对应的平均值和前两个特征函数。5,显示了三个集群之间截然不同的模式。我们注意到,标记为1、2和3的簇分别对应于肌肉特异性、眼睛特异性和暂时性早期合子基因。表4与三类生物分类的外部标准相比,给出了聚类质量。总的来说k-对于这些基因表达谱数据,中心FC获得了与之前确定的类别最接近的分组结果。值得注意的是,使用三类生物分类的外部聚类标准并不一定意味着这些是“真正的”聚类。然而,结果表明k-中心FC确实确定了合理的集群。
图4
通过使用k-中心FC程序,对应眼睛和肌肉特异性和暂时性早期合子基因:(a)簇1;(b) 集群2;(c) 集群3
图5
(a) 使用k-基因表达谱数据的中心FC程序:(b)第一特征函数(---,簇1(78.0%);---,集群2(50.6%);---,簇3(67.6%);(c) 第二特征函数(---,簇1(9.6%);---,集群2(1.7%);---,集群3(1.4%)
索引. | 以下方法的结果:. |
---|
FPCA公司. | 千立方英尺. | FCM公司一. | 流式细胞仪b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
a兰德 | 0.9183 | 0.9176 | 0.7377 | 0.7059 | 0.8415 | 0.8681 |
机箱 | 0.9740 | 0.9740 | 0.9091 | 0.8961 | 0.9481 | 0.9571 |
索引. | 以下方法的结果:. |
---|
FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
a兰德 | 0.9183 | 0.9176 | 0.7377 | 0.7059 | 0.8415 | 0.8681 |
机箱 | 0.9740 | 0.9740 | 0.9091 | 0.8961 | 0.9481 | 0.9571 |
索引. | 以下方法的结果:. |
---|
FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
a兰德 | 0.9183 | 0.9176 | 0.7377 | 0.7059 | 0.8415 | 0.8681 |
机箱 | 0.9740 | 0.9740 | 0.9091 | 0.8961 | 0.9481 | 0.9571 |
索引. | 以下方法的结果:. |
---|
FPCA公司. | 千立方英尺. | FCM公司一. | FCM公司b. | 碾压混凝土0. | 碾压混凝土0.1. |
---|
a兰德 | 0.9183 | 0.9176 | 0.7377 | 0.7059 | 0.8415 | 0.8681 |
机箱 | 0.9740 | 0.9740 | 0.9091 | 0.8961 | 0.9481 | 0.9571 |
6.讨论和总结
这个k-提出的中心FC计算量大,特别是对于在迭代更新步骤中实现保留一条曲线的过程。对于这个案例n个=100和米在模拟中=20,k-基于带有奔腾4 3.2 GHz中央处理器单元的个人计算机,固定带宽的中心FC平均每模拟数据集执行四次迭代大约需要3分钟。计算时间受聚类数量、每个聚类的曲线、每个曲线的观测值、算法迭代和带宽选择方法的影响。增长曲线数据示例(n个=93和米=31)处理只需7秒,因为不需要平滑,因为观察到的曲线本身看起来很平滑。处理基因表达谱数据的三次迭代大约需要15分钟(n个=77和米=58). 大多数计算时间是由于通过二维平滑进行聚类协方差估计而产生的。对于大量曲线,簇结构受单个曲线和方程中预测曲线的影响较小(9)如果偏差对于大样本是可以忽略的,则可以在没有保留一条曲线的情况下实施。这可以大大节省大量计算时间。
我们开发了一种新的基于函数预测的FC算法,该算法通过重新分类和预测簇成员身份,同时考虑了簇之间变化差异的平均值和模式。虽然我2-预测曲线和观测曲线之间的距离可以结合条件概率使用(6),也可以根据数据的特征和目标或聚类兴趣使用其他距离度量。初始集群结果很重要,因为它们可能会影响集群质量和中的迭代次数k-中心FC。如果首字母k-centers FC距离其最佳分区很远,因此即使经过多次迭代更新步骤,也可能很难恢复正确的集群结构。这可能是集群算法中的一个常见问题。我们的计算表明k-意味着边际FPC分数的聚类提供了一个自然合理的起点,但其他方法也可以作为替代方法。敏感性k-中心FC到初始集群需要进一步调查。
这个k-提出的中心FC方法依赖于用于随机曲线展开的一致估计的聚类均值和协方差函数。与随机变化相比,当簇中曲线的数量相对较少时,或者当观测曲线中的测量误差占主导地位时,簇平均值和协方差函数可能无法一致估计。在这种情况下,即使在可识别条件下,k-与其他不需要大样本量来获得一致估计值的方法相比,中心FC可能表现不佳。此外,对于引理1和定理1(第三)明显地取决于具有正确簇成员关系的观测曲线。在实践中,由于聚类成员的错误分类,这些估计的额外偏差可能导致聚类质量下降。利用基于估计簇的观测值估计簇中心的问题与聚类算法的收敛性和由此估计的簇中心的一致性有关。在多变量中也会出现类似的情况k-估计聚类样本均值时表示聚类,但在k-由于收敛的复杂性以及估计聚类平均值和特征函数的速度比简单的多元样本平均值慢,中心FC。波拉德(1981)很好地建立了经典聚类均值集的几乎必然收敛性k-表示有限维多元数据的聚类。所开发的技术和结果可应用于任何k-表示具有“所有闭合球都是紧的度量空间”的聚类方法类型,如Pollard所示(1981)(第140页)。然而k-具有无限维功能数据的中心FC不适合此范围。在确定集群中心的一致性属性时,需要进一步提高技术性k-中心FC,即簇平均值和特征函数,低于估计的簇。
在本文中,我们假设簇的数量是已知的或预先确定的。在实践中,我们可以通过选择一组簇数并观察结果是否产生物理意义来启发式地确定簇的数量。然而,作为未来的研究方向,仍然需要一种正式和系统的方法来确定簇的数量。最后,该定理中导出的可辨识条件可以通过统计假设检验进行实际检验。这可以通过使用重采样方案的引导测试来实现。由于测试方法不是本文的重点,因此建议的引导测试在附录C,包括一个小型模拟研究。数值结果表明,所提出的试验在检测这些条件方面相当有效。总的来说,我们认为k-提出的中心FC算法概念简单,易于实现,具有实用价值。
致谢
作者感谢联合主编、副主编和两位裁判,他们的问题和富有洞察力的评论使本文得到了很大的改进和澄清。本研究部分由中央研究院拨款GRC 94B001-1支持。
工具书类
附录A:模型组件估算
让{(t吨伊尔,年伊尔),我=1,…,n个,我=1,…,米我}是…的观察结果n个曲线,其中年伊尔=年我(t吨伊尔). FPC模型的估计总结如下。有关更多详细信息,请参阅Chiou等。(2003)和姚明等。(2003).
A.1、。平均函数的估计μ(t吨)
我们只需应用局部线性回归(例如Fan和Gijbels(1996))到的汇总数据n个曲线,
这样的话,其中
是具有带宽的已知内核函数小时.
A.2、。协方差函数Γ的估计(秒,t吨)
该估计基于对原始估计进行局部多项式拟合的二维散点图平滑,其中.考虑到等式中的测量误差(18),只有原始协方差的非对角元素,对于j个≠我,输入平滑散点图以拟合局部线性平面,
获得协方差估计,其中K(K)(·,·)是一个具有带宽的二元非负核函数小时1和小时2.给,小时1和小时2被选择为对于协方差估计是相同的。有关方差估计的更多详细信息σ2有关测量误差,请参阅Yao等。(2003).
答3。特征函数的估计ρj个(t吨)和功能主成分得分ξij公司
通过求解方程获得估计的本征值和本征函数在约束条件下通过离散近似。估计ξij公司可以近似为
带正交权重Δ伊尔在存在测量误差的情况下,高斯收缩估计(Yao等。,2003)使用方式如下.
附录B:证明
B.1、。引理2
如果条件(C1)成立,则对于随机曲线Y(Y)c(c)在里面我2从簇中提取的(𝒯)c(c)
19
哪里和.
证明。根据的定义以及在条件(C1)的一致性假设下,
因此,对于任何t吨∈ 𝒯,
类似地,我们得到对于任何t吨∈𝒯。然后,结果(19)紧随其后。
B.2节。引理1的证明
自,我们有.通过更换使用等式(14)并使用表达式(5) ,我们获得
20
此外,
21
通过方程式(20)和(21)和引理2,我们得到方程(16).自
通过不相关和以及Cauchy–Schwartz不等式
通过假设收敛到0,这意味着概率收敛到0。
B.3。定理1的证明
自是簇中FPC子空间的正交基d日根据Parseval的身份(例如Ash(1972)),当且仅当.观测方程(20)和
我们发现了当且仅当以下条件(C2)和(C3)分别成立时:
通过引理1,结果(17)紧随其后。
附录C:测试不可识别性条件
基于以下零假设,我们提出了定理1中不可识别条件的两阶段测试程序:
在第一阶段,我们测试假设H(H)01条件(C2)。如果H(H)01被拒绝,则不可识别条件无法保持。相反,如果某些簇对对应于H(H)01无法拒绝,则我们继续进行第2阶段的测试条件(C3)。在第二阶段,如果至少有一个假设,H(H)02和H(H)03,则我们没有足够的统计证据来拒绝不可识别条件。然而,如果两者都是H(H)02和H(H)03在第二阶段被拒绝,则不可识别条件不成立。让表示划分为簇的曲线的实现c(c),其中n个c(c)是簇中的曲线数c(c)上述假设的建议引导测试如下所述。
C.1、。检验假设H(H)01
对于任何两个群集c(c)和d日在{1,…,中…,K(K)},执行以下步骤。
第1步:计算测试统计什么时候M(M)c(c)=M(M)d日,或什么时候M(M)c(c)≠M(M)d日,其中和.
第2步:计算残差,其中.计算通过类推.
步骤3:获取b第个引导示例集群中c(c),对于我=1,…,n个c(c),其中通过对残差进行替换重新采样获得、和,其中通过以下剩余过程的合并协方差估计获得和个集群c(c)和d日. Theb集群中的第个引导示例d日,,通过类比获得。计算测试统计,来自b第个引导示例。
第4步:重复步骤3B类获得时间,用于b=1,…,B类.计算第页-价值,其中我是一个指示函数。
第5步:拒绝假设H(H)01如果第页1α*,其中,给定集群总数K(K)以及重要性水平α.
C.2、。检验假设H(H)02
对于任何群集c(c)在{1,…,中…,K(K)},执行以下步骤。
第1步:计算测试统计哪里如前所述,并且.
第2步:用残差替换重采样,其中,以获取引导程序残差,并形成b第个引导示例,其中.计算测试统计在bootstrap示例的基础上。
步骤3:重复步骤2B类次数并获得,用于b=1,…,B类.
第4步:计算第页-测试值.
第5步:拒绝假设H(H)02如果,给定显著性水平α.
C.3、。检验假设H(H)03
对于任何两个群集c(c)和d日在{1,…,中…,K(K)},执行以下步骤。
第1步:计算测试统计D类三,
第2步:用残差替换重采样,其中,以获取引导程序残差,并形成b集群的第个引导示例c(c),,其中,其中是簇平均函数的集合估计c(c)和d日类似地,形成b第个引导示例对于群集d日.
步骤3:计算测试统计在bootstrap示例的基础上。
第4步:重复步骤2和3B类次数并获得,用于b=1,…,B类.计算第页-价值.
第5步:拒绝假设H(H)03如果第页三α*,其中、和K(K)是簇数。
假设的测试程序H(H)01和H(H)03检查所有可能的簇对,以及假设对H(H)02适用于所有群集。我们注意到,当有两个以上的簇时,K(K)>2,多次试验修正第页-在上述步骤5中,根据Bonferroni校正方法考虑了引导调整的值,以降低假阳性概率。其他调整方法第页-在Westfall和Young中可以找到基于重采样的多重测试的平均值和测试相等性(1993).
C.4款。仿真
bootstrap测试的性能通过拒绝率来证明,拒绝率对应于测试的大小或功率,取决于表中总结的假设和模拟模型5,带有附加符号:E类三=跨度(φ31,φ32),其中φ31(t吨)=2√3(t吨−0.5)和。我们设置观察次数米=每条曲线和簇的大小为20n个1=n个2=50.这里,我们考虑独立且同分布的测量误差N个(0,σ2),其中σ2=0.01,对于设计B1和B2,以及σ2=设计B3和B4时为1。引导样本数为B类=500.我们注意到设计B1和B3满足不可识别条件。表6总结了基于1000次复制的仿真结果。总的来说,每个假设的拒绝概率表明,bootstrap测试在大多数情况下都具有很好的能力和合理的大小,并且两阶段测试可以成功地检测到不可识别的条件。
设计的平均函数. | 以下设计的特征空间:. |
---|
𝒮(1)=𝒮(2). | 𝒮(1)≠𝒮(2). |
---|
μ(1)=μ(2)=米0 | 地下一层:λ(1)=θ1,λ(2)=θ2 | B2层:λ(1)=θ1,λ(2)=θ2 |
| 𝒮(1)=𝒮(2)=E类1 | 𝒮(1)=E类三,𝒮(2)=E类2 |
μ(1)=−μ(2)=√2φ11 | B3:λ(1)=10θ1,λ(2)=10θ2 | B4:λ(1)=10θ1,λ(2)=10θ2 |
| 𝒮(1)=𝒮(2)=E类1 | 𝒮(1)=E类1,𝒮(2)=E类2 |
| μ(1)∈ 𝒮(1),μ(2)∈ 𝒮(2) | 只有μ(1)∈ 𝒮(1) |
设计的平均函数. | 以下设计的特征空间:. |
---|
𝒮(1)=𝒮(2). | 𝒮(1)≠𝒮(2). |
---|
μ(1)=μ(2)=米0 | 地下一层:λ(1)=θ1,λ(2)=θ2 | B2层:λ(1)=θ1,λ(2)=θ2 |
| 𝒮(1)=𝒮(2)=E类1 | 𝒮(1)=E类三,𝒮(2)=E类2 |
μ(1)=−μ(2)=√2φ11 | B3:λ(1)=10θ1,λ(2)=10θ2 | B4:λ(1)=10θ1,λ(2)=10θ2 |
| 𝒮(1)=𝒮(2)=E类1 | 𝒮(1)=E类1,𝒮(2)=E类2 |
| μ(1)∈ 𝒮(1),μ(2)∈ 𝒮(2) | 只有μ(1)∈ 𝒮(1) |
设计的平均函数. | 以下设计的特征空间:. |
---|
𝒮(1)=𝒮(2). | 𝒮(1)≠𝒮(2). |
---|
μ(1)=μ(2)=米0 | 地下一层:λ(1)=θ1,λ(2)=θ2 | B2层:λ(1)=θ1,λ(2)=θ2 |
| 𝒮(1)=𝒮(2)=E类1 | 𝒮(1)=E类三,𝒮(2)=E类2 |
μ(1)=−μ(2)=√2φ11 | B3:λ(1)=10θ1,λ(2)=10θ2 | B4:λ(1)=10θ1,λ(2)=10θ2 |
| 𝒮(1)=𝒮(2)=E类1 | 𝒮(1)=E类1,𝒮(2)=E类2 |
| μ(1)∈ 𝒮(1),μ(2)∈ 𝒮(2) | 只有μ(1)∈ 𝒮(1) |
设计的平均函数. | 以下设计的特征空间:. |
---|
𝒮(1)=𝒮(2). | 𝒮(1)≠𝒮(2). |
---|
μ(1)=μ(2)=米0 | 地下一层:λ(1)=θ1,λ(2)=θ2 | B2层:λ(1)=θ1,λ(2)=θ2 |
| 𝒮(1)=𝒮(2)=E类1 | 𝒮(1)=E类三,𝒮(2)=E类2 |
μ(1)=−μ(2)=√2φ11 | B3条:λ(1)=10θ1,λ(2)=10θ2 | B4:λ(1)=10θ1,λ(2)=10θ2 |
| 𝒮(1)=𝒮(2)=E类1 | 𝒮(1)=E类1,𝒮(2)=E类2 |
| μ(1)∈ 𝒮(1),μ(2)∈ 𝒮(2) | 只有μ(1)∈ 𝒮(1) |
案例. | 以下设计的结果:. |
---|
地下一层. | 地下二层. | 地下三层. | B4类. |
---|
拒绝概率 |
H(H)01:𝒮(1)=𝒮(2) | 0.065† | 1‡ | 0.053† | 1‡ |
H(H)02:μ(1)∈ 𝒮(1) | 1‡ | 1‡ | 0.013† | 0.013† |
H(H)02:μ(2)∈ 𝒮(2) | 0.984‡ | 1‡ | 0.014† | 1‡ |
H(H)03:μ(1)=μ(2) | 0.045† | 0.054† | 1‡ | 1‡ |
通过两阶段测试的概率 |
H(H)01和H(H)02 | 0 | 0 | 0.947 | 0 |
H(H)01和H(H)03 | 0.893 | 0 | 0 | 0 |
H(H)01以及(H(H)02或H(H)03) | 0.893 | 0 | 0.947 | 0 |
案例. | 以下设计的结果:. |
---|
地下一层. | 地下二层. | 地下三层. | B4类. |
---|
拒绝概率 |
H(H)01:𝒮(1)=𝒮(2) | 0.065† | 1‡ | 0.053† | 1‡ |
H(H)02:μ(1)∈ 𝒮(1) | 1‡ | 1‡ | 0.013† | 0.013† |
H(H)02:μ(2)∈ 𝒮(2) | 0.984‡ | 1‡ | 0.014† | 1‡ |
H(H)03:μ(1)=μ(2) | 0.045† | 0.054† | 1‡ | 1‡ |
通过两阶段测试的概率 |
H(H)01和H(H)02 | 0 | 0 | 0.947 | 0 |
H(H)01和H(H)03 | 0.893 | 0 | 0 | 0 |
H(H)01以及(H(H)02或H(H)03) | 0.893 | 0 | 0.947 | 0 |
案例. | 以下设计的结果:. |
---|
地下一层. | 地下二层. | 地下三层. | B4类. |
---|
拒绝概率 |
H(H)01:𝒮(1)=𝒮(2) | 0.065† | 1‡ | 0.053† | 1‡ |
H(H)02:μ(1)∈ 𝒮(1) | 1‡ | 1‡ | 0.013† | 0.013† |
H(H)02:μ(2)∈ 𝒮(2) | 0.984‡ | 1‡ | 0.014† | 1‡ |
H(H)03:μ(1)=μ(2) | 0.045† | 0.054† | 1‡ | 1‡ |
通过两阶段测试的概率 |
H(H)01和H(H)02 | 0 | 0 | 0.947 | 0 |
H(H)01和H(H)03 | 0.893 | 0 | 0 | 0 |
H(H)01以及(H(H)02或H(H)03) | 0.893 | 0 | 0.947 | 0 |
案例. | 以下设计的结果:. |
---|
地下一层. | 地下二层. | 地下三层. | B4类. |
---|
拒绝概率 |
H(H)01:𝒮(1)=𝒮(2) | 0.065† | 1‡ | 0.053† | 1‡ |
H(H)02:μ(1)∈ 𝒮(1) | 1‡ | 1‡ | 0.013† | 0.013† |
H(H)02:μ(2)∈ 𝒮(2) | 0.984‡ | 1‡ | 0.014† | 1‡ |
H(H)03:μ(1)=μ(2) | 0.045† | 0.054† | 1‡ | 1‡ |
通过两阶段测试的概率 |
H(H)01和H(H)02 | 0 | 0 | 0.947 | 0 |
H(H)01和H(H)03 | 0.893 | 0 | 0 | 0 |
H(H)01以及(H(H)02或H(H)03) | 0.893 | 0 | 0.947 | 0 |
©2007英国皇家统计学会