Structured Functional Principal Component Analysis

Shou, Haochang; Zipunnikov, Vadim; Crainiceanu, Ciprian M.; Greven, Sonja

doi:10.1111/biom.12236

总结

受现代观察性研究的启发，我们引入了一类扩展嵌套和交叉设计的函数模型。在以函数或图像为基本单位的研究中，这些模型解释了抽样设计中相关结构的自然遗传。推理基于函数求积及其与潜在过程的潜在协方差结构的关系。针对高维数据，开发了一种计算速度快、可扩展的估算程序。方法用于日常活动的高频加速度计数据、语音分析的音高语言数据以及研究睡眠期间大脑电活动的脑电图数据。

多级相关结构,函数线性混合模型,功能主成分分析,潜在过程,方差分量

1引言

在当前的许多研究中，功能测量具有明确定义的随机结构，由实验设计或数据的科学意义引起。例如，睡眠心脏健康研究（SHHS）(Quan等人。，1997;Crainiceanu等人。，2009;Di等人。，2009)收集了数千名受试者在两次就诊时的脑电图（EEG）数据，大约相隔5年。每次就诊时，睡眠期间以125 Hz的频率记录脑电图数据。因此，对于每个受试者和访问，数据包含每秒125次观察。Crainiceanu等人。(2009)将傅里叶变换应用于原始数据并获得归一化功率作为密集采样的平稳时间序列。这些数据有一个自然的层次结构，由每个受试者的重复访问引起。更准确地说，可以表示访问的电源功能j个主题的我时间t吨睡眠开始后⁠可以分解为特定主题的流程以及主题内参观流程这量化了与特定对象平均值的偏差。Bai等人提供了第二个例子。(2012)在最近一项关于老年人体育活动的研究中。在本研究中，每个受试者都佩戴一个加速度计，以10 Hz的采样频率记录在家中活动期间的三轴加速度。Bai等人。(2012)引入了活动强度，以非活动期信号标准差的倍数表示的活动度量。每十分之一秒计算一次活动强度。图1显示五名受试者在5天内平均超过15分钟的活动强度，以提高显示清晰度。分析这些数据的一种可能性是关注非重叠一小时间隔的活动强度。因此，每个受试者每天的数据包含24小时内每小时36000次活动测量。这可以看作是一个三级层次结构：主题中的一天中的一小时。更具体地说，让是当时的活动强度t吨一小时内k在当天j个对于主题我除了主题特定流程以及日常主题流程⁠，变化的剩余部分可以用小时特定流程来解释它量化了小时偏差k从一天的平均值j个对于主题我.

4名受试者5天内的活动强度测量。原始数据包含每秒10次观察。该图显示了非重叠15分钟间隔内活动强度的平均值，以提高显示清晰度。

图1

4名受试者5天内的活动强度测量。原始数据包含每秒10次观察。该图显示了非重叠15分钟间隔的活动强度平均值，以提高显示清晰度。

新标签中打开下载幻灯片

阿斯顿、邱和埃文斯(2010)描述了一项不同的语音分析研究，其中作者对研究口语的基频（F0，“音高”）感兴趣。特别是，他们记录了中国罗布寨羌方言8位母语人士发音的19个名词的F0音节轮廓。假设我们使用表示音节在j个按主语发音的第个单词我.每个包含多条曲线，由k因为一个单词中有多个音节，每个单词都是在三种不同的上下文中说出的。每条曲线均根据相应元音的总持续时间进行标准化，并在11个等距时间点进行采样。图2显示了由三个说话者说出的三个不同单词组成的元音的F0等值线示例。我们观察到：（a）曲线的形状与元音密切相关；（b）不同的说话者和单词之间有很大的差异。例如，说话人“a”的平均音高比其他两个低。给定元音“i”，单词3的曲线显示出陡峭的上升模式，并在元音末尾衰减。但是单词2（用三角形符号标记）中的曲线都是拱形的。受到至少两个随机成分的共同影响：单词-一般效应和扬声器的固有效果⁠与分层模型不同，这两个随机分量相互独立，但在音高轮廓上相互作用。

F0‐三个说话者说出的三个单词的轮廓（三角形表示单词2，圆点表示单词3，乘法符号表示单词4）（说话者“a”的颜色最浅，说话者的颜色“c”的颜色稍深，说话人“g”的颜色也最深）。当八个说话者中的一个说出特定单词时，在元音（“”、“a”、“e”、“i”或“u”）中的11个等距时间点测量每个轮廓。每个单词都在三种不同的上下文中重复。

图2

F0‐三个说话者说出的三个单词的轮廓（三角形表示单词2，圆点表示单词3，乘法符号表示单词4）（说话者“a”的颜色最浅，说话者的颜色“c”的颜色稍深，说话人“g”的颜色也最深）。每个轮廓都是在一个元音（““、”a“、”e“、”i“或”u“）当八个说话者中的一个说出某个特定单词时。每个单词都在三种不同的上下文中重复。

新标签中打开下载幻灯片

尽管这三项研究有不同的设计，但它们有一些共同的特点：（1）基本观测单位是一个高维函数；（2）数据具有抽样设计诱导的已知结构；和（3）分析个体水平的变异性是有趣的。本文的一个目标是定义一大类具有显式功能效果组件的结构化功能模型；特别是，模型类将包含三个示例中观察到的结构。我们将重点关注共同结构，并为所有这些模型提供一致的统计框架。第二个目标是通过不相关的潜在过程来描述观察到的可变性。通过对这些协方差算子的估计和对角化，我们将实现对原始数据的降维和对诱导线性空间的统计建模。从直观的角度，本文展示了当数据具有特定的已知和常见的潜在相关性结构时，如何进行主成分分析（PCA）。

本文中的结构化函数模型属于函数线性混合模型（FLMM）框架(Guo，2002年;Herrick和Morris，2006年;莫里斯和卡罗尔，2006年)在模型拟合中主要使用样条函数或小波平滑。Brumback和Rice(1998)和Guo(2004)专门研究了功能嵌套和交叉设计。最近的作品如Staicu、Crainiceanu和Carroll(2010)和Zhou等人。(2010)在嵌套模型中考虑空间相关性。虽然所有这些模型都可以被视为FLMM的特殊情况，但模型拟合和推断仍然很困难，目前是在逐个模型的基础上进行的。我们的结论是，之前的这些文章都没有讨论过这里讨论的复杂功能结构类。此外，还没有针对高维数据的快速算法。我们的目标是引入一种数据驱动的方法，该方法既适用于嵌套设计，也适用于交叉设计，但可推广到更广泛的模型空间。我们引入了潜在过程，以使用标准混合效应模型中的相同概念捕获显式变化水平。唯一的区别是随机效应现在被随机过程所取代。通过潜在过程协方差算子的主成分分解和高维数据的无损失预测实现计算可行性。这些方法在方法论上与主成分分析分解有关(斯坦尼斯瓦利斯和李，1998年;Yao等人。，2003;姚、米勒和王，2005年;Di等人。，2009;Aston等人。，2010;Greven等人，2010年). 其中，Aston等人。(2010)将整个函数投影到向量空间中，其中向量项是函数的前几个主要分数。通过将主得分与协变量联系起来的多重线性混合效应模型，他们能够评估协变量对结果函数的影响。或者，多级功能PCA(MFPCA，Di等人。[2009])在双向嵌套模型中分解受试者内部和受试者之间的协方差算子，而推断是基于由可变性水平分隔的分数。纵向功能PCA(LFPCA、Greven等人。[2010])使用类似的方法对多次就诊时功能观察的纵向动态进行建模。在本文中，我们将这些思想推广到分析在最常见的嵌套和交叉设计下收集的功能观测，并扩展功能数据的模型数量和类型。我们提出了结构化功能主成分分析（SFPCA），作为一种通过PCA分解具有特定线性结构的任何功能模型的可变性的方法。我们声称SFPCA是FLMM高效处理密集和高频测量的第一个算法。

我们将文章组织如下：在第节2，我们提供了SFPCA应用于的结构化函数模型列表，并将其与Koch中描述的对称矩和法（MoM）估值器连接起来(1968); 章节三讨论SFPCA及其实施，并扩展到高维设置；章节4描述了低维、高维和噪声设置的模拟研究；章节5将SFPCA应用于第节中描述的科学问题1.

2结构化功能模型

科赫(1967)提供了各种实验设计产生的标量数据的线性模型的综合列表。我们认为，这些模型对函数数据有自然的扩展，可以通过分解相应的协方差算子来分析这些模型。表1列出了根据采样方案分组的建议设计(Brumback和Rice，1998年;郭，2002;Yao等人。，2005;莫里斯和卡罗尔，2006年;Baladandayuthapani等人。，2008;Di等人。，2009;Staicu等人。，2010;Zhou等人。，2010;刘和郭，2012).

表1

新标签中打开

结构化功能模型。对于嵌套模型，⁠;⁠, ⁠.对于交叉设计， ⁠; （C2s）“双向接头”代表“双向交叉设计，带次级取样”；（CM）包含任何r潜伏过程的子集，以及每个细胞内的重复测量。 ⁠，u是细胞内重复观察的指数⁠.白噪声分布为

嵌套

（N1）单向

（N2）双向

（N3）三通

（NM）多路

交叉的

（C2）双向

（C2）双向接头

（CM）多路

让指出观察到的结果函数。最通用的模型格式是⁠，其中是平均曲线或固定效应，是白噪音。假设潜在过程是零均值和平方可积的，因此它们是可识别的，标量结果的标准统计假设可以反映功能数据。因此，功能结果的总可变性被分解为过程特定变化加上⁠这些模型捕获了现代功能数据研究中的各种相关结构。在下文中，我们建立了功能嵌套和交叉设计背后的直觉，并将它们与引言中讨论的数据示例联系起来。出于演示目的，我们首先假设“无噪音”模型，其中⁠。我们的方法在第3.4节.

2.1嵌套设计

单向嵌套模型（N1）是功能数据最简单的方差分量模型。在（N1）中，观察到的结果表示为确定性平均函数的总和，⁠以及特定于级别的随机过程⁠.假设为i.i.d.，具有均值零和协方差算子⁠;可以认为是标量协方差的函数对应物。的可变性完全取决于⁠也就是说，⁠.在常规功能数据分析中(拉姆齐和西尔弗曼，2005年),将通过一组样条或小波基或数据驱动的主成分来表示(拉姆齐和西尔弗曼，2005年;Di等人。，2009;Greven等人。，2010). 不考虑基本函数，由表示系数的前两个矩和基函数的二次形式决定。

双向功能嵌套设计（N2）在功能上等同于单向方差分析（ANOVA）模型。最初的动机是SHHS中EEG数据的双向采样设计(Di等人。，2009)，模型通过特定主题访问流程扩展（N1）有协方差的⁠因此，观察到的被分解为特定受试者和特定受试访问的可变性。这两个部分通过和–的函数协方差运算符和⁠为了确保可识别性，随机过程和假设平均值为零且不相关。这种假设也保证了⁠.

模型中可以包含其他嵌套级别，以适应更高的层次结构。例如，三向嵌套模型（N3）为第节中描述的活动强度数据建模提供了适当的框架1除了主题特定流程以及受试者访视的具体流程，⁠，中的其余变量通过建模⁠，它量化了与一天平均活动强度水平的每小时偏差j个对于主题我最通用的功能嵌套模型（NM）允许任意多个嵌套级别。如果活动强度持续数周或数月，考虑到每周或每月可能重复的活动模式，四向或五向模型可能更具描述性。与前面的模型一样，模型可识别性也要求相互独立。总可变性可分解为特定级别的功能方差分量，如下所示⁠，其中⁠。这里我们使用表中的符号1对于具有任意级别数（NM）的多级层次模型。

2.2交叉设计

另一组设计允许跨层。例如，双向交叉设计（C2）是具有交互项的双向方差分析的函数模拟。它强调两个不相关过程的联合作用和⁠以及它们的相互作用⁠，关于结果⁠.带有次级抽样（C2）的双向交叉模型适用于在每个组合中重复测量的实验设计由一级过程引起和⁠除了一级交叉口如（C2）所示，解释了重复中的变化。对于语音示例，和模拟演讲者和单词的主要效果，而为他们的互动建模。由于多次轮廓可能属于类别⁠，我们使用捕捉残余变化。

一般来说，我们可以考虑具有任意数量交叉点的双向交叉功能模型（CM）。在这个模型中，第页不相关的潜在过程对⁠。的任何子集秒(⁠⁠)个进程，共个第页可能有交互作用，导致d日模型中的函数加性项。为了方便记法，我们使用d日子指标集，定义模型结构的。例如，具有四个术语的（C2）可以写成和⁠,⁠,⁠、和⁠对相关结构的假设与之前的设计保持一致。我们现在展示如何有效地估计这些模型。

3结构化功能PCA

我们开发SFPCA以有效地降低维度并提取第节中介绍的功能模型类的信号2该方法通过Karhunen–Loéve展开的主成分（PC）对潜在过程进行了简约建模。SFPCA从估计潜在过程的协方差算子开始。跟随科赫(1968)，我们采用基于对称和的MoM方法。通过将他的方法推广到函数设置，我们在第页点⁠在估计协方差算子后，我们进行谱分解，以获得特征函数和主分数，它们在特征函数跨越的空间中充当坐标。请注意，固定效应不属于我们的主要兴趣，可以使用现有方法进行估计。在不失一般性的情况下，我们假设数据已经被贬低了，我们主要关注随机效应。

我们使用双向交叉设计（C2）作为主要示例。表中其他型号的详细信息1见附录B。让⁠,和是相互不相关的均零随机过程，如第节所述2。它们的协方差运算符为⁠,⁠、和⁠，其中⁠,和⁠.使用Karhunen–Loéve扩展和⁠，型号（C2）变为

(1)

哪里⁠,⁠、和是协方差算子的特征函数⁠,⁠、和⁠.分数⁠,⁠、和是相互独立的随机变量，平均值为0，方差为⁠,⁠、和⁠，其中⁠,⁠、和对于每个k,我、和米。分数的正态性对于本文的结果是不必要的，但可以是一个方便的温和假设。

3.1能级特定光谱分解

考虑第一个过程捕捉到每个潜在过程的最大可变性的情况⁠,⁠、和的主要成分⁠,⁠、和⁠，模型（1）可以近似为我们将离散采样点上的功能结果矢量化⁠，并定义成为一名矩阵，带有和⁠。为了简化符号，我们假设一个平衡的设计，其中⁠尽管这样的假设是不必要的。让和成为第一个时间网格中观察到的主成分⁠类似定义适用于和⁠因此，截断模型进一步表示为矩阵形式⁠.

我们将在下一节中展示如何获得⁠,⁠、和⁠。考虑到此类估算值的可用性，我们得出⁠,⁠、和成为他们的第一个⁠,⁠、和特征向量，其中被选中，以便和q个是介于之间的阈值⁠.表示相应协方差矩阵的估计特征值⁠,⁠、和是第一个的对角矩阵⁠,⁠、和特征值。我们可以将截断的主分数集估计为混合效应模型的最佳线性无偏预测因子（BLUP）⁠，其中⁠,和⁠附录A中提供了双向交叉模型（C2）和三向嵌套模型（N3）的BLUP估计量。

3.2 MoM协方差算子估计

通过扩展Koch中对称和MoM估计的概念(1968)，我们显示了我们估计的协方差矩阵的形式⁠,⁠、和⁠，其中⁠,⁠、和是特定于设计的尺寸矩阵⁠事实上，对于所有结构函数模型，协方差算子的MoM估计都可以用“三明治”形式表示，⁠我们说明了双向交叉设计（C2）和三向嵌套设计（N3）协方差算子的详细计算。其他设计方案的结果见附录B。

3.2.1双向交叉设计（C2）

对于模型（C2），我们有

让如果观察到，否则为0；⁠,⁠,⁠,⁠、和⁠.定义具有⁠,和⁠.具有尺寸的⁠,是第二级类比⁠，其中是二级过程观测值为1的向量否则为0。如果⁠,⁠、和⁠，则上面的结果指示以下内容明确的MoM估算器

因此，协方差算子可以估计为⁠,和⁠.

3.2.2三向嵌套模型

考虑模型（N3），其中和W公司,U型、和X（X）是按顺序嵌套的三个潜在过程。与（C2）的方法类似，我们有

让⁠,⁠,⁠, ⁠,⁠.哪里⁠、和⁠，其中⁠;⁠,⁠.如果⁠,和⁠，我们获得

(2)

因此，⁠,⁠、和都有表格⁠通常，可以通过类似的工作流程来估计多向嵌套和交叉设计（详见附录B）。

3.3结构化高维数据

鉴于当前的研究重点是高维数据，线性模型仍然难以拟合。这里我们展示了表中描述的整个模型类1可以使用快速方法安装。请注意，前几节中的估计程序假设可以构造和分解协方差算子的MoM估计。当观测值的维数，第页，中等，第节中描述的方法三都很简单。然而，如果观察结果是高维的，例如⁠000美元，该方法不再可行。计算和存储第页维数协方差算子计算成本很高，并且进行频谱分解将变得非常困难。假设数据是由低阶固有特征生成的，则可以对数据进行平滑和降采样。但在许多情况下，数据被密集采样，以便我们探索更精细的信息，我们希望保持高分辨率。因此，我们提出了一种基于秩保持变换的替代方法。该算法允许有效计算特征函数和特征值，而无需在高维空间中存储或对角化估计协方差矩阵。

我们将算法概述如下。在本节中，我们假设⁠因此，诱导协方差矩阵的秩最多n个Zipunnikov等人。(2011)提出一种避免计算原始协方差算子的方法第页尺寸空间。以（C2）为例：其思想是将模型映射到低维空间并获得⁠，其中矩阵应为尺寸和⁠.任意选择将丢失来自第页尺寸数据。然而，我们可以证明我们能够找到这样的话跨越一个保留原始数据空间中的顺序和重要功能的空间。一个可能的选择是从整个数据矩阵开始，⁠，其可以通过列绑定各个数据向量来获得，⁠。假设是的奇异值分解（SVD）⁠，让⁠.鉴于此⁠，降维空间中的数据包含来自原始空间的足够信息。

模型变为⁠Zipunnikov等人的定理1。(2011)表明此转换保留了线性PCA模型的全部信息。原始模型的本征函数可以通过左乘来恢复对于在新模型中获得的特征函数，特征值保持不变。这很容易实现，因为SVD中涉及的操作数量在中是线性的第页。获得的SVD后⁠，每列可以表示为⁠，其中是矩阵的相应列⁠因此，向量仅通过因素不同长度的n个，这是低维的。比较以下SVD表示在原始模型（C2）中，由高维潜在过程建模的可变性的结构化分离⁠,⁠、和在低维向量的结构化分离中是相同的⁠这是激发我们方法的关键观察结果。该模型具有由样本大小引起的“内在”维度n个使用第节中的SFPCA可以估算低维模型三并且只需要计算。

我们获得⁠,⁠、和作为低维模型中的诱导BLUP，使用矩阵⁠,⁠、和替换为相应的估计⁠,⁠、和⁠此外，⁠,⁠、和在原始空间中可以通过左乘恢复到上面⁠,⁠、和⁠我们在附录A中提供了双向交叉模型（C2）和三向嵌套模型（N3）的最终估算公式及其详细推导。直到最后一步，所有计算都可以在复杂性。因此，在降维空间中拟合模型可以确保高维主成分在p线性时间内。这意味着可以快速拟合高维数据集的复杂统计模型。

3.4有噪声模型

到目前为止，我们假设数据是在没有噪声的情况下测量的。然而，该算法可以自然地扩展到“噪声模型”。当噪声分量在函数域上具有平滑的协方差结构，并且可以表示为另一个潜在过程，例如模型（N2）和在型号（N3）中，SFPCA直接适用。当有白噪音时沿着功能和⁠，我们提出了几种平滑原始数据或协方差矩阵估计量的方法。

以模型（N3）为例，假设观测数据为⁠.等式中的对称和MoM估计量(2)成为和⁠，其中⁠对于秩保留投影的低维数据第3.3节我们估计没有必要通过平滑非对角表面就像斯坦尼斯瓦利斯和李一样(1998)，并像在“无噪声”场景中那样继续使用SFPCA算法。然而，在将这种方法应用于高维功能数据时，我们遇到了许多困难。首先，在计算上不可能对协方差矩阵，⁠，000.其次，尽管白噪声在投影到低维空间时仍保持不变，但特征值和主分数之间的一对一映射第页尺寸模型和简化模型n个在降维空间中平滑协方差矩阵后，维模型不再成立。

因此，我们建议在执行SFPCA之前通过平滑原始数据进行预处理。原始数据的信号与预处理数据的平滑度之间存在权衡。正如我们在模拟设置中所观察到的，平滑数据的第一个特征值通常被低估。高维函数数据的另一种方法是应用快速协方差估计（FACE）算法的“结构化”扭曲(Xiao、Li和Ruppert，2014年;Xiao等人2013). 他们的算法在样本协方差矩阵上实现了计算速度快的三明治平滑器⁠，直接提供特征值和特征函数，而无需显式构造平滑协方差矩阵。由于SFPCA技术中每个潜在过程的协方差矩阵具有统一的三明治表达式⁠，我们可以定义新的数据矩阵并直接将FACE应用于⁠。有关更多详细信息，请参阅该文章。

4模拟

为了更好地了解SFPCA在实践中的表现，我们在各种实验设计和信噪比下对低维和高维功能数据进行了模拟研究。

(3)

对于三向嵌套模型（N3），我们基于真实模型3生成高维数据，其中⁠;⁠,⁠;⁠;⁠,000,⁠,⁠、和⁠特征函数规定为

我们改变白噪声的标准偏差为0、0.1、0.5和1，并在每个场景下进行100次模拟。为了比较估计精度⁠,⁠、和被视为已知。图三显示了估计的特征函数⁠.总体上，功能的形状得到了很好的恢复。当我们从低处出发时(⁠⁠)到更高(⁠⁠)层次结构中，由于特定级别的样本量增加，估计变得更好。在每个潜在过程中，前几个具有较大特征值的特征函数比后几个特征函数估计得更好。表2列出了估计的均方误差以及不同信噪比下的特征值。有关此模拟的更多结果，请参阅附录C。

表2

新标签中打开

100多个模拟的平均MSE用于估算⁠不同信噪比下的特征值和主得分。这些值增加了100倍，以便更好地呈现



0	3.2	0.9	0.2	0.1	1.2	0.3	0.1	0.02	0.2	0.1	0.01	2E‐3号机组
0.1	4.5	0.9	0.2	0.1	1.3	0.7	0.2	0.2	0.2	0.1	0.02	8E‐3号机组
0.5	5	1.6	1.4	0.4	1.3	9.3	3.2	1	6.5	6.7	3.5	2.7
1	8	5	2.8	0.6	2	15.5	4.1	0.8	102	101	33.6	21.7


2017年2月	14.7	11.2	7.6	136	120	4.5	2.5	2	20.2	8.1	0.5	2.6
3E‐8号机组	42.7	18.2	5.5	34.7	305	5.6	3.2	2	280	30.5	9.9	15.8
4E‐7	267	129.2	17.7	22.2	1660	22.8	12	19.1	1623	226	161	102
1E‐6级	370	159	36.1	22.5	1657	50.1	58.3	31.7	1677	466	245	153



0	3.2	0.9	0.2	0.1	1.2	0.3	0.1	0.02	0.2	0.1	0.01	2E‐3号机组
0.1	4.5	0.9	0.2	0.1	1.3	0.7	0.2	0.2	0.2	0.1	0.02	8E‐3号机组
0.5	5	1.6	1.4	0.4	1.3	9.3	3.2	1	6.5	6.7	3.5	2.7
1	8	5	2.8	0.6	2	15.5	4.1	0.8	102	101	33.6	21.7


2017年2月	14.7	11.2	7.6	136	120	4.5	2.5	2	20.2	8.1	0.5	2.6
3E‐8号机组	42.7	18.2	5.5	34.7	305	5.6	3.2	2	280	30.5	9.9	15.8
4E‐7	267	129.2	17.7	22.2	1660	22.8	12	19.1	1623	226	161	102
1E‐6级	370	159	36.1	22.5	1657	50.1	58.3	31.7	1677	466	245	153

表2

新标签中打开

100多个模拟的平均MSE用于估算⁠不同信噪比下的特征值和主得分。这些值增加了100倍，以便更好地呈现



0	3.2	0.9	0.2	0.1	1.2	0.3	0.1	0.02	0.2	0.1	0.01	2E‐3号机组
0.1	4.5	0.9	0.2	0.1	1.3	0.7	0.2	0.2	0.2	0.1	0.02	8E‐3号机组
0.5	5	1.6	1.4	0.4	1.3	9.3	3.2	1	6.5	6.7	3.5	2.7
1	8	5	2.8	0.6	2	15.5	4.1	0.8	102	101	33.6	21.7


2017年2月	14.7	11.2	7.6	136	120	4.5	2.5	2	20.2	8.1	0.5	2.6
3E‐8号机组	42.7	18.2	5.5	34.7	305	5.6	3.2	2	280	30.5	9.9	15.8
4E‐7	267	129.2	17.7	22.2	1660	22.8	12	19.1	1623	226	161	102
1E‐6级	370	159	36.1	22.5	1657	50.1	58.3	31.7	1677	466	245	153



0	3.2	0.9	0.2	0.1	1.2	0.3	0.1	0.02	0.2	0.1	0.01	2E‐3号机组
0.1	4.5	0.9	0.2	0.1	1.3	0.7	0.2	0.2	0.2	0.1	0.02	8E‐3号机组
0.5	5	1.6	1.4	0.4	1.3	9.3	3.2	1	6.5	6.7	3.5	2.7
1	8	5	2.8	0.6	2	15.5	4.1	0.8	102	101	33.6	21.7


2017年2月	14.7	11.2	7.6	136	120	4.5	2.5	2	20.2	8.1	0.5	2.6
3E‐8号机组	42.7	18.2	5.5	34.7	305	5.6	3.2	2	280	30.5	9.9	15.8
4E‐7	267	129.2	17.7	22.2	1660	22.8	12	19.1	1623	226	161	102
1E‐6级	370	159	36.1	22.5	1657	50.1	58.3	31.7	1677	466	245	153

100个模拟中三个潜在过程的估计特征函数以灰色显示（我们随机绘制了100个估计值中的50个）。真正的特征函数显示在黑色曲线中。一级和二级层次结构X和U由两组三角基表示。第三级过程W是多项式。在每个过程中，与较大方差解释百分比对应的前几个特征函数比后几个特征函数估计得更好。与X和U相比，W的本征函数估计得更好，因为我们观察到W的独立实现水平更高。

图3

当以灰色显示（我们随机绘制了100个估计值中的50个）。真正的特征函数显示在黑色曲线中。一级和二级层次结构X（X）和U型由两组三角基捕获。第三级流程W公司是多项式。在每个过程中，与较大方差解释百分比对应的前几个特征函数比后几个特征函数估计得更好。的本征函数W公司估计比X（X）和U型因为我们观察到更多水平的独立实现W公司.

新标签中打开下载幻灯片

我们还通过平滑非对角矩阵，在不同样本大小下对（C2）模型进行了仿真研究。结果也显示在附录C中。

5数据应用

SFPCA可以应用于各种类型的结构化数据，包括引言中讨论的三个示例。Di等人对SHHS数据进行了详细分析。(2009)使用MFPCA，这是本文所考虑方法的一个特例。这里我们提供语音研究和加速度计数据的结果。

5.1语音研究

罗布寨羌方言的语音研究由8名被试在3种语境下说出19个单词的F0等值线组成。每个单词最多包含4个音节，每个音节对应五个元音之一：““”、“a”、“e”、“i”和“u”。轮廓的音高值是在11个等距时间点测量的，这些时间点是基于元音的总持续时间标准化的。如前所述，考虑到平衡的研究设计，轮廓的边缘形状与相关元音相关。此外，每条曲线都显示了特定于说话人和单词的变体。为了用相对简单的规范评估这些协变量的影响，Aston等人。(2010)假设所有潜在过程都在由一组共同的本征函数扩展的同一空间上，并且协变量通过本征函数的主得分（权重）与音调水平相关联。在这里，我们放松了这些假设，并尝试全面评估数据结构所指示的每个潜在过程的可变性。我们拟合了一个带有子采样（C2）的双向交叉模型，如表所示1但要吸收说话人的话语互动进入之内⁠更具体地说，观察到的节距轮廓建模为⁠，其中是由元音决定的固定效果““，”a“，”e“，”i“，”u“⁠,和是扬声器的两个独立的一级随机效果和单词⁠分别是。解释了所有剩余的变化，如音节的音调、重音和语调。通过应用SFPCA算法，我们提取PC，如图所示4.

过程的主要成分，并使用双向交叉模型和子抽样（C2）来分析语音数据。顶行显示了前四台PC用于特定于扬声器的效果，而第二行显示PC用于单词效果。绘图窗口中列出了每个潜在过程中每个主成分解释的变化比例。行前面显示了由潜在过程解释的总变化的估计百分比。

图4

工艺主要部件⁠,⁠、和使用双向交叉模型和子抽样（C2s）来分析语音数据。顶行显示了前四台电脑的扬声器特定效果⁠，而第二排显示电脑的文字效果⁠绘图窗口中列出了每个潜在过程中每个主成分解释的变化比例。行前面显示了由潜在过程解释的总变化的估计百分比。

新标签中打开下载幻灯片

特定说话人与总体平均值的偏差解释了45%的数据总变化，其中大多数（99.86%）是由第一台PC捕获的，该PC表示随着时间的推移权重相等。同样，PC 1用于单词特定过程随着时间的推移也保持不变。这与Aston等人的研究结果一致。(2010)：扬声器或单词之间的大多数变化都是由平均音高水平的“偏移”引起的。然而，并没有像Aston等人那样进一步对总体主分数进行建模，以确定“转变”是依赖于说话者还是单词。(2010)，我们可以声称对应于说话人异质性和解释了单词的差异。在99%的阈值下，我们只保留一台电脑⁠，两个用于三个用于⁠选择更多的PC来代表和意味着由固有的单词和音节效应引起的更大的复杂性。为了进一步评估说话人或单词相关协变量的影响，我们可以专门对每个潜在过程的主要得分进行回归分析。

此外，通过SFPCA，我们可以量化相对影响大小(Shou等人。，2013)基于以下解释的变异部分的说话人与单词的对比或（图中45%对12%4)表明主题异质性大约是单词间差异的3倍。事实上，这也有助于我们选择当前的模型而不是模型因为估计的变化解释为与其他潜在过程相比可以忽略不计。使用Aston等人的非常有趣的分析无法获得此类评估。(2010)，因为它需要对功能空间进行显式建模。这两种方法是互补的，应在具体应用中加以考虑。

5.2加速计数据

在加速计研究中，每个参与者在活动期间（起床后和睡觉前）记录了5天的活动强度值，这些值是使用Bai等人开发的方法确定的。(2012). Bai等人。(2012)主要关注基于三轴加速度计记录的运动类型预测。在这里，我们更感兴趣的是使用相同的数据集来评估人口和日常能源支出的可变性。如图所示1表示每小时有一个周期模式，我们将观察到的曲线建模为三个层次：每个受试者的日内小时数。

三向嵌套模型（N3）用于分解数据方差。对于每小时包含36000次测量的原始数据集，我们可以使用第节中描述的方法实施SFPCA3.3用于高维数据。然而，为了了解日常活动的昼夜节律模式，通过平均每分钟内的能量消耗来平滑数据，并对汇总数据进行SFPCA，可以提供更多信息。为了简单起见，我们还截短了研究结束时未完成一个小时的观察结果。因此，每个曲线有60个测量值，每个受试者每天最多有19个曲线。图中显示了三级潜在过程的前四个主要成分5患者特定流程的第一部分解释了人群中平均活动水平的异质性。而剩下的少数人在一小时内表现出单峰或双峰能源消耗模式。与特定受试者和特定时间的影响相比，日间变化（8.3%）占总变化的比例要小得多。总可变性的大部分（约76%）包含在逐小时异质性中。这从数量上表明，人们每天都遵循类似的日常生活，但他们的能量消耗在一天内会发生巨大变化，这取决于他们在特定时间内所参与的活动类型。不同过程的相对影响大小也可以像前面的例子那样进行评估。

过程的主要组件，并使用三向嵌套模型（N3）分析加速计数据。图中列出了每个PC分量解释的变化比例。顶行显示患者特定效应的前四个PC分量，第二行显示日特定效应的结果，第三行是小时特定效应的估计主分量。左侧标记了每个潜在过程解释的变化比例。

图5

工艺主要部件⁠,⁠、和使用三向嵌套模型（N3）分析加速度计数据。图中列出了每个PC分量解释的变化比例。顶行显示了患者特定效果的前四个PC组件⁠，第二行显示特定日期效果的结果第三行是小时效应的估计主成分⁠左侧标记了每个潜在过程解释的变化比例。

新标签中打开下载幻灯片

6讨论

许多功能研究的定义特征是存在与实验设计相关的特定结构，这可能直接影响推理。因此，对以下方法的需求与日俱增：（1）尊重研究设计；（2）建立多层次变化模型；（3）在高维计算上是可行的。为了响应这一需求，我们引入了一类包含嵌套和交叉设计的结构化功能模型，并提出了一个分析这些模型的统计框架SFPCA。给定潜在过程的独立性假设，随机过程的方差算子完全捕获观测结果的协方差结构。SFPCA是一套有效的工具，它使用统一的协议估计和分析所有模型的协方差结构。它使用功能PCA进行降维和特征提取。

广泛的模拟研究清楚地表明了该方法在恢复潜在过程的特定级别特征方面的巨大潜力。当我们将SFPCA应用于收集加速度和语音数据的两项研究时，我们能够区分数据中固有的不同层次的影响。与科赫第5段类似(1967)，我们的方法可以扩展到协方差矩阵在不同级别上不同的情况。

未来的工作应侧重于开发更有效的无偏矩估计方法，该方法适用于不平衡设计。开发组合方法，将“裸”（嵌套/交叉）设计诱导结构与协变量驱动部分（如Greven et al。(2010)是推广此框架的一个重要但具有挑战性的步骤。我们的方法有一些潜在的局限性。两个最重要的是更严格的噪声处理(Di等人。，2009)以及功能观测中稀疏性的可能调节(Di、Crainiceanu和Jank，2014年).

7补充资料

第节中提到的Web附录A、B和C三和4可在生物计量学威利在线图书馆网站。我们的方法对应的R代码可在生物统计学网站上找到。

致谢

所述项目得到了国家生物医学成像与生物工程研究所的NIH拨款R01 EB012547的支持，NIH从国家神经疾病和中风研究所拨款R01 NS060910和R01 NS085211，NIH向国家精神卫生研究所拨款R01 MH095836和R01 HL123407，以及德国研究基金会（German Research Foundation）的埃米·诺伊特（Emmy Noether）拨款GR 3793/1-1‐1。

我们感谢John Aston博士为我们提供了语音研究数据，以及他对SFPCA应用的启发性想法。

工具书类

阿斯顿

,

J.A.D.公司。

,

邱

,

J·M·。

、和

埃文斯

,

J.P.公司。

(

2010

).

基于功能主成分混合效应模型的语调分析

.

英国皇家统计学会杂志C辑

59

,

297

–

317

.

谷歌学者

交叉参考

书目数据库

白

,

J。

,

戈德史密斯

,

J。

,

卡福

,

学士学位。

,

玻璃

,

T。

、和

克拉伊尼恰努

,

C.M.公司。

(

2012

).

Movelets：运动词典

.

电子统计杂志

6

,

559

–

578

.

巴拉丹达尤塔帕尼

,

对。

,

英国。

马利克

,

M。

杨红（Young Hong）

,

J.R.公司。

勒普顿

,

N.D.公司。

特纳

、和

R·J。

卡罗尔

(

2008

).

贝叶斯层次空间相关功能数据分析及其在结肠癌发生中的应用

.

生物计量学

64

,

64

–

73

.

布伦巴克

,

学士。

和

大米

,

J.A.公司。

(

1998

).

用于分析嵌套和交叉曲线样本的平滑样条模型

.

美国统计协会杂志

93

,

961

–

976

.

谷歌学者

交叉参考

书目数据库

克拉伊尼恰努

,

C.M.公司。

,

卡福

,

学士学位。

,

迪

,

C.Z.公司。

、和

旁遮普语

,

N.M.公司。

(

2009

).

睡眠脑电图分析中的非参数信号提取和测量误差

.

美国统计协会杂志

104

,

541

–

555

.

谷歌学者

交叉参考

书目数据库

迪

,

C.Z.公司。

,

克拉伊尼恰努

,

C.M.公司。

,

卡福

,

学士学位。

、和

旁遮普语

,

N.M.公司。

(

2009

).

多层次函数主成分分析

.

应用统计学年鉴

三

,

458

–

488

.

迪

,

C.Z.公司。

,

克拉伊尼恰努

,

C.M.公司。

、和

詹克

,

西南亚。

(

2014

).

多级稀疏函数主成分分析

.

斯达

29

,

126

–

143

.

谷歌学者

OpenURL占位符文本

书目数据库

格雷文

,

美国。

,

克拉伊尼恰努

,

C.M.公司。

,

卡福

,

学士学位。

、和

帝国

,

D。

(

2010

).

纵向函数主成分分析

.

电子统计杂志

4

,

1022

–

1054

.

郭

,

西。

(

2002

).

功能混合效应模型

.

生物计量学

58

,

121

–

128

.

郭

,

西。

(

2004

).

使用平滑样条曲线进行纵向设置中的功能数据分析

.

医学研究中的统计方法

13

,

49

–

62

.

赫里克

,

钢筋混凝土。

和

莫里斯

,

J.S.公司。

(

2006

).

基于小波的函数混合模型分析：计算考虑

.英寸

会议记录，联合统计会议

.

ASA统计计算科

.

谷歌学者

OpenURL占位符文本

书目数据库

线路接口单元

,

Z.公司。

和

郭

,

西。

(

2012

).

功能混合效应模型

.

威利跨学科评论：计算统计学

4

,

527

–

534

.

谷歌学者

交叉参考

书目数据库

科赫

,

G.G.公司。

(

1967

).

方差分量估计的一般方法

.

技术计量学

9

,

93

–

118

.

谷歌学者

交叉参考

书目数据库

科赫

,

G.G.公司。

(

1968

).

关于方差分量估计的一般方法的进一步说明”

.

技术计量学

10

,

551

–

558

.

谷歌学者

OpenURL占位符文本

书目数据库

莫里斯

,

J.S.公司。

、和

卡罗尔

,

R·J。

(

2006

).

基于小波的函数混合模型

.

英国皇家统计学会杂志B辑

68

,

179

–

199

.

谷歌学者

交叉参考

书目数据库

权

,

标准F。

,

霍华德

,

B.V.公司。

,

伊伯

,

C、。

,

基利

,

J.P.公司。

,

尼托

,

F·J。

,

安大略省

,

G.T.公司。

,

拉波波特

,

D.M.博士。

,

红线批注

,

美国。

,

罗宾斯

,

J。

,

萨米特

,

J·M·。

、和

沃尔

,

P.W.公司。

(

1997

).

睡眠心脏健康研究：设计、原理和方法

.

睡眠

20

,

1077

–

1085

.

拉姆齐

,

J.O.公司。

和

西尔弗曼

,

B。

(

2005

).

功能数据分析

，第2版。

纽约

:

施普林格

.

寿

,

H。

,

叶洛扬

,

答：。

,

李

,

美国。

,

齐普尼科夫

,

对。

,

卡福

,

学士学位。

,

林德奎斯特

,

M。

、和

克拉伊尼恰努

,

C.M.公司。

(

2013

).

量化图像复制研究的可靠性：图像类内相关系数（I2C2）

.

认知、情感和行为神经科学

,

13

,

714

–

724

.

谷歌学者

交叉参考

书目数据库

斯泰克

,

上午。

,

克拉伊尼恰努

,

C.M.公司。

、和

卡罗尔

,

R·J。

(

2010

).

空间相关多级函数数据的快速处理方法

.

生物统计学

11

,

177

–

194

.

斯坦尼斯瓦利斯

,

J·G·。

和

李

,

J·J。

(

1998

).

纵向数据的非参数回归分析

.

美国统计协会杂志

93

,

1403

–

1418

.

谷歌学者

交叉参考

书目数据库

肖

,

L（左）

,

锂

,

年。

、和

鲁珀特

,

D。

(

2013

).

快速二元P‐样条：三明治平滑器

.

英国皇家统计学会杂志B辑

75

,

577

–

599

.

谷歌学者

交叉参考

书目数据库

肖

,

L。

,

鲁珀特

,

D。

,

齐普尼科夫

,

对。

、和

克拉伊尼恰努

,

C、。

(

2014

).

高维函数数据的快速协方差估计

.

统计与计算

，正在印刷中。

谷歌学者

OpenURL占位符文本

书目数据库

姚明

,

F、。

,

克利福德

,

A.J.公司。

,

迪克尔

,

S.R.公司。

,

福列特

,

J。

,

林

,

年。

,

布赫霍尔茨

,

学士。

、和

沃格尔

,

J.S.公司。

(

2003

).

功能主成分评分的收缩估计及其在血浆叶酸总体动力学中的应用

.

生物计量学

59

,

676

–

685

.

姚明

,

F、。

,

米勒

,

H.G.公司。

、和

王

,

J·L·。

(

2005

).

稀疏纵向数据的功能数据分析

.

美国统计协会杂志

100

,

577

–

590

.

谷歌学者

交叉参考

书目数据库

周

,

L。

,

黄

,

J·Z。

,

马丁内斯

,

J·G·。

,

闪闪

,

答：。

,

巴拉丹达尤塔帕尼

,

对。

、和

卡罗尔

,

R·J。

(

2010

).

空间相关层次函数数据的降秩混合效应模型

.

美国统计协会杂志

105

,

390

–

400

.

齐普尼科夫

,

对。

,

卡福

,

学士学位。

,

尤森

,

D.M.博士。

,

达瓦特齐科斯

,

C、。

,

施瓦茨

,

学士学位。

、和

克拉伊尼恰努

,

C.M.公司。

(

2011

).

高维数据的多级函数主成分分析

.

计算与图形统计杂志

20

,

852

–

873

.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

下载所有幻灯片

月份：	总浏览次数：
2024年1月	15
2024年2月	12
2024年3月	6
2024年4月	10
2024年5月	15
2024年6月	11

文章内容

结构化功能主成分分析

总结

1引言

2结构化功能模型

2.1嵌套设计

2.2交叉设计

3结构化功能PCA

3.1能级特定光谱分解

3.2 MoM协方差算子估计

3.2.1双向交叉设计（C2）

3.2.2三向嵌套模型

3.3结构化高维数据

3.4有噪声模型

4模拟

5数据应用

5.1语音研究

5.2加速计数据

6讨论

7补充资料

致谢

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

电子邮件警报

中的相关文章

通过引用文章

最新的

阅读次数最多

被引用次数最多

文章内容

结构化功能主成分分析

总结

1引言

2结构化功能模型

2.1嵌套设计

2.2交叉设计

3结构化功能PCA

3.1能级特定光谱分解

3.2 MoM协方差算子估计

3.2.1双向交叉设计（C2）

3.2.2三向嵌套模型

3.3结构化高维数据

3.4有噪声模型

4模拟

5数据应用

5.1语音研究

5.2加速计数据

6讨论

7补充资料

致谢

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

电子邮件警报

中的相关文章

通过引用文章

最新的

阅读次数最多

被引用次数最多

此功能仅对订阅服务器可用