总结

受现代观察性研究的启发,我们引入了一类扩展嵌套和交叉设计的函数模型。在以函数或图像为基本单位的研究中,这些模型解释了抽样设计中相关结构的自然遗传。推理基于函数求积及其与潜在过程的潜在协方差结构的关系。针对高维数据,开发了一种计算速度快、可扩展的估算程序。方法用于日常活动的高频加速度计数据、语音分析的音高语言数据以及研究睡眠期间大脑电活动的脑电图数据。

1引言

在当前的许多研究中,功能测量具有明确定义的随机结构,由实验设计或数据的科学意义引起。例如,睡眠心脏健康研究(SHHS)(Quan等人。,1997;Crainiceanu等人。,2009;Di等人。,2009)收集了数千名受试者在两次就诊时的脑电图(EEG)数据,大约相隔5年。每次就诊时,睡眠期间以125 Hz的频率记录脑电图数据。因此,对于每个受试者和访问,数据包含每秒125次观察。Crainiceanu等人。(2009)将傅里叶变换应用于原始数据并获得归一化论坛功率作为密集采样的平稳时间序列。这些数据有一个自然的层次结构,由每个受试者的重复访问引起。更准确地说,可以表示论坛访问的电源功能j个主题的时间t吨睡眠开始后论坛可以分解为特定主题的流程论坛以及主题内参观流程论坛这量化了与特定对象平均值的偏差。Bai等人提供了第二个例子。(2012)在最近一项关于老年人体育活动的研究中。在本研究中,每个受试者都佩戴一个加速度计,以10 Hz的采样频率记录在家中活动期间的三轴加速度。Bai等人。(2012)引入了活动强度,以非活动期信号标准差的倍数表示的活动度量。每十分之一秒计算一次活动强度。1显示五名受试者在5天内平均超过15分钟的活动强度,以提高显示清晰度。分析这些数据的一种可能性是关注非重叠一小时间隔的活动强度。因此,每个受试者每天的数据包含24小时内每小时36000次活动测量。这可以看作是一个三级层次结构:主题中的一天中的一小时。更具体地说,让论坛是当时的活动强度t吨一小时内k在当天j个对于主题除了主题特定流程论坛以及日常主题流程论坛,变化的剩余部分论坛可以用小时特定流程来解释论坛它量化了小时偏差k从一天的平均值j个对于主题.

4名受试者5天内的活动强度测量。原始数据包含每秒10次观察。该图显示了非重叠15分钟间隔内活动强度的平均值,以提高显示清晰度。
图1

4名受试者5天内的活动强度测量。原始数据包含每秒10次观察。该图显示了非重叠15分钟间隔的活动强度平均值,以提高显示清晰度。

阿斯顿、邱和埃文斯(2010)描述了一项不同的语音分析研究,其中作者对研究口语的基频(F0,“音高”)感兴趣。特别是,他们记录了中国罗布寨羌方言8位母语人士发音的19个名词的F0音节轮廓。假设我们使用论坛表示音节在j个按主语发音的第个单词.每个论坛包含多条曲线,由k因为一个单词中有多个音节,每个单词都是在三种不同的上下文中说出的。每条曲线均根据相应元音的总持续时间进行标准化,并在11个等距时间点进行采样。2显示了由三个说话者说出的三个不同单词组成的元音的F0等值线示例。我们观察到:(a)曲线的形状与元音密切相关;(b) 不同的说话者和单词之间有很大的差异。例如,说话人“a”的平均音高比其他两个低。给定元音“i”,单词3的曲线显示出陡峭的上升模式,并在元音末尾衰减。但是单词2(用三角形符号标记)中的曲线都是拱形的。论坛受到至少两个随机成分的共同影响:单词-一般效应论坛和扬声器的固有效果论坛与分层模型不同,这两个随机分量相互独立,但在音高轮廓上相互作用。

F0‐三个说话者说出的三个单词的轮廓(三角形表示单词2,圆点表示单词3,乘法符号表示单词4)(说话者“a”的颜色最浅,说话者的颜色“c”的颜色稍深,说话人“g”的颜色也最深)。当八个说话者中的一个说出特定单词时,在元音(“”、“a”、“e”、“i”或“u”)中的11个等距时间点测量每个轮廓。每个单词都在三种不同的上下文中重复。
图2

F0‐三个说话者说出的三个单词的轮廓(三角形表示单词2,圆点表示单词3,乘法符号表示单词4)(说话者“a”的颜色最浅,说话者的颜色“c”的颜色稍深,说话人“g”的颜色也最深)。每个轮廓都是在一个元音(“论坛“、”a“、”e“、”i“或”u“)当八个说话者中的一个说出某个特定单词时。每个单词都在三种不同的上下文中重复。

尽管这三项研究有不同的设计,但它们有一些共同的特点:(1)基本观测单位是一个高维函数;(2) 数据具有抽样设计诱导的已知结构;和(3)分析个体水平的变异性是有趣的。本文的一个目标是定义一大类具有显式功能效果组件的结构化功能模型;特别是,模型类将包含三个示例中观察到的结构。我们将重点关注共同结构,并为所有这些模型提供一致的统计框架。第二个目标是通过不相关的潜在过程来描述观察到的可变性。通过对这些协方差算子的估计和对角化,我们将实现对原始数据的降维和对诱导线性空间的统计建模。从直观的角度,本文展示了当数据具有特定的已知和常见的潜在相关性结构时,如何进行主成分分析(PCA)。

本文中的结构化函数模型属于函数线性混合模型(FLMM)框架(Guo,2002年;Herrick和Morris,2006年;莫里斯和卡罗尔,2006年)在模型拟合中主要使用样条函数或小波平滑。Brumback和Rice(1998)和Guo(2004)专门研究了功能嵌套和交叉设计。最近的作品如Staicu、Crainiceanu和Carroll(2010)和Zhou等人。(2010)在嵌套模型中考虑空间相关性。虽然所有这些模型都可以被视为FLMM的特殊情况,但模型拟合和推断仍然很困难,目前是在逐个模型的基础上进行的。我们的结论是,之前的这些文章都没有讨论过这里讨论的复杂功能结构类。此外,还没有针对高维数据的快速算法。我们的目标是引入一种数据驱动的方法,该方法既适用于嵌套设计,也适用于交叉设计,但可推广到更广泛的模型空间。我们引入了潜在过程,以使用标准混合效应模型中的相同概念捕获显式变化水平。唯一的区别是随机效应现在被随机过程所取代。通过潜在过程协方差算子的主成分分解和高维数据的无损失预测实现计算可行性。这些方法在方法论上与主成分分析分解有关(斯坦尼斯瓦利斯和李,1998年;Yao等人。,2003;姚、米勒和王,2005年;Di等人。,2009;Aston等人。,2010;Greven等人,2010年). 其中,Aston等人。(2010)将整个函数投影到向量空间中,其中向量项是函数的前几个主要分数。通过将主得分与协变量联系起来的多重线性混合效应模型,他们能够评估协变量对结果函数的影响。或者,多级功能PCA(MFPCA,Di等人。[2009])在双向嵌套模型中分解受试者内部和受试者之间的协方差算子,而推断是基于由可变性水平分隔的分数。纵向功能PCA(LFPCA、Greven等人。[2010])使用类似的方法对多次就诊时功能观察的纵向动态进行建模。在本文中,我们将这些思想推广到分析在最常见的嵌套和交叉设计下收集的功能观测,并扩展功能数据的模型数量和类型。我们提出了结构化功能主成分分析(SFPCA),作为一种通过PCA分解具有特定线性结构的任何功能模型的可变性的方法。我们声称SFPCA是FLMM高效处理密集和高频测量的第一个算法。

我们将文章组织如下:在第节2,我们提供了SFPCA应用于的结构化函数模型列表,并将其与Koch中描述的对称矩和法(MoM)估值器连接起来(1968); 章节讨论SFPCA及其实施,并扩展到高维设置;章节4描述了低维、高维和噪声设置的模拟研究;章节5将SFPCA应用于第节中描述的科学问题1.

2结构化功能模型

科赫(1967)提供了各种实验设计产生的标量数据的线性模型的综合列表。我们认为,这些模型对函数数据有自然的扩展,可以通过分解相应的协方差算子来分析这些模型。1列出了根据采样方案分组的建议设计(Brumback和Rice,1998年;郭,2002;Yao等人。,2005;莫里斯和卡罗尔,2006年;Baladandayuthapani等人。,2008;Di等人。,2009;Staicu等人。,2010;Zhou等人。,2010;刘和郭,2012).

表1

结构化功能模型。对于嵌套模型,论坛;论坛,论坛 论坛.对于交叉设计,论坛 论坛; (C2s)“双向接头”代表“双向交叉设计,带次级取样”;(CM)包含任何论坛r潜伏过程的子集,以及每个细胞内的重复测量。论坛 论坛,u是细胞内重复观察的指数论坛.论坛白噪声分布为论坛

嵌套(N1)单向论坛
(N2)双向论坛
(N3)三通论坛
(NM)多路论坛
交叉的(C2)双向论坛
(C2)双向接头论坛
(CM)多路论坛
嵌套(N1)单向论坛
(N2)双向论坛
(N3)三通论坛
(NM)多路论坛
交叉的(C2)双向论坛
(C2)双向接头论坛
(CM)多路论坛
表1

结构化功能模型。对于嵌套模型,论坛;论坛,论坛 论坛.对于交叉设计,论坛 论坛; (C2s)“双向接头”代表“双向交叉设计,带次级取样”;(CM)包含任何论坛r潜伏过程的子集,以及每个细胞内的重复测量。论坛 论坛,u是细胞内重复观察的指数论坛.论坛白噪声分布为论坛

嵌套(N1)单向论坛
(N2)双向论坛
(N3)三通论坛
(NM)多路论坛
交叉的(C2)双向论坛
(C2)双向接头论坛
(CM)多路论坛
嵌套(N1)单向论坛
(N2)双向论坛
(N3)三通论坛
(NM)多路论坛
交叉的(C2)双向论坛
(C2)双向接头论坛
(CM)多路论坛

论坛指出观察到的结果函数。最通用的模型格式是论坛,其中论坛是平均曲线或固定效应,论坛是白噪音。假设潜在过程是零均值和平方可积的,因此它们是可识别的,标量结果的标准统计假设可以反映功能数据。因此,功能结果的总可变性被分解为过程特定变化加上论坛这些模型捕获了现代功能数据研究中的各种相关结构。在下文中,我们建立了功能嵌套和交叉设计背后的直觉,并将它们与引言中讨论的数据示例联系起来。出于演示目的,我们首先假设“无噪音”模型,其中论坛。我们的方法在第3.4节.

2.1嵌套设计

单向嵌套模型(N1)是功能数据最简单的方差分量模型。在(N1)中,观察到的结果论坛表示为确定性平均函数的总和,论坛以及特定于级别的随机过程论坛.论坛假设为i.i.d.,具有均值零和协方差算子论坛;论坛可以认为是标量协方差的函数对应物。的可变性论坛完全取决于论坛也就是说,论坛.在常规功能数据分析中(拉姆齐和西尔弗曼,2005年),论坛将通过一组样条或小波基或数据驱动的主成分来表示(拉姆齐和西尔弗曼,2005年;Di等人。,2009;Greven等人。,2010). 不考虑基本函数,论坛由表示系数的前两个矩和基函数的二次形式决定。

双向功能嵌套设计(N2)在功能上等同于单向方差分析(ANOVA)模型。最初的动机是SHHS中EEG数据的双向采样设计(Di等人。,2009),模型通过特定主题访问流程扩展(N1)论坛有协方差的论坛因此,观察到的论坛被分解为特定受试者和特定受试访问的可变性。这两个部分通过论坛论坛–的函数协方差运算符论坛论坛为了确保可识别性,随机过程论坛论坛假设平均值为零且不相关。这种假设也保证了论坛.

模型中可以包含其他嵌套级别,以适应更高的层次结构。例如,三向嵌套模型(N3)为第节中描述的活动强度数据建模提供了适当的框架1除了主题特定流程论坛以及受试者访视的具体流程,论坛,中的其余变量论坛通过建模论坛,它量化了与一天平均活动强度水平的每小时偏差j个对于主题最通用的功能嵌套模型(NM)允许任意多个嵌套级别。如果活动强度持续数周或数月,考虑到每周或每月可能重复的活动模式,四向或五向模型可能更具描述性。与前面的模型一样,模型可识别性也要求相互独立。总可变性可分解为特定级别的功能方差分量,如下所示论坛,其中论坛。这里我们使用表中的符号1对于具有任意级别数(NM)的多级层次模型。

2.2交叉设计

另一组设计允许跨层。例如,双向交叉设计(C2)是具有交互项的双向方差分析的函数模拟。它强调两个不相关过程的联合作用论坛论坛以及它们的相互作用论坛,关于结果论坛.带有次级抽样(C2)的双向交叉模型适用于在每个组合中重复测量的实验设计论坛由一级过程引起论坛论坛除了一级交叉口论坛如(C2)所示,论坛解释了重复中的变化。对于语音示例,论坛论坛模拟演讲者和单词的主要效果,而论坛为他们的互动建模。由于多次论坛轮廓可能属于类别论坛,我们使用论坛捕捉残余变化。

一般来说,我们可以考虑具有任意数量交叉点的双向交叉功能模型(CM)。在这个模型中,第页论坛不相关的潜在过程对论坛。的任何子集(论坛)个进程,共个第页可能有交互作用,导致d日模型中的函数加性项。为了方便记法,我们使用d日子指标集,论坛定义模型结构的。例如,具有四个术语的(C2)可以写成论坛论坛,论坛,论坛、和论坛对相关结构的假设与之前的设计保持一致。我们现在展示如何有效地估计这些模型。

3结构化功能PCA

我们开发SFPCA以有效地降低维度并提取第节中介绍的功能模型类的信号2该方法通过Karhunen–Loéve展开的主成分(PC)对潜在过程进行了简约建模。SFPCA从估计潜在过程的协方差算子开始。跟随科赫(1968),我们采用基于对称和的MoM方法。通过将他的方法推广到函数设置,我们在第页论坛在估计协方差算子后,我们进行谱分解,以获得特征函数和主分数,它们在特征函数跨越的空间中充当坐标。请注意,固定效应不属于我们的主要兴趣,可以使用现有方法进行估计。在不失一般性的情况下,我们假设数据已经被贬低了,我们主要关注随机效应。

我们使用双向交叉设计(C2)作为主要示例。表中其他型号的详细信息1见附录B。论坛,论坛论坛是相互不相关的均零随机过程,如第节所述2。它们的协方差运算符为论坛,论坛、和论坛,其中论坛,论坛论坛.使用Karhunen–Loéve扩展论坛论坛,型号(C2)变为

(1)

哪里论坛,论坛、和论坛是协方差算子的特征函数论坛,论坛、和论坛.分数论坛,论坛、和论坛是相互独立的随机变量,平均值为0,方差为论坛,论坛、和论坛,其中论坛,论坛、和论坛对于每个k,、和。分数的正态性对于本文的结果是不必要的,但可以是一个方便的温和假设。

3.1能级特定光谱分解

考虑第一个过程捕捉到每个潜在过程的最大可变性的情况论坛,论坛、和论坛的主要成分论坛,论坛、和论坛,模型(1)可以近似为论坛我们将离散采样点上的功能结果矢量化论坛,并定义论坛成为一名论坛矩阵,带有论坛论坛。为了简化符号,我们假设一个平衡的设计,其中论坛尽管这样的假设是不必要的。论坛论坛 论坛成为第一个论坛时间网格中观察到的主成分论坛类似定义适用于论坛论坛因此,截断模型进一步表示为矩阵形式论坛.

我们将在下一节中展示如何获得论坛,论坛、和论坛。考虑到此类估算值的可用性,我们得出论坛,论坛、和论坛成为他们的第一个论坛,论坛、和论坛特征向量,其中论坛 论坛被选中,以便论坛q个是介于之间的阈值论坛.论坛表示相应协方差矩阵的估计特征值论坛,论坛、和论坛是第一个的对角矩阵论坛,论坛、和论坛特征值。我们可以将截断的主分数集估计为混合效应模型的最佳线性无偏预测因子(BLUP)论坛,其中论坛,论坛论坛附录A中提供了双向交叉模型(C2)和三向嵌套模型(N3)的BLUP估计量。

3.2 MoM协方差算子估计

通过扩展Koch中对称和MoM估计的概念(1968),我们显示了我们估计的协方差矩阵的形式论坛,论坛、和论坛,其中论坛,论坛、和论坛是特定于设计的尺寸矩阵论坛事实上,对于所有结构函数模型,协方差算子的MoM估计都可以用“三明治”形式表示,论坛我们说明了双向交叉设计(C2)和三向嵌套设计(N3)协方差算子的详细计算。其他设计方案的结果见附录B。

3.2.1双向交叉设计(C2)

对于模型(C2),我们有

论坛如果论坛观察到,否则为0;论坛,论坛,论坛,论坛、和论坛.定义论坛具有论坛,论坛论坛.论坛具有论坛尺寸的论坛,论坛是第二级类比论坛,其中论坛是二级过程观测值为1的向量论坛否则为0。如果论坛,论坛、和论坛,则上面的结果指示以下内容明确的MoM估算器

因此,协方差算子可以估计为论坛,论坛论坛.

3.2.2三向嵌套模型

考虑模型(N3),其中论坛 论坛W公司,U型、和X(X)是按顺序嵌套的三个潜在过程。与(C2)的方法类似,我们有

论坛,论坛,论坛,论坛 论坛,论坛.论坛哪里论坛、和论坛,其中论坛;论坛,论坛.如果论坛,论坛论坛,我们获得

(2)

因此,论坛,论坛、和论坛都有表格论坛通常,可以通过类似的工作流程来估计多向嵌套和交叉设计(详见附录B)。

3.3结构化高维数据

鉴于当前的研究重点是高维数据,线性模型仍然难以拟合。这里我们展示了表中描述的整个模型类1可以使用快速方法安装。请注意,前几节中的估计程序假设可以构造和分解协方差算子的MoM估计。当观测值的维数,第页,中等,第节中描述的方法都很简单。然而,如果观察结果是高维的,例如论坛000美元,该方法不再可行。计算和存储第页维数协方差算子论坛计算成本很高,并且进行频谱分解将变得非常困难。假设数据是由低阶固有特征生成的,则可以对数据进行平滑和降采样。但在许多情况下,数据被密集采样,以便我们探索更精细的信息,我们希望保持高分辨率。因此,我们提出了一种基于秩保持变换的替代方法。该算法允许有效计算特征函数和特征值,而无需在高维空间中存储或对角化估计协方差矩阵。

我们将算法概述如下。在本节中,我们假设论坛因此,诱导协方差矩阵的秩最多n个Zipunnikov等人。(2011)提出一种避免计算原始协方差算子的方法第页尺寸空间。以(C2)为例:其思想是将模型映射到低维空间并获得论坛,其中矩阵论坛应为尺寸论坛论坛.任意选择论坛将丢失来自第页尺寸数据。然而,我们可以证明我们能够找到论坛这样的话论坛跨越一个保留原始数据空间中的顺序和重要功能的空间。一个可能的选择是从整个数据矩阵开始,论坛,其可以通过列绑定各个数据向量来获得,论坛。假设论坛是的奇异值分解(SVD)论坛,让论坛.鉴于此论坛,降维空间中的数据论坛包含来自原始空间的足够信息。

模型变为论坛Zipunnikov等人的定理1。(2011)表明此转换保留了线性PCA模型的全部信息。原始模型的本征函数可以通过左乘来恢复论坛对于在新模型中获得的特征函数,特征值保持不变。这很容易实现,因为SVD中涉及的操作数量论坛在中是线性的第页。获得的SVD后论坛,每列论坛可以表示为论坛,其中论坛是矩阵的相应列论坛因此,向量论坛仅通过因素不同论坛长度的n个,这是低维的。比较以下SVD表示论坛在原始模型(C2)中,由高维潜在过程建模的可变性的结构化分离论坛,论坛、和论坛在低维向量的结构化分离中是相同的论坛这是激发我们方法的关键观察结果。该模型具有由样本大小引起的“内在”维度n个使用第节中的SFPCA可以估算低维模型并且只需要论坛计算。

我们获得论坛,论坛、和论坛作为低维模型中的诱导BLUP,使用矩阵论坛,论坛、和论坛替换为相应的估计论坛,论坛、和论坛此外,论坛,论坛、和论坛在原始空间中可以通过左乘恢复论坛到上面论坛,论坛、和论坛我们在附录A中提供了双向交叉模型(C2)和三向嵌套模型(N3)的最终估算公式及其详细推导。直到最后一步,所有计算都可以在论坛复杂性。因此,在降维空间中拟合模型可以确保高维主成分在p线性时间内。这意味着可以快速拟合高维数据集的复杂统计模型。

3.4有噪声模型

到目前为止,我们假设数据是在没有噪声的情况下测量的。然而,该算法可以自然地扩展到“噪声模型”。当噪声分量在函数域上具有平滑的协方差结构,并且可以表示为另一个潜在过程,例如论坛模型(N2)和论坛在型号(N3)中,SFPCA直接适用。当有白噪音时论坛沿着功能和论坛,我们提出了几种平滑原始数据或协方差矩阵估计量的方法。

以模型(N3)为例,假设观测数据为论坛.等式中的对称和MoM估计量(2)成为论坛论坛,其中论坛对于秩保留投影的低维数据第3.3节我们估计没有必要论坛通过平滑非对角表面论坛就像斯坦尼斯瓦利斯和李一样(1998),并像在“无噪声”场景中那样继续使用SFPCA算法。然而,在将这种方法应用于高维功能数据时,我们遇到了许多困难。首先,在计算上不可能对论坛协方差矩阵,论坛,000.其次,尽管白噪声在投影到低维空间时仍保持不变,但特征值和主分数之间的一对一映射第页尺寸模型和简化模型n个在降维空间中平滑协方差矩阵后,维模型不再成立。

因此,我们建议在执行SFPCA之前通过平滑原始数据进行预处理。原始数据的信号与预处理数据的平滑度之间存在权衡。正如我们在模拟设置中所观察到的,平滑数据的第一个特征值通常被低估。高维函数数据的另一种方法是应用快速协方差估计(FACE)算法的“结构化”扭曲(Xiao、Li和Ruppert,2014年;Xiao等人2013). 他们的算法在样本协方差矩阵上实现了计算速度快的三明治平滑器论坛,直接提供特征值和特征函数,而无需显式构造平滑协方差矩阵。由于SFPCA技术中每个潜在过程的协方差矩阵具有统一的三明治表达式论坛,我们可以定义新的数据矩阵论坛并直接将FACE应用于论坛。有关更多详细信息,请参阅该文章。

4模拟

为了更好地了解SFPCA在实践中的表现,我们在各种实验设计和信噪比下对低维和高维功能数据进行了模拟研究。

(3)

对于三向嵌套模型(N3),我们基于真实模型3生成高维数据,其中论坛;论坛,论坛;论坛;论坛,000,论坛,论坛、和论坛特征函数规定为

论坛

我们改变白噪声的标准偏差论坛为0、0.1、0.5和1,并在每个场景下进行100次模拟。为了比较估计精度论坛,论坛、和论坛被视为已知。显示了估计的特征函数论坛.总体上,功能的形状得到了很好的恢复。当我们从低处出发时(论坛)到更高(论坛)层次结构中,由于特定级别的样本量增加,估计变得更好。在每个潜在过程中,前几个具有较大特征值的特征函数比后几个特征函数估计得更好。2列出了估计的均方误差论坛以及不同信噪比下的特征值。有关此模拟的更多结果,请参阅附录C。

表2

100多个模拟的平均MSE用于估算论坛不同信噪比下的特征值和主得分。这些值增加了100倍,以便更好地呈现

论坛论坛论坛论坛
论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛
03.20.90.20.11.20.30.10.020.20.10.012E‐3号机组
0.14.50.90.20.11.30.70.20.20.20.10.028E‐3号机组
0.551.61.40.41.39.33.216.56.73.52.7
1852.80.6215.54.10.810210133.621.7
论坛论坛论坛论坛
论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛
2017年2月14.711.27.61361204.52.5220.28.10.52.6
3E‐8号机组42.718.25.534.73055.63.2228030.59.915.8
4E‐7267129.217.722.2166022.81219.11623226161102
1E‐6级37015936.122.5165750.158.331.71677466245153
论坛论坛论坛论坛
论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛
03.20.90.20.11.20.30.10.020.20.10.012E‐3号机组
0.14.50.90.20.11.30.70.20.20.20.10.028E‐3号机组
0.551.61.40.41.39.33.216.56.73.52.7
1852.80.6215.54.10.810210133.621.7
论坛论坛论坛论坛
论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛
2017年2月14.711.27.61361204.52.5220.28.10.52.6
3E‐8号机组42.718.25.534.73055.63.2228030.59.915.8
4E‐7267129.217.722.2166022.81219.11623226161102
1E‐6级37015936.122.5165750.158.331.71677466245153
表2

100多个模拟的平均MSE用于估算论坛不同信噪比下的特征值和主得分。这些值增加了100倍,以便更好地呈现

论坛论坛论坛论坛
论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛
03.20.90.20.11.20.30.10.020.20.10.012E‐3号机组
0.14.50.90.20.11.30.70.20.20.20.10.028E‐3号机组
0.551.61.40.41.39.33.216.56.73.52.7
1852.80.6215.54.10.810210133.621.7
论坛论坛论坛论坛
论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛
2017年2月14.711.27.61361204.52.5220.28.10.52.6
3E‐8号机组42.718.25.534.73055.63.2228030.59.915.8
4E‐7267129.217.722.2166022.81219.11623226161102
1E‐6级37015936.122.5165750.158.331.71677466245153
论坛论坛论坛论坛
论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛
03.20.90.20.11.20.30.10.020.20.10.012E‐3号机组
0.14.50.90.20.11.30.70.20.20.20.10.028E‐3号机组
0.551.61.40.41.39.33.216.56.73.52.7
1852.80.6215.54.10.810210133.621.7
论坛论坛论坛论坛
论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛论坛
2017年2月14.711.27.61361204.52.5220.28.10.52.6
3E‐8号机组42.718.25.534.73055.63.2228030.59.915.8
4E‐7267129.217.722.2166022.81219.11623226161102
1E‐6级37015936.122.5165750.158.331.71677466245153
100个模拟中三个潜在过程的估计特征函数以灰色显示(我们随机绘制了100个估计值中的50个)。真正的特征函数显示在黑色曲线中。一级和二级层次结构X和U由两组三角基表示。第三级过程W是多项式。在每个过程中,与较大方差解释百分比对应的前几个特征函数比后几个特征函数估计得更好。与X和U相比,W的本征函数估计得更好,因为我们观察到W的独立实现水平更高。
图3

论坛以灰色显示(我们随机绘制了100个估计值中的50个)。真正的特征函数显示在黑色曲线中。一级和二级层次结构X(X)U型由两组三角基捕获。第三级流程W公司是多项式。在每个过程中,与较大方差解释百分比对应的前几个特征函数比后几个特征函数估计得更好。的本征函数W公司估计比X(X)U型因为我们观察到更多水平的独立实现W公司.

我们还通过平滑非对角矩阵,在不同样本大小下对(C2)模型进行了仿真研究。结果也显示在附录C中。

5数据应用

SFPCA可以应用于各种类型的结构化数据,包括引言中讨论的三个示例。Di等人对SHHS数据进行了详细分析。(2009)使用MFPCA,这是本文所考虑方法的一个特例。这里我们提供语音研究和加速度计数据的结果。

5.1语音研究

罗布寨羌方言的语音研究由8名被试在3种语境下说出19个单词的F0等值线组成。每个单词最多包含4个音节,每个音节对应五个元音之一:“论坛“”、“a”、“e”、“i”和“u”。轮廓的音高值是在11个等距时间点测量的,这些时间点是基于元音的总持续时间标准化的。如前所述,考虑到平衡的研究设计,轮廓的边缘形状与相关元音相关。此外,每条曲线都显示了特定于说话人和单词的变体。为了用相对简单的规范评估这些协变量的影响,Aston等人。(2010)假设所有潜在过程都在由一组共同的本征函数扩展的同一空间上,并且协变量通过本征函数的主得分(权重)与音调水平相关联。在这里,我们放松了这些假设,并尝试全面评估数据结构所指示的每个潜在过程的可变性。我们拟合了一个带有子采样(C2)的双向交叉模型,如表所示1但要吸收说话人的话语互动论坛进入之内论坛更具体地说,观察到的节距轮廓论坛建模为论坛,其中论坛是由元音决定的固定效果论坛论坛“,”a“,”e“,”i“,”u“论坛,论坛论坛是扬声器的两个独立的一级随机效果论坛和单词论坛分别是。论坛解释了所有剩余的变化,如音节的音调、重音和语调。通过应用SFPCA算法,我们提取PC,如图所示4.

过程的主要成分,并使用双向交叉模型和子抽样(C2)来分析语音数据。顶行显示了前四台PC用于特定于扬声器的效果,而第二行显示PC用于单词效果。绘图窗口中列出了每个潜在过程中每个主成分解释的变化比例。行前面显示了由潜在过程解释的总变化的估计百分比。
图4

工艺主要部件论坛,论坛、和论坛使用双向交叉模型和子抽样(C2s)来分析语音数据。顶行显示了前四台电脑的扬声器特定效果论坛,而第二排显示电脑的文字效果论坛绘图窗口中列出了每个潜在过程中每个主成分解释的变化比例。行前面显示了由潜在过程解释的总变化的估计百分比。

特定说话人与总体平均值的偏差解释了45%的数据总变化,其中大多数(99.86%)是由第一台PC捕获的,该PC表示随着时间的推移权重相等。同样,PC 1用于单词特定过程论坛随着时间的推移也保持不变。这与Aston等人的研究结果一致。(2010):扬声器或单词之间的大多数变化都是由平均音高水平的“偏移”引起的。然而,并没有像Aston等人那样进一步对总体主分数进行建模,以确定“转变”是依赖于说话者还是单词。(2010),我们可以声称论坛对应于说话人异质性和论坛解释了单词的差异。在99%的阈值下,我们只保留一台电脑论坛,两个用于论坛三个用于论坛选择更多的PC来代表论坛论坛意味着由固有的单词和音节效应引起的更大的复杂性。为了进一步评估说话人或单词相关协变量的影响,我们可以专门对每个潜在过程的主要得分进行回归分析。

此外,通过SFPCA,我们可以量化相对影响大小(Shou等人。,2013)基于以下解释的变异部分的说话人与单词的对比论坛论坛(图中45%对12%4)表明主题异质性大约是单词间差异的3倍。事实上,这也有助于我们选择当前的模型而不是模型论坛因为估计的变化解释为论坛与其他潜在过程相比可以忽略不计。使用Aston等人的非常有趣的分析无法获得此类评估。(2010),因为它需要对功能空间进行显式建模。这两种方法是互补的,应在具体应用中加以考虑。

5.2加速计数据

在加速计研究中,每个参与者在活动期间(起床后和睡觉前)记录了5天的活动强度值,这些值是使用Bai等人开发的方法确定的。(2012). Bai等人。(2012)主要关注基于三轴加速度计记录的运动类型预测。在这里,我们更感兴趣的是使用相同的数据集来评估人口和日常能源支出的可变性。如图所示1表示每小时有一个周期模式,我们将观察到的曲线建模为三个层次:每个受试者的日内小时数。

三向嵌套模型(N3)用于分解数据方差。对于每小时包含36000次测量的原始数据集,我们可以使用第节中描述的方法实施SFPCA3.3用于高维数据。然而,为了了解日常活动的昼夜节律模式,通过平均每分钟内的能量消耗来平滑数据,并对汇总数据进行SFPCA,可以提供更多信息。为了简单起见,我们还截短了研究结束时未完成一个小时的观察结果。因此,每个曲线有60个测量值,每个受试者每天最多有19个曲线。图中显示了三级潜在过程的前四个主要成分5患者特定流程的第一部分论坛解释了人群中平均活动水平的异质性。而剩下的少数人在一小时内表现出单峰或双峰能源消耗模式。与特定受试者和特定时间的影响相比,日间变化(8.3%)占总变化的比例要小得多。总可变性的大部分(约76%)包含在逐小时异质性中。这从数量上表明,人们每天都遵循类似的日常生活,但他们的能量消耗在一天内会发生巨大变化,这取决于他们在特定时间内所参与的活动类型。不同过程的相对影响大小也可以像前面的例子那样进行评估。

过程的主要组件,并使用三向嵌套模型(N3)分析加速计数据。图中列出了每个PC分量解释的变化比例。顶行显示患者特定效应的前四个PC分量,第二行显示日特定效应的结果,第三行是小时特定效应的估计主分量。左侧标记了每个潜在过程解释的变化比例。
图5

工艺主要部件论坛,论坛、和论坛使用三向嵌套模型(N3)分析加速度计数据。图中列出了每个PC分量解释的变化比例。顶行显示了患者特定效果的前四个PC组件论坛,第二行显示特定日期效果的结果论坛第三行是小时效应的估计主成分论坛左侧标记了每个潜在过程解释的变化比例。

6讨论

许多功能研究的定义特征是存在与实验设计相关的特定结构,这可能直接影响推理。因此,对以下方法的需求与日俱增:(1)尊重研究设计;(2) 建立多层次变化模型;(3) 在高维计算上是可行的。为了响应这一需求,我们引入了一类包含嵌套和交叉设计的结构化功能模型,并提出了一个分析这些模型的统计框架SFPCA。给定潜在过程的独立性假设,随机过程的方差算子完全捕获观测结果的协方差结构。SFPCA是一套有效的工具,它使用统一的协议估计和分析所有模型的协方差结构。它使用功能PCA进行降维和特征提取。

广泛的模拟研究清楚地表明了该方法在恢复潜在过程的特定级别特征方面的巨大潜力。当我们将SFPCA应用于收集加速度和语音数据的两项研究时,我们能够区分数据中固有的不同层次的影响。与科赫第5段类似(1967),我们的方法可以扩展到协方差矩阵在不同级别上不同的情况。

未来的工作应侧重于开发更有效的无偏矩估计方法,该方法适用于不平衡设计。开发组合方法,将“裸”(嵌套/交叉)设计诱导结构与协变量驱动部分(如Greven et al。(2010)是推广此框架的一个重要但具有挑战性的步骤。我们的方法有一些潜在的局限性。两个最重要的是更严格的噪声处理(Di等人。,2009)以及功能观测中稀疏性的可能调节(Di、Crainiceanu和Jank,2014年).

7补充资料

第节中提到的Web附录A、B和C4可在生物计量学威利在线图书馆网站。我们的方法对应的R代码可在生物统计学网站上找到。

致谢

所述项目得到了国家生物医学成像与生物工程研究所的NIH拨款R01 EB012547的支持,NIH从国家神经疾病和中风研究所拨款R01 NS060910和R01 NS085211,NIH向国家精神卫生研究所拨款R01 MH095836和R01 HL123407,以及德国研究基金会(German Research Foundation)的埃米·诺伊特(Emmy Noether)拨款GR 3793/1-1‐1。

我们感谢John Aston博士为我们提供了语音研究数据,以及他对SFPCA应用的启发性想法。

工具书类

阿斯顿
,
J.A.D.公司。
,
,
J·M·。
、和
埃文斯
,
J.P.公司。
(
2010
).
基于功能主成分混合效应模型的语调分析
.
英国皇家统计学会杂志C辑
 
59
,
297
317
.

,
J。
,
戈德史密斯
,
J。
,
卡福
,
学士学位。
,
玻璃
,
T。
、和
克拉伊尼恰努
,
C.M.公司。
(
2012
).
Movelets:运动词典
.
电子统计杂志
 
6
,
559
578
.

巴拉丹达尤塔帕尼
,
对。
,
英国。
 
马利克
,
M。
 
杨红(Young Hong)
,
J.R.公司。
 
勒普顿
,
N.D.公司。
 
特纳
、和
R·J。
 
卡罗尔
(
2008
).
贝叶斯层次空间相关功能数据分析及其在结肠癌发生中的应用
.
生物计量学
 
64
,
64
73
.

布伦巴克
,
学士。
大米
,
J.A.公司。
(
1998
).
用于分析嵌套和交叉曲线样本的平滑样条模型
.
美国统计协会杂志
 
93
,
961
976
.

克拉伊尼恰努
,
C.M.公司。
,
卡福
,
学士学位。
,
,
C.Z.公司。
、和
旁遮普语
,
N.M.公司。
(
2009
).
睡眠脑电图分析中的非参数信号提取和测量误差
.
美国统计协会杂志
 
104
,
541
555
.

,
C.Z.公司。
,
克拉伊尼恰努
,
C.M.公司。
,
卡福
,
学士学位。
、和
旁遮普语
,
N.M.公司。
(
2009
).
多层次函数主成分分析
.
应用统计学年鉴
 
,
458
488
.

,
C.Z.公司。
,
克拉伊尼恰努
,
C.M.公司。
、和
詹克
,
西南亚。
(
2014
).
多级稀疏函数主成分分析
.
斯达
 
29
,
126
143
.

格雷文
,
美国。
,
克拉伊尼恰努
,
C.M.公司。
,
卡福
,
学士学位。
、和
帝国
,
D。
(
2010
).
纵向函数主成分分析
.
电子统计杂志
 
4
,
1022
1054
.

,
西。
(
2002
).
功能混合效应模型
.
生物计量学
 
58
,
121
128
.

,
西。
(
2004
).
使用平滑样条曲线进行纵向设置中的功能数据分析
.
医学研究中的统计方法
 
13
,
49
62
.

赫里克
,
钢筋混凝土。
莫里斯
,
J.S.公司。
(
2006
).
基于小波的函数混合模型分析:计算考虑
.英寸
会议记录,联合统计会议
.
ASA统计计算科
.

线路接口单元
,
Z.公司。
,
西。
(
2012
).
功能混合效应模型
.
威利跨学科评论:计算统计学
 
4
,
527
534
.

科赫
,
G.G.公司。
(
1967
).
方差分量估计的一般方法
.
技术计量学
 
9
,
93
118
.

科赫
,
G.G.公司。
(
1968
).
关于方差分量估计的一般方法的进一步说明”
.
技术计量学
 
10
,
551
558
.

莫里斯
,
J.S.公司。
、和
卡罗尔
,
R·J。
(
2006
).
基于小波的函数混合模型
.
英国皇家统计学会杂志B辑
 
68
,
179
199
.

,
标准F。
,
霍华德
,
B.V.公司。
,
伊伯
,
C、。
,
基利
,
J.P.公司。
,
尼托
,
F·J。
,
安大略省
,
G.T.公司。
,
拉波波特
,
D.M.博士。
,
红线批注
,
美国。
,
罗宾斯
,
J。
,
萨米特
,
J·M·。
、和
沃尔
,
P.W.公司。
(
1997
).
睡眠心脏健康研究:设计、原理和方法
.
睡眠
 
20
,
1077
1085
.

拉姆齐
,
J.O.公司。
西尔弗曼
,
B。
(
2005
).
功能数据分析
,第2版。
纽约
:
施普林格
.

寿
,
H。
,
叶洛扬
,
答:。
,
,
美国。
,
齐普尼科夫
,
对。
,
卡福
,
学士学位。
,
林德奎斯特
,
M。
、和
克拉伊尼恰努
,
C.M.公司。
(
2013
).
量化图像复制研究的可靠性:图像类内相关系数(I2C2)
.
认知、情感和行为神经科学
,
13
,
714
724
.

斯泰克
,
上午。
,
克拉伊尼恰努
,
C.M.公司。
、和
卡罗尔
,
R·J。
(
2010
).
空间相关多级函数数据的快速处理方法
.
生物统计学
 
11
,
177
194
.

斯坦尼斯瓦利斯
,
J·G·。
,
J·J。
(
1998
).
纵向数据的非参数回归分析
.
美国统计协会杂志
 
93
,
1403
1418
.

,
L(左)
,
,
年。
、和
鲁珀特
,
D。
(
2013
).
快速二元P‐样条:三明治平滑器
.
英国皇家统计学会杂志B辑
 
75
,
577
599
.

,
L。
,
鲁珀特
,
D。
,
齐普尼科夫
,
对。
、和
克拉伊尼恰努
,
C、。
(
2014
).
高维函数数据的快速协方差估计
.
统计与计算
,正在印刷中。

姚明
,
F、。
,
克利福德
,
A.J.公司。
,
迪克尔
,
S.R.公司。
,
福列特
,
J。
,
,
年。
,
布赫霍尔茨
,
学士。
、和
沃格尔
,
J.S.公司。
(
2003
).
功能主成分评分的收缩估计及其在血浆叶酸总体动力学中的应用
.
生物计量学
 
59
,
676
685
.

姚明
,
F、。
,
米勒
,
H.G.公司。
、和
,
J·L·。
(
2005
).
稀疏纵向数据的功能数据分析
.
美国统计协会杂志
 
100
,
577
590
.

,
L。
,
,
J·Z。
,
马丁内斯
,
J·G·。
,
闪闪
,
答:。
,
巴拉丹达尤塔帕尼
,
对。
、和
卡罗尔
,
R·J。
(
2010
).
空间相关层次函数数据的降秩混合效应模型
.
美国统计协会杂志
 
105
,
390
400
.

齐普尼科夫
,
对。
,
卡福
,
学士学位。
,
尤森
,
D.M.博士。
,
达瓦特齐科斯
,
C、。
,
施瓦茨
,
学士学位。
、和
克拉伊尼恰努
,
C.M.公司。
(
2011
).
高维数据的多级函数主成分分析
.
计算与图形统计杂志
 
20
,
852
873
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)