总结

函数加性模型为涉及函数预测因子的回归提供了一个灵活而简单的框架。在加法结构而不是线性结构中使用数据驱动的基自然地扩展了经典的泛函线性模型。然而,选择非线性附加成分的关键问题研究较少。在这项工作中,我们提出了一个新的正则化框架,用于再生核Hilbert空间中的结构估计。所提出的方法利用了功能主要组件的优势,极大地促进了实现和理论分析。选择和估计是通过使用惩罚的惩罚最小二乘法实现的,该惩罚鼓励加法分量的稀疏结构。研究了收敛速度等理论性质。通过仿真研究和实际数据应用,验证了该方法的实证性能。

1.简介

现代科学技术所收集的大量复杂数据由于其高维、海量和复杂的结构,给传统的统计方法带来了巨大的挑战。功能数据分析是一个很有前途的领域,它使用随机函数作为模型单元,用于对分布在时间、空间和波长等连续区域的数据进行建模;见拉姆齐和西尔弗曼(2005)进行全面介绍。此类数据可被视为潜在或观察到的随机过程的实现,在许多领域中都常见,例如纵向研究、微阵列实验和大脑图像。

涉及功能对象的回归模型在功能数据分析文献中发挥着重要作用。最广泛使用的是函数线性模型,其中标量响应Y(Y)根据功能预测回归X通过线性算子

E类(Y(Y)|X)=T型X(t吨)β(t吨)d日t吨,
(1)

哪里X(t吨)通常假设是定义在紧域上的光滑平方可积随机函数T型、和β(t吨)是回归参数函数,也假设该函数是光滑的平方可积函数。拟合模型(1)的一种常用方法是通过基展开,即将函数预测器表示为基的线性组合{ϕk个}:X(t吨)=μ(t吨)+Σk个=1ξk个ϕk个(t吨),其中μ(t吨) =E类{X(t吨)}. 然后将模型(1)转换为系数的线性形式{ξk个,k个=1,2,}:E类(Y(Y)|X)=b条0+Σk个=1ξk个b条k个,其中b条0=T型β(t吨)μ(t吨)d日t吨b条k个=T型β(t吨)ϕk个(t吨)d日t吨有关函数线性回归的更多参考,请参阅Cardot. (1999,2003)、范和张(2000)James提出了广义函数线性模型的扩展(2002)、米勒和斯塔特米勒(2005)和李. (2010)。基础集{ϕk个}可以是预先确定的(例如傅里叶基、小波或B类-样条曲线)或数据驱动。后者的一个方便选择是X,在这种情况下,随机系数{ξk个}称为功能主成分(FPC)得分。FPC分数的平均值为零,方差等于相应的本征值{λk个,k个=1,2,}。的同构表示X称为Karhunen–Loève展开,相关方法通常称为功能主成分分析(FPCA)(Rice和Silverman,1991; 姚明。,2005; 霍尔。,2006; 霍尔和侯赛尼·纳萨布,2006; 姚明,2007)。由于本征值的快速衰减,与其他基相比,正交本征基提供了更简约和有效的表示。此外,FPC得分是互不相关的,这可以大大简化模型拟合和理论分析。在本文中,我们主要关注函数回归的FPC表示;然而,该建议也适用于其他预先指定的基地。

虽然线性关系被广泛使用,但对于一般应用来说,它可能是有限制的。米勒和姚明放松了这种线性假设(2008)谁提出了函数加性模型(FAM)。FAM提供了一个灵活但实用的框架,该框架适应非线性关联,同时避免了高维非参数回归问题中遇到的维数灾难(Hastie和Tibshirani,1990)。在标量响应的情况下,线性结构被非线性功能组件的总和所取代,即。

E类(Y(Y)|X)=b条0+k个=1如果k个(ξk个),
(2)

哪里{如果k个(·)}是未知的平滑函数。缪勒和姚明(2008),FAM通过估算进行拟合{ξk个}使用FPCA(姚。,2005)和估算{如果k个}采用局部多项式平滑。

明显正则化方程(2)是必要的。缪勒和姚明(2008)正则化是通过将特征序列截断为第一个特征序列来实现的K(K)主要组件,其中K(K)被选来解释预测因子总变异的大部分X尽管它很简单,但这种朴素的截断过程在许多复杂的问题中可能是不够的。首先,FPC对响应的影响不一定与仅由预测过程的自方差算子指定的大小一致。例如,一些高阶FPC对回归的贡献可能远远大于领先的FPC。哈迪和凌讨论过这个问题(1998)在主成分回归上下文中,后来在高维数据的实际示例中观察到(Bair。,2006)和功能数据(Zhu。,2007)。其次,尽管少数领先的FPC可能能够捕获X由于特征值迅速衰减,人们通常需要包含更多的成分以获得更好的回归性能,特别是为了达到姚和米勒所观察到的预测目的(2010)。然而,保留超过所需的FPC会带来过拟合的风险,这是因为包含了对回归贡献不大但会引入噪声的组件。因此,一个可取的策略是从足够多的候选人中找出“重要”的组成部分,而将那些“不重要”的部分缩小到0。

基于这些考虑,我们寻求一个全新的正则化和估计框架来识别FAM的稀疏结构。在过去十年中,由于快速出现的高维数据,鼓励稀疏结构的模型选择受到了广泛关注。在线性回归的背景下,开创性的作品包括套索(Tibshirani,1996)、自适应套索(Zou,2006),平滑剪裁的绝对偏差估计量(Fan和Li,2001)以及其中的参考文献。Lin和Zhang考虑了传统的加法模型(2006),梅尔. (2009)和拉维库马尔. (2009); Wood研究了广义可加模型的扩展(2006)还有玛拉和伍德(2011)。与这些工作相比,函数回归中的稀疏估计研究较少。据我们所知,大多数现有的工作都是针对具有稀疏惩罚的函数线性模型(James。,2009; 。,2010)或2-类型惩罚(戈德史密斯。,2011)。关于加性结构的相关研究在文献中很少。在本文中,我们考虑在再生核希尔伯特空间(RKHS)的框架下,选择和估计FAM中鼓励稀疏结构的可加分量。与标准的加性模型不同,FPC分数在FAM中没有直接观察到。它们需要首先从功能协变量中进行估计,然后插入到可加模型中。估计分数是随机变量,这给理论探索带来了重大挑战。有必要适当考虑不可观察的FPC分数对结果估计值的影响。此外,功能曲线X也没有完全观察到。我们通常会收集重复且间隔不规则的采样点,这些采样点会受到测量误差的影响。数据中的测量误差增加了模型实现和推断的额外困难。本文解决了所有这些问题。我们提出了一种两步估计方法来实现FAM中所需的稀疏结构估计。为了规范化,我们采用了COSSO(林和张,2006)由于其对RKHS中的函数的直接收缩效应而受到惩罚。在实际应用方面,利用FPCA的现有算法,该方法易于实现。

论文的其余部分组织如下。在第%节中2,我们给出了所提出的方法和算法,以及由此得到的估计器的理论性质。与现有方法比较的模拟结果包含在第节中我们将建议的方法应用于第节中的Tecator数据4研究了蛋白质含量对吸收光谱的回归。结论见第节5,而估算程序和技术证明的详细信息则推迟到附录中。

本文中分析的数据和用于分析的程序可以从

https://academy.oup.com/jrsssb/issue网站/

2.结构化函数加性模型回归

Y(Y)是与功能预测器相关联的标量响应X(t吨),t吨T型,并让{,x个(·)}=1n个是对的独立同分布(IID)实现{Y(Y),X(·)}. 轨迹{x个(t吨):t吨T型}在可能不规则的网格上间歇性地观察到t吨=(t吨1,,t吨国际号码)T型.表示离散化x个(t吨)矢量形式,由x个=(x个1,,x个国际号码)T型。我们还假设轨迹受到IID测量误差的影响,即。x个ij公司=x个(t吨ij公司)+e(电子)ij公司具有E类(e(电子)ij公司)=0无功功率,无功功率(e(电子)ij公司)=ν2.遵循姚的FPCA. (2005)和姚明(2007),表示为ξ,=(ξ1,ξ2,)T型FPC得分顺序x个,与特征值相关{λ1,λ2,}具有λ1λ20.

2.1. 拟议方法

如第节所述1FPCA理论使随机函数对其FPC分数进行同构变换,为函数线性回归的模型拟合和理论发展带来了极大的便利。为了建立非线性和非参数回归的框架,我们考虑回归标量响应{}直接在FPC分数序列上{ξ,}属于{x个}为了便于模型正则化,我们希望将预测变量(即FPC分数)限制为取实线的封闭有界子集中的值,例如[0,1],而不损失通用性。这很容易通过单调函数Ψ:→[0,1]对FPC分数进行转换来实现{ξ伊克}事实上,Ψ的选择相当灵活。可以使用广泛的累积分布函数(CDF);参见第节中的假设22.2对于正则性条件。此外,可以选择Ψ,以便转换后的变量具有类似或相同的变化。这可以通过允许Ψ(·)依赖于特征值来实现{λk个},其中{λk个}用作缩放变量。为了简单起见,下面我们使用合适的CDF(例如正常),表示为Ψ(·,λk个),来自平均值和方差为零的位置-尺度系列λk个很明显,如果ξ伊克s是正态分布的,正态CDF导致[0,1]上的变换变量均匀分布。

表示的转换变量ξ伊克通过ζ伊克,即。ζ伊克=Ψ(ξ伊克,λk个),并表示ζ,=(ζ1,ζ2,)T型,我们提出了一个加法模型,如下所示:

=b条0+k个=1如果0k个(ζ伊克)+ε,
(3)

哪里{ε}均数和方差为零的独立误差σ2、和如果0(ζ,)=b条0+Σk个=1如果0k个(ζ伊克)是一个平滑函数。对于每个k个,让H(H)k个成为[0,1]上的四阶Sobolev-Hilbert空间,定义为

H(H)k个([0,1])={|(ν)绝对连续ν=0,1,,1;()2}.

可以证明这一点H(H)k个RKHS是否符合标准

2=ν=01{01(ν)(t吨)d日t吨}2+01()(t吨)2d日t吨.

参见Wahba(1990)林和张(2006)了解更多详细信息。请注意H(H)k个具有正交分解H(H)k个={1}H(H)¯k个然后是加法函数如果0对应于F类它是子空间的直接和,即。F类={1}Σk个=1H(H)¯k个具有如果0k个H(H)¯k个,对于所有人k个。很容易检查,对于任何如果=b条+Σk个如果k个F类,我们有如果2=b条2+Σk个=1如果k个2在本文中,我们采用=2,但结果可以直接推广到其他情况。区分Sobolev规范和2-正常情况下,我们为前者和·2对于后者。

如第节所述1,需要在模型(3)上施加某种类型的正则化条件以选择重要组件。高维线性回归中常见的一个重要假设是底层真实模型的稀疏结构。这种假设在功能数据分析的背景下也很关键,这使我们能够开发出比保留领先FPC的启发式截断更系统的策略。虽然被广泛采用,但保留领先的FPC是一种仅由预测值的协方差算子指导的策略X,因此它没有考虑到响应Y(Y)为了更灵活,我们假设有助于响应的重要功能加性成分的数量是有限的,但不一定局限于前导项。特别是,我们表示重要组件的索引集,并假设||<,其中|·|表示集合的基数。换句话说,有一个足够大的这样的话{1,,},这意味着如果k个0只要k个>因此,FAM相当于

=b条0+k个=1如果0k个(ζ伊克)+ε.
(4)

值得注意的是,初始截断仅仅控制要考虑的加性成分的总数,这与姚建议的启发式截断不同. (2005)还有米勒和姚明(2008)基于模型选择标准,如交叉验证、Akaike信息标准AIC或解释的变异分数。实际上,我们建议选择大到几乎100%的总变化都可以解释。在大多数经验案例中,这通常会导致超过10个FPC。

在这种假设下,回归函数如果0(ζ)=b条0+Σk个=1如果0k个(ζk个)位于截断子空间F类={1}Σk个=1H(H)¯k个属于F类,其中ζ是的截断版本ζ,即。ζ=(ζ1,,ζ)T型依赖于如果没有出现混淆,则进行抑制。正则化未知光滑函数{如果0k个}在非参数方面,我们使用了为RKHS中的函数估计定义的COSSO正则化,并进行了估计如果0通过查找如果F类最大限度地减少

(如果|ζ)=1n个=1n个{如果(ζ)}2+τn个2J型(如果),      J型(如果)=k个=1P(P)k个如果,
(5)

哪里P(P)k个如果是的正交投影如果到上面H(H)¯k个.在这里τn个是唯一需要调整的平滑参数,而常用的平滑样条方法涉及多个平滑参数。惩罚J型(如果)是凸泛函,是中的伪范数F类COSSO和套索之间一个有趣的联系是,当如果0k个(ζk个)=ζk个β0k个,表达式(5)中的惩罚减少为Σk个=1|ζk个β0k个|,这将成为自适应套索惩罚(Zou,2006).

与标准的加性回归模型不同,转换后的FPC得分{ζ}在表达式(5)中作为预测变量无法观察到。因此,在评估和结构选择之前,我们需要先评估FPC分数如果下面给出了一个简单的两步算法。

  • 第1步

    :执行FPCA以估计FPC分数{ξ1,,ξ}属于x个,然后是转换的变量ζ̂伊克=Ψ(ξ̂伊克,λ̂k个),其中λ̂k个是估计的特征值,以及被选择来解释几乎100%的总变化。

  • 第2步
    :实现Lin和Zhang的COSSO算法(2006)解决
    最小值如果F类(如果|ζ̂)=最小值如果F类1n个=1n个{如果(ζ̂)}2+τn个2J型(如果),J型(如果)=k个=1P(P)k个如果.
    (6)

我们指的是附录A详细了解密集或稀疏观测的预测轨迹。我们将所提出的方法称为函数可加模型的成分选择和估计(CSEFAM)。

2.2. 理论性质

我们关注CSEFAM在以下情况下所得估计的一致性{x个(t吨)}在本小节中,收敛速度是通过使用经验范数来评估的。特别地,我们引入了经验范数和熵F类如下所示。F类; 经验规范定义为n个={(1/n个)Σ=1n个(ζ)2}.误差项的经验内积ɛ定义为(ε,)n个=(1/n个)Σ=1n个ε(ζ)类似地如果在里面F类(如果,)n个=(1/n个)Σ=1n个如果(ζ)(ζ).

回归函数的假设如果变换Ψ(·,·)如下所示12,而函数预报器上常用的正则性条件{x个(t吨)}密度设计和平滑程序推迟到条件1–3 in附录B.

假设1

对于任何如果F类,有独立的{B类}=1n个具有E类(B类2)<,这样,概率为1,

|如果(ζ)ζ伊克|B类如果2.

假设2

变换函数Ψ(ξ,λ)在处可微分ξλ,并满足这一点|Ψ(ξ,λ)/ξ|C类λγ|Ψ(ξ,λ)/λ|C类λγ|ξ|对于一些常量C类γ(γ< 0).

假设1是一个正则化条件,用于控制如果相对于其2-规范。对于假设2,如果选择Ψ(·,·)作为平均值和方差为零的正态CDF,可以很容易地验证λ,然后C类=1和γ=12(当λ⩾1)或γ=2(当0时<λ< 1). 也可以选择学生的CDFt吨-或其他方差分布λ.

为了表示的简洁,技术引理和证明被推迟到附录B注意,通过类比Lin和Zhang的定理1,可以保证准则(5)的极小值的存在(2006),通过考虑输入的设计条件{,ζ1,,ζ},=1,,n个,其中是初始截断参数。

定理1

考虑回归模型(4)ζ伊克=Ψ(ξ伊克,λk个),其中{ξ伊克}k个=1FPC得分是x个(t吨)基于密集观测轨迹,以及{λk个}k个=1是相应的特征值。如果̂是目标函数(6)的最小值如果F类,并让τn个是函数(6)中的调谐参数。假设12条件1-3保持不变。如果J型(如果0)>0

τn个1=n个2/5J型/10(如果0),
(7)

然后如果̂如果0n个=O(运行)第页(n个2/5)J型1/5(如果0)J型(如果̂)=J型(如果0)O(运行)第页(1).如果J型(如果0)=0

τn个1=n个1/4,
(8)

然后如果̂如果0n个=O(运行)第页(n个1/2)J型(如果̂)=O(运行)第页(n个1/2).

值得一提的是,技术难点来自未观察到的变量ζ,并致力于解决估算数量的影响ζ̂利用自方差算子谱分解的分析工具得到的估计量X.定理表明,如果对所有个体观察到的重复测量足够密集,并且J型(如果0)是有界的,则得到的估计量如果̂由表达式(6)得到的具有收敛速度n个2/5,与以下情况下的速率相同{ζ}直接观察到。

3.仿真研究

为了证明所提出的CSEFAM方法的性能,我们在不同的设置下进行了仿真研究。在节中3.13.2,我们分别研究了CSEFAM对密集和稀疏函数数据的性能,假设底层的真实模型包含“重要”和“不重要”的加性成分。我们将CSEFAM方法与FAM类型方法和多元自适应回归样条(MARS)方法进行了比较。FAM类型的方法以三种不同的方式实现,其中两种是“oracle”方法,家庭O(运行)1FAM公司O(运行)2,都假设对底层模型结构有充分的了解。特别是FAM公司O(运行)1方法是金标准,其中{ζ伊克}并且使用了真正的非零添加成分。这个FAM公司O(运行)2方法是另一种类型的oracle,其中{ζ伊克}通过FPCA进行估计,但使用了真正的非零加性成分。在节中3.3,我们研究了当底层真模型实际上是非解析模型时CSEFAM的性能,并将结果与饱和FAM和截断FAM进行了比较。对于每种设置,我们进行了100次蒙特卡罗模拟,并给出了所比较方法的模型选择和预测结果。

3.1. 密集的功能数据

我们使用20个特征函数生成1000个IID轨迹,其中n个=200随机分配给训练集,其余800组成测试集。功能预测因子x个(t吨),t吨∈[0,10],在具有100个等距点的网格上测量,具有独立的测量误差e(电子)ij公司~N个(0,v(v)2),v(v)2=0.2.的特征值x个(t吨)由生成λk个=b条k个1具有=45.25和b条= 0.64. 真正的FPC得分{ξ伊克}生成自N个(0,λk个)和本征基{ϕk个(·)}取[0,10]上的前20个傅里叶基函数。平均曲线设置为μx个(t吨)=t吨+(t吨).我们使用正规CDF来获得变换后的变量:ζk个=Ψ(ξk个;0,λk个),k个= 1,…, 20. 的值然后由生成=如果0(ζ)+ε,其中ε~N个(0,σ2)σ2=1。我们假设如果0仅取决于三个非零加法分量:第一、第二和第四,即。如果0(ζ)=b条0+如果01(ζ1)+如果02(ζ2)+如果04(ζ4),={1,2,4}.给你b条0=1.4,如果01(ζ1)=ζ12,如果02(ζ2)={2π(ζ212)},如果04(ζ4)=8(ζ41)28/9如果0k个(ζk个)0对于k个这给出了信噪比(SNR)2.2,其中SNR定义为信噪比=无功功率,无功功率{如果0(ζ)}/无功功率,无功功率(ε)、和无功功率,无功功率{如果0(ζ)}=Σk个01如果0k个2(ζk个)d日ζk个=2.2考虑到这一点ζk个~U型[0,1].

我们将所提出的CSEFAM算法应用于训练数据,遵循第节中描述的FPCA和COSSO步骤2.1附录A为了进行说明,我们选择了一个蒙特卡罗模拟,并在图中显示组件选择和估计结果。1。在FPCA中,初始截断为=18,占总变化的近100%,并进入COSSO步骤。然后通过调整正则化参数来实现组件选择λ0在具有广义交叉验证的表达式(9)中,以及M(M)在表达式(10)中使用贝叶斯信息准则(BIC),如图1(a) 和1(b),而经验1-的规范如果̂k个(计算单位:n个1Σ=1n个|如果̂k个(ζ̂伊克)|在不同的M(M))如图所示。1(c) ●●●●。在图中1(d) –1(f),对如果k个,k个显示=1、2、4,并且{如果̂k个,k个1,2,4}根据需要缩小为0。

 一次模拟的成分选择和估计图:(a)广义交叉验证与λ0;(b) BIC与M;(c) 不同M值(,f1;,f2;,f3;,f4;,f5)下的经验L1-形式(,在(a)–(c)中选择的调谐参数);(d) –(f)当k=1,2,4时,估计fks()与真实fks
图1

一次模拟中的组件选择和估算图:(a)广义交叉验证λ0; (b) 银行识别码与M相比; (c) 经验主义的1-各种规范M(M)-值(图解的,如果1;图解的,如果2;图解的,如果;图解的,如果4;图解的,如果5) (图解的,(a)–(c)中选择的调谐参数;(d) –(f)估计如果k个秒(图解的)真的如果k个秒(图解的)的k个= 1, 2, 4

模型选择和预测结果显示在表的顶部面板中1我们以不同于米勒和姚明的方式实施FAM程序(2008)。而不是使用局部多项式平滑来估计每个如果k个另外,我们对转换后的FPC分数进行了更一般的加性拟合,即广义加性模型,该模型允许反求,并提供了一个第页-每个添加剂组分的值。这样做的唯一原因是,广义可加模型算法显示出更大的数值稳定性,特别是当可加分量的数量较大时O(运行)1和FAMO(运行)2由于FPCA步骤中引入的估计误差,FAMO(运行)2与FAM相比,预计会牺牲一定的估计精度和预测能力O(运行)1.FAMS公司模型是基于FPC估计分数和领先分数的饱和模型CSEFAM中使用的术语。FAM中未执行模型选择S公司. The-数值从17到19不等,考虑到了几乎100%的总变化{x个(t吨)}MARS方法基于Hastie. (2001).

表1

密集和稀疏设计下100个蒙特卡罗模拟的模型选择和预测总结

数据模型以下型号尺寸的计数:以下组件的选择频率:聚乙烯
1245678如果̂1如果̂2如果̂如果̂4如果̂5如果̂6如果̂7如果̂8
密集设计CSEFAM公司056129500010094221007011.30 (0.13)
FAM公司S公司001032212184100985110032141281.50 (0.17)
火星1009960100412325181.46 (0.16)
FAM公司O(运行)20199100991001.28 (0.12)
FAM公司O(运行)1001001001001001.07 (0.06)
稀疏设计CSEFAM公司02261134000100781082129712.07 (0.16)
FAM公司S公司00143025209210098419635179122.17 (0.16)
火星100985898563020232.11 (0.14)
FAM公司O(运行)2049610098982.01 (0.14)
FAM公司O(运行)1001001001001001.05 (0.05)
数据模型以下型号尺寸的计数:以下组件的选择频率:聚乙烯
1245678如果̂1如果̂2如果̂如果̂4如果̂5如果̂6如果̂7如果̂8
密集设计CSEFAM公司056129500010094221007011.30 (0.13)
FAM公司S公司001032212184100985110032141281.50 (0.17)
火星1009960100412325181.46 (0.16)
FAM公司O(运行)20199100991001.28(0.12)
FAM公司O(运行)1001001001001001.07(0.06)
稀疏设计CSEFAM公司02261134000100781082129712.07 (0.16)
FAM公司S公司00143025209210098419635179122.17 (0.16)
火星100985898563020232.11 (0.14)
FAM公司O(运行)2049610098982.01 (0.14)
FAM公司O(运行)1001001001001001.05 (0.05)
表1

密集和稀疏设计下100个蒙特卡罗模拟的模型选择和预测总结

数据模型以下型号尺寸的计数:以下组件的选择频率:聚乙烯
1245678如果̂1如果̂2如果̂如果̂4如果̂5如果̂6如果̂7如果̂8
密集设计CSEFAM公司056129500010094221007011.30 (0.13)
FAM公司S公司001032212184100985110032141281.50 (0.17)
火星1009960100412325181.46 (0.16)
FAM公司O(运行)20199100991001.28 (0.12)
FAM公司O(运行)1001001001001001.07 (0.06)
稀疏设计CSEFAM公司02261134000100781082129712.07 (0.16)
FAM公司S公司00143025209210098419635179122.17 (0.16)
火星100985898563020232.11 (0.14)
家庭O(运行)2049610098982.01 (0.14)
FAM公司O(运行)1001001001001001.05(0.05)
数据模型以下型号尺寸的计数:以下部件的选择频率:聚乙烯
1245678如果̂1如果̂2如果̂如果̂4如果̂5如果̂6如果̂7如果̂8
密集设计CSEFAM公司056129500010094221007011.30 (0.13)
FAM公司S公司001032212184100985110032141281.50 (0.17)
火星1009960100412325181.46 (0.16)
FAM公司O(运行)20199100991001.28 (0.12)
FAM公司O(运行)1001001001001001.07 (0.06)
稀疏设计CSEFAM公司02261134000100781082129712.07 (0.16)
FAM公司S公司00143025209210098419635179122.17 (0.16)
火星100985898563020232.11 (0.14)
FAM公司O(运行)2049610098982.01 (0.14)
FAM公司O(运行)1001001001001001.05 (0.05)

值得注意的是,基于解释的变化的主观截断X对于回归来说是次优的(为了简洁起见,没有报告结果)。因此,在表中1,我们报告(在“以下型号尺寸的计数”列下)CSEFAM中选定数量的非零加性成分的计数,以及FAM、FAM中显著非零加法成分的计数O(运行)1和FAMO(运行)2。为了便于显示,仅报告最大为8的型号的计数。表中的“以下组件的选择频率”列1记录前八个组分中每个添加剂组分估计为非零的次数。对于MARS方法,如果j个th分量如果̂j个在一个或多个基函数中被选中,我们将其计为1,否则为0。关于预测误差(PE),我们使用来自训练集的总体估计(例如均值、协方差和特征基)来获得训练集和测试集的FPC得分;然后我们应用{如果̂k个}从训练集中估计以获得{}在测试集中。PE的计算公式为n个1Σ=1n个(̂)2。从表的顶部面板1,我们看到,在密集设计下,CSEFAM选择正确的模型(模型大小等于3)的时间占61%,而FAMS公司方法总是过度选择(α=0.05用于保留显著的添加剂成分)。CSEFAM的PE是三种非oracle模型中最小的。与oracle方法相比,CSEFAM的预测能力不如FAMO(运行)2(轻微)和FAMO(运行)1,这可以被视为双方估算ζ并选择添加剂成分。

为了评估估计的准确性,前八个加法分量和整体函数的平均积分平方误差(AISE)如果显示在表的顶部面板中2,其中ISE定义为

ISE公司(如果k个)=E类ζk个{如果̂k个(ζk个)如果k个(ζk个)}2=01{如果̂k个(t吨)如果k个(t吨)}2d日t吨.

从表2,我们看到CSEFAM为真正的零分量提供了相当小的AISE(如果j个,j个=3,5,6,7,8)比FAMS公司方法。对于非零分量,CSEFAM、FAMS公司和FAMO(运行)2具有可比较的AISE值。

表2

密集和稀疏设计下100个蒙特卡罗模拟的AISE

数据模型以下功能的AISE:
如果1如果2如果如果4如果5如果6如果7如果8如果
稠密CSEFAM公司0.0380.1170.0220.0380.0050.00100.0010.226
设计FAM公司S公司0.0300.0950.0500.0470.0310.0180.0160.0150.476
FAM公司O(运行)20.0270.0900.0420.158
FAM公司O(运行)10.0070.0280.0190.054
稀疏CSEFAM公司0.0330.220.0360.2980.0550.0400.0450.0010.720
设计家庭S公司0.0160.1180.0320.1590.1020.1210.3992.64>10
FAM公司O(运行)20.0260.1290.2200.376
FAM公司O(运行)10.0070.0160.0130.036
数据模型以下功能的AISE:
如果1如果2如果如果4如果5如果6如果7如果8如果
稠密CSEFAM公司0.0380.1170.0220.0380.0050.00100.0010.226
设计FAM公司S公司0.0300.0950.0500.0470.0310.0180.0160.0150.476
FAM公司O(运行)20.0270.0900.0420.158
FAM公司O(运行)10.0070.0280.0190.054
稀疏CSEFAM公司0.0330.220.0360.2980.0550.0400.0450.0010.720
设计FAM公司S公司0.0160.1180.0320.1590.1020.1210.3992.64>10
FAM公司O(运行)20.0260.1290.2200.376
FAM公司O(运行)10.0070.0160.0130.036
表2

密集和稀疏设计下100个蒙特卡罗模拟的AISE

数据模型以下功能的AISE:
如果1如果2如果如果4如果5如果6如果7如果8如果
稠密CSEFAM公司0.0380.1170.0220.0380.0050.00100.0010.226
设计FAM公司S公司0.0300.0950.0500.0470.0310.0180.0160.0150.476
FAM公司O(运行)20.0270.0900.0420.158
FAM公司O(运行)10.0070.0280.0190.054
稀疏CSEFAM公司0.0330.220.0360.2980.0550.0400.0450.0010.720
设计FAM公司S公司0.0160.1180.0320.1590.1020.1210.3992.64>10
FAM公司O(运行)20.0260.1290.2200.376
FAM公司O(运行)10.0070.0160.0130.036
数据模型以下功能的AISE:
如果1如果2如果如果4如果5如果6如果7如果8如果
稠密CSEFAM公司0.0380.1170.0220.0380.0050.00100.0010.226
设计FAM公司S公司0.0300.0950.0500.0470.0310.0180.0160.0150.476
FAM公司O(运行)20.0270.0900.0420.158
FAM公司O(运行)10.0070.0280.0190.054
稀疏CSEFAM公司0.0330.220.0360.2980.0550.0400.0450.0010.720
设计FAM公司S公司0.0160.1180.0320.1590.1020.1210.3992.64>10
FAM公司O(运行)20.0260.1290.2200.376
FAM公司O(运行)10.0070.0160.0130.036

3.2. 稀疏功能数据

为了与稠密情况进行比较,我们还进行了模拟,以检查CSEFAM对于稀疏函数数据的性能。我们生成了1200条IID轨迹,其中300条在训练集中,900条在测试集中。在每条轨迹中,有5-10个重复观测值均匀分布在[0,10]中,以相等的概率从5到10选择点数。其他设置与密集设计中的设置相同。模型选择、预测和估算结果的总结见表的底部面板1和表2。我们观察到类似于密集设计案例中的模式。此外,表2建议,对于稀疏设计,FAMS公司估计如果k个对于高阶组件(例如。k个>7). 由于外围估计的影响,AISE快速增长。这并不奇怪,因为在稀疏设计下,由于数据的稀疏性和适度的样本量,高阶特征函数和FPC分数很难准确估计,从而导致不准确如果k个-饱和模型FAM时的估计S公司使用。在这种情况下,我们可以看到,由于COSSO惩罚具有自动降低“不重要”组件权重的效果,因此所建议的CSEFAM仍然表现得相当稳定。这为拟议的CSEFAM方法提供了进一步支持。

3.3. 非解析底层加法组件

为了显示当真实的可加成分实际上是非解析的时模型的性能,我们对密集设计的两个设置(研究I和研究II)进行了额外的模拟,并将CSEFAM与两个版本的FAM进行了比较:饱和模型FAMS公司如第节所定义3.1和截断模型FAMT型选择截断保留99%的总变化。在研究I中,真实模型包含三个“较大”的附加成分{如果01,如果02,如果04},格式与第节相同3.1除了被常数重新缩放12。其余是“较小”的加性成分,每个都是从中随机选择的{如果01,如果02,如果04}具有相同的概率,并通过从[1/17,1/14]中均匀选择的较小常数重新缩放。生成的数据的信噪比较低(更具挑战性),约为0.60,其中8.7%来自“较小”分量。结果列在表的顶部面板中,这表明CSEFAM倾向于选择比FAM更小的型号S公司我们还观察到FAM的模型大小T型倾向于小于CSEFAM,因为FAM公司T型采用99%阈值的更多截断。值得注意的是,CSEFAM实际上产生的PE和AISE远远小于FAMS公司方法,CSEFAM的结果与FAM的结果具有可比性T型在研究II中,我们用较小的组件替换三个较大的组件;因此,所有加性成分的贡献都大致相等。我们从中统一选择缩放常数[18,16]因此总信噪比平均为0.30。表底部面板中列出的结果建议CSEFAM现在倾向于选择更多组件(即产生非解析配合),并且再次产生比FAM更小的PE和AISES公司和FAMT型方法。总的来说,该模拟表明,即使底层真实模型是非解析的,所提出的CSEFAM仍然是一个合理的选项。值得一提的是,CSEFAM的增益在低信噪比的挑战性环境中更为明显。

表3

具有非解析附加组件的情况的附加模拟

类型模型以下型号尺寸的计数:以下组件的选择频率:聚乙烯f的AISE
1245678如果̂1如果̂2如果̂如果̂4如果̂5如果̂6如果̂7如果̂8
CSEFAM公司02034269621008812100171210101.19 (0.08)0.17
FAM公司S公司041618291778100921699201719161.33 (0.12)0.33
FAM公司T型0439351560110091151001915991.22 (0.08)0.18
CSEFAM公司124121320261346423342364238441.25(0.07)0.12
FAM公司S公司168251413131042452937293836361.38 (0.11)0.42
家庭T型13302220662034352031253834301.32 (0.08)0.20
类型模型以下型号尺寸的计数:以下组件的选择频率:聚乙烯f的AISE
1245678如果̂1如果̂2如果̂如果̂4如果̂5如果̂6如果̂7如果̂8
CSEFAM公司02034269621008812100171210101.19 (0.08)0.17
FAM公司S公司041618291778100921699201719161.33 (0.12)0.33
FAM公司T型0439351560110091151001915991.22 (0.08)0.18
CSEFAM公司124121320261346423342364238441.25 (0.07)0.12
FAM公司S公司168251413131042452937293836361.38 (0.11)0.42
FAM公司T型13302220662034352031253834301.32 (0.08)0.20

一、 真正的模型包含“较大”和“较小”的加性成分;二、 真正的模型只包含很小的附加成分。

表3

具有非解析附加组件的情况的附加模拟

类型模型以下型号尺寸的计数:以下组件的选择频率:聚乙烯f的AISE
1245678如果̂1如果̂2如果̂如果̂4如果̂5如果̂6如果̂7如果̂8
CSEFAM公司02034269621008812100171210101.19 (0.08)0.17
FAM公司S公司041618291778100921699201719161.33 (0.12)0.33
FAM公司T型0439351560110091151001915991.22 (0.08)0.18
CSEFAM公司124121320261346423342364238441.25 (0.07)0.12
FAM公司S公司168251413131042452937293836361.38 (0.11)0.42
家庭T型13302220662034352031253834301.32 (0.08)0.20
类型模型以下型号尺寸的计数:以下部件的选择频率:聚乙烯f的AISE
1245678如果̂1如果̂2如果̂如果̂4如果̂5如果̂6如果̂7如果̂8
CSEFAM公司02034269621008812100171210101.19 (0.08)0.17
FAM公司S公司041618291778100921699201719161.33 (0.12)0.33
FAM公司T型0439351560110091151001915991.22 (0.08)0.18
CSEFAM公司124121320261346423342364238441.25 (0.07)0.12
FAM公司S公司168251413131042452937293836361.38 (0.11)0.42
FAM公司T型13302220662034352031253834301.32 (0.08)0.20

一、 真正的模型包含“较大”和“较小”的加性成分;二、 真正的模型只包含很小的附加成分。

4.真实数据应用

通过对240多个肉类样品的近红外吸收光谱的蛋白质含量回归,我们验证了该方法的性能。数据集由Tecator公司收集,可在StatLib网站上公开获取(http://lib.stat.cmu.edu)。通过名为Tecator Infratec食品和饲料分析仪的光谱仪进行测量。在850 nm至1050 nm的波长范围内记录光谱曲线。对于每个肉类样品,数据包括100道吸收光谱(100个网格点)以及水分(水)、脂肪和蛋白质的含量。吸光度是光谱仪测量的透射率的负公共对数。这三种含量以百分比计量,由分析化学测定。最重要的是利用光谱轨迹预测蛋白质含量。240份肉类样本被随机分为训练集(185份样本)和测试集(55份样本)。我们的目的是利用训练数据预测测试集中的蛋白质含量。图。2说明了使用FPCA估计的光谱曲线和前五个特征函数。

 (a) 近红外吸收光谱曲线和(b)前五个估计特征函数,2(t),3(t),4(t),5(t))
图2

(a) 近红外吸收光谱曲线和(b)前五个估计的本征函数(图解的,ϕ1(t吨);图解的,ϕ2(t吨);图解的,ϕ(t吨);图解的,ϕ4(t吨);图解的,ϕ5(t吨))

我们最初保留了前20个FPC,其中考虑了几乎100%的总变化。然后将所提出的CSEFAM应用于组件选择和估计。COSSO步骤中调谐参数的确定受以下方面的广义交叉验证标准的指导λ0,它提供λ0=0.0013,并通过十倍交叉验证M(M),它提供M(M)= 10.0. 估计的附加成分如图所示。从中我们可以看到CSEFAM从20个组件中选择了12个,{如果̂1,,如果̂8,如果̂10,如果̂13,如果̂16,如果̂17},其他分量估计为0。为了评估所提方法的性能,我们在表中报告了测试集的PE4,其中PE的计算方法与第节相同。我们还报告了准-R(右)2对于测试集,定义为

R(右)2=1(̂)2/(¯)2.

为了显示初始截断的影响,我们还使用较小的值,在CSEFAM中=10,得出次优结果。这表明我们应该使用足够大的首先。FAM由前五个、10个和20个FPC执行。一个有趣的现象是,尽管高阶FPC(超过10)解释了功能预测值的极小变化(小于1%),但它们对预测的贡献却惊人地巨大。MARS方法和偏最小二乘法(这是化学计量学中常用的方法;参见Xu. (2007)以及其中的参考)。另一个比较是与经典函数线性模型的比较,该模型将估计的主要FPC用作预测因子,其中使用启发式AIC来选择前七个分量。

表4

测试集上的预测结果与其他几种方法的比较

以下方法的结果:
CSEFAM公司FAM公司MARS PC20偏最小二乘法,PLD20函数线性模型AIC7
= 10= 20PC5公司PC10公司PC20型
聚乙烯2.220.723.982.130.840.771.021.50
R(右)20.820.940.680.830.930.930.920.88
以下方法的结果:
CSEFAM公司家庭MARS PC20偏最小二乘法,PLD20函数线性模型,AIC7
= 10= 20PC5公司第10页PC20型
聚乙烯2.220.723.982.130.840.771.021.50
R(右)20.820.940.680.830.930.930.920.88

PC10表示使用了10个FPC分数。PLD20表示使用的偏最小二乘方向数为20。AIC7表示根据Akaike信息标准使用了七个FPC分数。

表4

测试集上的预测结果与其他几种方法的比较

以下方法的结果:
CSEFAM公司FAM公司MARS PC20偏最小二乘法,PLD20函数线性模型AIC7
= 10= 20PC5公司PC10公司PC20型
聚乙烯2.220.723.982.130.840.771.021.50
R(右)20.820.940.680.830.930.930.920.88
以下方法的结果:
CSEFAM公司FAM公司MARS PC20偏最小二乘法,PLD20函数线性模型AIC7
= 10= 20PC5公司PC10公司PC20型
聚乙烯2.220.723.982.130.840.771.021.50
R(右)20.820.940.680.830.930.930.920.88

PC10表示使用了10个FPC分数。PLD20表示使用的偏最小二乘方向数为20。AIC7表示根据Akaike信息标准使用了七个FPC分数。

从表4,我们看到,当初始截断设置为10时,所提出的CSEFAM与FAM相比并不是明显有利的。随着FPC数量增加到20个,所提出的方法提供了更小的PE和更高的PER(右)2比所有其他方法都好。一个合理的解释是,对于这些数据,前10个FPC中的大多数(第九个除外)对响应的贡献为非零(如图所示)。); 因此,惩罚这些成分无助于改善预测。然而,随着FPC分数的增加,更多的冗余项开始发挥作用,因此惩罚方法CSEFAM获得了更多的预测能力。我们对训练集和测试集的不同随机分割重复了此分析,并且结论几乎保持不变。

 估计加性成分图:(a)f̂1;(b) f̂2;(c) f̂3;(d) f̂4;(e) f̂5;(f) f̂6;(g) f̂7;(h) f̂8;(i) f̂9;(j) f̂10;(k) f̂11;(l) f̂12;(m) f̂13;(n) f̂14;(o) f̂15;(p) f̂16;(q) f̂17;(r) f̂18;(s) f̂19;(t) f̂20
图3

估计附加成分图:(a)如果̂1; (b)如果̂2; (c)如果̂; (d)如果̂4; (e)如果̂5; (f)如果̂6; (g)如果̂7; (h)如果̂8; (i)如果̂9; (j)如果̂10; (k)如果̂11; (l)如果̂12; (米)如果̂13; (n)如果̂14; (o)如果̂15; (p)如果̂16; (q)如果̂17; (r)如果̂18; (s)如果̂19; (t)如果̂20

5.讨论

我们提出了一种用于函数数据回归的结构估计方法,其中标量响应在函数预测器上回归。该模型是在FAM框架下构建的,其中加性成分是标度FPC分数的函数。在RKHS环境下,使用COSSO惩罚,通过惩罚最小二乘法选择和估计可加成分。提出的方法考虑到响应和预测因子之间更一般的非参数关系,因此是函数线性回归的重要扩展。通过采用加法结构,避免了无限维预测过程引起的维数灾难。该方法提供了一种选择预测过程重要特征并同时将不重要特征收缩为0的方法。这种选择场景不仅考虑了预测过程的解释变化,还考虑了其对响应的贡献。理论结果表明,在密集设计下,由于FPC得分不可观测,部件选择和估计的非参数率将主导差异。

提出的一个问题是稀疏性在FAM框架中是否必要。一般来说,稀疏性假设有助于平衡方差和偏差之间的平衡,这可能会提高模型性能。当部分预测器对回归的贡献可以忽略不计时,这一点尤其有用。即使基础模型实际上是非稀疏的,并且我们只关心估计和预测,所提出的CSEFAM仍然是一个合理的选择,如第节中的模拟所示我们还指出,当所有非零可加分量均为线性时,COSSO惩罚降为自适应套索惩罚。另一个模拟(为了简洁起见,没有报道)表明,所提出的方法产生的估计和预测结果与自适应套索的结果相当。此外,COSSO处罚要求<n个,这与初始截断的要求不冲突选择的尺寸足够大,可以包含所有重要功能。实际上,占预测变量近100%的FPC数量通常远小于样本量n个由于特征值的快速衰减。最后,仿真和实际算例都表明,模型性能对只要选择足够大。

在计算方面,我们的算法同时利用了FPCA和COSSO。在装有Intel(R)Core(TM)i5-2400中央处理器单元、3.10-GHz处理器和8 GB随机访问内存的桌面上,第节中的每个Monte Carlo示例3.1实际数据分析需要30秒,而实际数据分析大约需要10秒。就维数而言,容量和速度取决于所使用的特定FPCA算法。我们使用了主成分分析的条件期望算法PACE,它可以处理相当大的数据(http://anson.ucdavis.edu/~ntyang/PACE/)。对于5000维或更高维的密集函数数据,建议使用预先装箱来加速计算。也可以使用面向超大维度的FPCA算法(所有科目的时间网格相同);例如,齐普诺尼科夫. (2011)考虑的功能磁共振成像数据的维数为O(运行)(107)通过将原始数据矩阵划分为块,并使用块操作进行奇异值分解。

尽管我们在本工作中重点关注了基于FPC的分析,但CSEFAM框架通常适用于其他基结构,例如样条和小波,其中加性分量是预测过程相应基系数的函数。它也可能适用于除COSSO以外的非参数惩罚,例如Meier中提出的稀疏平滑惩罚. (2009)。建议的方法可以进一步扩展,以适应分类响应,其中可以选择适当的链接函数来将平均响应与加性结构相关联。另一种可能的扩展是使用多个功能预测因子进行回归,其中可以进行组件选择以选择功能预测因子。在这种情况下,需要以分组方式选择与每个功能预测器关联的可加性成分。

致谢

这项工作是通过美国统计与应用数学科学研究所的“对象数据分析”项目进行的。方耀的研究部分得到了加拿大自然科学与工程研究委员会的个人发现拨款和发现加速器补充资金的支持。张浩海伦(Hao Helen Zhang)获得了美国国立卫生研究院(US National Institutes of Health)资助R01 CA-085848和美国国家科学基金会(National Science Foundation)资助DMS-0645293。

参考文献

拜尔
,
E.公司。
,
哈斯蒂
,
T。
,
保罗
,
D。
提比什拉尼
,
R。
(
2006
)
监督主成分预测
.
《美国统计杂志》。助理。
,
101
,
119
——
137
.

贝里埃
,
答:。
托马斯·阿格南
,
C、。
(
2004
)
概率统计中的再生核Hilbert空间
.
诺威尔
:
Kluwer公司
.

博斯克
,
D。
(
2000
)
函数空间中的线性过程:理论与应用
.
纽约
:
施普林格
.

卡多特
,
H。
,
费拉蒂
,
F、。
,
马斯
,
答:。
萨达
,
第页。
(
2003
)
测试函数线性模型中的假设
.
扫描。J.统计。
,
30
,
241
——
255
.

卡多特
,
H。
,
费拉蒂
,
F、。
萨尔达
,
第页。
(
1999
)
功能线性模型。统计师。普罗巴伯
.
莱特。
,
45
,
11
——
22
.

风扇
,
J。
吉贝尔斯
,
一、。
(
1996
)
局部多项式建模及其应用
.
伦敦
:
查普曼和霍尔
.

风扇
,
J。
,
R。
(
2001
)
基于非冲突惩罚似然的变量选择及其oracle性质
.
《美国统计杂志》。助理。
,
96
,
1348
——
1360
.

风扇
,
J。
,
J。
(
2000
)
函数线性模型的两步估计及其在纵向数据中的应用
.
J.R.统计。Soc.B公司
,
62
,
303
——
322
.

戈德史密斯
,
J。
,
鲍伯
,
J。
,
克拉伊尼恰努
,
C.M.公司。
,
卡福
,
B。
帝国
,
D。
(
2011
)
惩罚函数回归
.
J.计算图表。统计师。
,
20
,
830
——
851
.

哈迪
,
A.S.公司。
,
无线电频率。
(
1998
)
关于使用主成分回归的一些注意事项
.
美国统计局
,
52
,
15
——
19
.

霍尔
,
第页。
侯赛尼·纳萨布
,
M。
(
2006
)
关于函数主成分分析的性质
.
J.R.统计。Soc.B公司
,
68
,
109
——
126
.

霍尔
,
第页。
,
米勒
,
H。
,
J。
(
2006
)
用于功能和纵向数据分析的主成分方法的特性
.
安。统计师。
,
34
,
1493
——
1517
.

哈斯蒂
,
T。
提比什拉尼
,
R·J。
(
1990
)
广义可加模型
.
伦敦
:
查普曼和霍尔
.

哈斯蒂
,
T。
,
提比什拉尼
,
R。
弗里德曼
,
J。
(
2001
)
统计学习的要素
.
纽约
:
施普林格
.

詹姆斯
,
总经理。
(
2002
)
带函数预报器的广义线性模型
.
J.R.统计。Soc.B公司
,
64
,
411
——
432
.

詹姆斯
,
总经理。
,
,
J。
,
J。
(
2009
)
可解释的函数线性回归
.
安。统计师。
,
37
,
2083
——
2108
.

,
年。
,
,
N。
卡罗尔
,
R。
(
2010
)
具有半参数单指标相互作用的广义泛函线性模型
.
《美国统计杂志》。助理。
,
105
,
621
——
633
.

,
年。
,
H。
(
2006
)
多元非参数回归中的成分选择与平滑
.
安。统计师。
,
34
,
2272
——
2297
.

马拉
,
G.公司。
木材
,
序号。
(
2011
)
广义加性模型的实用变量选择
.
J.计算图表。统计师。
,
55
,
2372
——
2387
.

迈尔
,
L。
,
范德格尔
,
美国。
布尔曼
,
第页。
(
2009
)
高维加性建模
.
安。统计师。
,
37
,
3779
——
3821
.

米勒
,
H。
斯塔特米勒
,
美国。
(
2005
)
广义函数线性模型
.
安。统计师。
,
33
,
774
——
805
.

米勒
,
H。
姚明
,
F、。
(
2008
)
功能加性模型
.
《美国统计杂志》。助理。
,
103
,
1534
——
1544
.

拉姆齐
,
J.O.公司。
西尔弗曼
,
B.W.公司。
(
2005
)
功能数据分析
,第2版。
纽约
:
施普林格
.

拉维库马
,
第页。
,
拉弗蒂
,
J。
,
线路接口单元
,
H。
瓦瑟曼
,
L。
(
2009
)
稀疏可加模型
.
J.R.统计。Soc.B公司
,
71
,
1009
——
1030
.

大米
,
J.A.公司。
西尔弗曼
,
B.W.公司。
(
1991
)
当数据为曲线时,非参数估计均值和协方差结构
.
J.R.统计。Soc.B公司
,
53
,
233
——
243
.

提比什拉尼
,
R。
(
1996
)
通过套索回归收缩和选择
.
J.R.统计。Soc.B公司
,
58
,
267
——
288
.

范德格尔
,
美国。
(
2000
)
M估计中的经验过程
.
剑桥
:
剑桥大学出版社
.

瓦赫巴
,
G.公司。
(
1990
)
观测数据的样条模型
.
费城
:
工业和应用数学学会
.

木材
,
序号。
(
2006
)
广义可加模型:R引言
.
纽约
:
查普曼和霍尔
.

,
L。
,
,
J。
,
,
H。
,
,
G.公司。
,
R。
(
2007
)
化学家。智力。实验室系统
。,
85
,
140
——
143
.

姚明
,
F、。
(
2007
)
纵向或函数数据非参数回归估计量的渐近分布
.
J.Multiv.公司。分析。
,
98
,
40
——
56
.

姚明
,
F、。
米勒
,
H.G.公司。
(
2010
)
函数二次回归
.
生物特征
,
97
,
49
——
64
.

姚明
,
F、。
,
米勒
,
H.G.公司。
,
J·L·。
(
2005
)
稀疏纵向数据的功能数据分析
.
《美国统计杂志》。助理。
,
100
,
577
——
590
.

,
H。
,
万木奇
,
M。
考克斯
,
D.D.博士。
(
2007
)
宫颈癌前诊断中的功能数据分类——贝叶斯变量选择模型
.英寸
程序。Jt统计。见面。

,
H。
,
万木奇
,
M。
考克斯
,
D.D.博士。
(
2010
)
一种具有功能预测因子选择的贝叶斯分层分类模型
.
生物计量学
,
66
,
463
——
473
.

齐蓬尼科夫
,
五、。
,
卡福
,
B。
,
尤森
,
D.M.博士。
,
达瓦特齐科斯
,
C、。
,
施瓦茨
,
学士学位。
克拉伊尼恰努
,
C、。
(
2011
)
高维脑成像的功能主成分模型
.
神经影像
,
58
,
772
——
784
.

,
H。
(
2006
)
自适应套索及其oracle性质
.
《美国统计杂志》。助理。
,
101
,
1418
——
1429
.

附录A估算程序

估计ζ,我们假设在网格上观测到函数预测值的测量误差为T型我们对观测密集或稀疏的功能数据采用了两种不同的程序。

  • (a)
    获取ζ̂在密集设计中.如果{x个(t吨)}对于每个受试者,我们在足够密集的网格上进行观察,然后对数据应用局部线性平滑{t吨ij公司,x个ij公司}j个=1,,N个单独进行,这将提供平滑近似x个̂(t吨)。平均值和协方差函数由以下公式获得μ̂(t吨)=(1/n个)Σ=1n个x个̂(t吨)
    G公司̂(,t吨)=(1/n个)=1n个{x个̂()μ̂()}{x个̂(t吨)μ̂(t吨)}
    分别是。通过求解方程估计特征值和特征函数
    T型G公司̂(,t吨)ϕk个()d日=λk个ϕk个(t吨)
    对于λk个ϕk个(·),受制于T型ϕk个2(t吨)d日t吨=1T型ϕ(t吨)ϕk个(t吨)d日t吨=0对于k个,k个,= 1,…,FPC得分由以下公式得出ξ̂伊克=T型{x个̂(t吨)μ̂(t吨)}ϕ̂k个(t吨)d日t吨。最终CDF转换产生ζ̂伊克=Ψ(ξ̂伊克;0,λ̂k个).
  • (b)
    获取ζ̂在稀疏设计中.我们通过Yao提出的PACE算法采用主成分分析. (2005),其中平均估计值μ̂(t吨)通过使用基于所有个体的合并数据的局部线性平滑器获得。特别地,
    μ̂(t吨)==1n个j个=1N个K(K){(t吨ij公司t吨)/b条}{x个ij公司β0β1(t吨t吨ij公司)}2
    具有K(K)(·)核函数和b条带宽。对于协方差估计,表示G公司国际jl={x个ij公司μ̂(t吨ij公司)}{x个伊尔μ̂(t吨伊尔)}然后让K(K)小时*(·,·)是具有带宽的二元核函数小时一个最小化
    =1n个j个K(K)*{(t吨ij公司)/小时,(t吨伊尔t吨)/小时}{G公司国际jlβ00β11(t吨ij公司)β12(t吨t吨伊尔)}2.
    可以估计噪声方差ν2通过取曲面估计对角线之间的差值G公司̂(t吨,t吨)以及从原始方差获得的局部多项式估计{(t吨ij公司,G公司ijj公司):j个=1,,N个;=1,,n个}在稠密情况下,获得特征值或特征函数。要估计FPC得分,请表示x个=(x个1,,x个诱导型一氧化氮合酶)T型,PACE估计值如下所示ξ̂伊克=λ̂k个ϕ̂伊克T型Σ̂x个1(x个μ̂),这导致ζ̂伊克=Ψ(ξ̂伊克;0,λ̂k个),k个= 1,…,.在这里ϕ伊克=(ϕk个(t吨1),,ϕk个(t吨国际号码))T型,μ=(μ(t吨1),,μ(t吨国际号码))T型、和(j个,)第个元素(Σx个)j个,=G公司(t吨ij公司,t吨伊尔)+ν2δjl公司具有δjl公司=1如果j个=δjl公司=0否则,以及'̂'是估计参数的通用表示法。

我们下一步估计如果0F类通过最小化表达式(6),遵循以估计值为条件的COSSO程序ζ̂。需要注意的是,目标函数(6)等价于

(1/n个)=1n个{如果(ζ̂)}2+λ0k个=1θk个1P(P)k个如果2+λk个=1θk个,

从属于θk个0(林和张,2006),它支持两步迭代算法。具体来说,首先发现c(c)R(右)n个b条R(右)通过最小化

(R(右)θc(c)b条1n个)T型(R(右)θc(c)b条1n个)+n个λ0c(c)T型R(右)θc(c),
(9)

带有固定的θ=(θ1,,θ)T型,其中=(1,,n个)T型,λ0是平滑参数,1n个n个×1 1s矢量,R(右)θ=Σk个=1θk个R(右)k个R(右)k个是的再生内核H(H)¯k个,即。R(右)k个={R(右)k个(ζ̂伊克,ζ̂jk公司)}1,j个n个此优化就是一个平滑样条问题。然后我们修复c(c)b条,然后查找θ通过最小化

(z(z)θ)T型(z(z)θ)  从属于θk个0;k个=1θk个M(M),
(10)

哪里z(z)=12n个λ0c(c)b条1n个是一个n个×矩阵,带有k个第th列为R(右)k个c(c)。此步骤与使用M(M)作为调谐参数。关于收敛性如果然后由给出如果̂(ζ)=Σ=1n个c(c)̂R(右)θ̂(ζ̂,ζ)+b条̂.

关于调谐参数的选择,除了足够大的初始截断,最相关的是λ0M(M)在COSSO步骤中,而FPCA平滑步骤中的带宽是通过传统的交叉验证或其广义近似来选择的。有关更多详细信息,请参阅Fan和Gijbels(1996)对于密集型病例和姚明. (2005)对于稀疏情况。我们建议选择λ0通过使用广义交叉验证,即。全球现金流量(λ0)=(̂)T型(̂)/{n个1信托收据(A类)}2具有̂=A类.供选择M(M),我们采用贝叶斯信息准则BIC,即。银行识别码(M(M))=(̂)T型(̂)/σ̂2+日志(n个)数据流其中df是问题(10)中的自由度,而另一种方法是交叉验证,这需要更多的计算。

附录B技术假设和证明

我们首先列出了函数预测过程中常用的正则性条件X用于密集设计。回想一下{t吨ij公司,j个=1,,N个;=1,,n个}支架上的网格是T型函数预测器x个(t吨)观察到。在不失一般性的情况下,让T型=[0,].表示t吨0=0,t吨国际号码=T型d日=[d日,+d日]对一些人来说d日>0。表示用于单独平滑第个轨迹为b条.

条件1

假设二阶导数X(2)(t吨)持续打开T型d日概率为1且E类[{X(k个)(t吨)}4]d日t吨<概率为1k个= 0, 2. 同时假设E类(e(电子)ij公司4)<,其中e(电子)ij公司是观测轨迹的IID测量误差x个.

条件2

假设存在(n个)→∞,这样最小值N个作为n个→ ∞. 表示Δ=最大值{t吨ij公司t吨,j个1:j个=1,,N个+1},假设最大值Δ=O(运行)(1).

条件3

假设有一个序列b条=b条(n个),因此哥伦比亚广播公司最小值b条最大值b条抄送对一些人来说C类c(c)>此外,b条0和→ ∞ 作为n个→ ∞ 费率如下(毫巴)1+b条4+2=O(运行)(n个1),例如。b条=O(运行)(n个1/2)=O(运行)(n个/2)。还假设内核函数K(K)(·)是紧支撑的,Lipschitz是连续的。

表示与协方差函数关联的运算符G公司(,t吨)由G公司,并定义G公司S公司2=T型T型G公司2(,t吨)d日d日t吨.表示的平滑轨迹X(t吨)使用带带宽的局部线性平滑b条通过X̂和稠密设计中估计的特征值、特征函数和FPC得分λ̂k个,ϕ̂k个ξ̂伊克分别是。由于特征值的衰减起着重要作用,定义δ1=λ1λ2δk个=最小值j个k个(λj个1λj个,λj个λj个+1)对于k个⩾2.

引理1

在条件1-3下,我们有

E类(X̂X22)=O(运行)(n个1),  μ̂μ2=O(运行)第页(n个1/2),  G公司̂G公司S公司=O(运行)第页(n个1/2),
(11)
|λ̂k个λk个|G公司̂G公司S公司,  ϕ̂k个ϕk个222δk个1G公司̂G公司S公司,
(12)
|ξ̂伊克ξ伊克|=O(运行)第页(X̂X2+δk个1X2G公司̂G公司S公司),
(13)

哪里O(运行)(·)和O(运行)第页(·)在1⩽以上均匀n个.

注意测量误差e(电子)ij公司独立于流程X,从而可以将概率空间因子化Ω=ΩX×Ωe(电子)并且分别表征单独的平滑和横截面平均。然后是方程式(11)可以通过使用带有局部多项式平滑的标准技术来显示(这是为了简洁,没有详细说明);见大厅. (2006)有关此类型参数的更多详细信息。因此,方程式(12)和(13)紧接着给出了Bosq引理4.3中的经典摄动结果(2000)。从引理1可以看出,当每个满足条件3的对象的测量足够密集时,由于个体平滑对估计的总体数量(例如平均值、协方差、特征值和特征函数)的影响可以忽略不计。

下面的引理描述了基本变量和估计转换变量之间的差异ζ伊克以及结果估计导数的有界性如果̂.

引理2

根据第节假设22条件1-3,我们有

|ζ̂伊克ζ伊克|=O(运行)第页[λk个γ{X̂X2+(δk个1X2+|ξ伊克|)G公司̂G公司S公司}],
(14)
1n个=1n个(k个=1|ζ̂伊克ζ伊克|)2=O(运行)第页(n个1).
(15)

此外,如果假设1成立,则如果̂是对…的估计如果0通过最小化表达式(6)获得。然后有一个常数ρ>0,这样

|如果̂(ζ)ζ伊克|ρ,
(16)

均匀地超过1⩽k个和1⩽n个.

B.1。引理2的证明

从引理7假设2,我们有

|ζ̂伊克ζ伊克|=|(ξ̂伊克ξ伊克)ξ伊克Ψ(ξ伊克,λk个)+(λ̂k个λk个)λk个Ψ(ξ伊克,λk个)+o(o)第页(|ξ̂伊克ξ伊克|+|λ̂k个λk个|)||ξ̂伊克ξ伊克|.8pt(磅)|ξ伊克Ψ(ξ伊克,λk个)|+|λ̂k个λk个||λk个Ψ(ξ伊克,λk个)|+o(o)第页(|ξ̂伊克ξ伊克|+(|λ̂k个λk个|)=O(运行)第页[λk个γ{X̂X2+(δk个1X2+|ξ伊克|)G公司̂G公司S公司}].

缩写Σ=1n个Σ,Σk个=1Σk个O(运行)第页(·)至“~”。E类X̂X2E类(X̂X22)1/2=O(运行)(n个1/2),很容易看出E类(n个1ΣX̂X2)=E类X̂X2=O(运行)(n个1/2),显示任何固定的结果(15),请注意

n个1(k个=1|ζ̂伊克ζ伊克|)21k个=1|ζ̂伊克ζ伊克|2.

然后

1n个=1n个k个=1(ζ̂伊克ζ伊克)2~1n个=1n个k个=1λk个2γ{X̂X2+(δk个1X2+|ξ伊克|)G公司̂G公司S公司}2~1n个k个λk个2γX̂X22+1n个k个λk个2γδk个2X22G公司̂G公司S公司2+1n个k个λk个2γ|ξ伊克|2G公司̂G公司S公司2+1n个k个λk个2γX̂X2δk个1X2G公司̂G公司S公司+1n个k个λk个2γX̂X2|ξ伊克|G公司̂G公司S公司+1n个k个λk个2γδk个1|ξ伊克|X2G公司̂G公司S公司2.

表示此公式中的加法项E类1——E类6,我们有

E类1=(k个λk个2γ)(n个1X̂X22)=O(运行)第页(n个1),
E类2=G公司̂G公司S公司2(k个λk个2γδk个2)(n个1X22)=O(运行)第页(n个1),
E类=G公司̂G公司S公司2{(1/n个)k个λk个2γ|ξ伊克|2}=O(运行)第页(n个1),

作为

E类(n个1=1n个k个=1λk个2γ|ξ伊克|2)=k个λk个2γ+1=O(运行)(1).

对于E类4应用Cauchy–Schwarz不等式,

E类4~G公司̂G公司S公司(k个=1λk个2γδk个1)(1n个=1n个X̂X2X2)2C类G公司̂G公司S公司(k个=1λk个2γδk个1){(1n个=1n个X̂X22)(1n个=1n个X22)}=O(运行)第页(n个1/2)O(运行)(1)O(运行)第页(n个1/2)O(运行)第页(1)=O(运行)第页(n个1).

同样,我们有E类5=O(运行)第页(n个1)E类6=O(运行)第页(n个1),利用事实E类{(Σk个=1λk个2γ|ξ伊克|)2}Σk个=1λk个4γ+1=O(运行)(1)E类(Σk个=1λk个2γδk个1|ξ伊克|)2Σk个=1λk个4γ+1δk个2=O(运行)(1)这证明了结果(15)。

我们现在转向不平等(16)。对于任何如果F类,我们有

如果(ζ)=如果(·),R(右)(ζ,·)F类如果R(右)(ζ,·),R(右)(ζ,·)F类1/2=如果R(右)1/2(ζ,ζ),

哪里R(右)(·,·)是空间的再生核F类·,·F类是相应的内积。因此,

如果(ζ)ζ伊克=如果(·),R(右)(ζ,·)ζ伊克F类如果R(右)(ζ,·)ζ伊克,R(右)(ζ,·)ζ伊克F类1/2.

J型(如果)是凸泛函和伪范数,我们有

k个=1P(P)k个如果2J型2(如果)k个=1P(P)k个如果2.
(17)

我们首先声称如果‖ ⩽J型(如果),因为如果2=b条2+Σk个=1P(P)k个如果2.如果b条=0,不等式(17)表示‖如果‖ ⩽J型(如果)。如果b条≠0,我们可以写J型~(如果)=b条+J型(如果)=b条+Σk个=1P(P)k个如果为了最小化表达式(5),它等价于替换J型(如果)带有J型~(如果),不等式(17)意味着如果2=b条2+Σk个=1P(P)k个如果2b条2+J型2(如果)J型~2(如果)因此,我们有‖如果‖ ⩽J型(如果)一般来说。其次,由于{H(H)¯k个},我们可以写R(右)(u个,v(v))=R(右)1(u个1,v(v)1)+R(右)2(u个2,v(v)2)++R(右)(u个,v(v))根据Berlinet和Thomas-agnan中的定理5(2004),其中R(右)k个(·,·)是子空间的再生核H(H)¯k个。对于H(H)¯k个作为二阶Sobolev-Hilbert空间,我们有R(右)k个(,t吨)=小时1()小时1(t吨)+小时2()小时2(t吨)小时4(|t吨|),带有小时1(t吨)=t吨12,小时2(t吨)={小时12(t吨)1/12}/2小时4(t吨)={小时14(t吨)小时12(t吨)/2+7/240}/24.因此R(右)k个(,t吨)连续且可微[0,1]2我们可以找到常数k个b条k个这样的话

R(右)k个(u个,·),R(右)k个(u个,·)F类<k个,
R(右)k个(u个,·)u个,R(右)k个(u个,·)u个F类b条k个,

对于k个= 1,…,.人们可以找到一个统一的界限c(c)具有R(右)(ζ,·)/ζ伊克,R(右)(ζ,·)/ζ伊克F类c(c)然而如果̂最小化表达式(6)等价于最小化n个1Σ{如果(ζ̂)}2在约束条件下J型(如果)c(c)~对一些人来说c(c)~>0。因此,让ρ=c(c)1/2c(c)~; 我们有

|如果^(ζ)ζk个|如果^R(右)(ζ,)ζk个,R(右)(ζ,)ζζk个F类1/2J型(如果^)c(c)1/2c(c)~c(c)1/2=ρ.

在陈述引理3之前,我们定义了F类关于·n个公制。对于每个ω>0,可以找到函数集合{1,2,,N个}在里面F类这样,对于每个F类,有一个j个=j个() ∈ {1, 2,…,N个}令人满意的j个n个ω.让N个(ω,F类,·n个)是的最小值N个这种球的半径覆盖ω和中心1,2,,N个存在。然后H(H)(ω,F类,·n个)=日志{N个(ω,F类,·n个)}被称为ω-的熵F类.

引理3

假设F类={1}Σk个=1H(H)¯k个,其中H(H)¯k个是二阶Sobolev空间。表示ω-的熵{如果F类:J型(如果)1}通过H(H)(ω,{如果F类:J型(如果)1},·n个)。那么

H(H)(ω,{如果F类:J型(如果)1},·n个)A类ω1/2,
(18)

为所有人ω>0,n个⩾1,对于某些常数A类>0.此外,对于{ε}=1n个与有限方差无关J型(如果0)>0,

啜饮如果F类|(ε,如果如果0)n个|如果如果0n个/4{J型(如果)+J型(如果0)}1/4=O(运行)第页(n个1/2).
(19)

不等式(18)由Lin和Zhang的引理A.1隐含(2006)。作为{ε}满足亚高斯误差假设,与范德格尔的论点相同(2000)(第168页)导致结果(19)。我们现在准备给出主要定理的证明。

B.2节。定理1的证明

我们首先将函数集中在Lin和Zhang定理2的证明中(2006)因此结果(18)和(19)成立。写入如果(ζ̂)=c(c)+如果1(ζ̂1)++如果(ζ̂)=c(c)+如果~(ζ̂),因此Σ=1n个如果k个(ζ̂,k个)=0,然后写入如果0(ζ)=c(c)0+如果01(ζ1)++如果0(ζ)=c(c)0+如果~0(ζ)这样的话Σ=1n个如果0k个(ζ,k个)=0如果̂(ζ)=c(c)̂+如果̂1(ζ1)++如果̂(ζ)。因为目标函数可以写为

(如果|ζ̂)=1n个=1n个{如果(ζ̂)}2+τn个2J型(如果)=1n个=1n个{c(c)0+如果~0(ζ)+εc(c)如果~(ζ̂)}2+τn个2J型(如果)=(c(c)0c(c))2+2n个(c(c)0c(c))ε+1n个=1n个{如果~0(ζ)+ε如果~(ζ̂)}2+τn个2J型(如果),

我们必须要那个c(c)̂减少{(c(c)0c(c))2+2n个1(c(c)0c(c))Σε}以及如果̂将其余的最小化。因此我们有c(c)̂c(c)0=n个1Σε,暗示着|c(c)̂c(c)0|=O(运行)第页(n个1/2).表示

~(如果~|ζ̂)=1n个=1n个{如果~0(ζ)+ε如果~(ζ̂)}2+τn个2J型(如果).
(20)

我们可以替换τn个2J型(如果)具有τn个2J型(如果~)在方程式中(20)。在证明的其余部分中,我们取消了如果~0如果~为了方便起见。如果̂=参数最小值如果F类~(如果|{ζ̂}),我们有~(如果̂|{ζ̂})~(如果0|{ζ̂}),这意味着

1n个=1n个{如果0(ζ)+ε如果̂(ζ̂)}2+τn个2J型(如果̂)1n个=1n个{如果0(ζ)+ε如果0(ζ̂)}2+τn个2J型(如果0).

这个不等式的简化给出了

1n个=1n个{如果0(ζ)如果̂(ζ̂)}2+τn个2J型(如果̂)2n个=1n个ε{如果̂(ζ̂)如果0(ζ̂)}+1n个=1n个{如果0(ζ)如果0(ζ̂)}2+τn个2J型(如果0).
(21)

(·)=如果̂(·)如果0(·).由于两者如果̂如果0在中F类,F类泰勒级数展开(·)给出(ζ̂)=(ζ)+D类(ζ)(ζ̂ζ)+o(o)第页(Σk个=1|ζ̂k个ζk个|),对于所有人ζ(0,1),其中D类(ζ)(ζ̂ζ)=Σk个=1{(ζ)/ζk个}(ζ̂k个ζk个).那么我们有

2n个=1n个ε(ζ̂)=2n个=1n个ε(ζ)+2n个=1n个ε{D类(ζ)(ζ̂ζ)+o(o)第页(k个=1|ζ̂伊克ζ伊克|)},

我们将其插入不等式(21)的右侧,从而得出上界

2n个=1n个ε{如果̂(ζ)如果0(ζ)}+2n个=1n个ε[{D类如果̂(ζ)D类如果0(ζ)}(ζ̂ζ)+o(o)第页(k个=1|ζ̂伊克ζ伊克|)]+1n个=1n个{如果0(ζ)如果0(ζ̂)}2+τn个2J型(如果0).
(22)

应用引理3,我们可以将表达式(22)中的第一项绑定如下:

2n个=1n个ε{如果̂(ζ)如果0(ζ)}=2(ε,如果̂如果0)n个O(运行)第页(n个1/2)如果̂如果0n个/4{J型(如果̂)+J型(如果0)}1/4.

对于不等式(21)的左侧,应用泰勒级数展开,如果̂(ζ̂)=如果̂(ζ)+D类如果̂(ζ)(ζ̂ζ)+o(o)第页(Σk个=1|ζ̂伊克ζ伊克|),到第一学期

1n个=1n个{如果0(ζ)如果̂(ζ̂)}2=1n个=1n个{如果0(ζ)如果̂(ζ)D类如果̂(ζ)(ζ̂ζ)o(o)第页(k个=1|ζ̂伊克ζ伊克|)}2=1n个=1n个[{如果0(ζ)如果̂(ζ)}2+{D类如果̂(ζ)(ζ̂ζ)}22{如果0(ζ)如果̂(ζ)}D类如果̂(ζ)(ζ̂ζ)+R(右)],

哪里

R(右)={o(o)第页(k个=1|ζ̂伊克ζ伊克|)}2o(o)第页(k个=1|ζ̂伊克ζ伊克|){如果0(ζ)如果̂(ζ)D类如果̂(ζ)(ζ̂ζ)}.

替换不等式(21)两侧的项,我们得到

如果^如果0n个2+1n个=1n个[{D类如果^(ζ)(ζ^ζ)}2+2{如果^(ζ)如果0(ζ)}D类如果^(ζ)(ζ^ζ)+R(右)]+τn个2J型(如果^)O(运行)第页(n个1/2)如果^如果0n个/4{J型(如果^)+J型(如果0)}1/4+1n个=1n个{如果0(ζ)如果0(ζ^)}2+τn个2J型(如果0)+2n个=1n个ε[{D类如果^(ζ)D类如果0(ζ)}(ζ^ζ)+o(o)P(P)(k个=1E类|ζ^k个ζk个|)].

去掉正项n个1Σ{D类如果̂(ζ)(ζ̂ζ)}2并重新排列术语,

如果̂如果0n个2+τn个2J型(如果̂)O(运行)第页(n个1/2)如果̂如果0n个/4{J型(如果̂)+J型(如果0)}1/4+τn个2J型(如果0)+T型1+T型2+T型+2n个=1n个εR(右)~2+1n个=1n个R(右)~1
(23)

哪里

T型1=2n个1{如果̂(ζ)如果0(ζ)}D类如果̂(ζ)(ζ̂ζ),
T型2=2n个1ε[{D类如果̂(ζ)D类如果0(ζ)}(ζ̂ζ)],
T型=n个1{如果0(ζ)如果0(ζ̂)}2,
R(右)~1=o(o)第页(k个=1|ζ̂伊克ζ伊克|){如果0(ζ)如果̂(ζ)D类如果̂(ζ)(ζ̂ζ)}

R(右)~2=o(o)第页(Σk个=1|ζ̂伊克ζ伊克|).

对于T型1通过Cauchy–Schwarz不等式和引理2,我们得到了T型12(如果̂如果0n个2A类),其中

A类=1n个=1n个{k个=1如果̂(ζ)ζ伊克(ζ̂伊克ζ伊克)}2ρ2n个=1n个(k个=1|ζ̂伊克ζ伊克|)2=O(运行)第页(n个1),

即。T型1=如果̂如果0n个O(运行)第页(n个1/2)从引理2的假设1和结果(16)来看,存在独立的随机变量{B类}具有E类(B类2)<这样的话最大值k个{|如果̂(ζ)/ζ伊克如果0(ζ)/ζ伊克|}B类如果̂如果02。还要注意n个2几乎可以肯定的是,强大的大数定律。因此,对于一些常量c(c),

T型22n个=1n个|ε|k个=1B类如果̂如果02|ζ̂伊克ζ伊克|=2如果̂如果02(1n个=1n个|εB类|k个=1|ζ̂伊克ζ伊克|)c(c)如果̂如果0n个[(1n个=1n个ε2B类2){1n个=1n个(k个=1|ζ̂伊克ζ伊克|)2}]=如果̂如果0n个O(运行)第页(n个1/2),T型=1n个=1n个[k个=1如果0(ζ)ζ伊克{(ζ̂伊克ζ伊克)+o(o)第页(|ζ̂伊克ζ伊克|)}]2c(c)n个=1n个(k个=1|ζ̂伊克ζ伊克|)2=O(运行)第页(n个1).

对于其余条款,n个1Σ=1n个εR(右)~2=o(o)第页(T型2)、和

1n个=1n个R(右)~1=1n个=1n个o(o)第页(k个=1|ζ̂伊克ζ伊克|){如果0(ζ)如果̂(ζ)}1n个=1n个o(o)第页(k个=1|ζ̂伊克ζ伊克|)D类如果̂(ζ)(ζ̂ζ)o(o)第页(T型1)+[1n个=1n个{o(o)第页(k个=1|ζ̂伊克ζ伊克|)}21n个=1n个.7pt(磅){D类如果̂(ζ)(ζ̂ζ)}2]1/2=o(o)第页(T型1)+o(o)第页(n个1).

我们现在可以将不等式(23)简化如下:

如果̂如果0n个2+τn个2J型(如果̂)O(运行)第页(n个1/2)如果̂如果0n个/4{J型(如果̂)+J型(如果0)}1/4+如果̂如果0n个O(运行)第页(n个1/2)+O(运行)第页(n个1)+τn个2J型(如果0).

如果O(运行)第页(n个1/2)如果̂如果0n个/4{J型(如果̂)+J型(如果0)}1/4如果̂如果0n个O(运行)第页(n个1/2)+O(运行)第页(n个1)+τn个2J型(如果0),我们有

如果̂如果0n个2+τn个2J型(如果̂)O(运行)第页(n个1/2)如果̂如果0n个/4{J型(如果̂)+J型(如果0)}1/4;
(24)

否则,

如果̂如果0n个2+τn个2J型(如果̂)如果̂如果0n个O(运行)第页(n个1/2)+O(运行)第页(n个1)+2τn个2J型(如果0).
(25)

将通过单独解决这些问题来完成证明。对于不等式(24),有两种可能性。

  • (a)
    如果J型(如果̂)J型(如果0),不等式(24)意味着τn个2J型/4(如果̂)O(运行)第页(n个1/2)如果̂如果0n个/4、和
    J型1/4(如果̂){τn个2O(运行)第页(n个1/2)如果̂如果0n个/4}1/=O(运行)第页(n个1/6)如果̂如果0n个1/4τn个2/.
    因此,
    如果̂如果0n个2O(运行)第页(n个1/2)如果̂如果0n个/4J型1/4(如果̂)O(运行)第页(n个2/)如果̂如果0n个τn个2/,
    (26)
    即。
    如果̂如果0n个=O(运行)第页(n个2/)O(运行)第页(τn个2/),J型(如果̂)=O(运行)第页(n个4/)O(运行)第页(τn个10/).
  • (b)
    如果J型(如果̂)<J型(如果0),然后J型(如果̂)=O(运行)第页{J型(如果0)}O(运行)第页(1),不等式(24)意味着
    如果̂如果0n个2O(运行)第页(n个1/2)如果̂如果0n个/4J型1/4(如果0),
    这将导致
    如果̂如果0n个=O(运行)第页(n个2/5)J型1/5(如果0),J型(如果̂)=J型(如果0)O(运行)第页(1).
    (27)
    注意,结果(26)和(27)在条件(7)下是等价的。

对于不等式(25),如果如果̂如果0O(运行)第页(n个1/2)>O(运行)第页(n个1)+2τn个2J型(如果0),我们有如果̂如果0n个2+τn个2J型(如果̂)如果̂如果0n个O(运行)第页(n个1/2); 否则如果̂如果0n个2+τn个2J型(如果̂)O(运行)第页(n个1)+4τn个2J型(如果0)第一个不等式意味着

如果̂如果0n个=O(运行)第页(n个1/2),J型(如果̂)=O(运行)第页(n个1)O(运行)第页(τn个2).

对于第二个不等式,如果O(运行)第页(n个1)<4τn个2J型(如果0),我们有如果̂如果0n个2+τn个2J型(如果̂)8τn个2J型(如果0),暗示着

如果̂如果0n个=O(运行)第页(τn个)J型1/2(如果0),J型(如果̂)=J型(如果0)O(运行)第页(1).
(29)

如果O(运行)第页(n个1)4τn个2J型(如果0)如果̂如果0n个2+τn个2J型(如果̂)O(运行)第页(n个1),然后

如果̂如果0n个=O(运行)第页(n个1/2),J型(如果̂)=O(运行)第页(n个1)O(运行)第页(τn个2).
(30)

什么时候?J型(如果0)>0,给定条件(7)如果̂如果0n个J型(如果̂)从表达式(29),(26)和(27)是相同的,并且支配着表达式(28)和(30)。因此我们有如果̂如果0n个=O(运行)第页(n个2/5)J型1/5(如果0)J型(如果̂)=J型(如果0)O(运行)第页(1).何时J型(如果0)=0,则不等式(24)意味着表达式(26),而不等式(25)意味着公式(28)和(30)。不存在不平等(24)的可能性(b);也没有得到表达式(29)中的结果。在条件(8)下,表达式(26)的结果与表达式(28)和(30)的结果相同。因此如果̂如果0n个=O(运行)第页(n个1/2)J型(如果̂)=O(运行)第页(n个1/2).

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)