跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2022; 49(5): 1154–1178.
2020年12月8日在线发布。 数字对象标识:10.1080/02664763.2020.1856352
预防性维修识别码:第9126296页
PMID:35707506

协变量中具有测量误差的删失数据的超高维充分降维

关联数据

补充资料

摘要

本文考虑协变量中删失数据和测量误差的超高维充分降维。我们首先提出了基于删失数据和受测量误差影响的协变量的特征筛选方法。通过适当的误测量纠正,所提出的特征筛选程序检测到的错误污染变量与真正重要的变量相同。基于选定的活动变量,我们发展了SDR方法,以估计中心子空间和结构维数,同时考虑了删失数据和测量误差。建立了该方法的理论结果。通过仿真研究评估了该方法的性能。将该方法应用于NKI乳腺癌数据。

关键词:累积平均值估计、降维、距离相关、特征筛选、测量误差、生存数据、超高维
2010年数学学科分类:62N01、62N02

1介绍

本文主要研究基于该模型的充分降维

T型X(X)|B类X(X)
(1)

其中'保存图片、插图等的外部文件。对象名称为CJAS_A_1856352_ILM0001.jpg“代表统计独立性,X(X)-协变量的维向量,T型>0是响应,并且B类是一个基础。S公司(B类)表示由列向量跨越的SDR子空间B类.厨师[6]表明所有这些的交叉点S公司(B类)存在。因此,这样的交叉口称为中心子空间(CS)用于回归T型X(X).让S公司T型|X(X)用结构尺寸表示CSd日=昏暗的(S公司T型|X(X))这通常是未知的。在这个意义上,我们表示一个基B类=(β1βd日)作为×d日参数矩阵βj个成为-的维度向量j个=1d日.如果B类然后可以基于低维变量进行后续分析{T型B类X(X)}而不会丢失信息。已经提出了几种估算方法B类和中心子空间,包括逆回归[121438],最小平均方差估计[31323539],和半参数框架[2021]. 一些细节也可以在Cook中找到[7]和李[11].

然而,数据集中可能会出现一些复杂的特征,传统的SDR方法无法直接应用。第一个功能是不完全响应,这经常出现在具有右偏感的生存数据中。在存在右偏感时,直接实施常规方法可能无法估计B类并恢复中心子空间。为了估计生存数据的CS,Li等。[15]首先检查分段逆回归(SIR)来估计CS。等。[33]开发了生存数据的半参数估计方法。卢(Lue)等。[19]针对截尾生存数据,提出了一种基于主Hessian方向(PHD)的迭代插补样条方法。纳德卡尼等。[23]提出了逆回归方法。卢和李[17]考虑了反加权方法。

第二个重要特征是协变量中的测量误差如卡罗尔所述等。[],在分析中忽略误差影响可能会导致估计器的巨大偏差。有一些方法可以处理误差影响。例如,卡罗尔和李[2]提出了对测量误差进行校正的SIR方法。卢(Lue)[18]开发了具有测量误差的PHD方法。李和尹[13]为纠正计量错误提供了一种通用形式。等。[37]扩展了朱提出的累积切片估计等。[38]对测量误差进行适当修正。然而,同时纳入生存数据和测量误差的估计程序尚不明确,也未充分探讨。

虽然已经提出了许多处理截尾响应的SDR方法,但这些方法都是基于协变量的维数小于样本大小的情况n个,即。<n个然而,在实践中,高维数据变得比以往任何时候都更容易访问超高维(n个)这个问题是一个重要但富有挑战性的话题,值得认真研究。当维数为高于样本量n个部分原因是协变量的协方差矩阵X(X),说吧ΣX(X),通常是单数,因为n个此外,正如卢和李所评论的那样[17],基于核的半参数估计(例如[2333])当协变量的数量很大时,可能会遭受维数灾难。处理此问题的一个有用方法是特征筛选方法。特征筛选的基本思想是选择依赖于响应的活动变量,从而降低检测变量的维数,使其小于样本大小。在生存分析中,提出了一些有效的方法。举几个例子,宋等。[26]提出了审查等级独立性筛选。雁鸣声等。[34]提出了斯皮尔曼秩相关筛选。等。[4]开发了基于距离相关的鲁棒特征筛选。等。[5]考虑了无模型生存条件特征筛选。然而,在存在测量误差的情况下,尚不清楚这些现有方法是否能够确定协变量替代版本的“正确”特征。

因此,在本文中,我们旨在开发SDR方法,并探讨超高维生存数据中出现测量误差的一个重要问题。具体来说,我们扩展了累积平均估计(CUME)来处理截尾响应和协变量测量误差,因为(a)CUME方法比SIR或PHD方法需要更少的条件(例如[37(第1343页),数值结果表明CUME方法优于SIR方法(例如[38]); (b) 而一些SDR方法已被应用于处理审查数据,如SIR[15]和博士[19]方法,在生存数据中似乎还没有探索CUME方法。此外,由于协方差矩阵的可逆性,CUME方法是在低维的基础上发展起来的。当协变量的维数大于样本量时,协方差矩阵不再可逆,这也是CUME方法的一个挑战。为了解决这个问题,我们开发了有效的特征筛选程序来处理这个问题。

其余部分组织如下。在节中2介绍了生存数据和测量误差模型,并简要回顾了距离相关方法。在节中首先,我们提出了调整后的特征筛选来选择被测量误差污染的活动变量,然后提出了一种有效的估计方法来纠正测量错误,并估计中心子空间和结构维数。第节提供了实证研究,包括模拟结果和实际数据分析4。我们在第节中讨论了这篇文章5.

2符号和型号

2.1. 生存数据

T型定义于(1)表示故障时间。在生存分析中,T型由于主题的审查时间的存在,通常是不完整的,表示为C类.条件启用X(X),独立性T型C类假设,即,

T型C类|X(X).
(2)

Y(Y)=最小值{T型C类}δ=(T型C类),其中()是指示器功能。假设我们有一个n个主题和主题=1n个{Y(Y)δX(X)}具有与相同的分布{Y(Y)δX(X)}。在这里,我们重点关注n个.

我们有兴趣找到CS,S公司T型|X(X),研究故障时间之间的关系T型和协变量X(X)然而,在生存分析中,我们只观察到Y(Y)由于审查时间的存在。直接对观测变量实施SDR方法Y(Y)X(X)等同于学习S公司Y(Y)|X(X),通常不等于S公司T型|X(X)(例如[1733])。此外,基于(2)、Huang和Chan[10]进一步指出S公司Y(Y)|X(X)S公司T型|X(X)+S公司C类|X(X),其中S公司1+S公司2,表示为两个线性子空间的和S公司1S公司2,定义为{1+2:1S公司12S公司2}因此,使用现有的SDR方法对观测变量Y(Y)没有调整就无法恢复S公司T型|X(X)这就是我们最感兴趣的中心子空间。

2.2。测量误差模型

对于=1n个,让X(X)*表示的替代变量或观察到的协变量X(X).让ΣX(X)*ΣX(X)成为×协方差矩阵X(X)*X(X)分别是。在本文中,我们重点关注以下测量误差模型[,第1章]

X(X)*=X(X)+ϵ
(3)

哪里ϵ独立于{X(X)T型C类}ϵ遵循均值为零且协方差矩阵为正态分布Σϵ,说吧N个(0Σϵ)此外,我们假设X(X)遵循正态分布。在本文中,我们允许Σϵ为未知矩阵,可以通过以下两个附加信息进行估计:

  • 案例A:可重复测量时。

    由于我们重复测量,因此测量误差模型()成为

    X(X)第页*=X(X)+ϵ第页

    对于=1n个第页 = 1、2,其中X(X)第页*代表第页第次重复测量X(X)ϵ第页N个(0Σϵ)并且独立于X(X)很容易看出Σϵ可以通过以下方式进行估算

    Σˆϵ==1n个j个=12X(X)第页*X(X)¯*X(X)第页*X(X)¯*=1n个n个1

    哪里X(X)¯*=12第页=12X(X)第页*.

  • 案例B:验证数据可用时。

    假设M(M)主要研究的主题集包含n个主题和V(V)外部验证研究的主题集是否包含受试者。假设M(M)V(V)不要重叠。因此,可用数据包含测量值{(T型C类δX(X)*):M(M)}从主要研究和{(X(X)X(X)*):V(V)}来自验证样本。因此,对于测量误差模型,我们有

    X(X)*=X(X)+ϵ

    对于M(M)V(V),其中ϵN个(0Σϵ)和独立于X(X).

    v(v)第页(X(X)*)=E类v(v)第页(X(X)*|X(X))+v(v)第页E类(X(X)*|X(X))=E类Σϵ+v(v)第页(X(X))=Σϵ+ΣX(X)

    然后Σϵ可以通过以下方式进行估算

    Σˆϵ=ΣˆX(X)*ΣˆX(X)

    哪里ΣˆX(X)*=1|V(V)|V(V)(X(X)*X(X)¯*)(X(X)*X(X)¯*)ΣˆX(X)=1|V(V)|V(V)(X(X)X(X)¯)(X(X)X(X)¯)、和X(X)¯*=1|V(V)|V(V)X(X)*.

正如卡罗尔和李建议的那样[2]、李、尹[13]和张等。[37],我们认为

U型=L(左)X(X)*
(4)

作为“校正的”协变量X(X)*,其中L(左)=c(c)o(o)v(v)(X(X)X(X)*)ΣX(X)*1=ΣX(X)ΣX(X)*1此外,假设X(X)ϵ遵循正态分布,Li和Yin[13]显示了不变性定律在这个意义上

T型X(X)|B类X(X)T型U型|B类U型.
(5)

一般来说(5)也表示更换X(X)通过U型仍然保留CSS公司T型|X(X)因此,我们S公司T型|X(X)=S公司T型|U型.

注意到L(左)如果协方差矩阵未知ΣX(X)ΣX(X)*在里面L(左)未知。估计L(左),我们需要其他信息,例如验证数据重复测量如卡罗尔和李所述[2]. 此外,另一个挑战是ΣX(X)*ΣX(X)可以是单数,如果n个,这意味着L(左)英寸(4)不再有效。

2.3. 距离相关法综述

在本节中,我们简要回顾了Székely首次提出的距离相关(DC)方法等。[28].

ϕμ()ϕν()表示两个随机向量的特征函数μν,并让ϕμν()是的联合特征函数μν.让ϕ()2=ϕ()ϕ¯()对于任何复杂函数ϕ(),其中ϕ¯()是的共轭ϕ(). The距离协方差之间μν定义为

d日c(c)o(o)v(v)(μν)=R(右)d日μ+d日νϕμν(第页)ϕμ(第页)ϕν()2w个(第页)d日第页d日

哪里d日μd日ν尺寸为μν分别为和

w个(第页)=c(c)d日μc(c)d日ν第页d日μ1+d日μd日ν1+d日ν1

具有c(c)d日=π(1+d日)/2/Γ{(1+d日)/2}和伽马函数Γ()、和d日是任何向量的欧几里德范数R(右)d日因此,DC定义为

d日c(c)o(o)第页第页(μν)=d日c(c)o(o)v(v)(μν)d日c(c)o(o)v(v)(μμ)d日c(c)o(o)v(v)(νν).
(6)

塞凯利等。[28]显示了两个随机向量μν是独立的当且仅当d日c(c)o(o)第页第页(μν)=0这一特性促使我们进行特征筛选,并确定依赖于响应的协变量(例如[16]).

三。建议的方法

在本节中,我们首先提出了一种有效的特征筛选程序,以基于生存数据和受测量误差影响的协变量来选择主动变量。接下来,我们提出了基于活动变量的中心子空间估计方法。此外,我们还提供了确定结构尺寸的方法d日最后,我们给出了该方法的理论结果。

3.1. 超高维设置和特征筛选

提出建议的具有测量误差的特征筛选程序的思路X(X),我们从一个简单的设置开始,假装X(X)精确测量,不存在审查Y(Y) = T型.让τ表示支持故障时间的最大值,并让

=k个:X(X)k个 取决于生存时间 T型[0τ]

表示活动集包含响应的所有相关协变量T型具有q个=||q个<n个.定义c(c)作为的补充包含所有与响应无关的协变量T型.

假设活动集下定决心,然后我们让X(X)={X(X)k个:k个}表示q个-包含所有活动协变量的维向量,并让X(X)c(c)={X(X)k个:k个c(c)}是包含所有无关协变量的向量。X(X)取决于响应,所以我们有关系[1636]

T型X(X)|X(X)o(o)第页T型X(X)c(c)|X(X).
(7)

B类=(βk个j个)表示×d日的矩阵j个=1d日k个=1具有n个在SDR框架中,我们重点关注T型X(X)|B类X(X),然后组合(7)给出了那个

j个=1d日βk个j个>0 (f) k个o(o)第页j个=1d日βk个j个=0 (f) k个c(c).
(8)

等效,如果k个,然后T型必须依赖于X(X)k个通过至少一个d日线性组合;如果k个c(c),则不存在任何包含k个[36]. 此外,基于,考虑SDR问题就足够了

T型X(X)|B类X(X)

哪里B类q个×d日基于活动集的矩阵此外,让S公司T型|X(X)表示CS,它是跨越的SDR子空间的交集B类因此,S公司T型|X(X)S公司T型|X(X)因此,我们使用基于活动集的协变量估计B类以及CS。

3.1.1. 距离相关性调整

关键目标是确定活动集注意,当响应完成且协变量没有测量误差时,我们只需应用(6)用于功能筛选。然而,我们无法直接使用(6)因为响应不完整Y(Y)和容易出错的协变量X(X)因此,有必要对DC方法进行一些修改。

我们首先处理不完整的响应。Y(Y)我们插补说,由于存在右偏的感觉,是不完整的Y(Y)通过

Y(Y)*=δY(Y)+(1δ)E类T型|δ=0
(9)

表明E类(Y(Y)*)=E类(T型)[22第151页]。实施前(9),我们需要估计E类(T型|δ=0)根据补充材料附录A中的条件(C1)和“Buckley-James型估计器”的精神[127],E类(T型|δ=0)可以重写为

E类T型|δ=0=E类T型|τ>T型>Y(Y)=Y(Y)τt吨(f)T型(t吨)P(P)(τ>T型>Y(Y))d日t吨=Y(Y)τt吨(f)T型(t吨)1如果T型(Y(Y))d日t吨=11如果T型(Y(Y))τY(Y)如果T型(Y(Y))Y(Y)τ如果T型(t吨)d日t吨
(10)

哪里(f)T型()如果T型()是的概率密度函数和累积分布函数T型分别是。

此外,如果T型()可以通过以下方式进行估算

如果ˆT型()=1n个=1n个δG公司ˆ(Y(Y))Y(Y)

哪里G公司ˆ()是Kaplan-Meier估计量G公司()=P(P)(C类)因此E类(T型|δ=0),表示为E类~(T型|δ=0),由给出(10)带有如果T型()替换为如果ˆT型()因此,对于=1n个我们有

Y(Y)~*=δY(Y)+(1δ)E类~T型|δ=0.

除了调整不完全响应外,还需要校正直流法中的测量误差。ϕY(Y)*(第页)=E类{经验(第页Y(Y)*)}表示的特征函数Y(Y)*,其中是一个复数2=1。对于k个未观察到的协变量X(X)k个,定义

ϕX(X)k个()=E类经验X(X)k个n个d日ϕY(Y)*X(X)k个(第页)=E类经验第页Y(Y)*+X(X)k个

然后根据第节中的定义2.3,之间的距离协方差Y(Y)*X(X)k个由提供

d日c(c)o(o)v(v)(Y(Y)*X(X)k个)=R(右)1+1ϕY(Y)*X(X)k个(第页)ϕY(Y)*(第页)ϕX(X)k个()2w个(第页)d日第页d日

因此,通过(6),DC基于Y(Y)*k个未观察到的协变量X(X)k个由提供

ωk个d日c(c)o(o)第页第页(Y(Y)*X(X)k个)=d日c(c)o(o)v(v)(Y(Y)*X(X)k个)d日c(c)o(o)v(v)(Y(Y)*Y(Y)*)d日c(c)o(o)v(v)(X(X)k个X(X)k个).
(11)

然而,X(X)k个未被观察到,但我们只有X(X)k个*。为了纠正错误影响,我们考虑

ϕX(X)k个**()=E类经验X(X)k个*经验122σϵk个k个

ϕY(Y)*X(X)k个**(第页)=E类经验第页Y(Y)*+X(X)k个*经验122σϵk个k个

哪里σϵk个k个是一个k个第个对角线入口Σϵ接下来,我们定义

d日c(c)o(o)v(v)*(Y(Y)*X(X)k个*)=R(右)1+1ϕY(Y)*X(X)k个**(第页)ϕY(Y)*(第页)ϕX(X)k个**()2w个(第页)d日第页d日
(12)

作为已修改(或“已更正”)距离协方差。最后,根据类似的定义(11),的修改(或“更正”)DC由提供

ωk个*d日c(c)o(o)第页第页*Y(Y)*X(X)k个*=d日c(c)o(o)v(v)*(Y(Y)*X(X)k个*)d日c(c)o(o)v(v)*(Y(Y)*Y(Y)*)d日c(c)o(o)v(v)*(X(X)k个*X(X)k个*)
(13)

对于k个=1,相应的估计量为

ωˆk个*=d日c(c)o(o)第页第页*ˆY(Y)~*X(X)k个*=d日c(c)o(o)v(v)*ˆ(Y(Y)~*X(X)k个*)d日c(c)o(o)v(v)*ˆ(Y(Y)~*Y(Y)~*)d日c(c)o(o)v(v)*ˆ(X(X)k个*X(X)k个*)
(14)

哪里d日c(c)o(o)v(v)*ˆ(Y(Y)~*X(X)k个*)=J型ˆ1k个*+J型ˆ2k个*2J型ˆk个*具有

J型ˆ1k个*=1n个2σϵk个k个=1n个j个=1n个Y(Y)~*Y(Y)~j个*1X(X)k个*X(X)k个j个*1J型ˆ2k个*=1n个2=1n个j个=1n个Y(Y)~*Y(Y)~j个*11n个2σϵk个k个=1n个j个=1n个X(X)k个*X(X)k个j个*1J型ˆk个*=1n个σϵk个k个=1n个j个=1n个=1n个Y(Y)~*Y(Y)~*1X(X)k个j个*X(X)k个*1

X(X)k个*k个的第个分量X(X)*对于第th个主题。的详细推导d日c(c)o(o)v(v)*ˆ(Y(Y)~*X(X)k个*)见补充材料附录B。如果σϵk个k个,或Σϵ,则我们通过重复测量或验证数据进行估算,如第节所述2.2.

如李所述等。[16],让阈值为c(c)n个ζ对于某些常数c(c)ζ,则估计的活动集由下式给出

ˆ=k个:ωˆk个*c(c)n个ζk个=1.
(15)

实际上,正如Yan所建议的那样等。[34],陈等。[5]除其他外,我们可以指定活动集的大小成为q个=[n个日志(n个)],其中[]代表楼层功能。

3.1.2. “校正”协变量的测定

由于活动集是在第节中确定的3.1.1,我们有q个-基于活动集的观测和未观测协变量的维向量,表示为X(X)*X(X)分别是。假设我们有一个样本n个科目和科目=1n个{X(X)X(X)*}具有与相同的分布{X(X)X(X)*}.

类似于(),我们可以建模X(X)*X(X)通过

X(X)*=X(X)+ϵ
(16)

哪里ϵN个(0Σϵ)使用q个×q个协方差矩阵Σϵϵ独立于{X(X)T型C类}.

由于尺寸X(X)*减少并小于样本量,则q个×q个协方差矩阵ΣX(X)X(X)*=c(c)o(o)v(v)(X(X)X(X)*)ΣX(X)*=v(v)第页(X(X)*)因此是可逆的q个<n个因此,类似于(4),基于活动集的“校正”协变量建议为

U型=L(左)X(X)*
(17)

对于=1n个,其中L(左)=ΣX(X)X(X)*ΣX(X)*1如第节所述2.2,我们需要讨论L(左)通过以下三种场景。

  • 场景一:Σϵ已知。

    在这种情况下,L(左)是已知矩阵。因此我们可以直接应用(17).

  • 场景二:Σϵ未知,可重复测量。

    假设{X(X)第页*X(X)}对于=1第页 = 1,2是外部数据<n个,活动集下具有重复测量的测量误差模型为

    X(X)第页*=X(X)+ϵ第页

    对于=1第页 = 1、2,其中ϵ第页N个(0Σϵ)、和

    L(左)=ΣX(X)*ΣϵΣX(X)*1
    (18)

    具有Σϵ=12v(v)第页(X(X)1*X(X)2*)ΣX(X)*=14{v(v)第页(X(X)1*+X(X)2*)v(v)第页(X(X)1*X(X)2*)}因此,L(左)可以通过以下方式进行估算

    L(左)ˆ=ΣˆX(X)*ΣˆϵΣˆX(X)*1
    (19)

    哪里ΣˆX(X)*Σˆϵ是的经验估计值ΣX(X)*Σϵ分别是。

  • 场景三:Σϵ未知,验证数据可用。

    如果验证数据可用,那么对于大小的附加信息(<n个)在活动集下,我们有

    X(X)*=X(X)+ϵ=1

    因此L(左)可以通过以下方式进行估算

    L(左)ˆ=ΣˆX(X)X(X)*ΣˆX(X)*1
    (20)

    哪里ΣˆX(X)*1=1=1(X(X)*X(X)¯*)(X(X)*X(X)¯*)ΣˆX(X)X(X)*=1=1(X(X)X(X)¯)(X(X)*X(X)¯*)具有X(X)¯=1=1X(X)X(X)¯*=1=1X(X)*.

3.2. 估算

在本小节中,我们现在讨论生存数据的CS估计和基于活动集的测量误差。

请注意Y(Y)*定义于(9)只用于调整不完全响应,然后检测信息协变量。当激活集得到“校正的”协变量(17)给予

T型X(X)|B类X(X)T型U型|B类U型.

另一方面,因为(9)是的函数T型,根据Li中的定理2.3[11,第25页],我们只有S公司Y(Y)*|X(X)S公司T型|X(X),建议使用Y(Y)*SDR方法可能会丢失以下信息S公司T型|X(X)(例如[7第115页)。因此,而不是使用(9)为了发展SDR方法,我们提出了逆加权方法来解决CS估计时的右偏调整问题。

N个Y(Y)=(Y(Y)).定义G公司U型()=P(P)(C类|U型)通过一些推导,我们得到了

E类δN个Y(Y)G公司U型Y(Y)U型=E类δY(Y)P(P)C类Y(Y)|U型U型=E类E类T型C类T型P(P)C类T型|U型T型U型U型=E类T型U型.
(21)

实际上(21)是逆加权法夏也应用了类似的想法等。[33]还有Lu和Li[17]. 身份(21)允许我们研究期望E类{(T型)|U型}对于故障时间T型通过使用观察到的时间Y(Y),其中的反权重G公司U型()是为了纠正审查效果而强加的。

对于G公司U型(),表示为G公司ˆU型(),我们遵循Lu和Li的想法[17]由于比例风险(PH)模型的简单性,采用了半参数方法。补充材料附录A中规定了一个必要的假设。

因此,本着朱提出的累积平均估计(CUME)的精神等。[38],我们认为

M(M)=E类M(M)(Y(Y))M(M)(Y(Y))
(22)

哪里

M(M)()=c(c)o(o)v(v)δG公司U型(Y(Y))(Y(Y))U型=L(左)c(c)o(o)v(v)δG公司U型(Y(Y))(Y(Y))X(X)*

Y(Y)是的独立副本Y(Y)事实上(21),很容易看出M(M)()等于c(c)o(o)v(v){(T型)U型}此外,通过张中命题1的类似推导等。[37],我们可以确认U型对纠正错误测量和估计CS有效。此外,通过(22)和朱中定理1的结果等。[38],我们有

n个ΣU型1M(M)=ΣU型1E类M(M)(Y(Y))M(M)(Y(Y)):Y(Y)>0S公司T型|X(X)
(23)

哪里ΣU型=v(v)第页(U型)因此,根据CUME方法的精神,考虑ΣU型1M(M)因为它的谱分解本质上推断S公司T型|X(X)通过与非零特征值相关联的特征向量。

β1*βd日*表示的特征向量ΣU型1M(M)对应于其d日非零特征值。因此,n个(β1*βd日*)可用于表示S公司T型|X(X)其次,关键问题是对βj个*具有j个=1d日.让N个=E类{N个(Y(Y))N个(Y(Y))}具有N个()=c(c)o(o)v(v){δG公司U型(Y(Y))(Y(Y))X(X)*}.的经验估计N个具有正在由估算(15)由提供

N个ˆˆ=1n个=1n个N个ˆ(Y(Y))N个ˆ(Y(Y))

哪里

N个ˆ()=1n个=1n个X(X)ˆ*X(X)¯ˆ*δG公司ˆU型Y(Y)Y(Y)

X(X)¯ˆ*=1n个=1n个X(X)ˆ*因此,M(M)()M(M)可分别通过以下公式进行估算

M(M)ˆ()=L(左)ˆN个ˆ()

M(M)ˆˆ=L(左)ˆN个ˆˆL(左)ˆ.

因此β1*βd日*,表示为βˆ1*βˆd日*,可以由ΣˆU型ˆ1M(M)ˆˆ.让B类ˆˆ=(βˆ1*βˆd日*)因此,n个(B类ˆˆ)可用于估算S公司T型|X(X)此外,如中所示(8),对于中的无关协变量ˆc(c),我们有(q个)×d日矩阵,表示为B类ˆˆc(c),所有条目均为零。因此,当估算B类ˆˆ得到,则估计值为B类定义于(1)通过合并给出B类ˆˆB类ˆˆc(c),即。B类ˆ=(B类ˆˆB类ˆˆc(c))因此,CSS公司T型|X(X)可以通过以下方式进行估算n个(B类ˆ).

此外,如果L(左)ˆ未知,则估计值L(左)ˆˆ可以通过以下方式确定(19)或(20). 因此,更换L(左)ˆ英寸(17)由L(左)ˆˆ给予

U型ˆˆ=L(左)ˆˆX(X)ˆ*

和中心子空间S公司T型|X(X)可以通过相同的程序进行估算U型ˆ替换为U型ˆˆ.

3.3. 结构尺寸的确定d日

最后,请注意结构尺寸d日通常是未知的。为了估计它,我们采用了朱提出的BIC标准等。[38],则估计的结构尺寸由以下公式确定

d日ˆ=argmin(最小值)1k个q个ψ(k个)

哪里

ψ(k个)==1k个λˆ2=1q个λˆ2C类n个k个(k个+1)2

λˆ1λˆq个是的特征值ΣˆU型ˆ1M(M)ˆˆ、和C类n个=2n个/4如朱所建议等。[38].

3.4. 理论结果

在第一个定理中,我们证明了特征筛选准则的有效性(13)在某种意义上,为X(X)*X(X)都是一样的。

定理3.1

基于的活动功能X(X)*X(X)都是一样的。那就是,

d日c(c)o(o)第页第页*Y(Y)*X(X)k个*>0d日c(c)o(o)第页第页Y(Y)*X(X)k个>0

d日c(c)o(o)第页第页*Y(Y)*X(X)k个*=0d日c(c)o(o)第页第页Y(Y)*X(X)k个=0

哪里d日c(c)o(o)第页第页(Y(Y)*X(X)k个)d日c(c)o(o)第页第页*(Y(Y)*X(X)k个*)定义于(11)和(13)分别是。

当协变量X(X)可用,我们使用d日c(c)o(o)第页第页(Y(Y)*X(X))选择信息协变量;虽然X(X)不可观察,我们只有代理版本X(X)*,然后d日c(c)o(o)第页第页*(Y(Y)*X(X)*)当测量误差发生时,我们能够检测出真正信息丰富的协变量。定理3.1暗示了所提出的DC方法d日c(c)o(o)第页第页*(Y(Y)*X(X)*)成功地纠正了误差效应,然后检测到真正有信息的协变量,这些协变量与d日c(c)o(o)第页第页(Y(Y)*X(X))此外,由于Y(Y)*定义于(9)可以被视为伪故障时间,并具有与T型,根据定理3.1,我们可以进一步得出以下结论d日c(c)o(o)第页第页(T型X(X))d日c(c)o(o)第页第页*(Y(Y)*X(X)*)选择相同的协变量。换句话说,估计的活动集由d日c(c)o(o)第页第页*(Y(Y)*X(X)*)与由确定的估计活动集匹配d日c(c)o(o)第页第页(T型X(X)).

确定后ˆ,我们接下来展示活动集的属性ˆ.

定理3.2

根据补充材料附录A中的条件(C3)和(C4)n个

P(P)ˆ1

事实上,定理3.2也是众所周知的确定屏蔽性能[9],这确保了依赖于响应的协变量可以通过特征筛选过程检测出来。

表示Frobenius范数的意义是A类=k个=1q个j个=1d日|A类k个j个|2带有任何q个×d日矩阵A类=(A类k个j个)。基于活动集中选定的功能,所提出的估计量具有以下理论结果。

定理3.3

假设补充材料附录A中的条件(C5)–(C7)成立,那么

  1. ΣˆU型1M(M)ˆΣU型1M(M)=o(o)(q个日志(n个)/n个)如果L(左)已知
  2. ΣˆU型1M(M)ˆΣU型1M(M)=o(o)(q个日志()/)如果L(左)未知。

一般来说,定理3.3表明,在活动集下ΣU型1M(M)它的估计量足够小。它还意味着估计的特征向量βˆj个*接近特征向量βj个*对于每个j个=1d日因此,它验证了n个(βˆ1*βˆd日*)适合估算S公司T型|X(X).

4数值研究

4.1. 模拟设置

n个 = 400或800表示样本量。X(X)成为-协变量的维数向量 = 2000,由均值为零的正态分布和协方差矩阵生成ΣX(X)对角元素为1,非对角元素为0.5。

故障时间由以下三个模型生成:

  • M1中:
    T型=经验(X(X)1+X(X)2X(X)+η)
  • M2:
    T型=经验{(X(X)1+X(X)2)+(X(X)+X(X)4)2+2η}
  • 立方米:
    T型=经验{X(X)1+X(X)21+(X(X)+X(X)4+X(X)5)2+4η}.

指定错误项的分布η给出了一些常用的生存模型。本文考虑比例风险(PH)模型的极值分布、比例赔率(PO)模型的逻辑分布和标准正态分布。此外,M1的结构尺寸为d日 = 1,而M2和M3的结构尺寸为d日 = 2.对于参数的真实值,B类0=(111000)在M1中,B类0=(β10β20)具有β10=(11000)β20=(001100)单位:M2,以及B类0=(β10β20)具有β10=(11000)β20=(0011100)单位:M3。

审查时间C类由均匀分布生成U型(0τC类)哪里τC类是一个常数,因此审查率为50%。因此,我们Y(Y)=最小值{T型C类}δ=(T型C类).

对于容易出错的协变量,让ϵ由具有均值零和协方差矩阵的正态分布生成Σϵ对角线入口为σϵ2=0.15、0.5或0.75,非对角线条目为σϵk个=σϵ2(0.5)(2+|k个|)对于k个=1k个然后观察到的协变量X(X)*由测量误差模型生成(). 因此,对于=1n个,观察到的存活数据是(Y(Y)δX(X)*).

如果Σϵ未知,则以下两种情况被视为附加信息:

  • 场景1:验证数据

    对于=1具有=n个4X(X)ϵ再次从生成N个(0ΣX(X))N个(0Σϵ)分别为和X(X)*由生成

    X(X)*=X(X)+ϵ

    对于=1.

  • 场景2:重复测量

    对于=1具有=n个4第页 = 1, 2,X(X)ϵ第页再次从生成N个(0ΣX(X))N个(0Σϵ)分别为和X(X)第页*由生成

    X(X)第页*=X(X)+ϵ第页

    对于=1第页 = 1, 2.

最后,我们在每个设置中重复模拟1000次。

4.2. 仿真结果

我们首先通过第节中提出的特征筛选方法来检查重要变量的检测3.1。为了查看错误污染的影响,我们检查了天真法通过直接替换获得X(X)英寸(11)由X(X)*并且没有错误修正。为了评估所提方法的有限样本性能,我们遵循与其他相关文献类似的演示(例如[16])测量提取这些重要变量的频率。具体来说,让P(P)表示从1000个模拟中选择每个活动协变量的比例,并让P(P)表示从1000个模拟中选择所有活动协变量的比例。基于已知的Σϵ在表中报告1我们省略了未知情况下的结果Σϵ显示与表中相似的模式1.

表1。

通过特征筛选选择真正信息丰富的协变量的比例。

    M1级平方米立方米
     P(P)  P(P)  P(P) 
ηn个 σϵ2方法 X(X)1 X(X)2 X(X) P(P) X(X)1 X(X)2 X(X) X(X)4 P(P) X(X)1 X(X)2 X(X) X(X)4 X(X)5 P(P)
酸碱度4000.15天真000.0020000.0010.001000.0010000
   提议10.9970.9980.998110.9910.9960.997110.9950.9960.9960.995
  0.50天真000.0010000.00100000000
   提议10.9950.9960.996110.9930.9950.9950.99810.9940.9940.9950.994
  0.75天真000.001000000000000
   提议10.9950.9950.995110.9940.9950.9940.9970.9980.9940.9940.9950.994
 8000.15天真00.0010.002000.0010.0030.001000.0020.002000
   提议10.99810.997110.9970.9970.997110.9960.9970.9980.996
  0.50天真00.0010.001000.0010.0010000.0020000
   提议10.9980.9980.997110.9970.9950.995110.9950.9950.9960.995
  0.75天真000.0010000.0010000.0010000
   提议10.9980.9960.99610.9980.9960.9950.994110.9950.9950.9940.994
人事军官4000.15天真0.0010.0010.00200.00100.001000.0010.0010000
   提议10.9980.9970.99710.9990.9960.9960.996110.9970.9950.9960.996
  0.50天真0.0010.0010.0010000.001000.0010.0010000
   提议10.9960.9960.99710.9970.9950.9940.995110.9960.9950.9950.995
  0.75天真000.0010000000.00100000
   提议10.9960.9960.99610.9960.9950.9940.99410.9980.9960.9930.9940.994
 8000.15天真0.0030.0020.0020.0010.0020.0010.002000.0010.0020000
   提议10.9980.9980.99710.9990.9970.9980.997110.9970.9960.9970.996
  0.50天真0.0010.0010.0020.0010.0010.00100000.0020000
   提议10.9960.9970.99710.9970.9960.9970.997110.9960.9960.9950.996
  0.75天真000.001000.001000000000
   提议0.9970.9950.9950.9960.9980.9960.9960.9950.9960.99810.9950.9960.9950.995
正常4000.15天真0.0020.0030.00200.0020.0010.0010.0020.0010.0010.0010.00200.0020
   提议10.9980.9980.99710.99910.9970.997110.9970.9960.9970.996
  0.50天真0.0020.002000.00100.0010.00100.0010000.0020
   提议10.9970.9970.99510.9990.9980.9960.996110.9950.9950.9960.995
  0.75天真00.001000.00100.0010.00100.0010000.0020
   提议10.9970.9970.99510.9990.9980.9960.996110.9950.9950.9960.995
 8000.15天真0.0040.0060.00300.0030.0030.0020.0010.0010.0020.0030.003000
   提议111110.99910.9980.998110.9970.9970.9980.997
  0.50天真0.0020.0040.00200.0020.0010000.0010.0020.002000
   提议110.9980.99810.9970.9970.9960.99610.9970.9970.9970.9970.996
  0.75天真0.0010.00100000000.00100000
   提议10.9980.9970.99710.9970.9960.9960.99610.9970.9970.9960.9960.996

天真:用法X(X)*在节中3.13.2无误差修正;

建议:带有误差修正的建议方法。

注意M1包含X(X)1X(X),M2包含X(X)1X(X)4,M3包括X(X)1X(X)5.根据表中的结果1,我们观察到所提出的特征筛选方法(13)成功检测出模型M1、M2和M3中出现的真正重要的变量,比例接近1。另一方面,如果没有适当的测量误差修正,朴素方法无法检测到真正重要的变量。这些观察证明了定理3.2的正确性,并验证了测量误差会导致错误的结论。

接下来,我们检查估计的结构尺寸d日ˆ。对于每个设置中的1000次模拟,我们计算d日ˆ,即。

11000k个=11000d日ˆk个=d日(f)o(o)第页 d日=012

估计的结构尺寸由最大比例决定。表中总结了由原始方法和建议方法确定的结果2.我们只报告已知的情况L(左)由于页面限制和其他情况的类似结果。我们观察到,无论是朴素的方法还是提出的方法都经常选择正确的结构维度。对于所有设置,选择真实尺寸的模拟比例随着样本量的增加而增加,而当σϵ2增加。对于原始方法和建议方法的比较,建议的方法具有更高的确定比例d日ˆ=1与模型M1中的朴素方法相比d日ˆ=2M2和M3型。

表2。

结构尺寸估算比例(d日ˆ).

    酸碱度人事军官正常
模型n个 σϵ2方法 d日ˆ=0 d日ˆ=1 d日ˆ=2 d日ˆ d日ˆ=0 d日ˆ=1 d日ˆ=2 d日ˆ d日ˆ=0 d日ˆ=1 d日ˆ=2 d日ˆ
M1级4000.15天真00.9850.0100.00500.9530.0410.00600.9500.0410.009
   提议0100010000.9980.0020
  0.50天真00.9730.0200.00700.9500.0440.00600.9450.0490.006
   提议010000.9970.003000.9970.0030
  0.75天真00.9780.0170.00500.9020.0810.00700.9430.0490.008
   提议010000.9890.011000.9940.0060
 8000.15天真00.9900.0070.00300.9600.0340.00600.9660.0310.003
   提议0100010000.9980.0020
  0.50天真无邪00.9850.0110.00400.9570.0400.00300.9550.0420.003
   提议010000.9970.003000.9970.0030
  0.75天真00.9810.0140.00500.9360.0570.00700.9510.0440.005
   提议010000.9920.008000.9950.0050
平方米4000.15天真00.0670.933000.0300.970000.0250.9730.002
   提议001001000010
  0.50天真00.0500.950000.0320.9600.00800.0270.9690.004
   提议001000.0020.998000.0050.9950
  0.75天真00.0870.9030.01000.0630.937000.0410.9520.007
   提议0010001000.0100.9900
 8000.15天真无邪00.0600.940000.0270.973000.0210.9770.002
   提议001001000010
  0.50天真00.0510.949000.0190.981000.0160.9820.002
   提议001000.0020.998000.0040.9960
  0.75天真00.0440.956000.0120.988000.0120.9860.002
   提议001000.0020.998000.0020.9980
立方米4000.15天真00.0700.9280.00200.0360.9610.00300.0280.9700.002
   提议00.0040.99600.0040.996000010
  0.50天真00.0760.9220.00200.0450.9500.00500.0330.9630.004
   提议00.0070.99300.0050.9950000.0030.9960.001
  0.75天真00.0850.9100.00500.0660.9290.00500.0550.9400.005
   提议00.0090.99100.0080.9920000.0050.9950
 8000.15天真00.0620.9360.00200.0220.9750.00300.0190.9790.002
   提议00.0040.99600.0030.997000010
  0.50天真00.0630.9350.00200.0350.9610.00400.0260.9700.004
   提议00.0050.99500.0040.9960000.0040.9960
  0.75天真00.0740.9230.00300.0580.9380.00400.0420.9550.003
   提议00.0060.99400.0040.9960000.0020.9980

天真:用法X(X)*在节中3.13.2没有纠错;

建议:带有误差修正的建议方法。

最后,我们检验了估计器的性能B类ˆ通过使用Frobenius范数ΔB类=B类ˆB类0。除了建议的方法和通过直接实现获得的朴素方法之外X(X)*第节中的估算程序3.13.2在不进行误差修正的情况下,我们还估计B类通过Lu和Li提出的正则化稀疏估计方法[17,第2.3节]。尽管他们的方法没有包含协变量测量误差,但我们仍然将他们的方法作为参考,与所提出的和幼稚的方法进行比较,因为他们的方法旨在处理具有截尾响应的高维SDR。让“LuLi(2011)”表示Lu和Li提出的方法[17]使用容易出错的协变量X(X)*.

的数值结果B类ˆ表中报告了通过三种不同方法获得的结果,包括朴素方法、建议方法和“LuLi(2011)”方法5.我们观察到ΔB类随着样本量的增加而减少,而ΔB类变大为σϵ2增加。此外,我们可以看到,基于已知的L(左)具有较小的值ΔB类和标准误差(S.E.)L(左)通过重复测量或验证数据进行估计,因为估计未知L(左)需要。这些数值结果与早期参考相似(例如[37])也反映了定理3.3。

表4。

估计量的模拟结果B类未知的L(左)通过重复测量进行估计。

    酸碱度人事军官正常
模型 (n个) σϵ2方法 |ΔB类|瑞典。 |ΔB类|瑞典。 |ΔB类|瑞典。
M1级(400, 100)0.15天真1.2530.0901.6150.1101.2600.107
   陆莉(2011)1.4300.0941.7220.1161.4330.115
   提议0.0910.0980.0950.1200.0870.122
  0.50天真1.2610.0941.6690.1181.3680.115
   陆莉(2011)1.4390.0981.7380.1201.4430.121
   提议0.0950.1020.0990.1280.0920.126
  0.75天真1.3580.0971.6850.1231.4300.121
   陆莉(2011)1.4920.1041.7460.1261.4770.129
   提议0.0990.1070.1030.1330.0960.132
 (800, 200)0.15天真无邪1.2400.0781.5930.1061.2420.097
   陆莉(2011)1.4210.0821.7100.1121.4150.101
   提议0.0820.0880.0860.1150.0810.110
  0.50天真1.2520.0841.6480.1111.3400.110
   陆莉(2011)1.4260.0891.7250.1161.4220.113
   提议0.0880.0920.0890.1210.0870.117
  0.75天真1.3550.0861.6790.1171.4300.115
   陆莉(2011)1.4630.0931.7340.1221.4630.119
   提议0.0930.0970.0940.1250.0910.123
平方米(400, 100)0.15天真2.2230.0912.2380.0932.2410.096
   陆莉(2011)2.2780.0942.2930.0982.3300.103
   提议0.0850.0980.0800.1060.0920.107
  0.50天真2.2440.0962.2460.0952.2550.099
   陆莉(2011)2.2860.1032.3120.1082.3490.115
   提议0.0880.1060.0890.1140.0940.119
  0.75天真2.2570.0982.2550.0992.2680.107
   陆莉(2011)2.2980.1092.3260.1122.3530.118
   提议0.0890.1120.0940.1180.0990.126
 (800, 200)0.15天真2.2150.0842.2170.0882.2260.089
   陆莉(2011)2.2370.0892.2820.0872.3190.095
   提议0.0780.0940.0740.0950.0850.102
  0.50天真2.2340.0872.2290.0912.2430.094
   陆莉(2011)2.2760.0932.2950.0942.3290.105
   提议0.0820.0960.0830.1030.0890.111
  0.75天真2.2470.0952.2380.0972.2550.097
   陆莉(2011)2.2830.0982.3220.1052.3440.112
   提议0.0880.0970.0790.1050.0880.115
立方米(400, 100)0.15天真2.3800.0792.3120.0862.2850.089
   陆力(2011)2.4420.0852.3730.0912.3340.097
   提议0.0780.0940.0740.0980.0880.109
  0.50天真2.3880.0852.3260.0892.2910.095
   陆莉(2011)2.4550.0882.3790.0942.3470.104
   提议0.0860.0970.0810.1010.0900.113
  0.75天真2.3990.0892.3380.0952.3170.099
   陆莉(2011)2.5130.0942.4110.1062.3670.113
   提议0.0940.1080.0880.1080.0940.117
 (800, 200)0.15天真2.3620.0752.2900.0782.2660.083
   陆莉(2011)2.4250.0812.3590.0882.3160.088
   提议0.0710.0860.0700.0940.0750.092
  0.50天真2.3760.0792.3220.0842.2790.088
   陆莉(2011)2.4350.0832.3670.0892.3260.090
   提议0.0780.0890.0760.0950.0790.096
  0.75天真2.3840.0832.3270.0882.2880.093
   陆莉(2011)2.4500.0872.3770.0962.3560.098
   提议0.0860.0950.0840.1070.0900.111

天真:用法X(X)*在章节中3.13.2无误差修正;

陆丽(2011):用法X(X)*在Lu和Li中[17];

建议:带有误差修正的建议方法。

表3。

估计量的模拟结果B类已知的L(左).

    酸碱度人事军官正常
模型n个 σϵ2方法 |ΔB类|瑞典。 |ΔB类|瑞典。 |ΔB类|瑞典。
M1级4000.15天真1.1450.0671.5560.1021.2360.095
   陆莉(2011)1.3860.0701.6470.1081.3350.098
   提议0.0740.0750.0730.1140.0790.106
  0.50天真1.2390.0751.6440.1121.3370.108
   陆力(2011)1.4230.0741.6940.1151.3880.114
   提议0.0790.0820.0780.1230.0830.119
  0.75天真1.3530.0841.6760.1151.4150.115
   陆莉(2011)1.4770.0891.7230.1211.4680.120
   提议0.0860.0930.0880.1260.0920.124
 8000.15天真1.1380.0641.5430.0981.2200.091
   陆莉(2011)1.3700.0661.6350.1011.3220.094
   提议0.0680.0710.0690.1080.0720.100
  0.50天真1.2310.0711.6330.1071.3270.101
   陆力(2011)1.4180.0721.6850.1111.3590.107
   提议0.0720.0790.0750.1150.0760.110
  0.75天真1.3450.0781.6610.1111.4080.110
   陆莉(2011)1.4580.0831.7140.1161.4500.114
   提议0.0790.0860.0780.1200.0880.120
平方米4000.15天真无邪2.2100.0832.2260.0862.2350.090
   陆莉(2011)2.2660.0892.2890.0922.3170.096
   提议0.0760.0940.0710.0970.0850.100
  0.50天真2.2350.0852.2290.0862.2480.094
   陆莉(2011)2.2740.0942.2960.0962.3300.107
   提议0.0820.0980.0790.1040.0890.113
  0.75天真2.2440.0882.2340.0892.2550.098
   陆莉(2011)2.2860.0992.3110.1072.3450.115
   提议0.0860.1060.0830.1120.0920.121
 8000.15天真2.2030.0802.2090.0822.2110.085
   陆莉(2011)2.2240.0862.2770.0872.3080.092
   提议0.0720.0900.0680.0910.0770.098
  0.50天真2.2260.0812.2210.0832.2350.089
   陆莉(2011)2.2680.0882.2860.0902.3160.100
   提议0.0770.0910.0730.0980.0840.106
  0.75天真2.2380.0852.2270.0862.2420.094
   陆莉(2011)2.2790.0912.3000.0982.3310.106
   提议0.0820.0970.0790.1050.0880.115
立方米4000.15天真2.3660.0762.3000.0802.2780.086
   陆莉(2011)2.4350.0832.3690.0872.3250.094
   提议0.0720.0900.0680.0920.0750.102
  0.50天真无邪2.3780.0792.3110.0862.2840.089
   陆莉(2011)2.4490.0852.3730.0902.3360.097
   提议0.0780.0940.0740.0960.0810.108
  0.75天真2.3860.0832.3250.0892.2960.093
   陆莉(2011)2.4550.0892.3870.0952.3460.104
   提议0.0850.0990.0790.1030.0880.111
 8000.15天真2.3500.0702.2840.0732.2550.079
   陆莉(2011)2.4130.0782.3450.0802.3090.082
   提议0.0650.0820.0600.0840.0680.089
  0.50天真2.3630.0742.2990.0782.2700.082
   陆莉(2011)2.4270.0812.3550.0862.3200.087
   提议0.0710.0860.0670.0900.0750.093
  0.75天真2.3790.0792.3110.0852.2840.088
   陆莉(2011)2.4430.0842.3680.0912.3340.095
   提议0.0770.0890.0740.0980.0790.099

天真:用法X(X)*在节中3.13.2无误差修正;

陆丽(2011):用法X(X)*在Lu和Li中[17];

建议:建议的方法有误差校正。

表5。

估计量的模拟结果B类未知的L(左)根据验证数据进行估算。

    酸碱度人事军官正常
模型 (n个) σϵ2方法 |ΔB类|瑞典。 |ΔB类|瑞典。 |ΔB类|瑞典。
M1级(400, 100)0.15天真1.2780.0911.6310.1121.2730.110
   陆莉(2011)1.4560.0961.7440.1211.4480.119
   提议0.0960.1030.0970.1270.0900.125
  0.50天真1.2820.0961.6750.1231.3770.119
   陆莉(2011)1.4630.1061.7500.1271.4550.125
   提议0.0990.1100.1020.1300.0950.128
  0.75天真1.3660.1041.6930.1281.4460.127
   陆莉(2011)1.5030.1091.7740.1351.4980.133
   提议0.1020.1120.1070.1420.1080.138
 (800, 200)0.15天真1.2550.0851.6200.1091.2580.101
   陆莉(2011)1.4380.0891.7290.1161.4240.107
   提议0.0890.0950.0920.1210.0890.116
  0.50天真1.2610.0871.6560.1171.3500.113
   陆莉(2011)1.4480.0941.7370.1241.4470.119
   提议0.0940.0990.0970.1260.0910.123
  0.75天真1.3610.0951.6880.1211.4390.117
   陆莉(2011)1.4840.0991.7660.1291.4750.122
   提议0.0960.1080.0990.1330.0990.130
平方米(400, 100)0.15天真2.2400.0952.2510.0952.2560.099
   陆莉(2011)2.2880.0982.3130.1022.3470.107
   提议0.0890.1050.0890.1100.0980.111
  0.50天真2.2490.0992.2570.0982.2630.103
   陆力(2011)2.2940.1072.3220.1112.3560.118
   提议0.0940.1140.0960.1190.1050.123
  0.75天真无邪2.2660.1052.2680.1032.2890.114
   陆莉(2011)2.3200.1132.3400.1162.3790.125
   提议0.0970.1170.0990.1220.1090.130
 (800, 200)0.15天真2.2230.0882.2300.0932.2410.094
   陆力(2011)2.2560.0932.2960.0972.3300.099
   提议0.0840.0970.0870.0990.0920.107
  0.50天真2.2400.0932.2410.0952.2550.098
   陆力(2011)2.2880.0982.3160.1052.3410.108
   提议0.0890.1070.0930.1080.0980.117
  0.75天真2.2530.1032.2500.1062.2740.110
   陆莉(2011)2.2970.1092.3490.1132.3600.117
   提议0.0930.1150.0950.1150.1000.126
立方米(400, 100)0.15天真2.3960.0832.3360.0902.3000.094
   陆莉(2011)2.4630.0892.3900.0952.3580.103
   提议0.0860.0980.0820.1030.0960.112
  0.50天真2.4110.0892.3450.0952.3130.098
   陆莉(2011)2.4700.0942.3880.0972.3610.110
   提议0.0910.1000.0890.1080.0990.118
  0.75天真2.4200.0952.3620.0992.3300.105
   陆莉(2011)2.5560.0992.4370.1102.3890.116
   提议0.0970.1110.0960.1150.1060.122
 (800, 200)0.15天真2.3890.0782.3200.0862.2880.090
   陆莉(2011)2.4550.0842.3790.0902.3440.095
   提议0.0790.0880.0790.0930.0820.102
  0.50天真2.3950.0862.3330.0902.2930.093
   陆莉(2011)2.4600.0912.3830.0922.3560.102
   提议0.0820.0950.0830.0980.0880.109
  0.75天真2.4110.0932.3590.0932.3110.099
   陆莉(2011)2.4860.0972.4080.0992.3780.106
   提议0.0900.1010.0940.1030.0950.115

天真:用法X(X)*在节中3.13.2无误差修正;

陆丽(2011):用法X(X)*在Lu和Li中[17];

建议:带有误差修正的建议方法。

在存在测量误差且无误差修正的情况下,我们可以看到,朴素方法的性能优于“LuLi(2011)”,且较小ΔB类和S.E.,因为他们的方法依赖于LASSO惩罚函数(例如[29])。因此,尽管“LuLi(2011)”能够使用SDR进行变量选择,但仍难以处理超高维设置。此外,我们比较了原始方法和提出的方法,以了解误差影响和相应的修正。我们观察到,所提出的方法给出了较小的ΔB类与naive方法相比,它表明通过适当的校正可以消除误差影响,因此B类更精确。此外,所提出的方法考虑了测量误差的影响,比朴素方法产生更大的S.E.,这是消除点估计中的偏差所付出的代价。这种现象在测量误差模型的文献中是典型的。

4.3. NKI乳腺癌数据分析

在本节中,我们将采用所建议的方法来分析荷兰癌症研究所(NKI)收集的乳腺癌数据[30]. 荷兰癌症研究所新鲜组织库收集了295名乳腺癌患者的肿瘤。这些患者的肿瘤主要是浸润性乳腺癌,约为5直径为cm。诊断时的患者年龄为52岁或以下,诊断时间为1984年至1995年。在所有这些患者中,79名患者在研究结束前死亡,约占73.2%的审查率。对于患者的每个肿瘤,收集了大约25000个基因表达。与基因表达数据分析一致,我们将对数强度作为协变量。如Roke和Durbin所述[25],基因表达的测量存在测量误差。该数据集的主要目的是确定信息特征,然后降低基因表达值的维数。

由于该数据集不包含表征基因表达伴随的测量误差程度的信息,因此我们进行敏感性分析,以调查测量误差对分析结果的影响。具体来说,设∑为基因表达值的协方差矩阵。对于敏感性分析,我们考虑Σ+Σe(电子)作为测量误差模型的协方差矩阵(),其中Σe(电子)是以对角元素为公共值的对角矩阵吗σe(电子)2,指定为σe(电子)2=0.150.55或0.75,以具有轻微、中等或严重测量误差的设置。鉴于σe(电子)2,我们实现修改后的DC(14)确定估计的活动集ˆ其中包含大小为的变量q个=[295日志(295)]=17,选择的基因表达包括NM_003748号AA555029_抄送AL080059号AL137718号NM_020974NM_002073号NM_004994号NM_003875号NM_015984号X05610型NM_006931号NM_002916号NM_001282号续2399_RCNM_018354号NM_003862号、和NM_000599.关于天真的方法,我们简单地使用(11)没有进行特征筛选的错误修正,检测到的基因表达包括轮廓55377_RC连续35251_RCNM_003748号NM_003875号NM_006101NM_003882NM_003607AF073519型AF052162型NM_000849AB037863年AF201951型轮廓46218_RC康蒂格63649_抄送轮廓55725_RC轮廓32125_RC、和NM_000599从特征筛选结果中,我们可以看到,修改后的DC检测到的基因表达与未经纠错选择的基因表达几乎不同。

鉴于检测到的基因表达,我们在第3.2估计d日B类.朴素方法和建议的方法具有不同的值σe(电子)2建议估算的结构尺寸由下式给出d日ˆ=1,和估计器B类ˆ=βˆ1可以获得。为了可视化,我们绘制了四个不同的散点图Y(Y)β1X(X)基于不同程度的误差和图中的朴素方法1可以看出,该方法给出了具有不同误差程度的相似曲线模式,而基于naive方法的曲线更可能是线性的。

保存图片、插图等的外部文件。对象名称为CJAS_A_1856352_F0001_c.jpg

存活时间散点图Y(Y)β1X(X)(a)–(c)基于提议的方法σe(电子)2=0.150.55或者0.75(d)是基于天真估计器。

5结论

分析超高维数据一直是一个富有挑战性的话题,并引起了我们的关注。此外,SDR的思想也是一个重要的工具,它可以帮助我们在不丢失信息的情况下降低维数。当协变量的维数相对较小时,已经开发了许多SDR方法来处理生存数据或测量误差。然而,当截尾响应和测量误差同时出现时,很少有人提出方法。此外,超高维数据(n个)毫无疑问,这使得分析变得具有挑战性。

在本文中,我们探讨了具有协变量测量误差的生存数据的超高维SDR。我们提出了一种有效的特征筛选程序,确保包含真正未观察到的协变量的活动集与包含检测到的代理协变量的激活集相同。基于估计的活动集,我们接下来开发了一种有效的SDR方法来估计存在测量误差的协变量生存数据的中心子空间。理论结果也得到了证实。数值研究也表明该方法具有令人满意的性能。

如Li和Yin所示[13],协变量正态分布的条件X(X)更换时需要X(X)*通过U型只有这样的条件才能使不变性定律成立。关于协变量的非正态分布,Li和Yin[13,第6节]讨论了非高斯协变量的近似不变性,该不变性基于协变量的低维投影在维数为相当大。然而,如第节开头所述3.2,我们首先检测重要的协变量,然后检查误差修正U型基于检测到的协变量。因此,如果每个检测到的协变量都是非正态的,则近似不变定律不一定成立,因为检测到的协变变量的维数可能不够大。因此,基于检测和非正态协变量的不变律是否成立是一个悬而未决的问题。此外,我们主要关注协变量X(X)是连续的。如果协变量是离散的并且被错误污染,这也被称为“错误分类'(例如[,第2.2.7]节),那么如何纠正SDR方法中的错误分类仍然是未知的。最后,关于高维SDR问题,近年来有几项新的研究成果,例如纳入变量选择技术(例如[24])和双层辅助SDR方法[8]. 有兴趣将其作为参考,以进一步考虑测量误差问题或开发新的高维SDR方法。这些重要的研究课题将是我们未来的工作。

补充材料

补充数据.pdf:

致谢

作者谨向主编、副主编和两位审稿人表示衷心的感谢,感谢他们提出宝贵的建议和有益的意见,使本文变得更好。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Buckley J.和James I。,截尾数据线性回归生物特征 66(1979年),第429-436页。[谷歌学者]
2Carroll R.J.和Li K.-C。,未知环节的测量误差回归:降维与数据可视化美国统计协会。 87(1992年),第1040-1050页。[谷歌学者]
三。Carroll R.J.、Ruppert D.、Stefanski L.A.和Crainiceanu C.M。,非线性模型中的测量误差CRC出版社,纽约,2006年。[谷歌学者]
4陈曦、陈曦和王辉。,基于距离相关的超高维右删失数据稳健特征筛选计算。统计师。数据分析。 119(2018),第118–138页。[谷歌学者]
5陈曦、张毅、陈曦和刘毅。,一种简单的无模型生存条件特征筛选统计师。可能性。莱特。 146(2019年),第156-160页。[谷歌学者]
6库克R.D。,关于回归图的解释美国统计协会。 89(1994),第177-189页。[谷歌学者]
7库克·R.D。,回归图形:通过图形研究回归的思路,威利,纽约,1998年。[谷歌学者]
8丁S.、钱伟、王力,双策略辅助高维删失数据的充分降维安。统计师。 48(2020年),第2132-2154页。[谷歌学者]
9范杰、吕杰。,超高维特征空间的确定独立筛选J.R.统计社会服务。B类 70(2008),第849–911页。[PMC免费文章][公共医学][谷歌学者]
10黄M.-Y.和Chan K.C.G,时间到事件数据的有效维数同时估计的充分降维统计正弦。(2019). doi:10.5705/ss.202017.0550。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
11李B。,充分降维:R的方法及应用,CRC出版社,纽约,2018年。[谷歌学者]
12李B.和王S。,关于降维的方向回归美国统计协会。 102(2007),第997–1008页。[谷歌学者]
13李斌和殷X。,测量误差回归的替代降维:一个不变性定律安。统计师。 35(2007),第2143–2172页。[谷歌学者]
14李克强。,用于降维的分段逆回归美国统计协会。 86(1991年),第316-327页。[谷歌学者]
15Li K.-C、Wang J.-L和Chen C.-H。,删失回归数据的降维安。统计师。 27(1999),第1-23页。[谷歌学者]
16李瑞、钟伟、朱莉。,基于距离相关学习的特征筛选美国统计协会。 107(2012年),第1129–1139页。[PMC免费文章][公共医学][谷歌学者]
17陆伟、李磊。,删失回归的充分降维生物识别 67(2011),第513–523页。[PMC免费文章][公共医学][谷歌学者]
18Lue H.-H。,测量误差回归的主Hessian方向生物特征 91(2004),第409-423页。[谷歌学者]
19吕海华、陈春华、张伟华。,基于插补样条方法的截尾数据生存回归降维生物。J。 53(2011),第426–443页。[公共医学][谷歌学者]
20马云、朱莉。,降维的半参数方法美国统计协会。 107(2012),第168-179页。[PMC免费文章][公共医学][谷歌学者]
21马云、朱莉。,充分降维中的有效估计安。统计师。 41(2013),第250–268页。[PMC免费文章][公共医学][谷歌学者]
22米勒·R.G。,生存分析,威利,纽约,1981年。[谷歌学者]
23Nadkarni N.V.、Zhao Y.和Kosorok M.R。,截尾数据的逆回归估计美国统计协会。 106(2011),第178-190页。[PMC免费文章][公共医学][谷歌学者]
24钱伟、丁S.和库克R.D。,超高维同时变量选择充分降维的稀疏最小差分方法美国统计协会。 114(2019),第1277-1290页。[谷歌学者]
25Roke D.M.和Durbin B。,基因表达阵列测量误差模型J.计算。生物。 8(2001),第557-569页。[公共医学][谷歌学者]
26宋荣、陆伟、马S.和郑晓杰。,高维生存数据的删失秩独立筛选生物计量学 101(2014),第799-814页。[PMC免费文章][公共医学][谷歌学者]
27Susarla V.、Tsai W.Y.和Ryzin J.V。,截尾数据均值的Buckley-James型估计生物特征 71(1984),第624-625页。[谷歌学者]
28Székely G.J.、Rizzo M.L.和Bakirov N.K。,通过距离相关性测量和测试相关性安。统计师。 35(2007年),第2769-2794页。[谷歌学者]
29Tibshirani R。,通过Lasso回归收缩和选择J.R.统计社会服务。B类 58(1996),第267-288页。[谷歌学者]
30van de Vijver M.J.、He Y.D.、Dai H.、Hart A.A.M.、Voskuil D.W.、Schreiber G.J.、Peters J.L.、Roberts C.、Marton M.J.,Parrish M.、Atsma D.、Witteveen A.、Glas A.、Delahaye L.、van der Velde T.、Bartelink H.、Rodenhuis S.、Rutgers E.T.、Friend S.H.和Bernards R。,基因表达特征作为乳腺癌生存预测因子北英格兰。医学杂志。 347(2002),第1999-2009页。[公共医学][谷歌学者]
31王宏、夏勇。,用于降维的分段回归美国统计协会。 103(2008),第811-821页。[谷歌学者]
32夏勇。,一种估计降维方向的构造性方法安。统计师。 35(2007),第2654–2690页。[谷歌学者]
33夏瑜、张丹、徐杰。,生存模型的降维与半参数估计美国统计协会。 105(2010),第278-290页。[谷歌学者]
34严X、唐N、赵X。,超高维删失数据的Spearman秩相关筛选,(2017年)。可从arXiv:1702.02708v1获取。
35尹X和李B。,基于最小平均方差估计集合的充分降维安。统计师。 39(2011),第3392–3416页。[谷歌学者]
36于忠、董毅、邵杰。,超高维无模型特征选择的边缘切片逆回归安。统计师。 44(2016),第2594–2623页。[谷歌学者]
37张杰、朱莉、朱莉。,测量误差回归中的替代降维统计正弦。 24(2014),第1341–1363页。[谷歌学者]
38朱莉、朱莉和冯姿。,基于累积切片估计的回归降维美国统计协会。 105(2010),第1455-1466页。[谷歌学者]
39朱毅、曾鹏。,估计回归中中心子空间和中心平均子空间的Fourier方法美国统计协会。 101(2006),第1638-1651页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯