2 病例组数据的条件筛选
假设有n个队列研究中的独立受试者。让T型我和C类我表示对象的故障时间和审查时间我,我们只观察X(X)我=最小值(T型我,C类我)和Δ我=我(T型我≤C类我)由于右偏。让Z轴我= (Z轴我1,…,Z轴知识产权)T型表示第页-维度协变量,在病例组设计下,Z轴我仅适用于案例(Δ我=1)和亚组(整个队列的随机子集)。让ξ我是子组成员的指示器,即。,ξ我=1和0表示我全部队列中的第个受试者被选入亚组。对于子群的选择,我们考虑了具有选择概率的独立贝努利抽样π=公共关系(ξ我= 1) ∈ (0, 1). 因此我主题是{X(X)我,Δ我,Z轴我,ξ我}何时ξ我=1或Δ我=1,和{X(X)我,Δ我,ξ我}何时ξ我=0和Δ我= 0.
假设故障时间遵循比例风险模型(考克斯,1972年),其中条件危险函数T型我鉴于Z轴我有表单
其中λ0(t吨)是未指定的基线危险函数α= (α1,…,α第页)T型为未知回归参数。假设故障时间T型我和审查时间C类我是独立给定的Z轴我在超高维环境中,维度第页大大超过了样本量n个并且可以以指数速度增加n个根据稀疏性原则,只有少数协变量对响应变量有很大影响,即‖α‖远小于第页,其中‖α‖表示非零元素的数量α假设我们有先验信息,即一组协变量与生存时间有关T型索引集表示为表示中协变量的数量C类.写入和.给,已知,和未知。中的真正危险函数(1)等于
让和是非零系数及其基数的真实集合。我们的目标是扳回一盘尽可能准确地基于案例研究的数据。换句话说,我们想要找到协变量的子集这满足了.
为了执行初始筛选程序,我们为每个协变量单独构建边际Cox回归模型,这里我们还将已知的协变量添加到每个边际模型。具体来说,对于危险函数T型我给定(,Z轴i、 j)有表单
其中λj个,0(t吨)是未指定的基线危险函数,以及和βj个未知回归参数对应于协变量吗和Z轴j个分别在边际考克斯模型中。由于协变量只能在选定的子组和案例组数据中观察到,因此我们考虑以下加权估计方程
具有
哪里对于和我= 0, 1, 2. 这里,我们选择时变权重函数,其中是真实采样概率的一致估计值π。请注意w个我(η) 权重我受试者按选择的逆概率计算,在这种情况下,它等于1针对抽样审查的受试者。最大边际伪部分似然估计量定义为加权估计方程的解定义信息矩阵哪个属于(q个+1) 尺寸。让是的方差估计,即(第页+1)矩阵的第对角线元素。对于,我们定义
作为建议的实用措施j个th协变量。我们对协变量进行排序Z轴j个()按的价值从最大到最小,并保留那些排名靠前的人。对于给定的阈值γ>0,除了集合之外的所选索引集合由提供
在实际应用中,我们可以预先确定一个正整数d日0并将估计的活动集定义为
类似范和吕(2008)以及其他与专题筛选相关的文献,我们可以选择d日0= ⌈n个复写的副本/日志n个复写的副本⌉,其中n个复写的副本表示病例组样本量。
类似于Barut等人(2016)和Hong等人(2018),所提出的CWSIS程序的突出优点是能够检测超高维病例组数据中隐藏的活性协变量。为了证明这一优点,我们以类似的方式建立了一个示例Barut等人(2016)和Hong等人(2018)特别是故障时间T型我遵循Cox比例风险模型,其中λ0(t吨) = 1,,Z轴我~N个第页(0,Σ)带有Σ= (σij公司)第页×第页,σii(ii)=1用于我= 1,…,第页,σij公司=0.5适用于我≠j个.通过这种设计,Z轴5是一个隐藏的活性协变量。我们考虑四种不同的条件集,= {∅}, {1}, {1, 2}, {6, 7, 8}. 拟议筛选统计的密度对于Z轴5(隐藏的活性协变量)和Z轴6, …,Z轴2000(非活性协变量)总结如下.何时,CWSIS相当于边际筛选法对于Z轴5远小于非活性协变量的对应值,且概率很高。当条件集包括一个真正有效的协变量时(),曲线Z轴5在右边,这两条曲线之间有明显的分隔。当我们包含更多真正活跃的协变量时(),这种分离变得更大。我们注意到一个非常有趣的现象,即当条件集由三个非活动协变量组成时(),识别隐藏变量的机会Z轴5使用CWSIS仍高于边缘筛选法。这可能是由于它们与活动协变量之间的相关性,此类非活动变量可以有效地充当活动变量的替代变量,因此对它们进行调节可以帮助检测隐藏变量。在Barut等人(2016)和Hong等人(2018).
筛选统计的密度对于隐藏的活性协变量Z轴5与非活性协变量密度的混合物进行比较Z轴6, …,Z轴2000使用不同的条件集:情况1:={∅},相当于边缘筛分;案例2:={1},一个真正活跃的协变量;案例3:={1,2},两个真正活跃的协变量;案例4:={6,7,8},三个非活性协变量。全队列样本量n个=500,协变量数量第页=2000,非案例比率为1:1,故障率为20%。
三。 理论性质
在这一节中,我们展示了CWSIS程序具有确定筛选属性和排序一致性属性,这表明我们的CWSIS过程倾向于以高概率将活动协变量排在非活动协变量之上,而且,所有活动协变量在筛选后都存活下来,概率趋于1n个→ ∞. 这两个属性奠定了我们的CWSIS程序的理论基础。定义和对于和我= 0, 1, 2. 让是下列方程的解,使用
正则性条件如下所示附录A,在此基础上,我们建立了以下引理和定理。
引理1
条件C1-C8,
当且仅当αj个= 0为所有人
.
引理2
假设条件C1-C8成立,存在常数c2> 0和0 <κ<1/2这样的话
引理3
在条件C1-C8下,对于任何ϵ1> 0和ϵ2> 0,存在正常数c三
和整数N,使得对于任何N>N和0 <κ< 1/2,
其中a是的大小
,q是的大小
,c(c)2
是引理2中的相同值.
引理3表明,所提出的最大边际伪部分似然估计是对.通过引理1和3,我们确实可以区分从通过提议的边际效用定理1说明了CWSIS过程的确定的独立屏蔽特性。
定理1(确定屏蔽性)
在条件C1-C8下,对于任何0 <κ< 1/2和ϵ2> 0,存在正常数c三
这样的话
其中a是的大小,q是的大小此外,我们还有
从这个定理中,我们可以看到,所有活性协变量在筛选后都存活下来,概率趋于1。下一个定理建立了该方法的排序一致性。
定理2(排序一致性)
在条件C1-C8下,我们有
当n时→ ∞.
这奠定了理论基础,即我们的程序确保以压倒性的概率将活性协变量排在非活性协变量之前。定理和这些引理的证明在附录B.
附录A:规则性条件
让和表示的生存函数T型我和表示累积基线危险函数。对于任何矢量,让成为L(左)d日规范。对于任何随机变量和η:Ω→R(右)第页,的条件线性期望ζ鉴于η定义为,其中.之间的条件线性协方差ζ1和ζ2鉴于η定义为。的属性E类*(ζ|η)和Cov公司*(ζ1,ζ2|η)显示在中附录B下面列出的规则性条件是在我们的讨论过程中强加的。
C1.每个和,有一个街区属于这样的话
概率为从零开始有界限定于× [0,τ].
C2.适用于所有人和.
C3.协变量Z轴j个(j个= 1, …,第页)与时间无关且受常数限制L(左)0此外,E类(Z轴j个)全部=0j个∈ {1, …,第页}.
C4.所有Z轴j个,都是独立的Z轴j个,鉴于.
C5.存在一个常数L(左)1这样‖α‖1<L(左)1和.
C6.存在常量c(c)1>0和0<κ<1/2,因此.
C7.存在一个常数L(左)>0,这样为所有人.
C8.让表示子组的样本量,然后ñ/n收敛于常数π∈ (0, 1).
条件C1和C2是生存分析中的常见假设(安徒生和吉尔,1982年;弗莱明和哈林顿,1991年). 条件C3假设协变量有界,类似的条件也用于Hong等人(2018)条件C4类似于协变量的部分正交性假设。条件C5控制协变量的总效应大小,在稀疏性原则下是合理的。条件C6是特征筛选文献中广泛使用的一个典型假设,例如范和吕(2008),条件2英寸Li等人(2012年b),条件2英寸Song等人(2014),条件2和5英寸吴和尹(2015)条件C7是一个温和的假设,适用于许多情况。条件C8是病例组设计的常见假设。
附录B:引理和理论证明
让是方程的解.定义,其中向量这样的话.作为准备,我们首先引入一些引理。
引理4
让
ξ= (ξ1, …,ξn个)是一个随机向量,包含ñones和n−ñ0,每个排列的可能性都相同。让B我(t吨) (我=1…,n个)是[0,τ]带有E类{B类我(t吨)} =μB类(t吨),无功功率,无功功率(B类我(τ)) < ∞.让B(t吨)=============================================================={B类1(t吨), …,B类n个(t吨)}独立于ξ.假设B的几乎所有路径我(t吨)有有限的变化。然后,
在l中弱收敛∞[0,τ]零米高斯过程,因此
在t中一致收敛于零的概率.
这个引理与的引理A1相同Kang和Cai(2009).
引理5
假设ξ与Δ和Y无关(t吨),
弱收敛到零米高斯过程.
这个引理是从的引理A3中提取的Ni等人(2016).
引理6
对于独立随机变量Y1, …,Y(Y)n个有界范围[−M、 M(M)]和零均值,
对于V≥变量(Y(Y)1+ … +Y(Y)n个).
这个引理是从的引理2.2.9中提取的范德法特和韦纳(1996).
引理7
让ζ,ζ1,ζ2
η是概率空间中的任意四个随机变量(Ω,,P(P)),以下属性适用于条件线性期望E类*(⋅|η)给定η:
;
;
对于任何矩阵A1
和A2,;
.
这个引理是从Hong等人(2018).
引理8
条件线性协方差具有以下特性:
;
;
对于任何递增函数h(·) :R(右)→R和随机变量ξ:Ω→R、 我们有
.
这个引理是从Hong等人(2018).
引理1的证明
证明我们首先联系然后根据条件C6,我们将其与αj个。对于任何和,直接计算得出和,然后
根据定义,我们有
哪里
和
根据的定义,我们有,然后对于任何,.何时,因此.因为.通过解的唯一性,我们有.
什么时候?αj个≠0,根据条件C6,我们有。这意味着和都是非零的,因为它们相等,所以符号相同。明确地,P(P)(δ= 1|Z轴)是事件发生的概率S公司T型S公司C类=P(P)(X(X)>t吨|Z轴)表示时间t的风险概率。对于任意t,我们有
通过引理8,Cov公司* {Z轴j个,P(P)(δ= 1|Z轴)|}和Cov公司*(Z轴j个,S公司T型S公司C类|)除非符号为零,否则符号相反。这进一步意味着
和E类[Cov公司*{Z轴j个,P(P)(δ= 1|Z轴)|}]除非符号等于零,否则符号相反。所以因此,.
引理2的证明
证明通过引理1,对于任意,我们有根据泰勒展开,存在这样的话
通过引理1的证明,.给定,考虑作为的函数βj个,然后
哪里
根据条件C3|Z轴j个| ≤L(左)0,然后.所以
根据引理1中的证明,具有相反的符号,将其与条件C6相结合,
所以
拿,我们有
这就完成了证明。
引理3的证明
证明表示根据的定义,我们有
对于任何和,使用类似的方法林伟(1989),通过引理4和5,我们可以得到
哪里是独立的,、和具有
让E类n个表示经验度量,我们可以写
对于任何给定的i、 j、k、,根据条件C1、C3、C5,存在一个常数L(左)2这样的话事实上,我们有.对于任何情况,通过引理6t吨> 0,和,我们有
根据Bonferroni不等式
作为,对于任何ϵ1>0和ϵ2>0,存在N个1这样,对于
拿,然后通过三角不等式和Bonferroni不等式,我们得到
拿N个=最大值{(L(左)2/3)1/κ,N个1},那么对于任何n个>N个,n个−κ< 3/L(左)2,所以我们有
哪里.根据条件C7,我们有
那么我们有
哪里是的大小||.
定理1的证明
证明根据的定义条件C7,存在一个正常数c(c)4这样的话
在引理2之后,对于任意,我们有.假设<n个−1/2c(c)4γ,然后.如果我们有,我们可以获得
然后.让n个→ ∞, 对于任何ϵ2>0,我们有,上述等式的右侧不取决于n个再。拿ϵ2→ 0,我们有.
定理2的证明
证明对于任何,我们有αj个≠ 0. 从引理1我们知道相似之处,我们有同样,我们有如果.作为是的一致估计量和,我们可以很容易地得出结论什么时候n个→ ∞, 这就完成了定理2的证明。