跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
寿命数据分析。作者手稿;PMC 2022 10月1日提供。
以最终编辑形式发布为:
预防性维修识别码:PMC8561435号
美国国立卫生研究院:美国国家卫生研究院1745068
PMID:34417679

病例组研究中超高维生存数据的条件筛选

关联数据

补充资料

摘要

在大型队列研究中,病例组设计被广泛用于降低协变量测量的成本。在许多这样的研究中,协变量的数量非常大,研究的目的是确定对反应有很大影响的活性协变量。自引入确定性独立筛选(SIS)以来,筛选程序在有效降低维度和识别活性协变量方面取得了巨大成功。然而,常用的筛选方法是基于边际相关性或其变体的,它们可能无法识别共同重要但与响应弱相关的隐藏活动变量。此外,这些筛选方法主要针对简单随机抽样下的数据,不能直接应用于病例组数据。在本文中,我们考虑了病例组设计下的超高维生存数据,并通过结合一些重要的活动变量的先验已知信息,提出了一种条件筛选方法。该方法可以有效地检测隐藏的活动变量。此外,它在一些温和的正则性条件下具有一定的筛选性质,不需要任何复杂的数值优化。我们通过广泛的模拟研究评估了所提方法的有限样本性能,并通过乳腺癌患者的实际数据集进一步说明了新方法。

关键词:病例对照设计、条件筛查、确定筛查属性、生存数据、超高维数据、加权估计方程

1介绍

在大型流行病学队列研究中,一些感兴趣的疾病(如癌症、心脏病、艾滋病毒感染)的发病率很低。此外,一些风险敞口的测量可能非常昂贵,而且由于资源限制,无法对所有队列成员进行测量。为了降低成本,同时尽可能保持效率,普伦蒂斯(1986)提出了病例组设计,其中昂贵的协变量仅针对全队列的随机样本(称为亚组)以及随访期间经历过相关事件的其他病例获得。当协变量维数第页小于样本大小n个,已经提出了各种方法来分析此设计下的数据,例如伪似然方法(普伦蒂斯,1986年;赛尔夫和普伦蒂斯,1988年;Kalbfleisch和Lawless,1988年),估计方程法(Chen和Lo,1999年;陈,2001)多重插补法(Marti和Chavance,2011年;基奥和怀特,2013年),最大似然估计(Scheike和Martinussen,2004年;曾和林,2014),加权估计方程法(巴洛,1994年;Borgan等人,2000年;Kulich和Lin,2004年;Breslow和Wellner,2007年;Kang和Cai,2009年;Kim等人,2013年)等等。

随着生物医学技术的快速发展,大规模流行病学研究中经常收集高维数据。这种数据的特点是协变量维数第页比样本量大得多n个分析此类数据的一个重要目的是识别与感兴趣事件相关的协变量子集,并基于选定的协变量构建有效模型。对于以下情况第页增加了n个以多项式速率(例如。,第页=n个α具有α>0),正则化方法已被证明是简单随机抽样(SRS)数据的有效降维方法(例如。,Tibshirani,1996年;范和李,2001;邹,2006;坎迪斯和陶,2007年;张,2010)最近在病例-队列设计下,已推广到高维数据。例如,Ni等人(2016)提出了一种基于平滑剪裁绝对偏差(SCAD)惩罚的变量选择方法(范和李,2001)对于以下情况第页增长速度慢于n个.金和安(2019)针对变量具有组结构的情况,提出了一种双层变量选择方法来选择非零组和组内变量。这些方法可以同时选择变量和估计参数,然而,正则化方法固有的计算特性使它们同时面临计算方便性、统计准确性和算法稳定性的挑战,当维数为第页是超高的第页=经验(n个α)带有α> 0 (Fan等人,2009年).

对于SRS数据,特征筛选方法在应对超高维设置的挑战方面取得了巨大成功。在不同的设置下,提出了各种边缘筛选方法,例如线性模型(范和吕,2008),广义线性模型(Fan和Song,2010年),加法模型(Fan等人,2011年)变系数模型(Fan等人,2014年;刘等人,2014)和无模型场景(例如。,Zhu等人,2011年;Li等人,2012a;Li等人,2012年b;He等人,2013年;Chang等人,2013年;崔等,2015;Mai和Zou,2015年;吴和尹,2015). 对于截尾生存数据,几种基于模型的筛选方法(例如。,Tibshirani,2009年;赵、李,2012;Gorst-Rasmussen和Scheike,2013年)和无模型筛选方法(例如。,Song等人,2014年;吴和尹,2015; Zhang等人,2017年;周和朱,2017;Liu等人,2018;Zhang等人,2018年;Lin等人,2018年;Pan等人,2019年)通过定义不同的边际效用提出。尽管它们在降低维度方面很强大,但在某些情况下可能会面临一些挑战。例如,如中所述范和吕(2008)协变量之间的相关性严重影响边际效用。当协变量之间的相关性相对较高时,边际筛选方法可能无法保留对响应有较大影响但与响应相关性较弱的隐藏活动变量。尽管有一些迭代筛选方法(例如。,范和吕,2008;Zhu等人,2011年;Zhang等人,2018年,Pan等人,2019年)为了缓解这个问题,已经提出了前向筛选方法(例如,Wang,2009),计算速度相对较慢,统计特性难以捉摸。

在许多应用中,研究人员可以从以前的调查和经验中获得主动变量的一些先验信息。例如,在乳腺癌研究中(van de Vijver等人,2002年),基因AL080059号文献中已知可预测患者的生存时间(杨等人,2005年;van t Veer等人,2002年).Barut等人(2016)指出通过引入这些先验知识可以提高变量筛选的准确性。有鉴于此,他们提出了广义线性模型的条件筛选方法,并表明条件作用有助于降低协变量之间的相关性,从而可以以更高的概率检测隐藏的活动变量。Hong等人(2016)进一步建议使用数据驱动方法整合先验信息。胡和林(2017)提出了一种基于条件边际经验似然比对协变量进行排序的条件筛选程序。Liu和Wang(2017)提出了一种基于条件距离相关的筛选方法。Hong等人(2018)针对比例风险模型下的删失数据,提出了一种条件筛选方法。Liu和Chen(2018)考虑了超高维异质数据的条件分位数独立性筛选方法。Lu和Lin(2020)提出了一种基于条件距离相关的无模型条件筛选方法。大量仿真研究表明,这些条件筛选方法结合了活动变量的重要先验信息,可以为超高维数据中隐藏的活动变量的识别提供强有力的手段。

对于超高维SRS数据,边缘和条件筛选方法的研究已经取得了丰硕的成果,但据我们所知,条件筛选方法还没有针对病例组数据进行研究,现有的条件筛选方法由于其特殊的数据结构而不能直接应用于病例组数据。为了填补这一空白,我们在Cox比例风险模型框架下提出了一种超高维病例组数据的条件筛选方法。通过包含已知的重要协变量,我们为每个协变量构建了边际风险回归模型。由于一些协变量没有完全观测到,我们建立了加权估计方程来获得参数的估计量。然后,我们提出基于参数估计的边际效用来衡量每个协变量的贡献,并保留贡献排名靠前的协变量。我们称之为条件加权筛选法,简称C-WSIS程序。正如所指出的Barut等人(2016),协变量之间的相关性可以在条件作用下减弱,因此隐藏的活性协变量有更高的保留机会。因此,该方法能够在病例组设计下检测超高维生存数据的隐藏活性协变量。在一些合理的条件下,它具有一定的筛选性和排序一致性。我们的研究是第一个关注超高维病例组数据条件筛选的研究,它可以被视为Hong等人(2018)从SRS数据到病例组数据。请注意,尽管想法相似,但由于案例组数据的结构要复杂得多,因此泛化非常具有挑战性,实现和理论都会有很大不同。

文章的其余部分组织如下。第2节,我们介绍了CWSIS程序的模型、数据和详细信息。第3节,我们建立了所提出的CWSIS方法的理论性质。第4节显示了模拟研究的结果。乳腺癌研究的真实数据集在第5节.第6节提供了一些评论和讨论。正则性条件和技术证明在附录.

2病例组数据的条件筛选

假设有n个队列研究中的独立受试者。T型C类表示对象的故障时间和审查时间,我们只观察X(X)=最小值(T型,C类)和Δ=(T型C类)由于右偏。让Z轴= (Z轴1,…,Z轴知识产权)T型表示第页-维度协变量,在病例组设计下,Z轴仅适用于案例(Δ=1)和亚组(整个队列的随机子集)。ξ是子组成员的指示器,即。,ξ=1和0表示全部队列中的第个受试者被选入亚组。对于子群的选择,我们考虑了具有选择概率的独立贝努利抽样π=公共关系(ξ= 1) ∈ (0, 1). 因此主题是{X(X),Δ,Z轴,ξ}何时ξ=1或Δ=1,和{X(X),Δ,ξ}何时ξ=0和Δ= 0.

假设故障时间遵循比例风险模型(考克斯,1972年),其中条件危险函数T型鉴于Z轴有表单

λ(t吨Ş=====================================================================================================Z轴)=λ0(t吨)经验(αT型Z轴),
(1)

其中λ0(t吨)是未指定的基线危险函数α= (α1,…,α第页)T型为未知回归参数。假设故障时间T型和审查时间C类是独立给定的Z轴在超高维环境中,维度第页大大超过了样本量n个并且可以以指数速度增加n个根据稀疏性原则,只有少数协变量对响应变量有很大影响,即‖α‖远小于第页,其中‖α‖表示非零元素的数量α假设我们有先验信息,即一组协变量与生存时间有关T型索引集表示为C类,q个=|C类|表示中协变量的数量C类.写入Z轴,C类=(Z轴,j个,j个C类),Z轴,C类=(Z轴,j个,j个C类),αC类=(αj个,j个C类)αC类=(αj个,j个C类).给,C类已知,αC类αC类未知。中的真正危险函数(1)等于

λ(t吨Ş=====================================================================================================Z轴)=λ0(t吨)经验(αC类T型Z轴,C类+αC类T型Z轴,C类).
(2)

A类C类={j个C类:αj个0}=|A类C类|=j个C类(αj个0)是非零系数及其基数的真实集合。我们的目标是扳回一盘A类C类尽可能准确地基于案例研究的数据。换句话说,我们想要找到协变量的子集A类^C类这满足了A类C类A类^C类.

为了执行初始筛选程序,我们为每个协变量单独构建边际Cox回归模型,这里我们还将已知的协变量添加到C类每个边际模型。具体来说,对于j个C类危险函数T型给定(Z轴,C类,Z轴i、 j)有表单

λ(t吨Ş=====================================================================================================Z轴,C类,Z轴,j个)=λj个,0(t吨)经验(βC类,j个T型Z轴,C类+βj个Z轴,j个),
(3)

其中λj个,0(t吨)是未指定的基线危险函数,以及βC类,j个βj个未知回归参数对应于协变量吗Z轴C类Z轴j个分别在边际考克斯模型中。由于协变量只能在选定的子组和案例组数据中观察到,因此我们考虑以下加权估计方程

U型j个(βC类,j个,βj个)=[U型j个,k个(βC类,j个,βj个),k个C类{j个}]T型=0q个+1,
(4)

具有

U型j个,k个(βC类,j个,βj个)==1n个0τ{Z轴k个S公司˜j个,k个(1)(βC类,j个,βj个,t吨)S公司˜j个,k个(0)(βC类,j个,βj个,t吨)}d日N个(t吨)=0,

哪里S公司˜j个,k个()(βC类,j个,βj个,t吨)=n个1=1n个Z轴,k个w个(t吨)Y(Y)(t吨)经验(βC类,j个T型Z轴,C类+βj个Z轴,j个)对于k个C类{j个}= 0, 1, 2. 这里,我们选择时变权重函数w个(t吨)=Δ+(1Δ)ξ/π^(t吨),其中π^(t吨)==1n个(1Δ)ξY(Y)(t吨)/=1n个(1Δ)Y(Y)(t吨)是真实采样概率的一致估计值π。请注意w个(η) 权重受试者按选择的逆概率计算,在这种情况下,它等于1π^(t吨)1针对抽样审查的受试者。最大边际伪部分似然估计量(β^C类,j个,β^j个)定义为加权估计方程的解U型j个(βC类,j个,βj个)=0q个+1定义信息矩阵j个(βC类,j个,βj个)=(U型j个,k个(βC类,j个,βj个)/β)k个,C类{j个}哪个属于(q个+1) 尺寸。σ^j个2=[j个(β^C类,j个,β^j个)]q个+1,q个+11是的方差估计β^j个,即(第页+1)矩阵的第对角线元素j个(β^C类,j个,β^j个)。对于j个C类,我们定义

M(M)C类,j个=|β^j个|σ^j个,

作为建议的实用措施j个th协变量。我们对协变量进行排序Z轴j个(j个C类)按的价值M(M)C类,j个从最大到最小,并保留那些排名靠前的人。对于给定的阈值γ>0,除了集合之外的所选索引集合C类由提供

A类^C类={j个C类:M(M)C类,j个=|β^j个|σ^j个γ}.
(5)

在实际应用中,我们可以预先确定一个正整数d日0并将估计的活动集定义为

A类^C类={j个:M(M)C类,j个是第一批d日0最大的M(M)C类,j个(j个C类)}.

类似范和吕(2008)以及其他与专题筛选相关的文献,我们可以选择d日0= ⌈n个复写的副本/日志n个复写的副本⌉,其中n个复写的副本表示病例组样本量。

类似于Barut等人(2016)Hong等人(2018),所提出的CWSIS程序的突出优点是能够检测超高维病例组数据中隐藏的活性协变量。为了证明这一优点,我们以类似的方式建立了一个示例Barut等人(2016)Hong等人(2018)特别是故障时间T型遵循Cox比例风险模型λ(t吨Ş=====================================================================================================Z轴)=λ0(t吨)经验(αT型Z轴),其中λ0(t吨) = 1,α=(14T型,2,0第页5T型)T型,Z轴~N个第页(0,Σ)带有Σ= (σij公司)第页×第页,σii(ii)=1用于= 1,…,第页,σij公司=0.5适用于j个.通过这种设计,Z轴5是一个隐藏的活性协变量。我们考虑四种不同的条件集,C类= {∅}, {1}, {1, 2}, {6, 7, 8}. 拟议筛选统计的密度M(M)C类,j个对于Z轴5(隐藏的活性协变量)和Z轴6, …,Z轴2000(非活性协变量)总结如下图1.何时C类=,CWSIS相当于边际筛选法M(M)C类,j个对于Z轴5远小于非活性协变量的对应值,且概率很高。当条件集包括一个真正有效的协变量时(C类={1}),曲线Z轴5在右边,这两条曲线之间有明显的分隔。当我们包含更多真正活跃的协变量时(C类={1,2}),这种分离变得更大。我们注意到一个非常有趣的现象,即当条件集由三个非活动协变量组成时(C类={6,7,8}),识别隐藏变量的机会Z轴5使用CWSIS仍高于边缘筛选法。这可能是由于它们与活动协变量之间的相关性,此类非活动变量可以有效地充当活动变量的替代变量,因此对它们进行调节可以帮助检测隐藏变量。Barut等人(2016)Hong等人(2018).

保存图片、插图等的外部文件。对象名为nihms-1745068-f0001.jpg

筛选统计的密度M(M)C类,j个对于隐藏的活性协变量Z轴5与非活性协变量密度的混合物进行比较Z轴6, …,Z轴2000使用不同的条件集:情况1:C类={∅},相当于边缘筛分;案例2:C类={1},一个真正活跃的协变量;案例3:C类={1,2},两个真正活跃的协变量;案例4:C类={6,7,8},三个非活性协变量。全队列样本量n个=500,协变量数量第页=2000,非案例比率为1:1,故障率为20%。

三。理论性质

在这一节中,我们展示了CWSIS程序具有确定筛选属性和排序一致性属性,这表明我们的CWSIS过程倾向于以高概率将活动协变量排在非活动协变量之上,而且,所有活动协变量在筛选后都存活下来,概率趋于1n个→ ∞. 这两个属性奠定了我们的CWSIS程序的理论基础。定义S公司k个()(t吨)=n个1=1n个Z轴k个Y(Y)(t吨)λ(t吨Ş=====================================================================================================Z轴),k个()(t吨)=E类{S公司k个()(t吨)},S公司j个,k个()(βC类,j个,βj个,t吨)=n个1=1n个Z轴,k个Y(Y)(t吨)经验(βC类,j个T型Z轴,C类+βj个Z轴,j个)j个,k个()(βC类,j个,βj个,t吨)=E类{S公司j个,k个()(βC类,j个,βj个,t吨)}对于k个C类{j个}= 0, 1, 2. (βC类,j个0,βj个0)T型是下列方程的解u个j个(βC类,j个,βj个)=[u个j个,k个(βC类,j个,βj个),k个C类{j个}]T型=0q个+1,使用

u个j个,k个(βC类,j个,βj个)=0τ{k个(1)(t吨)j个,k个(1)(βC类,j个,βj个,t吨)j个,k个(0)(βC类,j个,βj个,t吨)k个(0)(t吨)}d日t吨=0.

正则性条件如下所示附录A,在此基础上,我们建立了以下引理和定理。

引理1 条件C1-C8,βj个0=0 当且仅当αj个= 0为所有人 j个C类.

引理2 假设条件C1-C8成立,存在常数c2> 00 <κ<1/2这样的话

最小值j个A类C类|βj个0|c(c)2n个κ.

引理3 在条件C1-C8下,对于任何ϵ1> 0和ϵ2> 0,存在正常数c 和整数N,使得对于任何N>N和0 <κ< 1/2,

P(P)(最大值j个A类C类|β^j个βj个0|>c(c)2(n个κ+ϵ1)/2)2(q个+1)经验(c(c)n个12κ)+ϵ2,

其中a是的大小 A类C类,q是的大小 C类,c(c)2 是引理2中的相同值.

引理3表明,所提出的最大边际伪部分似然估计β^j个是对βj个0.通过引理1和3,我们确实可以区分Z轴j个(j个A类C类)Z轴j个(j个A类C类)通过提议的边际效用M(M)C类,j个定理1说明了CWSIS过程的确定的独立屏蔽特性。

定理1(确定屏蔽性) 在条件C1-C8下,对于任何0 <κ< 1/2和ϵ2> 0,存在正常数c 这样的话

P(P)(A类C类A类^C类)12(q个+1)经验(c(c)n个12κ)ϵ2,

其中a是的大小A类C类,q是的大小C类此外,我们还有

n个P(P)(A类C类A类^C类)=1.

从这个定理中,我们可以看到,所有活性协变量在筛选后都存活下来,概率趋于1。下一个定理建立了该方法的排序一致性。

定理2(排序一致性) 在条件C1-C8下,我们有

P(P)(最大值j个A类C类M(M)C类,j个<最小值j个A类C类M(M)C类,j个)1

当n时→ ∞.

这奠定了理论基础,即我们的程序确保以压倒性的概率将活性协变量排在非活性协变量之前。定理和这些引理的证明在附录B.

4模拟研究

我们检验了所提出的CWSIS程序的有限样本性能,并通过仿真研究与一些现有方法进行了比较。为了简单起见,我们参考了生存期特征畸变筛查程序Gorst-Rasmussen和Scheike(2013)作为FAST-SIS赵和李(2012)作为P-SISSong等人(2014)此外,我们考虑了边际加权筛选程序(MWSIS),其中我们拟合了边际Cox回归λ(t吨Ş=====================================================================================================Z轴j个)=λ0j个(t吨)经验(βj个Z轴j个)对于每个Z轴ij公司并构造加权估计方程以获得估计β^j个,然后将活动索引集定义为A类^={1j个第页:|β^j个|j个(β^j个)1/2γ},j个(βj个)表示信息矩阵。由于PSIS、FAST和CRIS只能处理SRS数据,我们生成的SRS数据与PSIS、FAST和CRIS的病例队列数据具有相同的样本量。

我们考虑由Cox比例风险模型生成的生存数据,并使用独立的Bernoulli抽样来生成子组。我们考虑全队列样本量n个=500、1000和协变量的数量第页= 2000, 4000. 由于病例组研究的发生率通常很低或中等,我们认为以下情况的失败率为20%n个=500,5%和10%n个= 1000. 我们考虑非病例比为1:1,因此我们模拟研究中病例组数据的样本大小等于100200。对于每个配置,我们重复500次模拟并采用三个评估标准(Li等人,2012b). 第一个是包含所有活动预测因子的最小模型大小,表示为S公司我们给出了S公司在500个复制中。第二个是在给定模型大小的模型中选择每个重要变量的选择比例d日0,表示为P(P)e(电子)第三个是在给定模型规模的模型中选择所有重要变量的选择比例d日0,表示为P(P)。有效的筛选程序有望产生S公司接近真正的最小模型尺寸P(P)e(电子)P(P)接近一个。在这里,我们选择d日0= ⌈n个复写的副本/日志n个复写的副本⌉ (范和吕,2008),n个复写的副本是病例组样本量和⌈x个⌉表示的整数部分x个.

示例1。

T型由Cox比例风险模型生成

λ(t吨Ş=====================================================================================================Z轴)=λ0(t吨)经验(αT型Z轴),

哪里λ0(t吨)=1,α=(14T型,2,0第页5T型)T型,Z轴N个第页(0,Σ)具有Σ=(σj个)第页×第页,σ=1对于= 1,…p、 σij公司=0.5适用于j个.审查时间C类~统一(0,τ),常数τ表示研究的结束时间,用于控制失败率。

示例2。

我们考虑与示例1相同的模型α=(10,0第页2T型,1)T型,即仅Z轴1Z轴第页是活性协变量。第一个(第页−1)协变量(Z轴1,,Z轴(第页1))N个第页1(0,Σ)具有Σ=(σj个)(第页1)×(第页1),其中σii(ii)=1用于= 1, …, (第页− 1),σij公司=ρ对于j个。我们改变了ρ为0、0.3、0.7,取较大值ρ产生较高的共线性。最后一个协变Z轴第页~N个(0, 1).

我们计算生存时间之间的绝对相关性T型和每个协变量Z轴j个(j个= 1, …,第页)的第页=2000,通过逆概率加权方案,进一步总结三组的边际相关性:活性协变量(Z轴1, …,Z轴4例如1和Z轴1例如2),隐藏的活性协变量(Z轴5例如1和Z轴第页例如2),以及非活性协变量(Z轴6, …,Z轴第页例如1和Z轴2, …,Z轴(第页−1)例如2)。图2和3描述这三组绝对相关性的分布,从中我们可以看到隐藏的活动协变量的边际信号强度弱于非活动协变量。因此,边缘筛选方法MWSIS、PSIS、FAST和CRIS难以识别隐藏的活性协变量。提出的条件筛选方法CWSIS是一种理想的选择。在我们的模拟中,我们只需选择Z轴1作为条件协变量。实际上,如果我们没有关于活动协变量的有用先验信息,我们可以选择那些边缘信号强度较高的协变量作为条件集(Barut等人,2016年;卢和林,2020年). 为了进行公平的比较,我们将一个(示例中条件协变量的数量)添加到S公司用于拟议的条件筛选方法CWSIS。

保存图片、插图等的外部文件。对象名为nihms-1745068-f0002.jpg

生存时间和协变量的绝对相关性第页= 2000.

保存图片、插图等的外部文件。对象名为nihms-1745068-f0003.jpg

生存时间和协变量的绝对相关性第页= 4000.

的模拟结果S公司,P(P)e(电子)P(P)总结如下表1——2.通过观察P(P)e(电子)对于Z轴5例1和Z轴第页在示例2中,我们可以得出结论,所提出的CWSIS程序可以以较高的概率检测隐藏的活动协变量,而其他四种方法MWSIS、PSIS、FAST和CRIS无法选择它们。在示例2中,ρ等于0、0.3和0.7,且较大ρ从而产生更高的共线。所提出的方法CWSIS即使在高共线性下也表现良好,而其他四种方法即使在ρ=0,性能随着ρ如预期,CWSIS需要较小的模型尺寸,以便在所有设置中都具有可靠的筛选属性。更大的病例组样本量和更高的故障率与更好的性能相关。特别是,更大的队列样本量可以更好地处理罕见疾病情况。

表1

中位数和四分位范围(IQR)S公司、选择比例P(P)e(电子)P(P)在500个复制中,例如1

P(P)e(电子)
第页 n个 法国 n个c(c) 方法中值的IQR公司 X(X) 1 X(X) 2 X(X) X(X) 4 X(X) 5 P(P)
200010005%50PSIS(磅/平方英寸)18494690.1300.1060.0940.1020.0160
快速18434460.1160.1080.1060.1040.0160
CRIS公司13987640.2900.2700.2880.2500.2200.084
MWSIS公司200020.3540.3420.3520.34200
CWSIS公司447746——0.3180.3500.3300.4760.018
100010%100PSIS(磅/平方英寸)1998180.4880.4560.4360.46200
快速1998190.4740.4440.4220.45000
CRIS公司17213790.0500.0320.0200.0380.0040
MWSIS公司200000.7840.8040.7740.79400
CWSIS公司69172——0.7900.7680.8100.7600.356
50020%100PSIS(磅/平方英寸)200010.6860.7060.7060.6680.0020
快速200010.6540.6540.6940.6220.0020
CRIS公司17204050.0540.0540.0440.0540.0020
MWSIS公司200000.8120.8320.8400.79800
CWSIS公司47168——0.8280.8520.8060.7640.442
400010005%50PSIS(磅/平方英寸)37477160.3840.3640.3760.3800.0020
快速37487440.3680.3520.3780.3620.0020
CRIS公司313311000.0220.0180.0140.02200
脑脊髓炎40000.6700.7000.7100.70200
CWSIS公司9081477——0.7200.6800.7340.6880.252
100010%100PSIS(磅/平方英寸)3995460.3840.3640.3760.3800.0020
快速3995480.3680.3520.3780.3620.0020
CRIS公司33637950.0220.0180.0140.02200
MWSIS公司400000.6700.7000.7100.70200
CWSIS公司136389——0.7200.6800.7340.6880.252
50020%100PSIS(磅/平方英寸)400020.6000.6080.5780.63000
快速400020.5820.5920.5740.58200
CRIS公司34478710.0360.0500.0380.02400
MWSIS公司400000.7700.7320.7300.76600
CWSIS公司86277——0.7700.7840.8060.7460.350

n个全队列的样本量;第页协变量的数量;FR,故障率;n个c(c)平均病例数;CWSIS:建议的条件筛选方法;MWSIS:边际加权筛选程序;PSIS:筛查程序赵和李(2012); FAST:的筛选程序Gorst-Rasmussen和Scheike(2013); CRIS:筛查程序Song等人(2014).

表2

中位数和四分位范围(IQR)S公司、选择比例P(P)e(电子)P(P)在500个复制中,例如2

第页= 2000
第页= 4000
P(P)e(电子)
P(P)e(电子)
n个 法国 ρ n个c(c) 方法中值的IQR公司 X(X) 1 X(X)第页 P(P) 中值的IQR公司 X(X) 1 X(X)第页 P(P)
50020%0100PSIS(磅/平方英寸)57897910.0920.0921279208810.0660.066
快速59497510.0900.0901286205410.0680.068
CRIS公司841100510.0320.032168319200.9980.0140.014
MWSIS公司42495110.1040.104936181910.0880.088
CWSIS公司20——1120——11
0.3100PSIS(磅/平方英寸)19731311003958302100
快速19711381003958311100
CRIS公司127811920.9980.0220.022279522200.9980.0120.012
MWSIS公司19973310039936210.0020.002
CWSIS公司20——1120——11
0.7100PSIS(磅/平方英寸)200000.38000400000.27800
快速2000010040000100
CRIS公司19454600.9900.0080.00839238480.9780.0040.004
MWSIS公司200000.67600400000.55800
化学武器系统20——1120——11
100010%0100PSIS(磅/平方英寸)664103310.0640.0641385207210.0380.038
快速684102410.0640.0641376203110.0360.036
纵横交错9379820.9200.0140.008193821400.8160.0020
MWSIS公司31579510.1700.170599176610.1160.116
CWSIS公司20——0.9980.99820——0.9980.998
0.3100PSIS(磅/平方英寸)19283740.9640.0020.00238707100.94600
快速192638210.0020.0023863678100
CRIS公司123311190.8840.0340.030242723550.8100.0240.012
MWSIS公司199915100399863100
CWSIS公司20——1120——0.9980.998
0.7100PSIS(磅/平方英寸)200000.04200400000.01600
快速200000.99600400000.99400
CRIS公司17379300.7940.0280.024345119210.7100.0240.010
MWSIS公司200000.20800400000.15000
CWSIS公司20——1120——0.9980.998
10005%050PSIS(磅/平方英寸)10759840.2540.0060.002201022740.2660.0080.006
快速93110220.9900.0080.0081771213810.0020.002
CRIS公司133210020.56200236418260.43600
MWSIS公司52098310.0420.0421082202310.0300.030
CWSIS公司21——0.9360.93622——0.8820.882
0.350PSIS(磅/平方英寸)16786670.0800.0020345914760.0460.0040.002
快速15808250.9580.0020.002324916420.9760.0020.002
CRIS公司150110770.5680.0060.004259220360.4480.0040
MWSIS公司19811550.9840039712040.95600
CWSIS公司20——0.9460.94621——0.8900.890
0.750PSIS(磅/平方英寸)2000200040001000
快速200020.50200400010.53600
CRIS公司172110370.5900.0100.002309322470.4620.0080.002
MWSIS公司200000.02000400000.00600
CWSIS公司20——0.9420.94221——0.9000.900

n个全队列的样本量;第页协变量的数量;FR,故障率;n个c(c)平均病例数;ρ协变量的相关系数;CWSIS:建议的条件筛选方法;MWSIS:边际加权筛选程序;PSIS:筛查程序赵和李(2012); FAST:的筛选程序Gorst-Rasmussen和Scheike(2013); CRIS:筛查程序Song等人(2014).

为了评估所建议方法在与实际数据相似的设置中的性能,我们进一步考虑n个=300,故障率为25%,例如2,其余设置与以前相同。这里,我们还考虑了未加权条件筛选方法NCWSIS,该方法不采用权重函数,只将病例组数据作为SRS数据处理,而条件筛选方法C-SMPLE在Hong等人(2018).由于方法C-SMPLEHong等人(2018)是针对SRS数据提出的,它不能直接用于处理案例数据,我们为CSMPLE生成与案例数据具有相同样本大小的SRS数据。的模拟结果S公司,P(P)e(电子)P(P)总结如下表3从中我们可以看出,该方法能够以较高的概率检测出隐藏的活动协变量,并且对于所有考虑的设置都具有其独特的优势。通过比较NCWSIS、CSMPLE和CWSIS的结果,我们可以得出结论,条件筛选方法的性能通过包含案例短权重而得到了改进。此外,与基于与病例组样本大小相同的SRS的条件筛选相比,基于病例组设计的条件筛选程序在选择活性协变量方面更准确。例如,当第页=2000和ρ=0.7,值为P(P)CSMPLE的值仅为0.460,而所提方法CWSIS的相应值为1。

表3

中位数和四分位范围(IQR)S公司、选择比例P(P)e(电子)P(P)在500个复制中(例如2个)n个=300且FR=25%

第页= 2000
第页= 4000
P(P)e(电子)
P(P)e(电子)
ρ n个c(c) 方法中值的IQR公司 X(X) 1 X(X)第页 P(P) 中值的IQR公司 X(X) 1 X(X)第页 P(P)
075PSIS(磅/平方英寸)671104010.0620.0621226192010.0320.032
快速711103510.0680.0681221192710.0340.034
CRIS公司854106410.0260.026162620570.9980.0120.012
MWSIS公司599105710.0580.0581014190010.0400.040
NCWSIS公司553-0.7060.7068115-0.6480.648
CSMPLE公司768-0.6740.67412108-0.6080.608
CWSIS公司20-1120-0.9940.994
0.375PSIS(磅/平方英寸)19602361003917485100
快速19592361003915516100
CRIS公司133912160.9980.0140.014271824670.9940.0200.020
脑脊髓炎19871061003966225100
NCWSIS公司60-0.7120.712457-0.7040.704
CSMPLE公司1065-0.6480.64816223-0.5740.574
CWSIS公司20-1120-11
0.775PSIS(磅/平方英寸)200000.59600400000.57800
快速2000010040000100
纵横交错19483990.9900.0020.002392110350.9780.0060.006
MWSIS公司200000.61000400000.55600
NCWSIS公司240-0.7320.732238-0.7360.736
CSMPLE公司44204-0.4600.46074606-0.3880.388
CWSIS公司20-1120-11

n个全队列的样本量;第页协变量的数量;FR,故障率;n个c(c)平均病例数;ρ协变量的相关系数;PSIS:筛查程序赵和李(2012); FAST:筛选程序Gorst-Rasmussen和Scheike(2013); CRIS:筛查程序Song等人(2014); MWSIS:边际加权筛选程序;NCWSIS:未加权条件筛选法;CSMPLE:条件筛选方法Hong等人(2018); CWSIS:建议的条件筛选方法。

5乳腺癌数据的应用

作为一个例子,我们将提出的CWSIS方法应用于乳腺癌数据(van de Vijver等人,2002年)295名女性患者患有原发性浸润性乳腺癌。每个患者的24885个基因的表达在所有肿瘤的cDNA阵列上进行了分析。使用罗塞塔误差模型进行初步筛选后,选择了一组4919个候选基因(van t Veer等人,2002年). 通过排除缺失值的个体,我们有289名受试者,其中有4919个候选基因。中位观察时间为7.23年(从0.05年到18.34年不等)。随访期间,78例患者死于乳腺癌,211例患者仍存活,导致失败率为26.99%。在289个患者样本中,60个样本与来自van t Veer等人(2002),我们使用这60个样本作为测试集,使用案例组样本作为训练集。这两组的详细信息总结在表4这项研究的目的是确定对患者的总体生存率有很大影响的基因。

表4

乳腺癌数据汇总

数据集号码分钟马克斯中值的失败(%)
列车2890.05518.3417.22526.99
测试600.71215.3527.60638.33

培训,培训集;测试,测试集;Num,患者人数;Min,最小观察生存时间;Max,最大观察存活时间;中位数,观察生存时间的中位数;失败,失败率。

我们根据病例组样本的数据,通过识别对患者总体生存率有重大影响的基因来说明所提出的方法。具体地说,我们通过具有选择概率的独立伯努利抽样来选择子群π=0.37,导致病例数和非病例数大致相同。亚组有111名受试者,最终病例组样本有155名受试对象。基因AL080059号文献中已知可预测患者的生存时间(杨等人,2005年;van t Veer等人,2002年),我们将其用作建议过程中的条件变量。筛选方法通常被认为是降维的初始步骤,然后是一些基于模型的正则化方法。特别是,我们首先应用拟议的CWSIS程序,从第页=4919 to⌈155/log(155)⌉=31,然后利用不同的正则化方法LASSO、SCAD和MCP在Cox比例风险回归框架下选择这31个基因中的显著基因,通过10倍交叉验证选择调谐参数。我们总结了所选基因的名称和相应的系数估计值表5从中我们可以看到基因Contig58368.RC,NM.014889,NM.005689,NM.013290,AL080059号LASSO、SCAD和MCP方法均选择了NM.013332、Contig63649.RC和NM.002916,表明这8个基因可能与患者的生存率有关。此外,基因Contig58368.RC、NM.014889和NM.005689位于前三位,这意味着这三个基因可能对患者的生存率有很大影响。

表5

使用正则化方法为乳腺癌数据选择重要基因的结果

拉索
SCAD公司
MCP公司
姓名美国东部时间。姓名美国东部时间。姓名美国东部时间。
轮廓58368.RC0.392轮廓58368.RC0.516轮廓58368.RC0.515
014889挪威0.277014889挪威0.446014889挪威0.445
005689新元0.201005689新元0.329005689新元0.329
013332奈米0.199013290奈米0.326013290奈米0.325
轮廓63649.RC0.178AL080059号0.312AL080059号0.312
013290奈米0.172013332奈米0.256013332奈米0.256
AL080059号0.168轮廓63649.RC0.249轮廓63649.RC0.249
002916奈米0.140002916奈米0.204002916奈米0.206
2011年1月22日0.102
轮廓31288.RC0.083
轮廓38288.RC0.049
003376奈米0.017
0.001673新元0.014

名称:选定基因的名称;美国东部时间。:所选基因系数的相应估计值。

为了评估C-WSIS的预测准确性,我们进一步计算了C类-统计估计器(Uno等人,2011年). 为了进行比较,我们还应用MWSIS和NC-WSIS程序来分析这些数据。特别是,我们首先应用这三种筛选方法将维数降低到⌈155/log(155)⌉=31,然后执行LASSO惩罚以进一步删除一些不相关的协变量,调整参数由10倍交叉验证选择。我们通过使用LASSO选择的最终模型获得每个受试者的风险评分,并进一步计算相应的一致性统计(C类-统计)(Uno等人,2011年)在测试集中。标准偏差(SD)C类-通过扰动重采样1000次获得统计信息。的相应值C类-对于CWSIS、MWSIS和NCWSIS程序,统计值和SD(括号中的值)分别为0.862(0.059)、0.796(0.078)、0.802(0.053)。根据Uno等人(2011年),越大C类-统计表明,该方法具有更强的预测能力。我们可以得出结论,所提出的CWSIS方法在病例组设计下对超高维生存数据表现良好,并在预测方面提供了良好的性能。

我们还考虑d日n个=n个/2,n个/3,n个/4分析此数据并在补充材料从中可以看出,在不同切割下选择的基因高度一致。此外,我们计算了C类-这三种情况下CWSIS、MWSIS和NCWSIS程序的统计估计值。从中的结果补充材料我们可以得出类似的结论d日n个=n个/日志(n个).

6结论

对于病例组设计下的超高维生存数据,我们通过结合活性协变量的先验信息,提出了条件筛选程序CWSIS。该方法能够检测隐藏的活性协变量,与边缘筛选程序相比,这是一个显著的优势。此外,该方法不需要任何复杂的数值优化,计算效率高。从理论上讲,它在一定的正则性条件下具有一定的筛选性和排序一致性。在理论性质的发展中,我们采用了条件线性期望和条件线性协方差,它们是在Hong等人(2018)和用于指定正则性条件。

有一些问题值得进一步考虑。首先,该方法需要活性协变量的先验信息,有时可能很难获得此类有用信息。Hong等人(2016)提出了一种数据驱动的方法来获取广义线性模型的条件集。如何为病例组下的生存数据开发一种数据驱动的条件筛选方法是一个有趣的问题。此外,当我们有活性协变量的先验知识时,如何将其与从给定数据中提取的信息进行平衡值得进一步研究。其次,在我们的设计下,通过独立的伯努利抽样选择子群。当通过简单随机抽样选择子组而不进行替换时,我们的方法也有效,尽管需要更复杂的参数来发展理论性质。此外,当一些协变量可用于所有队列成员时,我们可以考虑基于这些协变量的分层病例队列设计。第三,我们可以考虑提出更有效的筛选方法,其中包含更复杂的先验知识,例如网络结构或协变量的空间信息。

补充材料

1745068_上部材料

单击此处查看。(35K,pdf格式)

致谢

本研究部分由美国国家卫生研究院资助(P01CA142538,P42ES031007,P30ES010126),中国国家自然科学基金资助(编号:11971362,11901581,11771366)。

附录A:规则性条件

S公司T型(t吨Ş=====================================================================================================Z轴)=经验{Λ0(t吨)经验(αT型Z轴)}S公司C类(t吨Ş=====================================================================================================Z轴)=P(P)(C类>t吨Ş=====================================================================================================Z轴)表示的生存函数T型C类,F类T型(t吨Ş=====================================================================================================Z轴)=1S公司T型(t吨Ş=====================================================================================================Z轴),Λ0(t吨)=0t吨λ0()d日表示累积基线危险函数。对于任何矢量ν=(ν1,,ν第页)R(右)第页,让νd日=j个=1第页|νj个|d日d日成为L(左)d日规范。对于任何随机变量ζ:ΩR(右)d日,ζ1:ΩR(右)d日1,ζ2:ΩR(右)d日2η:ΩR(右)第页,的条件线性期望ζ鉴于η定义为E类(ζŞ=====================================================================================================η)=E类(ζ)+B类T型{ηE类(η)},其中B类=argmin(最小值)D类R(右)d日×R(右)第页E类[{ζE类(ζ)D类T型(ηE类(η))}2Ş=====================================================================================================η].之间的条件线性协方差ζ1ζ2鉴于η定义为C类o个v(v)(ζ1,ζ2Ş=====================================================================================================η)=E类[{ζ1E类(ζ1Ş=====================================================================================================η)}{ζ2E类(ζ2Ş=====================================================================================================η)}Ş=====================================================================================================η]。的属性E类*(ζ|η)和Cov公司*(ζ1,ζ2|η)显示在中附录B下面列出的规则性条件是在我们的讨论过程中强加的。

C1.每个j个C类k个C类{j个},有一个街区B类j个属于(βC类,j个0,βj个0)T型这样的话

啜饮t吨[0,τ],(βC类,j个,βj个)T型B类j个S公司j个,k个()(βC类,j个,βj个,t吨)j个,k个()(βC类,j个,βj个,t吨)20

概率为n个(=0,1),j个,k个(0)(βC类,j个,βj个,t吨)从零开始有界B类j个×[0,τ],j个,k个()(βC类,j个,βj个,t吨)限定于B类j个× [0,τ].

C2.适用于所有人j个=1,,第页,0τλj个,0(t吨)日期<E类{Y(Y)(τ)}>0.

C3.协变量Z轴j个(j个= 1, …,第页)与时间无关且受常数限制L(左)0此外,E类(Z轴j个)全部=0j个∈ {1, …,第页}.

C4.所有Z轴j个,j个A类C类都是独立的Z轴j个,j个A类C类鉴于Z轴C类.

C5.存在一个常数L(左)1这样‖α1<L(左)1(βC类,j个,βj个)T型1<L(左)1.

C6.存在常量c(c)1>0和0<κ<1/2,因此最小值j个A类C类|E类[C类o个v(v)*(Z轴j个,P(P)(δ=1|Z轴)|Z轴C类)]|c(c)1n个κ.

C7.存在一个常数L(左)>0,这样n个1U型j个(β^C类,j个,β^j个)U型j个(βC类,j个0,βj个0)2L(左)(β^C类,j个,β^j个)T型(βC类,j个0,βj个0)T型2为所有人j个C类.

C8.让n个˜==1n个ξ表示子组的样本量,然后ñ/n收敛于常数π∈ (0, 1).

条件C1和C2是生存分析中的常见假设(安徒生和吉尔,1982年;弗莱明和哈林顿,1991年). 条件C3假设协变量有界,类似的条件也用于Hong等人(2018)条件C4类似于协变量的部分正交性假设。条件C5控制协变量的总效应大小,在稀疏性原则下是合理的。条件C6是特征筛选文献中广泛使用的一个典型假设,例如范和吕(2008),条件2英寸Li等人(2012年b),条件2英寸Song等人(2014),条件2和5英寸吴和尹(2015)条件C7是一个温和的假设,适用于许多情况。条件C8是病例组设计的常见假设。

附录B:引理和理论证明

βC类,0是方程的解u个C类(βC类)=[u个j个,k个(βC类,0),k个C类]T型=0q个.定义v(v)j个(βC类,j个,βj个)=u个j个,j个(βC类,j个,βj个)k个C类b条k个u个j个,k个(βC类,j个,βj个),其中向量b条C类=[b条k个,k个C类]T型这样的话E类[Z轴j个Ş=====================================================================================================Z轴C类]=k个C类b条k个Z轴k个.作为准备,我们首先引入一些引理。

引理4 ξ= (ξ1, …,ξn个)是一个随机向量,包含ñones和nñ0,每个排列的可能性都相同。让B(t吨) (=1…,n个)是[0,τ]带有E类{B类(t吨)} =μB类(t吨),无功功率,无功功率(B类(τ)) < ∞.让B(t吨)=============================================================={B类1(t吨), …,B类n个(t吨)}独立于ξ.假设B的几乎所有路径(t吨)有有限的变化。然后,n个1/2=1n个ξ{B类(t吨)μB类(t吨)} 在l中弱收敛[0,τ]零米高斯过程,因此 n个1/2=1n个ξ{B类(t吨)μB类(t吨)} 在t中一致收敛于零的概率.

这个引理与的引理A1相同Kang和Cai(2009).

引理5 假设ξ与Δ和Y无关(t吨),n个1/2{π^1(t吨)π1} 弱收敛到零米高斯过程.

这个引理是从的引理A3中提取的Ni等人(2016).

引理6 对于独立随机变量Y1, …,Y(Y)n个有界范围[−M、 M(M)]和零均值,

P(P)(|Y(Y)1++Y(Y)n个|>)2经验(122V(V)+M(M)/)

对于V变量(Y(Y)1+ … +Y(Y)n个).

这个引理是从的引理2.2.9中提取的范德法特和韦纳(1996).

引理7 让ζ,ζ1,ζ2 η是概率空间中的任意四个随机变量(Ω,F类,P(P)),以下属性适用于条件线性期望E类*(⋅|η)给定η:

  1. E类(ζŞ=====================================================================================================η)=E类(ζ)+C类o个v(v)(ζ,η)V(V)第页(η)1{ηE类(η)};
  2. E类(ηŞ=====================================================================================================η)=η;
  3. 对于任何矩阵A1 和A2,E类(A类1ζ1+A类2ζ2Ş=====================================================================================================η)=A类1E类(ζ1Ş=====================================================================================================η)+A类2E类(ζ2Ş=====================================================================================================η);
  4. E类[E类(ζŞ=====================================================================================================η)]=E类[E类(ζŞ=====================================================================================================η)]=E类[ζ].

这个引理是从Hong等人(2018).

引理8 条件线性协方差具有以下特性:

  1. C类o个v(v)(ζ1,ζ2Ş=====================================================================================================η)=0E类(ζ1ζ2Ş=====================================================================================================η)=E类(ζ1Ş=====================================================================================================η)E类(ζ2Ş=====================================================================================================η);
  2. E类[C类o个v(v)(ζ1,ζ2Ş=====================================================================================================η)]=C类o个v(v)(ζ1,ζ2)C类o个v(v)(ζ1,η)V(V)第页(η)1C类o个v(v)(η,ζ2);
  3. 对于任何递增函数h(·) :R(右)R和随机变量ξ:ΩR、 我们有 C类o个v(v)(小时(ξ),ξŞ=====================================================================================================η)0.

这个引理是从Hong等人(2018).

引理1的证明

证明我们首先联系βj个0E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}]然后根据条件C6,我们将其与αj个。对于任何j个C类k个C类,直接计算得出k个(t吨)=E类{Z轴k个λ0(t吨)经验(αT型Z轴)S公司T型S公司C类}j个,k个()(βC类,j个,βj个,t吨)=E类{Z轴k个经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类}(=0,1,2),然后

u个j个,k个(βC类,j个,βj个)=0τE类{[Z轴k个E类{Z轴k个经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类}E类{经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类}]λ0(t吨)经验(αT型Z轴)S公司T型S公司C类}d日t吨.

根据定义,我们有

v(v)j个(βC类,j个,βj个)=u个j个,j个(βC类,j个,βj个)k个C类b条k个u个j个,k个(βC类,j个,βj个)F类1j个(βC类,j个,βj个)F类2j个(βC类,j个,βj个),

哪里

F类1j个(βC类,j个,βj个)=0τE类{(Z轴j个k个C类b条k个Z轴k个)λ0(t吨)经验(αT型Z轴)S公司T型S公司C类}d日t吨=0τE类[{Z轴j个E类(Z轴j个Ş=====================================================================================================Z轴C类)}λ0(t吨)经验(αT型Z轴)S公司T型S公司C类]d日t吨=E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}],

F类2j个(βC类,j个,βj个)=0τ[E类{Z轴j个经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类}E类{经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类}k个C类b条k个E类{Z轴k个经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类}E类{经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类}]×E类{λ0(t吨)经验(αT型Z轴)S公司T型S公司C类}d日t吨=0τE类[{Z轴j个E类(Z轴j个Ş=====================================================================================================Z轴C类)}经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类]E类{经验(Z轴C类T型βC类,j个+Z轴j个βj个)S公司T型S公司C类}×E类{λ0(t吨)经验(αT型Z轴)S公司T型S公司C类}d日t吨.

根据的定义(βC类,j个0,βj个0),我们有u个j个(βC类,j个0,βj个0)=0q个+1,然后u个j个,k个(βC类,j个0,βj个0)=0对于任何k个C类{j个},v(v)j个(βC类,j个0,βj个0)=u个j个,j个(βC类,j个0,βj个0)k个C类b条k个u个j个,k个(βC类,j个0,βj个0)=0,F类2j个(βC类,j个0,βj个0)=F类1j个(βC类,j个0,βj个0)=E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}].何时αj个=0,E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}]=0,因此F类2j个(βC类,j个0,βj个0)=0.因为F类2j个(βC类,0,0)=0,v(v)j个(βC类,0,0)=E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}]F类2j个(βC类,0,0)=0q个+1.通过解的唯一性v(v)j个(βC类,β),我们有βj个0=0.

什么时候?αj个≠0,根据条件C6,我们有F类2j个(βC类,j个0,βj个0)=E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}]c(c)1n个κ。这意味着F类2j个(βC类,j个0,βj个0)E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}]都是非零的,因为它们相等,所以符号相同。明确地,P(P)(δ= 1|Z轴)是事件发生的概率S公司T型S公司C类=P(P)(X(X)>t吨|Z轴)表示时间t的风险概率。对于任意t,我们有

P(P)(δ=1Ş=====================================================================================================Z轴)Z轴j个×P(P)(X(X)>t吨Ş=====================================================================================================Z轴)Z轴j个0.

通过引理8,Cov公司* {Z轴j个,P(P)(δ= 1|Z轴)|Z轴C类}和Cov公司*(Z轴j个,S公司T型S公司C类|Z轴C类)除非符号为零,否则符号相反。这进一步意味着

F类2j个(βC类,0,0)=0τE类{经验(Z轴C类T型βC类,0)C类o个v(v)(Z轴j个,S公司T型S公司C类Ş=====================================================================================================Z轴C类)}E类{经验(Z轴C类T型βC类,0)S公司T型S公司C类}×E类{λ0(t吨)经验(αT型Z轴)S公司T型S公司C类}d日t吨,

E类[Cov公司*{Z轴j个,P(P)(δ= 1|Z轴)|Z轴C类}]除非符号等于零,否则符号相反。所以F类2j个(βC类,0,0)F类2j个(βC类,j个0,βj个0)因此,βj个00.

引理2的证明

证明通过引理1,对于任意j个A类C类,我们有βj个00根据泰勒展开,存在β˜j个(0,βj个0)这样的话

|v(v)j个(βC类,j个0,0)|=|v(v)j个(βC类,j个0,βj个0)v(v)j个(βC类,j个0,0)|=|v(v)j个βj个(βC类,j个0,β˜j个)||βj个0|.

通过引理1的证明,v(v)j个(βC类,j个0,βj个0)=E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}]F类2j个(βC类,j个0,βj个0).给定βC类,j个0,考虑F类2j个(βC类,j个0,βj个)作为的函数βj个,然后

F类2j个(βC类,j个0,βj个)βj个=0τH(H)j个(βC类,j个0,βj个,t吨)E类{λ0(t吨)经验(αT型Z轴)S公司T型S公司C类}d日t吨=E类{0τH(H)j个(βC类,j个0,βj个,t吨)S公司C类d日F类T型(t吨Ş=====================================================================================================Z轴)},

哪里

H(H)j个(βC类,j个0,βj个,t吨)=E类[Z轴j个{Z轴j个E类(Z轴j个Ş=====================================================================================================Z轴C类)}经验(Z轴C类T型βC类,j个0+Z轴j个βj个)S公司T型S公司C类]E类{经验(Z轴C类T型βC类,j个0+Z轴j个βj个)S公司T型S公司C类}E类[{Z轴j个E类(Z轴j个Ş=====================================================================================================Z轴C类)}经验(Z轴C类T型βC类,j个0+Z轴j个βj个)S公司T型S公司C类]E类{Z轴j个经验(Z轴C类T型βC类,j个0+Z轴j个βj个)S公司T型S公司C类}[E类{经验(Z轴C类T型βC类,j个0+Z轴j个βj个)S公司T型S公司C类}]2

根据条件C3|Z轴j个| ≤L(左)0,然后啜饮βj个|H(H)j个(βC类,j个0,βj个,t吨)|2L(左)02.所以

|v(v)j个βj个(βC类,j个0,β˜j个)|啜饮βj个|F类2j个(βC类,j个0,βj个)βj个|2L(左)02|E类[E类{S公司C类(T型)Ş=====================================================================================================Z轴}]|2L(左)02.

根据引理1中的证明,F类2j个(βC类,j个0,0)E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}]具有相反的符号,将其与条件C6相结合,

|v(v)j个(βC类,j个0,0)|=|E类[C类o个v(v){Z轴j个,P(P)(δ=1Ş=====================================================================================================Z轴)Ş=====================================================================================================Z轴C类}]|+|F类2j个(βC类,j个0,0)|c(c)1n个κ.

所以

|βj个0|=|v(v)j个βj个(βC类,j个0,β˜j个)|1|v(v)j个(βC类,j个0,0)|(2L(左)02)1c(c)1n个κ.

c(c)2=0.5L(左)02c(c)1,我们有

最小值j个A类C类|βj个0|c(c)2n个κ,

这就完成了证明。

引理3的证明

证明表示U型¯j个(βC类,j个,βj个)=n个1U型j个(βC类,j个,βj个)根据的定义(β^C类,j个,β^j个)T型,我们有

U型¯j个(β^C类,j个,β^j个)U型¯j个(βC类,j个0,βj个0)=U型¯j个(βC类,j个0,βj个0).

对于任何j个C类k个C类{j个},使用类似的方法林伟(1989),通过引理4和5,我们可以得到

U型¯j个(βC类,j个0,βj个0)=n个1=1n个W公司,j个(βC类,j个0,βj个0)+o个第页(1),

哪里W公司,j个(βC类,j个0,βj个0)(=1,,n个)是独立的,E类{W公司,j个(βC类,j个0,βj个0)}=0W公司,j个(βC类,j个0,βj个0)=[W公司,j个,k个(βC类,j个0,βj个0)、和W公司,j个(βC类,j个0,βj个0)=[W公司,j个,k个(βC类,j个0,βj个0),k个C类{j个}]T型具有

W公司,j个,k个(βC类,j个0,βj个0)=0τ[Z轴k个E类{Z轴k个经验(βC类,j个0Z轴,C类+βj个0Z轴j个)S公司T型S公司C类}E类{经验(βC类,j个0Z轴,C类+βj个0Z轴j个)S公司T型S公司C类}]d日N个(t吨)0τY(Y)(t吨)经验(βC类,j个0Z轴,C类+βj个0Z轴j个)E类{经验(βC类,j个0Z轴,C类+βj个0Z轴j个)S公司T型S公司C类}[Z轴k个E类{Z轴k个经验(βC类,j个0Z轴,C类+βj个0Z轴j个)S公司T型S公司C类}E类{经验(βC类,j个0Z轴,C类+βj个0Z轴j个)S公司T型S公司C类}]E类{d日N个(t吨)}.

E类n个表示经验度量,我们可以写

U型¯j个(βC类,j个0,βj个0)=E类n个[W公司,j个(βC类,j个0,βj个0)]+o个第页(1).

对于任何给定的i、 j、k、,根据条件C1、C3、C5,存在一个常数L(左)2这样的话|W公司,j个,k个(βC类,j个0,βj个0)|L(左)2事实上E类[W公司,j个,k个(βC类,j个0,βj个0)]=0,我们有V(V)第页[W公司,j个,k个(βC类,j个0,βj个0)]=E类[|W公司,j个,k个(βC类,j个0,βj个0)|2]L(左)22.对于任何情况,通过引理6t吨> 0,j个C类k个C类{j个},我们有

P(P)(|E类n个(W公司,j个,k个(βC类,j个0,βj个0))|>t吨n个)2经验(12t吨2n个L(左)22+L(左)2t吨/).

根据Bonferroni不等式

P(P)(E类n个(W公司,j个(βC类,j个0,βj个0))2>t吨(q个+1)n个)2(q个+1)经验(12t吨2n个L(左)22+L(左)2t吨/).

作为U型¯j个(βC类,j个0,βj个0)E类n个[W公司,j个(βC类,j个0,βj个0)]2=o个第页(1),,对于任何ϵ1>0和ϵ2>0,存在N个1这样,对于

P(P)(U型¯j个(βC类,j个0,βj个0)E类n个[W公司,j个(βC类,j个0,βj个0)]2>L(左)c(c)2ϵ1/2)<ϵ2.

t吨=c(c)2L(左)n个1κ2(q个+1)>0,然后t吨(q个+1)n个=c(c)2L(左)n个κ2通过三角不等式和Bonferroni不等式,我们得到

P(P)(U型¯j个(βC类,j个0,βj个0)2>L(左)c(c)2(n个κ+ϵ1)/2)P(P)(E类n个{W公司,j个(βC类,j个0,βj个0)}2>L(左)c(c)2n个κ/2)+P(P)(U型¯j个(βC类,j个0,βj个0)E类n个{W公司,j个(βC类,j个0,βj个0)}2>L(左)c(c)2ϵ1/2)2(q个+1)经验(12c(c)22L(左)2n个22κ/4(q个+1)2n个L(左)22+L(左)2c(c)2L(左)n个1κ/6(q个+1))+ϵ2.

N个=最大值{(L(左)2/3)1/κ,N个1},那么对于任何n个>N个,n个−κ< 3/L(左)2,所以我们有

P(P)(U型¯j个(βC类,j个0,βj个0)2>L(左)c(c)2(n个κ+ϵ1)/2)2(q个+1)经验(c(c)n个12κ)+ϵ2,

哪里c(c)=c(c)22L(左)28L(左)22(q个+1)2+4c(c)2L(左)(q个+1).根据条件C7,我们有

P(P)(|β^j个βj个0|>c(c)2(n个κ+ϵ1)/2)P(P)((β^C类,j个,β^j个)T型(βC类,j个0,βj个0)T型2>c(c)2(n个κ+ϵ1)/2)P(P)(U型¯j个(β^C类,j个,β^j个)T型U型¯j个(βC类,j个0,βj个0)2>L(左)c(c)2(n个κ+ϵ1)/2)=P(P)(U型¯j个(βC类,j个0,βj个0)2>L(左)c(c)2(n个κ+ϵ1)/2)2(q个+1)经验(c(c)n个12κ)+ϵ2.

那么我们有

P(P)(最大值j个A类C类|β^j个βj个0|>c(c)2(n个κ+ϵ1)/2)2(q个+1)经验(c(c)n个12κ)+ϵ2,

哪里=|A类C类|=j个C类(αj个0)是的大小|A类C类|.

定理1的证明

证明根据的定义A类C类条件C7,存在一个正常数c(c)4这样的话

P(P)(A类C类A类^C类)=P(P)(最小值j个A类C类|β^j个|/σ^j个γ)1P(P)(最小值j个A类C类|β^j个|<n个1/2c(c)4γ).

在引理2之后,对于任意j个A类C类,我们有|βj个0β^j个||βj个0||β^j个|c(c)2n个κ|β^j个|.假设最小值j个A类C类|β^j个|<n个−1/2c(c)4γ,然后最大值j个A类C类|βj个0β^j个|c(c)2n个κn个1/2c(c)4γ.如果我们有γ<c(c)2(n个κϵ1)n个1/2/(2c(c)4),我们可以获得

P(P)(最小值j个A类C类|β^j个|<n个1/2c(c)4γ)<P(P)(最大值j个A类C类|βj个0β^j个|c(c)2(n个κ+ϵ1)/2).

然后P(P)(A类C类A类^C类)12(q个+1)经验(c(c)n个12κ)ϵ2.让n个→ ∞, 对于任何ϵ2>0,我们有n个P(P)(A类C类A类^C类)1ϵ2,上述等式的右侧不取决于n个再。ϵ20,我们有n个P(P)(A类C类A类^C类)=1.

定理2的证明

证明对于任何j个A类C类,我们有αj个≠ 0. 从引理1我们知道|βj个0|>0相似之处,我们有|βj个0|>0同样,我们有|βj个0|=0如果j个A类C类.作为β^j个是的一致估计量βj个0M(M)C类,j个=|β^j个|/σ^j个,我们可以很容易地得出结论P(P)(最大值j个A类C类M(M)C类,j个<最小值j个A类C类M(M)C类,j个)1什么时候n个→ ∞, 这就完成了定理2的证明。

脚注

出版商免责声明:本AM是同行评审后接受出版的手稿的PDF文件,但不反映验收后的改进或任何更正。使用本AM需遵守出版商的禁运期和AM使用条款。

补充资料

这个补充材料为实际数据分析提供了一些附加结果。

利益冲突

作者声明,我们没有利益冲突。

工具书类

  • 安徒生PK,吉尔RD(1982)计数过程的考克斯回归模型:一项大样本研究.安统计师 10:1100–1120[谷歌学者]
  • 巴洛WE(1994)病例组设计的稳健方差估计.生物识别 50: 1064–1072 [公共医学][谷歌学者]
  • Barut E、Fan J、Verhasselt A(2016)有条件的确定独立性筛选.J Am统计协会 111: 1266–1277[PMC免费文章][公共医学][谷歌学者]
  • Borgan O、Langholz B、Samuelsen SO、Goldstein L、Pogoda J(2000)暴露分层病例组设计.终身数据分析 6: 39–58 [公共医学][谷歌学者]
  • Bresolw NE,Wellner JA(2007年)半参数模型和两阶段分层样本的加权似然及其在cox回归中的应用.扫描J统计 34: 86–102[PMC免费文章][公共医学][谷歌学者]
  • Candes E、Tao T(2007)Dantzig选择器:当第页远大于n个.安统计师 35: 2313–2351[谷歌学者]
  • Chang J、Tang CY、Wu Y(2013)边际经验似然和确定独立性特征筛选.安统计师 41: 2123–2148[PMC免费文章][公共医学][谷歌学者]
  • 陈凯(2001)广义病例组抽样.J R统计师B 63:791–809[谷歌学者]
  • 陈凯、罗世华(1999)基于Cox模型的病例对照分析.生物特征 86: 755–764[谷歌学者]
  • 考克斯DR(1972)回归模型和生命表.J R统计师B 34:187–220。[谷歌学者]
  • 崔浩、李锐、钟伟(2015)超高维判别分析的无模型特征筛选.J Am统计协会 110: 630–641[PMC免费文章][公共医学][谷歌学者]
  • 范杰、冯毅、宋锐(2011)稀疏超高维加性模型中的非参数独立性筛选.J Am统计协会 106: 544–557[PMC免费文章][公共医学][谷歌学者]
  • Fan J,Feng Y,Wu Y(2010)Cox比例风险模型的高维变量选择。借力:理论驱动应用——劳伦斯·D·布朗(Lawrence D.Brown)的一场盛宴数理统计研究所;6: 70–86[谷歌学者]
  • 范杰、李锐(2001)基于非冲突惩罚似然的变量选择及其oracle性质.J Am统计协会 96: 1348–1360[谷歌学者]
  • 范J、吕J(2008)超高维特征空间的确定独立筛选.J R统计师B 70: 849–911[PMC免费文章][公共医学][谷歌学者]
  • 范杰、马云、戴伟(2014)稀疏超高维变系数模型中的非参数独立筛选.J Am统计协会 109: 1270–1284[PMC免费文章][公共医学][谷歌学者]
  • Fan J、Samworth R、Wu Y(2009)超高维特征选择:超越线性模型.J Mach学习研究 10: 2013–2038[PMC免费文章][公共医学][谷歌学者]
  • 樊杰、宋瑞(2010)NP维广义线性模型中的确定独立筛选.安统计师 38: 3567–3604[谷歌学者]
  • Fleming TR,Harrington DP(1991年)计数过程和生存分析纽约威利。[谷歌学者]
  • Gorst-Rasmussen A,Scheike T(2013)具有超高维特征的单指标风险率模型的独立筛选.J R统计师B 75:217–245[谷歌学者]
  • 何X、王磊、洪洪辉(2013)高维异质数据的分位数自适应无模型变量筛选.安统计师 41: 342–369[谷歌学者]
  • Hong HG、Kang J、Li Y(2018)。具有生存结果的超高维协变量的条件筛选.终身数据分析 24: 45–71[PMC免费文章][公共医学][谷歌学者]
  • 洪洪辉、王磊、何X(2016)高维变量条件筛选的数据驱动方法.统计 5: 200–212[谷歌学者]
  • 胡强、林磊(2017)基于条件边际经验似然的条件确定独立性筛选.Ann Inst统计数学,69: 63–96[谷歌学者]
  • Kalbfleisch JD,Lawless JF(1988)疾病发病率和死亡率多状态模型的可能性分析.统计医学 7: 149–160 [公共医学][谷歌学者]
  • Kang S、Cai J(2009)具有多种疾病结局的病例组研究的边际风险模型.生物特征 96: 887–901[PMC免费文章][公共医学][谷歌学者]
  • Keogh RH,White IR(2013年)通过多重插补在嵌套病例对照和病例组研究中使用全队列数据.统计医学 32: 4021–4043 [公共医学][谷歌学者]
  • Kim S,Ahn WK(2019年)具有群体变量的病例组研究的双水平变量选择.统计方法医学研究,28: 3404–3414[PMC免费文章][公共医学][谷歌学者]
  • Kim S、Cal J、Lu W(2013)病例组研究的更有效估计.生物特征 100: 695–708[PMC免费文章][公共医学][谷歌学者]
  • Kulich M,Lin D(2004)提高病例组研究中相对风险评估的效率.J Am统计协会 99:832–844[谷歌学者]
  • 李刚、彭浩、张杰、朱莉(2012a)基于稳健秩相关的筛选.安统计师 40: 1846–1877[谷歌学者]
  • Li R、Zhong W、Zhu L(2012b)基于距离相关学习的特征筛选.J Am统计协会 107: 1129–1139[PMC免费文章][公共医学][谷歌学者]
  • 林大勇、魏立杰(1989)Cox比例风险模型的稳健推断.美国统计协会 84: 1074–1078[谷歌学者]
  • Lin Y、Liu X、Hao M(2018)高维生存数据的无模型特征筛选.科学中国数学 61: 1617–1636[谷歌学者]
  • 刘杰、李锐、吴锐(2014)超高维协变量变系数模型的特征选择.J Am统计协会 109: 266–274[PMC免费文章][公共医学][谷歌学者]
  • 刘毅、王强(2018)基于某些变量的超高维数据无模型特征筛选.Ann Inst统计数学 70: 283–301[谷歌学者]
  • 刘毅、张杰、赵X(2018)超高维生存数据的一种新的非参数筛选方法.玉米统计数据分析 119: 74–85[谷歌学者]
  • 卢J、林L(2020)基于条件距离相关的无模型条件筛选.统计帕普 61: 225–244[谷歌学者]
  • Mai Q,Zou H(2015)融合Kolmogorov滤波器:一种非参数无模型筛选方法.安统计师 43: 1471–1497[谷歌学者]
  • Marti H,Chavance M(2011年)病例队列研究的多重插补分析.统计医学 30: 1595–1607 [公共医学][谷歌学者]
  • 倪A、卡尔J、曾D(2016)具有失效时间结果的病例组研究的变量选择.生物特征 103: 547–562[PMC免费文章][公共医学][谷歌学者]
  • Pan W,Wang X,Xiao W,Zhu H(2019年)一种通用的确定独立性筛选程序.J Am统计协会 114: 928–937[PMC免费文章][公共医学][谷歌学者]
  • Prentice RL(1986)流行病学队列研究和疾病预防试验的病例组设计.生物特征 73:1–11[谷歌学者]
  • Scheike TH、Martinussen T(2004)病例组抽样下Cox回归模型的最大似然估计.扫描J统计 31: 283–293[谷歌学者]
  • Self SG,Prentice R(1988)病例组研究的渐近分布理论和效率结果.安统计师 16: 64–81[谷歌学者]
  • Song R、Lu W、Ma S、Jeng XJ(2014)高维生存数据的删失秩独立筛选.生物特征 101: 799–814[PMC免费文章][公共医学][谷歌学者]
  • Tibshirani R(1996)通过套索回归收缩和选择.J R统计师B 58: 267–288[谷歌学者]
  • Tibshirani R(2009)高维数据Cox模型中的单变量收缩.统计应用基因分子 8: 1–18[PMC免费文章][公共医学][谷歌学者]
  • Uno H、Cal T、Pencina MJ、D'Agostino RB、Wei LJ(2011)用删失生存数据评估风险预测程序总体充分性的C统计量.统计医学 30: 1105–1117[PMC免费文章][公共医学][谷歌学者]
  • van de Vijver MJ、He YD、van t Veer LJ、Dai H、Hart AA、Voskuil DW、Schreiber GJ、Peterse JL、Roberts C、Marton MJ等(2002)基因表达特征作为乳腺癌生存预测因子.新英格兰医学杂志 347: 1999–2009 [公共医学][谷歌学者]
  • van der Vaart AW,Wellner JA(1996)。弱收敛与经验过程纽约州施普林格,[谷歌学者]
  • van t Veer LJ、Dai H、van De Vijver MJ、He YD、Hart AA、Mao M、Peterse HL、van der Kooy K、Marton MJ、Witteveen AT、Schreiber GJ、Kerkhoven RM、Roberts C、Linsley PS、Bernards R、Friend SH(2002)基因表达谱预测乳腺癌的临床预后.自然 415: 530–536 [公共医学][谷歌学者]
  • 吴Y,尹G(2015)超高维异质数据的条件分位数筛选.生物特征 102: 65–76[谷歌学者]
  • Yaung KY,Bumgarner RE,Raftery AE(2005)贝叶斯模型平均:改进的微阵列数据多类、基因选择和分类工具的开发.生物信息学 21: 2394–2402 [公共医学][谷歌学者]
  • 曾D,林迪(2014)两阶段队列研究中半参数转换模型的有效估计.J Am统计协会 109: 371–383[PMC免费文章][公共医学][谷歌学者]
  • 张驰(2010)极小极大凹惩罚下的几乎无偏变量选择.安统计师 38: 894–942[谷歌学者]
  • 张杰、殷庚、刘毅、吴毅(2018)超高维生存数据的删失累积残差独立筛查.终身数据分析 24: 273–292 [公共医学][谷歌学者]
  • 赵SD、李毅(2012)超高维协变量Cox模型的原则确定独立性筛选.J多分析 105: 397–411[PMC免费文章][公共医学][谷歌学者]
  • 周涛、朱莉(2017)超高维删失回归的无模型特征筛选.统计玉米 27: 947–961[谷歌学者]
  • Zhu LP、Li L、Li R、Zhu LX(2011)超高维数据的无模型特征筛选.J Am统计协会 106: 1464–1475[PMC免费文章][公共医学][谷歌学者]
  • 邹华(2006)自适应Lasso及其oracle属性.J Am统计协会 101: 1418–1429[谷歌学者]