Conditional screening for ultrahigh-dimensional survival data in case-cohort studies

Jing Zhang; Haibo Zhou; Yanyan Liu; Jianwen Cai

doi:10.1007/s10985-021-09531-7

寿命数据分析。作者手稿；PMC 2022 10月1日提供。

以最终编辑形式发布为：

寿命数据分析。2021年10月；27(4): 632–661.

2021年8月20日在线发布。数字对象标识：2007年10月10日/10985-021-09531-7

预防性维修识别码：PMC8561435号

美国国立卫生研究院：美国国家卫生研究院1745068

PMID：34417679

病例组研究中超高维生存数据的条件筛选

张静（音译）,¹ 周海波,² 刘燕燕（Yanyan Liu）,^三和蔡建文^2,^*

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1745068_上部材料。
NIHMS1745068-补充-1745068_上部材料.pdf（3.5万）
GUID:3E7C6BD9-9076-4048-87B9-4A2291C6005D

摘要

在大型队列研究中，病例组设计被广泛用于降低协变量测量的成本。在许多这样的研究中，协变量的数量非常大，研究的目的是确定对反应有很大影响的活性协变量。自引入确定性独立筛选（SIS）以来，筛选程序在有效降低维度和识别活性协变量方面取得了巨大成功。然而，常用的筛选方法是基于边际相关性或其变体的，它们可能无法识别共同重要但与响应弱相关的隐藏活动变量。此外，这些筛选方法主要针对简单随机抽样下的数据，不能直接应用于病例组数据。在本文中，我们考虑了病例组设计下的超高维生存数据，并通过结合一些重要的活动变量的先验已知信息，提出了一种条件筛选方法。该方法可以有效地检测隐藏的活动变量。此外，它在一些温和的正则性条件下具有一定的筛选性质，不需要任何复杂的数值优化。我们通过广泛的模拟研究评估了所提方法的有限样本性能，并通过乳腺癌患者的实际数据集进一步说明了新方法。

关键词：病例对照设计、条件筛查、确定筛查属性、生存数据、超高维数据、加权估计方程

1 介绍

在大型流行病学队列研究中，一些感兴趣的疾病（如癌症、心脏病、艾滋病毒感染）的发病率很低。此外，一些风险敞口的测量可能非常昂贵，而且由于资源限制，无法对所有队列成员进行测量。为了降低成本，同时尽可能保持效率，普伦蒂斯（1986）提出了病例组设计，其中昂贵的协变量仅针对全队列的随机样本（称为亚组）以及随访期间经历过相关事件的其他病例获得。当协变量维数第页小于样本大小n个，已经提出了各种方法来分析此设计下的数据，例如伪似然方法(普伦蒂斯，1986年;赛尔夫和普伦蒂斯，1988年;Kalbfleisch和Lawless，1988年)，估计方程法(Chen和Lo，1999年;陈，2001)多重插补法(Marti和Chavance，2011年;基奥和怀特，2013年)，最大似然估计(Scheike和Martinussen，2004年;曾和林，2014)，加权估计方程法(巴洛，1994年;Borgan等人，2000年;Kulich和Lin，2004年;Breslow和Wellner，2007年;Kang和Cai，2009年;Kim等人，2013年)等等。

随着生物医学技术的快速发展，大规模流行病学研究中经常收集高维数据。这种数据的特点是协变量维数第页比样本量大得多n个分析此类数据的一个重要目的是识别与感兴趣事件相关的协变量子集，并基于选定的协变量构建有效模型。对于以下情况第页增加了n个以多项式速率（例如。，第页=n个^α具有α>0），正则化方法已被证明是简单随机抽样（SRS）数据的有效降维方法（例如。，Tibshirani，1996年;范和李，2001;邹，2006;坎迪斯和陶，2007年;张，2010)最近在病例-队列设计下，已推广到高维数据。例如，Ni等人（2016）提出了一种基于平滑剪裁绝对偏差（SCAD）惩罚的变量选择方法(范和李，2001)对于以下情况第页增长速度慢于n个.金和安（2019）针对变量具有组结构的情况，提出了一种双层变量选择方法来选择非零组和组内变量。这些方法可以同时选择变量和估计参数，然而，正则化方法固有的计算特性使它们同时面临计算方便性、统计准确性和算法稳定性的挑战，当维数为第页是超高的第页=经验(n个^α)带有α> 0 (Fan等人，2009年).

对于SRS数据，特征筛选方法在应对超高维设置的挑战方面取得了巨大成功。在不同的设置下，提出了各种边缘筛选方法，例如线性模型(范和吕，2008)，广义线性模型(Fan和Song，2010年)，加法模型(Fan等人，2011年)变系数模型(Fan等人，2014年;刘等人，2014)和无模型场景（例如。，Zhu等人，2011年;Li等人，2012a;Li等人，2012年b;He等人，2013年;Chang等人，2013年;崔等，2015;Mai和Zou，2015年;吴和尹，2015). 对于截尾生存数据，几种基于模型的筛选方法（例如。，Tibshirani，2009年;赵、李，2012;Gorst-Rasmussen和Scheike，2013年)和无模型筛选方法（例如。，Song等人，2014年;吴和尹，2015; Zhang等人，2017年；周和朱，2017;Liu等人，2018;Zhang等人，2018年;Lin等人，2018年;Pan等人，2019年)通过定义不同的边际效用提出。尽管它们在降低维度方面很强大，但在某些情况下可能会面临一些挑战。例如，如中所述范和吕（2008）协变量之间的相关性严重影响边际效用。当协变量之间的相关性相对较高时，边际筛选方法可能无法保留对响应有较大影响但与响应相关性较弱的隐藏活动变量。尽管有一些迭代筛选方法（例如。，范和吕，2008;Zhu等人，2011年;Zhang等人，2018年,Pan等人，2019年)为了缓解这个问题，已经提出了前向筛选方法（例如，Wang，2009），计算速度相对较慢，统计特性难以捉摸。

在许多应用中，研究人员可以从以前的调查和经验中获得主动变量的一些先验信息。例如，在乳腺癌研究中(van de Vijver等人，2002年)，基因AL080059号文献中已知可预测患者的生存时间(杨等人，2005年;van t Veer等人，2002年).Barut等人（2016）指出通过引入这些先验知识可以提高变量筛选的准确性。有鉴于此，他们提出了广义线性模型的条件筛选方法，并表明条件作用有助于降低协变量之间的相关性，从而可以以更高的概率检测隐藏的活动变量。Hong等人（2016）进一步建议使用数据驱动方法整合先验信息。胡和林（2017）提出了一种基于条件边际经验似然比对协变量进行排序的条件筛选程序。Liu和Wang（2017）提出了一种基于条件距离相关的筛选方法。Hong等人（2018）针对比例风险模型下的删失数据，提出了一种条件筛选方法。Liu和Chen（2018）考虑了超高维异质数据的条件分位数独立性筛选方法。Lu和Lin（2020）提出了一种基于条件距离相关的无模型条件筛选方法。大量仿真研究表明，这些条件筛选方法结合了活动变量的重要先验信息，可以为超高维数据中隐藏的活动变量的识别提供强有力的手段。

对于超高维SRS数据，边缘和条件筛选方法的研究已经取得了丰硕的成果，但据我们所知，条件筛选方法还没有针对病例组数据进行研究，现有的条件筛选方法由于其特殊的数据结构而不能直接应用于病例组数据。为了填补这一空白，我们在Cox比例风险模型框架下提出了一种超高维病例组数据的条件筛选方法。通过包含已知的重要协变量，我们为每个协变量构建了边际风险回归模型。由于一些协变量没有完全观测到，我们建立了加权估计方程来获得参数的估计量。然后，我们提出基于参数估计的边际效用来衡量每个协变量的贡献，并保留贡献排名靠前的协变量。我们称之为条件加权筛选法，简称C-WSIS程序。正如所指出的Barut等人（2016），协变量之间的相关性可以在条件作用下减弱，因此隐藏的活性协变量有更高的保留机会。因此，该方法能够在病例组设计下检测超高维生存数据的隐藏活性协变量。在一些合理的条件下，它具有一定的筛选性和排序一致性。我们的研究是第一个关注超高维病例组数据条件筛选的研究，它可以被视为Hong等人（2018）从SRS数据到病例组数据。请注意，尽管想法相似，但由于案例组数据的结构要复杂得多，因此泛化非常具有挑战性，实现和理论都会有很大不同。

文章的其余部分组织如下。在第2节，我们介绍了CWSIS程序的模型、数据和详细信息。在第3节，我们建立了所提出的CWSIS方法的理论性质。第4节显示了模拟研究的结果。乳腺癌研究的真实数据集在第5节.第6节提供了一些评论和讨论。正则性条件和技术证明在附录.

2 病例组数据的条件筛选

假设有n个队列研究中的独立受试者。让T型_我和C类_我表示对象的故障时间和审查时间我，我们只观察X（X）_我=最小值(T型_我,C类_我)和Δ_我=我(T型_我≤C类_我)由于右偏。让Z轴_我= (Z轴_我1,…,Z轴_知识产权)^T型表示第页-维度协变量，在病例组设计下，Z轴_我仅适用于案例(Δ_我=1）和亚组（整个队列的随机子集）。让ξ_我是子组成员的指示器，即。，ξ_我=1和0表示我全部队列中的第个受试者被选入亚组。对于子群的选择，我们考虑了具有选择概率的独立贝努利抽样π=公共关系(ξ_我= 1) ∈ (0, 1). 因此我主题是{X（X）_我,Δ_我,Z轴_我,ξ_我}何时ξ_我=1或Δ_我=1，和{X（X）_我,Δ_我,ξ_我}何时ξ_我=0和Δ_我= 0.

假设故障时间遵循比例风险模型(考克斯，1972年)，其中条件危险函数T型_我鉴于Z轴_我有表单

λ (t吨 Ş===================================================================================================== {Z轴}_{我}) = λ_{0} (t吨) 经验 (α^{T型} {Z轴}_{我}),

(1)

其中λ₀(t吨)是未指定的基线危险函数α= (α₁,…,α_第页)^T型为未知回归参数。假设故障时间T型_我和审查时间C类_我是独立给定的Z轴_我在超高维环境中，维度第页大大超过了样本量n个并且可以以指数速度增加n个根据稀疏性原则，只有少数协变量对响应变量有很大影响，即‖α‖远小于第页，其中‖α‖表示非零元素的数量α假设我们有先验信息，即一组协变量与生存时间有关T型索引集表示为 $C类, q个 = | C类 |$ 表示中协变量的数量C类.写入 ${Z轴}_{我, C类} = ({Z轴}_{我, j个}, j个 \in C类), {Z轴}_{我, - C类} = ({Z轴}_{我, j个}, j个 \notin C类), α_{C类} = (α_{j个}, j个 \in C类)$ 和 $α_{- C类} = (α_{j个}, j个 \notin C类)$ .给， $C类$ 已知， $α_{C类}$ 和 $α_{- C类}$ 未知。中的真正危险函数(1)等于

λ (t吨 Ş===================================================================================================== {Z轴}_{我}) = λ_{0} (t吨) 经验 (α_{C类}^{T型} {Z轴}_{我, C类} + α_{- C类}^{T型} {Z轴}_{我, - C类}) .

(2)

让 ${A类}_{- C类} = {j个 \notin C类 : α_{j个} \neq 0}$ 和 $一 = | {A类}_{- C类} | = \sum_{j个 \notin C类} 我 (α_{j个} \neq 0)$ 是非零系数及其基数的真实集合。我们的目标是扳回一盘 ${A类}_{- C类}$ 尽可能准确地基于案例研究的数据。换句话说，我们想要找到协变量的子集 ${\hat{A类}}_{- C类}$ 这满足了 ${A类}_{- C类} \subseteq {\hat{A类}}_{- C类}$ .

为了执行初始筛选程序，我们为每个协变量单独构建边际Cox回归模型，这里我们还将已知的协变量添加到 $C类$ 每个边际模型。具体来说，对于 $j个 \notin C类$ 危险函数T型_我给定( ${Z轴}_{我, C类}$ ,Z轴_{i、 j})有表单

λ (t吨 Ş===================================================================================================== {Z轴}_{我, C类}, {Z轴}_{我, j个}) = λ_{j个, 0} (t吨) 经验 (β_{C类, j个}^{T型} {Z轴}_{我, C类} + β_{j个} {Z轴}_{我, j个}),

(3)

其中λ_j个,0(t吨)是未指定的基线危险函数，以及 $β_{C类, j个}$ 和β_j个未知回归参数对应于协变量吗 ${Z轴}_{C类}$ 和Z轴_j个分别在边际考克斯模型中。由于协变量只能在选定的子组和案例组数据中观察到，因此我们考虑以下加权估计方程

{U型}_{j个} (β_{C类, j个}, β_{j个}) = {[{U型}_{j个, k个} (β_{C类, j个}, β_{j个}), k个 \in C类 \cup {j个}]}^{T型} = 0_{q个 + 1},

(4)

具有

{U型}_{j个, k个} (β_{C类, j个}, β_{j个}) = \sum_{我 = 1}^{n个} \int_{0}^{τ} {{Z轴}_{我 k个} - \frac{{\tilde{S公司}}_{j个, k个}^{(1)} (β_{C类, j个}, β_{j个}, t吨)}{{\tilde{S公司}}_{j个, k个}^{(0)} (β_{C类, j个}, β_{j个}, t吨)}} d日 {N个}_{我} (t吨) = 0,

哪里 ${\tilde{S公司}}_{j个, k个}^{(我)} (β_{C类, j个}, β_{j个}, t吨) = {n个}^{- 1} \sum_{我 = 1}^{n个} {Z轴}_{我, k个}^{我} {w个}_{我} (t吨) {Y（Y）}_{我} (t吨) 经验 (β_{C类, j个}^{T型} {Z轴}_{我, C类} + β_{j个} {Z轴}_{我, j个})$ 对于 $k个 \in C类 \cup {j个}$ 和我= 0, 1, 2. 这里，我们选择时变权重函数 ${w个}_{我} (t吨) = Δ_{我} + (1 - Δ_{我}) ξ_{我} / \hat{π} (t吨)$ ，其中 $\hat{π} (t吨) = \sum_{我 = 1}^{n个} (1 - Δ_{我}) ξ_{我} {Y（Y）}_{我} (t吨) / \sum_{我 = 1}^{n个} (1 - Δ_{我}) {Y（Y）}_{我} (t吨)$ 是真实采样概率的一致估计值π。请注意w个_我（η）权重我受试者按选择的逆概率计算，在这种情况下，它等于1 $\hat{π} {(t吨)}^{- 1}$ 针对抽样审查的受试者。最大边际伪部分似然估计量 $({\hat{β}}_{C类, j个}, {\hat{β}}_{j个})$ 定义为加权估计方程的解 ${U型}_{j个} (β_{C类, j个}, β_{j个}) = 0_{q个 + 1}$ 定义信息矩阵 $我_{j个} (β_{C类, j个}, β_{j个}) = - {(\partial {U型}_{j个, k个} (β_{C类, j个}, β_{j个}) / \partial β_{我})}_{k个, 我 \in C类 \cup {j个}}$ 哪个属于(q个+1）尺寸。让 ${\hat{σ}}_{j个}^{2} = {[我_{j个} ({\hat{β}}_{C类, j个}, {\hat{β}}_{j个})]}_{q个 + 1, q个 + 1}^{- 1}$ 是的方差估计 ${\hat{β}}_{j个}$ ，即(第页+1）矩阵的第对角线元素 $我_{j个} ({\hat{β}}_{C类, j个}, {\hat{β}}_{j个})$ 。对于 $j个 \notin C类$ ，我们定义

{M（M）}_{C类, j个} = \frac{| {\hat{β}}_{j个} |}{{\hat{σ}}_{j个}},

作为建议的实用措施j个th协变量。我们对协变量进行排序Z轴_j个( $j个 \notin C类$ )按的价值 ${M（M）}_{C类, j个}$ 从最大到最小，并保留那些排名靠前的人。对于给定的阈值γ>0，除了集合之外的所选索引集合 $C类$ 由提供

{\hat{A类}}_{- C类} = {j个 \notin C类 : {M（M）}_{C类, j个} = \frac{| {\hat{β}}_{j个} |}{{\hat{σ}}_{j个}} \geq γ} .

(5)

在实际应用中，我们可以预先确定一个正整数d日₀并将估计的活动集定义为

{\hat{A类}}_{- C类} = {j个 : {M（M）}_{C类, j个} 是第一批 {d日}_{0} 最大的 {M（M）}_{C类, j个} (j个 \notin C类)} .

类似范和吕（2008）以及其他与专题筛选相关的文献，我们可以选择d日₀= ⌈n个_{复写的副本}/日志n个_{复写的副本}⌉，其中n个_{复写的副本}表示病例组样本量。

类似于Barut等人（2016）和Hong等人（2018），所提出的CWSIS程序的突出优点是能够检测超高维病例组数据中隐藏的活性协变量。为了证明这一优点，我们以类似的方式建立了一个示例Barut等人（2016）和Hong等人（2018）特别是故障时间T型_我遵循Cox比例风险模型 $λ (t吨 Ş===================================================================================================== {Z轴}_{我}) = λ_{0} (t吨) 经验 (α^{T型} {Z轴}_{我})$ ，其中λ₀(t吨) = 1, $α = {(1_{4}^{T型}, - 2, 0_{第页 - 5}^{T型})}^{T型}$ ,Z轴_我~N个_第页(0,Σ)带有Σ= (σ_ij公司)_{第页×第页},σ_ii（ii）=1用于我= 1,…,第页,σ_ij公司=0.5适用于我≠j个.通过这种设计，Z轴₅是一个隐藏的活性协变量。我们考虑四种不同的条件集， $C类$ = {∅}, {1}, {1, 2}, {6, 7, 8}. 拟议筛选统计的密度 ${M（M）}_{C类, j个}$ 对于Z轴₅（隐藏的活性协变量）和Z轴₆, …,Z轴₂₀₀₀（非活性协变量）总结如下图1.何时 $C类 = \emptyset$ ，CWSIS相当于边际筛选法 ${M（M）}_{C类, j个}$ 对于Z轴₅远小于非活性协变量的对应值，且概率很高。当条件集包括一个真正有效的协变量时( $C类 = {1}$ )，曲线Z轴₅在右边，这两条曲线之间有明显的分隔。当我们包含更多真正活跃的协变量时( $C类 = {1, 2}$ )，这种分离变得更大。我们注意到一个非常有趣的现象，即当条件集由三个非活动协变量组成时( $C类 = {6, 7, 8}$ )，识别隐藏变量的机会Z轴₅使用CWSIS仍高于边缘筛选法。这可能是由于它们与活动协变量之间的相关性，此类非活动变量可以有效地充当活动变量的替代变量，因此对它们进行调节可以帮助检测隐藏变量。在Barut等人（2016）和Hong等人（2018）.

保存图片、插图等的外部文件。对象名为nihms-1745068-f0001.jpg

在单独的窗口中打开

图1

筛选统计的密度 ${M（M）}_{C类, j个}$ 对于隐藏的活性协变量Z轴₅与非活性协变量密度的混合物进行比较Z轴₆, …,Z轴₂₀₀₀使用不同的条件集：情况1： $C类$ ={∅}，相当于边缘筛分；案例2： $C类$ ={1}，一个真正活跃的协变量；案例3： $C类$ ={1，2}，两个真正活跃的协变量；案例4： $C类$ ={6,7,8}，三个非活性协变量。全队列样本量n个=500，协变量数量第页=2000，非案例比率为1:1，故障率为20%。

三。理论性质

在这一节中，我们展示了CWSIS程序具有确定筛选属性和排序一致性属性，这表明我们的CWSIS过程倾向于以高概率将活动协变量排在非活动协变量之上，而且，所有活动协变量在筛选后都存活下来，概率趋于1n个→ ∞. 这两个属性奠定了我们的CWSIS程序的理论基础。定义 ${S公司}_{k个}^{(我)} (t吨) = {n个}^{- 1} \sum_{我 = 1}^{n个} {Z轴}_{我 k个}^{我} {Y（Y）}_{我} (t吨) λ (t吨 Ş===================================================================================================== {Z轴}_{我}), 秒_{k个}^{(我)} (t吨) = E类 {{S公司}_{k个}^{(我)} (t吨)}, {S公司}_{j个, k个}^{(我)} (β_{C类, j个}, β_{j个}, t吨) = {n个}^{- 1} \sum_{我 = 1}^{n个} {Z轴}_{我, k个}^{我} {Y（Y）}_{我} (t吨) 经验 (β_{C类, j个}^{T型} {Z轴}_{我, C类} + β_{j个} {Z轴}_{我, j个})$ 和 $秒_{j个, k个}^{(我)} (β_{C类, j个}, β_{j个}, t吨) = E类 {{S公司}_{j个, k个}^{(我)} (β_{C类, j个}, β_{j个}, t吨)}$ 对于 $k个 \in C类 \cup {j个}$ 和我= 0, 1, 2. 让 ${(β_{C类, j个}^{0}, β_{j个}^{0})}^{T型}$ 是下列方程的解 ${u个}_{j个} (β_{C类, j个}, β_{j个}) = {[{u个}_{j个, k个} (β_{C类, j个}, β_{j个}), k个 \in C类 \cup {j个}]}^{T型} = 0_{q个 + 1}$ ，使用

{u个}_{j个, k个} (β_{C类, j个}, β_{j个}) = \int_{0}^{τ} {秒_{k个}^{(1)} (t吨) - \frac{秒_{j个, k个}^{(1)} (β_{C类, j个}, β_{j个}, t吨)}{秒_{j个, k个}^{(0)} (β_{C类, j个}, β_{j个}, t吨)} 秒_{k个}^{(0)} (t吨)} d日 t吨 = 0 .

正则性条件如下所示附录A，在此基础上，我们建立了以下引理和定理。

引理1 条件C1-C8, $β_{j个}^{0} = 0$ 当且仅当α_j个= 0为所有人 $j个 \notin C类$ .

引理2 假设条件C1-C8成立，存在常数c₂> 0和0 <κ<1/2这样的话

\underset{j个 \in {A类}_{- C类}}{最小值} | β_{j个}^{0} | \geq {c（c）}_{2} {n个}^{- κ} .

引理3 在条件C1-C8下，对于任何ϵ₁> 0和ϵ₂> 0,存在正常数c_三 和整数N，使得对于任何N>N和0 <κ< 1/2,

P（P） (\underset{j个 \in {A类}_{- C类}}{最大值} | {\hat{β}}_{j个} - β_{j个}^{0} | > {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) \leq 2 一 (q个 + 1) 经验 (- {c（c）}_{三} {n个}^{1 - 2 κ}) + 一 ϵ_{2},

其中a是的大小 ${A类}_{- C类}$ ,q是的大小 $C类$ ,c（c）₂ 是引理2中的相同值.

引理3表明，所提出的最大边际伪部分似然估计 ${\hat{β}}_{j个}$ 是对 $β_{j个}^{0}$ .通过引理1和3，我们确实可以区分 ${Z轴}_{j个} (j个 \in {A类}_{- C类})$ 从 ${Z轴}_{j个} (j个 \notin {A类}_{- C类})$ 通过提议的边际效用 ${M（M）}_{C类, j个}$ 定理1说明了CWSIS过程的确定的独立屏蔽特性。

定理1（确定屏蔽性） 在条件C1-C8下，对于任何0 <κ< 1/2和ϵ₂> 0,存在正常数c_三 这样的话

P（P） ({A类}_{- C类} \subseteq {\hat{A类}}_{- C类}) \geq 1 - 2 一 (q个 + 1) 经验 (- {c（c）}_{三} {n个}^{1 - 2 κ}) - 一 ϵ_{2},

其中a是的大小 ${A类}_{- C类}$ ，q是的大小 $C类$ 此外，我们还有

\underset{n个 \to \infty}{林} P（P） ({A类}_{- C类} \subseteq {\hat{A类}}_{- C类}) = 1 .

从这个定理中，我们可以看到，所有活性协变量在筛选后都存活下来，概率趋于1。下一个定理建立了该方法的排序一致性。

定理2（排序一致性） 在条件C1-C8下，我们有

P（P） (\underset{j个 \notin {A类}_{- C类}}{最大值} {M（M）}_{C类, j个} < \underset{j个 \in {A类}_{- C类}}{最小值} {M（M）}_{C类, j个}) \to 1

当n时→ ∞.

这奠定了理论基础，即我们的程序确保以压倒性的概率将活性协变量排在非活性协变量之前。定理和这些引理的证明在附录B.

4 模拟研究

我们检验了所提出的CWSIS程序的有限样本性能，并通过仿真研究与一些现有方法进行了比较。为了简单起见，我们参考了生存期特征畸变筛查程序Gorst-Rasmussen和Scheike（2013）作为FAST-SIS赵和李（2012）作为P-SISSong等人（2014）此外，我们考虑了边际加权筛选程序（MWSIS），其中我们拟合了边际Cox回归 $λ (t吨 Ş===================================================================================================== {Z轴}_{我 j个}) = λ_{0 j个}^{*} (t吨) 经验 (β_{j个} {Z轴}_{我 j个})$ 对于每个Z轴_ij公司并构造加权估计方程以获得估计 ${\hat{β}}_{j个}$ ，然后将活动索引集定义为 $\hat{A类} = {1 \leq j个 \leq 第页 : | {\hat{β}}_{j个} | 我_{j个} {({\hat{β}}_{j个})}^{1 / 2} \geq γ}$ ,我_j个(β_j个)表示信息矩阵。由于PSIS、FAST和CRIS只能处理SRS数据，我们生成的SRS数据与PSIS、FAST和CRIS的病例队列数据具有相同的样本量。

我们考虑由Cox比例风险模型生成的生存数据，并使用独立的Bernoulli抽样来生成子组。我们考虑全队列样本量n个=500、1000和协变量的数量第页= 2000, 4000. 由于病例组研究的发生率通常很低或中等，我们认为以下情况的失败率为20%n个=500，5%和10%n个= 1000. 我们考虑非病例比为1:1，因此我们模拟研究中病例组数据的样本大小等于100200。对于每个配置，我们重复500次模拟并采用三个评估标准(Li等人，2012b). 第一个是包含所有活动预测因子的最小模型大小，表示为 $S公司$ 我们给出了 $S公司$ 在500个复制中。第二个是在给定模型大小的模型中选择每个重要变量的选择比例d日₀，表示为 ${P（P）}_{e（电子）}$ 第三个是在给定模型规模的模型中选择所有重要变量的选择比例d日₀，表示为 ${P（P）}_{一}$ 。有效的筛选程序有望产生 $S公司$ 接近真正的最小模型尺寸 ${P（P）}_{e（电子）}$ 和 ${P（P）}_{一}$ 接近一个。在这里，我们选择d日₀= ⌈n个_{复写的副本}/日志n个_{复写的副本}⌉ (范和吕，2008),n个_{复写的副本}是病例组样本量和⌈x个⌉表示的整数部分x个.

示例1。

T型_我由Cox比例风险模型生成

λ (t吨 Ş===================================================================================================== {Z轴}_{我}) = λ_{0} (t吨) 经验 (α^{T型} {Z轴}_{我}),

哪里 $λ_{0} (t吨) = 1, α = {(1_{4}^{T型}, - 2, 0_{第页 - 5}^{T型})}^{T型}, {Z轴}_{我} \sim {N个}_{第页} (0, Σ)$ 具有 $Σ = {(σ_{我 j个})}_{第页 \times 第页}, σ_{我我} = 1$ 对于我= 1,…p、 σ_ij公司=0.5适用于我≠j个.审查时间C类_我~统一（0，τ)，常数τ表示研究的结束时间，用于控制失败率。

示例2。

我们考虑与示例1相同的模型 $α = {(10, 0_{第页 - 2}^{T型}, 1)}^{T型}$ ，即仅Z轴₁和Z轴_第页是活性协变量。第一个(第页−1）协变量 $({Z轴}_{1}, \dots, {Z轴}_{(第页 - 1)}) \sim {N个}_{第页 - 1} (0, Σ)$ 具有 $Σ = {(σ_{我 j个})}_{(第页 - 1) \times (第页 - 1)}$ ，其中σ_ii（ii）=1用于我= 1, …, (第页− 1),σ_ij公司=ρ对于我≠j个。我们改变了ρ为0、0.3、0.7，取较大值ρ产生较高的共线性。最后一个协变Z轴_第页~N个(0, 1).

我们计算生存时间之间的绝对相关性T型和每个协变量Z轴_j个(j个= 1, …,第页)的第页=2000，通过逆概率加权方案，进一步总结三组的边际相关性：活性协变量(Z轴₁, …,Z轴₄例如1和Z轴₁例如2），隐藏的活性协变量(Z轴₅例如1和Z轴_第页例如2），以及非活性协变量(Z轴₆, …,Z轴_第页例如1和Z轴₂, …,Z轴_(第页−1)例如2）。图2和和3三描述这三组绝对相关性的分布，从中我们可以看到隐藏的活动协变量的边际信号强度弱于非活动协变量。因此，边缘筛选方法MWSIS、PSIS、FAST和CRIS难以识别隐藏的活性协变量。提出的条件筛选方法CWSIS是一种理想的选择。在我们的模拟中，我们只需选择Z轴₁作为条件协变量。实际上，如果我们没有关于活动协变量的有用先验信息，我们可以选择那些边缘信号强度较高的协变量作为条件集(Barut等人，2016年;卢和林，2020年). 为了进行公平的比较，我们将一个（示例中条件协变量的数量）添加到 $S公司$ 用于拟议的条件筛选方法CWSIS。

保存图片、插图等的外部文件。对象名为nihms-1745068-f0002.jpg

在单独的窗口中打开

图2

生存时间和协变量的绝对相关性第页= 2000.

保存图片、插图等的外部文件。对象名为nihms-1745068-f0003.jpg

在单独的窗口中打开

图3

生存时间和协变量的绝对相关性第页= 4000.

的模拟结果 $S公司$ , ${P（P）}_{e（电子）}$ 和 ${P（P）}_{一}$ 总结如下表1——2.通过观察 ${P（P）}_{e（电子）}$ 对于Z轴₅例1和Z轴_第页在示例2中，我们可以得出结论，所提出的CWSIS程序可以以较高的概率检测隐藏的活动协变量，而其他四种方法MWSIS、PSIS、FAST和CRIS无法选择它们。在示例2中，ρ等于0、0.3和0.7，且较大ρ从而产生更高的共线。所提出的方法CWSIS即使在高共线性下也表现良好，而其他四种方法即使在ρ=0，性能随着ρ如预期，CWSIS需要较小的模型尺寸，以便在所有设置中都具有可靠的筛选属性。更大的病例组样本量和更高的故障率与更好的性能相关。特别是，更大的队列样本量可以更好地处理罕见疾病情况。

表1

中位数和四分位范围（IQR） $S公司$ 、选择比例 ${P（P）}_{e（电子）}$ 和 ${P（P）}_{一}$ 在500个复制中，例如1

							${P（P）}_{e（电子）}$
第页	n个	法国	n个_c（c）	方法	中值的	IQR公司	X（X） ₁	X（X） ₂	X（X） _三	X（X） ₄	X（X） ₅	${P（P）}_{一}$
2000	1000	5%	50	PSIS（磅/平方英寸）	1849	469	0.130	0.106	0.094	0.102	0.016	0
				快速	1843	446	0.116	0.108	0.106	0.104	0.016	0
				CRIS公司	1398	764	0.290	0.270	0.288	0.250	0.220	0.084
				MWSIS公司	2000	2	0.354	0.342	0.352	0.342	0	0
				CWSIS公司	447	746	——	0.318	0.350	0.330	0.476	0.018
	1000	10%	100	PSIS（磅/平方英寸）	1998	18	0.488	0.456	0.436	0.462	0	0
				快速	1998	19	0.474	0.444	0.422	0.450	0	0
				CRIS公司	1721	379	0.050	0.032	0.020	0.038	0.004	0
				MWSIS公司	2000	0	0.784	0.804	0.774	0.794	0	0
				CWSIS公司	69	172	——	0.790	0.768	0.810	0.760	0.356
	500	20%	100	PSIS（磅/平方英寸）	2000	1	0.686	0.706	0.706	0.668	0.002	0
				快速	2000	1	0.654	0.654	0.694	0.622	0.002	0
				CRIS公司	1720	405	0.054	0.054	0.044	0.054	0.002	0
				MWSIS公司	2000	0	0.812	0.832	0.840	0.798	0	0
				CWSIS公司	47	168	——	0.828	0.852	0.806	0.764	0.442
4000	1000	5%	50	PSIS（磅/平方英寸）	3747	716	0.384	0.364	0.376	0.380	0.002	0
				快速	3748	744	0.368	0.352	0.378	0.362	0.002	0
				CRIS公司	3133	1100	0.022	0.018	0.014	0.022	0	0
				脑脊髓炎	4000	三	0.670	0.700	0.710	0.702	0	0
				CWSIS公司	908	1477	——	0.720	0.680	0.734	0.688	0.252
	1000	10%	100	PSIS（磅/平方英寸）	3995	46	0.384	0.364	0.376	0.380	0.002	0
				快速	3995	48	0.368	0.352	0.378	0.362	0.002	0
				CRIS公司	3363	795	0.022	0.018	0.014	0.022	0	0
				MWSIS公司	4000	0	0.670	0.700	0.710	0.702	0	0
				CWSIS公司	136	389	——	0.720	0.680	0.734	0.688	0.252
	500	20%	100	PSIS（磅/平方英寸）	4000	2	0.600	0.608	0.578	0.630	0	0
				快速	4000	2	0.582	0.592	0.574	0.582	0	0
				CRIS公司	3447	871	0.036	0.050	0.038	0.024	0	0
				MWSIS公司	4000	0	0.770	0.732	0.730	0.766	0	0
				CWSIS公司	86	277	——	0.770	0.784	0.806	0.746	0.350

在单独的窗口中打开

n个全队列的样本量；第页协变量的数量；FR，故障率；n个_c（c）平均病例数；CWSIS：建议的条件筛选方法；MWSIS：边际加权筛选程序；PSIS：筛查程序赵和李（2012）; FAST：的筛选程序Gorst-Rasmussen和Scheike（2013）; CRIS：筛查程序Song等人（2014）.

表2

中位数和四分位范围（IQR） $S公司$ 、选择比例 ${P（P）}_{e（电子）}$ 和 ${P（P）}_{一}$ 在500个复制中，例如2

					第页= 2000					第页= 4000
							${P（P）}_{e（电子）}$					${P（P）}_{e（电子）}$
n个	法国	ρ	n个_c（c）	方法	中值的	IQR公司	X（X） ₁	X（X）_第页	${P（P）}_{一}$	中值的	IQR公司	X（X） ₁	X（X）_第页	${P（P）}_{一}$
500	20%	0	100	PSIS（磅/平方英寸）	578	979	1	0.092	0.092	1279	2088	1	0.066	0.066
				快速	594	975	1	0.090	0.090	1286	2054	1	0.068	0.068
				CRIS公司	841	1005	1	0.032	0.032	1683	1920	0.998	0.014	0.014
				MWSIS公司	424	951	1	0.104	0.104	936	1819	1	0.088	0.088
				CWSIS公司	2	0	——	1	1	2	0	——	1	1
		0.3	100	PSIS（磅/平方英寸）	1973	131	1	0	0	3958	302	1	0	0
				快速	1971	138	1	0	0	3958	311	1	0	0
				CRIS公司	1278	1192	0.998	0.022	0.022	2795	2220	0.998	0.012	0.012
				MWSIS公司	1997	33	1	0	0	3993	62	1	0.002	0.002
				CWSIS公司	2	0	——	1	1	2	0	——	1	1
		0.7	100	PSIS（磅/平方英寸）	2000	0	0.380	0	0	4000	0	0.278	0	0
				快速	2000	0	1	0	0	4000	0	1	0	0
				CRIS公司	1945	460	0.990	0.008	0.008	3923	848	0.978	0.004	0.004
				MWSIS公司	2000	0	0.676	0	0	4000	0	0.558	0	0
				化学武器系统	2	0	——	1	1	2	0	——	1	1
1000	10%	0	100	PSIS（磅/平方英寸）	664	1033	1	0.064	0.064	1385	2072	1	0.038	0.038
				快速	684	1024	1	0.064	0.064	1376	2031	1	0.036	0.036
				纵横交错	937	982	0.920	0.014	0.008	1938	2140	0.816	0.002	0
				MWSIS公司	315	795	1	0.170	0.170	599	1766	1	0.116	0.116
				CWSIS公司	2	0	——	0.998	0.998	2	0	——	0.998	0.998
		0.3	100	PSIS（磅/平方英寸）	1928	374	0.964	0.002	0.002	3870	710	0.946	0	0
				快速	1926	382	1	0.002	0.002	3863	678	1	0	0
				CRIS公司	1233	1119	0.884	0.034	0.030	2427	2355	0.810	0.024	0.012
				MWSIS公司	1999	15	1	0	0	3998	63	1	0	0
				CWSIS公司	2	0	——	1	1	2	0	——	0.998	0.998
		0.7	100	PSIS（磅/平方英寸）	2000	0	0.042	0	0	4000	0	0.016	0	0
				快速	2000	0	0.996	0	0	4000	0	0.994	0	0
				CRIS公司	1737	930	0.794	0.028	0.024	3451	1921	0.710	0.024	0.010
				MWSIS公司	2000	0	0.208	0	0	4000	0	0.150	0	0
				CWSIS公司	2	0	——	1	1	2	0	——	0.998	0.998
1000	5%	0	50	PSIS（磅/平方英寸）	1075	984	0.254	0.006	0.002	2010	2274	0.266	0.008	0.006
				快速	931	1022	0.990	0.008	0.008	1771	2138	1	0.002	0.002
				CRIS公司	1332	1002	0.562	0	0	2364	1826	0.436	0	0
				MWSIS公司	520	983	1	0.042	0.042	1082	2023	1	0.030	0.030
				CWSIS公司	2	1	——	0.936	0.936	2	2	——	0.882	0.882
		0.3	50	PSIS（磅/平方英寸）	1678	667	0.080	0.002	0	3459	1476	0.046	0.004	0.002
				快速	1580	825	0.958	0.002	0.002	3249	1642	0.976	0.002	0.002
				CRIS公司	1501	1077	0.568	0.006	0.004	2592	2036	0.448	0.004	0
				MWSIS公司	1981	155	0.984	0	0	3971	204	0.956	0	0
				CWSIS公司	2	0	——	0.946	0.946	2	1	——	0.890	0.890
		0.7	50	PSIS（磅/平方英寸）	2000	2	0	0	0	4000	1	0	0	0
				快速	2000	2	0.502	0	0	4000	1	0.536	0	0
				CRIS公司	1721	1037	0.590	0.010	0.002	3093	2247	0.462	0.008	0.002
				MWSIS公司	2000	0	0.020	0	0	4000	0	0.006	0	0
				CWSIS公司	2	0	——	0.942	0.942	2	1	——	0.900	0.900

在单独的窗口中打开

n个全队列的样本量；第页协变量的数量；FR，故障率；n个_c（c）平均病例数；ρ协变量的相关系数；CWSIS：建议的条件筛选方法；MWSIS：边际加权筛选程序；PSIS：筛查程序赵和李（2012）; FAST：的筛选程序Gorst-Rasmussen和Scheike（2013）; CRIS：筛查程序Song等人（2014）.

为了评估所建议方法在与实际数据相似的设置中的性能，我们进一步考虑n个=300，故障率为25%，例如2，其余设置与以前相同。这里，我们还考虑了未加权条件筛选方法NCWSIS，该方法不采用权重函数，只将病例组数据作为SRS数据处理，而条件筛选方法C-SMPLE在Hong等人（2018）.由于方法C-SMPLEHong等人（2018）是针对SRS数据提出的，它不能直接用于处理案例数据，我们为CSMPLE生成与案例数据具有相同样本大小的SRS数据。的模拟结果 $S公司$ , ${P（P）}_{e（电子）}$ 和 ${P（P）}_{一}$ 总结如下表3从中我们可以看出，该方法能够以较高的概率检测出隐藏的活动协变量，并且对于所有考虑的设置都具有其独特的优势。通过比较NCWSIS、CSMPLE和CWSIS的结果，我们可以得出结论，条件筛选方法的性能通过包含案例短权重而得到了改进。此外，与基于与病例组样本大小相同的SRS的条件筛选相比，基于病例组设计的条件筛选程序在选择活性协变量方面更准确。例如，当第页=2000和ρ=0.7，值为 ${P（P）}_{一}$ CSMPLE的值仅为0.460，而所提方法CWSIS的相应值为1。

表3

中位数和四分位范围（IQR） $S公司$ 、选择比例 ${P（P）}_{e（电子）}$ 和 ${P（P）}_{一}$ 在500个复制中（例如2个）n个=300且FR=25%

			第页= 2000					第页= 4000
					${P（P）}_{e（电子）}$					${P（P）}_{e（电子）}$
ρ	n个_c（c）	方法	中值的	IQR公司	X（X） ₁	X（X）_第页	${P（P）}_{一}$	中值的	IQR公司	X（X） ₁	X（X）_第页	${P（P）}_{一}$
0	75	PSIS（磅/平方英寸）	671	1040	1	0.062	0.062	1226	1920	1	0.032	0.032
		快速	711	1035	1	0.068	0.068	1221	1927	1	0.034	0.034
		CRIS公司	854	1064	1	0.026	0.026	1626	2057	0.998	0.012	0.012
		MWSIS公司	599	1057	1	0.058	0.058	1014	1900	1	0.040	0.040
		NCWSIS公司	5	53	-	0.706	0.706	8	115	-	0.648	0.648
		CSMPLE公司	7	68	-	0.674	0.674	12	108	-	0.608	0.608
		CWSIS公司	2	0	-	1	1	2	0	-	0.994	0.994
0.3	75	PSIS（磅/平方英寸）	1960	236	1	0	0	3917	485	1	0	0
		快速	1959	236	1	0	0	3915	516	1	0	0
		CRIS公司	1339	1216	0.998	0.014	0.014	2718	2467	0.994	0.020	0.020
		脑脊髓炎	1987	106	1	0	0	3966	225	1	0	0
		NCWSIS公司	三	60	-	0.712	0.712	4	57	-	0.704	0.704
		CSMPLE公司	10	65	-	0.648	0.648	16	223	-	0.574	0.574
		CWSIS公司	2	0	-	1	1	2	0	-	1	1
0.7	75	PSIS（磅/平方英寸）	2000	0	0.596	0	0	4000	0	0.578	0	0
		快速	2000	0	1	0	0	4000	0	1	0	0
		纵横交错	1948	399	0.990	0.002	0.002	3921	1035	0.978	0.006	0.006
		MWSIS公司	2000	0	0.610	0	0	4000	0	0.556	0	0
		NCWSIS公司	2	40	-	0.732	0.732	2	38	-	0.736	0.736
		CSMPLE公司	44	204	-	0.460	0.460	74	606	-	0.388	0.388
		CWSIS公司	2	0	-	1	1	2	0	-	1	1

在单独的窗口中打开

n个全队列的样本量；第页协变量的数量；FR，故障率；n个_c（c）平均病例数；ρ协变量的相关系数；PSIS：筛查程序赵和李（2012）; FAST：筛选程序Gorst-Rasmussen和Scheike（2013）; CRIS：筛查程序Song等人（2014）; MWSIS：边际加权筛选程序；NCWSIS：未加权条件筛选法；CSMPLE：条件筛选方法Hong等人（2018）; CWSIS：建议的条件筛选方法。

5 乳腺癌数据的应用

作为一个例子，我们将提出的CWSIS方法应用于乳腺癌数据(van de Vijver等人，2002年)295名女性患者患有原发性浸润性乳腺癌。每个患者的24885个基因的表达在所有肿瘤的cDNA阵列上进行了分析。使用罗塞塔误差模型进行初步筛选后，选择了一组4919个候选基因(van t Veer等人，2002年). 通过排除缺失值的个体，我们有289名受试者，其中有4919个候选基因。中位观察时间为7.23年（从0.05年到18.34年不等）。随访期间，78例患者死于乳腺癌，211例患者仍存活，导致失败率为26.99%。在289个患者样本中，60个样本与来自van t Veer等人（2002），我们使用这60个样本作为测试集，使用案例组样本作为训练集。这两组的详细信息总结在表4这项研究的目的是确定对患者的总体生存率有很大影响的基因。

表4

乳腺癌数据汇总

数据集	号码	分钟	马克斯	中值的	失败（%）
列车	289	0.055	18.341	7.225	26.99
测试	60	0.712	15.352	7.606	38.33

在单独的窗口中打开

培训，培训集；测试，测试集；Num，患者人数；Min，最小观察生存时间；Max，最大观察存活时间；中位数，观察生存时间的中位数；失败，失败率。

我们根据病例组样本的数据，通过识别对患者总体生存率有重大影响的基因来说明所提出的方法。具体地说，我们通过具有选择概率的独立伯努利抽样来选择子群π=0.37，导致病例数和非病例数大致相同。亚组有111名受试者，最终病例组样本有155名受试对象。基因AL080059号文献中已知可预测患者的生存时间(杨等人，2005年;van t Veer等人，2002年)，我们将其用作建议过程中的条件变量。筛选方法通常被认为是降维的初始步骤，然后是一些基于模型的正则化方法。特别是，我们首先应用拟议的CWSIS程序，从第页=4919 to⌈155/log（155）⌉=31，然后利用不同的正则化方法LASSO、SCAD和MCP在Cox比例风险回归框架下选择这31个基因中的显著基因，通过10倍交叉验证选择调谐参数。我们总结了所选基因的名称和相应的系数估计值表5从中我们可以看到基因Contig58368.RC，NM.014889，NM.005689，NM.013290，AL080059号LASSO、SCAD和MCP方法均选择了NM.013332、Contig63649.RC和NM.002916，表明这8个基因可能与患者的生存率有关。此外，基因Contig58368.RC、NM.014889和NM.005689位于前三位，这意味着这三个基因可能对患者的生存率有很大影响。

表5

使用正则化方法为乳腺癌数据选择重要基因的结果

拉索		SCAD公司		MCP公司
姓名	美国东部时间。	姓名	美国东部时间。	姓名	美国东部时间。
轮廓58368.RC	0.392	轮廓58368.RC	0.516	轮廓58368.RC	0.515
014889挪威	0.277	014889挪威	0.446	014889挪威	0.445
005689新元	0.201	005689新元	0.329	005689新元	0.329
013332奈米	0.199	013290奈米	0.326	013290奈米	0.325
轮廓63649.RC	0.178	AL080059号	0.312	AL080059号	0.312
013290奈米	0.172	013332奈米	0.256	013332奈米	0.256
AL080059号	0.168	轮廓63649.RC	0.249	轮廓63649.RC	0.249
002916奈米	0.140	002916奈米	0.204	002916奈米	0.206
2011年1月22日	0.102
轮廓31288.RC	0.083
轮廓38288.RC	0.049
003376奈米	0.017
0.001673新元	0.014

在单独的窗口中打开

名称：选定基因的名称；美国东部时间。：所选基因系数的相应估计值。

为了评估C-WSIS的预测准确性，我们进一步计算了C类-统计估计器(Uno等人，2011年). 为了进行比较，我们还应用MWSIS和NC-WSIS程序来分析这些数据。特别是，我们首先应用这三种筛选方法将维数降低到⌈155/log（155）⌉=31，然后执行LASSO惩罚以进一步删除一些不相关的协变量，调整参数由10倍交叉验证选择。我们通过使用LASSO选择的最终模型获得每个受试者的风险评分，并进一步计算相应的一致性统计(C类-统计）(Uno等人，2011年)在测试集中。标准偏差（SD）C类-通过扰动重采样1000次获得统计信息。的相应值C类-对于CWSIS、MWSIS和NCWSIS程序，统计值和SD（括号中的值）分别为0.862（0.059）、0.796（0.078）、0.802（0.053）。根据Uno等人（2011年），越大C类-统计表明，该方法具有更强的预测能力。我们可以得出结论，所提出的CWSIS方法在病例组设计下对超高维生存数据表现良好，并在预测方面提供了良好的性能。

我们还考虑d日_n个=n个/2,n个/3,n个/4分析此数据并在补充材料从中可以看出，在不同切割下选择的基因高度一致。此外，我们计算了C类-这三种情况下CWSIS、MWSIS和NCWSIS程序的统计估计值。从中的结果补充材料我们可以得出类似的结论d日_n个=n个/日志(n个).

6 结论

对于病例组设计下的超高维生存数据，我们通过结合活性协变量的先验信息，提出了条件筛选程序CWSIS。该方法能够检测隐藏的活性协变量，与边缘筛选程序相比，这是一个显著的优势。此外，该方法不需要任何复杂的数值优化，计算效率高。从理论上讲，它在一定的正则性条件下具有一定的筛选性和排序一致性。在理论性质的发展中，我们采用了条件线性期望和条件线性协方差，它们是在Hong等人（2018）和用于指定正则性条件。

有一些问题值得进一步考虑。首先，该方法需要活性协变量的先验信息，有时可能很难获得此类有用信息。Hong等人（2016）提出了一种数据驱动的方法来获取广义线性模型的条件集。如何为病例组下的生存数据开发一种数据驱动的条件筛选方法是一个有趣的问题。此外，当我们有活性协变量的先验知识时，如何将其与从给定数据中提取的信息进行平衡值得进一步研究。其次，在我们的设计下，通过独立的伯努利抽样选择子群。当通过简单随机抽样选择子组而不进行替换时，我们的方法也有效，尽管需要更复杂的参数来发展理论性质。此外，当一些协变量可用于所有队列成员时，我们可以考虑基于这些协变量的分层病例队列设计。第三，我们可以考虑提出更有效的筛选方法，其中包含更复杂的先验知识，例如网络结构或协变量的空间信息。

补充材料

1745068_上部材料

单击此处查看。^{（35K，pdf格式）}

致谢

本研究部分由美国国家卫生研究院资助（P01CA142538，P42ES031007，P30ES010126），中国国家自然科学基金资助（编号：11971362，11901581，11771366）。

附录A：规则性条件

让 ${S公司}_{T型} (t吨 Ş===================================================================================================== {Z轴}_{我}) = 经验 {- Λ_{0} (t吨) 经验 (α^{T型} {Z轴}_{我})}$ 和 ${S公司}_{C类} (t吨 Ş===================================================================================================== {Z轴}_{我}) = P（P） ({C类}_{我} > t吨 Ş===================================================================================================== {Z轴}_{我})$ 表示的生存函数T型_我和 ${C类}_{我}, {F类}_{T型} (t吨 Ş===================================================================================================== {Z轴}_{我}) = 1 - {S公司}_{T型} (t吨 Ş===================================================================================================== {Z轴}_{我}), Λ_{0} (t吨) = \int_{0}^{t吨} λ_{0} (秒) d日秒$ 表示累积基线危险函数。对于任何矢量 $ν = (ν_{1}, \dots, ν_{第页}) \in {R（右）}^{第页}$ ，让 $‖ ν ‖_{d日} = \sqrt[d日]{\sum_{j个 = 1}^{第页} {| ν_{j个} |}^{d日}}$ 成为L（左）_d日规范。对于任何随机变量 $ζ : Ω \to {R（右）}^{d日}, ζ_{1} : Ω \to {R（右）}^{{d日}_{1}}, ζ_{2} : Ω \to {R（右）}^{{d日}_{2}}$ 和η:Ω→R（右）^第页，的条件线性期望ζ鉴于η定义为 ${E类}^{*} (ζ Ş===================================================================================================== η) = E类 (ζ) + {B类}^{T型} {η - E类 (η)}$ ，其中 $B类 = {argmin（最小值）}_{D类 \in {R（右）}^{d日} \times {R（右）}^{第页}} E类 [{ζ - E类 (ζ) - {D类}^{T型} (η - E类 (η))}^{2} Ş===================================================================================================== η]$ .之间的条件线性协方差ζ₁和ζ₂鉴于η定义为 $C类 o个 {v（v）}^{*} (ζ_{1}, ζ_{2} Ş===================================================================================================== η) = {E类}^{*} [{ζ_{1} - {E类}^{*} (ζ_{1} Ş===================================================================================================== η)} {ζ_{2} - {E类}^{*} (ζ_{2} Ş===================================================================================================== η)} Ş===================================================================================================== η]$ 。的属性E类*(ζ|η)和Cov公司*(ζ₁,ζ₂|η)显示在中附录B下面列出的规则性条件是在我们的讨论过程中强加的。

C1.每个 $j个 \notin C类$ 和 $k个 \in C类 \cup {j个}$ ，有一个街区 ${B类}_{j个}$ 属于 ${(β_{C类, j个}^{0}, β_{j个}^{0})}^{T型}$ 这样的话

\underset{t吨 \in [0, τ], {(β_{C类, j个}, β_{j个})}^{T型} \in {B类}_{j个}}{啜饮} ‖ {S公司}_{j个, k个}^{(我)} (β_{C类, j个}, β_{j个}, t吨) - 秒_{j个, k个}^{(我)} (β_{C类, j个}, β_{j个}, t吨) ‖_{2} \to 0

概率为 $n个 \to \infty (我 = 0, 1), 秒_{j个, k个}^{(0)} (β_{C类, j个}, β_{j个}, t吨)$ 从零开始有界 ${B类}_{j个} \times [0, τ], 秒_{j个, k个}^{(我)} (β_{C类, j个}, β_{j个}, t吨)$ 限定于 ${B类}_{j个}$ × [0,τ].

C2.适用于所有人 $j个 = 1, \dots, 第页, \int_{0}^{τ} λ_{j个, 0} (t吨) 日期 < \infty$ 和 $E类 {Y（Y） (τ)} > 0$ .

C3.协变量Z轴_j个(j个= 1, …,第页)与时间无关且受常数限制L（左）₀此外，E类(Z轴_j个)全部=0j个∈ {1, …,第页}.

C4.所有Z轴_j个, $j个 \in {A类}_{- C类}$ 都是独立的Z轴_j个, $j个 \notin {A类}_{- C类}$ 鉴于 ${Z轴}_{C类}$ .

C5.存在一个常数L（左）₁这样‖α‖₁<L（左）₁和 $‖ {(β_{C类, j个}, β_{j个})}^{T型} ‖_{1} < {L（左）}_{1}$ .

C6.存在常量c（c）₁>0和0<κ<1/2，因此 ${最小值}_{j个 \in {A类}_{- C类}} | E类 [C类 o个 {v（v）}^{*} ({Z轴}_{j个}, P（P） (δ = 1 | Z轴) | {Z轴}_{C类})] | \geq {c（c）}_{1} {n个}^{- κ}$ .

C7.存在一个常数L（左）>0，这样 ${n个}^{- 1} ‖ {U型}_{j个} ({\hat{β}}_{C类, j个}, {\hat{β}}_{j个}) - {U型}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) ‖_{2} \geq L（左） ‖ {({\hat{β}}_{C类, j个}, {\hat{β}}_{j个})}^{T型} - {(β_{C类, j个}^{0}, β_{j个}^{0})}^{T型} ‖_{2}$ 为所有人 $j个 \notin C类$ .

C8.让 $\tilde{n个} = \sum_{我 = 1}^{n个} ξ_{我}$ 表示子组的样本量，然后ñ/n收敛于常数π∈ (0, 1).

条件C1和C2是生存分析中的常见假设(安徒生和吉尔，1982年;弗莱明和哈林顿，1991年). 条件C3假设协变量有界，类似的条件也用于Hong等人（2018）条件C4类似于协变量的部分正交性假设。条件C5控制协变量的总效应大小，在稀疏性原则下是合理的。条件C6是特征筛选文献中广泛使用的一个典型假设，例如范和吕（2008），条件2英寸Li等人（2012年b），条件2英寸Song等人（2014），条件2和5英寸吴和尹（2015）条件C7是一个温和的假设，适用于许多情况。条件C8是病例组设计的常见假设。

附录B：引理和理论证明

让 $β_{C类, 0}$ 是方程的解 ${u个}_{C类} (β_{C类}) = {[{u个}_{j个, k个} (β_{C类}, 0), k个 \in C类]}^{T型} = 0_{q个}$ .定义 ${v（v）}_{j个} (β_{C类, j个}, β_{j个}) = {u个}_{j个, j个} (β_{C类, j个}, β_{j个}) - \sum_{k个 \in C类} {b条}_{k个} {u个}_{j个, k个} (β_{C类, j个}, β_{j个})$ ，其中向量 ${b条}_{C类} = {[{b条}_{k个}, k个 \in C类]}^{T型}$ 这样的话 ${E类}^{*} [{Z轴}_{j个} Ş===================================================================================================== {Z轴}_{C类}] = \sum_{k个 \in C类} {b条}_{k个} {Z轴}_{k个}$ .作为准备，我们首先引入一些引理。

引理4 让 ξ= (ξ₁, …,ξ_n个)是一个随机向量，包含ñones和n−ñ0，每个排列的可能性都相同。让B_我(t吨) (我=1…，n个)是[0，τ]带有E类{B类_我(t吨)} =μ_B类(t吨),无功功率，无功功率(B类_我(τ)) < ∞.让B(t吨)=============================================================={B类₁(t吨), …,B类_n个(t吨)}独立于ξ.假设B的几乎所有路径_我(t吨)有有限的变化。然后, ${n个}^{- 1 / 2} \sum_{我 = 1}^{n个} ξ_{我} {{B类}_{我} (t吨) - μ_{B类} (t吨)}$ 在l中弱收敛^∞[0，τ]零米高斯过程，因此 ${n个}^{- 1 / 2} \sum_{我 = 1}^{n个} ξ_{我} {{B类}_{我} (t吨) - μ_{B类} (t吨)}$ 在t中一致收敛于零的概率.

这个引理与的引理A1相同Kang和Cai（2009）.

引理5 假设ξ与Δ和Y无关(t吨), ${n个}^{1 / 2} {{\hat{π}}^{- 1} (t吨) - π^{- 1}}$ 弱收敛到零米高斯过程.

这个引理是从的引理A3中提取的Ni等人（2016）.

引理6 对于独立随机变量Y₁, …,Y（Y）_n个有界范围[−M、 M（M）]和零均值,

P（P） (| {Y（Y）}_{1} + \dots + {Y（Y）}_{n个} | > 年) \leq 2 经验 (- \frac{1}{2} \frac{年^{2}}{V（V） + M（M） 年 / 三})

对于V≥变量(Y（Y）₁+ … +Y（Y）_n个).

这个引理是从的引理2.2.9中提取的范德法特和韦纳（1996）.

引理7 让ζ,ζ₁,ζ₂ η是概率空间中的任意四个随机变量(Ω, $F类$ ,P（P）)，以下属性适用于条件线性期望E类*(⋅|η)给定η：

${E类}^{*} (ζ Ş===================================================================================================== η) = E类 (ζ) + C类 o个 v（v） (ζ, η) V（V）一第页 {(η)}^{- 1} {η - E类 (η)}$ ;
${E类}^{*} (η Ş===================================================================================================== η) = η$ ;
对于任何矩阵A₁ 和A₂, ${E类}^{*} ({A类}_{1} ζ_{1} + {A类}_{2} ζ_{2} Ş===================================================================================================== η) = {A类}_{1} {E类}^{*} (ζ_{1} Ş===================================================================================================== η) + {A类}_{2} {E类}^{*} (ζ_{2} Ş===================================================================================================== η)$ ;
${E类}^{*} [{E类}^{*} (ζ Ş===================================================================================================== η)] = E类 [{E类}^{*} (ζ Ş===================================================================================================== η)] = E类 [ζ]$ .

这个引理是从Hong等人（2018）.

引理8 条件线性协方差具有以下特性：

$C类 o个 {v（v）}^{*} (ζ_{1}, ζ_{2} Ş===================================================================================================== η) = 0 \Leftrightarrow {E类}^{*} (ζ_{1} ζ_{2} Ş===================================================================================================== η) = {E类}^{*} (ζ_{1} Ş===================================================================================================== η) {E类}^{*} (ζ_{2} Ş===================================================================================================== η)$ ;
$E类 [C类 o个 {v（v）}^{*} (ζ_{1}, ζ_{2} Ş===================================================================================================== η)] = C类 o个 v（v） (ζ_{1}, ζ_{2}) - C类 o个 v（v） (ζ_{1}, η) V（V）一第页 {(η)}^{- 1} C类 o个 v（v） (η, ζ_{2})$ ;
对于任何递增函数h(·) :R（右）→R和随机变量ξ:Ω→R、我们有 $C类 o个 {v（v）}^{*} (小时 (ξ), ξ Ş===================================================================================================== η) \geq 0$ .

这个引理是从Hong等人（2018）.

引理1的证明

证明我们首先联系 $β_{j个}^{0} 到 E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}]$ 然后根据条件C6，我们将其与α_j个。对于任何 $j个 \notin C类$ 和 $k个 \in C类$ ，直接计算得出 $秒_{k个}^{我} (t吨) = E类 {{Z轴}_{k个}^{我} λ_{0} (t吨) 经验 (α^{T型} Z轴) {S公司}_{T型} {S公司}_{C类}}$ 和 $秒_{j个, k个}^{(我)} (β_{C类, j个}, β_{j个}, t吨) = E类 {{Z轴}_{k个}^{我} 经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}} (我 = 0, 1, 2)$ ，然后

{u个}_{j个, k个} (β_{C类, j个}, β_{j个}) = \int_{0}^{τ} E类 {[{Z轴}_{k个} - \frac{E类 {{Z轴}_{k个} 经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}}{E类 {经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}}] λ_{0} (t吨) 经验 (α^{T型} Z轴) {S公司}_{T型} {S公司}_{C类}} d日 t吨 .

根据定义，我们有

{v（v）}_{j个} (β_{C类, j个}, β_{j个}) = {u个}_{j个, j个} (β_{C类, j个}, β_{j个}) - \sum_{k个 \in C类} {b条}_{k个} {u个}_{j个, k个} (β_{C类, j个}, β_{j个}) \equiv {F类}_{1 j个} (β_{C类, j个}, β_{j个}) - {F类}_{2 j个} (β_{C类, j个}, β_{j个}),

哪里

{F类}_{1 j个} (β_{C类, j个}, β_{j个}) = \int_{0}^{τ} E类 {({Z轴}_{j个} - \sum_{k个 \in C类} {b条}_{k个} {Z轴}_{k个}) λ_{0} (t吨) 经验 (α^{T型} Z轴) {S公司}_{T型} {S公司}_{C类}} d日 t吨 = \int_{0}^{τ} E类 [{{Z轴}_{j个} - {E类}^{*} ({Z轴}_{j个} Ş===================================================================================================== {Z轴}_{C类})} λ_{0} (t吨) 经验 (α^{T型} Z轴) {S公司}_{T型} {S公司}_{C类}] d日 t吨 = E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}],

和

{F类}_{2 j个} (β_{C类, j个}, β_{j个}) = \int_{0}^{τ} [\frac{E类 {{Z轴}_{j个} 经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}}{E类 {经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}} - \sum_{k个 \in C类} {b条}_{k个} \frac{E类 {{Z轴}_{k个} 经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}}{E类 {经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}}] \times E类 {λ_{0} (t吨) 经验 (α^{T型} Z轴) {S公司}_{T型} {S公司}_{C类}} d日 t吨 = \int_{0}^{τ} \frac{E类 [{{Z轴}_{j个} - {E类}^{*} ({Z轴}_{j个} Ş===================================================================================================== {Z轴}_{C类})} 经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}]}{E类 {经验 ({Z轴}_{C类}^{T型} β_{C类, j个} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}} \times E类 {λ_{0} (t吨) 经验 (α^{T型} Z轴) {S公司}_{T型} {S公司}_{C类}} d日 t吨 .

根据的定义 $(β_{C类, j个}^{0}, β_{j个}^{0})$ ，我们有 ${u个}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = 0_{q个 + 1}$ ，然后 ${u个}_{j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0}) = 0$ 对于任何 $k个 \in C类 \cup {j个}$ , ${v（v）}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = {u个}_{j个, j个} (β_{C类, j个}^{0}, β_{j个}^{0}) - \sum_{k个 \in C类} {b条}_{k个} {u个}_{j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0}) = 0, {F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = {F类}_{1 j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}]$ .何时 $α_{j个} = 0, E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}] = 0$ ，因此 ${F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = 0$ .因为 ${F类}_{2 j个} (β_{C类, 0}, 0) = 0, {v（v）}_{j个} (β_{C类, 0}, 0) = E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}] - {F类}_{2 j个} (β_{C类, 0}, 0) = 0_{q个 + 1}$ .通过解的唯一性 ${v（v）}_{j个} (β_{C类}, β)$ ，我们有 $β_{j个}^{0} = 0$ .

什么时候？α_j个≠0，根据条件C6，我们有 ${F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}] \geq {c（c）}_{1} {n个}^{- κ}$ 。这意味着 ${F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个}^{0})$ 和 $E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}]$ 都是非零的，因为它们相等，所以符号相同。明确地，P（P）(δ= 1|Z轴)是事件发生的概率S公司_T型S公司_C类=P（P）(X（X）>t吨|Z轴)表示时间t的风险概率。对于任意t，我们有

\frac{\partial P（P） (δ = 1 Ş===================================================================================================== Z轴)}{\partial {Z轴}_{j个}} \times \frac{\partial P（P） (X（X） > t吨 Ş===================================================================================================== Z轴)}{\partial {Z轴}_{j个}} \leq 0 .

通过引理8，Cov公司* {Z轴_j个,P（P）(δ= 1|Z轴)| ${Z轴}_{C类}$ }和Cov公司*(Z轴_j个,S公司_T型S公司_C类| ${Z轴}_{C类}$ )除非符号为零，否则符号相反。这进一步意味着

{F类}_{2 j个} (β_{C类, 0}, 0) = \int_{0}^{τ} \frac{E类 {经验 ({Z轴}_{C类}^{T型} β_{C类, 0}) C类 o个 {v（v）}^{*} ({Z轴}_{j个}, {S公司}_{T型} {S公司}_{C类} Ş===================================================================================================== {Z轴}_{C类})}}{E类 {经验 ({Z轴}_{C类}^{T型} β_{C类, 0}) {S公司}_{T型} {S公司}_{C类}}} \times E类 {λ_{0} (t吨) 经验 (α^{T型} Z轴) {S公司}_{T型} {S公司}_{C类}} d日 t吨,

和E类[Cov公司*{Z轴_j个,P（P）(δ= 1|Z轴)| ${Z轴}_{C类}$ }]除非符号等于零，否则符号相反。所以 ${F类}_{2 j个} (β_{C类, 0}, 0) \neq {F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个}^{0})$ 因此， $β_{j个}^{0} \neq 0$ .

引理2的证明

证明通过引理1，对于任意 $j个 \in {A类}_{C类}$ ，我们有 $β_{j个}^{0} \neq 0$ 根据泰勒展开，存在 ${\tilde{β}}_{j个} \in (0, β_{j个}^{0})$ 这样的话

| {v（v）}_{j个} (β_{C类, j个}^{0}, 0) | = | {v（v）}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) - {v（v）}_{j个} (β_{C类, j个}^{0}, 0) | = | \frac{\partial {v（v）}_{j个}}{\partial β_{j个}} (β_{C类, j个}^{0}, {\tilde{β}}_{j个}) | | β_{j个}^{0} | .

通过引理1的证明， ${v（v）}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}] - {F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个}^{0})$ .给定 $β_{C类, j个}^{0}$ ，考虑 ${F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个})$ 作为的函数β_j个，然后

\frac{\partial {F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个})}{\partial β_{j个}} = \int_{0}^{τ} {H（H）}_{j个} (β_{C类, j个}^{0}, β_{j个}, t吨) E类 {λ_{0} (t吨) 经验 (α^{T型} Z轴) {S公司}_{T型} {S公司}_{C类}} d日 t吨 = E类 {\int_{0}^{τ} {H（H）}_{j个} (β_{C类, j个}^{0}, β_{j个}, t吨) {S公司}_{C类} d日 {F类}_{T型} (t吨 Ş===================================================================================================== Z轴)},

哪里

{H（H）}_{j个} (β_{C类, j个}^{0}, β_{j个}, t吨) = \frac{E类 [{Z轴}_{j个} {{Z轴}_{j个} - {E类}^{*} ({Z轴}_{j个} Ş===================================================================================================== {Z轴}_{C类})} 经验 ({Z轴}_{C类}^{T型} β_{C类, j个}^{0} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}]}{E类 {经验 ({Z轴}_{C类}^{T型} β_{C类, j个}^{0} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}} - \frac{E类 [{{Z轴}_{j个} - {E类}^{*} ({Z轴}_{j个} Ş===================================================================================================== {Z轴}_{C类})} 经验 ({Z轴}_{C类}^{T型} β_{C类, j个}^{0} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}] E类 {{Z轴}_{j个} 经验 ({Z轴}_{C类}^{T型} β_{C类, j个}^{0} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}}{{[E类 {经验 ({Z轴}_{C类}^{T型} β_{C类, j个}^{0} + {Z轴}_{j个} β_{j个}) {S公司}_{T型} {S公司}_{C类}}]}^{2}}

根据条件C3|Z轴_j个| ≤L（左）₀，然后 $\underset{β_{j个}}{啜饮} | {H（H）}_{j个} (β_{C类, j个}^{0}, β_{j个}, t吨) | \leq 2 {L（左）}_{0}^{2}$ .所以

| \frac{\partial {v（v）}_{j个}}{\partial β_{j个}} (β_{C类, j个}^{0}, {\tilde{β}}_{j个}) | \leq \underset{β_{j个}}{啜饮} | \frac{\partial {F类}_{2 j个} (β_{C类, j个}^{0}, β_{j个})}{\partial β_{j个}} | \leq 2 {L（左）}_{0}^{2} | E类 [E类 {{S公司}_{C类} (T型) Ş===================================================================================================== Z轴}] | \leq 2 {L（左）}_{0}^{2} .

根据引理1中的证明， ${F类}_{2 j个} (β_{C类, j个}^{0}, 0) 和 E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}]$ 具有相反的符号，将其与条件C6相结合，

| {v（v）}_{j个} (β_{C类, j个}^{0}, 0) | = | E类 [C类 o个 {v（v）}^{*} {{Z轴}_{j个}, P（P） (δ = 1 Ş===================================================================================================== Z轴) Ş===================================================================================================== {Z轴}_{C类}}] | + | {F类}_{2 j个} (β_{C类, j个}^{0}, 0) | \geq {c（c）}_{1} {n个}^{- κ} .

所以

| β_{j个}^{0} | = {| \frac{\partial {v（v）}_{j个}}{\partial β_{j个}} (β_{C类, j个}^{0}, {\tilde{β}}_{j个}) |}^{- 1} | {v（v）}_{j个} (β_{C类, j个}^{0}, 0) | \geq {(2 {L（左）}_{0}^{2})}^{- 1} {c（c）}_{1} {n个}^{- κ} .

拿 ${c（c）}_{2} = 0.5 {L（左）}_{0}^{- 2} {c（c）}_{1}$ ，我们有

\underset{j个 \in {A类}_{- C类}}{最小值} | β_{j个}^{0} | \geq {c（c）}_{2} {n个}^{- κ},

这就完成了证明。

引理3的证明

证明表示 ${\bar{U型}}_{j个} (β_{C类, j个}, β_{j个}) = {n个}^{- 1} {U型}_{j个} (β_{C类, j个}, β_{j个})$ 根据的定义 ${({\hat{β}}_{C类, j个}, {\hat{β}}_{j个})}^{T型}$ ，我们有

‖ {\bar{U型}}_{j个} ({\hat{β}}_{C类, j个}, {\hat{β}}_{j个}) - {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) ‖ = ‖ {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) ‖ .

对于任何 $j个 \notin C类$ 和 $k个 \in C类 \cup {j个}$ ，使用类似的方法林伟（1989），通过引理4和5，我们可以得到

{\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = {n个}^{- 1} \sum_{我 = 1}^{n个} {W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0}) + {o个}_{第页} (1),

哪里 ${W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0}) (我 = 1, \dots, n个)$ 是独立的， $E类 {{W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0})} = 0 和 {W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = [{W公司}_{我, j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0})$ 、和 ${W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = [{W公司}_{我, j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0}), k个 \in C类 \cup {j个}]^{T型}$ 具有

{W公司}_{我, j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0}) = \int_{0}^{τ} [{Z轴}_{我 k个} - \frac{E类 {{Z轴}_{我 k个} 经验 (β_{C类, j个}^{0} {Z轴}_{我, C类} + β_{j个}^{0} {Z轴}_{我 j个}) {S公司}_{T型} {S公司}_{C类}}}{E类 {经验 (β_{C类, j个}^{0} {Z轴}_{我, C类} + β_{j个}^{0} {Z轴}_{我 j个}) {S公司}_{T型} {S公司}_{C类}}}] d日 {N个}_{我} (t吨) - \int_{0}^{τ} \frac{{Y（Y）}_{我} (t吨) 经验 (β_{C类, j个}^{0} {Z轴}_{我, C类} + β_{j个}^{0} {Z轴}_{我 j个})}{E类 {经验 (β_{C类, j个}^{0} {Z轴}_{我, C类} + β_{j个}^{0} {Z轴}_{我 j个}) {S公司}_{T型} {S公司}_{C类}}} [{Z轴}_{我 k个} - \frac{E类 {{Z轴}_{我 k个} 经验 (β_{C类, j个}^{0} {Z轴}_{我, C类} + β_{j个}^{0} {Z轴}_{我 j个}) {S公司}_{T型} {S公司}_{C类}}}{E类 {经验 (β_{C类, j个}^{0} {Z轴}_{我, C类} + β_{j个}^{0} {Z轴}_{我 j个}) {S公司}_{T型} {S公司}_{C类}}}] E类 {d日 {N个}_{我} (t吨)} .

让E类_n个表示经验度量，我们可以写

{\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) = {E类}_{n个} [{W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0})] + {o个}_{第页} (1) .

对于任何给定的i、 j、k、，根据条件C1、C3、C5，存在一个常数L（左）₂这样的话 $| {W公司}_{我, j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0}) | \leq {L（左）}_{2}$ 事实上 $E类 [{W公司}_{我, j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0})] = 0$ ，我们有 $V（V）一第页 [{W公司}_{我, j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0})] = E类 [{| {W公司}_{我, j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0}) |}^{2}] \leq {L（左）}_{2}^{2}$ .对于任何情况，通过引理6t吨> 0, $j个 \notin C类$ 和 $k个 \in C类 \cup {j个}$ ，我们有

P（P） (| {E类}_{n个} ({W公司}_{我, j个, k个} (β_{C类, j个}^{0}, β_{j个}^{0})) | > \frac{t吨}{n个}) \leq 2 经验 (- \frac{1}{2} \frac{{t吨}^{2}}{n个 {L（左）}_{2}^{2} + {L（左）}_{2} t吨 / 三}) .

根据Bonferroni不等式

P（P） ({‖ {E类}_{n个} ({W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0})) ‖}_{2} > \frac{t吨 (q个 + 1)}{n个}) \leq 2 (q个 + 1) 经验 (- \frac{1}{2} \frac{{t吨}^{2}}{n个 {L（左）}_{2}^{2} + {L（左）}_{2} t吨 / 三}) .

作为 ${‖ {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) - {E类}_{n个} [{W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0})] ‖}_{2} = {o个}_{第页} (1),$ ，对于任何ϵ₁>0和ϵ₂>0，存在N个₁这样，对于

P（P） ({‖ {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) - {E类}_{n个} [{W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0})] ‖}_{2} > L（左） {c（c）}_{2} ϵ_{1} / 2) < ϵ_{2} .

拿 $t吨 = \frac{{c（c）}_{2} L（左） {n个}^{1 - κ}}{2 (q个 + 1)} > 0$ ，然后 $\frac{t吨 (q个 + 1)}{n个} = \frac{{c（c）}_{2} L（左） {n个}^{- κ}}{2}$ 通过三角不等式和Bonferroni不等式，我们得到

P（P） ({‖ {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) ‖}_{2} > L（左） {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) \leq P（P） ({‖ {E类}_{n个} {{W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0})} ‖}_{2} > L（左） {c（c）}_{2} {n个}^{- κ} / 2) + P（P） ({‖ {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) - {E类}_{n个} {{W公司}_{我, j个} (β_{C类, j个}^{0}, β_{j个}^{0})} ‖}_{2} > L（左） {c（c）}_{2} ϵ_{1} / 2) \leq 2 (q个 + 1) 经验 (- \frac{1}{2} \frac{{c（c）}_{2}^{2} {L（左）}^{2} {n个}^{2 - 2 κ} / 4 {(q个 + 1)}^{2}}{n个 {L（左）}_{2}^{2} + {L（左）}_{2} {c（c）}_{2} L（左） {n个}^{1 - κ} / 6 (q个 + 1)}) + ϵ_{2} .

拿N个=最大值{(L（左）₂/3)^1/κ,N个¹}，那么对于任何n个>N个,n个^−κ< 3/L（左）₂，所以我们有

P（P） ({‖ {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) ‖}_{2} > L（左） {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) \leq 2 (q个 + 1) 经验 (- {c（c）}_{三} {n个}^{1 - 2 κ}) + ϵ_{2},

哪里 ${c（c）}_{三} = \frac{{c（c）}_{2}^{2} {L（左）}^{2}}{8 {L（左）}_{2}^{2} {(q个 + 1)}^{2} + 4 {c（c）}_{2} L（左） (q个 + 1)}$ .根据条件C7，我们有

P（P） (| {\hat{β}}_{j个} - β_{j个}^{0} | > {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) \leq P（P） ({‖ {({\hat{β}}_{C类, j个}, {\hat{β}}_{j个})}^{T型} - {(β_{C类, j个}^{0}, β_{j个}^{0})}^{T型} ‖}_{2} > {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) \leq P（P） ({‖ {\bar{U型}}_{j个} {({\hat{β}}_{C类, j个}, {\hat{β}}_{j个})}^{T型} - {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) ‖}_{2} > L（左） {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) = P（P） ({‖ {\bar{U型}}_{j个} (β_{C类, j个}^{0}, β_{j个}^{0}) ‖}_{2} > L（左） {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) \leq 2 (q个 + 1) 经验 (- {c（c）}_{三} {n个}^{1 - 2 κ}) + ϵ_{2} .

那么我们有

P（P） (\underset{j个 \in {A类}_{- C类}}{最大值} | {\hat{β}}_{j个} - β_{j个}^{0} | > {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) \leq 2 一 (q个 + 1) 经验 (- {c（c）}_{三} {n个}^{1 - 2 κ}) + 一 ϵ_{2},

哪里 $一 = | {A类}_{- C类} | = \sum_{j个 \notin C类} 我 (α_{j个} \neq 0)$ 是的大小| ${A类}_{- C类}$ |.

定理1的证明

证明根据的定义 ${A类}_{- C类}$ 条件C7，存在一个正常数c（c）₄这样的话

P（P） ({A类}_{- C类} \subseteq {\hat{A类}}_{- C类}) = P（P） (\underset{j个 \in {A类}_{- C类}}{最小值} | {\hat{β}}_{j个} | / {\hat{σ}}_{j个} \geq γ) \geq 1 - P（P） (\underset{j个 \in {A类}_{- C类}}{最小值} | {\hat{β}}_{j个} | < {n个}^{- 1 / 2} {c（c）}_{4} γ) .

在引理2之后，对于任意 $j个 \in {A类}_{- C类}$ ，我们有 $| β_{j个}^{0} - {\hat{β}}_{j个} | \geq | β_{j个}^{0} | - | {\hat{β}}_{j个} | \geq {c（c）}_{2} {n个}^{- κ} - | {\hat{β}}_{j个} |$ .假设 ${最小值}_{j个 \in {A类}_{- C类}} | {\hat{β}}_{j个} |$ <n个^−1/2c（c）₄γ，然后 $\underset{j个 \in {A类}_{- C类}}{最大值} | β_{j个}^{0} - {\hat{β}}_{j个} | \geq {c（c）}_{2} {n个}^{- κ} - {n个}^{- 1 / 2} {c（c）}_{4} γ$ .如果我们有 $γ < {c（c）}_{2} ({n个}^{- κ} - ϵ_{1}) {n个}^{1 / 2} / (2 {c（c）}_{4})$ ，我们可以获得

P（P） (\underset{j个 \in {A类}_{- C类}}{最小值} | {\hat{β}}_{j个} | < {n个}^{- 1 / 2} {c（c）}_{4} γ) < P（P） (\underset{j个 \in {A类}_{- C类}}{最大值} | β_{j个}^{0} - {\hat{β}}_{j个} | \geq {c（c）}_{2} ({n个}^{- κ} + ϵ_{1}) / 2) .

然后 $P（P） ({A类}_{- C类} \subseteq {\hat{A类}}_{- C类}) \geq 1 - 2 一 (q个 + 1) 经验 (- {c（c）}_{三} {n个}^{1 - 2 κ}) - 一 ϵ_{2}$ .让n个→ ∞, 对于任何ϵ₂>0，我们有 $林_{n个 \to \infty} P（P） ({A类}_{- C类} \subseteq {\hat{A类}}_{- C类}) \geq 1 - 一 ϵ_{2}$ ，上述等式的右侧不取决于n个再。拿ϵ₂→ 0，我们有 $林_{n个 \to \infty} P（P） ({A类}_{- C类} \subseteq {\hat{A类}}_{- C类}) = 1$ .

定理2的证明

证明对于任何 $j个 \in {A类}_{- C类}$ ，我们有α_j个≠ 0. 从引理1我们知道 $| β_{j个}^{0} | > 0$ 相似之处，我们有 $| β_{j个}^{0} | > 0$ 同样，我们有 $| β_{j个}^{0} | = 0$ 如果 $j个 \in {A类}_{- C类}$ .作为 ${\hat{β}}_{j个}$ 是的一致估计量 $β_{j个}^{0}$ 和 ${M（M）}_{C类, j个} = | {\hat{β}}_{j个} | / {\hat{σ}}_{j个}$ ，我们可以很容易地得出结论 $P（P） ({最大值}_{j个 \notin {A类}_{- C类}} {M（M）}_{C类, j个} < {最小值}_{j个 \in {A类}_{- C类}} {M（M）}_{C类, j个}) \to 1$ 什么时候n个→ ∞, 这就完成了定理2的证明。

脚注

出版商免责声明：本AM是同行评审后接受出版的手稿的PDF文件，但不反映验收后的改进或任何更正。使用本AM需遵守出版商的禁运期和AM使用条款。

补充资料

这个补充材料为实际数据分析提供了一些附加结果。

利益冲突

作者声明，我们没有利益冲突。

工具书类

安徒生PK，吉尔RD（1982）计数过程的考克斯回归模型：一项大样本研究.安统计师 10：1100–1120[谷歌学者]
巴洛WE（1994）病例组设计的稳健方差估计.生物识别 50: 1064–1072 [公共医学][谷歌学者]
Barut E、Fan J、Verhasselt A（2016）有条件的确定独立性筛选.J Am统计协会 111: 1266–1277[PMC免费文章][公共医学][谷歌学者]
Borgan O、Langholz B、Samuelsen SO、Goldstein L、Pogoda J（2000）暴露分层病例组设计.终身数据分析 6: 39–58 [公共医学][谷歌学者]
Bresolw NE，Wellner JA（2007年）半参数模型和两阶段分层样本的加权似然及其在cox回归中的应用.扫描J统计 34: 86–102[PMC免费文章][公共医学][谷歌学者]
Candes E、Tao T（2007）Dantzig选择器：当第页远大于n个.安统计师 35: 2313–2351[谷歌学者]
Chang J、Tang CY、Wu Y（2013）边际经验似然和确定独立性特征筛选.安统计师 41: 2123–2148[PMC免费文章][公共医学][谷歌学者]
陈凯（2001）广义病例组抽样.J R统计师B 63：791–809[谷歌学者]
陈凯、罗世华（1999）基于Cox模型的病例对照分析.生物特征 86: 755–764[谷歌学者]
考克斯DR（1972）回归模型和生命表.J R统计师B 34：187–220。[谷歌学者]
崔浩、李锐、钟伟（2015）超高维判别分析的无模型特征筛选.J Am统计协会 110: 630–641[PMC免费文章][公共医学][谷歌学者]
范杰、冯毅、宋锐（2011）稀疏超高维加性模型中的非参数独立性筛选.J Am统计协会 106: 544–557[PMC免费文章][公共医学][谷歌学者]
Fan J，Feng Y，Wu Y（2010）Cox比例风险模型的高维变量选择。借力：理论驱动应用——劳伦斯·D·布朗（Lawrence D.Brown）的一场盛宴数理统计研究所；6: 70–86[谷歌学者]
范杰、李锐（2001）基于非冲突惩罚似然的变量选择及其oracle性质.J Am统计协会 96: 1348–1360[谷歌学者]
范J、吕J（2008）超高维特征空间的确定独立筛选.J R统计师B 70: 849–911[PMC免费文章][公共医学][谷歌学者]
范杰、马云、戴伟（2014）稀疏超高维变系数模型中的非参数独立筛选.J Am统计协会 109: 1270–1284[PMC免费文章][公共医学][谷歌学者]
Fan J、Samworth R、Wu Y（2009）超高维特征选择：超越线性模型.J Mach学习研究 10: 2013–2038[PMC免费文章][公共医学][谷歌学者]
樊杰、宋瑞（2010）NP维广义线性模型中的确定独立筛选.安统计师 38: 3567–3604[谷歌学者]
Fleming TR，Harrington DP（1991年）计数过程和生存分析纽约威利。[谷歌学者]
Gorst-Rasmussen A，Scheike T（2013）具有超高维特征的单指标风险率模型的独立筛选.J R统计师B 75：217–245[谷歌学者]
何X、王磊、洪洪辉（2013）高维异质数据的分位数自适应无模型变量筛选.安统计师 41: 342–369[谷歌学者]
Hong HG、Kang J、Li Y（2018）。具有生存结果的超高维协变量的条件筛选.终身数据分析 24: 45–71[PMC免费文章][公共医学][谷歌学者]
洪洪辉、王磊、何X（2016）高维变量条件筛选的数据驱动方法.统计 5: 200–212[谷歌学者]
胡强、林磊（2017）基于条件边际经验似然的条件确定独立性筛选.Ann Inst统计数学,69: 63–96[谷歌学者]
Kalbfleisch JD，Lawless JF（1988）疾病发病率和死亡率多状态模型的可能性分析.统计医学 7: 149–160 [公共医学][谷歌学者]
Kang S、Cai J（2009）具有多种疾病结局的病例组研究的边际风险模型.生物特征 96: 887–901[PMC免费文章][公共医学][谷歌学者]
Keogh RH，White IR（2013年）通过多重插补在嵌套病例对照和病例组研究中使用全队列数据.统计医学 32: 4021–4043 [公共医学][谷歌学者]
Kim S，Ahn WK（2019年）具有群体变量的病例组研究的双水平变量选择.统计方法医学研究,28: 3404–3414[PMC免费文章][公共医学][谷歌学者]
Kim S、Cal J、Lu W（2013）病例组研究的更有效估计.生物特征 100: 695–708[PMC免费文章][公共医学][谷歌学者]
Kulich M，Lin D（2004）提高病例组研究中相对风险评估的效率.J Am统计协会 99：832–844[谷歌学者]
李刚、彭浩、张杰、朱莉（2012a）基于稳健秩相关的筛选.安统计师 40: 1846–1877[谷歌学者]
Li R、Zhong W、Zhu L（2012b）基于距离相关学习的特征筛选.J Am统计协会 107: 1129–1139[PMC免费文章][公共医学][谷歌学者]
林大勇、魏立杰（1989）Cox比例风险模型的稳健推断.美国统计协会 84: 1074–1078[谷歌学者]
Lin Y、Liu X、Hao M（2018）高维生存数据的无模型特征筛选.科学中国数学 61: 1617–1636[谷歌学者]
刘杰、李锐、吴锐（2014）超高维协变量变系数模型的特征选择.J Am统计协会 109: 266–274[PMC免费文章][公共医学][谷歌学者]
刘毅、王强（2018）基于某些变量的超高维数据无模型特征筛选.Ann Inst统计数学 70: 283–301[谷歌学者]
刘毅、张杰、赵X（2018）超高维生存数据的一种新的非参数筛选方法.玉米统计数据分析 119: 74–85[谷歌学者]
卢J、林L（2020）基于条件距离相关的无模型条件筛选.统计帕普 61: 225–244[谷歌学者]
Mai Q，Zou H（2015）融合Kolmogorov滤波器：一种非参数无模型筛选方法.安统计师 43: 1471–1497[谷歌学者]
Marti H，Chavance M（2011年）病例队列研究的多重插补分析.统计医学 30: 1595–1607 [公共医学][谷歌学者]
倪A、卡尔J、曾D（2016）具有失效时间结果的病例组研究的变量选择.生物特征 103: 547–562[PMC免费文章][公共医学][谷歌学者]
Pan W，Wang X，Xiao W，Zhu H（2019年）一种通用的确定独立性筛选程序.J Am统计协会 114: 928–937[PMC免费文章][公共医学][谷歌学者]
Prentice RL（1986）流行病学队列研究和疾病预防试验的病例组设计.生物特征 73：1–11[谷歌学者]
Scheike TH、Martinussen T（2004）病例组抽样下Cox回归模型的最大似然估计.扫描J统计 31: 283–293[谷歌学者]
Self SG，Prentice R（1988）病例组研究的渐近分布理论和效率结果.安统计师 16: 64–81[谷歌学者]
Song R、Lu W、Ma S、Jeng XJ（2014）高维生存数据的删失秩独立筛选.生物特征 101: 799–814[PMC免费文章][公共医学][谷歌学者]
Tibshirani R（1996）通过套索回归收缩和选择.J R统计师B 58: 267–288[谷歌学者]
Tibshirani R（2009）高维数据Cox模型中的单变量收缩.统计应用基因分子 8: 1–18[PMC免费文章][公共医学][谷歌学者]
Uno H、Cal T、Pencina MJ、D'Agostino RB、Wei LJ（2011）用删失生存数据评估风险预测程序总体充分性的C统计量.统计医学 30: 1105–1117[PMC免费文章][公共医学][谷歌学者]
van de Vijver MJ、He YD、van t Veer LJ、Dai H、Hart AA、Voskuil DW、Schreiber GJ、Peterse JL、Roberts C、Marton MJ等（2002）基因表达特征作为乳腺癌生存预测因子.新英格兰医学杂志 347: 1999–2009 [公共医学][谷歌学者]
van der Vaart AW，Wellner JA（1996）。弱收敛与经验过程纽约州施普林格，[谷歌学者]
van t Veer LJ、Dai H、van De Vijver MJ、He YD、Hart AA、Mao M、Peterse HL、van der Kooy K、Marton MJ、Witteveen AT、Schreiber GJ、Kerkhoven RM、Roberts C、Linsley PS、Bernards R、Friend SH（2002）基因表达谱预测乳腺癌的临床预后.自然 415: 530–536 [公共医学][谷歌学者]
吴Y，尹G（2015）超高维异质数据的条件分位数筛选.生物特征 102: 65–76[谷歌学者]
Yaung KY，Bumgarner RE，Raftery AE（2005）贝叶斯模型平均：改进的微阵列数据多类、基因选择和分类工具的开发.生物信息学 21: 2394–2402 [公共医学][谷歌学者]
曾D，林迪（2014）两阶段队列研究中半参数转换模型的有效估计.J Am统计协会 109: 371–383[PMC免费文章][公共医学][谷歌学者]
张驰（2010）极小极大凹惩罚下的几乎无偏变量选择.安统计师 38: 894–942[谷歌学者]
张杰、殷庚、刘毅、吴毅（2018）超高维生存数据的删失累积残差独立筛查.终身数据分析 24: 273–292 [公共医学][谷歌学者]
赵SD、李毅（2012）超高维协变量Cox模型的原则确定独立性筛选.J多分析 105: 397–411[PMC免费文章][公共医学][谷歌学者]
周涛、朱莉（2017）超高维删失回归的无模型特征筛选.统计玉米 27: 947–961[谷歌学者]
Zhu LP、Li L、Li R、Zhu LX（2011）超高维数据的无模型特征筛选.J Am统计协会 106: 1464–1475[PMC免费文章][公共医学][谷歌学者]
邹华（2006）自适应Lasso及其oracle属性.J Am统计协会 101: 1418–1429[谷歌学者]

病例组研究中超高维生存数据的条件筛选

张静（音译）

周海波

刘燕燕（Yanyan Liu）

蔡建文

关联数据

摘要

1 介绍

2 病例组数据的条件筛选

三。 理论性质

4 模拟研究

示例1。

示例2。

表1

表2

表3

5 乳腺癌数据的应用

表4

表5

6 结论

补充材料

1745068_上部材料

致谢

附录A：规则性条件

附录B：引理和理论证明

脚注

工具书类

三。理论性质