Variable selection for case-cohort studies with failure time outcome

Ai Ni; Jianwen Cai; Donglin Zeng

doi:10.1093/biomet/asw027

生物特征。2016年9月；103(3): 547–562.

2016年8月10日在线发布。数字对象标识：10.1093/biomet/asw027

预防性维修识别码：项目编号：5436496

NIHMSID公司：NIHMS855878号

PMID：28529347

具有失效时间结果的病例组研究的变量选择

艾妮，蔡建文，和曾东林

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 补充数据。
asw027_补充数据.zip（36.6万）
GUID:3148DC7F-BE4A-49C4-B64C-2BDF390E3D49

摘要

病例-协方差分析设计广泛应用于大型队列研究中，以降低与协变量测量相关的成本。在许多这样的研究中，协变量的数量非常大，因此需要一种有效的变量选择方法。在本文中，我们研究了在具有发散参数数的病例队列设计中，使用平滑剪裁的绝对偏差惩罚的变量选择过程的性质。我们建立了最大惩罚伪部分似然估计量的一致性和渐近正态性，并证明了所提出的变量选择方法是一致的，并且具有渐近预言性质。仿真研究比较了该方法与基于Akaike信息准则和Bayesian信息准则的调谐参数选择方法的有限样本性能。我们建议在病例组研究中使用建议的程序，并将其应用于Busselton Health Study。

关键词：案例协方差设计、参数离散数、Oracle属性、平滑剪裁绝对偏差、生存分析、变量选择

1.简介

大规模流行病学研究和疾病预防试验通常会对数千名受试者进行长时间跟踪。测量整个研究队列的协变量可能非常昂贵，尤其是当涉及到采集生物样本或进行昂贵的生物测定时。此外，在此类研究中，心血管疾病、中风或死亡等相关事件的发生率通常较低。我们将研究期间发生感兴趣事件的受试者称为病例，其他受试者则称为非病例。如果要为研究中的每个人测量协变量，那么大部分成本将花费在非病例上，因为非病例提供的信息不如病例提供的那么多。为了减少收集昂贵协变量的成本和工作量，同时尽可能降低效率，普伦蒂斯（1986）提出了病例组设计，其中完整的协变量信息仅从样本的随机子组以及所有病例中获得。

在比例风险模型下，针对案例研究开发了各种估计方法(考克斯，1972年).普伦蒂斯（1986）和赛尔夫和普伦蒂斯（1988）提出了一种伪部分似然方法，该方法修改了风险集，以考虑亚组抽样。巴洛（1994）引入一个时间相关的权重来估计子组样本的风险集，并为回归参数开发了一个稳健的方差估计。Kalbfleisch和Lawless（1988）提出了一种更有效的加权方法，即使用所有案例的完整协变量历史。Borgan等人（2000年）进一步研究了分层病例组设计下的几种权重。Kulich和Lin（2004）建立了有效加权估计量的渐近性质Kalbfleisch和Lawless（1988）;Kang&Cai（2009）将此估计推广到具有多变量失效时间结果的研究，以及Kim等人（2013）进一步提高了多变量失效时间结果存在时的估计效率。在本文中，我们重点讨论了Kalbfleisch和Lawless（1988）在一个单变量未经批准的病例组设计中。

在使用病例队列设计的大型流行病学研究中，通常会收集许多协变量，通常研究的一个目标是确定与感兴趣事件相关的协变量子集。由于包含了相互作用和多项式项，候选协变量的数量可能非常大胡贝尔（1973）有人认为，在变量选择的背景下，参数的数量应被视为随着样本量的增加而无限增加方程式M1 在本文中，我们考虑模型大小方程式M2 发散到无穷大，但速度比样本量慢。传统的变量选择方法，如逐步和最佳子集选择，计算量大且不稳定。自从套索由Tibshirani（1996）基于惩罚的变量选择程序取得了巨大的成功。在一定的正则性条件下，这些方法可以同时选择变量并估计其系数。已经提出了许多惩罚函数，其中平滑剪裁的绝对偏差(Fan&Li，2001年)，自适应套索(邹，2006年)，自适应弹性网(邹和张，2009)和极小极大凹面(张，2010)惩罚已被证明拥有oracle属性，即方程式M3 该方法以趋于统一的概率正确识别真实模型，并像真实模型已知一样有效地估计非零参数的标准误差。范丽丽（2002）将平滑剪裁的绝对偏差惩罚应用于比例风险模型，并证明了其oracle性质。蔡等（2005）将惩罚部分似然方法推广到参数数目不同的多元模型。然而，据我们所知，在并非所有协变量都被完全观测到的病例组设计中，惩罚变量选择的性质尚未被研究。

2.病例组设计的伪部分似然

假设有方程式M4 队列中的独立受试者。让方程式M5 成为方程式M6 ，可能与时间相关，对象的协变量向量方程式M7 时间方程式M8 .自方程式M9 用方程式M10 ，所有作为协变量函数的量都取决于方程式M11 然而，为了简化符号，我们将去掉下标方程式M12 .在不失一般性的情况下，我们对实值真参数向量进行分区方程式M13 作为方程式M14 ，其中方程式M15 和方程式M16 是的非零和零分量方程式M17 分别是。表示方式方程式M18 尺寸方程式M19 ，允许偏离方程式M20 以这样的方式方程式M21 收敛到常数方程式M22 。

让方程式M23 和方程式M24 分别是获得利益结果的时间和审查时间。让方程式M25 是观察到的时间，让方程式M26 是审查指标，其中方程式M27 表示指示器功能。我们假设方程式M28 和方程式M29 是独立的，有条件的方程式M30 .定义主题方程式M31 计数过程方程式M32 以及风险流程方程式M33 .让方程式M34 表示受试者的危险函数方程式M35 。考克斯（1972）提出比例风险模型方程式M36 ，其中方程式M37 是未指定的基线危险函数。

在病例组设计中，假设我们随机选择一个固定大小的子组方程式M38 来自整个队列。让方程式M39 表示方程式M40 被选入子组的受试者，并让方程式M41 是的选择概率方程式M42 主题。这里我们考虑不进行替换的简单随机抽样。在此抽样方案下，方程式M43 相互关联。未观察到亚组外受试者的协变量历史。如果所有情况都有完整的协变量历史，可以使用以下伪部分似然来估计回归系数方程式M44 (Kalbfleisch&Lawless，1988年):

（1）

哪里方程M46 是研究结束的时间方程式M47 ，使用方程式M48 真抽样概率的时间相关估计方程式M49 .相应的伪部分得分方程为

哪里方程式M51 对于方程式M52 .在这里方程式M53 ，方程式M54 和方程式M55 对于向量方程式M56 。

3.具有惩罚伪部分似然的变量选择

3.1. 惩罚伪部分似然

我们将惩罚伪部分似然定义为

(2)

哪里方程式M58 是一个非负惩罚函数方程式M59 .非负调谐参数方程式M60 控制模型的复杂性。我们使用平滑剪裁的绝对偏差惩罚(Fan&Li，2001年)具有协变量特定调谐参数方程式M61 ，允许不同的回归系数具有不同的惩罚函数。平滑剪裁的绝对偏差惩罚为

对一些人来说方程式M63 和方程式M64 。罚款的一阶导数为

3.2. 规律性条件

对于每个方程式M66 ，我们定义

我们需要以下正则性条件：

条件1-

方程式M68 和方程式M69 ;

条件2-

方程式M70 几乎可以肯定的是方程式M71 ，用于方程式M72 和方程M73

条件3-

有一个街区方程式M74 属于方程式M75 这样对所有人来说方程式M76 和方程式M77 ，方程式M78 和方程式M79 .功能方程式M80 ( 方程式M81 )连续且有界，并且方程式M82 从零开始有界方程式M83 ;

条件4-

存在正常数方程式M84 ，方程式M85 ，方程式M86 和方程式M87 这样的话

哪里方程M89 和方程式M90 是矩阵的最小和最大特征值；

条件5-

方程式M91 作为方程式M92 ;

条件6-

方程式M93 对于方程式M94 。

条件1保证在研究结束时有有限的基线累积风险和非空风险集。条件2要求每个与时间相关的协变量的随机过程几乎肯定具有有界变化。条件3基本上要求方程式M95 在发散维下是可积的，因此关于方程式M96 ( 方程式M97 )可以互换。条件4确保在正则设计和案例短设计下，得分函数的协方差矩阵都是正定的，并且所有的特征值都一致有界方程式M98 ; 它假设用于变量选择的目标函数的非奇异Hessian矩阵。其他变量选择工作中也假设了相同的条件(彭帆，2004;Cai等人，2005年;Cho&Qu，2013年). 条件5规定了所建议的程序能够区分非零参数和零参数的速率。作为方程式M99 ，该过程检测到的非零参数的大小可以接近零，但速度慢于调谐参数。这个条件是推导所提出的过程的渐近性质所必需的，并且已经被许多作者假设（例如。，彭帆，2004;Wang等人，2009年;Cho&Qu，2013年;Fan&Tang，2013年). 在现实的生物医学研究中，通常存在一个固定的最小临床重要效应大小。任何小于此大小的影响都可以有效地视为零。因此，条件5是一个合理的要求。条件6意味着那些有限样本估计值与方程式M100 将自动缩小为零；这有助于建立变量选择的oracle属性。

3.3. 渐近性质

在本文中，我们使用方程式M101 和方程式M102 表示概率顺序关系，以及方程式M103 和方程式M104 表示几乎完全的顺序关系。让方程式M105 和方程式M106 .我们首先证明了一个以速率收敛的惩罚伪部分似然估计量的存在性方程式M107 然后建立其oracle属性。定理1和2的证明见附录。

定理1-

在条件1-5下，如果 方程式M108 和方程式M109 作为方程式M110 ，则概率趋于1时，存在局部极大值 方程式M111 属于方程式M112 这样的话 方程式M113 。

从定理1可以得到方程式M114 -一致惩罚伪部分似然估计量，前提是方程式M115 这是条件5下平滑剪裁的绝对偏差惩罚的情况。该一致性率与指数族的最大似然估计量的一致性率相同(波特诺伊，1988年). 对于下一个定理，我们定义

（3）

(4)

定理2-

在条件1-6下，如果 方程式M118 ，方程式M119 ，方程式M120 ，方程式M121 和方程式M122 作为方程式M123 ，的方程式M124 -一致局部最大化 方程式M125 必须是这样的 方程式M126 概率趋于一，对于任何非零 方程式M127 常数向量 方程式M128 具有方程式M129 ，

分布中，其中 方程式M131 和方程式M132 定义于(三)和(4)分别为， 方程式M133 由第一个组成 方程式M134 的组件 方程式M135 、和方程式M136 由第一个组成 方程式M137 的组件 方程式M138 。

由于方程式M139 ，定理2建立了一些标准化估计的线性组合的渐近正态性。然而，通过选择特定的方程式M140 ，它可以给出每个估计量的渐近分布。因此，它为推断各个系数提供了理论基础。矩阵方程式M141 可以通过以下方式一致估计方程式M142 .矩阵的估计量方程式M143 在中给出补充材料.对于平滑剪裁的绝对偏差惩罚，方程M144 ，方程式M145 和方程式M146 对于大型方程式M147 根据条件5。因此，定理2的结果简化为

作为分发方程式M149 .条件方程式M150 和方程式M151 在上述定理中，描述了方程式M152 相对于样本量；它们在有限的方程式M153 和方程式M154 。

4.实际实施注意事项

4.1. 局部二次逼近和方差估计

由于平滑剪裁的绝对偏差惩罚函数在原点处不可微，因此在实际实现中，牛顿-拉夫森算法不能直接应用于最大化(2). 相反，我们使用了一种改进的Newton–Raphson算法，对惩罚函数进行了局部二次近似。非规范化伪部分似然(1)可以看作是惩罚伪偏似然的一个特例(2)带有方程式M155 为所有人方程式M156 .将定理1应用于方程式M157 为所有人方程式M158 ，我们知道存在方程式M159 -一致最大化(1). 凹面(1)确保最大化器是唯一的。我们使用这个最大值作为初始值方程式M160 用于改进的Newton–Raphson算法。如果方程式M161 小于预先指定的小正常数方程式M162 ，然后我们设置方程式M163 否则，惩罚函数被二次函数局部近似，方程式M164 ，具有与原始惩罚相同的值和一阶导数方程式M165 。由此可见方程式M166 。此近似值是局部的，因为它仅在以下邻域中有效方程式M167 使用近似罚函数，执行一个牛顿-拉夫逊步长，并使用更新的非零估计作为新的初始值。迭代该过程直到收敛或直到所有参数估计为零。Hunter&Li（2005）表明局部二次逼近是期望最大化算法的推广，具有相同的性质。

协方差矩阵的夹心估计方程式M168 可以直接从上述算法的最后一次迭代中获得方程式M169 ，其中方程式M170 协方差矩阵的夹心估计仅适用于非零参数估计。

4.2. 调谐参数的选择

调谐参数方程式M171 在平滑剪裁的绝对偏差惩罚函数中方程式M172 控制对每个回归系数的惩罚的大小，从而控制所选模型的复杂性。选择优化参数的典型方法包括数据驱动程序，例如方程式M173 -折叠交叉验证和广义交叉验证(Craven&Wahba，1979年). 我们跟随范丽丽（2002）和蔡等（2005）并使用广义交叉验证。参数的有效数量衡量正则回归模型中的自由度(Hastie等人，2009年). 对于比例风险模型，参数的有效数量定义为方程式M174 (Fan&Li，2002年). 广义交叉验证统计定义为

因为分子中的log-pseudo-partial似然是负数，所以可以保证它是正数。最佳调谐参数选择如下方程式M176 .这个方程式M177 -尺寸优化问题在实践中很难解决。我们跟随蔡等（2005）并采取方程式M178 ，其中方程式M179 是§4.1中使用的未经验证的伪部分似然估计量的估计标准误差。然后，优化问题简化为一维搜索最优值方程式M180 。

什么时候？方程式M181 很小，就像定理1和2的条件下的情况一样，我们可以写方程式M182 此表达式类似于Akaike信息标准(Akaike，1973年)，所以我们写方程式M183 作为方程式M184 并定义方程式M185 .遵循贝叶斯信息准则的思想(施瓦兹，1978年)，我们定义了另一个调整参数选择标准，其中最佳调整参数表示为方程式M186 ，最小化方程式M187 。Wang等人（2007）和Zhang等人（2010）表明，在参数有限的线性和广义线性模型中，方程式M188 以正概率飞越模型，而方程式M189 始终如一地识别真实模型。据我们所知，在考克斯比例风险模型中还没有建立这样的结果。在接下来的模拟部分中，我们研究了方程式M190 和方程式M191 .以下Fan&Li（2001），我们设置了第二个调谐参数方程式M192 在惩罚函数中为3 方程式M193 7在我们的模拟中。

实际上，研究人员可以执行网格搜索来识别方程式M194 和方程式M195 。搜索范围的下限为零，上限为最小值方程式M196 这是一个空模型。根据我们的模拟经验，上限很少超过2。此外，就搜索网格的精细度而言，模型选择结果相当稳健。

5.数值研究和数据应用

5.1. 模拟研究

独立的故障时间由比例风险模型生成。我们让基准风险为方程式M197 并将模型尺寸设置为方程式M198 以反映其对样本大小的依赖性，其中方程式M199 是给定审查率下的预期案例数，以及方程式M200 表示方程式M201 四舍五入到最接近的整数。我们将模型维度与案例数量联系起来，而不是直接与样本大小联系起来，因为前者更好地表示数据集中的信息量。我们跟随Tibshirani（1997）并考虑真实参数的两种情况：一些大的影响和许多小的影响。在第一个场景中，方程式M202 ; 所以三分之一的成分方程式M203 非零且绝对值中最小的非零效应为方程式M204 ，对应的危险比为方程式M205 。在第二个场景中方程式M206 平等的方程式M207 ，对应的危险比为方程式M208 在这两种情况下，我们都会生成设计矩阵方程式M209 作为相关二进制和连续变量的混合物。首先，a 方程式M210 -多维标准正态变量方程式M211 使用生成方程式M212 。然后是的前三个组件方程式M213 保持连续，而接下来的三个分量被二分为零，并且这种模式在方程式M214 因此，一半的协变量变为带有参数的二元方程式M215 .审查时间方程式M216 由均匀分布生成方程式M217 ，使用方程式M218 调整以达到所需的审查百分比。

这两种情况都考虑了不同的样本量、审查率和非个案比率。带调节参数的惩罚变量选择的性能方程式M219 或方程式M220 已评估。作为基准，我们使用硬阈值变量选择程序，其中拟合了未规范化的完整模型，并且未规范化估计的组成部分在0级给出了重要的Wald检验方程式M221 05包含在最终模型中。我们还考虑了oracle过程，其中使用了正确的协变量子集来拟合模型。由于病例组研究中的审查率通常很高，我们将其设置为80%或90%，每个设置有1000个重复。

我们将给定模型的模型误差定义为方程式M222 .在具有恒定基线风险的比例风险模型下方程式M223 ，方程式M224 给定模型的相对模型误差定义为其模型误差与未规范化完整模型的模型误差之比。我们使用相对模型误差的中位数和中位数绝对偏差来评估不同程序的预测性能。作为变量选择性能的衡量标准，我们还计算正确估计为零的参数的平均数量，错误估计为零的参数的平均数量，以及识别真实模型的总体速率。计算点估计、经验和基于模型的标准误差以及经验95%置信区间覆盖率方程式M225 在第一个场景中。

表表11总结了几种大效果场景下的仿真结果。带参数调整的惩罚方法方程式M226 就相对模型误差和识别真实模型的速度而言，在所有设置中都具有最佳性能。性能较差的方程式M227 显然是由于过拟合，这反映在正确识别的零参数的平均数较低；这与Wang等人（2007）和Zhang等人（2010）。对于两者方程式M228 和方程式M229 在病例组设计中，更多的非病例和更低的删失率与更好的预测和变量选择性能相关。表表22总结了方程式M230 在与表相同的设置下表1，1，但仅使用模拟复制，其中方程式M231 被正确标识为非零。条件启用方程式M232 所有程序都会产生近似无偏点和标准误差估计，覆盖范围接近标称水平。样本分布的正态性方程M233 通过Q-Q图进行评估，如补充材料.抽样分布方程式M234 是零质量点和左旋分布的混合物，左旋分布很好地近似于截断正态分布。随着真实模型识别率的增加，零点质量消失方程式M235 变得正常。

表1。

几个大影响场景中的模型选择性能

			非案例：案例				非案例：案例
		RME公司	零点		RITM公司		RME公司	零点		RITM公司
方法		中位数（MAD）	C类	我	(%)		中位数（MAD）	C类	我	(%)
	，80%被审查，
HT（高温）	025	067 (021)	112	00	454	050	065 (021)	11三	00	521
SCAD（AIC）		063 (020)	107	00	30三		049（022)	115	00	616
SCAD（银行识别码）		039 (020)	120	02	837		037 (018)	120	00	952
甲骨文公司		034 (016)	120	00	1000		036 (017)	120	00	1000
	，90%被审查，
HT（高温）	011	088 (030)	92	05	251	022	075 (029)	9三	02	427
SCAD（AIC）		092 (014)	64	01	12		082 (020)	76	00	8三
SCAD（银行识别码）		074 (038)	9三	05	33三		049（030)	98	0三	639
甲骨文公司		032 (018)	100	00	1000		033 (017)	100	00	1000
	，90%被审查，
HT（高温）	011	071 (024)	111	01	396	022	064 (021)	11三	00	484
SCAD（AIC）		089 (012)	79	00	12		080 (016)	95	00	94
SCAD（银行识别码）		049（024)	115	01	586		038 (018)	119	00	878
甲骨文公司		036 (017)	120	00	1000		033 (015）	120	00	1000
	，90%被审查，
HT（高温）	011	069 (020)	121	00	364	022	065 (020)	122	00	480
SCAD（AIC）		088 (014)	89	00	12		080 (018)	102	00	80
SCAD（银行识别码）		047 (021)	125	00	608		039 (018)	129	00	928
甲骨文公司		034 (015）	130	00	1000		035 (017)	130	00	1000

在单独的窗口中打开

方程式M416 ，子组抽样概率；RME，相对模型误差；MAD，中位数绝对偏差；C、正确识别为零的零参数的平均数；I、错误识别为零的非零参数的平均数量；RITM，真模型识别率；HT，硬阈值；SCAD（AIC），使用方程式M417 ; SCAD（BIC），平滑剪裁绝对偏差方程式M418 。

表2。

估计性能方程M419 在一些重大影响的场景中；结果基于复制，其中方程式M420

		非案例：案例					非案例：案例
方法			东南方	东南方	95%			东南方	东南方	95%
			()	()				()	()
	，80%被审查，
HT（高温）	998	036	700	666	926	1000	035	585	555	927
SCAD（AIC）	1000	035	668	595	920	1000	035	528	487	927
SCAD（银行识别码）	991	035	596	588	948	1000	035	512	484	93三
甲骨文公司	1000	035	606	589	945	1000	035	508	484	935
	，90%被审查，
HT（高温）	888	040	109	110	928	971	037	926	920	944
SCAD（AIC）	981	038	119	102	898	997	036	924	829	922
SCAD（银行识别码）	916	038	10三	983	925	964	036	819	804	947
甲骨文公司	1000	036	108	987	921	1000	035	837	805	938
	，90%被审查，
HT（高温）	992	037	827	795	925	1000	036	701	653	922
SCAD（AIC）	1000	036	840	732	912	1000	036	673	592	910
SCAD（银行识别码）	992	036	768	709	925	996	035	606	574	938
甲骨文公司	1000	035	764	710	930	1000	035	603	574	940
	，90%被审查，
HT（高温）	1000	036	651	629	932	1000	035	527	510	944
SCAD（AIC）	1000	036	631	583	916	1000	035	511	463	940
SCAD（银行识别码）	1000	036	593	567	940	1000	035	455	450	948
甲骨文公司	1000	036	574	567	950	1000	035	453	450	948

在单独的窗口中打开

方程式M573 ，模拟复制数，其中方程式M574 ; 东南方方程式M575 ，经验标准误差；东南方方程式M576 ，基于模型的标准误差；95% 方程式M577 ，经验95%置信区间覆盖率；HT，硬阈值；SCAD（AIC），使用方程式M578 ; SCAD（BIC），平滑剪裁绝对偏差方程式M579 。

表表3三总结了许多小效果场景中的模拟结果，其中方程式M580 在这种情况下，oracle模型只是一个未规范化的完整模型，其相对模型错误在定义上是统一的，信息量不大，因此不包括在表中。由于存在许多小但非零的影响，这三种方法都无法以很高的概率识别所有影响，如表中未显示的在所有设置中识别真实模型的近零率所反映的那样。推理结果也不令人满意；由于空间限制，它们没有被示出。尽管如此，方程式M581 相对模型误差最小，表明它在三种方法中具有最好的预测性能。此外，公式M582 正确地将最大数量的小影响识别为非零。贝叶斯信息准则倾向于选择稀疏模型，因此当存在许多小的非零参数时，其性能可能不如Akaike信息准则。相对模型误差在不同的设置中是不可比较的，因为它取决于完整模型的模型误差，这表明在这种情况下变化很大。

表3。

多个小效果场景中的模型选择性能方程式M583

	非案例：案例			非案例：案例
		RME公司	非零		RME公司	非零
方法		中位数（MAD）	估计		中位数（MAD）	估计
	，80%被审查，
HT（高温）	025	290 (150)	40	050	三59 (182)	52
SCAD（AIC）		179 (088)	60		三15 (159)	55
SCAD（银行识别码）		562 (239)	1三		894 (346)	11
	，90%被审查，
HT（高温）	011	189 (100)	26	022	291 (163)	三5
SCAD（AIC）		099 (029)	60		167 (078)	54
SCAD（银行识别码）		248 (123)	18		492 (208)	15
	，90%被审查，
HT（高温）	011	282 (145）	三4	022	三48 (169)	45
SCAD（AIC）		108 (028)	86		141 (054)	8三
SCAD（银行识别码）		三17 (152)	三0		536 (247)	26
	，90%被审查，
HT（高温）	011	三85（202)	60	022	449 (237）	77
SCAD（AIC）		126 (039)	116		184 (081)	114
SCAD（银行识别码）		491 (249)	47		838 (375)	42

在单独的窗口中打开

方程式M676 ，子组抽样概率；RME，相对模型误差；MAD，中位数绝对偏差；非零估计，未估计参数的平均数为零；HT，硬阈值；SCAD（AIC），使用方程式M677 ; SCAD（BIC），平滑剪裁绝对偏差方程式M678 。

5.2. Busselton健康研究分析

我们使用建议的变量选择程序来分析Busselton Health Study数据(卡伦，1972年;Knuiman等人，2003年). 这项研究包括在西澳大利亚州布塞尔顿镇进行的一系列横断面健康调查。从1966年到1981年，每三年通过问卷调查和临床访问从成年参与者那里收集一般健康信息。在这项分析中，我们有兴趣确定中风的危险因素。特别是，主要的危险因素是血清铁蛋白水平。在变量选择过程中，我们还考虑了其他几个风险因素：年龄、体重指数、血压治疗、收缩压、胆固醇、甘油三酯、血红蛋白和吸烟状况。在基线检查时测量所有变量。该分析的完整队列包括1401名年龄在40至89岁之间的受试者，他们参加了1981年的Busselton健康调查，当时没有诊断出冠心病或中风的病史。对受试者进行随访至1998年12月31日，记录他们中风的时间（如果有）。如果受试者在随访期间离开西澳大利亚州，则被视为审查对象。在随访期间，整个队列中有118例卒中发生率。为了降低成本并保存储存的血清，采用病例组设计，仅对随机选择的亚组和所有中风患者的血清铁蛋白水平进行测量。随机亚群的大小为450，病例队列的大小为513。

表表44总结了整个队列和子队列的基线特征。由于病例组设计，整个队列的平均铁蛋白水平不可用。全队列和亚队列基线特征的汇总统计数据相似，表明该亚队列是全队列的代表。

表4。

Busselton健康研究的基线特征

	完整队列()	小组()
变量	平均值（SD）或%	平均值（SD）或%
年龄（岁）	58.0 (108)	58.9 (109)
体质指数	25.9（39)	25.9 (40)
血压治疗（%）	17.2	18.4
收缩压（mmHg）	132.2 (200)	132.9 (202)
胆固醇（mmol/L）	6.14 (114)	6.24 (117)
甘油三酯（mmol/L）	1.52 (097)	1.55 (097)
血红蛋白（g/100 ml）	141.9 (120)	142.0 (115）
吸烟（%）
从未	49.5	51.6
前	32.4	32
当前	18.1	16.4
铁蛋白(克/升）	–	148.1 (140.8)
对数（铁蛋白）	–	4.57 (1.01)

在单独的窗口中打开

SD，标准偏差。

我们使用硬阈值方法和带有调整参数的惩罚变量选择程序方程式M694 和方程式M695 Busselton健康研究。为了避免遗漏任何潜在的重要影响，我们还在初始模型中包括所有连续协变量的二次项以及铁蛋白和所有协变量之间的相互作用。参数总数为28个。使用子组的平均值和标准偏差对所有连续协变量进行标准化，如表所示表4。4为了降低它们的偏度，我们在标准化之前对铁蛋白和甘油三酯的值进行了对数转换。调谐参数选择器识别方程式M696 和方程式M697 .表表55显示了三种方法识别的模型。由于空间限制，仅显示通过至少一种方法选择的术语。使用方程式M698 结果选择了七个术语，并使用方程式M699 结果有四个术语被选中。这两种方法都选择年龄、性别、血压治疗和收缩压平方作为中风的重要危险因素。程序使用方程式M700 另外选择收缩压的线性项和甘油三酯的线性项和平方项。硬阈值方法只选择年龄和血压治疗。

表5。

Busselton Health Study数据的估计系数和标准误差；在应用变量选择程序之前，使用基于随机子组的均值和标准差对所有连续协变量进行标准化

	硬阈值	SCAD（AIC）	SCAD（银行识别码）
变量
年龄（岁）	0.92 (027)	0.87 (015）	0.85 (014)
性别（1 女性）	0 (–)	-0.61 (026)	0.65 (025)
血压治疗	0.83 (0.34)	0.83（0.29）	0.89 (025)
收缩压	0 (–)	0.21 (015）	0 (–)
收缩压	0 (–)	0.092 (0.067)	0.16 (0044)
log（甘油三酯）	0 (–)	-0.24 (018)	0 (–)
日志（甘油三酯）	0 (–)	0.18 (0093)	0 (–)

在单独的窗口中打开

SCAD（AIC），使用方程式M718 ; SCAD（BIC），平滑剪裁绝对偏差方程M719 。

为了阐明哪种模型最适合数据，我们进行了五次交叉验证。测试数据集的平均对数伪偏似然用作验证统计量。硬阈值方法和惩罚变量选择方程M720 和方程式M721 提供验证统计信息方程式M722 ，方程式M723 和方程式M724 分别是。因此，我们认为模型具有方程式M725 最适合Busselton数据。根据这个模型，年龄增加、男性化、血压治疗和收缩压升高与中风的高风险相关。没有证据表明血清铁蛋白水平与中风有关。

6.讨论

本文提出的定理的一个潜在局限性是，它们只建立了惩罚目标函数的局部极大值的一致性和预言性。由于惩罚目标函数的非共性，可能存在多个最大值。然而，基于范和李（2001），§3.5），并根据表中估计值的微小偏差进行判断表2，2，可以合理地假设，通过使用未规范化估计量作为初始值来识别的最大值是方程式M726 -定理1和定理2中描述的一致局部最大化。

在本文中，数量方程式M727 用于权重函数方程式M728 是在每个故障时间点计算的，因此是与时间相关的。当病例罕见时，方程式M729 几乎是恒定的方程式M730 。但是，使用与时间相关的方程式M731 更一般，允许采样概率随时间变化。因此，我们使用方程式M732 在本文中。潜在的实际问题是方程式M733 如果随机亚组中的非病例数量非常少，则可能不可靠，尽管由于在罕见疾病研究中使用病例组设计，这种可能性很小。在不太可能的情况下，其中在子短中没有剩余的非事例，方程式M734 定义不明确。为了避免计算困难，可以定义方程式M735 如果方程式M736 事实上，当方程式M737 ，方程式M738 对于小组中剩余的所有受试者，该值必须为零。

关于惩罚估计量的收敛性和后选择推理，已有大量研究(Leeb&Pötscher，2005年;Leeb&Pötscher，2006年;Pötscher&Leeb，2009年). 特别地，Pötscher&Leeb（2009）证明了惩罚估计量不是一致一致的，并且如果真参数位于零的收缩邻域内，则它们的渐近分布是非正态的方程式M739 缺乏局部正则性是惩罚变量选择方法的理论局限。然而，在本文中，条件5以及以下要求方程M740 为所有人方程式M741 ，确保非零参数一致大于方程式M742 从而避免了上述不规则。我们的模拟研究表明，所提出的变量选择方法的性能取决于真实的效果大小。实际上，由于该大小未知，我们建议使用基于Akaike和Bayesian信息标准的调整参数选择进行惩罚变量选择，然后使用交叉验证选择最佳模型，如§5.2所述。将进一步研究这些模型选择方法的理论合理性。此外，由于渐近结果所需的正则性条件在有限样本中可能无法测试，因此从一个特定的有限数据分析中复制结果将非常重要。检验结果一致性的一种可能方法是使用bootstrap数据或应用基于重采样的变量选择方法，如稳定性选择(Meinshausen&Bühlmann，2010年).

在Busselton数据分析中，出于几个原因，我们对所有连续协变量进行了标准化。首先，这使得回归系数具有可比性。其次，它减少了线性项和二次项之间以及主效应项和交互项之间的相关性，这通常会导致更稳健和精确的参数估计。更重要的是，受惩罚的回归过程在协变量尺度上并不是不变的，标准化使惩罚对所有协变量都是公平的(Tibshirani，1997年). 基于这些原因，我们建议在执行惩罚回归之前将连续协变量标准化。

补充材料

补充材料可在生物特征联机包括附录中引理的证明，协方差矩阵的估计方程M743 和估算的Q-Q图方程M744 在模拟场景中有几个大的效果。

补充材料

补充数据

单击此处查看其他数据文件。^{（366K，拉链）}

确认

我们感谢Matthew Knuiman教授和Busselton人口医学研究基金会允许在§5.2的分析中使用这些数据。这项工作得到了美国国立卫生研究院的部分支持。

附录.定理证明

在整个证明中，我们写方程M745 ，方程式M746 和方程式M747 。我们还允许方程式M748 ，方程式M749 ，方程式M750 和方程式M751 成为方程式M752 相应矩阵的第个分量。对于矩阵方程式M753 方程式M754 ，标准定义为方程式M755 。以下引理将重复使用。

引理1-

让方程式M756 和方程式M757 几乎可以肯定是两个变量有界的过程序列，并且假设 方程式M758 是可以逐步测量的。对于一些常量 方程式M759 ，假设 方程式M760 一类有界过程的概率 方程M761 ，那个 方程式M762 是单调的 方程式M763 ，还有那个 方程式M764 在度量空间中收敛到具有连续采样路径的零均值过程 方程式M765 ，上的有界变差函数空间 方程M766 。然后两者都有 方程式M767 和方程式M768 概率收敛到零 方程式M769 。

这个引理的证明直接遵循了中引理1的证明林（2000）注意到一个变量有界的过程可以分解为两个单调过程。

我们还需要以下引理，其证明在补充材料。

引理2-

让方程式M770 是一个随机向量，包含 方程式M771 一个和 方程M772 零，每个排列的可能性相等。让 方程式M773 方程式M774 是实值随机过程的三角形数组 方程式M775 ，使用 方程式M776 ，方程式M777 和方程式M778 为所有人 方程式M779 和方程式M780 .让方程式M781 和方程式M782 保持独立。假设几乎所有的路径 方程式M783 有有限的变化。然后 方程式M784 弱收敛到紧零米高斯过程，因此 方程式M785 概率一致收敛于零 方程式M786 。

引理3-

鉴于此 方程式M787 独立于 方程式M788 和方程式M789 ，方程式M790 弱收敛到零米高斯过程。

引理4-

在条件1-3下，对于任何非零 方程式M791 常数向量 方程式M792 具有方程M793 和方程式M794 ，其中 方程式M795 表示向量非零分量的数量， 方程式M796 ，方程式M797 和方程式M798 所有过程都弱收敛到紧零米高斯过程。

引理5-

在条件1-4下，对于任何非零 方程式M799 常数向量 方程式M800 具有方程式M801 ，方程式M802 收敛到标准正态分布，其中 方程式M803 是的协方差矩阵 方程式M804 。

引理6-

在条件1-4下， 方程式M805 是方程M806 对于方程式M807 ，其中 方程式M808 是方程式M809 的第个分量 方程式M810 如§3.2所述。

引理7-

在条件1-6下，如果 方程式M811 ，方程式M812 和方程式M813 概率趋于1，对于任何给定的 方程式M814 令人满意的 方程式M815 和任何常数 方程式M816 ，我们有 方程式M817 。

定理1的证明-

让方程式M818 成为真正的参数，让方程式M819 。这足以证明任何方程式M820 和任何常量向量方程式M821 具有方程式M822 ，存在一个足够大的方程式M823 这样的话方程式M824 。这意味着存在局部最大化方程式M825 这样的话方程式M826 .自方程式M827 和方程式M828 ，我们有

我们首先考虑方程式M830 通过泰勒展开，

哪里方程式M832 介于方程式M833 和方程式M834 .从引理5我们得到方程M835 对于方程式M836 因此，

术语方程式M838 可以写为方程式M839 根据柯西-施瓦兹不等式方程式M840 对于方程式M841 和引理6，我们有方程式M842 。通过对方程式M843 和条件4，方程式M844 .在条件1-3下，方程式M845 具有有界变化方程M846 对于方程式M847 和方程式M848 .因此方程式M849 是方程式M850 .将此与方程式M851 ，方程式M852 和方程M853 ，我们获得方程式M854 因此，对于足够大的方程式M855 ，方程式M856 占主导地位方程式M857 ，方程式M858 和方程式M859 。

现在考虑一下方程式M860 通过泰勒展开和柯西-施瓦兹不等式，

最后一个等式成立是因为方程式M862 和方程式M863 根据条件5。因此，方程式M864 占主导地位方程式M865 足够大的方程式M866 .自方程式M867 为负数，则表示足够大方程式M868 ，方程式M869 为负，概率趋向于1 方程式M870 .这就完成了定理1的证明。□

定理证明2-

断言方程M871 概率趋于1 方程式M872 直接遵循引理7。为了证明第二个断言，我们首先证明

（A1）

哪里方程式M874 由第一个组成方程M875 的组件方程式M876 .自方程式M877 是最大惩罚伪部分似然估计量，方程式M878 .通过泰勒展开方程式M879 在方程式M880 事实上方程式M881 概率趋于1，我们有

（A2）

概率趋于1，其中方程式M883 由第一个组成方程式M884 的组件方程式M885 ，方程式M886 由第一个组成方程式M887 的组件方程式M888 ，方程式M889 介于方程M890 和方程式M891 、和方程式M892 具有方程式M893 之间方程式M894 和方程式M895 。重新排列时(A2类)，我们得到

（A3）

写入方程式M897 .将的两边相乘(A3号)由方程式M898 给予

（A4）

根据柯西-施瓦兹不等式，方程式M900 如定理1的证明所示，方程式M901 ，所以方程式M902 。通过对方程式M903 ，方程式M904 条件4，我们有

（A5）

中的不平等(第5页)对称矩阵的柯西–施瓦兹不等式和柯西交错不等式成立。此外，方程式M906 .根据柯西-施瓦兹不等式和引理6，方程式M907 。此外，我们还有方程式M908 然后，根据条件4，

因此方程式M910 和方程式M911 .自方程式M912 收敛到方程式M913 在概率上，它是这样的

（A6）

由(A4（A4）), (第5页)和(A6级)，我们有(A1类)持有。根据引理5，方程式M915 收敛到标准正态分布。因此，方程式M916 分配中。这证明了定理2的第二个断言。□

工具书类

Akaike H.（1973）。高斯自回归滑动平均模型的最大似然辨识。生物特征 60, 255–65.[谷歌学者]
巴洛·W·E（1994）。病例组设计的稳健方差估计。生物计量学 50, 1064–72. [公共医学][谷歌学者]
Borgan O.、Langholz B.、Samuelsen S.O.、Goldstein L.和Pogoda J.（2000）。暴露分层病例组设计。寿命数据分析。 6, 39–58. [公共医学][谷歌学者]
蔡杰、范杰、李瑞和周华（2005）。多元失效时间数据的变量选择。生物特征 92，303–16。[PMC免费文章][公共医学][谷歌学者]
Cho H.&Qu A.（2013）。参数发散相关数据的模型选择。统计师。西尼卡 23, 901–27.[谷歌学者]
考克斯·D·R（1972）。回归模型和生命表（含讨论）。J.R.统计。Soc.B公司 34, 187–220.[谷歌学者]
Craven P.和Wahba G.（1979年）。用样条函数平滑噪声数据：用广义交叉验证方法估计平滑的正确程度。数字。数学。 31, 377–403.[谷歌学者]
Cullen K.J.（1972年）。1966年至1970年Busselton人群的大规模健康检查。澳大利亚。医学杂志。 2, 714–8. [公共医学][谷歌学者]
Fan J.&Li R.（2001）。基于非冲突惩罚似然的变量选择及其oracle性质。《美国统计杂志》。协会。 96, 1348–60.[谷歌学者]
Fan J.&Li R.（2002）。Cox比例风险模型和脆弱性模型的变量选择。安。统计师。 30, 74–99.[谷歌学者]
Fan Y.和Tang C.Y.（2013）。高维惩罚似然中的调谐参数选择。J.R.统计。Soc.B公司 75, 531–52.[谷歌学者]
Hastie T.、Tibshirani R.J.和Friedman J.（2009年）。统计学习的要素柏林：Springer，第二版。[谷歌学者]
Huber P.J.（1973）。稳健回归：渐近、猜想和蒙特卡罗。安。统计师。 1, 799–821.[谷歌学者]
Hunter D.&Li R.（2005）。使用MM算法选择变量。安。统计师。 33, 1617–42.[PMC免费文章][公共医学][谷歌学者]
Kalbfleisch J.D.和Lawless J.F.（1988年）。疾病发病率和死亡率多状态模型的可能性分析。统计师。医学。 7, 149–60. [公共医学][谷歌学者]
Kang S.和Cai J.（2009）。具有多种疾病结局的病例组研究的边际风险模型。生物特征 96, 887–901.[PMC免费文章][公共医学][谷歌学者]
Kim S.，Cai J.和Lu W.（2013）。病例组研究的更有效估计。生物特征 100, 695–708.[PMC免费文章][公共医学][谷歌学者]
Knuiman M.W.、Divitini M.L.、Olynyk J.K.、Cullen D.J.和Bartholomew H.C.（2003）。血清铁蛋白与心血管疾病：西澳大利亚州Busselton 17年随访研究。美国流行病学杂志。 158, 144–9. [公共医学][谷歌学者]
Kulich M.和Lin D.（2004）。提高病例组研究中相对风险评估的效率。《美国统计杂志》。协会。 99, 832–44.[谷歌学者]
Leeb H.&Pötscher B.M.（2005）。模型选择与推理：事实与虚构。计量经济学。理论 21, 21–59.[谷歌学者]
Leeb H.&Pötscher B.M.（2006）。可以估计模型选择后估计量的条件分布吗？安。统计师。 34, 2554–91.[谷歌学者]
林德（2000）。关于Cox比例风险模型对调查数据的拟合。生物特征 87，第37页至第47页。[谷歌学者]
Meinshausen N.&Bühlmann P.（2010）。稳定性选择（讨论）。J.R.统计。Soc.B公司 72, 417–73.[谷歌学者]
彭浩、范杰（2004）。参数个数发散的非凹陷惩罚似然。安。统计师。 32, 928–61.[谷歌学者]
Portnoy S.（1988）。指数族参数趋于无穷大时似然方法的渐近性。安。统计师。 16, 356–66.[谷歌学者]
Pötscher B.M.和Leeb H.（2009）。惩罚极大似然估计量的分布：LASSO、SCAD和阈值。J.穆特。分析。 100, 2065–82.[谷歌学者]
Prentice R.L.（1986）。流行病学队列研究和疾病预防试验的病例组设计。生物特征 73, 1–11.[谷歌学者]
Schwarz G.（1978）。估算模型的维数。安。统计师。 6，461-4。[谷歌学者]
Self S.G.和Prentice R.L.（1988年）。病例组研究的渐近分布理论和效率结果。安。统计师。 16, 64–81.[谷歌学者]
Tibshirani R.J.（1996）。通过套索回归收缩和选择。J.R.统计。Soc.B公司 58, 267–88.[谷歌学者]
Tibshirani R.J.（1997年）。Cox模型中变量选择的套索方法。统计师。医学。 16, 385–95. [公共医学][谷歌学者]
王宏、李斌和冷川（2009）。具有发散参数数的收缩率调谐参数选择。J.R.统计。Soc.B公司 71, 671–83.[谷歌学者]
王浩、李瑞和蔡家乐（2007）。平滑剪裁绝对偏差方法的参数选择器调整。生物特征 94, 553–68.[PMC免费文章][公共医学][谷歌学者]
张春华（2010）。极小极大凹惩罚下的几乎无偏变量选择。安。统计师。 38, 894–942.[谷歌学者]
张毅、李瑞和蔡家乐（2010）。基于广义信息准则的正则化参数选择。《美国统计杂志》。协会。 105, 312–23.[PMC免费文章][公共医学][谷歌学者]
邹H.（2006）。自适应套索及其oracle性质。《美国统计杂志》。协会。 101, 1418–29.[谷歌学者]
邹浩和张浩（2009）。参数发散的自适应弹性网。安。统计师。 37, 1733–51.[PMC免费文章][公共医学][谷歌学者]

文章来自生物特征由以下人员提供牛津大学出版社