跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物特征。2016年9月;103(3): 547–562.
2016年8月10日在线发布。 数字对象标识:10.1093/biomet/asw027
预防性维修识别码:项目编号:5436496
NIHMSID公司:NIHMS855878号
PMID:28529347

具有失效时间结果的病例组研究的变量选择

关联数据

补充资料

摘要

病例-协方差分析设计广泛应用于大型队列研究中,以降低与协变量测量相关的成本。在许多这样的研究中,协变量的数量非常大,因此需要一种有效的变量选择方法。在本文中,我们研究了在具有发散参数数的病例队列设计中,使用平滑剪裁的绝对偏差惩罚的变量选择过程的性质。我们建立了最大惩罚伪部分似然估计量的一致性和渐近正态性,并证明了所提出的变量选择方法是一致的,并且具有渐近预言性质。仿真研究比较了该方法与基于Akaike信息准则和Bayesian信息准则的调谐参数选择方法的有限样本性能。我们建议在病例组研究中使用建议的程序,并将其应用于Busselton Health Study。

关键词:案例协方差设计、参数离散数、Oracle属性、平滑剪裁绝对偏差、生存分析、变量选择

1.简介

大规模流行病学研究和疾病预防试验通常会对数千名受试者进行长时间跟踪。测量整个研究队列的协变量可能非常昂贵,尤其是当涉及到采集生物样本或进行昂贵的生物测定时。此外,在此类研究中,心血管疾病、中风或死亡等相关事件的发生率通常较低。我们将研究期间发生感兴趣事件的受试者称为病例,其他受试者则称为非病例。如果要为研究中的每个人测量协变量,那么大部分成本将花费在非病例上,因为非病例提供的信息不如病例提供的那么多。为了减少收集昂贵协变量的成本和工作量,同时尽可能降低效率,普伦蒂斯(1986)提出了病例组设计,其中完整的协变量信息仅从样本的随机子组以及所有病例中获得。

在比例风险模型下,针对案例研究开发了各种估计方法(考克斯,1972年).普伦蒂斯(1986)赛尔夫和普伦蒂斯(1988)提出了一种伪部分似然方法,该方法修改了风险集,以考虑亚组抽样。巴洛(1994)引入一个时间相关的权重来估计子组样本的风险集,并为回归参数开发了一个稳健的方差估计。Kalbfleisch和Lawless(1988)提出了一种更有效的加权方法,即使用所有案例的完整协变量历史。Borgan等人(2000年)进一步研究了分层病例组设计下的几种权重。Kulich和Lin(2004)建立了有效加权估计量的渐近性质Kalbfleisch和Lawless(1988);Kang&Cai(2009)将此估计推广到具有多变量失效时间结果的研究,以及Kim等人(2013)进一步提高了多变量失效时间结果存在时的估计效率。在本文中,我们重点讨论了Kalbfleisch和Lawless(1988)在一个单变量未经批准的病例组设计中。

在使用病例队列设计的大型流行病学研究中,通常会收集许多协变量,通常研究的一个目标是确定与感兴趣事件相关的协变量子集。由于包含了相互作用和多项式项,候选协变量的数量可能非常大胡贝尔(1973)有人认为,在变量选择的背景下,参数的数量应被视为随着样本量的增加而无限增加方程式M1在本文中,我们考虑模型大小方程式M2发散到无穷大,但速度比样本量慢。传统的变量选择方法,如逐步和最佳子集选择,计算量大且不稳定。自从套索由Tibshirani(1996)基于惩罚的变量选择程序取得了巨大的成功。在一定的正则性条件下,这些方法可以同时选择变量并估计其系数。已经提出了许多惩罚函数,其中平滑剪裁的绝对偏差(Fan&Li,2001年),自适应套索(邹,2006年),自适应弹性网(邹和张,2009)和极小极大凹面(张,2010)惩罚已被证明拥有oracle属性,即方程式M3该方法以趋于统一的概率正确识别真实模型,并像真实模型已知一样有效地估计非零参数的标准误差。范丽丽(2002)将平滑剪裁的绝对偏差惩罚应用于比例风险模型,并证明了其oracle性质。蔡等(2005)将惩罚部分似然方法推广到参数数目不同的多元模型。然而,据我们所知,在并非所有协变量都被完全观测到的病例组设计中,惩罚变量选择的性质尚未被研究。

2.病例组设计的伪部分似然

假设有方程式M4队列中的独立受试者。方程式M5成为方程式M6,可能与时间相关,对象的协变量向量方程式M7时间方程式M8.自方程式M9方程式M10,所有作为协变量函数的量都取决于方程式M11然而,为了简化符号,我们将去掉下标方程式M12.在不失一般性的情况下,我们对实值真参数向量进行分区方程式M13作为方程式M14,其中方程式M15方程式M16是的非零和零分量方程式M17分别是。表示方式方程式M18尺寸方程式M19,允许偏离方程式M20以这样的方式方程式M21收敛到常数方程式M22

方程式M23方程式M24分别是获得利益结果的时间和审查时间。方程式M25是观察到的时间,让方程式M26是审查指标,其中方程式M27表示指示器功能。我们假设方程式M28方程式M29是独立的,有条件的方程式M30.定义主题方程式M31计数过程方程式M32以及风险流程方程式M33.让方程式M34表示受试者的危险函数方程式M35考克斯(1972)提出比例风险模型方程式M36,其中方程式M37是未指定的基线危险函数。

在病例组设计中,假设我们随机选择一个固定大小的子组方程式M38来自整个队列。方程式M39表示方程式M40被选入子组的受试者,并让方程式M41是的选择概率方程式M42主题。这里我们考虑不进行替换的简单随机抽样。在此抽样方案下,方程式M43相互关联。未观察到亚组外受试者的协变量历史。如果所有情况都有完整的协变量历史,可以使用以下伪部分似然来估计回归系数方程式M44(Kalbfleisch&Lawless,1988年):

方程式M45
(1)

哪里方程M46是研究结束的时间方程式M47,使用方程式M48真抽样概率的时间相关估计方程式M49.相应的伪部分得分方程为

方程式M50

哪里方程式M51对于方程式M52.在这里方程式M53方程式M54方程式M55对于向量方程式M56

3.具有惩罚伪部分似然的变量选择

3.1. 惩罚伪部分似然

我们将惩罚伪部分似然定义为

方程式M57
(2)

哪里方程式M58是一个非负惩罚函数方程式M59.非负调谐参数方程式M60控制模型的复杂性。我们使用平滑剪裁的绝对偏差惩罚(Fan&Li,2001年)具有协变量特定调谐参数方程式M61,允许不同的回归系数具有不同的惩罚函数。平滑剪裁的绝对偏差惩罚为

方程式M62

对一些人来说方程式M63方程式M64。罚款的一阶导数为

方程式M65

3.2. 规律性条件

对于每个方程式M66,我们定义

方程式M67

我们需要以下正则性条件:

条件1-

方程式M68方程式M69;

条件2-

方程式M70几乎可以肯定的是方程式M71,用于方程式M72方程M73

条件3-

有一个街区方程式M74属于方程式M75这样对所有人来说方程式M76方程式M77方程式M78方程式M79.功能方程式M80(方程式M81)连续且有界,并且方程式M82从零开始有界方程式M83;

条件4-

存在正常数方程式M84方程式M85方程式M86方程式M87这样的话

方程式M88

哪里方程M89方程式M90是矩阵的最小和最大特征值;

条件5-

方程式M91作为方程式M92;

条件6-

方程式M93对于方程式M94

条件1保证在研究结束时有有限的基线累积风险和非空风险集。条件2要求每个与时间相关的协变量的随机过程几乎肯定具有有界变化。条件3基本上要求方程式M95在发散维下是可积的,因此关于方程式M96(方程式M97)可以互换。条件4确保在正则设计和案例短设计下,得分函数的协方差矩阵都是正定的,并且所有的特征值都一致有界方程式M98; 它假设用于变量选择的目标函数的非奇异Hessian矩阵。其他变量选择工作中也假设了相同的条件(彭帆,2004;Cai等人,2005年;Cho&Qu,2013年). 条件5规定了所建议的程序能够区分非零参数和零参数的速率。作为方程式M99,该过程检测到的非零参数的大小可以接近零,但速度慢于调谐参数。这个条件是推导所提出的过程的渐近性质所必需的,并且已经被许多作者假设(例如。,彭帆,2004;Wang等人,2009年;Cho&Qu,2013年;Fan&Tang,2013年). 在现实的生物医学研究中,通常存在一个固定的最小临床重要效应大小。任何小于此大小的影响都可以有效地视为零。因此,条件5是一个合理的要求。条件6意味着那些有限样本估计值与方程式M100将自动缩小为零;这有助于建立变量选择的oracle属性。

3.3. 渐近性质

在本文中,我们使用方程式M101方程式M102表示概率顺序关系,以及方程式M103方程式M104表示几乎完全的顺序关系。方程式M105方程式M106.我们首先证明了一个以速率收敛的惩罚伪部分似然估计量的存在性方程式M107然后建立其oracle属性。定理1和2的证明见附录。

定理1-

在条件1-5下,如果方程式M108方程式M109作为方程式M110,则概率趋于1时,存在局部极大值方程式M111属于方程式M112这样的话方程式M113

从定理1可以得到方程式M114-一致惩罚伪部分似然估计量,前提是方程式M115这是条件5下平滑剪裁的绝对偏差惩罚的情况。该一致性率与指数族的最大似然估计量的一致性率相同(波特诺伊,1988年). 对于下一个定理,我们定义

方程式M116
(3)
方程式M117
(4)

定理2-

在条件1-6下,如果方程式M118方程式M119方程式M120方程式M121方程式M122作为方程式M123,的方程式M124-一致局部最大化方程式M125必须是这样的方程式M126概率趋于一,对于任何非零方程式M127常数向量方程式M128具有方程式M129

方程式M130

分布中,其中方程式M131方程式M132定义于()和(4)分别为,方程式M133由第一个组成方程式M134的组件方程式M135、和方程式M136由第一个组成方程式M137的组件方程式M138

由于方程式M139,定理2建立了一些标准化估计的线性组合的渐近正态性。然而,通过选择特定的方程式M140,它可以给出每个估计量的渐近分布。因此,它为推断各个系数提供了理论基础。矩阵方程式M141可以通过以下方式一致估计方程式M142.矩阵的估计量方程式M143在中给出补充材料.对于平滑剪裁的绝对偏差惩罚,方程M144方程式M145方程式M146对于大型方程式M147根据条件5。因此,定理2的结果简化为

方程式M148

作为分发方程式M149.条件方程式M150方程式M151在上述定理中,描述了方程式M152相对于样本量;它们在有限的方程式M153方程式M154

4.实际实施注意事项

4.1. 局部二次逼近和方差估计

由于平滑剪裁的绝对偏差惩罚函数在原点处不可微,因此在实际实现中,牛顿-拉夫森算法不能直接应用于最大化(2). 相反,我们使用了一种改进的Newton–Raphson算法,对惩罚函数进行了局部二次近似。非规范化伪部分似然(1)可以看作是惩罚伪偏似然的一个特例(2)带有方程式M155为所有人方程式M156.将定理1应用于方程式M157为所有人方程式M158,我们知道存在方程式M159-一致最大化(1). 凹面(1)确保最大化器是唯一的。我们使用这个最大值作为初始值方程式M160用于改进的Newton–Raphson算法。如果方程式M161小于预先指定的小正常数方程式M162,然后我们设置方程式M163否则,惩罚函数被二次函数局部近似,方程式M164,具有与原始惩罚相同的值和一阶导数方程式M165。由此可见方程式M166。此近似值是局部的,因为它仅在以下邻域中有效方程式M167使用近似罚函数,执行一个牛顿-拉夫逊步长,并使用更新的非零估计作为新的初始值。迭代该过程直到收敛或直到所有参数估计为零。Hunter&Li(2005)表明局部二次逼近是期望最大化算法的推广,具有相同的性质。

协方差矩阵的夹心估计方程式M168可以直接从上述算法的最后一次迭代中获得方程式M169,其中方程式M170协方差矩阵的夹心估计仅适用于非零参数估计。

4.2. 调谐参数的选择

调谐参数方程式M171在平滑剪裁的绝对偏差惩罚函数中方程式M172控制对每个回归系数的惩罚的大小,从而控制所选模型的复杂性。选择优化参数的典型方法包括数据驱动程序,例如方程式M173-折叠交叉验证和广义交叉验证(Craven&Wahba,1979年). 我们跟随范丽丽(2002)蔡等(2005)并使用广义交叉验证。参数的有效数量衡量正则回归模型中的自由度(Hastie等人,2009年). 对于比例风险模型,参数的有效数量定义为方程式M174(Fan&Li,2002年). 广义交叉验证统计定义为

方程式M175

因为分子中的log-pseudo-partial似然是负数,所以可以保证它是正数。最佳调谐参数选择如下方程式M176.这个方程式M177-尺寸优化问题在实践中很难解决。我们跟随蔡等(2005)并采取方程式M178,其中方程式M179是§4.1中使用的未经验证的伪部分似然估计量的估计标准误差。然后,优化问题简化为一维搜索最优值方程式M180

什么时候?方程式M181很小,就像定理1和2的条件下的情况一样,我们可以写方程式M182此表达式类似于Akaike信息标准(Akaike,1973年),所以我们写方程式M183作为方程式M184并定义方程式M185.遵循贝叶斯信息准则的思想(施瓦兹,1978年),我们定义了另一个调整参数选择标准,其中最佳调整参数表示为方程式M186,最小化方程式M187Wang等人(2007)Zhang等人(2010)表明,在参数有限的线性和广义线性模型中,方程式M188以正概率飞越模型,而方程式M189始终如一地识别真实模型。据我们所知,在考克斯比例风险模型中还没有建立这样的结果。在接下来的模拟部分中,我们研究了方程式M190方程式M191.以下Fan&Li(2001),我们设置了第二个调谐参数方程式M192在惩罚函数中为3方程式M1937在我们的模拟中。

实际上,研究人员可以执行网格搜索来识别方程式M194方程式M195。搜索范围的下限为零,上限为最小值方程式M196这是一个空模型。根据我们的模拟经验,上限很少超过2。此外,就搜索网格的精细度而言,模型选择结果相当稳健。

5.数值研究和数据应用

5.1. 模拟研究

独立的故障时间由比例风险模型生成。我们让基准风险为方程式M197并将模型尺寸设置为方程式M198以反映其对样本大小的依赖性,其中方程式M199是给定审查率下的预期案例数,以及方程式M200表示方程式M201四舍五入到最接近的整数。我们将模型维度与案例数量联系起来,而不是直接与样本大小联系起来,因为前者更好地表示数据集中的信息量。我们跟随Tibshirani(1997)并考虑真实参数的两种情况:一些大的影响和许多小的影响。在第一个场景中,方程式M202; 所以三分之一的成分方程式M203非零且绝对值中最小的非零效应为方程式M204,对应的危险比为方程式M205。在第二个场景中方程式M206平等的方程式M207,对应的危险比为方程式M208在这两种情况下,我们都会生成设计矩阵方程式M209作为相关二进制和连续变量的混合物。首先,a方程式M210-多维标准正态变量方程式M211使用生成方程式M212。然后是的前三个组件方程式M213保持连续,而接下来的三个分量被二分为零,并且这种模式在方程式M214因此,一半的协变量变为带有参数的二元方程式M215.审查时间方程式M216由均匀分布生成方程式M217,使用方程式M218调整以达到所需的审查百分比。

这两种情况都考虑了不同的样本量、审查率和非个案比率。带调节参数的惩罚变量选择的性能方程式M219方程式M220已评估。作为基准,我们使用硬阈值变量选择程序,其中拟合了未规范化的完整模型,并且未规范化估计的组成部分在0级给出了重要的Wald检验方程式M22105包含在最终模型中。我们还考虑了oracle过程,其中使用了正确的协变量子集来拟合模型。由于病例组研究中的审查率通常很高,我们将其设置为80%或90%,每个设置有1000个重复。

我们将给定模型的模型误差定义为方程式M222.在具有恒定基线风险的比例风险模型下方程式M223方程式M224给定模型的相对模型误差定义为其模型误差与未规范化完整模型的模型误差之比。我们使用相对模型误差的中位数和中位数绝对偏差来评估不同程序的预测性能。作为变量选择性能的衡量标准,我们还计算正确估计为零的参数的平均数量,错误估计为零的参数的平均数量,以及识别真实模型的总体速率。计算点估计、经验和基于模型的标准误差以及经验95%置信区间覆盖率方程式M225在第一个场景中。

表11总结了几种大效果场景下的仿真结果。带参数调整的惩罚方法方程式M226就相对模型误差和识别真实模型的速度而言,在所有设置中都具有最佳性能。性能较差的方程式M227显然是由于过拟合,这反映在正确识别的零参数的平均数较低;这与Wang等人(2007)Zhang等人(2010)。对于两者方程式M228方程式M229在病例组设计中,更多的非病例和更低的删失率与更好的预测和变量选择性能相关。表22总结了方程式M230在与表相同的设置下表1,1,但仅使用模拟复制,其中方程式M231被正确标识为非零。条件启用方程式M232所有程序都会产生近似无偏点和标准误差估计,覆盖范围接近标称水平。样本分布的正态性方程M233通过Q-Q图进行评估,如补充材料.抽样分布方程式M234是零质量点和左旋分布的混合物,左旋分布很好地近似于截断正态分布。随着真实模型识别率的增加,零点质量消失方程式M235变得正常。

表1。

几个大影响场景中的模型选择性能

非案例:案例方程式M236
非案例:案例方程式M237
RME公司零点
RITM公司RME公司零点
RITM公司
方法 方程式M238 中位数(MAD)C类(%) 方程式M239 中位数(MAD)C类(%)
方程式M240,80%被审查,方程式M241
HT(高温)0方程式M242250方程式M24367 (0方程式M24421)11方程式M24520方程式M246045方程式M24740方程式M248500方程式M24965 (0方程式M25021)11方程式M2510方程式M252052方程式M2531
SCAD(AIC)0方程式M25463 (0方程式M25520)10方程式M25670方程式M257030方程式M2580方程式M25949(0方程式M26022)11方程式M26150方程式M262061方程式M2636
SCAD(银行识别码)0方程式M26439 (0方程式M26520)12方程式M26600方程式M267283方程式M26870方程式M26937 (0方程式M27018)12方程式M27100方程式M272095方程式M2732
甲骨文公司0方程式M27434 (0方程式M27516)12方程式M27600方程式M2770100方程式M27800方程式M27936 (0方程式M28017)12方程式M28100方程式M2820100方程式M2830
方程式M284,90%被审查,方程式M285
HT(高温)0方程M286110方程式M28788 (0方程式M28830)9方程式M28920方程式M290525方程式M29110方程式M292220方程式M29375 (0方程式M29429)9方程M2950方程式M296242方程式M2977
SCAD(AIC)0方程式M29892 (0方程式M29914)6方程式M30040方程式M30111方程式M30220方程式M30382 (0方程式M30420)7方程式M30560方程式M30608方程式M307
SCAD(银行识别码)0方程式M30874 (0方程式M30938)9方程式M3100方程式M311533方程式M3120方程式M31349(0方程式M31430)9方程式M31580方程M31663方程式M3179
甲骨文公司0方程式M31832 (0方程式M31918)10方程式M32000方程式M3210100方程式M32200方程式M32333 (0方程式M32417)10方程式M32500方程式M3260100方程式M3270
方程M328,90%被审查,方程式M329
HT(高温)0方程式M330110方程式M33171 (0方程式M33224)11方程式M33310方程式M334139方程式M33560方程式M336220方程式M33764 (0方程式M33821)11方程式M3390方程式M340048方程式M3414
SCAD(AIC)0方程式M34289 (0方程式M34312)7方程式M34490方程M34501方程式M34620方程式M34780 (0方程式M34816)9方程式M34950方程式M35009方程式M3514
SCAD(银行识别码)0方程式M35249(0方程式M35324)11方程M35450方程式M355158方程式M35660方程式M35738 (0方程式M35818)11方程式M35990方程式M360087方程M3618
甲骨文公司0方程式M36236 (0方程式M36317)12方程式M36400方程式M3650100方程式M36600方程式M36733 (0方程式M36815)12方程式M36900方程式M3700100方程式M3710
方程式M372,90%被审查,方程式M373
HT(高温)0方程式M374110方程式M37569 (0方程式M37620)12方程式M37710方程式M378036方程式M37940方程式M380220方程式M38165 (0方程式M38220)12方程式M38320方程式M384048方程式M3850
SCAD(AIC)0方程M38688 (0方程式M38714)8方程式M38890方程式M38901方程式M39020方程式M39180 (0方程式M39218)10方程式M39320方程M39408方程式M3950
SCAD(银行识别码)0方程式M39647 (0方程式M39721)12方程式M39850方程式M399060方程式M40080方程式M40139 (0方程式M40218)12方程式M40390方程式M404092方程式M4058
甲骨文公司0方程式M40634 (0方程式M40715)13方程式M40800方程式M4090100方程M41000方程式M41135 (0方程式M41217)13方程式M41300方程式M4140100方程式M4150

方程式M416,子组抽样概率;RME,相对模型误差;MAD,中位数绝对偏差;C、 正确识别为零的零参数的平均数;I、 错误识别为零的非零参数的平均数量;RITM,真模型识别率;HT,硬阈值;SCAD(AIC),使用方程式M417; SCAD(BIC),平滑剪裁绝对偏差方程式M418

表2。

估计性能方程M419在一些重大影响的场景中;结果基于复制,其中方程式M420

非案例:案例方程式M421
非案例:案例方程M422
方法 方程式M423 方程式M424 东南方方程式M425东南方方程式M42695%方程式M427 方程式M428 方程式M429 东南方方程式M430东南方方程式M43195%方程式M432
(方程式M433)(方程式M434)(方程式M435)(方程式M436)
方程式M437,80%被审查,方程式M438
HT(高温)9980方程式M439367方程M440006方程式M4416692方程式M442610000方程式M443355方程式M444855方程式M4455592方程M4467
SCAD(AIC)10000方程式M447356方程式M448685方程式M4499592方程式M450010000方程式M451355方程式M452284方程式M4538792方程M4547
SCAD(银行识别码)9910方程式M455355方程式M456965方程式M4578894方程M458810000方程式M459355方程式M460124方程式M4618493方程式M462
甲骨文公司10000方程式M463356方程式M464065方程式M4658994方程式M466510000方程式M467355方程式M468084方程式M4698493方程式M4705
方程式M471,90%被审查,方程式M472
HT(高温)8880方程式M4734010方程式M474911方程式M475092方程M47689710方程式M477379方程式M478269方程式M4792094方程式M4804
SCAD(AIC)9810方程式M4813811方程式M482910方程式M483289方程式M48489970方程M485369方程式M486248方程M4872992方程式M4882
SCAD(银行识别码)9160方程式M4893810方程式M4909方程式M4918392方程式M49259640方程式M493368方程M494198方程式M4950494方程式M4967
甲骨文公司10000方程式M4973610方程式M49889方程式M4998792方程式M500110000方程式M501358方程式M502378方程式M5030593方程式M5048
方程式M505,90%被审查,方程式M506
HT(高温)9920方程式M507378方程式M508277方程式M5099592方程式M510510000方程式M511367方程式M512016方程M5135392方程式M5142
SCAD(AIC)10000公式M515368方程式M516407方程式M5173291方程式M518210000方程式M519366方程式M520735方程式M5219291方程式M5220
SCAD(银行识别码)9920方程式M523367方程式M524687方程式M5250992方程式M52659960方程式M527356方程式M528065方程式M5297493方程式M5308
甲骨文公司10000公式M531357方程式M532647方程式M5331093方程式M534010000方程式M535356方程式M536035方程式M5377494方程式M5380
方程式M539,90%被审查,方程式M540
HT(高温)10000方程式M541366方程式M542516方程式M5432993方程式M544210000方程式M545355方程式M546275方程式M5471094方程式M5484
SCAD(AIC)10000方程M549366方程式M550315方程式M5518391方程式M552610000方程式M553355方程式M554114方程式M5556394方程式M5560
SCAD(银行识别码)10000方程M557365方程式M558935方程式M5596794方程式M560010000方程式M561354方程式M562554方程式M5635094方程式M5648
甲骨文公司10000方程式M565365方程式M566745方程式M5676795方程式M568010000方程式M569354方程式M570534方程式M5715094方程式M5728

方程式M573,模拟复制数,其中方程式M574; 东南方方程式M575,经验标准误差;东南方方程式M576,基于模型的标准误差;95%方程式M577,经验95%置信区间覆盖率;HT,硬阈值;SCAD(AIC),使用方程式M578; SCAD(BIC),平滑剪裁绝对偏差方程式M579

表3总结了许多小效果场景中的模拟结果,其中方程式M580在这种情况下,oracle模型只是一个未规范化的完整模型,其相对模型错误在定义上是统一的,信息量不大,因此不包括在表中。由于存在许多小但非零的影响,这三种方法都无法以很高的概率识别所有影响,如表中未显示的在所有设置中识别真实模型的近零率所反映的那样。推理结果也不令人满意;由于空间限制,它们没有被示出。尽管如此,方程式M581相对模型误差最小,表明它在三种方法中具有最好的预测性能。此外,公式M582正确地将最大数量的小影响识别为非零。贝叶斯信息准则倾向于选择稀疏模型,因此当存在许多小的非零参数时,其性能可能不如Akaike信息准则。相对模型误差在不同的设置中是不可比较的,因为它取决于完整模型的模型误差,这表明在这种情况下变化很大。

表3。

多个小效果场景中的模型选择性能方程式M583

非案例:案例方程式M584
非案例:案例方程式M585
RME公司非零RME公司非零
方法 方程式M586 中位数(MAD)估计 方程式M587 中位数(MAD)估计
方程式M588,80%被审查,方程式M589
HT(高温)0方程式M590252方程式M59190 (1方程M59250)4方程式M59300方程式M59450方程式M59559 (1方程式M59682)5方程式M5972
SCAD(AIC)1方程式M59879 (0方程式M59988)6方程式M6000方程式M60115 (1方程式M60259)5方程式M6035
SCAD(银行识别码)5方程式M60462 (2方程式M60539)1方程式M6068方程式M60794 (3方程式M60846)1方程式M6091
方程式M610,90%被审查,方程式M611
HT(高温)0方程式M612111方程式M61389 (1方程式M61400)2方程式M61560方程式M616222方程式M61791 (1方程式M61863)方程式M6195
SCAD(AIC)0方程式M62099 (0方程式M62129)6方程式M62201方程式M62367 (0方程式M62478)5方程式M6254
SCAD(银行识别码)2方程式M62648 (1方程式M62723)1方程式M62884方程式M62992 (2方程式M63008)1方程式M6315
方程式M632,90%被审查,方程式M633
HT(高温)0方程式M634112方程式M63582 (1方程式M63645)方程式M63740方程式M63822方程式M63948 (1方程式M64069)4方程式M6415
SCAD(AIC)1方程式M64208 (0方程式M64328)8方程式M64461方程式M64541 (0方程式M64654)8方程式M647
SCAD(银行识别码)方程式M64817 (1方程式M64952)方程式M65005方程式M65136 (2方程式M65247)2方程式M6536
方程式M654,90%被审查,方程式M655
HT(高温)0方程式M65611方程式M65785(2方程式M65802)6方程式M65900方程式M660224方程式M66149 (2方程式M66237)7方程式M6637
SCAD(AIC)1方程式M66426 (0方程式M66539)11方程式M66661方程式M66784 (0方程式M66881)11方程式M6694
SCAD(银行识别码)4方程式M67091 (2方程式M67149)4方程式M67278方程式M67338 (3方程式M67475)4方程式M6752

方程式M676,子组抽样概率;RME,相对模型误差;MAD,中位数绝对偏差;非零估计,未估计参数的平均数为零;HT,硬阈值;SCAD(AIC),使用方程式M677; SCAD(BIC),平滑剪裁绝对偏差方程式M678

5.2. Busselton健康研究分析

我们使用建议的变量选择程序来分析Busselton Health Study数据(卡伦,1972年;Knuiman等人,2003年). 这项研究包括在西澳大利亚州布塞尔顿镇进行的一系列横断面健康调查。从1966年到1981年,每三年通过问卷调查和临床访问从成年参与者那里收集一般健康信息。在这项分析中,我们有兴趣确定中风的危险因素。特别是,主要的危险因素是血清铁蛋白水平。在变量选择过程中,我们还考虑了其他几个风险因素:年龄、体重指数、血压治疗、收缩压、胆固醇、甘油三酯、血红蛋白和吸烟状况。在基线检查时测量所有变量。该分析的完整队列包括1401名年龄在40至89岁之间的受试者,他们参加了1981年的Busselton健康调查,当时没有诊断出冠心病或中风的病史。对受试者进行随访至1998年12月31日,记录他们中风的时间(如果有)。如果受试者在随访期间离开西澳大利亚州,则被视为审查对象。在随访期间,整个队列中有118例卒中发生率。为了降低成本并保存储存的血清,采用病例组设计,仅对随机选择的亚组和所有中风患者的血清铁蛋白水平进行测量。随机亚群的大小为450,病例队列的大小为513。

表44总结了整个队列和子队列的基线特征。由于病例组设计,整个队列的平均铁蛋白水平不可用。全队列和亚队列基线特征的汇总统计数据相似,表明该亚队列是全队列的代表。

表4。

Busselton健康研究的基线特征

完整队列(方程式M679)小组(方程式M680)
变量平均值(SD)或%平均值(SD)或%
年龄(岁)58.0 (10方程式M6818)58.9 (10方程式M6829)
体质指数25.9(3方程式M6839)25.9 (4方程式M6840)
血压治疗(%)17.218.4
收缩压(mmHg)132.2 (20方程式M6850)132.9 (20方程式M6862)
胆固醇(mmol/L)6.14 (1方程式M68714)6.24 (1方程式M68817)
甘油三酯(mmol/L)1.52 (0方程式M68997)1.55 (0方程式M69097)
血红蛋白(g/100 ml)141.9 (12方程式M6910)142.0 (11方程式M6925)
吸烟(%)
从未49.551.6
32.432
当前18.116.4
铁蛋白(方程式M693克/升)148.1 (140.8)
对数(铁蛋白)4.57 (1.01)

SD,标准偏差。

我们使用硬阈值方法和带有调整参数的惩罚变量选择程序方程式M694方程式M695Busselton健康研究。为了避免遗漏任何潜在的重要影响,我们还在初始模型中包括所有连续协变量的二次项以及铁蛋白和所有协变量之间的相互作用。参数总数为28个。使用子组的平均值和标准偏差对所有连续协变量进行标准化,如表所示表4。4为了降低它们的偏度,我们在标准化之前对铁蛋白和甘油三酯的值进行了对数转换。调谐参数选择器识别方程式M696方程式M697.表表55显示了三种方法识别的模型。由于空间限制,仅显示通过至少一种方法选择的术语。使用方程式M698结果选择了七个术语,并使用方程式M699结果有四个术语被选中。这两种方法都选择年龄、性别、血压治疗和收缩压平方作为中风的重要危险因素。程序使用方程式M700另外选择收缩压的线性项和甘油三酯的线性项和平方项。硬阈值方法只选择年龄和血压治疗。

表5。

Busselton Health Study数据的估计系数和标准误差;在应用变量选择程序之前,使用基于随机子组的均值和标准差对所有连续协变量进行标准化

硬阈值SCAD(AIC)SCAD(银行识别码)
变量 方程式M701 方程式M702 方程式M703
年龄(岁)0.92 (0方程式M70427)0.87 (0方程式M70515)0.85 (0方程式M70614)
性别(1方程式M707女性)0 (–)-0.61 (0方程式M70826) 方程式M7090.65 (0方程式M71025)
血压治疗0.83 (0.34)0.83(0.29)0.89 (0方程式M71125)
收缩压0 (–)0.21 (0方程式M71215)0 (–)
收缩压方程式M7130 (–)0.092 (0.067)0.16 (0方程式M714044)
log(甘油三酯)0 (–)-0.24 (0方程式M71518)0 (–)
日志方程式M716(甘油三酯)0 (–)0.18 (0方程式M717093)0 (–)

SCAD(AIC),使用方程式M718; SCAD(BIC),平滑剪裁绝对偏差方程M719

为了阐明哪种模型最适合数据,我们进行了五次交叉验证。测试数据集的平均对数伪偏似然用作验证统计量。硬阈值方法和惩罚变量选择方程M720方程式M721提供验证统计信息方程式M722方程式M723方程式M724分别是。因此,我们认为模型具有方程式M725最适合Busselton数据。根据这个模型,年龄增加、男性化、血压治疗和收缩压升高与中风的高风险相关。没有证据表明血清铁蛋白水平与中风有关。

6.讨论

本文提出的定理的一个潜在局限性是,它们只建立了惩罚目标函数的局部极大值的一致性和预言性。由于惩罚目标函数的非共性,可能存在多个最大值。然而,基于范和李(2001),§3.5),并根据表中估计值的微小偏差进行判断表2,2,可以合理地假设,通过使用未规范化估计量作为初始值来识别的最大值是方程式M726-定理1和定理2中描述的一致局部最大化。

在本文中,数量方程式M727用于权重函数方程式M728是在每个故障时间点计算的,因此是与时间相关的。当病例罕见时,方程式M729几乎是恒定的方程式M730。但是,使用与时间相关的方程式M731更一般,允许采样概率随时间变化。因此,我们使用方程式M732在本文中。潜在的实际问题是方程式M733如果随机亚组中的非病例数量非常少,则可能不可靠,尽管由于在罕见疾病研究中使用病例组设计,这种可能性很小。在不太可能的情况下,其中在子短中没有剩余的非事例,方程式M734定义不明确。为了避免计算困难,可以定义方程式M735如果方程式M736事实上,当方程式M737方程式M738对于小组中剩余的所有受试者,该值必须为零。

关于惩罚估计量的收敛性和后选择推理,已有大量研究(Leeb&Pötscher,2005年;Leeb&Pötscher,2006年;Pötscher&Leeb,2009年). 特别地,Pötscher&Leeb(2009)证明了惩罚估计量不是一致一致的,并且如果真参数位于零的收缩邻域内,则它们的渐近分布是非正态的方程式M739缺乏局部正则性是惩罚变量选择方法的理论局限。然而,在本文中,条件5以及以下要求方程M740为所有人方程式M741,确保非零参数一致大于方程式M742从而避免了上述不规则。我们的模拟研究表明,所提出的变量选择方法的性能取决于真实的效果大小。实际上,由于该大小未知,我们建议使用基于Akaike和Bayesian信息标准的调整参数选择进行惩罚变量选择,然后使用交叉验证选择最佳模型,如§5.2所述。将进一步研究这些模型选择方法的理论合理性。此外,由于渐近结果所需的正则性条件在有限样本中可能无法测试,因此从一个特定的有限数据分析中复制结果将非常重要。检验结果一致性的一种可能方法是使用bootstrap数据或应用基于重采样的变量选择方法,如稳定性选择(Meinshausen&Bühlmann,2010年).

在Busselton数据分析中,出于几个原因,我们对所有连续协变量进行了标准化。首先,这使得回归系数具有可比性。其次,它减少了线性项和二次项之间以及主效应项和交互项之间的相关性,这通常会导致更稳健和精确的参数估计。更重要的是,受惩罚的回归过程在协变量尺度上并不是不变的,标准化使惩罚对所有协变量都是公平的(Tibshirani,1997年). 基于这些原因,我们建议在执行惩罚回归之前将连续协变量标准化。

补充材料

补充材料可在生物特征联机包括附录中引理的证明,协方差矩阵的估计方程M743和估算的Q-Q图方程M744在模拟场景中有几个大的效果。

补充材料

补充数据

确认

我们感谢Matthew Knuiman教授和Busselton人口医学研究基金会允许在§5.2的分析中使用这些数据。这项工作得到了美国国立卫生研究院的部分支持。

附录.定理证明

在整个证明中,我们写方程M745方程式M746方程式M747。我们还允许方程式M748方程式M749方程式M750方程式M751成为方程式M752相应矩阵的第个分量。对于矩阵方程式M753方程式M754,标准定义为方程式M755。以下引理将重复使用。

引理1-

方程式M756方程式M757几乎可以肯定是两个变量有界的过程序列,并且假设方程式M758是可以逐步测量的。对于一些常量方程式M759,假设方程式M760一类有界过程的概率方程M761,那个方程式M762是单调的方程式M763,还有那个方程式M764在度量空间中收敛到具有连续采样路径的零均值过程方程式M765,上的有界变差函数空间方程M766。然后两者都有方程式M767方程式M768概率收敛到零方程式M769

这个引理的证明直接遵循了中引理1的证明林(2000)注意到一个变量有界的过程可以分解为两个单调过程。

我们还需要以下引理,其证明在补充材料

引理2-

方程式M770是一个随机向量,包含方程式M771一个和方程M772零,每个排列的可能性相等。方程式M773方程式M774是实值随机过程的三角形数组方程式M775,使用方程式M776方程式M777方程式M778为所有人方程式M779方程式M780.让方程式M781方程式M782保持独立。假设几乎所有的路径方程式M783有有限的变化。然后方程式M784弱收敛到紧零米高斯过程,因此方程式M785概率一致收敛于零方程式M786

引理3-

鉴于此方程式M787独立于方程式M788方程式M789方程式M790弱收敛到零米高斯过程。

引理4-

在条件1-3下,对于任何非零方程式M791常数向量方程式M792具有方程M793方程式M794,其中方程式M795表示向量非零分量的数量,方程式M796方程式M797方程式M798所有过程都弱收敛到紧零米高斯过程。

引理5-

在条件1-4下,对于任何非零方程式M799常数向量方程式M800具有方程式M801方程式M802收敛到标准正态分布,其中方程式M803是的协方差矩阵方程式M804

引理6-

在条件1-4下,方程式M805方程M806对于方程式M807,其中方程式M808方程式M809的第个分量方程式M810如§3.2所述。

引理7-

在条件1-6下,如果方程式M811方程式M812方程式M813概率趋于1,对于任何给定的方程式M814令人满意的方程式M815和任何常数方程式M816,我们有方程式M817

定理1的证明-

方程式M818成为真正的参数,让方程式M819。这足以证明任何方程式M820和任何常量向量方程式M821具有方程式M822,存在一个足够大的方程式M823这样的话方程式M824。这意味着存在局部最大化方程式M825这样的话方程式M826.自方程式M827方程式M828,我们有

方程式M829

我们首先考虑方程式M830通过泰勒展开,

方程式M831

哪里方程式M832介于方程式M833方程式M834.从引理5我们得到方程M835对于方程式M836因此,

方程式M837

术语方程式M838可以写为方程式M839根据柯西-施瓦兹不等式方程式M840对于方程式M841和引理6,我们有方程式M842。通过对方程式M843和条件4,方程式M844.在条件1-3下,方程式M845具有有界变化方程M846对于方程式M847方程式M848.因此方程式M849方程式M850.将此与方程式M851方程式M852方程M853,我们获得方程式M854因此,对于足够大的方程式M855方程式M856占主导地位方程式M857方程式M858方程式M859

现在考虑一下方程式M860通过泰勒展开和柯西-施瓦兹不等式,

方程式M861

最后一个等式成立是因为方程式M862方程式M863根据条件5。因此,方程式M864占主导地位方程式M865足够大的方程式M866.自方程式M867为负数,则表示足够大方程式M868方程式M869为负,概率趋向于1方程式M870.这就完成了定理1的证明。□

定理证明2-

断言方程M871概率趋于1方程式M872直接遵循引理7。为了证明第二个断言,我们首先证明

方程式M873
(A1)

哪里方程式M874由第一个组成方程M875的组件方程式M876.自方程式M877是最大惩罚伪部分似然估计量,方程式M878.通过泰勒展开方程式M879方程式M880事实上方程式M881概率趋于1,我们有

方程式M882
(A2)

概率趋于1,其中方程式M883由第一个组成方程式M884的组件方程式M885方程式M886由第一个组成方程式M887的组件方程式M888方程式M889介于方程M890方程式M891、和方程式M892具有方程式M893之间方程式M894方程式M895。重新排列时(A2类),我们得到

方程式M896
(A3)

写入方程式M897.将的两边相乘(A3号)由方程式M898给予

方程式M899
(A4)

根据柯西-施瓦兹不等式,方程式M900如定理1的证明所示,方程式M901,所以方程式M902。通过对方程式M903方程式M904条件4,我们有

方程式M905
(A5)

中的不平等(第5页)对称矩阵的柯西–施瓦兹不等式和柯西交错不等式成立。此外,方程式M906.根据柯西-施瓦兹不等式和引理6,方程式M907。此外,我们还有方程式M908然后,根据条件4,

方程式M909

因此方程式M910方程式M911.自方程式M912收敛到方程式M913在概率上,它是这样的

方程式M914
(A6)

由(A4(A4)), (第5页)和(A6级),我们有(A1类)持有。根据引理5,方程式M915收敛到标准正态分布。因此,方程式M916分配中。这证明了定理2的第二个断言。

工具书类

  • Akaike H.(1973)。高斯自回归滑动平均模型的最大似然辨识生物特征 60, 255–65.[谷歌学者]
  • 巴洛·W·E(1994)。病例组设计的稳健方差估计生物计量学 50, 1064–72. [公共医学][谷歌学者]
  • Borgan O.、Langholz B.、Samuelsen S.O.、Goldstein L.和Pogoda J.(2000)。暴露分层病例组设计寿命数据分析。 6, 39–58. [公共医学][谷歌学者]
  • 蔡杰、范杰、李瑞和周华(2005)。多元失效时间数据的变量选择生物特征 92,303–16。[PMC免费文章][公共医学][谷歌学者]
  • Cho H.&Qu A.(2013)。参数发散相关数据的模型选择统计师。西尼卡 23, 901–27.[谷歌学者]
  • 考克斯·D·R(1972)。回归模型和生命表(含讨论)J.R.统计。Soc.B公司 34, 187–220.[谷歌学者]
  • Craven P.和Wahba G.(1979年)。用样条函数平滑噪声数据:用广义交叉验证方法估计平滑的正确程度数字。数学。 31, 377–403.[谷歌学者]
  • Cullen K.J.(1972年)。1966年至1970年Busselton人群的大规模健康检查澳大利亚。医学杂志。 2, 714–8. [公共医学][谷歌学者]
  • Fan J.&Li R.(2001)。基于非冲突惩罚似然的变量选择及其oracle性质《美国统计杂志》。协会。 96, 1348–60.[谷歌学者]
  • Fan J.&Li R.(2002)。Cox比例风险模型和脆弱性模型的变量选择安。统计师。 30, 74–99.[谷歌学者]
  • Fan Y.和Tang C.Y.(2013)。高维惩罚似然中的调谐参数选择J.R.统计。Soc.B公司 75, 531–52.[谷歌学者]
  • Hastie T.、Tibshirani R.J.和Friedman J.(2009年)。统计学习的要素柏林:Springer,第二版。[谷歌学者]
  • Huber P.J.(1973)。稳健回归:渐近、猜想和蒙特卡罗安。统计师。 1, 799–821.[谷歌学者]
  • Hunter D.&Li R.(2005)。使用MM算法选择变量安。统计师。 33, 1617–42.[PMC免费文章][公共医学][谷歌学者]
  • Kalbfleisch J.D.和Lawless J.F.(1988年)。疾病发病率和死亡率多状态模型的可能性分析统计师。医学。 7, 149–60. [公共医学][谷歌学者]
  • Kang S.和Cai J.(2009)。具有多种疾病结局的病例组研究的边际风险模型生物特征 96, 887–901.[PMC免费文章][公共医学][谷歌学者]
  • Kim S.,Cai J.和Lu W.(2013)。病例组研究的更有效估计生物特征 100, 695–708.[PMC免费文章][公共医学][谷歌学者]
  • Knuiman M.W.、Divitini M.L.、Olynyk J.K.、Cullen D.J.和Bartholomew H.C.(2003)。血清铁蛋白与心血管疾病:西澳大利亚州Busselton 17年随访研究美国流行病学杂志。 158, 144–9. [公共医学][谷歌学者]
  • Kulich M.和Lin D.(2004)。提高病例组研究中相对风险评估的效率《美国统计杂志》。协会。 99, 832–44.[谷歌学者]
  • Leeb H.&Pötscher B.M.(2005)。模型选择与推理:事实与虚构计量经济学。理论 21, 21–59.[谷歌学者]
  • Leeb H.&Pötscher B.M.(2006)。可以估计模型选择后估计量的条件分布吗?安。统计师。 34, 2554–91.[谷歌学者]
  • 林德(2000)。关于Cox比例风险模型对调查数据的拟合生物特征 87,第37页至第47页。[谷歌学者]
  • Meinshausen N.&Bühlmann P.(2010)。稳定性选择(讨论)J.R.统计。Soc.B公司 72, 417–73.[谷歌学者]
  • 彭浩、范杰(2004)。参数个数发散的非凹陷惩罚似然安。统计师。 32, 928–61.[谷歌学者]
  • Portnoy S.(1988)。指数族参数趋于无穷大时似然方法的渐近性安。统计师。 16, 356–66.[谷歌学者]
  • Pötscher B.M.和Leeb H.(2009)。惩罚极大似然估计量的分布:LASSO、SCAD和阈值J.穆特。分析。 100, 2065–82.[谷歌学者]
  • Prentice R.L.(1986)。流行病学队列研究和疾病预防试验的病例组设计生物特征 73, 1–11.[谷歌学者]
  • Schwarz G.(1978)。估算模型的维数安。统计师。 6,461-4。[谷歌学者]
  • Self S.G.和Prentice R.L.(1988年)。病例组研究的渐近分布理论和效率结果安。统计师。 16, 64–81.[谷歌学者]
  • Tibshirani R.J.(1996)。通过套索回归收缩和选择J.R.统计。Soc.B公司 58, 267–88.[谷歌学者]
  • Tibshirani R.J.(1997年)。Cox模型中变量选择的套索方法统计师。医学。 16, 385–95. [公共医学][谷歌学者]
  • 王宏、李斌和冷川(2009)。具有发散参数数的收缩率调谐参数选择J.R.统计。Soc.B公司 71, 671–83.[谷歌学者]
  • 王浩、李瑞和蔡家乐(2007)。平滑剪裁绝对偏差方法的参数选择器调整生物特征 94, 553–68.[PMC免费文章][公共医学][谷歌学者]
  • 张春华(2010)。极小极大凹惩罚下的几乎无偏变量选择安。统计师。 38, 894–942.[谷歌学者]
  • 张毅、李瑞和蔡家乐(2010)。基于广义信息准则的正则化参数选择《美国统计杂志》。协会。 105, 312–23.[PMC免费文章][公共医学][谷歌学者]
  • 邹H.(2006)。自适应套索及其oracle性质《美国统计杂志》。协会。 101, 1418–29.[谷歌学者]
  • 邹浩和张浩(2009)。参数发散的自适应弹性网安。统计师。 37, 1733–51.[PMC免费文章][公共医学][谷歌学者]

文章来自生物特征由以下人员提供牛津大学出版社