跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物特征。2020年6月;107(2): 433–448.
2020年4月15日在线发布。 数字对象标识:10.1093/biomet/asaa012
PMCID公司:下午7228544
PMID:32454529

半参数回归模型的集合估计和变量选择

关联数据

补充资料

总结

我们考虑这样的场景:半参数回归模型的似然函数将因子分解为单独的分量,并且每个分量都有回归参数的有效估计。分量估计量的最优加权组合称为集合估计量,可以用作回归参数的总体估计,并且在不相关条件下可能是完全有效的。当完全似然函数很难最大化,但分量很容易最大化时,这种方法很有用。它涵盖了可以在组件可能性中以不同速率估计妨害参数的设置。作为一个鼓舞人心的例子,我们考虑了具有前瞻性双删失数据的比例风险回归,其中,似然因子分为当前状态数据似然和左向右向数据似然。变量选择在此类回归建模中很重要,但现有技术在集合方法中的适用性尚不明确。我们提出了使用最小二乘近似技术对未经验证的集合估计器进行集合变量选择,然后在所选模型下进行集合重新估计。所得到的估计量具有预言性质,从而成功地恢复了非零参数集,并实现了该参数集的半参数有效界。仿真表明,相对于其他方法,所提出的方法表现良好。对艾滋病队列研究的分析说明了该方法的实用性。

关键词:似然因子分解,惩罚估计,前瞻性队列研究,半参数效率,不相关

1.简介

许多统计模型都建议通过估计量的平均值进行有效估计。Keller&Olkin(2004)其中的参考文献研究了不同来源的正态分布平均值的组合估计。在荟萃分析中,来自多个研究的估计量通常被聚合以构建有效的估计量(Borenstein等人,2009年).Lin&Zeng(2010),Liu等人(2015)Slud等人(2018年)提出了一种在独立研究中组合公共参数估计量的方法,其中联合似然被分解为独立分量似然。考克斯(2001)考虑基于可分解似然的参数模型,一个简单的例子是两个或多个独立研究的统计模型。作为组合信息的一般方法,他建议使用广义最小二乘估计量作为总体估计量,该估计量将分量估计量与其估计协方差矩阵的逆算出的权重进行最佳组合。当分量似然最大化是直接的,而完全似然最大化则需要计算时,这种估计特别有用。

我们研究了半参数回归模型中回归参数的组合有效分量估计,其中完全似然是可分解的,类似于考克斯(2001)在我们所谓的集合估计过程中,我们最优地组合有限维回归参数的估计量,以获得在不滞后条件下半参数有效的总体估计量。当以通常的参数速率可能无法实现的无限维冗余参数的估计具有挑战性,使完全似然分析复杂化时,这些结果是有价值的。

这项工作的动机来自使用年龄表对前瞻性队列研究的生存分析。许多受试者在入学时可能已经经历过这一事件,而那些没有经历过的受试者可能在随访过程中没有经历过。这种双重审查的数据,包括以左为中心和以右为中心的时间,可以使用比例风险模型的完全似然分析进行分析(考克斯,1972年).Kim等人(2013)苏和王(2016)针对具有双删失数据的Cox模型,通过将左元数据视为缺失数据,开发了近似期望最大化算法。虽然程序的理论性质已经确定,但其实际使用受到计算效率低和不稳定性的阻碍。另一种分析方法是仅使用入学时无事件的受试者的数据,使用入学时的年龄进行左转。然而,没有利用在入学前参加过活动的受试者的数据,导致信息丢失。大多数前瞻性队列研究收集与参与者入学年龄相关的信息。我们新颖地将入学年龄用作左截断时间,这与标准的双删失数据不同。我们将这种设置称为预期双重审查数据。如§所示此类数据的完全可能性可以分解为基于登记时事件状态的当前状态数据可能性和基于登记时没有事件的受试者的左转右偏数据可能性。这两种成分的可能性都得到了很好的研究,理论和计算问题得到了严格的解决。可以基于分量估计器执行集合估计,从而简化计算和推断。我们利用了预期双删失数据和双删减数据之间的似然等价性,其中Su和Wang(2016)也认识到了,但没有利用。

半参数回归中的变量选择是一个重要的实际问题,例如,在HIV感染队列研究中确定风险因素时。惩罚是一种流行的变量选择技术,起源于Tibshirani(1996)Fan&Li(2001)用于参数回归模型。刑罚化技术已适用于半参数回归模型。一个著名的例子是对具有右偏数据的比例风险模型中回归参数的惩罚部分似然估计,其结果与参数模型的结果类似(Tibshirani,1997年;Fan&Li,2002年). 当需要同时估计回归参数和妨害参数时,提出了基于修正可能性的模型特定惩罚方法(Cai等人,2005年;Du等人,2010年;Liu&Zeng,2013年). 由于理论和计算上的困难,这种惩罚估计是复杂的。对于半参数可分解可能性,我们建议集合变量选择,其中近似技术Wang&Leng(2007)用于构造稀疏估计量,其中一些回归系数正好为零(Lu等人,2012年). 其主要思想是通过以非规范集合估计量为中心的最小二乘准则来近似回归参数的剖面似然。

所提出的集合估计和变量选择过程为具有可分解可能性的半参数回归模型中的回归参数估计提供了一种通用方法。主要要求是每个分量都存在有效的回归估计量。与预期双重删失数据的情况一样,妨害参数的估计可能与成分可能性中的参数率不同,并且可能较慢。在§2在不相关条件下,建立了分量估计弱条件下分量似然的理论性质。对于具有固定维回归参数的变量选择,证明了惩罚估计是稀疏的,并且随着样本量的增加,正确地选择了真实的非零参数。所得估计量具有预言性质:其极限分布是正态的,其渐近协方差矩阵与有效估计量的协方差矩阵相同,且真非零参数是先验已知的。

2.合奏框架

2.1. 一般方法

考虑一个具有有限维回归参数的半参数回归模型,方程式ImEquation1和一个无限维冗余参数,方程式ImEquation2.表示方程式ImEquation3作为真实的参数值。回归参数为固定值方程式ImEquation4-维参数空间,方程式ImEquation5.在不丧失通用性的情况下,表示方程式ImEquation6,其中方程式ImEquation7是一个方程式ImEquation8-维数非零回归系数和方程式ImEquation9。我们考虑一个稀疏回归参数,其中方程式ImEquation10是一个固定数字小于方程式ImEquation11目标是有效估计方程式ImEquation12,识别方程式ImEquation13,和oracle估计方程式ImEquation14.

数据包括方程式ImEquation15独立且相同分布的观测,方程式ImEquation16,来自方程式ImEquation17,其中方程式ImEquation18是样本空间上的一组概率测度方程式ImEquation19假设基于这些数据的半参数模型的对数似然表示为方程式ImEquation20,其中方程式ImEquation21是的对数似然方程式ImEquation22第次观察。假设对数似然分为方程式ImEquation23组件可能性,方程式ImEquation24,其中方程式ImEquation25是一个固定的数字,并且方程式ImEquation26是所有组件可能性的通用参数。也就是说,对数似然是总和,方程式ImEquation27这种可能性被称为可分解。相同的真实参数值适用于所有组件可能性方程式ImEquation28.

表示方式方程式ImEquation29所有功能的空间方程式ImEquation30具有方程式ImEquation31方程式ImEquation32在整篇论文中,我们省略了下标方程式ImEquation33表示基点。的分数函数方程式ImEquation34定义为对数似然对方程式ImEquation35带有固定的方程式ImEquation36即。,方程式ImEquation37。我们考虑的一维参数子模型方程式ImEquation38,表示为方程式ImEquation39,哪种方法方程式ImEquation40作为方程式ImEquation41(范德法特,2000;2007年,科索罗克). 子模型的得分函数方程式ImEquation42定义为方程式ImEquation43(Bickel等人,1993年). 一维子模型的分数函数集合称为方程式ImEquation44。的切线空间方程式ImEquation45定义为切线集的闭合跨度,表示为方程式ImEquation46分数是相对于标量参数分量的逐点Gateau导数,而不是均方导数。有效的分数函数方程式ImEquation47定义为方程式不等式48到上面方程式ImEquation49在里面方程式ImEquation50(Bickel等人,1993年). 具体来说方程式ImEquation51写为方程式ImEquation52,其中方程式ImEquation53投影在方程式ImEquation54在里面方程式ImEquation55有效信息矩阵是有效得分函数的方差,即。,方程式ImEquation56,假定为正定。半参数效率界方程式ImEquation57方程式ImEquation58,其中方程式ImEquation59是所有正则估计量中最小的渐近方差方程式ImEquation60在半参数模型中。对于方程式ImEquation61th似然分量,分数函数方程式ImEquation62方程式ImEquation63以及的子模型的得分函数方程式ImEquation64方程式ImEquation65.通过似然因子分解,方程式ImEquation66方程式ImEquation67,称为的分数函数相加性方程式ImEquation68方程式ImEquation69与完全似然相似,我们为方程式ImEquation70. The方程式ImEquation71分量噪声参数切线空间表示为方程式ImEquation72,其上的投影表示为方程式ImEquation73。的组件有效分数函数方程式ImEquation74方程式ImEquation75,组件有效信息矩阵为方程式ImEquation76。引入的所有有效分数和信息矩阵都对应于单个观察值。请参阅Bickel等人(1993);范德法特(2000)科索罗克(2007)以便更准确地说明有效的分数和信息。

我们提出的集合估计是成分回归估计量有效组合的扩展考克斯(2001)建议用于参数可分解的可能性,用于半参数可分解可能性。方程式ImEquation77表示的有效估计量方程式ImEquation78基于方程式ImEquation79第个分量的可能性,方程式ImEquation80,方程式ImEquation81.表示的逆渐近协方差估计方程式ImEquation82通过方程式ImEquation83.我们建议一个集合估计器,该估计器最小化方程式ImEquation84,并具有封闭式表达式,方程式ImEquation85。其渐近逆协方差矩阵估计为方程式ImEquation86该程序的直觉是方程式ImEquation87渐近等价于以有效分量估计为中心的二次型之和。方程式ImEquation88在计算上很难获得来自全似然的有效估计,而可以容易地获得来自分量似然的有效估计。

集合变量选择应用了Wang&Leng(2007)对于集合估计器的有效变量选择。基于初步集成估计器,用最小二乘近似代替未细化的目标函数,并用自适应拉索惩罚进行正则化(邹,2006). 具有集合变量选择的中间估计,方程式ImEquation89,通过最小化获得

方程式方程式1

哪里方程式ImEquation90是一个非负调整参数。以下内容Wang&Leng(2007),我们通过最小化修改的贝叶斯信息准则来选择最佳调谐参数:方程式ImEquation91。所选模型表示为方程式ImEquation92.表示的子空间方程式ImEquation93在所选模型上支持为方程式ImEquation94.最小角度回归算法(Efron等人,2004年)可以直接应用,简化优化的实现。

接下来,我们基于集合变量选择模型重新计算每个分量估计量,并使用集合估计方法计算总体估计量。表示方程式ImEquation95第个组件作为方程式ImEquation96其子向量由集合变量选择模型索引为方程式ImEquation97.我们还估计了方程式ImEquation98作为的子矩阵方程式ImEquation99与关联方程式ImEquation100,表示为方程式ImEquation101.重装限制为方程式ImEquation102可以方便地进行,类似于方程式ImEquation103.集合重新估算提供了结果估算的封闭形式,方程式ImEquation104,其中方程式ImEquation105方程式ImEquation106.结果估计量的渐近逆协方差矩阵估计量限制为方程式ImEquation107表示为方程式ImEquation108.

2.2. 不相关条件

考克斯(2001)在二阶有效性条件下,证明了集合估计在参数可分解似然中的渐近效率,该有效性条件使分量得分函数在温和正则性条件下不相关。沿着同样的路线,我们假设了半参数可分解可能性的以下条件:

条件1。

组件得分函数方程式ImEquation109是成对不相关的。,方程式ImEquation110,方程式ImEquation111.

条件2。

组件切线空间方程式ImEquation112成对正交,方程式ImEquation113,方程式ImEquation114.

条件3。

组件得分函数方程式ImEquation115与所有其他分量噪声参数切线空间正交,即。,方程式ImEquation116,方程式ImEquation117.

在不损失一般性的情况下,我们考虑分解为两个组件的可能性。什么时候?方程式ImEquation118方程式ImEquation119与…无关方程式ImEquation120方程式ImEquation121,满足条件1-3。这些事实,以及方程式ImEquation122和子模型方程式ImEquation123,得出可以将完全有效的分数函数分解为不相关的分量有效分数函数,如命题1所示。

提议1。

在条件1-3下方程式ImEquation124是不相关分量有效得分函数的总和,即。,方程式ImEquation125、和方程式ImEquation126,方程式ImEquation127因此,完全有效信息被专门划分为组件有效信息矩阵,即。,方程式ImEquation128.

有效信息可加性意味着集合估计达到了完全有效界;请参阅补充材料.

考虑数据包括方程式ImEquation129独立同分布观测方程式ImEquation130,其中方程式ImEquation131是协变量。有一个带参数的半参数回归模型方程式ImEquation132导致完全对数似然,表示为方程式ImEquation133.分配方程式ImEquation134与模型参数无关。完全对数似然可以分解为边际似然和条件似然之和,它们是方程式ImEquation135方程式ImEquation136分别为。条件1满足如下方程式ImEquation137通过条件作用和零期望方程式ImEquation138关于条件分布。相同的参数可用于验证条件2和条件3。因此,满足条件1-3。主要的一点是,条件化和边缘化被用来建立分解为边缘有效分数和条件有效分数及其不相关性。这种分解的一个特例是预期双删失数据的可能性。将完全似然分解为左向和右向数据的条件似然和当前状态数据的边际似然。这在§中进行了讨论类似地,纽伊(1990)讨论了半参数加性回归模型中边际密度与条件密度之间的不相关性,其中边际密度是一个相关参数的辅助参数。不相关性为仅基于条件密度的估计提供了理论依据。

2.3. 理论性质

我们现在研究了完全集合估计量的理论性质以及由此得到的重新调整的集合估计量。在本节中,我们将假设满足不相关条件。关键假设和结果如下所述,证据归为补充材料.

假设1。

对于每个方程式ImEquation139,方程式ImEquation140相对于组件可能性而言是正则的、渐近线性的和半参数有效的,这样方程式ImEquation141、和方程式ImEquation142在分布上收敛到方程式ImEquation143.

假设2。

的一致估计量方程式ImEquation144,方程式ImEquation145,存在于方程式ImEquation146.

假设1表明有限维参数的估计具有通常的方程式ImEquation147具有分量似然的收敛速度。假设1和假设2可能需要对妨害参数进行一致的估计,可能会以不同于的速度收敛方程式ImEquation148费率(Groeneboom&Wellner,1992年;范德法特,2000). 这意味着,在回归参数估计中,从理论上证明集合方法的合理性,不需要精确的分量似然滋扰参数的收敛速度。根据分量有效分数的不相关性,分量估计量是渐近不相关的,即。,方程式ImEquation149作为方程式ImEquation150,方程式ImEquation151.

定理1(渐进效率).

假设假设1-2成立。然后方程式ImEquation152,其渐近分布为方程式ImEquation153.

定理1表明,完全集合估计器是方程式ImEquation154-获得了与半参数效率一致且渐近正态的结果。将完全有效分数分解为不相关的分量有效分数是建立渐近有效性的关键。

类似于方程式ImEquation155,一个人可以写方程式ImEquation156,其中方程式ImEquation157对应于方程式ImEquation158非零分量和方程式ImEquation159对应于零分量。定义方程式ImEquation160的th分量oracle估计方程式ImEquation161作为一个基于方程式ImEquation162使用初始拟合方法,表示为方程式ImEquation163,方程式ImEquation164.

假设3。

对于每个方程式ImEquation165,方程式ImEquation166正则、渐近线性和半参数有效方程式ImEquation167、和方程式ImEquation168,其中方程式ImEquation169是的子向量方程式ImEquation170与关联方程式ImEquation171方程式ImEquation172是的子矩阵方程式ImEquation173与关联方程式ImEquation174.

假设3是假设1的预言版本,它表明组件预言估值器的半参数效率。也就是说,分量预言估计的渐近方差相对于其分量似然达到了半参数效率界。假设1-3遵循Wang&Leng(2007).写入方程式ImEquation175,其中方程式ImEquation176方程式ImEquation177.

定理2(选择一致性).

假设假设1-3成立。如果方程式ImEquation178方程式ImEquation179,然后方程式ImEquation180方程式ImEquation181.

定理3(Oracle属性).

假设假设1-3成立。如果方程式ImEquation182方程式ImEquation183,方程式ImEquation184在分布上收敛到方程式ImEquation185,其中方程式ImEquation186是的子矩阵方程式ImEquation187与关联方程式ImEquation188.

定理2证明了得到的估计量是方程式ImEquation189-一致性和选择一致性。当概率趋于1时,该估计器成功地恢复了真实的稀疏模型。定理2表明非零系数的最终估计量与oracle方差是渐近正态的,方程式ImEquation190当调谐参数条件为王玲(2007)保持。

3.预期双重审查数据

3.1. 可能性构造和因子分解

假设一项前瞻性队列研究监测方程式ImEquation191独立个人。每个受试者都有四组随机变量:入学时间、失败时间、研究终止时间和协变量,表示为方程式ImEquation192,方程式ImEquation193根据定义,方程式ImEquation194我们关心的是给定故障时间的条件分布方程式ImEquation195,表示为方程式ImEquation196.观测数据为前瞻性双重审查数据。观察受试者在注册前是否经历过该事件方程式ImEquation197如果没有,则继续观察事件是否在后续时间内发生方程式ImEquation198以及此类事件发生的故障时间。用两个指标表示入学时的左侧审查状态和右侧审查状态,方程式ImEquation199方程式ImEquation200分别为。审查指标对有三个可能的值:方程式ImEquation201,方程式ImEquation202、和方程式ImEquation203.假设方程式ImEquation204方程式ImEquation205是独立给定的方程式ImEquation206.联合分配方程式ImEquation207假设在条件分布中没有参数方程式ImEquation208.将故障时间的最小值和正确的审查时间表示为方程式ImEquation209.每个受试者的观察数据为方程式ImEquation210与传统的双重审查数据相反,其中剩余的审查时间方程式ImEquation211仅在有以下症状的受试者身上观察到方程式ImEquation212具有前瞻性双重审查数据,方程式ImEquation213总是被观察到。

预期双删失数据的似然函数为

方程式方程式2

该似然包含与传统双删失数据的似然相同的信息,因为方程式ImEquation214对于在入学时已经参加过该活动的受试者。注册时间的使用,方程式ImEquation215,对所有受试者来说,有助于分解可能性,如下所示:

方程式Equation3

第一部分是入学时当前状态数据的可能性,其中每个人都有方程式ImEquation216作为观察到的三胞胎。第二个组成部分是在登记前没有发生事件的受试者的左截断右删失数据的可能性,其中每个人都有方程式ImEquation217作为观察到的四胞胎。

我们使用比例风险模型来分配方程式ImEquation218鉴于方程式ImEquation219。假设条件危险率满足方程式ImEquation220,其中方程式ImEquation221是当时的基准危险方程式ImEquation222方程式ImEquation223是回归参数。参数空间方程式ImEquation224回归参数的一个已知紧子集方程式ImEquation225基线危险率可以是方程式ImEquation226。我们通过以下公式定义基线累积风险函数方程式ImEquation227真实回归参数和真实基线累积风险函数表示为方程式ImEquation228方程式ImEquation229.在不丧失通用性的情况下,写方程式ImEquation230,其中方程式ImEquation231是一个方程式ImEquation232-维数非零参数向量和方程式ImEquation233是一个方程式ImEquation234-维零参数向量。相应的对数似然表示为:

方程式Equation4
(1)
方程式方程式5
(2)

前两项(1)对应于当前状态数据的对数似然,而其余两项(1)对应于左向右向数据的对数似然。的完整有效分数和信息方程式ImEquation235表示为方程式ImEquation236方程式ImEquation237。当前状态组件的有效分数和信息为方程式ImEquation238方程式ImEquation239分别为。类似地,将左向右向数据组件的有效分数和信息表示为方程式ImEquation240方程式ImEquation241.

3.2. 集成方法论的应用

我们将基于似然分解的集合估计和选择过程应用于具有预期双删失数据的Cox模型,该似然分解为当前状态数据的似然和左旋右删失的似然。回归参数和基线风险函数的最大似然估计已针对这两个分量进行了广泛研究(黄,1996;Andersen等人,1997年;Klein&Moeschberger,2003年;2007年周日),生成的有效估计量方程式ImEquation242这有助于集成方法的应用。

对于当前状态数据,表示回归参数和基线累积风险函数的最大似然估计值方程式ImEquation243通过方程式ImEquation244方程式ImEquation245.我们使用迭代凸次优算法最大化当前状态数据的似然(潘,1999年;Murphy和van der Vaart,2000年). 协方差估计量通过bootstrap获得,表示为方程式ImEquation246,其中方程式ImEquation247是来自方程式ImEquation248第个引导示例(潘,1999年;Cheng&Huang,2010年).

由于左向受试者对左向右向受试数据的可能性没有贡献,因此可以仅用左向受测者重写Cox模型的可能性。部分似然可用于获得左向右向数据回归参数的最大似然估计量,而无需同时估计方程式ImEquation249(Klein&Moeschberger,2003年). 表示回归参数的估计值方程式ImEquation250。对数偏似然的负二阶导数用于估计的渐近逆协方差矩阵方程式ImEquation251。我们通过左旋受试者的比例来衡量负二阶导数,以解决左旋受试题的零贡献。估计量表示为方程式ImEquation252(Klein&Moeschberger,2003年).

我们现在说明集合估计和变量选择过程。首先,使用初始估计量进行集合估计,方程式ImEquation253,方程式ImEquation254,方程式ImEquation255方程式ImEquation256全系综估计器为方程式ImEquation257其逆协方差估计为方程式ImEquation258集成变量的选择是通过计算来实现的

方程式方程式6

哪里方程式ImEquation259是一个调整参数。调整参数最小化修改比克(bic)被选中。所选模型表示为方程式ImEquation260然后,为了获得重新修正的估计量,我们在参数子空间上最大化分量似然,方程式ImEquation261.根据方程式ImEquation262表示为方程式ImEquation263方程式ImEquation264。我们估计它们的渐近协方差矩阵的方式与估计未规范化的渐近协变矩阵的方式类似,并将它们表示为方程式ImEquation265方程式ImEquation266分别为。或者,我们可以使用方程式ImEquation267方程式ImEquation268与关联方程式ImEquation269.改装集合估计器限制为方程式ImEquation270是重新装配的估计量的加权组合,表示为方程式ImEquation271,其中方程式ImEquation272方程式ImEquation273其协方差矩阵的逆矩阵限制为方程式ImEquation274估计依据为方程式ImEquation275.

3.3. 理论性质

Cox模型的具有预期双重删失数据的似然分解是§2.2Cox模型的完整数据似然是Cox模型边际当前状态数据似然和条件左转右偏数据似然的乘积,如(2). 通过定义方程式ImEquation276方程式ImEquation277,不相关条件作为分解为边际似然和条件似然的特殊实例得到满足,§2.2因此,根据提议1,方程式ImEquation278是不相关的总和方程式ImEquation279方程式ImEquation280.

在分量估计过程的附加正则性条件下,如假设1–2成立,则根据定理1实现了全集合估计的一致性、渐近正态性和半参数效率。

推论1。

补充材料,方程式ImEquation281在分布上收敛到方程式ImEquation282.

中的条件4–10补充材料是正则性条件,允许回归参数的半参数有效估计和两个分量数据可能性的渐近逆方差的一致估计。有关详细信息,请参阅黄(1996);Andersen等人(1997年);墨菲和范德法特(1999);范德法特(2000)Cheng和Huang(2010)两个分量预言估计都达到了半参数效率界,这使得假设3成立,因为两个对数似然都是线性预测的函数,方程式ImEquation283。类似于方程式ImEquation284,写入方程式ImEquation285,其中方程式ImEquation286方程式ImEquation287.

推论2。

根据补充材料,如果方程式ImEquation288方程式ImEquation289,然后方程式ImEquation290方程式ImEquation291.

推论3。

根据补充材料,如果方程式ImEquation292方程式ImEquation293,然后方程式ImEquation294在分布上收敛到方程式ImEquation295,其中方程式ImEquation296是的子矩阵方程式ImEquation297与关联方程式ImEquation298.

推论2确定得出的估计器具有方程式ImEquation299-变量选择的一致性和一致性。推论3表明,所得到的限制于非零参数的估计量是渐近正态分布的,并且达到了半参数效率界。

一种实用的估算方法方程式ImEquation300可以使用Breslow的估计量和左旋右偏数据,表示为方程式ImEquation301.该估计器实现了方程式ImEquation302由于左旋右偏数据包含了研究期间观察到的信息丰富的左偏样本,因此预期的双删失数据也是如此(Chang&Yang,1987年;Kim等人,2010年). 由于当前状态数据缺乏观测到准确事件时间的样本方程式ImEquation303方程式ImEquation304,这比常规收敛速度慢。

4.模拟研究

进行了广泛的模拟实验,以评估我们的集成过程中回归参数估计量的有限样本性能。我们不仅考虑基于预期双删失数据的估计量,还考虑基于当前状态数据或基于左旋右偏数据的比较估计量。基于似然分量的估计量包括分量最大似然估计量、最小二乘近似估计量(Wang&Leng,2007年)并重新拟合最小二乘近似估计量。由于预期最大化算法Kim等人(2013)苏和王(2016)在软件包中不可用,因此没有尝试将我们的方法与基于完全似然的方法进行比较。我们使用肠溶蛋白生存R(右)程序包(2020年研发核心团队). 我们使用1000个引导复制来估计当前状态数据的方差矩阵。

我们考虑以下指数风险模型:方程式ImEquation305,其中方程式ImEquation306.协变量,方程式ImEquation307,由多元正态分布生成,方程式ImEquation308,其中方程式ImEquation309入学时间服从指数分布,而正确的审查时间服从相应入学时间移动的指数分布。基于500个模拟数据集给出了结果。我们考虑了左右两种审查率设置:(20%,20%)和(30%,30%)。

表1总结了样本大小分别为250和500的模拟结果。在基于当前状态数据或左向右向数据的分量估计中,最小二乘近似和重新拟合最小二乘近似同时进行变量选择和参数估计。每个最小二乘近似估计值都是重新拟合最小二乘近似估计的变量选择基准,因此二者具有相同的平均真阳性和假阳性数以及过拟合/欠拟合比例。在大多数情况下,改装可以提高效率。在效率和变量选择方面,基于左向右向数据的估计比基于当前状态数据的估计具有更好的性能,这是因为75%的左向非感测样本具有准确的故障时间。集合预言估计量是当前状态数据和左向右向数据的预言估计量的有效组合,是具有预期双删失数据的预言估计器的一种实用代理。集合变量选择过程成功地在90%以上的模拟中指定了正确的模型,与分量估计相比,减少了对真零协变量的选择。中间改装降低了估算效率。然而,得到的估计量具有弹性,并且它是除集成预言机估计量之外的所有估计量中最有效的。随着样本量的增加,所有程序在估计和变量选择方面都具有较高的准确性。

表1。

集成方法与基于组件方法的比较

审查率(20%, 20%)(30%, 30%)
 RMSE公司TP(转移定价)计划UF公司穿越火线第页,共页RMSE公司TP(转移定价)FP公司UF公司穿越火线第页,共页
  方程式ImEquation312
 反恐精英
甲骨文公司22.80300100034.693001000
MLE公司4.4137001008.263700100
LSA公司5.162.400.1936481112.222.810.22126818
重新安装LSA5.782.400.1936481114.782.810.22126818
 LTRC公司
甲骨文公司73.45300100063.463001000
MLE公司16.56370010013.533700100
LSA公司48.7330.210821835.5330.3407327
重新安装LSA49.3130.210821836.2930.3407327
 合奏
甲骨文公司10030010001003001000
初始合奏22.78370010023.783700100
电动汽车63.0430.110901057.3730.1208911
CS改装20.8030.110901030.6230.1208911
LTRC改装58.5930.110901053.1330.1208911
重新安装整体75.6830.110901078.4030.1208911
  方程式ImEquation313
 反恐精英
甲骨文公司24.27300100039.803001000
MLE公司5.3837001009.513700100
LSA公司9.792.980.272762216.5530.2507921
重新安装LSA13.082.980.272762223.7230.2507921
 液化石油气
甲骨文公司77.02300100060.453001000
MLE公司18.40370010015.593700100
LSA公司54.8730.170861442.1930.1708614
重新安装LSA52.5430.170861444.0230.1708614
 合奏
甲骨文公司10030010001003001000
初始合奏24.08370010024.963700100
电动汽车66.6730.07093757.4530.1109010
CS改装21.1230.07093732.0830.1109010
LTRC改装66.3130.07093752.6030.1109010
重新安装整体77.9930.07093773.9730.1109010

CS,仅基于当前状态数据的分析;LTRC,仅基于左截断右删失数据的分析;合奏:基于合奏程序的分析;初始集合:完全集合估计;EVS,集合变量选择程序;重装在LTRC/CS上,重装基于ltrc公司/现状数据;重装集合:集合的重新估计;rmse公司:估计量与集合oracle估计量的相对均方误差(%);TP/FP,分别为真阳性/假阳性的平均数;UF、CF和OF,真实模型的欠拟合、正确拟合和过拟合百分比。更大的rmse公司对应更高的效率。集成预言机估计器具有rmse公司100%。

我们还检验了回归参数估计量的渐近有效方差估计量与经验方差的有限样本性能。补充材料我们证明了平均估计标准误差方程式ImEquation314在整个过程中获得方程式ImEquation315与经验标准误差一致方程式ImEquation316具有样本大小方程式ImEquation317方程式ImEquation318,基于当前状态数据的估计除外。基于当前状态数据的估计的平均估计标准误差和经验标准误差之间的显著差异主要是由于以下变量的选择性能较差:方程式ImEquation319最小二乘近似技术。改装后的集合估计器的平均估计标准误差在方程式ImEquation320%相应的经验标准误差。95%的经验覆盖概率方程式ImEquation321对于方程式ImEquation322从总体程序来看,一般都接近标称的95%水平。其他结果非常相似,因此省略了。

此外,我们根据经验计算了方程式ImEquation323方程式ImEquation324,是渐近零矩阵。补充材料我们还报告了Frobenius范数、谱范数和方程式ImEquation325我们考虑的所有场景的经验协方差的范数。这些标准值相当小,并且随着样本量的增加而减少。

5.多中心艾滋病队列研究

多中心艾滋病队列研究旨在阐明HIV的自然史(Kaslow等人,1987年). 全美共有近5619名同性恋和双性恋男性被录取。每六个月,参与者进行一次体检,并完成问卷调查和实验室测试。这些研究收集了参与者的人口统计学、性行为和病史方面的广泛信息。我们认为他们第一次访问的信息可能是风险因素。HIV 1型的血清阳性率由阳性的酶联免疫吸附试验和确证的Western blots测定(Kaslow等人,1987年). 我们分析了HIV感染时间的年龄范围。信息缺失或记录错误的受试者从分析中剔除。我们还排除了最后一次阴性血清转换就诊与第一次阳性血清转换就诊之间的时间间隔超过4年的受试者。分析数据集包括5102名受试者;2038名患者在首次就诊前感染了HIV,448名患者是在研究过程中感染的,2616名患者在研究前或随访期间均未感染。考虑的风险因素包括参与者的性行为、病史、吸烟和饮酒行为、药物使用和社会经济地位。

表2给出了整个集成过程的分析结果。为了进行比较,在补充材料我们报告了基于当前状态数据或基于左向右向数据的非规范化最大似然估计、最小二乘近似和重新拟合最小二乘近似的结果。虽然以左翼和右翼为中心的数据分析得出的结论是,教育风险最高的群体是那些没有学历的人,但基于现状数据的估计和重新调整的集合估计都得出结论,教育程度较低的人感染艾滋病毒的风险较高,这与先前的研究结果一致(卡塔尼亚等人,2001年;Simard等人,2012年). 此外,这些分析选择生殖器疣、可卡因使用和西班牙裔作为风险因素,与基于左翼和右翼数据的估计相反。这些差异可能是因为大约40%的受试者在入学前感染了艾滋病毒,而在研究期间,只有9%的入学时没有感染艾滋病毒的受试人员感染了艾滋病毒。这表明,当前状态数据比左向右向数据更具信息性,如集合结果所示。根据集合程序,肛门接受性行为与HIV感染密切相关,风险增加77%。没有避孕套的肛门接受性行为感染HIV的高风险已被充分证明(Ekstrand等人,1999年;Sullivan等人,2009年). 患有淋病和生殖器疣等性病的受试者的风险也较高,分别为86%和40%。此外,正如预期的那样,共用针头、吸食可卡因和吸毒与性行为相结合分别增加了77%、51%和27%的艾滋病毒感染风险。非裔美国人和受教育程度低的受试者的艾滋病毒感染风险预计也会增加。

表2。

多中心艾滋病队列研究的集合方法结果

协变量初始合奏(SE) 电动汽车LTRC改装(SE)CS改装(SE)重新安装组件(SE)
REC2P系列 0.58 (0.05)*0.580.44 (0.12)0.59 (0.05)0.57 ( 0.05)
REC2Y系列 0.06 (0.05) 
CON2P公司 0.07 (0.23) 
CON2Y公司 方程式ImEquation3260.24 (0.21) 
刻度盘 方程式ImEquation3270.23 (0.29) 
GONOE公司 0.53 (0.08)*0.500.55 (0.10)0.50 (0.14)0.62 (0.08)
放射性物质 方程式ImEquation3280.03 (0.21) 
警告 0.37 (0.05)*0.330.05 (0.11)0.39 (0.05)0.34 (0.05)
国家发改委 方程ImEquation3290.02 (0.01) 
包装 方程式ImEquation3300.03 (0.03) 
NEEDL公司 0.54 (0.10)*0.480.84 (0.22)0.45 (0.12)0.57 (0.10)
COK2Y系列 0.49 (0.06)*0.520.11 (0.10)0.55 (0.09)0.41 (0.07)
哈西(HAS2Y) 0.12 (0.08)*
MSX2Y系列 0.31 (0.08)*0.280.56 (0.14)0.27 (0.09)0.24 (0.07)
OPI2Y公司 方程式ImEquation3310.05 (0.12) 
联合国环境管理局 0.19 (0.09) 
黑色 0.71 (0.08)*0.660.52 (0.18)0.69 (0.08)0.70 (0.08)
HISPA公司 0.28 (0.10)*0.160.18 (0.22)0.32 (0.13)0.20 (0.11)
其他 0.06 (0.20) 
前COL 方程式ImEquation3320.16 (0.07)*
COL公司 方程式ImEquation3330.31 (0.08)* 方程式ImEquation3340.13 方程式ImEquation3350.31 (0.13) 方程式ImEquation3360.20 (0.06) 方程式ImEquation3370.24 (0.06)
邮政总局 方程式ImEquation3380.44 (0.07)* 方程式ImEquation3390.30 方程式ImEquation3400.10 (0.12) 方程式ImEquation3410.43 (0.11) 方程式ImEquation3420.29 (0.07)

REC2P系列,REC2Y系列参与者是否有肛门接受性/插入性行为;CON2P公司,科尼参与者是否使用避孕套进行肛门接受性/插入性行为;刻度盘、糖尿病;GONOE公司淋病;RADTE公司,放射治疗/治疗;警告生殖器/肛门疣;国家发改委,每天的饮品数量;包装,每天吸烟的香烟包数量;NEEDL公司、共用针头;COK2Y系列可卡因使用;哈西(HAS2Y)大麻/大麻的使用;msx2年性毒品;OPI2Y公司、海洛因/其他阿片剂的使用;联合国环境管理局当前失业率;黑色,黑人种族;HISPA公司西班牙裔;其他其他民族;前COL,没有学位的大学入学率;COL公司,学士学位;邮政总局硕士及以上学历。白人种族和高中文凭被用作基本类别。根据初始集合估计,显著协变量在0.05级用*标记。

6.讨论

半参数可因子分解似然的集成方法在减少计算负担和简化渐近推理方面都有优点。理论结果建立在样本量增加而协变量数量固定的范式中。当然,当协变量的数量随着样本量的增加而增加时,这种结果并不适用,就像在高维数据应用中一样。正如副编辑所指出的,在存在几个非零参数的情况下,这些参数的值小于方程式ImEquation343集成变量的选择可能无法成功识别正确的模型,从而导致后续集成估计的效率损失。这方面还需要进一步的工作。

对于预期双删失数据,似然因子分解很容易适应除比例风险模型以外的模型,其中存在有效估计量和一致方差估计量。加速失效时间模型中回归参数的有效估计和渐近方差的一致估计,以前已经通过以下方法研究了左截断和右删失Lai&Ying(1991),当前状态数据由沈(2000)这种方法可以用来构造该模型中回归参数的完全有效的集合估计。另一个例子是,在一般的一类变换模型(包括比例风险模型)中,回归参数的有效估计和渐近方差的一致估计原则上是通过使用计数过程似然估计量的左旋右偏数据来实现的曾和林(2007)。使用当前状态数据对转换模型进行有效估计已在Zhang等人(2013)集成方法可与这些分量估计量结合使用,以充分有效地估计转换模型中的回归参数。这些集成过程的实现是未来研究的重要课题。

综合方法论在精神上类似于荟萃分析,即将信息组合在一个固定的数字上方程式ImEquation344组件可能性。尽管人们对使用个体水平数据进行荟萃分析越来越感兴趣,但这些数据可能无法用于文献中报道的许多小型生物医学研究。通过利用对一个共同参数或其不同但可能重叠的元素的有效研究特定估计来解决这个问题(Lin&Zeng,2010年;Liu等人,2015;Slud等人,2018年;昆都等人,2019年). 类似地,如果假设研究数量是固定的,并且每个研究中的观察数量趋于无穷大,那么我们提出的方法在这些应用中可能有用。通常,相对于荟萃分析研究中的样本量,研究数量很少(莱利等人,2010年). 集合程序通过优化组合有效的特定研究估计,得出回归参数的有效总体估计。

集合过程提供了回归参数的有效预言估计,并对妨害参数的估计进行了最小假设。正则性条件允许妨害参数分量估计的非标准收敛速度和潜在的不同收敛速度,与具有预期双删失数据的Cox模型一样。一个值得进一步研究的挑战性课题是,是否可以通过组合分量估计来实现对干扰参数的最优估计。

补充材料

asaa012_补充数据

确认

作者感谢编辑安东尼·戴维森(Anthony Davison)、副主编和裁判的建设性意见,这些意见大大改进了该论文。这项工作得到了美国国立卫生研究院和国家科学基金会的支持。

补充材料

补充材料可在获取生物特征在线包括集合方法渐近性质的所有证明和详细的数值结果。

工具书类

  • Andersen,P.K.,Borgan,Ø。,Gill,R.D.&Keiting,N.(1997年)。基于计数过程的统计模型纽约:Springer。[谷歌学者]
  • Bickel,P.J.、Klaassen,C.A.J.、Ritov,Y.和Wellner,J.A.(1993)。半参数模型中的高效自适应推理巴尔的摩:约翰·霍普金斯大学出版社。[谷歌学者]
  • Borenstein,M.,Hedges,L.V.,Higgins,J.P.T.&Rothstein,H.R.(2009)。元分析导论奇切斯特:John Wiley&Sons。[谷歌学者]
  • Cai,J.,Fan,J.、Li,R.和Zhou,H.(2005)。多元失效时间数据的变量选择.生物特征 92, 303–16.[PMC免费文章][公共医学][谷歌学者]
  • Catania,J.A.、Osmond,D.、Stall,R.D.、Pollack,L.、Paul,J.P.、Blower,S.、Binson,D.、Canchola,J.A、Mills,T.C.、Fisher,L.等人(2001年)。男男性行为者中持续的艾滋病毒流行.美国公共卫生杂志。 91, 907–14.[PMC免费文章][公共医学][谷歌学者]
  • Chang,M.N.和Yang,G.L.(1987)。双删失数据下生存函数非参数估计的强相合性.安。统计师。 15, 1536–47.[谷歌学者]
  • Cheng,G.和Huang,J.(2010)。一般半参数M估计的Bootstrap一致性.安。统计师。 38, 2884–915.[谷歌学者]
  • Cox,D.R.(1972)。回归模型和生命表(含讨论).J.R.统计。索克。B类34, 187–200.[谷歌学者]
  • Cox,D.R.(2001)。关于似然分解的几点注记.英寸概率论和统计学的最新进展:威廉·R·范·茨威特的费斯切里夫,de Gunst M.,Klaassen C.&van der Vaart A.W.,第165-172页。俄亥俄州比奇伍德:IMS课堂讲稿专题系列。[谷歌学者]
  • Du,P.,Ma,S.&Liang,H.(2010)。具有半参数相对风险的Cox模型的惩罚变量选择过程.安。统计师。 38, 2092–117.[PMC免费文章][公共医学][谷歌学者]
  • Efron,B.、Hastie,T.J.、Johnstone,I.M.和Tibshirani,R.J.(2004)。最小角度回归.安。统计师。 32, 407–99.[谷歌学者]
  • Ekstrand,M.L.、Stall,R.D.、Paul,J.P.、Osmond,D.H.和Coates,T.H.(1999)。男同性恋者报告与HIV状态未知或不一致的伴侣进行无保护肛交的比率很高.艾滋病 13, 1525–33. [公共医学][谷歌学者]
  • Fan,J.&Li,R.(2001)。基于非冲突惩罚似然的变量选择及其oracle性质.《美国统计杂志》。协会。 96, 1348–60.[谷歌学者]
  • Fan,J.&Li,R.(2002)。Cox比例风险模型和脆弱性模型的变量选择.安。统计师。 30, 74–99.[谷歌学者]
  • Groeneboom,P.&Wellner,J.A.(1992年)。信息界与非参数极大似然估计巴塞尔:Birkhäuser Verlag。[谷歌学者]
  • Huang,J.(1996)。区间删失比例风险模型的有效估计.安。统计师。 24, 540–68.[谷歌学者]
  • Kaslow,R.A.、Ostrow,D.G.、Detels,R.、Phair,J.P.、Polk,B.F.和Rinaldo,C.R.(1987年)。多中心艾滋病队列研究:参与者的理论基础、组织和选定特征.美国流行病学杂志。 126, 310–18. [公共医学][谷歌学者]
  • Keller,T.&Olkin,I.(2004)。组合正态分布均值的相关无偏估计.英寸赫尔曼·鲁宾的节日庆典达斯·古普塔(DasGupta A.)编辑,第218-227页。俄亥俄州比奇伍德:IMS课堂讲稿专题系列。[谷歌学者]
  • Kim,Y.、Kim,B.和Jang,W.(2010年)。双删失数据比例风险模型最大似然估计的渐近性质.J.穆特。分析。 101, 1339–51.[谷歌学者]
  • Kim,Y.、Kim,J.和Jang,W.(2013)。双删失数据比例风险模型的EM算法.公司。统计师。数据分析。 57, 41–51.[谷歌学者]
  • Klein,J.P.和Moeschberger,M.L.(2003年)。生存分析:截尾和截尾数据的技术纽约:Springer。[谷歌学者]
  • Kosorok,M.R.(2007年)。经验过程和半参数推断导论纽约:Springer。[谷歌学者]
  • Kundu,P.、Tang,R.和Chatterjee,N.(2019年)。具有不同协变量信息的多元回归模型的广义元分析.生物特征 106, 567–85.[PMC免费文章][公共医学][谷歌学者]
  • Lai,T.L.和Ying,Z.(1991)。左向和右向数据的秩回归方法.安。统计师。 19, 531–56.[谷歌学者]
  • Lin,D.Y.和Zeng,D.(2010)。在荟萃分析中使用汇总统计与个体水平数据的相对效率.生物特征 97, 321–32.[PMC免费文章][公共医学][谷歌学者]
  • Liu,D.,Liu,R.Y.和Xie,M.(2015)。仅使用汇总统计对异质性研究进行多元荟萃分析:效率和稳健性.《美国统计杂志》。协会。 110, 326–40.[PMC免费文章][公共医学][谷歌学者]
  • Liu,X.和Zeng,D.(2013)。右偏数据半参数变换模型中的变量选择.生物特征 100, 859–76.[谷歌学者]
  • Lu,W.,Goldberg,Y.和Fine,J.P.(2012年)。自适应套索对模型误指定的鲁棒性研究.生物特征 99, 717–31.[PMC免费文章][公共医学][谷歌学者]
  • Murphy,S.A.和van der Vaart,A.W.(1999)。半参数模型中的观测信息.伯努利 5, 381–412.[谷歌学者]
  • Murphy,S.A.和van der Vaart,A.W.(2000年)。外形可能性.《美国统计杂志》。协会。 95, 449–65.[谷歌学者]
  • Newey,W.K.(1990年)。半参数效率界限.J.应用。计量经济学。 5, 99–135.[谷歌学者]
  • Pan,W.(1999)。将迭代凸次多项式算法推广到区间相关数据的Cox模型.J.公司。图表。统计师。 8, 109–20.[谷歌学者]
  • R开发核心团队(2020年)。R: 统计计算语言与环境.奥地利维也纳:R统计计算基金会。ISBN 3-900051-07-0,网址:http://www.R-project.org.[谷歌学者]
  • Riley,R.D.、Lambert,P.C.和Abo-Zaid,G.(2010年)。个体参与者数据的荟萃分析:理论基础、行为和报告.英国医学杂志。 340,第221页。[公共医学][谷歌学者]
  • 沈欣(2000)。使用当前状态数据进行线性回归.《美国统计杂志》。协会。 95, 842–52.[谷歌学者]
  • Simard,E.P.、Fransua,M.、Naishadham,D.和Jemal,A.(2012年)。性别、种族/民族和教育程度对1993年至2007年成人人类免疫缺陷病毒死亡率的影响.架构(architecture)。内部医学。 172, 1591–8. [公共医学][谷歌学者]
  • Slud,E.、Vonta,I.和Kagan,A.(2018年)。组合样本中公共参数的估计值.统计师。理论相关字段 2, 158–71.[谷歌学者]
  • Su,Y.-R.和Wang,J.-L.(2016)。双删失聚类数据共享脆弱模型的半参数有效估计.安。统计师。 44, 1298–331.[PMC免费文章][公共医学][谷歌学者]
  • Sullivan,P.S.、Salazar,L.、Buchbinder,S.和Sanchez,T.H.(2009年)。估计美国五个城市男男性行为者中主要性伴侣传播艾滋病毒的比例.艾滋病 23, 1153–62. [公共医学][谷歌学者]
  • Sun,J.(2007)。间隔监测失效时间数据的统计分析纽约:Springer。[谷歌学者]
  • Tibshirani,R.J.(1996年)。通过套索回归收缩和选择.J.R.统计。Soc.B公司 58, 267–88.[谷歌学者]
  • Tibshirani,R.J.(1997)。Cox模型中变量选择的套索方法.统计师。医学。 16, 385–95. [公共医学][谷歌学者]
  • van der Vaart,A.W.(2000)。渐近统计。纽约:剑桥大学出版社。[谷歌学者]
  • Wang,H.&Leng,C.(2007)。最小二乘法统一LASSO估计.《美国统计杂志》。协会。 102, 1039–48.[谷歌学者]
  • Zeng,D.和Lin,D.Y.(2007年)。截尾数据下半参数回归模型的最大似然估计(附讨论).J.R.统计。Soc.B公司 69, 507–64.[谷歌学者]
  • Zhang,B.、Tong,X.、Zhang、J.和Wang,C.(2013)。利用当前状态数据对线性变换模型进行有效估计(附讨论).Commun公司。统计师。B类 42, 3191–203.[谷歌学者]
  • 邹华(2006)。自适应套索及其oracle性质.《美国统计杂志》。协会。 101, 1418–29.[谷歌学者]

文章来自生物特征由以下人员提供牛津大学出版社