总结
在本文中,我们针对集群失效时间数据提出了一个正稳定的共享脆弱性Cox模型,其中脆弱性分布随集群级协变量而变化。该模型考虑了协变量相关的簇内相关性,并允许条件和边际推断。我们直接从边际模型得到边际推断,然后使用分层Cox型伪部分似然方法估计脆弱性参数的回归系数。所提出的估计量是一致的和渐近正态的,并且提供了协方差矩阵的一致估计量。仿真研究表明,所提出的估计方法适用于实际的聚类数。最后,我们将提出的方法应用于来自移植受者科学登记处的肾移植数据。
1.简介
集群故障时间数据在生物医学研究中经常被观察到。例如,在肾脏移植环境中,移植失败时间很重要,可以将移植设施视为集群失败时间。在家庭疾病研究中,发病时间很重要,家庭是自然聚集的。集群内的受试者相互关联,集群内的依赖性可能是由于共享相似的环境和/或遗传条件。
针对集群故障时间数据提出了几种方法。一般来说,这些策略可以分为两大类。在边际模型中,当估计人口平均协变量效应时,簇结构通常被忽略,但被用于推导有效的标准误差估计。当需要比较集群之间的生命周期时,可以使用边际模型。示例包括Wei、Lin和Weissfeld(1989);Lee、Wei和Amato(1992); 和Spiekerman和Lin(1998)这些作者使用了带有独立工作假设的广义估计方程,但未明确星团内相关结构。因此,可能会出现一些效率损失,可能会影响估计协变量效应的重要性。
当对同一集群内的生命周期进行比较时,脆弱性模型可能更合适。在这种情况下,相关性结构是通过合并同一组内受试者常见的随机效应(脆弱性)来指定的。然后,协变量效应被解释为以脆弱性为条件,并具有集群特异性。通过对脆弱性分布进行额外假设,也可以获得边际协变量效应格利登和赛尔夫(1999)和Pipper和Martinussen(2003)在克莱顿-奥克斯模型下。在脆弱性模型中,通常假设脆弱性变量在簇间遵循相同的分布,这意味着簇内依赖性和簇间异质性相等。这一假设在实践中可能会被违背。
在比较美国肾移植中心与全国平均水平的研究中,使用了观察到的死亡人数与预期死亡人数的比率,即标准化死亡率(SMR),以及从边际考克斯模型得出的预期死亡人数。安表明死亡率高于全国平均水平。在共享脆弱性模型中,该统计实际上是一个非参数泊松型估计量(Glidden和Vittinghoff,2004年)对于相应的脆弱性,给出了中心的观测数据。对SMR的调查表明,较小设施的异质性可能更大,因为较小中心的SMR更常见于有序列表的顶部或底部。虽然这在一定程度上是由于SMR估计量的抽样方差造成的,但也有可能是由于不同的集群特征导致了不同中心之间的异质性程度不等。这表明存在一个共享脆弱性模型,但脆弱性分布允许取决于集群大小。其他集群级协变量也可能对脆弱性分布产生影响。例如,城市移植设施可能比农村移植医院表现出更统一的做法,这对应于城市中心脆弱性的异质性较小(方差较小)。在这些集群故障时间数据示例中,主要关注的是总体平均效应。然而,与此同时,将集群水平的协变量效应纳入脆弱性分布具有实际意义,应该予以考虑。
其他类型的集群数据也存在类似的情况。普伦蒂斯(1986)提出了一个聚类二元数据的回归模型,其中假设聚类内二元观测对之间的相关性取决于聚类水平的协变量。Lin、Raz和Harlow(1997)提出了一种具有非均匀簇内方差的线性混合模型,其中簇内误差被假定为服从正态分布,且具有簇特定的协方差矩阵,其中,平均值取决于通过对数链接的集群级协变量的某些线性组合。Heagerty(1999)针对纵向二元数据,提出了一种边际指定的logistic-normal模型,其中边际平均值(而非条件平均值)在协变量上回归。此外,还指定了高斯潜在变量的条件模型,其中随机效应对条件均值的logit有附加影响。王和路易斯(2004)进一步将该方法扩展到聚类二进制数据,使随机效应的分布参数依赖于某些聚类级协变量。他们的方法使用了一个“桥接”分布,该分布以前由王和路易斯(2003)为了使随机效应统一边际模型和条件模型的形式。因此,条件回归参数可以表示为边际回归参数和桥梁分布参数的函数。在该模型下,回归参数估计具有直接的边际解释,而条件回归参数估计很容易获得。此外,可以估计集群级协变量对随机效应的影响。
正稳定分布(Hougaard,1986年)作为Cox比例风险共享脆弱性模型下集群故障时间数据的桥接分布,与王和路易斯(2003)因为得出的边际回归参数是条件回归参数和脆弱性参数的乘积。这种关系既允许边际推理,也允许条件推理,同时考虑集群内的依赖性。共享正稳定脆弱性模型最近引起了新的关注(例如。,Fine、Glidden和Lee,2003年;Martinussen和Pipper,2005年).
在本文中,我们提出了一个协变量依赖的正稳定共享脆弱性模型。桥型脆弱性取决于集群级协变量,因此可以遵循集群间的不同分布。在这个统一的框架下,可以一致地估计边际回归参数和协变量对脆弱性分布的影响。本文的主要贡献在于提出了建模簇级协变量对脆弱性分布的影响的方法,以及对边际回归影响的相应估计。
本文的其余部分组织如下。在第2节,我们介绍了所提出的协变量相关脆弱性模型,并描述了估计过程。我们得到了模型参数估计的大样本性质第3节和第4节介绍了仿真研究。然后将提出的方法应用于来自移植受者科学登记处(SRTR)的肾移植数据第5节.英寸第6节,我们提供了一些总结意见和讨论。结果证明见附录.
2.型号说明和估算
2.1具有协变量相关脆弱性的正稳定共享脆弱性Cox比例危险模型
在本节中,我们指定了一个正稳定的共享脆弱性Cox模型,脆弱性分布取决于簇级协变量,相应的边际风险具有比例风险形式。我们的最终目的是评估簇级协变数对脆弱性分布的影响,以及集群内的相关性和集群之间的异质性。我们首先通过正稳定分布的“桥”性质定义了Cox型条件和边际风险函数。由此可以得到条件危险参数、边际危险参数和脆弱性分布参数之间的关系。簇级协变量通过链接函数与脆弱性分布参数相关。最后,我们根据所有感兴趣的个体的观测历史,导出了个体强度过程。我们通过建立必要的符号开始本节。
假设我们在K(K)集群和集群大小n个k个(k个= 1, 2, …,K(K))是独立且同分布的有界随机变量。鉴于n个k个,让D类伊克和C类伊克是失败和审查时间我第个个人(我= 1, …,n个k个)在k个th簇;让T型伊克=D类伊克∧C类伊克是后续时间和Δ伊克=我(D类伊克≤C类伊克)观察到的死亡指标。让W公司k个用依赖参数α表示正稳定分布脆弱性k个对于k个我们用来描述簇内依赖性的簇可能是由于未观察到的协变量信息。让Z轴伊克成为第页-个体测量的时间无关协变量向量(我,k个). 此外,让X(X)k个成为q个-可能影响αk个.让,使用C类k个和Z轴k个定义类似。我们假设(D类k个,C类k个,Z轴k个,X(X)k个,n个k个,W公司k个)对于k个= 1, …,K(K)定义风险流程年伊克(t吨) =我(T型伊克≥t吨)和个人计数过程N个伊克(t吨) =Δ伊克 我(T型伊克≤t吨). 我们定义过滤
和
类似马丁努森和皮珀(2005),我们术语观察到的过滤和条件过滤。
我们假设W公司k个遵循形状参数为α的正稳定分布k个(0 < αk个≤ 1). 正稳定分布已用于霍加德(1986)多变量失效时间数据;其密度函数和拉普拉斯变换由下式给出
和
分别是。
给定(Z轴k个,X(X)k个,W公司k个,n个k个),故障时间D类伊克,我= 1, …,n个k个假设与危险函数无关
其中λ0k个(t吨) (k个= 1, …,K(K))是未知的集群特定基线风险函数和βk个(k个= 1, …,K(K))是第页-未知簇特定回归参数的向量,所有这些参数都依赖于αk个通过下面导出的边际风险函数。
自W公司k个具有正稳定分布,边际风险函数为D类伊克由提供
哪里小时0(t吨)是未指明的基线危险,γ是第页-未知边际回归参数的向量。在这方面,我们假设了一个恒定的边际对数风险比γ(1)和(2),施加限制γ=αk个βk个,k个= 1, …,K(K)还要注意的是,其中和.
我们进一步联系X(X)k个和αk个通过链接功能然后让,其中η是a(q个+1) -未知参数向量。这里,我们假设克(·)是单调的,关于η是两次可微的。自αk个∈(0,1],自然选择是logit链接函数,我们设置
具有和其中η1是标量截距和η2是一个q个-回归参数向量。
此外,我们假设D类伊克和C类伊克是独立给定的Z轴伊克对于我= 1, …,n个k个。在这种条件独立审查假设下,模型(1)意味着与条件过滤有关的单个强度过程是
通过应用创新定理(Andersen等人,1993年)至(4)并插入链接功能(三)与观察到的过滤有关的单个强度过程是
哪里具有显式形式
其中“.”表示下标上的求和。
2.2估算
型号(4)与现有的正稳定共享脆弱性Cox比例模型的不同之处在于,它允许脆弱性分布参数αk个依赖于簇级协变量,这导致了簇特定的条件回归参数和集群特定的条件基线风险λ0k个(t吨). 很容易看出,当η2= 0, αk个是一个常数,所提出的模型简化为常见的正稳定共享脆弱性模型,并为其开发了多个估计程序。例如,Wang、Klein和Moeschberger(1995)应用E-M算法进行参数估计。Fine等人(2003)提出了一种简单的估计方法,分别拟合边际模型和分层模型,并利用了α=γ/β的关系。马丁努森和皮珀(2005)提出了一种基于个体强度过程的似然估计方法,该方法与观测过滤类似(5),但带有αk个=α和βk个=β. 然而,由于回归参数βk个在条件危险中,是集群特定的。
如现有文献所示,正稳定共享脆弱性模型的模拟和应用通常基于小簇,如双胞胎或家族研究,尤其是当需要估计脆弱性时。为了将正稳定脆弱性模型应用于具有大簇的研究,避免估计(f)k个(t吨)英寸(6). 我们注意到了这个模型(5)可以写为
哪里这实际上是一个分层Cox模型,只是协变量效应是集群特有的,并且取决于集群级协变量的函数。分层部分似然法(考克斯,1975年;Kalbfleisch和Prentice,2002年)可以在此处直接应用。由于中的信息丢失(f)k个(t吨)以及两者之间的乘法关系克而γ,我们无法估计截距项η1以及同时计算剩余的参数。因此,我们的估算过程实际上是基于模型的两个结果(2)和(5)分别是。
在继续之前,可以方便地介绍以下两组用于k个= 1. …,K(K)和第页=0, 1, 2,
哪里一⊗0= 1,一⊗1=一、和一⊗2=aa公司T型、和
我们首先从模型中估计γ(2)通过最大化伪部分对数似然
在工作独立性假设下(Wei等人,1989年). 相应的估算方程可以写成
给定一个估计量模型中γ的(2),我们从模型中估计η(5)通过最大化伪分层部分对数似然
具有相应的评分功能,
解决我们可以得到估计量对于η。
3.渐近性质
表示γ0和η0分别作为参数γ和η的真值。在本节中,我们强调了以下方面的大样本结果。我们首先重申先前得出的结果。我们列出了假设条件,陈述了先前推导出的结果,然后陈述了估计量的定理。证据见附录.
本文中假设了以下条件,其中k个= 1, …,K(K)以及一些常数τ>0:
- (a)
(D类k个,C类k个,Z轴k个,X(X)k个,n个k个,W公司k个)独立且同分布;
- (b)
对于我= 1, …,n个k个;
- (c)
|Z轴ikl公司| <B类Z轴<∞和|X(X)千焦| <B类X(X)<∞适用于所有人我=1…,第页和j个= 1, …,q个和一些常数B类Z轴和B类X(X);
- (d)
克(·)对于η是两倍连续可微的;
- (e)
γ0和η0位于参数空间的内部。
- (f)
以下矩阵为正定矩阵,
大样本结果由提供Lee等人(1992),是谁展示的具有方差的渐近平均零正态,其中A类1和B类1可以通过以下方式一致估计和具有
哪里
定理1:在条件下 是独一无二的,几乎肯定会收敛到η0 作为 .
一致性的证明与的相似普伦蒂斯与赛尔夫(1983)和引理3.1英寸安徒生和吉尔(1982).
定理2:在条件下 ,随机向量 弱收敛于(q个+1)-均值为0的变量法向量和协方差矩阵
哪里 A类2 在条件(f)和
具有
哪里
使用定理1和2的证明以及Lee等人(1992),我们可以证明∑2可以通过以下方式一致估计
具有
哪里
4.数值研究
进行了模拟研究,以评估。我们还将我们的方法与Fine等人(2003)在特殊情况下,其中αk个在集群中很常见。
在第一次模拟研究中,从模型中模拟了集群故障时间数据(三)和(4)带有K(K)=50, 100;H(H)0(t吨)=t吨; γ= (0.5, 1)T型; η1=−0.5, − 0.25, 0, 0.25, 0.5; 和η2= 0.5. 根据以下四个区间[5、20]、[21、50]、[51、100]和[101、200]中的离散均匀分布模拟集群大小,每个区间中的集群数量大致相等。集群级协变量X(X)k个是以100名受试者为单位测量的集群大小。积极稳定的弱点,W公司k个,按照中的方法进行了模拟钱伯斯、马尔洛和卡克(1976),
哪里W公司1k个和W公司2k个是独立的W公司1k个遵循均匀分布U型(0,π)和W公司2k个遵循平均值为1的指数分布。个体水平协变量Z轴伊克=(Z轴伊克1,Z轴伊克2)T型是独立生成的Z轴伊克1从p=0.5的伯努利分布和Z轴伊克2从N个(0,1)分布。从均匀分布模拟审查时间,U型(0.25,1),得出约46%的审查概率。对于每个场景,进行了1000次重复。
结果总结如下表1我们报告了估计量的抽样平均值(bias)、标准误差估计量的平均值(ASE)、估计量的经验标准偏差(ESD)和95%的经验覆盖概率(CP)的偏差。在最后一列中,我们给出了α的近似范围k个用于模拟数据。我们还提供了以下结果。我们可以看到估计器几乎没有偏见。(ASE)通常相当接近ESD,相应地,95%的经验覆盖概率通常接近标称值。随着集群数量的增加K(K)=50至K(K)=100,覆盖概率通常更接近标称值。此外,作为α的值k个越小,覆盖概率越低。部分原因可能是,对于固定样本量,独立信息量随着αk个减少;也就是说,α值较小k个对应于集群内更强的关联。
为了评估回归参数估计的渐近正态性,我们研究了根据标准正态变量进行标准化后。在图1,我们显示了和什么时候K(K)=100和η1=−0.5、0和0.5。所有六个图都显示出对角线,这表明渐近正态近似是合理的。
图1
Q-Q图和什么时候K(K)=100和η1=−0.5、0和0.5。
在第二个仿真研究中,我们将所提出的方法(LKS)与Fine等人(2003)(FGL)当αk个对于所有簇都是固定的。我们保持相同的设置H(H)0、γ和K(K)个体水平的协变量和审查变量遵循与第一项研究相同的分布。我们修正αk个=0.5或αk个=0.75(对于所有簇)。当使用我们的方法时,我们让η2=0和估算η1只有。对于FGL方法,α是通过平均边际和条件回归参数估计量的截尾比来估计的。结果显示在表2,为了便于比较,我们显示了以下结果而不是.
表2第二次模拟研究的结果总结,比较了拟议方法(LKS)和FGL(参见Fine等人。, 2003)在常数α的特殊情况下k个=α,k个= 1, …,K(K)使用γ1= 0.5, γ2=1,重复1000次
| | | LKS公司. | FGL公司. |
---|
K(K). | 参数. | 真的. | BIAS公司. | ASE公司. | 静电放电. | 人物配对关系. | BIAS公司. | ASE公司. | 静电放电. | 人物配对关系. |
---|
50 | α | 0.5 | 0.01 | 0.06 | 0.06 | 0.92 | 0.01 | 0.06 | 0.06 | 0.91 |
| γ1 | | 0.01 | 0.07 | 0.08 | 0.92 | | | | |
| γ2 | | 0.01 | 0.11 | 0.12 | 0.91 | | | | |
| α | 0.75 | 0.01 | 0.06 | 0.06 | 0.91 | 0.01 | 0.06 | 0.06 | 0.87 |
| γ1 | | 0.02 | 0.06 | 0.06 | 0.91 | | | | |
| γ2 | | 0.01 | 0.08 | 0.09 | 0.88 | | | | |
100 | α | 0.5 | 0 | 0.04 | 0.04 | 0.94 | 0 | 0.04 | 0.05 | 0.94 |
| γ1 | | 0.01 | 0.05 | 0.05 | 0.94 | | | | |
| γ2 | | 0 | 0.08 | 0.09 | 0.94 | | | | |
| α | 0.75 | 0 | 0.05 | 0.05 | 0.93 | 0 | 0.04 | 0.05 | 0.90 |
| γ1 | | 0.01 | 0.04 | 0.04 | 0.94 | | | | |
| γ2 | | 0 | 0.06 | 0.06 | 0.92 | | | | |
| | | LKS公司. | FGL公司. |
---|
K(K). | 参数. | 真的. | BIAS公司. | ASE公司. | 静电放电. | 人物配对关系. | BIAS公司. | ASE公司. | 静电放电. | 人物配对关系. |
---|
50 | α | 0.5 | 0.01 | 0.06 | 0.06 | 0.92 | 0.01 | 0.06 | 0.06 | 0.91 |
| γ1 | | 0.01 | 0.07 | 0.08 | 0.92 | | | | |
| γ2 | | 0.01 | 0.11 | 0.12 | 0.91 | | | | |
| α | 0.75 | 0.01 | 0.06 | 0.06 | 0.91 | 0.01 | 0.06 | 0.06 | 0.87 |
| γ1 | | 0.02 | 0.06 | 0.06 | 0.91 | | | | |
| γ2 | | 0.01 | 0.08 | 0.09 | 0.88 | | | | |
100 | α | 0.5 | 0 | 0.04 | 0.04 | 0.94 | 0 | 0.04 | 0.05 | 0.94 |
| γ1 | | 0.01 | 0.05 | 0.05 | 0.94 | | | | |
| γ2 | | 0 | 0.08 | 0.09 | 0.94 | | | | |
| α | 0.75 | 0 | 0.05 | 0.05 | 0.93 | 0 | 0.04 | 0.05 | 0.90 |
| γ1 | | 0.01 | 0.04 | 0.04 | 0.94 | | | | |
| γ2 | | 0 | 0.06 | 0.06 | 0.92 | | | | |
表2第二次模拟研究的结果总结,比较了拟议方法(LKS)和FGL(参见Fine等人。, 2003)在常数α的特殊情况下k个=α,k个= 1, …,K(K)带有γ1= 0.5, γ2=1,重复1000次
| | | LKS公司. | FGL公司. |
---|
K(K). | 参数. | 真的. | BIAS公司. | 酶. | 静电放电. | 人物配对关系. | BIAS公司. | ASE公司. | 静电放电. | 人物配对关系. |
---|
50 | α | 0.5 | 0.01 | 0.06 | 0.06 | 0.92 | 0.01 | 0.06 | 0.06 | 0.91 |
| γ1 | | 0.01 | 0.07 | 0.08 | 0.92 | | | | |
| γ2 | | 0.01 | 0.11 | 0.12 | 0.91 | | | | |
| α | 0.75 | 0.01 | 0.06 | 0.06 | 0.91 | 0.01 | 0.06 | 0.06 | 0.87 |
| γ1 | | 0.02 | 0.06 | 0.06 | 0.91 | | | | |
| γ2 | | 0.01 | 0.08 | 0.09 | 0.88 | | | | |
100 | α | 0.5 | 0 | 0.04 | 0.04 | 0.94 | 0 | 0.04 | 0.05 | 0.94 |
| γ1 | | 0.01 | 0.05 | 0.05 | 0.94 | | | | |
| γ2 | | 0 | 0.08 | 0.09 | 0.94 | | | | |
| α | 0.75 | 0 | 0.05 | 0.05 | 0.93 | 0 | 0.04 | 0.05 | 0.90 |
| γ1 | | 0.01 | 0.04 | 0.04 | 0.94 | | | | |
| γ2 | | 0 | 0.06 | 0.06 | 0.92 | | | | |
| | | LKS公司. | FGL公司. |
---|
K(K). | 参数. | 真的. | BIAS公司. | ASE公司. | 静电放电. | 人物配对关系. | BIAS公司. | ASE公司. | 静电放电. | 人物配对关系. |
---|
50 | α | 0.5 | 0.01 | 0.06 | 0.06 | 0.92 | 0.01 | 0.06 | 0.06 | 0.91 |
| γ1 | | 0.01 | 0.07 | 0.08 | 0.92 | | | | |
| γ2 | | 0.01 | 0.11 | 0.12 | 0.91 | | | | |
| α | 0.75 | 0.01 | 0.06 | 0.06 | 0.91 | 0.01 | 0.06 | 0.06 | 0.87 |
| γ1 | | 0.02 | 0.06 | 0.06 | 0.91 | | | | |
| γ2 | | 0.01 | 0.08 | 0.09 | 0.88 | | | | |
100 | α | 0.5 | 0 | 0.04 | 0.04 | 0.94 | 0 | 0.04 | 0.05 | 0.94 |
| γ1 | | 0.01 | 0.05 | 0.05 | 0.94 | | | | |
| γ2 | | 0 | 0.08 | 0.09 | 0.94 | | | | |
| α | 0.75 | 0 | 0.05 | 0.05 | 0.93 | 0 | 0.04 | 0.05 | 0.90 |
| γ1 | | 0.01 | 0.04 | 0.04 | 0.94 | | | | |
| γ2 | | 0 | 0.06 | 0.06 | 0.92 | | | | |
这两种方法都给出了α的几乎无偏估计,估计的标准误差和覆盖概率是合理的。与中的结果类似表1当聚类数从50增加到100时,估计量的渐近标准误差减小,覆盖概率趋于接近标称值。两种方法的渐近标准误差估计量非常接近。LKS方法给出了比FGL更好的覆盖概率。
在协变量相关脆弱性和常见脆弱性设置下进行了模拟。由于在协变量相关脆弱性设置下没有现有的比较方法,因此我们只在普通脆弱性设置中进行比较。为此,有三种方法可用。传统EM方法(Wang等人,1995年)和马丁努森和皮珀(2005)该方法(MP)将脆弱性估计为缺失数据,当观察到一些集群有大量死亡时,计算速度非常慢,并且不容易产生标准误差。另一方面,FGL与LKS方法不同,不涉及脆弱性的估计。由于我们感兴趣的主要应用程序有大量观察到的死亡病例,因此我们将我们的方法仅与FGL进行了比较。
5.应用
我们将建议的方法应用于美国2000年至2004年间进行的已故供肾移植的数据。数据来自SRTR。失败时间(以天为单位记录)定义为从移植到移植失败、再次移植或死亡的时间,以先发生者为准。研究中包括224个设施和23027例移植。设施规模从1到708不等。我们使用依赖参数α的logit链接函数将所提出的协变量依赖脆弱性模型拟合到数据k个在比例风险模型中,共考虑了12个患者级协变量和4个集群级协变量。相同的簇级协变量包含在α的链接函数中k个患者层面的协变量包括移植时的年龄(按十年计算)、种族(非洲裔美国人、其他人)、性别、透析时间(2个虚拟变量)、体重指数(BMI;3个虚拟变量。集群级协变量包括女性患者百分比、非洲裔美国人患者百分比、糖尿病患者百分比和中心规模(每100名患者)。
我们预计,任何与簇间变异相关的协变量也可能与簇内变异相关。此外,在调整协变量对风险函数本身的影响后,更容易解释协变量对脆弱性方差的影响。因此,作为一种建模策略,logit链接函数中包含的协变量也应在边际风险模型中表示。当然,由于分层的原因,在估算程序的第二阶段中不会使用此类聚类级协变量。
我们的分析结果显示在表3女性患者的百分比对脆弱性参数有显著影响(p=0.0063)。研究发现,女性患者较少的设施往往具有较小的α值k个这对应于设施性能的更大异质性。女性患者的比例也显著影响危险。在检查点估计后,人们可以将这些结果解释为朝着同一方向,因为女性比例越高,意味着移植物衰竭的风险越低,变异也越小;都是理想的结果。
协变量. | 估计. | SE公司. | p值. |
---|
γ(患者水平) |
年龄(几十年) | 0.1541 | 0.0104 | < .0001 |
非洲裔美国人 | 0.2738 | 0.0293 | < .0001 |
女性 | −0.0957 | 0.0254 | 0.0002 |
透析时间(年) |
≤ 1 | −0.1379 | 0.0372 | 0.0002 |
> 3 | 0.1153 | 0.0277 | < .0001 |
收件人BMI |
< 20 | 0.0732 | 0.0502 | 0.1450 |
[25, 30) | 0.0391 | 0.0298 | 0.1904 |
≥ 30 | 0.1369 | 0.0320 | < .0001 |
ESRD的原因 |
糖尿病 | 0.2970 | 0.0359 | < .0001 |
高血压 | 0.1646 | 0.0375 | < .0001 |
多囊性 | −0.3106 | 0.0571 | < .0001 |
其他 | 0.1156 | 0.0392 | 0.0032 |
γ(簇级) |
女性百分比(%) | −0.0063 | 0.0022 | 0.0035 |
非裔美国人百分比(%) | 0.0039 | 0.0007 | < .0001 |
糖尿病百分比(pct) | 0.0084 | 0.0017 | < .0001 |
中心大小(100名患者) | 0.0097 | 0.0068 | 0.1548 |
η |
拦截 | −2.3192 | 2.0945 | 0.2682 |
女性百分比(%) | 0.1046 | 0.0382 | 0.0063 |
非裔美国人百分比(pct) | 0.0389 | 0.0325 | 0.2316 |
糖尿病百分比(pct) | 0.0298 | 0.0531 | 0.5745 |
中心大小(100名患者) | −0.2288 | 0.2705 | 0.3977 |
协变量. | 估计. | SE公司. | p值. |
---|
γ(患者水平) |
年龄(几十年) | 0.1541 | 0.0104 | < .0001 |
非洲裔美国人 | 0.2738 | 0.0293 | < .0001 |
女性 | −0.0957 | 0.0254 | 0.0002 |
透析时间(年) |
≤ 1 | −0.1379 | 0.0372 | 0.0002 |
> 3 | 0.1153 | 0.0277 | < .0001 |
收件人BMI |
< 20 | 0.0732 | 0.0502 | 0.1450 |
[25,30) | 0.0391 | 0.0298 | 0.1904 |
≥ 30 | 0.1369 | 0.0320 | < .0001 |
ESRD的原因 |
糖尿病 | 0.2970 | 0.0359 | < .0001 |
高血压 | 0.1646 | 0.0375 | < .0001 |
多囊性 | −0.3106 | 0.0571 | < .0001 |
其他 | 0.1156 | 0.0392 | 0.0032 |
γ(簇级) |
女性百分比(%) | −0.0063 | 0.0022 | 0.0035 |
非裔美国人百分比(%) | 0.0039 | 0.0007 | < .0001 |
糖尿病百分比(pct) | 0.0084 | 0.0017 | < .0001 |
中心大小(100名患者) | 0.0097 | 0.0068 | 0.1548 |
η |
拦截 | −2.3192 | 2.0945 | 0.2682 |
女性百分比(pct) | 0.1046 | 0.0382 | 0.0063 |
非裔美国人百分比(pct) | 0.0389 | 0.0325 | 0.2316 |
糖尿病百分比(pct) | 0.0298 | 0.0531 | 0.5745 |
中心大小(100名患者) | −0.2288 | 0.2705 | 0.3977 |
协变量. | 估计. | SE公司. | p值. |
---|
γ(患者水平) |
年龄(几十年) | 0.1541 | 0.0104 | < .0001 |
非洲裔美国人 | 0.2738 | 0.0293 | < .0001 |
女性 | −0.0957 | 0.0254 | 0.0002 |
透析时间(年) |
≤ 1 | −0.1379 | 0.0372 | 0.0002 |
> 3 | 0.1153 | 0.0277 | <0.0001 |
收件人BMI |
<20 | 0.0732 | 0.0502 | 0.1450 |
[25, 30) | 0.0391 | 0.0298 | 0.1904 |
≥ 30 | 0.1369 | 0.0320 | < .0001 |
ESRD的原因 |
糖尿病 | 0.2970 | 0.0359 | < .0001 |
高血压 | 0.1646 | 0.0375 | < .0001 |
多囊性 | −0.3106 | 0.0571 | < .0001 |
其他 | 0.1156 | 0.0392 | 0.0032 |
γ(簇级) |
女性百分比(%) | −0.0063 | 0.0022 | 0.0035 |
非裔美国人百分比(%) | 0.0039 | 0.0007 | < .0001 |
糖尿病百分比(pct) | 0.0084 | 0.0017 | <0.0001 |
中心大小(100名患者) | 0.0097 | 0.0068 | 0.1548 |
η |
拦截 | −2.3192 | 2.0945 | 0.2682 |
女性百分比(%) | 0.1046 | 0.0382 | 0.0063 |
非裔美国人百分比(%) | 0.0389 | 0.0325 | 0.2316 |
糖尿病百分比(pct) | 0.0298 | 0.0531 | 0.5745 |
中心大小(100名患者) | −0.2288 | 0.2705 | 0.3977 |
协变量. | 估计. | SE公司. | p值. |
---|
γ(患者水平) |
年龄(几十年) | 0.1541 | 0.0104 | < .0001 |
非洲裔美国人 | 0.2738 | 0.0293 | < .0001 |
女性 | −0.0957 | 0.0254 | 0.0002 |
透析时间(年) |
≤ 1 | −0.1379 | 0.0372 | 0.0002 |
>3个 | 0.1153 | 0.0277 | < .0001 |
收件人BMI |
<20 | 0.0732 | 0.0502 | 0.1450 |
[25, 30) | 0.0391 | 0.0298 | 0.1904 |
≥ 30 | 0.1369 | 0.0320 | < .0001 |
ESRD的原因 |
糖尿病 | 0.2970 | 0.0359 | < .0001 |
高血压 | 0.1646 | 0.0375 | < .0001 |
多囊性 | −0.3106 | 0.0571 | < .0001 |
其他 | 0.1156 | 0.0392 | 0.0032 |
γ(簇级) |
女性百分比(%) | −0.0063 | 0.0022 | 0.0035 |
非裔美国人百分比(%) | 0.0039 | 0.0007 | <0.0001 |
糖尿病百分比(pct) | 0.0084 | 0.0017 | < .0001 |
中心大小(100名患者) | 0.0097 | 0.0068 | 0.1548 |
η |
拦截 | −2.3192 | 2.0945 | 0.2682 |
女性百分比(%) | 0.1046 | 0.0382 | 0.0063 |
非裔美国人百分比(%) | 0.0389 | 0.0325 | 0.2316 |
糖尿病百分比(pct) | 0.0298 | 0.0531 | 0.5745 |
中心大小(100名患者) | −0.2288 | 0.2705 | 0.3977 |
6.讨论
以前很少研究集群失效时间数据的协变量相关脆弱性模型。Wassell和Moeschberger(1993)提出了一个双变量生存模型,该模型的γ脆弱性参数依赖于成对协变量。他们的方法只考虑了每个集群中的成对生存时间,不能应用于较大集群规模的研究。Wassell、Kulczycki和Moyer(1995)还指出了脆弱性模型应用于具有较大组规模的集群故障时间数据的复杂性日益增加。本文提出的模型使我们能够调整脆弱性分布的协变量影响,并允许对集群故障时间数据进行边际和条件推断,而不管组大小。对该方法的进一步考虑揭示了两个额外的优点。首先,模型(5)在我们进行推断的基础上,考虑到了协变量与簇的相互作用。协变量效应通过簇级协变量依赖脆弱性参数α受到簇的多重影响k个其次,随着各种脆弱模型方法的迅速发展,研究人员开始更加仔细地考虑易于实现和计算时间的问题(例如。,Fine等人,2003年;刘和黄,2007). 该方法在这两方面都表现良好。该方法可以使用SAS IML实现。当我们在模拟研究中评估计算时间时,1000次运行大约需要4个小时,大约三分之一的时间用于PROC PHREG调用。
回顾,我们可以估计∧0k个具有其中估计器属于H(H)0(t吨)可以从模型中估计(2)(请参见Spiekerman和Lin,1998年). 自联合分配和很复杂,我们还无法获得∧的渐近分布0k个的。
我们注意到,当条件比例风险模型中包含集群级协变量时,其影响几乎不可识别,并且不会干扰其他协变量影响的估计。这是由于在估计中使用了分层部分似然方法。由于该方法的动机是建模集群级协变量对集群异质性和集群内关联之间的影响,因此不需要在条件风险中包含集群级协变数。另一方面,由于边际模型中的比例风险,人们能够获得集群级协变量的边际效应。
为了便于计算,并避免估算(f)k个(t吨)(这对于大型集群的研究来说是困难的),我们首先尝试使用基于模型的分层部分似然方法(5)只有。我们发现,这种方法无法对参数η进行有用的估计1另一种方法是,我们从模型中估算γ(2),然后使用估计值在模型中(5)获得η的一致估计。建议的估算程序实际上是一个两步程序。这种方法以前在最大似然的情况下使用过,例如,龚和萨曼尼戈(1981)对于Clayton-Oakes模型,其边际风险比例模型为格利登(2000)应该注意的是,在第二阶段,分层部分似然方法会损失一些效率,例如,如果我们让(f)k个(t吨)=1.
未来可能进行几个领域的研究。该方法依赖于链接函数的规范,基于该函数的模型检查可能会引起人们的兴趣。该方法的未来研究还可能包括扩展到其他脆弱性分布。
致谢
作者感谢移植受者科学登记处(SRTR)获取肾移植数据。SRTR由美国卫生与公共服务部卫生资源与服务管理局(HRSA)的合同资助。这项研究得到了美国国立卫生研究院R01 DK-70869(DES)的部分资助。作者还感谢协调编辑、副主编和一位裁判员提出的建议,这些建议使手稿得到了很大的改进。作者还感谢密歇根大学肾脏流行病学和成本中心的Tempie Shearon协助汇编分析文件。
工具书类
安徒生
,P.K.公司。
和腮
,右侧。
(
1982
).计数过程的考克斯回归模型:一项大样本研究
.统计年刊
10
,1100
–1120
.安徒生
,P.K.公司。
,博根
,O。
,腮
,钢筋混凝土。
、和基丁
,N。
(
1993
).基于计数过程的统计模型
.纽约
:Springer-Verlag公司
.钱伯斯
,J·M·。
,锦葵
,C.L.公司。
、和卡住了
,B.W.公司。
(
1976
).一种模拟稳定随机变量的方法
.美国统计协会杂志
71
,340
–344
.考克斯
,D.R.公司。
(
1975
).部分可能性
.生物特征
62
,269
–276
.好的
,J.P.公司。
,格利登
,直流电。
、和李
,英国工程师。
(
2003
).一个共享脆弱性回归模型的简单估计
.英国皇家统计学会杂志B辑
65
,317
–329
.格利登
,直流电。
(
2000
).Clayton-Oakes模型依赖参数的两阶段估计
.终身数据分析
6
,141
–156
.格利登
,直流电。
和自我
,美国。
(
1999
).Clayton-Oakes失效时间模型的半参数似然估计
.斯堪的纳维亚统计杂志
26
,363
–372
.格利登
,直流电。
和维廷霍夫
,E.公司。
(
2004
).多中心临床试验的集群生存数据建模
.医学统计学
23
,369
–388
.龚
,G.公司。
和萨马尼戈
,F·J。
(
1981
).伪最大似然估计:理论与应用
.统计年刊
9
,861
–869
.亨格蒂
,第J页。
(
1999
).纵向二进制数据的边缘指定逻辑正态模型
.生物计量学
55
,688
–698
.霍加德
,第页。
(
1986
).一类多变量失效时间分布
.生物特征
73
,671
–678
.卡尔布弗雷希
,J·D·。
和普伦蒂斯
,共和国。
(
2002
).失效时间数据的统计分析
,第2版。纽约
:威利
.李
,东-西。
,世界环境学会
,洛杉矶。
、和阿马托
,D.A.博士。
(
1992
).大量小组相关失效时间观测值的Cox型回归分析
.英寸生存分析:最新进展
,J.P.公司。
克莱因
和P.K.公司。
戈尔
(编辑),237
–247
.多德雷赫特
:Kluwer学术出版社
.林
,十、。
,拉兹
,J。
、和哈洛
,美国。
(
1997
).具有异质簇内方差的线性混合模型
.生物计量学
53
,910
–923
.线路接口单元
,L。
和黄
,十、。
(
2007
).高斯求积在脆弱性比例风险模型估计中的应用
.医学统计学
27
,2665
–2683
.马丁努森
,T。
和皮珀
,C.B.公司。
(
2005
).正稳定共享脆弱性Cox比例风险模型的估计
.终身数据分析
11
,99
–115
.皮珀
,C.B.公司。
和马丁努森
,T。
(
2003
).具有边际比例风险的Clayton-Oakes模型的基于似然的估计方程
.斯堪的纳维亚统计杂志
30
,509
–522
.普伦蒂斯
,共和国。
(
1986
).使用扩展的β-二项分布进行二元回归,并讨论由协变量测量误差引起的相关性
.美国统计协会杂志
81
,321
–327
.普伦蒂斯
,共和国。
和自我
,S.G.公司。
(
1983
).具有一般相对风险形式的Cox型回归模型的渐近分布理论
.统计年刊
81
,804
–813
.斯皮克曼
,成本加运费。
和林
,D.年。
(
1998
).多元失效时间数据的边际回归模型
.美国统计协会杂志
93
,1164
–1175
.王
,S.T.公司。
,克莱因
,J.页。
、和莫埃什贝格尔
,M.L.公司。
(
1995
).正稳定脆弱模型协变量效应的半参数估计
.应用随机模型与数据分析
11
,121
–133
.王
,Z.公司。
和路易斯
,T.A.公司。
(
2003
).使用桥分布函数匹配二元混合效应模型中的条件形状和边缘形状
.生物特征
90
,765
–775
.王
,Z.公司。
和路易斯
,T.A.公司。
(
2004
).具有协变量相关随机效应和似然推断的边缘化二元混合效应模型
.生物计量学
60
,884
–891
.瓦塞尔
,J.T.公司。
和莫埃什贝格尔
,M.L.公司。
(
1993
).评估干预措施影响的改良伽玛脆弱性双变量生存模型
.医学统计学
12
,241
–248
.瓦塞尔
,J.T.公司。
,库尔茨基
,G.W.公司。
、和莫耶
,E.S.公司。
(
1995
).制造效应的脆弱模型
.终身数据分析
1
,161
–170
.世界环境学会
,洛杉矶。
,林
,D.Y.博士。
、和魏斯菲尔德
,L。
(
1989
).基于边际分布建模的多元不完全失效时间数据回归分析
.美国统计协会杂志
84
,1065
–1073
. 附录
定理证明1
观测过滤的单个计数过程鞅为
一致性的证明考虑以下两个过程,
和
它们之间的差异可以分解为两部分,
对于每个η,方程右侧的第一项几乎肯定会收敛到零,因为在条件(a)到(f)下,第二项是K(K)独立和相同分布的零均值随机变量。根据强大数定律(SLLN)几乎可以肯定地收敛到与Ξ(η)相同的η极限函数。
通过条件(d)到(f),我们可以通过取Γ(η)积分内的偏导数来评估该极限函数的一阶和二阶导数。一阶导数是这样的
η=η时为00二阶导数
在η=η时为正定矩阵的负0根据条件(f)。因此,几乎肯定会收敛到η的凹函数,在η=η时有唯一的最大值0.自最大化,因此作为.
定理证明2
的一阶泰勒级数展开关于η=η0且γ=γ0给予
其中η*位于和η0γ*位于和γ0因此,我们有
具有以下一致性和和SLLN,我们可以证明和还有那个A类2和B类2可以通过以下方式一致估计和分别是。
已在中注意到第3节那个在分布上收敛于N个(0, Σ1). 我们将证明这一点K(K)−1/2 U型2(η0; γ0)在分布上收敛到N个(0,A类2). 很容易看出K(K)−1/2 U型2(η0; γ0,t吨)可以写成正交鞅的和,
具有可预测的变化过程
从Rebolledo定理、弱大数定律(WLLN)和条件(f),我们可以很容易地证明K(K)−1/2 U型2(η0;γ0,τ)分布收敛到具有协方差矩阵的零均值高斯向量
最后,我们需要获得K(K)−1/2 U型2(η0;γ0)和。我们可以看到,这两项都可以写成K(K)i.i.d.零均值随机向量,
具有
和
具有以下一致性和WLLN,渐近协方差矩阵K(K)−1/2 U型2(η0;γ0)和是.
总之,在分布上收敛到N个(0, Σ2),其中
可以通过将每个量替换为相应的估计量来一致估计。
©2010,国际生物识别学会