总结

我们建议对竞争风险数据的比例优势累积发生率模型进行估计。该模型的主要优点是回归参数具有简单而有用的比值比解释。该模型已被许多作者考虑过,但由于缺乏可靠的估计程序,在实际中很少使用。我们建议采用此类程序,并表明其性能与现有方法相比有了显著提高。我们还建议对比例赔率假设进行有效性检验。我们推导了大样本性质,并提供了渐近方差的估计。通过骨髓移植研究中的应用说明了该方法,并通过仿真评估了有限样本的特性。

1引言

竞争风险-失败时间,受试者可能从以下任何一项中失败K(K)不同的原因,在医学研究的许多应用中都是固有的。对于每一个受试者,我们都会观察一个随访时间和一个指标,告诉我们导致失败的竞争风险。在骨髓移植研究中,通常将治疗相关死亡率和癌症复发视为相互竞争的风险(原因),因此,通常有兴趣量化风险协变量如何影响事件概率,作为随访时间的函数。为了使这种量化有用,使用一个简单易懂的链接函数是至关重要的。我们在下面的一个小示例中返回到这一点。

考虑到第一个原因,累积关联函数被定义为原因之一在时间之前死亡的概率t吨在所有竞争风险面前,论坛,其中T型*是故障时间和论坛指示故障类型。它是分析竞争风险数据时的适当汇总曲线。我们希望评估协变量的影响Z轴关于累积关联函数。

考虑累积关联函数的比例优势模型

(1)

哪里H(H)(t吨)是一个递增的正函数H(H)(0)=0。因此,累积发生率在logit标度上是线性的,截距随时间而增加,原因一失效的时间常数log-odds比。该模型表明,累积关联函数为

F类1(t吨;Z轴)=H(H)(t吨)经验(Z轴T型β)1+H(H)(t吨)经验(Z轴T型β),
(2)

并且由原因一引起的故障的次分布危险是

t吨日志1F类1(t吨;Z轴)=1e(电子)Z轴T型β+H(H)(t吨)小时(t吨),
(3)

哪里小时(t吨)是的导数H(H)(t吨)对单变量生存数据的比例优势模型进行了严格研究(贝内特,1983年;墨菲、罗西尼和范德法特,1997年;陈金英,2002).

比例优势模型是一般类半参数变换模型的特例

(F类1(t吨;Z轴))=日志(H(H)(t吨))+Z轴T型β,
(4)

哪里H(H)(·)是一个未指定的正单调递增函数,其中(·)是已知的递增链接函数。

几位作者提出了以下推理程序:F类1在里面(4)不同时估计模型F类k个,k个=2,,K(K).精细和灰色(1999)提出了分区风险的Cox型回归模型。这给出了一个模型,其中互补对数变换的累积关联函数在协变量中是线性的,即:,(x个)=日志(日志(1x个))在里面(4)他们使用具有修改风险集的普通比例风险估计方程的截尾加权逆概率,从右偏数据中进行推断。Sun等人(2006)考虑了一个更灵活和通用的模型,用于生存数据的分区危险Martinussen和Scheike(2002).

罚款(2001年)指出比例分配模型的参数很难解释。我们在数据示例中回到这一点。作为一个更有吸引力的选择,他建议直接估算F类1在类型的转换模型中(4),采用比例赔率模型(1)作为特例(罚款,1999年,2001).

累积关联函数的另一种直接回归方法是伪观测技术安徒生、克莱恩和罗斯特(2003)克莱恩和安徒生(2005)该推断是基于来自由估计的累积发病率曲线构建的jackknife统计的伪值。还有另一种直接估算F类1是的二项式回归方法Scheike、Zhang和Gerds(2008)该方法基于截尾加权事件指标逆概率的二项式建模。

当考虑精细和灰色(1999)模型中,上述估计方法不如子分布方法有效。它们还存在实施问题。特别地,上面提到的直接方法需要选择一个时间窗口来进行估计,并且罚款(2001年)该方法考虑了所有对,因此在数据中是二次的,并且尚未在可用的软件中实现。

本工作的目的是根据比例优势模型的潜在子分布风险,开发一种比例优势模型估计器,该估计器提高了估计的效率,并具有良好的大小样本特性β我们的方法是Chen等人(2002)对于生存数据,通过截尾加权的逆概率通过子分布风险来估计累积发病率。我们还详细描述了基线的渐近性H(H)(·)通过Volterra方程。这有助于预测累积关联函数和相关置信带。由于基线估计器的递归结构复杂,在分数方程中处理截尾加权的逆概率不是一个简单的扩展。这些过程可以扩展到处理更广泛的链接功能在里面(4),但我们将把讨论局限于logit-link,因为它的优势比解释简单而有用。

文章结构如下。第2节,我们指定了模型,建立了估计方程并概述了大样本特性。第3节提出了一种用于构建置信带的良好f检验和重采样技术。在一项模拟研究中第4节,我们展示了基于细分的估计过程如何在数值特性和较小的标准误差方面改进现有的二项式回归方法。这类似于精细和灰色(1999)模型,其中原始的基于子分布的估计器具有优越的特性。第5节包含一个工作示例和第6节一些讨论。所有技术细节,包括估计器大样本属性的推导,都可以在Web附录.

竞争风险数据的2比值比推断

在右偏的情况下,我们无法观察到故障时间T型*,但仅限于后续时间T型=T型*C类,其中C类表示审查时间,以及指示器Δ=(T型*C类)如果故障时间未经审查,则取值为1。对于被审查的个人,失败的原因论坛未观察到。我们假设审查时间独立分布P(P)(C类>t吨)=G公司0(t吨)以及观察结果(T型=T型*C类,Δ,Δϵ,Z轴)是独立且相同分布的(T型,Δ,Δϵ,Z轴),用于=1,,n个.让τ表示有限的最大跟踪时间。

定义计数过程N个1(t吨)={T型*t吨,ϵ=1}指示是否为个人之前经历过原因一事件t吨和修改后的风险指示器Y(Y)1(t吨)=1N个1(t吨)请注意,任何尚未失败的个人都会导致一次失败t吨,包括那些已知在竞争中失败的人。什么时候?Δ=0个人观察到时间C类之后的状态,包括N个1Y(Y)1,是不确定的。

如果没有审查,我们可以估计F类1在没有对竞争原因建模的情况下,通过基于补偿计数过程编写原因1的次分布危险的估计方程

M(M)1(t吨)=N个1(t吨)0t吨Y(Y)1(u个)α(H(H)0(u个),β0,Z轴)d日H(H)0(u个),
(5)

哪里α(H(H),β,Z轴)=(e(电子)Z轴T型β+H(H))1.Chen等人(2002)在单原因生存环境下,将此类估计方程用于转换模型。未知参数的真值用下标0标记。

为了估计右偏模型的参数,我们继续如下精细和灰色(1999)并基于截尾加权的逆概率(IPCW)写出子分布的估计方程。接下来,我们表示对个人生命状态的了解时间t吨通过第页(t吨)=(C类T型*t吨)虽然计数过程Y(Y)1(t吨)N个1(t吨)在以下情况下不可见第页(t吨)=0,第页(t吨)Y(Y)1(t吨)第页(t吨)N个1(t吨)总是可以计算的。定义与时间相关的权重(t吨,G公司)=第页(t吨)G公司(t吨)/G公司[(T型t吨)],其中G公司是截尾分布的生存函数。数量第页(t吨)/G公司0[(T型t吨)]期望值1有条件T型*,论坛.我们将估计未知的截尾生存函数G公司0使用Kaplan–Meier估计,我们表示G公司n个.

考虑以下估算公式β0H(H)0(·)

n个1=1n个0τZ轴(t吨,G公司n个)d日N个1(t吨)Y(Y)1(t吨)α(H(H)(t吨),β,Z轴)d日H(H)(t吨)=0
(6)
n个1=1n个(t吨,G公司n个)d日N个1(t吨)Y(Y)1(t吨)α(H(H)(t吨),β,Z轴)d日H(H)(t吨)=0,t吨[0,τ].
(7)

估算公式与Chen等人(2002),但按截尾的逆概率加权精细和灰色(1999).以下Gorfine、Zucker和Hsu(2006)Martinussen、Scheike和Zucker(2011年)除其他外,我们将通过递归剖析基线函数来求解这些方程。定义

S公司j个(t吨,H(H)(t吨),β,G公司)=n个1=1n个Y(Y)1(t吨)(t吨,G公司)Z轴j个α(H(H)(t吨),β,Z轴),

j个=0,1,2.

我们估计H(H)0通过非递减函数H(H)ˆn个仅在观察到的原因一次事件时发生跳跃。解决(7)对于固定β我们得到了当时的跳跃大小t吨,H(H)ˆn个(t吨,β)=H(H)ˆn个(t吨,β)H(H)ˆn个(t吨,β),可以通过递归估计进行估计

插入H(H)ˆn个进入之内(6),的估计方程β读取

U型n个(β)=U型n个(β,τ)=0,
(8)

哪里

注意,估算方程(8)是的函数β只有。我们用Fisher打分算法求解这个估计方程。给出解决方案βˆ(8)我们估计H(H)0(t吨)通过H(H)ˆn个(t吨,βˆ).

在以下正则性条件下,我们建立了所提出估计的渐近性质。

  • (C1)

    有最长跟进时间τ<这样的话P(P)(T型=τ)>K(K)C类>0,其中K(K)C类是一个常量。

  • (C2)

    审查时间C类独立于T型*,论坛、和Z轴,审查变量独立分布P(P)(C类>t吨)=G公司0(t吨).

  • (C3)

    H(H)0可与导数微分小时0(t吨)=H(H)0(t吨),因此啜饮t吨[0,τ]小时0(t吨)<小时最大值对于常量小时最大值<、和βB类,其中论坛已知且紧凑。

  • (C4)

    协变量Z轴几乎可以肯定是有界的。

  • (C5)

    A类n个(β0,t吨)=/β|β=β0U型n个(β,t吨)是渐近正定的,概率为1。

备注1为了简单起见,我们假设(C2)。IPCW技术可以推广,以考虑到C类Z轴例如,通过假设比例风险模型适用于以下条件分布C类鉴于Z轴.

备注2衍生产品 A类n个 in(C5)可以通过以下公式递归计算

哪里

Web附录B,我们证明了以下一致性定理。

定理1(一致性):在假设(C1)-(C5)下,βˆ..β0H(H)ˆn个(t吨,βˆ)..H(H)0(t吨)在t中一致。

当估算函数U型n个以真参数值计算β0,H(H)0、和G公司0,它是平均零身份证变量的总和。然而,渐近分析因以下事实而变得复杂:H(H)0由递归构造的估计量和我们必须估计截尾分布的事实来估计。仍然,在Web附录C我们确定

n个1/2U型n个(β0,t吨)=n个1/2=1n个ζ(t吨)+η(t吨)+o(o)P(P)(1),
(9)

其中ζ(t吨)η(t吨)是平均零身份识别随机过程。ζˆ(t吨)ηˆ(t吨)表示这些项的经验表达式,其中所有未知量都由其估计值替换。中给出了显式表达式Web附录C.

i.i.d.分解中的第一项(9)对应于我们在已知删失权重下得到的影响函数,也就是说,如果删失分布已知且未从数据中估计。分解中的第二项源于这样一个事实,即我们通过Kaplan–Meier估计来估计审查权重。建立的关键论点(9)产品集成理论是否也被Dabrowska(2005),Gorfine等人(2006)、和Martinussen等人(2011年)等等。

事实上U型n个(βˆ)=0,(9)以及周围的一级扩展β0,

n个1/2βˆβ0=A类n个1(β0,τ)n个1/2U型n个(β0)+o(o)P(P)(1).
(10)

结合(9)(10)利用中心极限定理,我们得到了以下结果。

定理2(弱收敛βˆ):在假设(C1)-(C5)下, n个1/2βˆβ0 渐近正态分布,方差可以通过以下公式一致估计

A类n个(βˆ,τ)1Σˆn个A类n个(βˆ,τ)1,

哪里 Σˆn个=n个1=1n个ζˆ(τ)+ηˆ(τ)2.

类似地n个1/2H(H)ˆn个(t吨,βˆ)H(H)0(t吨)可以写成平均零i.i.d.过程的和¦Α(t吨),具有经验版本¦Αˆ(t吨).条款¦Α(t吨)可以再次分解为一个与已知的审查权重相对应的项和一个对审查权重的估计进行调整的贡献。估计的影响函数可用于重采样以构建置信带。Web附录D,我们给出了一个表达式v(v)并确定以下结果。

定理3(弱收敛H(H)ˆn个):在假设(C1)-(C5)下, n个1/2H(H)ˆn个(t吨,βˆ)H(H)0(t吨) 弱收敛于在时间t具有方差的紧高斯过程,该过程可以通过 n个1=1n个¦Αˆ2(t吨).

我们强调,处理估计删失权重的不确定性的扩展由于非参数分量估计量的递归结构而变得复杂,因此它不仅仅是处理删失权值逆概率的标准参数的简单扩展。所有详细信息都可以在Web附录.

3累计关联函数和拟合优度预测

我们简要概述了如何构建置信带以及如何对恒定比例赔率假设进行良好的检验。这些技术基于影响函数和通过对剩余过程重采样的渐近分布近似。

要预测F类1(t吨;β0,H(H)0,z),我们插入估计值并使用F类1(t吨;βˆ,H(H)ˆn个,z).一致性βˆH(H)ˆn个(·,βˆ)确保F类1(t吨;βˆ,H(H)ˆn个,z)几乎肯定会收敛到F类1(t吨;β0,H(H)0,z)均匀地t吨.通过弱收敛n个1/2(βˆβ0,H(H)ˆn个(·,βˆ)H(H)0(·))和函数增量方法(范德法特,1998,定理20.8)适用于F类1,n个1/2F类1(t吨;βˆ,H(H)ˆn个(·,βˆ),z)F类1(t吨;β0,H(H)0(·),z)弱收敛到均值为零的高斯过程,其渐近分布与

预测的置信带可以使用基于此扩展的条件乘数重采样来计算,沿着Martinussen和Scheike,(2006年第147页)或Lin、Fleming和Wei(1994).

为了评估模型的良好性,我们考虑在βˆ作为一个时间过程,U型n个(βˆ,t吨)。此过程渐近等价于

U型n个(β0,t吨)A类n个(β0,t吨)A类n个1(β0,τ)U型n个(β0,τ).

因此n个1/2U型n个(βˆ,t吨)渐近等价于一个可以写成

n个1/2=1n个ζ(t吨)+η(t吨)A类n个(β0,t吨)A类n个1(β0,τ)(ζ(τ)+η(τ)).

这可以用于此过程的重采样,如Lin、Wei和Ying(1993),另请参见Martinussen和Scheike(2006年第197页)。

4模拟研究

我们在模拟数据上评估了所提出估计器的有限样本性能,并将其与Scheike和Zhang(2007)Scheike等人(2008)对于BM,我们使用补偿风险的功能计时器这些估计值与我们的新估计值直接可比。我们还将我们的方法的性能与罚款(2001年).

4.1与BM的比较

表12报告具有两个协变量的模型的模拟研究总结;一个伯努利分布协变量Z轴1具有成功概率0.5和一个标准正态协变量Z轴2.

表1

的模拟结果β1=β2=0.5平均值F类1()=0.72、和Z轴1B类(0.5)Z轴2N个(0,1).新建表示新提出的比例优势估计器,BM公司表示直接二项式建模方法,n个是样本量,c(c)是审查率,标准偏差表示估算的样本标准误差,E类(σˆ)表示估计标准误差的样本平均值,以及MS埃雷里奥是之间的均方误差比的样本平均值新建BM公司

参数n个c(c)(%)偏见标准偏差E类(σˆ)新闻报道MSE比率
新建BM公司新建BM公司新建BM公司新建BM公司
β150150.020.060.550.660.520.600.940.940.71
300.010.060.570.710.550.640.950.950.69
5000.060.640.870.610.770.940.960.57
1001500.020.370.420.370.410.950.950.79
300.010.030.390.450.390.430.950.950.78
5000.020.440.520.430.500.950.960.71
30015000.210.240.210.230.950.950.82
30000.220.250.220.240.950.950.82
50000.250.280.240.280.950.950.75
β250150.010.070.290.400.270.330.950.950.57
300.010.070.310.440.290.350.940.950.55
500.020.110.350.550.310.430.930.960.42
100150.010.030.200.240.190.220.950.950.71
3000.030.210.250.200.230.940.950.71
500.010.030.220.290.220.270.950.960.61
3001500.010.110.120.110.120.950.950.79
3000.010.110.130.120.130.950.950.78
5000.010.130.150.130.150.950.960.69
参数n个c(c)(%)偏见标准偏差E类(σˆ)新闻报道MSE比率
新建BM公司新建BM公司新建BM公司新建BM公司
β150150.020.060.550.660.520.600.940.940.71
300.010.060.570.710.550.640.950.950.69
5000.060.640.870.610.770.940.960.57
1001500.020.370.420.370.410.950.950.79
300.010.030.390.450.390.430.950.950.78
5000.020.440.520.430.500.950.960.71
30015000.210.240.210.230.950.950.82
30000.220.250.220.240.950.950.82
50000.250.280.240.280.950.950.75
β250150.010.070.290.400.270.330.950.950.57
300.010.070.310.440.290.350.940.950.55
500.020.110.350.550.310.430.930.960.42
100150.010.030.200.240.190.220.950.950.71
3000.030.210.250.200.230.940.950.71
500.010.030.220.290.220.270.950.960.61
3001500.010.110.120.110.120.950.950.79
3000.010.110.130.120.130.950.950.78
5000.010.130.150.130.150.950.960.69
表1

的模拟结果β1=β2=0.5平均值F类1()=0.72、和Z轴1B类(0.5)Z轴2N个(0,1).新建表示新提出的比例优势估计器,BM公司表示直接二项式建模方法,n个是样本量,c(c)是审查率,标准偏差表示估算的样本标准误差,E类(σˆ)表示估计标准误差的样本平均值,以及MS埃雷里奥是之间的均方误差比的样本平均值新建BM公司

参数n个c(c)(%)偏见标准偏差E类(σˆ)新闻报道MSE比率
新建BM公司新建BM公司新建BM公司新建BM公司
β150150.020.060.550.660.520.600.940.940.71
300.010.060.570.710.550.640.950.950.69
5000.060.640.870.610.770.940.960.57
1001500.020.370.420.370.410.950.950.79
300.010.030.390.450.390.430.950.950.78
5000.020.440.520.430.500.950.960.71
30015000.210.240.210.230.950.950.82
30000.220.250.220.240.950.950.82
50000.250.280.240.280.950.950.75
β250150.010.070.290.400.270.330.950.950.57
300.010.070.310.440.290.350.940.950.55
500.020.110.350.550.310.430.930.960.42
100150.010.030.200.240.190.220.950.950.71
3000.030.210.250.200.230.940.950.71
500.010.030.220.290.220.270.950.960.61
3001500.010.110.120.110.120.950.950.79
3000.010.110.130.120.130.950.950.78
5000.010.130.150.130.150.950.960.69
参数n个c(c)(%)偏见标准偏差E类(σˆ)新闻报道MSE比率
新建BM公司新建BM公司新建BM公司新建BM公司
β150150.020.060.550.660.520.600.940.940.71
300.010.060.570.710.550.640.950.950.69
5000.060.640.870.610.770.940.960.57
1001500.020.370.420.370.410.950.950.79
300.010.030.390.450.390.430.950.950.78
5000.020.440.520.430.500.950.960.71
30015000.210.240.210.230.950.950.82
30000.220.250.220.240.950.950.82
50000.250.280.240.280.950.950.75
β250150.010.070.290.400.270.330.950.950.57
300.010.070.310.440.290.350.940.950.55
500.020.110.350.550.310.430.930.960.42
100150.010.030.200.240.190.220.950.950.71
3000.030.210.250.200.230.940.950.71
500.010.030.220.290.220.270.950.960.61
3001500.010.110.120.110.120.950.950.79
3000.010.110.130.120.130.950.950.78
5000.010.130.150.130.150.950.960.69
表2

的模拟结果β1=β2=0.5平均值F类1()=0.3、和Z轴1B类(0.5)Z轴2N个(0,1).新建表示新提出的比例优势估计器,BM公司表示直接二项式建模方法,n个是样本大小,c(c)是审查率,标准偏差表示估算的样本标准误差,E类(σˆ)表示估计标准误差的样本平均值,以及MSE比率是之间的均方误差比的样本平均值新建BM公司

参数n个c(c)(%)偏见标准偏差E类(σˆ)新闻报道MSE比率
新建BM公司新建BM公司新建BM公司新建BM公司
β150150.040.090.690.980.650.740.950.950.54
300.050.100.710.930.680.780.950.950.67
500.040.070.841.100.740.930.960.960.62
100150.010.040.460.510.450.490.950.950.83
300.010.040.480.560.470.510.950.950.78
500.010.050.520.660.510.600.950.960.65
3001500.010.260.270.260.270.950.950.89
3000.010.270.290.270.280.950.950.86
500.010.020.290.340.290.330.950.950.74
β250150.030.120.360.610.330.410.930.950.42
300.030.120.390.630.340.430.920.950.43
500.040.120.430.670.370.520.920.970.41
100150.010.040.240.290.230.260.940.950.73
300.010.050.250.320.240.280.940.940.67
500.010.060.270.390.250.330.930.960.52
3001500.010.130.150.130.140.950.950.83
3000.020.140.150.140.150.950.950.80
5000.020.150.180.150.180.940.950.69
参数n个c(c)(%)偏见标准偏差E类(σˆ)新闻报道MSE比率
新建BM公司新建BM公司新建BM公司新建BM公司
β150150.040.090.690.980.650.740.950.950.54
300.050.100.710.930.680.780.950.950.67
500.040.070.841.100.740.930.960.960.62
100150.010.040.460.510.450.490.950.950.83
300.010.040.480.560.470.510.950.950.78
500.010.050.520.660.510.600.950.960.65
3001500.010.260.270.260.270.950.950.89
3000.010.270.290.270.280.950.950.86
500.010.020.290.340.290.330.950.950.74
β250150.030.120.360.610.330.410.930.950.42
300.030.120.390.630.340.430.920.950.43
500.040.120.430.670.370.520.920.970.41
100150.010.040.240.290.230.260.940.950.73
300.010.050.250.320.240.280.940.940.67
500.010.060.270.390.250.330.930.960.52
3001500.010.130.150.130.140.950.950.83
3000.020.140.150.140.150.950.950.80
5000.020.150.180.150.180.940.950.69
表2

的模拟结果β1=β2=0.5平均值F类1()=0.3、和Z轴1B类(0.5)Z轴2N个(0,1).新建表示新提出的比例优势估计器,BM公司表示直接二项式建模方法,n个是样本量,c(c)是审查率,标准偏差表示估算的样本标准误差,E类(σˆ)表示估计标准误差的样本平均值,以及MS埃雷里奥是之间的均方误差比的样本平均值新建BM公司

参数n个c(c)(%)偏见标准偏差E类(σˆ)新闻报道MSE比率
新建BM公司新建BM公司新建BM公司新建BM公司
β150150.040.090.690.980.650.740.950.950.54
300.050.100.710.930.680.780.950.950.67
500.040.070.841.100.740.930.960.960.62
100150.010.040.460.510.450.490.950.950.83
300.010.040.480.560.470.510.950.950.78
500.010.050.520.660.510.600.950.960.65
3001500.010.260.270.260.270.950.950.89
3000.010.270.290.270.280.950.950.86
500.010.020.290.340.290.330.950.950.74
β250150.030.120.360.610.330.410.930.950.42
300.030.120.390.630.340.430.920.950.43
500.040.120.430.670.370.520.920.970.41
100150.010.040.240.290.230.260.940.950.73
300.010.050.250.320.240.280.940.940.67
500.010.060.270.390.250.330.930.960.52
3001500.010.130.150.130.140.950.950.83
3000.020.140.150.140.150.950.950.80
5000.020.150.180.150.180.940.950.69
参数n个c(c)(%)偏见标准偏差E类(σˆ)新闻报道MSE比率
新建BM公司新建BM公司新建BM公司新建BM公司
β150150.040.090.690.980.650.740.950.950.54
300.050.100.710.930.680.780.950.950.67
500.040.070.841.100.740.930.960.960.62
100150.010.040.460.510.450.490.950.950.83
300.010.040.480.560.470.510.950.950.78
500.010.050.520.660.510.600.950.960.65
3001500.010.260.270.260.270.950.950.89
3000.010.270.290.270.280.950.950.86
500.010.020.290.340.290.330.950.950.74
β250150.030.120.360.610.330.410.930.950.42
300.030.120.390.630.340.430.920.950.43
500.040.120.430.670.370.520.920.970.41
100150.010.040.240.290.230.260.940.950.73
300.010.050.250.320.240.280.940.940.67
500.010.060.270.390.250.330.930.960.52
3001500.010.130.150.130.140.950.950.83
3000.020.140.150.140.150.950.950.80
5000.020.150.180.150.180.940.950.69

原因一故障时间由比例优势模型生成(1)具有H(H)(t吨)=0t吨e(电子)λu个d日u个=λ1(1e(电子)λt吨),λ>0.从累积关联函数的形式(2),F类1(|Z轴1,Z轴2)={1+λ经验(β1Z轴1β2Z轴2)}1。其他原因的故障时间由F类2(t吨|Z轴1,Z轴2)=(1F类1(|Z轴1,Z轴2))[1经验(t吨经验(β1Z轴1+β2Z轴2))].参数λ控制原因一的总累计发生率。协变量效应是β1=β2=0.5在所有场景中。截尾时间是由均匀分布产生的,U型(0,τ],其中τ用于控制审查率。我们考虑了总样本大小为50、100和300,审查率分别为15%、30%和50%的所有设置。在所有模拟设置中总共生成5000个复制示例。

表12显示仿真结果,0.72(λ=0.5),和一个低,0.30(λ=),分别平均导致一个事件的发生率。这两种方法在估计协变量效应方面都提供了令人满意的结果,并提供了合理的一致方差估计。即使样本量较小,偏差也很小,例如n个=50我们提出的新方法似乎比二项式方法更有效;表1显示了二元协变量的平均效率增益在18–43%之间,连续协变量的效率增益在11–58%之间,原因单一率较高。表2显示二元协变量的增益为11–46%,连续协变量的增幅为17–59%,原因单一率较低。我们注意到,95%置信区间的覆盖范围在所有情况下都接近标称水平。

4.2与罚款(2001年)

表3显示了一项模拟研究的结果,该研究使用我们的估算方法对在中报告的设置下生成的数据进行估算表2在里面罚款(2001年)。这里考虑的比例优势模型包含两个独立的标准正态协变量和回归系数,β11=0.5β12=0.5。我们指的是罚款(2001年)有关如何生成数据的更多详细信息。

表3

模拟研究,将建议的估计器与Fine的2001程序进行了比较。E类(βˆ11)β11估计和var(βˆ11)估计值的样本方差。第4-6列对应于我们的估计量,第7列和第8列对应于Fine的表2。该表基于1000个复制

大小[甲,乙]%经过审查的E类(βˆ11)新闻报道变量(βˆ11)精细:E(βˆ11)精细:var(βˆ11)
50[,]00.5170.9360.0860.5290.167
150[,]00.5000.9530.0240.5710.042
50[0.75,1.5]300.5250.9390.0950.5930.321
150[0.75,1.5]300.4940.9510.0270.5360.057
大小[甲,乙]%经过审查的E类(βˆ11)新闻报道无功功率,无功功率(βˆ11)精细:E(βˆ11)精细:var(βˆ11)
50[,]00.5170.9360.0860.5290.167
150[,]00.5000.9530.0240.5710.042
50[0.75,1.5]300.5250.9390.0950.5930.321
150[0.75,1.5]300.4940.9510.0270.5360.057
表3

将所提出的估计器与Fine 2001年的程序进行比较的仿真研究。E类(βˆ11)β11估计和var(βˆ11)估计值的样本方差。第4-6列对应于我们的估算值,第7列和第8列对应于Fine的表2。该表基于1000个复制

大小[甲,乙]%经过审查的E类(βˆ11)新闻报道无功功率,无功功率(βˆ11)罚款:E(βˆ11)精细:var(βˆ11)
50[,]00.5170.9360.0860.5290.167
150[,]00.5000.9530.0240.5710.042
50[0.75,1.5]300.5250.9390.0950.5930.321
150[0.75,1.5]300.4940.9510.0270.5360.057
大小[甲,乙]%经过审查的E类(βˆ11)新闻报道无功功率,无功功率(βˆ11)精细:E(βˆ11)精细:var(βˆ11)
50[,]00.5170.9360.0860.5290.167
150[,]00.5000.9530.0240.5710.042
50[0.75,1.5]300.5250.9390.0950.5930.321
150[0.75,1.5]300.4940.9510.0270.5360.057

表2在里面罚款(2001年)报告回归系数估计器的性能β11基于他的估算程序。表3,我们报告表2属于罚款(2001年)以及我们程序的执行。我们的新估计器的性能似乎比Fine的建议要好得多。我们的偏差较小,方差也小得多,大约是一半。

4.3数值稳定性

我们再次考虑中报告的模拟设置表1但现在有10个独立的标准正态协变量,其中5个协变量的效应为0.3,另5个为-0.3。基于70次观察和2000次重复,我们使用BM方法和新程序计算估计值的平均值和标准偏差。BM方法的前两个协变量(平均值(SD))分别为-1.35(38.06)和1.24(27.15)。对于新程序,我们分别得到−0.32(0.27)和0.32(0.258)。由于对称性,其余八个协变量的结果相似。所有复制都会导致使用这两种程序进行估计,但由于某些复制可能缺乏收敛性,BM方法的估计值非常不稳定。相比之下,我们的新提案高度稳定,在所有复制中都收敛到几乎没有偏见的估计值。

4.4基线有限样本属性

我们现在转向基线的估计及其相关的渐近描述表1,我们分别调查了样本量100、200和400的估计值(估计值相对于真实基线的平均值)的相对偏差和95%置信区间的覆盖率。结果如所示图1我们可以看到,对于较大的样本量,覆盖率非常接近标称的95%水平,并且基线通常几乎是无偏的。

基线有限样本属性。上部显示了基线估计值的相对偏差(相对于真实基线的估计值平均值),下部显示了样本量100、200和400的95%逐点置信区间随时间的覆盖率。
图1

基线有限样本属性。上部显示了基线估计值的相对偏差(相对于真实基线的估计值平均值),下部显示了样本量100、200和400的95%逐点置信区间随时间的覆盖率。

4.5计算时间

我们考虑中报告的模拟设置表1比较新估计器和BM方法的计算时间。对于样本大小为n个=1000,新的估计器使用0.9秒来估计参数并计算标准误差,相比之下,BM使用0.3。将样本大小增加到n个=2000新估计器使用4.4秒,BM方法使用0.5秒。这表明,在当前的实现中,新方法的计算要求很高。对于非常大的数据集,当效率不是那么重要时,BM方法可能更可取。

4.6光纤质量

现在,我们将根据评分过程来评估fit测试的好坏,以查看效果是否随时间成比例(参见第3节)。为了构建非比例效应,我们考虑两个大小不同的层n个/2,一个基线由λ=0.2和协变X(X)=0,一个带有λ=0.7和协变量X(X)=1这导致相对较弱的相称性偏离X(X),其中X(X)本质上等同于线性递减效应0.15每个时间单位。此外,我们还包括一个协变量Z轴具有比例效应β=0.5。我们用离散和连续两种方法模拟数据Z轴,但仅报告模拟,其中Z轴是标准正常值。二元协变量给出了类似的结果。在第二组模拟中,我们通过让整个样本的大小为n个有基线λ=0.2对于比例和非比例发电模型,我们考虑时间间隔[0,6],通向周围20%审查。

我们计算第页-2000个模拟大小样本的比例性上确界检验值(1000个重采样)n个.表4报告了比例假设在5%显著性水平。对于比例生成模型中的协变量和Z轴在非比例模型的协变量中,比例假设是正确的,表中给出了测试的观察大小。我们注意到,对于所有样本大小,测试的大小接近标称值5%显著性水平。相反,对于X(X)在非比例模型中,假设是错误的,表格给出了检验的力量。我们注意到,随着样本量的增加,功率也在增加。

表4

最佳模拟研究。拒绝比例的2000个模拟样本的比例

正在生成模型n个Z轴X(X)
成比例500.0490.057
成比例1000.0530.071
成比例2000.0480.063
成比例4000.0480.047
非营利组织500.0470.099
非营利组织1000.0520.143
非比例2000.0530.223
非营利组织4000.0510.410
正在生成模型n个Z轴X(X)
成比例500.0490.057
成比例1000.0530.071
成比例2000.0480.063
成比例4000.0480.047
非营利组织500.0470.099
非营利组织1000.0520.143
非营利组织2000.0530.223
非营利组织4000.0510.410
表4

最佳模拟研究。拒绝相称性的2000个模拟样本的比例

正在生成模型n个Z轴X(X)
成比例500.0490.057
成比例1000.0530.071
成比例2000.0480.063
成比例4000.0480.047
非营利组织500.0470.099
非比例1000.0520.143
非营利组织2000.0530.223
非营利组织4000.0510.410
正在生成模型n个Z轴X(X)
成比例500.0490.057
成比例1000.0530.071
成比例2000.0480.063
成比例4000.0480.047
非营利组织500.0470.099
非营利组织1000.0520.143
非比例2000.0530.223
非营利组织4000.0510.410

我们的结论是,与二项式回归估计和罚款(2001年)。所提出的估计器即使在样本量很小的情况下也表现良好,并且在数值上比BM方法更稳定。此外,基线的渐近描述似乎具有良好的有限样本特性。

5骨髓移植实例

为了说明建议的推理程序,我们考虑了国际血液和骨髓移植研究中心(CIBMTR)的HLA-同代同胞骨髓移植(BMT)治疗的骨髓发育不良患者的数据(Sierra等人,2002年)。位于威斯康星州医学院的CIBMTR数据收集中心拥有一个由全球450多个移植中心的临床和基础科学家共享的移植结果信息库。

在本研究中,我们考虑了两个相互竞争的项目;治疗相关死亡率(TRM),定义为无复发死亡和癌症复发。本研究共纳入408名信息完整的患者。我们对治疗相关死亡率的累积发病率进行建模。考虑了三个协变量;血小板水平(PLT),一个与水平相关的二元协变量100×109/L(左)(n个=128)和<100×109/L(左)(n个=280); AGE是一个连续变量,以35岁为中心,按15分制进行标准化;和移植物抗宿主病预防(T-DEPL),一个具有T细胞耗竭水平的二元协变量(n个=54)或无T细胞耗竭(n个=354).

我们使用比例优势模型拟合数据(1)我们提出的推理程序。PLT、AGE、T-DEPL的估算如下βˆ平板电脑=0.526 (σˆ平板电脑=0.220;第页=0.018),βˆ年龄=0.429 (σˆ年龄=0.099;第页<0.001)、和βˆT型depl(深度)=0.735 (σˆT型depl(深度)=0.324;第页=0.023)分别是。这表明所有三个变量都显著影响治疗相关死亡率。这些系数可以解释为治疗相关死亡率的比值比的对数。例如,血小板水平高的患者的几率是经验(0.526)=0.591乘以血小板水平低的患者。基于评分过程的质量测试不会拒绝该模型。基于1000次重采样第页-PLT、AGE和T-DEPL的测试值为0.25,0.46、和0.33分别是。

PLT、AGE、T-DEPL的BM估计值为βˆ平板电脑=0.675 (σˆ平板电脑=0.240;第页=0.005),βˆ年龄=0.404 (σˆ年龄=0.111;第页<0.001)、和βˆT型depl(深度)=0.831 (σˆT型depl(深度)=0.349;第页=0.017)分别是。这些与建议的子分布估计器的结果非常相似。

在相同的数据集上,精细和灰色模型给出了系数βˆ平板电脑=0.519 (σˆ平板电脑=0.181;第页=0.004),βˆ年龄=0.408 (σˆ年龄=0.084;第页<0.001)、和βˆT型depl(深度)=0.651 (σˆT型depl(深度)=0.2734;第页=0.017)关于协变量重要性的结论与比例优势模型的结论完全相同。然而,精细和灰色估计值的解释是不同的。在精细和灰色模型中,调整后的血小板水平效应是日志(1F类TRM公司(t吨))在高血小板和低血小板患者之间。换句话说,复发或存活概率的对数具有比率经验(0.519)在高血小板患者和低血小板患者之间。

尽管Fine和Gray模型中回归系数的解释与所提出的比例优势模型不同,并且与之相比有些不吸引人,但两者都可以用于估计累积关联函数。我们比较了两个模型对患者特征和所用移植物抗宿主病预防的给定值的估计累积发病率函数。图2显示了一名35岁的低血小板水平患者的累积发病率曲线,该患者没有使用T细胞耗竭来预防移植物抗宿主病。黑色曲线对应于建议的比例优势估计器(PO),红色曲线对应于精细和灰色估计器,绿色曲线对应于比例优势BM估计器。从图中可以看出,这两个模型对累积关联函数的预测几乎相同。BM在早期阶段提供了略有不同的预测,在早期阶段,由于事件数量较少,该估计器的任务比较困难。基于所提出的比例优势估计量的置信区间表明,BM和PO估计量之间的早期差异有些问题。

针对Fine and Gray模型(FG),即使用二项式模型(BM)或新方法(PO)的比例优势模型,对一名35岁低血小板水平患者进行HLA-同种异体同胞移植,未进行T消耗型BMT的TRM累积发生概率进行预测。基于PO方法的95%置信区间(95%置信区间)。
图2

针对Fine and Gray模型(FG),即使用二项式模型(BM)或新方法(PO)的比例优势模型,对一名35岁低血小板水平患者进行HLA-同种异体同胞移植,未进行T消耗型BMT的TRM累积发生概率进行预测。基于PO方法的95%置信区间(95%置信区间)。

6讨论

在生物医学研究中,经常会遇到经过审查的竞争风险数据。对于这种类型的数据,特定故障原因的累积发生率曲线是一条适当的汇总曲线。比例优势累积发病率模型因其易于解释而在实践中非常有用。

在本文中,我们提出了一种新的基于子分布的推理方法,用于累积关联函数的比例优势建模,并建立了其大样本特性。在模拟研究中,我们表明该方法具有良好的数值特性,并且适用于小样本问题。在仿真研究中,我们的方法优于现有方法。不幸的是,我们没有提高效率的理论依据,但这确实是我们将继续进行的进一步调查的主题。安装程序在R包装中提供计时器在中比例.odds.subdist功能。

所建议方法的一个困难是,对于大到非常大的数据集,估计速度有些慢。解决这个问题的一种方法是考虑分数方程的修改版本,其中权重不以相同的方式依赖于时间。(G公司n个)=(T型<C类)/G公司n个(T型).使用此修改的权重,得分方程(6)(7)成为

哪里T型˜=最小值(T型(ε=1)+τ(ε1),C类),因为少了一个积分,所以更容易计算。该估计器的渐近性可以沿着以下路线发展第2节Web附录或者,对于大型数据集,也可以使用二项式回归方法,即使使用非常大的数据集,这种方法在计算上也是可行的。

7补充资料

中引用的Web附录第2节6可在生物计量学威利在线图书馆网站。补充网页材料还包括R(右)说明如何使用比例.odds.subdist函数计时器分析骨髓移植数据的软件包第5节。BMT数据集作为计时器包裹。

参考文献

安徒生
,
P.K.公司。
,
克莱因
,
J。
、和
罗瑟伊
,
美国。
(
2003
).
相关伪观测的广义线性模型及其在多状态模型中的应用
.
生物特征
 
90
,
15
27
.

贝内特
,
美国。
(
1983
).
生存数据的比例优势模型分析
.
医学统计学
 
2
,
273
277
.

,
英国。
,
,
Z.公司。
、和
,
Z.公司。
(
2002
).
截尾数据下变换模型的半参数分析
.
生物特征
 
89
,
659
668
.

达布罗斯卡
,
D。
(
2005
).
变换模型中的分位数回归
.
桑基拉
 
67
,
153
186
.

法恩
,
J。
(
1999
).
使用转换模型分析竞争风险数据
.
英国皇家统计学会杂志B辑
 
61
,
817
830
.

法恩
,
J。
(
2001
).
竞争原油失效概率的回归建模
.
生物统计学
 
2
,
85
97
.

法恩
,
J。
灰色
,
R。
(
1999
).
竞争风险细分的比例风险模型
.
美国统计协会杂志
 
94
,
496
509
.

戈尔芬
,
M。
,
扎克
,
D。
、和
,
L。
(
2006
).
一般半参数共享脆弱性模型的前瞻生存分析:伪全似然方法
.
生物特征
 
93
,
735
741
.

克莱因
,
J。
安徒生
,
P.K.公司。
(
2005
).
基于累积关联函数伪值的竞争风险数据回归建模
.
生物计量学
 
61
,
223
229
.

,
D。
,
弗莱明
,
T。
、和
世界环境学会
,
L。
(
1994
).
比例风险模型下生存曲线的置信带
.
生物特征
 
81
,
73
81
.

,
D。
,
世界环境学会
,
L。
、和
,
Z.公司。
(
1993
).
用鞅残差累积和检验Cox模型
.
生物特征
 
80
,
557
572
.

马丁努森
,
T。
谢克
,
T。
(
2002
).
一种灵活的加乘风险模型
.
生物特征
 
89
,
283
298
.

马丁努森
,
T。
谢克
,
T。
(
2006
).
生存数据的动态回归模型
.
纽约
:
施普林格Verlag
.

马丁努森
,
T。
,
谢克
,
T。
、和
扎克
,
D。
(
2011
).
Aalen加性伽玛射线脆弱性风险模型
.
生物特征
 
98
,
831
843
.

墨菲
,
美国。
,
罗西尼
,
A。
、和
范德法特
,
A。
(
1997
).
比例优势模型中的最大似然估计
.
美国统计协会杂志
 
92
,
968
976
.

谢克
,
T。
,
M.-J.医学博士。
(
2007
).
多状态模型中转移概率回归效应的直接建模
.
斯堪的纳维亚统计杂志
 
34
,
17
32
.

谢克
,
T。
,
,
M.-J.医学博士。
、和
耶兹
,
T。
(
2008
).
直接二项回归预测累积发病概率
.
生物特征
 
95
,
205
20
.

齿状山脊
,
J。
,
佩雷斯
,
西。
,
罗兹曼
,
C、。
,
卡雷拉斯
,
E.公司。
,
克莱因
,
J。
,
里佐
,
J。
,等人(
2002
).
HLA-同卵同胞骨髓移植治疗骨髓增生异常
.
血液
 
100
,
1997
2004
.

太阳
,
L。
,
线路接口单元
,
J。
,
太阳
,
J。
、和
,
M.-J.医学博士。
(
2006
).
竞争风险的细分建模
.
中国统计局
 
16
,
1367
1385
.

范德法特
,
A。
(
1998
).
渐近统计
.
剑桥
:
剑桥大学出版社
.

补充数据