跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2022; 49(12): 3178–3194.
2021年6月1日在线发布。 数字对象标识:10.1080/02664763.2021.1933923
预防性维修识别码:PMC9415555型
PMID:36035605

零膨胀治疗模型的贝叶斯方法:在巴西浸润性宫颈癌数据库中的应用

摘要

本文旨在讨论零膨胀治愈类模型的贝叶斯估计方法,该方法通过在生存分析环境中容纳零膨胀数据来扩展标准治愈模型。进行了全面的模拟研究,以评估评估程序的性能。使用巴西被诊断为浸润性宫颈癌的妇女的真实数据集,说明了一种新的估计方法。

关键词:贝叶斯估计、治愈率、生存分析、威布尔分布、零通货膨胀
2010年数学学科分类:62Nxx号

1介绍

生存分析是一个统计领域,其主要目标是研究事件发生之前的时间,这在金融、医疗和工业等各种环境中都很有用。当将一个或多个自变量与时间关联时,参数和半参数回归模型被广泛使用。在这一领域,有人试图提出适应不同数据特殊性的模型,而这些数据特殊性在标准和最流行的回归模型中是不可能适应的[8,9,12].

其中一个特殊性是,一部分个体不易发生被称为治愈(或长期)分数的相关事件。为了实现这一壮举,伯克森和盖奇[2]和博格[]考虑到存在两个亚群的个体,易感和不易感,导致以下生存功能:

S公司(t吨)=第页1+(1第页1)S公司0(t吨),
(1)

哪里S公司0是受试者的基线生存功能容易失败第页1(0,1)占免疫失败(治愈)受试者的比例。该模型被广泛称为混合治疗模型,其优点是它使我们能够在模型的两个部分中关联协变量,即它允许协变量对治愈的患者和未治愈的患者产生不同的影响[17]. 最近,人们提出了处理治愈率的替代方法,如促进时间治愈模型[6,24]和有缺陷的模型[1,5,11].

洛扎达等。[14]提出了Berkson and Gage模型的扩展,即所谓的零膨胀治愈(ZIC)模型,在该模型中,利息事件与银行贷款组合发生违约之前的时间相关。T型作为非负随机变量,ZIC模型的生存函数由下式给出

S公司(t吨)=第页1+(1第页0第页1)S公司0(t吨),t吨0,
(2)

其中参数第页0(0,1)第页1(0,1第页0)分别与等于零的时间分数和固化分数有关。S公司0(t吨)基线生存功能是(1第页0第页1)时间大于零的受试者容易失败的比例。请注意,作为S公司(0)=1第页0<1S公司()=第页1<1,生存函数(2)不合适。模型的制定(2)可以看作是卡拉马蒂亚努和麦克莱恩提出的模型的一个特例[13]. 然而,重要的是要强调,ZIC模型是专注于零倍比例建模的先驱,也允许灵活的建模结构,详见下文。

在已经提出的案例中,零通货膨胀发生是因为有很大一部分客户从一开始就没有支付任何分期贷款,作者称之为“直接违约”客户,即生存时间等于零。此外,ZIC模型的制定使我们能够将协变量在所有三个感兴趣的亚群体中的影响联系在一起:直接违约客户(时间等于零)、违约时间大于零的易受影响客户和不易受影响的违约客户(称为非违约者)。在这项研究中,我们考虑了医学数据中的拟议方法,旨在描述被诊断为浸润性宫颈癌的女性的总体生存率,在这种情况下,他们记录了每个女性从开始治疗到死亡的时间(以月为单位)。

Louzada讨论的推理方法等人。[14]基于最大似然估计量(MLE)及其渐近置信区间。然而,他们观察到,与治愈率和零通货膨胀相关的参数需要大样本才能在偏差和均方误差中呈现收敛性。另一方面,当治愈率和零通货膨胀率较高且样本量较小时,与基线分布相关的参数的置信区间具有较低的覆盖概率[14]. 此外,文献提供了许多MLE不存在的例子[7,21],或其渐近置信区间即使对于大样本也不成立[18]. 这些问题可以通过考虑贝叶斯的观点来解决,据我们所知,目前还没有发表过关于ZIC模型的贝叶斯方法的结果的论文。此外,在财务问题中,大型数据集的存在是常见的。因此,在存在非信息先验的情况下,获得的贝叶斯估计往往与最大似然估计类似。另一方面,在医学数据中,在许多研究中,数量有限的患者是典型的。因此,对于小数据,MLE可能会返回过高/过低估计的置信区间。在这种情况下,我们的主要目标是从贝叶斯的角度评估ZIC模型的属性。此外,我们还讨论了基线分布参数的先验分布以及将协变量与基线分布参数联系起来的参数的一些选择。进行了仿真研究,以显示不同先验信息对后验估计的影响。最后,使用威布尔分布作为基线模型,我们将我们提出的方法应用于与巴西被诊断为浸润性宫颈癌的女性寿命相关的真实数据集。

论文组织如下。在节中2,我们制定了通用模型规范。章节介绍了贝叶斯参数估计的方法。第节介绍了一项基于各种参数的蒙特卡罗模拟的研究4应用见第节5一些一般性评论见第节6.

2通用型号规格

T型是一个非负随机变量,表示发生相关事件之前的时间。概率亚密度函数

(f)(t吨)={第页0,如果t吨=0,(1第页0第页1)(f)0(t吨),如果t吨>0,
(3)

小时(t吨)=(f)(t吨)S公司(t吨)={第页0第页1+(1第页0第页1)S公司0(t吨)=第页01第页0,如果t吨=0,(1第页0第页1)(f)0(t吨)第页1+(1第页0第页1)S公司0(t吨),如果t吨>0,
(4)

哪里(f)0(t吨)S公司0(t吨)分别是时间大于零的易失败受试者的基线PDF和生存函数。注意,零膨胀治愈模型的存活率,S公司(t吨),不合适S公司(0)=1第页0<1t吨S公司(t吨)=第页1>0.

可以根据研究目的和要分析的数据特征选择基线函数。例如,如果研究人员事先知道随时间变化的风险是恒定的,则可以假设为指数分布。或者,如果危险有可能具有更复杂的行为,可以使用适应这种行为的分布。在本文中,我们将考虑Louzada之后的Weibull分布等。[14]. ZIC威布尔模型的生存函数由下式给出

S公司(t吨)=第页1+(1第页0第页1)S公司(t吨)=第页1+(1第页0第页1)e(电子)(t吨θ)α,
(5)

哪里t吨0,α>0θ>0分别是威布尔形状和比例参数。1给出了ZIC Weibull模型在改变其参数值时的生存和危险形状。请注意,如果我们设置α=1第页0=0也就是说,基线函数是指数函数,没有多余的零,我们有Berkson和Gage的治愈模型[2].

保存图片、插图等的外部文件。对象名称为CJAS_A_1933923_F0001_OB.jpg

生存(a)和危险(b)形状根据零膨胀威布尔曲线模型的不同值确定。

值得注意的是,如果我们直接插入质量为零的威布尔分布的生存函数,S公司0(t吨)=(1第页0)e(电子)(t吨θ)α,在伯克森和盖奇模型中(1),人口存活率将由

S公司(t吨)=第页1+(1第页1)(1第页0)e(电子)(t吨θ)α=第页1+(1第页1第页0+第页0第页1)e(电子)(t吨θ)α,
(6)

其中,人口治愈率表示为第页1零膨胀是通过以下公式得到的第页0第页0第页1因此(5)和(6)可以建模相同的现象,但使用不同的参数。参数化的主要优点(5)是用单个参数描述治愈和零膨胀(第页1第页0)而不是两个参数的组合。此功能允许使用回归结构,其中可以在每个参数中插入不同的协变量。从实践的角度来看,研究人员可以评估哪些变量分别影响每个比例,这一点很重要,这只有通过(5). 有关回归模型的更多详细信息,请参阅下一节。

三。贝叶斯分析

让数据采用以下形式={t吨,δ},其中δ=1,如果t吨是一个可观察的兴趣时间,并且δ=0如果审查正确=1,2,n个..让T型1,,T型n个是独立且同分布的观测值,具有子密度函数,如(),其中(f)0(t吨|ϕ)由参数向量索引ϕ大小为k个然后,所有贡献的似然函数(t吨,δ)由提供

L(左)(第页0,第页1,ϕ;)π:t吨=0n个第页0π:t吨>0n个{[第页1+(1第页0第页1)S公司0(t吨|ϕ)]1δ}×π:t吨>0n个[(1第页0第页1)(f)0(t吨|ϕ)]δ.
(7)

关节后部分布第页0,第页1ϕ由提供

π(第页0,第页1,ϕ|)π(第页0,第页1,ϕ)π:t吨=0n个第页0π:t吨>0n个[第页1+(1第页0第页1)S公司0(t吨|ϕ)]1δ×π:t吨>0n个[(1第页0第页1)(f)0(t吨|ϕ)]δ,
(8)

在哪里π(第页0,第页1,ϕ)第页0,第页1,ϕ.

选择π(·)这不是一项容易的任务。在缺乏先验信息的情况下,我们将有兴趣指定一个先验分布,在该分布中,后验分布中的主要信息由数据提供。这种先验被称为非信息先验。文献中讨论了许多客观的先验(参见,Ramos等。[19,20],了解更多详细信息)。然而,这些先验值取决于Fisher信息矩阵,即使考虑到常用的基线PDF,如指数、Weibull、Gamma和对数正态,Fisher数据矩阵也没有闭合形式的表达式。因此,联合先验分布的简单形式可以如下所示

π(第页0,第页1,ϕ)=π(第页1|第页0)π(第页0)π(ϕ),
(9)

哪里第页0第页1独立于ϕ例如,我们可以考虑在第页0,

π(第页0)1第页0(1第页0).

第页1(0,1第页0),一个优先分配第页1可能是制服(0,1第页0).优先分配ϕ必须根据的参数空间选择(f)(t吨|ϕ)此外,在可能的情况下,应使用共轭先验。

3.1. 零膨胀治愈回归模型

在不同的知识领域,评估个人特征如何与相关事件的时间相关联是至关重要的。因此,我们可以考虑ZIC回归模型。

{第页0,第页1,ϕ}是感兴趣的参数,分别表示零点比例、治愈比例和与基线风险函数相关的参数,并考虑这些参数与一组协变量相关{x个1,x个2,x个,,x个k个}.

ZIC回归模型[14]由以下生存函数给出(2)并通过以下系统组件,

{H(H)(第页0,第页1)=(ζ0,ζ1),j个(ϕj个,)=ηj个,j个=1,,k个,
(10)

哪里ζ0=x个1β1,ζ1=x个2β2ηj个=x个(j个+2)βj个+2,j个=1,,k个是线性预测因子,以及βj个是待估计未知回归系数的k+2向量。链接功能H(H)提供了线性预测值、零膨胀和治愈比例之间的关系,如下所示

H(H)(第页0,第页1)=(日志(第页01第页0第页1),日志(第页11第页0第页1)).
(11)

定义j个链路功能取决于所考虑的基线分布[16]. 以第节为例2,考虑威布尔分布(5),基线参数的链接函数ϕ={α,θ}由提供

{1(α)=日志(α),2(θ)=日志(θ).
(12)

在这些假设下,我们可以将后验分布(8)改写为

π(β|,x个)π(β)π:t吨=0n个e(电子)x个1β11+e(电子)x个1β1+e(电子)x个2β2π:t吨>0n个((f)0(t吨|η(β),x个)1+e(电子)x个1β1+e(电子)x个2β2)δ×π:t吨>0n个(e(电子)x个1β1+S公司0(t吨|η(β),x个)1+e(电子)x个1β1+e(电子)x个2β2)1δ.
(13)

参数采用的先验分布为

π(β)π(β1)π(β2)π(βk个+2),βj个N个,(0,B类j个),j个=1,,k个+2,
(14)

哪里是向量的维数x个j个,N个,(·)是具有大小的多元正态分布×,B类j个=诊断(b条j个,1,,b条j个,)是具有大小的对角线矩阵×b条j个,2是控制方差以产生平坦先验值的较大值。关节后部分布如下所示

π(β|,x个)π(β)π:t吨=0n个e(电子)x个1β11+e(电子)x个1β1+e(电子)x个2β2π:t吨>0n个(e(电子)x个1β1+经验{(t吨e(电子)x个4β4)e(电子)x个β}1+e(电子)x个1β1+e(电子)x个2β2)1δ×π:t吨>0n个(e(电子)x个β(e(电子)x个4β4)e(电子)x个βt吨e(电子)x个β1经验{(t吨e(电子)x个4β4)e(电子)x个β}1+e(电子)x个1β1+e(电子)x个2β2)δ.
(15)

参数估计基于马尔可夫链蒙特卡罗(MCMC)。OpenBUGS软件[22]用于生成β通过MCMC方法。可根据要求获取代码。由于条件分布具有复杂的结构,因此考虑了Metropolis-Hastings抽样算法。需要指出的是,使用OpenBUGS的主要优势在于其简单性。在这里,软件定义了建议分布,并构造了用于生成边际分布的MH算法。

4模拟研究

为了评估ZIC Weibull回归模型的Bayes估计在不同样本大小和参数情况下的行为,我们进行了一项模拟研究,以检查Bayes估计器95%可信区间(等尾区间)的覆盖概率(CP)。仿真研究还提供了后验模式的偏差和均方根误差(RMSE)结果,以确保它们随着样本量的增加而按预期减小。

对于每个模拟样本,24,000进行了迭代。对于老化样品,我们放弃了9000个初始值。为了减少每个链中样本之间的自相关,所考虑的薄层为30,在末端获得三个尺寸为500的链。这些结果用于获取ϕ,μ、和αGibbs采样算法的收敛性由Geweke准则证实[10]在a下95%置信水平。

模拟研究基于1000个样本复制。样本大小根据应用模型的实际数据集的性质而增加。因此,我们使用22种不同的样本大小进行蒙特卡罗模拟,范围从n个 = 50、60、80、100、150、250、300、350等等,最多n个 = 950和1000。为了进行模拟,我们让x个是表示存在的二进制随机变量(x个 = 1) 或缺席(x个 = 特性的0)。在这种情况下,为ZIC威布尔回归模型参数定义了三种值的组合,如下所述,以及对样本生成和模拟结果的描述。

4.1. 参数场景

x个是一个二元协变量,其值来自参数为0.5的伯努利分布,其中x个 = 1和x个 = 0分别表示特征的存在和不存在,模型参数与x个根据方程式(11)和(14). 因此,参数与线性预测值关联如下:

第页0=e(电子)β10+x个β111+e(电子)β10+x个β11+e(电子)β20+x个β21,第页1=e(电子)β20+x个β211+e(电子)β10+x个β11+e(电子)β20+x个β21,α=e(电子)β30+x个β31,θ=e(电子)β40+x个β41,
(16)

哪里αθ是威布尔参数和β=(β10,β11,β20,β21,β30,β31,β40,β41)是回归系数的向量。

考虑到上述回归模型中建立的参数,我们为模拟研究设置了三种不同的参数场景。为了评估推理方法在不同尺度和形状参数以及不同固化和零膨胀比例下的性能,定义了场景。2显示了每个参数场景的生存曲线,可以观察到场景I中的治愈和零通胀比例较小(β=(3,1,2,0.75,0.5,0.5,1.5,2)),场景II中的中值(β=(1.5,0.75,1.5,0.75,0.75,1,2,1.5))在场景三中更大(β=(1,0.75,1,0.75,0.25,1.25,1.25,1.25)).

保存图片、插图等的外部文件。对象名称为CJAS_A_1933923_F0002_OC.jpg

每个参数场景的生存曲线。(a)场景一。(b)场景二和(c)场景三。

4.2. 仿真算法

为了生成ZIC威布尔样本,我们考虑了累积分布函数(CDF)反演方法和随机截尾过程,使用均匀分布来生成截尾时间[14]. 仿真算法如下

  1. 设置的值β10,β11,β20,β21,β30,β31,β40β41;
  2. 绘制x个x个伯努利(0.5)并计算第页0,第页1,αθ;
  3. 生成u个均匀分布U(0,1);
  4. 如果u个第页0,套=0;
  5. 如果u个>1第页1,套=;
  6. 如果第页0<u个1第页1,生成v(v)从均匀分布U(第页0,1第页1)然后拿走作为的根如果()v(v)=0,其中如果(·)=1S公司(·)=S公司(·)如下所示(5);
  7. 生成从制服U(0,x个()),仅考虑有限元;
  8. 计算t吨=n个(,),如果t吨<,套δ=1,否则,设置δ=0.
  9. 根据需要从步骤2开始重复操作,直到获得所需数量的样品(t吨,δ).

4.3. 蒙特卡罗模拟结果

在本节中,我们用图形表示了与零通货膨胀和治愈比例相关的参数的Bayes估计的平均偏差、RMSE和CP(β^10,β^11,β^20,β^21)在图中以及与威布尔分布相关的参数(β^30,β^31,β^40,β^41)在图中4用于增加样本大小。假设超参数为b条j个2=6.25,=1,2,,4j个 = 1、2。值得一提的是b条j个2往往会产生类似的结果,因为前者变得无信息。另一方面b条j个2将导致信息丰富的先验,可能影响后续的后验估计。因此b条j个2应该避免。

保存图片、插图等的外部文件。对象名称为CJAS_A_1933923_F0003_OC.jpg

后验模态的偏差、均方根误差和覆盖概率(β^10,β^11,β^20,β^21)场景I(红色)、II(绿色)和III(蓝色)下模拟数据的零膨胀Weibull曲线回归模型,通过蒙特卡罗模拟获得,重复1000次并增加样本量(n个).

保存图片、插图等的外部文件。对象名称为CJAS_A_1933923_F0004_OC.jpg

后验模态的偏差、均方根误差和覆盖概率(β^30,β^31,β^40,β^41)场景I(红色)、II(绿色)和III(蓝色)下模拟数据的零膨胀Weibull曲线回归模型,通过蒙特卡罗模拟获得,重复1000次并增加样本量(n个).

一般来说,对于较大的样本量,偏差和RMSE较小。有关的参数第页0第页1,场景II和场景III中的性能非常相似,而场景I的偏差值和RMSE值较大或相等。对于与威布尔分布相关的参数,除参数外,在大多数情况下,不同场景中的性能非常相似β40β41,其中场景3呈现出更高的偏差值和均方根误差。

关于区间估计,所有参数的CP值都接近0.95,即使在小样本情况下也是如此,但场景三中的情况除外,其中一些CP值与0.95有一定距离,但始终大于0.85。在这种方法下,可信度区间可以很容易地构造,而不需要渐近假设,正如经典方法所要求的那样。

5巴西浸润性宫颈癌数据

本节介绍了拟议模型在巴西124名被诊断为浸润性宫颈癌的女性数据库中的应用,这些女性在1992年至2002年间完成了初级治疗[4]. 值得一提的是,患者接受了手术,手术后他们的生命开始被记录下来。此外,一些患者的疾病复发。此数据集在Martinez中可用等。[15]. 记录每名女性从开始治疗到死亡的时间(以月为单位),以研究总体生存率。在使用该数据进行的第一次分析中,他们排除了一部分在治疗期间或治疗后死亡且寿命等于零的女性。此外,还有一部分女性没有死于癌症,这反映了数据中存在治愈率。因此,建议的模型允许我们考虑完整的数据,而不是排除等于零的分析寿命。此外,我们认为一年前的疾病复发是一个协变量。我们假设一年前复发的患者治愈率很低。因此,我们考虑两组(第1组-一年前疾病复发;第2组-一年间疾病复发)。数据集见附录1。

假设采用贝叶斯推断,我们采用了如下所示的先验分布(14). 因此,βj个N个(0,b条j个),=1,,4j个 = 1、2其中b条j个=2,=1,2b条j个=10,=,4。使用OpenBUGS软件,我们生成了一条尺寸为3800的链,其中前800个作为老化样品丢弃,而厚度为60。链用于第页01,第页02,第页11,第页11,θ1,θ2,α1α2通过插入用于β在方程式中(16). 5给出了第1组中估计参数的收敛图(第页01,第页11,α1,θ1)即通过MCMC算法估计参数的轨迹,以及一些参数的自相关函数图。第2组中所有参数的链行为相似。此外,我们考虑了Geweke准则来确认所有链的收敛性。估计值的收敛性和自相关图β见附录2(图A1类)

保存图片、插图等的外部文件。对象名称为CJAS_A_1933923_F0005_OC.jpg

检查估计参数的收敛图α1,β1,第页01第页11:左侧面板,通过MCMC算法估计参数的轨迹。右侧面板,参数的自相关函数图。

1显示95%每个估计值的可信区间(等尾区间)以及参数的贝叶斯估计值,设置为后面的生成的样本。

表1。

使用OpenBUGS软件通过贝叶斯估计获得的参数。

 估计95%可信区间
参数参数标准误差下部上部
β10−4.39961.2462−7.5312−2.6520
β112.40321.2998−0.51115.5861
β20−0.00871.1682−3.98220.6743
β21−2.67831.3353−4.62211.1517
β300.70250.19170.29621.0361
β31−0.09290.2209−0.54080.3240
β404.20140.24923.92904.8820
β41−1.39720.2679−2.1070−1.0570

为了验证协变量是否显著,我们可以评估β11,β21,β31β41当CI为严格正值或严格负值时,我们可以推断,添加协变量会显著修改其各自参数的值。因此,作为β41严格为负,我们可以推断协变量修改了θ当我们比较各组时,效果显著。另一方面β11,β20,β21、和β31不是严格肯定的,也不是严格否定的。为了决定参数是否保留在模型中,我们将包含所有参数的调整模型与不包含参数的模型进行了比较β11,β20,β21β31,使用偏差信息标准(DIC)[23]. 此度量可以通过以下方式计算C类=(θ^)+2第页,其中(θ)=2日志(L(左)(θ;))+C类,第页=0.5V(V)第页^(θ)C类是一个常量,在比较不同模型的计算过程中会被抵消。完整模型的DIC是C类如果u个=544.71,而对于简化模型,我们有C类R(右)e(电子)d日u个c(c)e(电子)d日=587.64。由于完整模型具有最小值,因此我们得出结论,应考虑完整模型。我们还将结果与在最大似然估计下获得的结果进行了比较,在这种情况下,不能使用DIC,最好使用Akaike信息标准(AIC),其计算公式为A类C类=2(θ^;t吨)+2k个其中k是参数的数量。假设贝叶斯推断,我们得到了一个AIC值=553.65,而经典方法返回AIC=554.65由于最低AIC值表示最佳拟合,我们可以得出结论,贝叶斯方法给出了更好的结果。

6给出了Kaplan-Meier(KM)生存曲线以及Weibull ZIC和其他两个模型(指数ZIC和Weibull-ZI)的拟合生存函数。这些模型是Weibull ZIC的特殊情况α=0第页1=0分别是。在这里,我们没有考虑标准威布尔曲线模型,因为该模型仅针对t吨>两个模型的DIC均大于威布尔ZIC模型:576.3(指数ZIC模型)和576.7(威布尔ZI)。将经验生存函数与调整后的模型进行比较,我们观察到该模型相对于其他特殊情况的优越性。从实际角度来看,估计存活率使我们能够推断出第1组存在零膨胀数据,而我们观察到第2组有很大一部分治愈。

保存图片、插图等的外部文件。对象名称为CJAS_A_1933923_F0006_OB.jpg

生存函数由经验生存函数(Kaplan-Meier估计)和ZIC Weibull模型与Bayes估计调整。

我们还介绍了95%可信区间α,θ,第页0第页1,=1,2以及参数的贝叶斯估计值(见表2). 第1组的估计零通胀比例为0.1138,表明该组11.38%的女性在治疗期间或治疗后立即死亡。此外,第1组的估计治愈比例等于0.0372,这反映出如果患者在手术日期一年前有疾病复发,那么治愈率就很低。另一方面,对于一年后没有复发或复发的患者,治愈率为0.4952,即几乎一半的患者没有死于宫颈癌。因此,可以得出结论,早期缓解对患者治愈的机会有很大影响。

表2。

通过组1的贝叶斯估计获得的参数(第页01,第页11,α1,θ1)和第2组(第页02,第页12,α2,θ2)使用OpenBUGS软件。

 估计95%可信区间
参数参数标准错误下部上部
第页010.11380.04710.05000.2335
第页110.03720.03520.00800.1449
α11.77890.20341.41322.2113
θ116.35801.71063.517720.2892
第页020.00280.00970.00030.0346
第页120.49520.16600.01820.6581
α21.96160.38271.34472.8181
θ263.555121.062550.8561131.8975

6结论

我们提出了Louzada最近提出的一类新模型的贝叶斯估计方法等。[14]. 虽然ZIC模型的参数估计已经在频率最大似然估计下进行了讨论,但这种方法依赖于所提出的新族难以验证的渐近性质。此外,对于小数据,MLE可能会返回过高/过低估计的置信区间。我们通过考虑参数的完全贝叶斯推断来克服这个问题,该推断允许我们快速构建参数的可信度区间。据我们所知,本文中的结果在贝叶斯方法在这类模型中的应用是开创性的。讨论了先验分布的一些选择,并进行了仿真分析以验证我们提出的方法。

标准生存模型只允许大于零的倍数,而且通常将零的倍数排除在分析之外,这会导致生存被高估。ZIC的一个优点是,不适当的生存函数可以用来解释零的过量,并且可以分别评估每个亚群体的协变量的影响。为了说明所提出的方法,我们分析了124名被诊断为浸润性宫颈癌的女性的真实数据集。在最初的分析中,作者放弃了代表治疗期间或治疗后立即死亡的女性的等于零的时间。我们通过考虑ZIC模型来更恰当地分析数据,从而克服了这个问题。我们表明,贝叶斯估计量使我们能够获得关于偏差和可信度区间的准确估计。该方法还表明,与分析数据集的标准最大似然估计相比,该方法获得了更好的结果,表明在所有实际应用中都应进一步考虑该方法。

可以考虑对所提出的工作进行许多扩展,例如对先前分布的不同选择,以及启发过程。在这种情况下,可以构造参数的导出先验值,以避免共线性问题,并通过考虑专家信息获得改进的估计值。我们的方法应该在这些背景下进一步研究。

致谢

作者非常感谢编辑和审稿人提出的有益的意见,这些意见改进了手稿。

附录。

附录1。与巴西浸润性宫颈癌数据相关的数据集

数据集来自

保存图片、插图等的外部文件。对象名称为CJAS_A_1933923_ILG0001.jpg

附录2。收敛图β

图A1。

保存图片、插图等的外部文件。对象名称为CJAS_A_1933923_F0007_OC.jpg

检查估计参数的收敛图β10,β20,β30,β40,β11,β21,β31β40:左侧面板,通过MCMC算法估计参数的轨迹。右侧面板,参数的自相关函数图。

资金筹措表

作者的研究人员部分得到了巴西机构、CNPq、CAPES和FAPESP的支持。Pedro L.Ramos感谢圣保罗国家公园基金会(FAPESP Proc.2017/25971-0)。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Balka J.、Desmond A.F.和McNicholas P.D。,基于缺陷逆高斯回归模型的治愈率贝叶斯和似然推断,J.应用。斯达。 38(2011),第127-144页。[谷歌学者]
2Berkson J.和Gage R.P。,癌症患者治疗后的生存曲线,美国统计协会。 47(1952年),第501-515页。[谷歌学者]
三。博格·J.W。,癌症治疗治愈患者比例的最大似然估计,J.R.Stat.Soc.系列。B(方法学) 11(1949年),第15-53页。[谷歌学者]
4Brenna S.、Silva I.、Zeferino L.、Pereira J.S.、Martinez E.和Syrjänen K。,巴西侵袭性宫颈癌p53密码子72多态性的预后价值,妇科。昂科尔。 93(2004),第374-380页。[公共医学][谷歌学者]
5Cantor A.B.和Shuster J.J。,基于截尾生存数据估计治愈率的参数与非参数方法,统计医学。 11(1992年),第931-937页。[公共医学][谷歌学者]
6Chen M.-H.、Ibrahim J.G.和Sinha D。,一种新的具有生存分数的生存数据贝叶斯模型,美国统计协会。 94(1999),第909–919页。[谷歌学者]
7Cheng R.和Amin N。,原点偏移的连续单变量分布参数估计,J.R.Stat.Soc.系列。B(方法学) 45(1983年),第394-403页。[谷歌学者]
8考克斯D.R。,回归模型和生命表,J.R.Stat.Soc.系列。B类 34(1972年),第187–220页。[谷歌学者]
9Etezadi-Amoli J.和Ciampi A。,具有协变量的删失生存数据的扩展风险回归:基线风险函数的样条逼近,生物计量学 43(1987),第181-192页。[谷歌学者]
10Geweke J。,评估基于抽样的后验矩计算方法的准确性第196卷,明尼阿波利斯联邦储备银行,明尼苏达州研究部,明尼阿波利斯,美国,1991年。
11Gieser P.W.、Chang M.N.、Rao P.、Shuster J.J.和Pullen J。,使用具有协变量信息的Gompertz模型建模治愈率,统计医学。 17(1998年),第831-839页。[公共医学][谷歌学者]
12Hutton J.和Solomon P.J。,生存数据混合回归模型中的参数正交性,J.R.Stat.Soc.系列。B(统计方法) 59(1997),第125-136页。[谷歌学者]
13卡拉马蒂亚努A.G.和麦克莱恩S。,永久学生:基于终身教育数据的本科学习持续时间建模,寿命数据分析。 9(2003),第311-330页。[公共医学][谷歌学者]
14Louzada F.、Moreira F.F.和de Oliveira M.R。,信用评分数据的零膨胀非违约率回归模型,通信统计。理论方法 47(2018),第3002–3021页。[谷歌学者]
15Martinez E.Z.、Achcar J.A.和Icuma T.R。,具有治愈分数的生存数据的二元basu-dhar几何模型,电子。J.应用。统计分析。 11(2018),第655-685页。[谷歌学者]
16McCullagh P.和Nelder J.A。,广义线性模型,卷。37查普曼和霍尔/CRC出版社,博卡拉顿,1989年。[谷歌学者]
17Othus M.、Barlogie B.、LeBlanc M.L.和Crowley J.J。,治愈模型是分析生存率的有用统计工具,临床。癌症研究。 18(2012),第3731-3736页。[PMC免费文章][公共医学][谷歌学者]
18普伦蒂斯·R.L。,对数-伽马模型及其极大似然估计,生物特征 61(1974年),第539-544页。[谷歌学者]
19Ramos P.L.、Achcar J.A.、Moala F.A.、Ramos E.和Louzada F。,基于非信息先验的广义伽马分布贝叶斯分析,统计 51(2017),第824-843页。[谷歌学者]
20Ramos P.L.、Louzada F.和Ramos E。,使用非信息先验的nakagami-m分布的后验特性及其在可靠性中的应用,IEEE传输。Reliab公司。 67(2018),第105–117页。[谷歌学者]
21索拉里M.E。,线性函数关系估计问题的“极大似然解”,J.R.Stat.Soc.系列。B(方法学) 31(1969年),第372-375页。[谷歌学者]
22Spiegelhalter D.、Thomas A.、Best N.和Lunn D。,Openbugs用户手册,版本3.0。2.MRC生物统计学组,剑桥,2007年。
23Spiegelhalter D.J.、Best N.G.、Carlin B.P.和Van Der Linde A。,模型复杂性和拟合的贝叶斯度量,J.R.Stat.Soc.系列。B(统计方法) 64(2002),第583-639页。[谷歌学者]
24Yakovlev A.Y.和Tsodikov A.Y。,肿瘤潜伏期的随机模型及其生物统计应用,卷。1《世界科学》,新加坡,1996年。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯