摘要

在一些医学研究的生存分析中,通常有长期的幸存者可以被视为永久治愈。这些研究的目的是估计整个人群的非保守概率和易感亚群的危险率。当实际中经常出现协变量时,了解协变量对非保守概率和风险率的影响同样重要。现有的方法仅限于参数和半参数模型。对于治愈概率和风险率函数,我们提出了一个具有非参数形式的两组分混合治愈率模型。模型的可识别性由一个加性假设来保证,该假设不允许在风险率的对数中存在时间-协变量交互作用。估计是通过最大化惩罚可能性的期望最大化算法进行的。为了推理的目的,我们应用Louis公式来获得非保守概率和风险率的点态置信区间。建立了函数估计的渐近收敛速度。然后,我们通过广泛的仿真来评估所提出的方法。我们分析了一项黑色素瘤研究的生存数据,并发现了这项研究的有趣模式。

1.简介

终身数据在临床试验和生物医学研究中很常见。在一些生存研究中,考虑中的人群由两组受试者组成,即易感个体和非易感个体。如果没有审查,所有易感受试者最终都会失败,而非易感受试者则不会有发生此类事件的风险,可以被视为治愈。一个著名的例子是对长期幸存者的癌症研究。现代癌症治疗大大提高了治愈率。对多种癌症的研究,例如乳腺癌、非霍奇金淋巴瘤和黑色素瘤,表明这些癌症患者中有很大一部分在治疗后得到永久治愈;参见,例如。,Tai、Yu、Cserni、Vlastos、Royce、Kunkler和Vinh-Hung(2005)这些引起了人们对分析治愈率数据的适当统计工具的极大兴趣和需求,重点是估计易感人群的比例和失效时间分布。

现有治愈率模型大致可分为两类。一类是在雅科夫列夫和茨奥迪科夫(1996)此类模型假设存在生存函数S公司流行音乐(t吨,x个) =G公司(−(x个, β)F类(t吨))对于整个人口,其中x个是协变量向量,(·,·)是由未知参数β索引的已知链接函数,F类(t吨)是未指定的分布函数,并且G公司是已知的转换函数。什么时候?t吨由于是有限的,该模型给出了易感对象生存函数的半参数形式。什么时候?t吨是无限的,非易感受试者的比例由下式给出G公司(−(x个, β)). 有关促进治疗模型的更多详细信息,请参阅曾、尹和易卜拉欣(2006)以及其中的参考。

我们考虑的模型属于另一类治愈率模型,称为双组分混合治愈模型。假设研究人群是两个亚人群的混合体并具有生存功能

(1)

其中π(z(z))以及S公司(t吨|x个)分别是敏感受试者的比例和生存功能。在这里z(z)x个是分别与π和S公司。双组分混合物固化模型首次提出于Berkson和Gage(1952),其中π只是一个未知常数S公司(t吨|x个)假设参数模型。《永别了》(1982)提出了一个带参数logistic函数π的推广(z(z)).Kuk和Chen(1992)通过考虑风险函数的半参数Cox比例风险模型,进一步扩展了再见(1982)的工作S公司(t吨|x个). 他们采用了边际似然法,并使用了涉及蒙特卡罗模拟的估计方法。彭和亲爱的(2000)Sy和Taylor(2000),该模型在精神上与Kuk和Chen(1992),但估计是通过期望最大化(EM)算法实现的(彭,2003). 在中考虑了相同的模型Corbière、Commumes、Taylor和Joly(2009)他们在Cox模型的相对风险中保持协变量效应的参数形式,并使用样条函数对基线风险函数进行建模。提出了一种直接优化程序来估计参数。Lu和Ying(2004)提出了一类包含固化分数的半参数变换模型,其中包括上述混合物固化率模型作为特例。Othus、Li和Tiwari(2009)扩展了他们的模型,以考虑时间相关协变量和相关审查。最近,鲁(2010)提出了一种具有治愈率的加速失效时间模型,其中未知误差密度由核方法估计。所有这些论文都只考虑了π的参数logistic回归模型(z(z)). 因此,现有治愈率模型的主要缺点是仅限于参数和半参数模型。更具体地说,易感受试者的风险函数要么采用参数形式,如Weibull分布,要么采用半参数形式,例如Cox比例风险模型,其中对数相对风险在协变量中是线性的。治愈率部分通常使用具有线性协变量效应的参数logistic回归模型。在实践中,此类参数或半参数假设可能不成立,因此得出的分析工具可能无效。

为了放宽这些限制,我们在本文中提出了一系列治愈率数据的非参数平滑样条方差分析(SS ANOVA)模型。在SS ANOVA分解中,多元函数被分解为正交分量之和,作为主要影响和交互作用。对于治愈率数据的分析,这种泛函ANOVA分解可以应用于π的非参数logistic回归模型中的平均函数(z(z))和生存函数对应的对数危险函数S公司(t吨|x个). 为了确保模型的可识别性,我们假设风险函数为非参数比例风险模型,其相对风险部分也采用灵活的非参数形式,这与传统的半参数比例风险模式不同。在功能ANOVA分解中,这要求排除时间和任何协变量之间的相互作用,尽管仍然允许任何协变量间的相互作用。

我们的平滑样条函数估计被定义为惩罚似然(PL)的极小值,该似然由表示拟合优度的负对数似然、强制平滑条件的粗糙度惩罚和平衡权衡的平滑参数组成。在没有惩罚的情况下,治愈率数据的可能性优化已经很困难,必须依赖EM算法等方法,参见,例如。,彭和亲爱的(2000),彭(2003)、和Sy和Taylor(2000)为了优化估计过程中的PL,我们开发了一种惩罚EM(PEM)算法,扩展了中的早期版本绿色(1990)西格尔、巴切蒂和朱厄尔(1994)中的PEM算法Segal等人,1994年有限维参数的相关估计。绿色(1990)只考虑离散函数的估计,这些函数本质上也是有限维参数。相反,我们的PEM算法是为两个光滑函数的非参数估计而设计的,这两个函数都位于无穷维函数空间中。因此,我们的算法可以看作是这些现有PEM算法的自然扩展,可以同时估计两个光滑函数。通过引入潜在治疗状态变量,我们的PEM算法将问题转化为最小化更优化的惩罚完全对数似然。新的目标泛函由两个PL组成,一个只涉及非纯速率函数,另一个仅涉及对数风险函数。在E步骤中计算当前函数估计值。在M步骤中,两个PL在的,最小化以获得新的函数估计。我们的经验表明,该算法收敛速度快,估计结果性能良好。这与平滑EM算法在Silverman、Jones、Wilson和Nychka(1990),其中每个M步之后的额外平滑步骤将加快算法的收敛速度。

单靠点估计在实践中是不够的,因为它缺乏对估计精度的评估。通常,平滑样条函数估计的点态置信区间由PL的Bayes模型导出,如瓦赫巴(1983)然而,这种方法在这里不起作用,因为我们在M步骤的PL涉及潜在变量的。相反,我们扩展了路易斯公式(路易斯,1982年)是使用EM算法计算观测信息矩阵的经典工具,用于计算PEM算法的方差估计。PEM算法的方差估计也在Segal等人,1994年但他们的算法需要对参数进行数值微分,这使得它只适用于有限维参数。

治愈率模型的渐近理论通常很困难,直到最近十年才得到严格研究。示例如下方、李、孙(2005)对于比例风险混合治愈率模型,马(2010)对于具有区间删失治愈率数据的半参数模型,以及上述论文,Lu和Ying(2004),曾等人(2006年),othus等人(2009年)、和鲁(2010)的治愈率模型。使用在考克斯和奥沙利文(1990),我们证明了我们的非参数函数估计是一致的,并且它们的收敛速度对于样条估计是最优的。

据我们所知,这是有史以来第一个针对治愈率数据提出的纯非参数方法。除了建模的灵活性外,我们的方法还提供了平滑的函数估计,这对实践者很有吸引力,尤其是在数据分析的探索阶段。这里开发的置信区间也为公共卫生研究提供了必要的可靠推断工具。我们还开发了一个简单的基于Kullback–Leibler几何的经验模型选择工具顾(2004)结合与平滑样条相关的功能ANOVA分解,这允许灵活且信息充分的模型术语规范。数值研究表明,该方法在估计和推理方面都具有良好的性能。该方法在黑素瘤研究中的应用说明了数据中的一些有趣模式。

文章的其余部分组织如下。第2.1节详细描述了我们的非参数治愈率模型,并解决了可识别性问题。第2.2节介绍了SS ANOVA框架。第2.3节提出了一种估计未知函数的PEM算法。观测信息矩阵和置信区间导出于第2.4节。经验模型选择工具衍生于第2.5节.第2.6节研究估计的渐近性质。我们在第3节,并在中显示仿真结果第4节。中的讨论第5节结束文章。

2.治愈率数据的SS方差分析模型

2.1双组分混合物模型和可识别性

在双组分混合物固化模型中(1),事件时间分解为论坛,其中T型*<∞表示易受影响对象的故障时间,以及通常无法观察到,是易感的指标(=1)或固化(= 0). z(z)是与治愈率π(·)相关的协变量x个是与存活组分相关的协变量S公司(·, ·). 协变量z(z)x个虽然不一定如此,但可以相互重叠,甚至是相同的。我们假设每个主体都受到随机的权利审查,并且审查时间C类独立于T型*以及给定协变量z(z)x个.定义论坛和δ=T型C类。那么观察结果是(t吨, δ,z(z),x个),= 1, …,n个,随机向量的独立副本(T型, δ,z(z),x个). 请注意,所有治愈的受试者都经过审查,并具有δ=0,但一些受试者在研究期后可能会出现失败。我们模型的观测似然函数为

(2)

哪里(f)(t吨,x个)以及S公司(t吨,x个)分别是失效时间的概率密度函数和生存函数t吨给定协变量x个.

让我们首先澄清模型可识别性问题。模型的一个充分条件(1)可识别性在Li、Taylor和Sy(2001)作为:S公司(t吨|x个)============================================================={S公司(t吨)}第页(x个),带π(z(z))以及S公司(t吨)未指定,以及第页(x个)任何情况下>0x个注意,这种情况基本上要求易感人群的危险函数具有比例危险结构小时(t吨,x个) =小时0(t吨)第页(x个)具有一般形式的相对风险第页(x个)或等效地,log hazard函数具有加法结构log小时(t吨,x个)=对数小时0(t吨)+日志第页(x个). 在经典的Cox比例风险模型中,论坛采用参数形式。在本文中,我们取消了对第页(x个)并允许它具有灵活的非参数形式。

让ζ(z(z))=对数{π(z(z))/(1 −π (z(z)))}和η(t吨,x个)=对数小时(t吨,x个). 从现在开始,我们总是假设η具有上述加性结构,不涉及时间-变量相互作用。重写观察到的可能性(2)就ζ和η而言,(ζ,η)的平滑样条估计只是PL的极小值

(3)

其中,第一项是表示拟合优度的负对数似然,J型1J型2是粗糙度惩罚,对函数ζ和η强制执行一定水平的平滑,而β,λ>0是控制权衡的平滑参数。

2.2平滑样条方差分析

在本节中,我们对从PL类生成的SS ANOVA模型进行了简短的一般回顾(). 根据未知“模式”函数“生成”的给定随机数据0,的平滑样条估计0定义为损益的最小值:论坛.在这里L(左)(),通常为负对数似然,用于衡量,J型(),粗糙度惩罚,衡量,平滑参数λ(>0)控制折衷。通过适当的规范J型()在各种问题设置中,PL生成高斯和非高斯回归、概率密度估计、危险率估计等的非参数模型。参见顾(2002)例如。

我们现在描述如何为泛型函数构造平滑SS ANOVA模型(x个),其中论坛例如,x个=z(z)在ζ的单独估计中(z(z))以及x个= (t吨,x个)在η的单独估计中(t吨,x个),在解释的意义上是分开的第2.3节PL的最小化是在再生核希尔伯特空间(RKHS)中完成的论坛域上函数的论坛.一个RKHS公司是评估功能所在的功能空间[x个]((f)) ≡(f)(x个)是连续的。对于多元变量x个= (x个1, …,x个第页),域论坛.让论坛RKHS打开了吗论坛考虑张量积RKHS空间论坛假设每个分量空间可以进一步分解为张量和论坛,其中{1}是常量函数的一维空间。然后张量积空间可以分解为

(4)

哪里论坛,论坛,论坛、……和论坛就功能而言(4)相当于分解作为

(5)

哪里是一个常量,j个(x个j个)的主要影响是x个j个的,jk公司(x个j个,x个k个)的是双向交互效应,等等。这种分解的解释与经典的ANOVA线性模型类似,因此得名为SS ANOVA分解。完全SS ANOVA分解的任何子集可以被认为是并且将被称为SS ANOVA模型。

为了克服维度的诅咒(5),通常是低阶项,包含在模型空间中。对于我们的治愈率模型,对数风险函数η的模型空间(t吨,x个)根据第2.1节注意,η中仍然允许任何协变量之间的相互作用(t吨,x个). 在模型空间之后论坛则可以表示为论坛,其中论坛收集所有未规范化的子空间。在这样一个选定的模型空间中,惩罚的一般形式是论坛,其中P(P)k个正交投影仪在吗论坛到上面论坛、和θk个的是附加的平滑参数,用于在。请参阅瓦赫巴(1990)顾(2002)了解更多详细信息。为了简化符号,我们将假定我们的惩罚泛函J型1J型2英寸()隐式包含多个平滑参数θjk公司的(j个=1,2)通篇。

2.3惩罚EM算法

我们现在介绍一种PEM算法,用于优化(). 是不可观察的敏感指标主题。鉴于= (1, …,n个),完整的对数似然可以写为L(左)c(c)(ζ, η;) =L(左)1(ζ;) +L(左)2(η;),其中论坛论坛注意δ = δ。因为两者L(左)1L(左)2只涉及一个未知函数,可以分别对ζ和η进行优化连接这两部分。

在E步骤中,计算L(左)c(c)关于潜在变量目前的估计值为0()=(ζ(),η()).

然后M步最小化

(6)

在各自的RKHS中论坛论坛获得θ(+ 1)= {ζ(+ 1),η(+ 1)}. 注意,两个目标函数分别在ζ和η中为凸函数。因此,M步计算可以通过标准牛顿-拉夫森程序进行,其详细信息见Web附录A。

我们的PEM算法通常收敛不到10步。这种快速收敛的经验与中更简单版本的PEM算法的现有结果很好地吻合绿色(1990)以及中的平滑EM算法Silverman、Jones、Wilson和Nychka(1990).

2.4置信区间

在本节中,我们扩展了路易斯公式,以导出函数ζ的点态置信区间(z(z))和η(t吨,x个). 在Web附录A中,我们写道论坛论坛,其中论坛,论坛是选择的样条基函数和b条ζ,b条η是系数向量。回忆一下,θ=(ζ,η),或者基本上(b条ζ,b条η). 计算观测信息矩阵的路易斯公式为光突发事件(Θ) =E类Θ[B类(;Θ)] −E类Θ[G公司(;Θ)G公司(;Θ)T型]. 在这里G公司B类分别是惩罚完全对数似然的梯度向量和负二阶导数矩阵论坛,

获得后光突发事件按照Web附录B中的步骤,我们可以计算ζ的100(1-α)%置信区间(z(z)0)和η(t吨0,x个0)在给定点z(z)0和(t吨0,x个0)由

哪里论坛是在PEM算法结束时获得的估计值。

2.5选型

在本节中,我们开发了一个基于Kullback–Leibler几何结构的经验模型选择程序顾(2004)该程序可用于检测ζ的SS ANOVA分解中可忽略的项(z(z))和η(t吨,x个).

让我们先考虑ζ。对于两个估算ζ1和ζ2真函数ζ的0,定义ζ之间的Kullback–Leibler距离1和ζ2作为

假设ζ的估计0已在空间中完成论坛有人想评估将模型空间缩减为子空间的可能性论坛.让论坛是ζ的估计值0在里面论坛.让论坛成为Kullback–Leibler投影论坛在里面论坛也就是说论坛对于论坛.让ζc(c)是常数模型的估计值。然后直接计算得出以下三角形等式:

(7)

哪里论坛是“总熵”论坛是子空间的“保留熵”论坛.因此论坛可用于识别可忽略不计的项,ρ值较小ζ倾向于简化模型。

同样,定义两个估计值之间的Kullback–Leibler距离η1和η2作为

然后是一个类似于(7)保持不变,我们可以使用比率论坛识别η的SS ANOVA分解中的可忽略项。

0.05的小阈值已用于顾(2004).我们的实证研究第4.2节表明该阈值,当ρζ<0.05(或ρη<0.05),也适用于在我们的问题设置中选择ζ和η模型。

2.6渐近性质

在本节中,我们将介绍函数估计的收敛速度论坛论坛。其技术证明见Web附录D。设π0(z(z)),ζ0(z(z)),S公司0(t吨,x个)和η0(t吨,x个)成为真正的功能,以及第页1第页2是与论坛论坛它测量这两个函数空间强制执行的平滑度。的典型值第页1第页2是2个何时订购-样条用于建模ζ和η。然后我们有以下定理。

定理2.1: 在条件A1–A6下,我们有 论坛 哪里‖·‖2  L(左)2-规范和 第页=最小值(第页1,第页2).

注意,这是当样条函数阶数为第页/使用了2个。如果第页1=第页2,两个功能估计论坛论坛获得它们的最优收敛速度。否则,只有其中一个可以达到最佳速率,而另一个则无法达到,因为存在纠缠联合估计。

3.黑色素瘤癌症数据分析

我们现在使用所提出的方法检查来自黑色素瘤研究的数据集。数据集可从监测流行病学和最终结果(SEER)获得(网址:http://www.seer.cancer.gov)数据库于2008年发布。具体来说,我们观察了来自所有九个注册的大都市地区的被诊断患有黑色素瘤的患者,这些地区的癌症分期被归类为地方性或区域性。为了避免与以前的癌症诊断相关的潜在混淆,我们将样本限制在首次诊断为黑色素瘤的患者。我们感兴趣的“失败时间”是从黑色素瘤诊断到黑色素瘤死亡的时间。一个有趣的问题是,在这个数据集中,存活率或治愈率是否因性别、肿瘤大小和年龄而不同。由于其他种族的受试者人数较少,我们限制了对白人患者的关注。黑色素瘤之后通常会进行常规治疗,包括手术和放射治疗,治疗对象几乎是所有患者,但某些疾病阻止了此类常规治疗。我们只关注接受常规治疗的患者。SEER数据库中总共有637例病例符合我们的所有选择标准。我们的示例中考虑的协变量是诊断时的年龄(范围:5至101岁)、性别(男或女)和肿瘤大小(大或小)。

根据年龄分层的四个患者组的卡普兰-迈耶曲线图见图1。选择年龄截止值以产生相似的组大小。每条曲线末端所示的平台表明,研究中可能存在治愈受试者的亚群。因此,这里适合进行治愈率数据分析。

黑色素瘤示例:Kaplan–Meier估计患者组按年龄分层。这些线从细到粗分别对应于40岁以下(149名患者)、40岁至50岁(174名患者)、55岁至70岁(172名患者)和70岁以上(142名患者)的患者组。
图1

黑色素瘤示例:Kaplan–Meier对按年龄分层的患者群体的估计。这些线从细到粗依次对应于40岁以下(149名患者)、40岁至50岁(174名病人)、55岁至70岁(172名病人。

我们从模型开始,包括协变量的所有主要影响和交互作用论坛这样的话

(8)

论坛仅排除时间-协变量交互作用,以确保模型的可识别性。然后,我们使用模型选择程序进行逐步反向选择,ρ的阈值为0.05ζ和ρη该程序表明ζ的模型不可能简化,但η的模型可以简化为

(9)

从最终模型中可以得出几个结论(8)和(9). 首先,所有协变量,年龄、性别和肿瘤大小,都与患者的治愈状态相关,每个性别大小的组的治愈率与年龄的关系不同。这些不同的趋势在图2第二,尽管性别和肿瘤大小对确定患者的治愈状态很重要,但一旦患者被认为失败,它们对患者的生存时间没有影响。相反,此类患者的年龄对患者的生存至关重要。

根据性别和肿瘤大小(大小)确定的四个患者组的估计logit非治愈率及其与年龄的置信区间。叠加是由年龄和收敛y决定位置的真实数据点。
图2

根据性别和肿瘤大小(大小)确定的四个患者组的估计logit非治愈率及其与年龄的置信区间。叠加的是真实数据点,其位置由年龄决定并收敛的。

我们使用最终模型分析了数据(8)ζ和(9)对于η。相应的拟合及其点向置信区间绘制为图2.英寸图2我们发现,男性大肿瘤患者的未治愈率通常高于男性小肿瘤患者。此外,两个男性患者组的未治愈率有一个共同的模式:未治愈率一直随着年龄的增长而增加,直到65岁左右,未治愈率趋于稳定。有趣的是,女性患者组中没有出现这种模式,这两个组的未痊愈率都随着年龄的增加而稳定增加。尽管肿瘤较大的女性患者的未治愈率仍高于肿瘤较小的女性患者,但后一组患者的未痊愈率随年龄增长而加快,并迅速赶上前一组患者。图3揭示了非治愈患者的危险模式。尽管绘制的对数危险度在诊断后的某个年龄或时间是固定的,但由于在(9). 对于任何固定年龄的患者组,失败的风险首先在诊断后30个月左右增加,然后在诊断后60个月左右开始减少,之后稳步增加。这似乎与黑素瘤患者的流行治疗程序相吻合。一般来说,患者在诊断后首先采用普通程序进行治疗,随着时间的推移,其危险性会增加。一段时间后,如果普通程序不起作用,则会采用更积极的程序,在一段时间内确实可以减少患者的危险。如果积极的手术仍然不能治愈患者,患者的失败风险最终会再次增加。当观察诊断后某个时间点的横截面时,患者的失败风险在60岁左右之前是恒定的,之后稳步增加。

根据时间和年龄估算的对数危险和置信区间。
图3

根据时间估算的对数危险和置信区间论坛和年龄论坛.

4.实证研究

4.1估算和覆盖特性

本节提供了一些仿真,以评估所提方法的估计性能和推导出的置信区间的覆盖特性第2.4节.

我们考虑了以下测试治愈率和危险函数的模拟设置。

哪里z(z)x个是连续协变量。以π为单位的常数1所有受试者的总治愈率为20%。请注意,风险函数具有无时间-协变量相互作用的对数,以确保模型的可识别性。考虑了另一个功能设置,并使用两个样本大小研究了每个功能设置n个=400和800。由于仿真结果的相似性,我们仅提供上述功能设置的结果n个=400,并将其他模拟的详细信息放入Web附录C中。

协变量z(z)k个=x个k个,k个=1,…,20生成为20个等距值的网格,范围为[-0.4,0.4]。然后在每个位置生成20个观察结果z(z)k个=x个k个首先,从概率为π的伯努利分布中生成20个二进制值j个(z(z)k个);然后,根据这些二进制输出,将20个观察结果分类为治愈或未治愈;失效时间是根据具有危险函数的分布随机生成的非校正观测值小时(t吨,x个k个);最后,对所有观测值,根据威布尔分布生成截尾时间,并记录截尾状态指标。请注意,所有固化样品均记录为已审查。

产生了100个重复。计算logit非净化率ζ的点式95%置信区间(z(z))在上z(z)尺寸为100的网格,在[-0.4,0.4]上等距分布,用于对数危险η(t吨,x个测试)带有x个固定在某一点x个测试从[-0.4,0.4],和t吨公共范围上的100个等间距网格点t吨对于所有100个重复,以及对数风险η(t吨测试,x个)带有t吨固定在某一点t吨测试在上述通用范围内t吨、和x个在[−0.4,0.4]上的100个等间距网格点上。

图4绘制仿真结果。从上到下的行表示函数ζ(·),η(·,x个测试)和η(t吨测试,·),左框显示选定网格点处三个函数95%区间估计值的点-线覆盖率,右框绘制真实测试函数(虚线)、点-线函数估计值的平均值(实线)、95%点-线CI的平均值,以及点式函数估计的经验2.5%和97.5%百分位(虚线)。左框中还叠加了相应曲线的曲率大小。

测试函数π1(z)、h1(t,x)和n=400的模拟结果(第4.1节)。左栏:沿点覆盖(阶梯线)。叠加为标称覆盖范围(虚线)和标度|ζ〃(z)|(虚线。右栏:真函数(虚线)及其估计值,包括点函数估计值的平均值(实线)、点函数95%置信区间的平均值,以及点函数估计的经验2.5%和97.5%(虚点),所有这些都基于100个重复数据。
图4

测试函数π的模拟结果1(z(z)),小时1(t吨,x个)以及n个=400(第4.1节). 左栏:沿点覆盖(阶梯线)。叠加为标称覆盖范围(虚线)和标度|ζ〃(z(z))|(虚线)。右栏:真函数(虚线)及其估计值,包括点函数估计值的平均值(实线)、点函数95%置信区间的平均值,以及点函数估计的经验2.5%和97.5%(虚点),所有这些都基于100个重复数据。

估计性能非常好,平均函数估计接近真实函数。对于置信区间,平均区间估计值接近100个函数估计值的经验百分位数,因此我们的区间估计值具有适当的大小。令人放心的是,在数据信息消失的曲线末端,可以看到区间的加宽。点-线覆盖率通常接近标称水平0.95,在某些区域略低于平均水平。可能有几个因素促成了这一点。第一,瓦赫巴(1983)在回归设置中观察到低覆盖率与高曲率的关联。这在我们的模拟中也是如此,如左图所示图4通常,曲率越大,曲线越粗糙,用非参数平滑方法很难完全恢复。其次,低覆盖率似乎也出现在数据范围的两端,在那里数据稀少,非参数方法的信息越来越少。

4.2选型

我们考虑了三种设置来评估第2.5节.我们使用0.05作为ρ的截止值ζ和ρη如果采用简化模型,则对应于通过Kullback–Leibler距离测量的熵损失的5%。所有设置都以样本大小迭代100次n个= 400. 我们重点研究了第一和第二种设置中对数危险η和第三种设置中ζ的模型选择。这些模拟为模型选择程序在第3节.

在第一个设置中,我们引入了一个二进制变量x个c(c)=0或1。真正的功能是论坛和η(t吨, (x个,x个c(c)))=对数(小时1(t吨,x个)),其中论坛注意,对数危险η(t吨, (x个,x个c(c)))不依赖于x个c(c)及其组件t吨x个彼此分离。因此,η的真正模型是加性的,只有时间和连续协变量的主要影响x个,或(t吨,x个)使用简写符号。我们考虑了两种情况:模型(t吨,x个)对(t吨,x个,x个c(c),x个*x个c(c))和型号(t吨)与(t吨,x个). 选择正确型号的百分比(t吨,x个)在这两种情况下分别为94%和100%。

第二个设置仍然侧重于危险部分的模型选择。真治愈率概率函数π(z(z))与第一个设置相同,但真实的对数危险函数为η(t吨, (x个,x个c(c)))=对数x个c(c)+1.5日志t吨,其中x个c(c)=2.5或0.44为两级分类变量。因此,对数危险η的真实模型为(t吨,x个c(c)). 我们再次考虑了两个场景:模型(t吨,x个c(c))与(t吨,x个,x个c(c),x个*x个c(c))和型号(t吨)与(t吨,x个c(c)). 选择正确型号的百分比(t吨,x个c(c))在这两种情况下分别为94%和100%。

第三种设置侧重于治愈率成分的模型选择,并引入了一个额外的类别变量z(z)c(c)具有两个级别。真正的功能是论坛和η(t吨,x个)=对数{小时1(t吨,x个)},其中z(z)c(c)是一个类别变量,有2个级别0和1。因此,函数ζ的真实模型为(z(z),z(z)c(c)). 我们考虑了三种场景:模型(z(z),z(z)c(c))与(z(z),z(z)c(c),z(z)*z(z)c(c)),型号(z(z))与(z(z),z(z)c(c))和型号(z(z)c(c))与(z(z),z(z)c(c)). 正确选择率分别为96%、100%和97%。

表1总结了模型选择结果,包括未选择某些真实效果的底线比例、正确拟合和选择了一些噪声效果的过拟合。总的来说,结果非常好,在所有三种设置中正确拟合的百分比都很高(>90%)。因此,我们建议在实践中使用0.05的阈值。

表1

模型选择的模拟结果

设置功能真实模型比例
不合身(%)正确配合(%)过度(%)
η(t吨,x个)0946
η(t吨,x个c(c))0946
ζ(z(z),z(z)c(c))934
设置功能真实模型所占比例
不足(%)正确拟合(%)过度(%)
η(t吨,x个)0946
η(t吨,x个c(c))0946
ζ(z(z),z(z)c(c))934
表1

模型选择的模拟结果

设置功能真实模型所占比例
不足(%)正确配合(%)过度(%)
η(t吨,x个)0946
η(t吨,x个c(c))0946
ζ(z(z),z(z)c(c))934
设置功能真实模型所占比例
不足(%)正确配合(%)过度(%)
η(t吨,x个)0946
η(t吨,x个c(c))0946
ζ(z(z),z(z)c(c))934

5.讨论

本文基于平滑SS ANOVA框架,提出了治愈率数据的一系列非参数模型。易感者的概率函数和易感对象的风险函数均采用灵活的非参数形式,并且具有一致的估计。在数据分析的探索阶段,这种灵活性尤其重要。虽然错误指定的参数模型可能会产生不准确的预测,但像所建议的功能ANOVA模型这样的非参数模型可以为疾病预后提供更可靠的信息。

我们开发的推理工具包括从用于PEM算法的路易斯公式导出的点式置信区间,以及基于Kullback–Leibler几何的简单经验模型选择工具。更有趣的推断工具是同时置信带。然而,由于缺乏估计值的抽样分布,它们很难用严格的理论来建立。或者,可以将bootstrap假设测试程序扩展到Liu、Meiring和Wang(2005)回归设置到我们的治愈率模型设置。

其他一些扩展值得进一步研究。时间相关协变量的合并如下所示othus等人,2009年但需要对计算程序进行一些重要的更改。基于潜在激活方案,库纳、班纳吉、卡林和辛哈(2007年)提出了一类治愈率模型,其中包括作为特殊情况的混合成分模型和促进时间模型,以及Gu、Sinha和Banerjee(2011)考虑了潜在激活时间生存函数的比例优势模型和参数Weibull模型。在这个方向上的扩展需要对不可识别性进行复杂的处理,特别是当一些协变量同时影响治愈概率和事件时间时。最后,非保守亚群可能由两个亚群组成,一个是攻击性亚群,另一个是轻度亚群。要包含这个额外的混合维度,需要对潜在的三项响应和两个不同的风险函数进行建模。为了确保可识别性,可能需要限制在附加组件中引入的新参数的数量。

在一般生存研究中,数值研究中使用的样本量通常被认为是中等的。使用较小样本量进行估计是可能的,但实际可识别性可能会影响估计的稳定性。由于治愈率数据通常需要相对较大的样本量才能声称疾病“可治愈”,这不应过多地限制拟议方法的实际使用。

在参数和半参数混合治愈率模型下,当最大失效时间较低时,通常会出现数值不可识别性。一种补救方法是在泰勒(1995),它基本上假设在最大故障时间后的所有观察结果都得到了纠正。虽然我们的模拟并没有在提出的非参数治愈率模型中显示出这样的问题,但它并没有完全排除这种可能性。如果发生这种情况,可以通过将所有最大故障时间后的审查观察结果。

6.补充资料

中引用的Web附录第2.3节,2.4,2.6、和4.1可在生物计量学网站http://www.biometrics.tibs.org/.

致谢

作者感谢编辑、副编辑和两位匿名审稿人的宝贵意见,这些意见改善了文章的表述。PD的研究得到了NSF DMS-1007126的支持。HL的研究得到了NSF DMS-0806097和DMS-1007167的支持。

工具书类

伯克森
,
J。
仪表
,
钢筋混凝土。
(
1952
).
癌症患者治疗后的生存曲线
.
美国统计协会杂志
 
47
,
501
515
.

Cooner公司
,
F、。
,
班纳吉
,
美国。
,
卡林
,
业务伙伴。
、和
辛哈
,
D。
(
2007
).
潜在激活方案下的柔性治愈率建模
.
美国统计协会杂志
 
102
,
560
572
.

科尔比埃
,
F、。
,
科芒热
,
D。
,
泰勒
,
J·M·G。
、和
乔利(Joly)
,
第页。
(
2009
).
混合治愈模型的惩罚似然方法
.
医学统计学
 
28
,
510
524
.

考克斯
,
D.D.博士。
奥沙利文
,
F、。
(
1990
).
惩罚似然的渐近分析及相关估计
.
统计年鉴
 
18
,
1676
1695
.

,
H。
,
,
G.公司。
、和
太阳
,
J。
(
2005
).
半参数逻辑/比例危险混合模型中的ML估计
.
斯堪的纳维亚统计杂志
 
32
,
59
75
.

再会
,
五、。
(
1982
).
使用混合模型分析长期幸存者的生存数据
.
生物计量学
 
38
,
1041
1046
.

绿色
,
第J页。
(
1990
).
EM算法在惩罚似然估计中的应用
.
英国皇家统计学会杂志B辑
 
52
,
443
452
.

,
C、。
(
2002
).
平滑样条方差分析模型
.
纽约
:
Springer-Verlag公司
.

,
C、。
(
2004
).
平滑样条方差分析模型的模型诊断
.
加拿大统计杂志
 
32
,
347
358
.

,
年。
,
辛哈
,
D。
、和
班纳吉
,
美国。
(
2011
).
比例优势模型下治愈率生存数据分析
.
终身数据分析
 
17
,
123
134
.

库克
,
A.Y.C.公司。
,
C.H.公司。
(
1992
).
logistic回归与比例风险回归相结合的混合模型
.
生物特征
 
79
,
531
541
.

,
C.-S.公司。
,
泰勒
,
J·M·G。
、和
Sy公司
,
J.P.公司。
(
2001
).
治愈模型的可识别性
.
统计与概率信件
 
54
,
389
395
.

,
答:。
,
梅林
,
西。
、和
,
年。
(
2005
).
使用平滑样条方法测试广义线性模型
.
中国统计局
 
15
,
235
256
.

路易斯
,
T.A.公司。
(
1982
).
使用EM算法时发现观测信息矩阵
.
英国皇家统计学会杂志B辑
 
44
,
226
233
.

,
西。
(
2010
).
具有治愈率的加速失效时间模型的有效估计
.
中国统计局
 
20
,
661
674
.

,
西。
,
Z.公司。
(
2004
).
关于半参数变换曲线模型
.
生物特征
 
91
,
331
343
.

妈妈
,
美国。
(
2010
).
具有治愈子群的混合情况区间删失数据
.
中国统计局
 
20
,
1165
1181
.

Othus公司
,
M。
,
,
年。
、和
蒂瓦里
,
钢筋混凝土。
(
2009
).
一类具有相关删失的半参数混合治愈生存模型
.
美国统计协会杂志
 
104
,
1241
1250
.

,
年。
(
2003
).
拟合半参数曲线模型
.
计算统计与数据分析
 
41
,
481
490
.

,
年。
尊敬的
,
K.B.G.公司。
(
2000
).
治愈率估计的非参数混合模型
.
生物计量学
 
56
,
237
243
.

西格尔
,
米。
,
巴凯蒂
,
第页。
、和
珠宝
,
N.P.(不适用)。
(
1994
).
通过EM算法获得的最大惩罚似然估计的方差
.
英国皇家统计学会杂志B辑
 
56
,
345
352
.

西尔弗曼
,
B.W.公司。
,
琼斯
,
M.C.公司。
,
威尔逊
,
J·D·。
、和
尼希卡
,
D.W.公司。
(
1990
).
一种解决间接估计问题的平滑EM方法,特别是参考体视学和发射断层扫描
.
英国皇家统计学会期刊,B辑
 
52
,
271
324
.

Sy公司
,
J.P.公司。
泰勒
,
J·M·G。
(
2000
).
Cox比例风险治愈模型中的估计
.
生物计量学
 
56
,
227
236
.

泰语
,
第页。
,
,
E.公司。
,
切尔尼
,
G.公司。
,
弗拉斯托斯
,
G.公司。
,
罗伊斯
,
M。
,
昆克勒
,
一、。
、和
永兴
,
五、。
(
2005
).
估计癌症患者统计治愈所需的最短随访时间:使用SEER数据库中42个癌症位点的数据进行验证
.
BMC癌症
 
5
,
48
.

泰勒
,
J·M·G。
(
1995
).
故障时间混合模型中的半参数估计
.
生物计量学
 
51
,
899
907
.

瓦赫巴
,
G.公司。
(
1983
).
交叉验证平滑样条的贝叶斯“置信区间”
.
英国皇家统计学会杂志B辑
 
45
,
133
150
.

瓦赫巴
,
G.公司。
(
1990
).
观察数据的样条模型,CBMS-NSF应用数学区域会议系列第59卷
.
宾夕法尼亚州费城
:
暹罗
.

雅科夫列夫
,
A.年。
茨奥迪科夫
,
公元。
(
1996
).
肿瘤潜伏期的随机模型及其生物统计应用
.
新泽西州哈肯萨克
:
世界科学
.

,
D。
,
,
G.公司。
、和
易卜拉欣
,
J·G·。
(
2006
).
具有治愈分数的生存数据的半参数变换模型
.
美国统计协会杂志
 
101
,
670
684
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)