总结
评估一致性通常是临床研究中的一个兴趣点,用于评估不同评分者或方法对同一受试者产生的测量结果的相似性。我们提出了一个修正的加权kappa系数来衡量二元离散生存时间之间的一致性。建议的kappa系数通过在可能发生未观测事件的网格内重新分配受删失观测值的质量来适应删失。提出了多元离散生存时间的广义修正加权kappa。我们通过一个多元生存函数估计量非参数地估计了修正的kappa系数。通过对二元和三元生存时间的仿真研究,建立了kappa估计量的渐近性质,并检验了估计量的性能。我们用前列腺癌研究的数据说明了修正kappa系数在审查观察中的应用。
1.简介
在生物医学科学的许多场景中,相同的结果可能由不同的方法或评分者来衡量。例如,患者的疾病状态可以由不同的评估者进行评估;事件可以用金标准或相对简单的方法来衡量。需要评估这些测量值之间的一致性,以确定不同评分者是否对相同患者产生相似的值;或者简单方法是否再现了金标准的结果。
衡量分类结果一致性的统计方法已经建立。科恩(1960)开发了kappa统计量作为两个二元变量的一致性指数。作为一种机会修正协议的衡量标准,这一解释颇具吸引力。稍后,科恩(1968)将原始kappa推广为有序离散结果的加权kappa系数。自其发展以来,kappa及其扩展(科恩,1960年,1968;弗莱斯,1971年;克莱默,1980年)在文献中得到了很好的研究,并广泛应用于许多领域(Maclure和Willett,1987年;Korten等人,1992年;Klar、Lipsitz和Ibrahim,2000年;威廉姆森、马纳通加和利普西茨,2000年). 然而,由于审查的存在,kappa在生存研究中的应用非常有限。
在生物医学科学中,研究人员通常对评估在同一对象上测量的两个生存时间之间的一致性感兴趣。例如,在抑郁症研究中,临床抑郁症的发病时间是使用临床医生用药量表和患者自我报告量表测量的。评估疾病发作时间之间的一致性有助于评估患者自我报告的可靠性,并确定诊断抑郁症的合适工具。在本文后面,我们将描述另一项研究,其中前列腺癌复发的时间是通过两种不同的技术评估的。
由于生存研究中存在审查观察结果,大多数现有的一致性度量(如kappa)无法直接应用。为了评估离散生存时间之间的一致性,Guo和Manatunga(2005)开发了一个局部kappa系数,用于测量二维时间网格中每个点上的双变量生存时间之间的局部一致性。生存时间之间一致性通过二维时间网格上的局部kappas模式反映出来。该方法可以通过建模局部kappa系数来研究协变量对协议的影响。
在许多研究中,需要一个单一的一致性指数来表示两个生存时间之间一致性的总体强度。因为离散生存时间可以被视为有序结果,科恩的加权kappa(科恩,1968年)似乎是我们的一个自然选择。然而,审查的存在使得估计具有生存时间的加权kappa是不可行的。在本文中,我们提出了一个修正的加权kappa系数,该系数可以包含删失观测值。修正的加权kappa和Cohen的加权kapba之间的一个主要区别是,它们是基于两个序数结果列联表中的两种类型的细胞概率定义的。科恩的加权kappa基于无条件细胞概率。修正的加权kappa基于重新分配的细胞概率,即给定观察到的生存时间和审查指标,事件在特定细胞中发生的条件概率。在计算重新分布的单元概率时,将受删失观测的质量重新分布到可能发生未观测事件的单元。我们还通过提出多变量生存时间的广义修正加权kappa,扩展了多变量情况下的方法。修正加权kappa系数的估计可以通过双变量生存函数的非参数估计得到。本文建立了该估计的强相合性和渐近正态性等渐近性质。
本文组织如下。在第2节,我们提出了修正加权kappa系数的方法,并将其推广到多个评分员。在第3节,我们通过仿真评估了所提出方法的性能。在第4节,我们提供了一个前列腺癌研究的示例。最后,我们以讨论结束。
2.方法
2.1科恩加权卡帕系数
科恩(1960)提出kappa指数作为二元检验的一致性度量。它被解释为在机会协议被取消考虑后,观察到的协议与其最大可能值的比例。科恩(1968)考虑将原始kappa扩展到序数变量:包括自然顺序的测量,如疾病的严重程度,可分为正常、轻度、中度和重度。对于有序数据,相邻类别中的不一致性不如不同类别中的严重性。因此科恩(1968)提出加权kappa,以允许在评估总体一致性时对不同程度的分歧进行差异加权。
让Y(Y)1和Y(Y)2用表示顺序评级米由两名评分员对类别进行排序。在不失一般性的情况下,我们假设Y(Y)j个 = 1, …,米, j个 = 1, 2. 联合分配Y(Y)1和Y(Y)2可以用米×米列联表。表格的单元格概率定义为
哪里我,j个 = 1, …,米。样本估计值为
哪里n个ij公司是观察到的细胞频率n个是观察的总数。表示w个ij公司作为分配给单元的重量(我,j个)表示此单元格的一致程度。权重函数被限制为0≤w个ij公司≤1,带w个ij公司→ 1表示更加一致。加权kappa系数定义为
哪里
表示加权观测一致概率,以及
代表评分员独立时的预期协议。估计
通过替换真实概率计算第页ij公司在里面(1)与样品比例
.
通过选择不同的权重函数,可以获得不同的加权kappa系数。两组最常见的权重是带有
和奇切蒂的重量(Cicchetti和Allison,1971年)带有
当应用二次加权时,加权kappa系数已被证明与连续结果的各种一致性度量密切相关。科恩(1968)在两种边际分布相同的假设下,证明了二次加权kappa系数等价于积矩相关系数。Fleiss和Cohen(1973)结果表明,具有二次权重的加权kappa与高斯一般线性模型中有序评级的类内相关系数渐近等价。最近,金和青椒(2001)证明了具有二次权的加权kappa等价于Lin的调和相关系数(CCC;林,1989)是一种常用的连续测量一致性度量。
2.2修正的加权Kappa系数
我们现在考虑生存结果之间一致性的评估。让T型1和T型2表示两个相关的离散生存时间,并假设(T型1,T型2)集中在一个整体网格上{(我1,我2),我1= 1, …,米1,我2= 1, …,米2}. 生存时间(T型1,T型2)具有联合生存功能
和密度函数
.以下Oakes(1989)审查时间的分布(C类1,C类2)假设集中在电网上
避免审查和未审查观察之间的联系。联合生存函数(C类1,C类2)是
密度函数为
假设审查时间与生存时间无关。观察时间和审查指标为
和δj个=我(T型j个≤C类j个)的j个 = 1, 2. 观测数据包括
.
我们将重新分配的细胞概率定义为
是事件发生的概率(我1,我2)进行随机观察
.取决于审查状态
可以用联合生存函数来写S公司通过以下方式,
因此,概率
表示未经审查的观测的所有质量(我1,我2)和重分布质量(我1,我2)根据之前的审查观察。在下一个定理中,我们证明了再分配单元概率的期望
等于无条件单元格概率第页(我1,我2).
定理1:
,对于 我j个 = 1, …,米j个 和 j个 = 1, 2.
证明参见Web附录A。
基于定义的重新分配单元概率,我们提出了以下修正的加权kappa系数,以衡量(T型1,T型2),
哪里
和
。对于权重函数,我们建议使用二次权重,因为二次权重导致加权kappa系数和连续结果一致性度量之间的紧密联系,例如Lin的CCC(林,1989). 其他权重函数可以在同一框架下应用。
让
是n个随机观察。提出的修正加权kappa的样本估计是
哪里
是重分布细胞概率的样本估计量
在没有审查的情况下,
等价于Cohen加权kappa的样本估计。在存在截尾的情况下,二元生存函数的一个非参数估计
可用于计算
通过方程式(2)–(5)在本文中,我们通过Prentice–Cai估计量来估计修正的加权kappa
(普伦蒂斯和蔡,1992年)因为它被证明适用于大多数实际用途(Kalbfleisch和Prentice,2002年).
定理2:估计员
具有以下渐近统计特性 n个→∞:
证明参见Web附录B。
方差的解析表达式
在技术上具有挑战性,因为它涉及到
通过一个复杂的函数。我们建议使用bootstrap过程来一致估计
以及用于计算渐近置信区间。具体来说,我们随机抽样B类更换时间
从每个引导样本中,引导估计κ#获得。自举方差估计量是自举估计量κ的样本方差#b, b = 1, …B类对于κ的置信区间w个,我们使用bootstrap百分位置信区间,该置信区间将置信限定义为bootstrat样本估计的百分位。
2.3扩展到多个评级机构
在许多研究中,事件发生的时间是由两个以上的评分者或方法来衡量的。现在,我们将所提出的修正加权kappa推广到测量多变量离散生存时间之间的一致性。假设同一组受试者的生存时间由以下公式计算R(右)评分员(或方法)T型1, …,T型R(右).让{(我1, …,我R(右)),我j个 = 1, …,米j个,j个 = 1, …,R(右)}表示R(右)多维离散生存时间。生存时间(T型1, …,T型R(右))具有联合生存功能
.审查时间的分布(C类1, …,C类R(右))假设集中在电网上
具有生存功能
假设审查时间与生存时间无关。观测数据如下
具有
和δj个=我(T型j个≤C类j个)的j个 = 1, …,R(右).
将多元重分布单元概率定义为
衡量各方之间的一致性(T型1, …,T型R(右)),我们提出广义修正加权kappa,
遵守的协议P(P)o(o)和预期的协议P(P)e(电子)定义为
哪里
注意,在计算观察到的总体一致性时P(P)o(o),分配给的重量
是以下所有双变量子集的成对权重的平均值(我1, …,我R(右)).
广义修正加权kappaκw个克与成对修改的加权kappaκ密切相关w个定义于方程式(6).何时R(右) = 2,广义kappa化简为两两kappa。对于R(右)>2、广义kappa可以通过以下方式从成对的kappa计算,
哪里
是评分员之间的协议我1和我2这是偶然的,而且
评分员的成对修改kappa我1和我2因此,广义kappa是多个评分员之间所有成对kappa的加权平均值。在具有较高预期偶然一致性的评分者之间,对成对的kappa赋予更重的权重。
重新分配的细胞概率
和
可以用联合生存函数来表示S公司(t吨1, …,t吨R(右))及其低维边缘生存函数。因此,非参数估计
例如Prentice–Cai(1992)估计器,可用于计算
.然后可以通过替换来估计广义修正加权kappa
和
进入之内方程式8和(9)。使用与Web附录B中的参数类似的参数,我们可以证明估计器
具有定理2中给出的估计量的渐近性质
.
3.仿真研究
3.1双变量生存时间
在实践中,离散生存时间是通过两种机制产生的(Kalbfleisch和Prentice,2002年). 通常,当潜在的持续生存时间受到间隔审查时,会出现离散的生存数据。在其他情况下,时间可能确实是离散的,例如,怀孕时间是以女性怀孕前的月经周期数来衡量的。
拟议估计器的性能
使用两种机制生成的离散双变量生存时间进行评估。对于分组时间,我们首先从克莱顿模型生成连续时间(克莱顿,1978年). 我们假设T型1和T型2具有平均值为1的边际指数分布。因此,克莱顿模型的双变量生存函数为
以恒定的比值比
其中θ→∞表示独立性,θ→0表示最大正相关性。连续随机生存时间T型*j个,j个 = 然后将1、2分为五个区间:[一1,一2), [一2,一三), [一三,一4), [一4,一5), [一5,∞),离散生存时间定义为
在这里我是一个指示符变量。切入点一k个 (k个 = 1,…,5)的选择是为了
、和![公式](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/biometrics/65/1/10.1111_j.1541-0420.2008.01054.x/3/m_biometrics_65_1_125_mu62.gif?Expires=1722484746&Signature=UsmCZpnUwAYKzOkIs5s~aXbneI8oCim65yW8RokkzDZh5JpKo034O6twtZQWq7YwH3Ewmeo4vUwI3bEV9LBWfHO~m3yqlQsjcPeYv9esVrwFgXq6kro4B6L50lMaQ528vAYxGalaoTQ1gqkWqA9vrYYSfs3XrHlgB0WBPA9p9tE-b5VbFRG3TtopqlxQuPB~7VRNsCChgCaXKXbInXaQpvwi9zz4tofvhbymTvEubD5UaX6B1FIX7qbbCm~KOK3-dcS23krARHovodh7vG2aMNsVOvpFxU-IATqaccxTCDnEOZLpb089oebX6k9ElSwHA1p6eaoDRkaDLEZ36PVNlA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
我们通过在克莱顿模型中指定三个不同的θ参数(θ=0.95、0.5和0.25),考虑了三组模拟。三个Clayton模型的真实加权kappa系数分别为0.472、0.651和0.804,代表中度、实质性和几乎完全一致(兰迪斯和科赫,1977年). 对于每组模拟,我们生成了50、100或200对离散生存时间。审查变量(C类1,C类2)独立于生存时间和彼此。假设每个审查变量都遵循多项式分布,该分布的值为
有可能
考虑了三种情况:(1)
(0.05,0.05,0.05,0.05,0.80),导致审查比例为10%;(2)
(0.1、0.15、0.25、0.2、0.3),导致审查比例为30%;和(3)
(0.2、0.3、0.3、0.17、0.03),审查比例为50%。
我们还使用离散克莱顿模型生成的真实离散生存数据进行了模拟研究(Shih,1998年). 离散生存时间T型j个,j个 = 1,2取1,…,5中的值,边际概率分别为0.15,0.2,0.3,0.2和0.15。考虑了恒定局部比值比的三个值,使得三个离散Clayton模型的真实加权kappa系数分别为0.472、0.651和0.804。截尾变量由多项式分布生成,截尾比例分别为10%、30%和50%。
使用bootstrap程序评估kappa估计量的方差。作为与所提方法的比较,我们考虑了当前可用的替代方法,该方法不考虑删失观测值,并基于基于模拟数据集中完整观测值计算的经验二元分布估计样本kappa。
给出了基于分组时间和真正离散时间的仿真结果表1和2分别是。结果基于500次模拟运行。样本平均值和样本标准偏差
给出了基于200个自举样本的自举标准误差估计的平均值。发件人表1我们可以看到,修正后的加权kappa估计在低、中删失率下显示出较小的偏差,但在重删失下显示出向下的偏差。然而,偏差随着样本量的增加而减小。发件人表2随着截尾次数的增加,估计量有向下的偏差,但随着样本量的增加,偏差再次减小。在这两个表中,拟议估计器的自举标准误差的平均值非常接近估计值的标准偏差。对于分组时间(表1),在低截尾和中等截尾情况下,该估计量的覆盖概率接近标称水平,但在重截尾条件下,其覆盖概率较低。对于真正离散的时间(表2),在所有情况下,覆盖概率都接近标称水平,除非数据具有较小的样本量和严重的删失。在这两个表中,我们提出的kappa估计量与基于完全观测的kappo样本估计量相比,具有显著较小的偏差和较高的覆盖概率。
来自的模拟结果之间的比较表1和2结果表明,对于真正离散的生存时间,所提出的kappa估计器的性能通常优于分组时间。对于分组时间,kappa估计在小样本量下表现出复杂的模式;例如,对于低截尾,估计器似乎有向上的偏差,但对于重截尾,估计器似乎有向下的偏差。解释是,在基于分组生存时间估计kappa系数时,有两个偏差来源。偏差的第一个来源是审查。对于中等到重度审查,该方法低估了kappa。分组时间和真正离散的时间都存在审查导致的偏差。第二个偏差来源仅存在于分组时间,这是由于根据连续生存模型生成的分组数据估计离散的双变量分布。为了证明分组导致的偏差,我们在没有审查的情况下生成了分组时间和真正离散的生存时间,并评估了估计的离散双变量分布和kappa估计中的偏差。中的结果表3结果表明,对于真正离散的时间,偏差可以忽略不计,但对于小到中等样本量的成组生存时间,偏差是显著的。更具体地说,我们发现,对于分组时间,估计的离散分布往往在对角线上被高估,即(T型1,T型2) 秒.t吨.T型1=T型2,并且在非对角线上有负偏差(从其他双变量生存函数(如Gumbel模型)分组连续时间时也观察到类似的趋势)。因此,在没有审查的情况下,分组数据的估计kappa是正偏差的。基于分组数据的离散分布估计导致的额外变异源导致基于分组生存时间的kappa估计准确性降低。此外,这两个偏差源具有相反的方向,导致kappa估计量中的复杂模式,且分组时间在小样本中。在存在光审查(10%)的情况下,由于分组而产生的正偏差占主导地位,因此kappa估计值向上偏移。当审查比例增加时,由于审查而产生的负偏差变得更加突出,因此kappa估计显示出向下偏差。然而,审查和分组偏差都随着样本量的增加而减小。我们的模拟研究使用了更多样本大小的场景(Web表1)结果表明,对于较大样本量的成组生存时间,该估计器表现出了良好的性能。
κw个克. | 样本大小. | 分组生存时间一. | 真正离散的生存时间b. |
---|
. | 估计的离散联合分布中的偏差(%)*. | . | 估计的离散联合分布中的偏差(%)*. |
---|
0.472 | 50 | 0.518 | 19.4 | 0.469 | 3.8 |
| 100 | 0.507 | 13.5 | 0.470 | 2.7 |
| 200 | 0.483 | 4.8 | 0.471 | 1.4 |
| 1000 | 0.475 | 2.6 | 0.473 | 0.4 |
0.651 | 50 | 0.686 | 17.8 | 0.651 | 4.2 |
| 100 | 0.678 | 12 | 0.650 | 2.5 |
| 200 | 0.659 | 5.6 | 0.651 | 2 |
| 1000 | 0.654 | 2.7 | 0.651 | 0.9 |
0.804 | 50 | 0.825 | 26.8 | 0.801 | 6.3 |
| 100 | 0.818 | 14.7 | 0.802 | 7.7 |
| 200 | 0.808 | 9.5 | 0.804 | 3.9 |
| 1000 | 0.806 | 8.1 | 0.804 | 2.3 |
κw个克. | 样本大小. | 分组生存时间一. | 真正离散的生存时间b. |
---|
. | 估计的离散联合分布中的偏差(%)*. | . | 估计的离散联合分布中的偏差(%)*. |
---|
0.472 | 50 | 0.518 | 19.4 | 0.469 | 3.8 |
| 100 | 0.507 | 13.5 | 0.470 | 2.7 |
| 200 | 0.483 | 4.8 | 0.471 | 1.4 |
| 1000 | 0.475 | 2.6 | 0.473 | 0.4 |
0.651 | 50 | 0.686 | 17.8 | 0.651 | 4.2 |
| 100 | 0.678 | 12 | 0.650 | 2.5 |
| 200 | 0.659 | 5.6 | 0.651 | 2 |
| 1000 | 0.654 | 2.7 | 0.651 | 0.9 |
0.804 | 50 | 0.825 | 26.8 | 0.801 | 6.3 |
| 100 | 0.818 | 14.7 | 0.802 | 7.7 |
| 200 | 0.808 | 9.5 | 0.804 | 3.9 |
| 1000 | 0.806 | 8.1 | 0.804 | 2.3 |
κw个克. | 样本大小. | 分组生存时间一. | 真正离散的生存时间b. |
---|
. | 估计的离散联合分布中的偏差(%)*. | . | 估计的离散联合分布中的偏差(%)*. |
---|
0.472 | 50 | 0.518 | 19.4 | 0.469 | 3.8 |
| 100 | 0.507 | 13.5 | 0.470 | 2.7 |
| 200 | 0.483 | 4.8 | 0.471 | 1.4 |
| 1000 | 0.475 | 2.6 | 0.473 | 0.4 |
0.651 | 50 | 0.686 | 17.8 | 0.651 | 4.2 |
| 100 | 0.678 | 12 | 0.650 | 2.5 |
| 200 | 0.659 | 5.6 | 0.651 | 2 |
| 1000 | 0.654 | 2.7 | 0.651 | 0.9 |
0.804 | 50 | 0.825 | 26.8 | 0.801 | 6.3 |
| 100 | 0.818 | 14.7 | 0.802 | 7.7 |
| 200 | 0.808 | 9.5 | 0.804 | 3.9 |
| 1000 | 0.806 | 8.1 | 0.804 | 2.3 |
κw个克. | 样本大小. | 分组生存时间一. | 真正离散的生存时间b. |
---|
. | 估计的离散联合分布中的偏差(%)*. | . | 估计的离散联合分布中的偏差(%)*. |
---|
0.472 | 50 | 0.518 | 19.4 | 0.469 | 3.8 |
| 100 | 0.507 | 13.5 | 0.470 | 2.7 |
| 200 | 0.483 | 4.8 | 0.471 | 1.4 |
| 1000 | 0.475 | 2.6 | 0.473 | 0.4 |
0.651 | 50 | 0.686 | 17.8 | 0.651 | 4.2 |
| 100 | 0.678 | 12 | 0.650 | 2.5 |
| 200 | 0.659 | 5.6 | 0.651 | 2 |
| 1000 | 0.654 | 2.7 | 0.651 | 0.9 |
0.804 | 50 | 0.825 | 26.8 | 0.801 | 6.3 |
| 100 | 0.818 | 14.7 | 0.802 | 7.7 |
| 200 | 0.808 | 9.5 | 0.804 | 3.9 |
| 1000 | 0.806 | 8.1 | 0.804 | 2.3 |
3.2多变量生存时间
在本节中,我们通过对连续时间分组获得的离散三变量生存时间的模拟研究,评估了广义修正加权κ系数的性能。连续三变量生存时间是由具有单位指数边缘的连续多变量Clayton模型生成的,
然后通过将连续时间分组为间隔来创建离散生存时间。使用与双变量模拟中相同的θ参数考虑了三组模拟。我们认为样本大小为100、200和350。表4提供了三变量模拟研究的统计信息摘要。广义修正加权kappa系数的估计与双变量修正kappa的估计表现出相似的性能。
4.示例
前列腺癌是美国男性最常见的癌症。根据患者的人口统计学和疾病特征,可提供各种治疗。治疗和监测前列腺癌的一个主要困难是缺乏治疗后疾病自由的标准定义。人们普遍认为,治疗后疾病状态反映在前列腺特异性抗原(PSA)中,高水平PSA表明复发。然而,对于确定疾病复发的PSA水平的确切模式,并没有普遍的共识。针对不同的治疗提出了不同的定义,基于这些定义的无病生存率被用作医生选择治疗的重要指导。由于无病生存率在很大程度上取决于无病定义,定义之间的潜在差异可能导致关于治疗效果的不同结论。因此,在比较不同定义得出的无病生存率之前,评估不同定义之间的一致性非常重要。
根治性前列腺切除术和放射治疗是前列腺癌常用的两种治疗方法(Critz、Tarlton和Holladay,1995年). 对于根治性前列腺切除术,疾病自由度的定义是达到并保持不可检测的PSA最低值,范围为0.2 ng/ml至0.5 ng/ml(Critz等人,1996年). 对于辐照,根据美国放射肿瘤治疗学会(ASTRO)共识标准(1997年)治疗后的疾病自由度表现为PSA未升高,PSA升高定义为间隔6个月测量的连续三次PSA升高。多年来,这两种治疗方法的无病率一直存在争议。一些研究人员声称,放射治疗比根治性前列腺切除术治愈的患者更少,而另一些人则认为这两种治疗方法同样有效(Critz等人,1996年). 为了建立两种治疗方法之间无病生存率的可比性,研究人员(Critz等人,1996年)有兴趣研究两种疾病自由定义之间的一致性。此外,不同协变量亚组之间一致性强度的潜在差异也令人感兴趣。
在这项研究中,1305名前列腺癌患者通过将碘125前列腺植入物与后续的外照射相结合,接受了同步照射。外照射治疗后每6个月对所有受试者的病情进行评估。生存时间被定义为从照射结束到前列腺癌复发所经过的时间,这是根据两个不同的定义确定的。明确地,T型*1是患者治疗后PSA水平超过最低值0.2 ng/ml的时间,而T型*2基于ASTRO定义,表示照射后PSA达到最低值的时间与PSA水平连续三次升高中的第一次出现的时间之间的中点。生存时间以月为单位进行测量。由于对一名患者的随访结束,这两个癌症复发时间受到审查。在研究期间,156名受试者根据这两个定义都经历了前列腺癌复发,64名受试人根据其中一个定义经历了癌症复发,约占审查的80%。基于这两种定义的观测时间之间的绝对差异在0到108个月之间,平均值为1.9个月。
在前列腺癌研究中,癌症复发时间是以离散的方式收集的,因为受试者仅每6个月评估一次。因此,建议的修正kappa可用于评估两种定义测量的癌症复发时间之间的一致性。由于事件稀少,我们将生存时间分组T型*1和T型*2分为五个间隔:不超过30个月、31–60个月、61–90个月、91–162个月和>162个月中,由此产生的离散生存时间表示为T型1和T型2.在不丧失通用性的情况下,T型j个 = 1、2、…、5用于j个 = 1、2,对应五个时间间隔。二次加权函数的估计修正kappa为0.842,bootstrap SE为0.021(基于200个bootstrat样本)。基于bootstrap样本估计值的2.5%和97.5%经验百分位数,修正加权kappa系数的95%置信区间为(0.798,0.882)。因此,在前列腺癌数据中,通过这两种定义测量的复发时间之间存在着相当强的一致性。由于对前列腺数据进行了大量的删失,我们进行了一项模拟研究,以确认我们提出的方法在这种情况下的适用性。我们评估了样本量为1300且删失比例为80%的kappa估计量的性能,这是与前列腺数据示例类似的设置(见Web表2)对于所有kappa水平,所提出的估计器在重截尾率下表现得相当好。更具体地说,对于κ=0.804,它代表了与我们的数据相似的一致性强度,kappa估计的偏差约为6%,覆盖概率接近90%(Web表2).
作为另一种方法,我们还使用Lin的CCC(Lin,1998)测量了两个定义之间的一致性,处理了未分组的数据T型*j个(j个 = 1,2)作为连续生存时间。一个非参数估计(Guo和Manatunga,2007年)用于容纳审查后的观察结果。未分组数据的CCC估计值为0.792,非常接近分组数据的修正kappa估计值。在这两种情况下,我们得出结论,基于前列腺癌数据中的两个定义,癌症复发时间之间有很强的一致性。
5.讨论
在本文中,我们建议将科恩(1968)衡量离散生存时间之间一致性的加权kappa系数。据我们所知,之前还没有将kappa系数调整为生存结果的工作。为了适应截尾观察,我们首先估计两个生存时间的联合生存函数,然后将截尾观察的质量重新分配给那些可能发生未观察事件的细胞。该方法的一个关键假设是,截尾分布与联合生存函数无关。这种假设确保了可以根据估计的生存函数适当地重新分配删失观测的质量。在生存函数的各种估计中,我们选择普伦蒂斯和蔡氏(1992)估计器,因为它对于大多数实际用途来说都是足够的,并且比许多替代方案更有效(Kalbfleisch和Prentice,2002年). 此外,Prentice–Cai估计量可以合并单变量和双变量审查,这比仅适用于单变量审查的估计量更具优势(Lin和Ying,1993年;蔡和克劳利,1998年).
提出的修正加权kappa用于测量离散生存时间之间的一致性。然而,在某些情况下,它对持续结果也很有用;例如,当生存时间是以离散的方式实际测量的,或者当事件在原始连续时间尺度上过于稀疏时。在这些情况下,可以离散连续时间,并应用所提出的修正加权kappa来衡量分组生存时间之间的一致性。我们建议使用几个离散化准则。如果可能,我们建议将生存时间分组为与临床解释相关的实际有意义的间隔。例如,糖尿病发病时间可分为青少年、成人和老年糖尿病。第二个准则是离散化应捕获观测事件的经验分布,以便离散生存时间的分布能够合理地表示潜在的连续生存分布。例如,不希望将大多数观察到的事件分组为几个间隔,而其余间隔为空。在这种情况下,估计的修正加权kappa是基于列联表中的几个非空单元格计算的,因此可能无法正确反映原始时间之间的一致性。最后,我们建议将最后一次观察到的事件之后的时间分组为一个或两个间隔,其中最后一个间隔要么是单侧的,要么是在可能发生相关事件的最大时间点结束的。在实践中,不同的离散化不可避免地影响估计kappa的大小,因为已知kappa依赖于边际分布(库克,1998年). 上述指南可以帮助估计的kappa正确反映原始生存时间之间的一致性。或者,可以使用为连续刻度定义的一致性度量。持续成果的一个流行协议指数是CCC(林,1989). 针对生存时间,提出了一种CCC的非参数估计方法,该方法能够适应截尾观测(Guo和Manatunga,2007年).
修正加权kappa和广义修正加权kapba的建议估计在低到中等截尾下的性能令人满意。在重截尾下,估计更具偏差,在中小型样本中的覆盖概率相对较低。随着样本量的增加,估计器的性能得到了提高。需要指出的是,由于生存函数的右尾很难估计,基于生存函数构造的统计量的估计偏差在重截尾情况下是不可避免的。例如,林和英(1993)在存在严重删失的情况下估计两个生存时间之间的相关系数时注意到的偏差。
当两个生存时间测量值之间的一致性较差时,我们可以评估列联表中观察到的事件的经验分布,以找出不一致的原因;例如,如果建议的kappa是基于从连续时间分组的离散生存时间计算的。人们可能想通过遵循我们上面提出的建议准则来检查当前的离散化是否合适,以及在选择更合适的离散化时是否会改进一致性。当研究人员有兴趣调整两个测量值以减少它们之间的差异时,尤其是当一个测量值与另一个测量结果始终存在偏差时,对分歧原因的评估可以提供有用的信息。
正如一位评论家指出的,所提出的一致性方法可能对多时间尺度问题有用。在许多生存研究中,可以使用多种看似合理的量表来测量事件发生的时间。通常,第一个时间刻度是一个失败主题的原始时间或年龄。第二种替代时间尺度基于时变协变量,例如使用或暴露度量,通常被视为操作时间。一个经典的例子是,汽车的寿命可以通过其年龄或行驶里程来衡量。在多时间尺度问题中,第一个时间尺度很容易定义,而操作时间尺度的定义通常不明显。现有方法(《永别了,考克斯》,1979年;奥克斯,1995年;Kordonsky和Gertsbakh,1997年;公爵夫人和劳利斯,2000年)目的选择一个时间尺度,以“捕获”给定时间相关协变量的故障时间中的大多数变化。公爵夫人和劳利斯(2000)已经证明,方差平方系数最小的时间尺度是某些生存分布族中的理想时间尺度。与现有方法相比,我们提出的一致性方法有助于确定一个理想的时间尺度,该尺度与测量感兴趣事件的原始时间尺度等效。我们提出了以下方案:首先,在存在自然或有意义网格的时间尺度上固定分区。其次,划分操作时间的范围,并使用改进的加权kappa度量两个离散时间尺度之间的一致性。对不同的分区重复第二步,并选择使修改后的加权kappa最大化的时间尺度。然后,可以使用与原始时间刻度最一致的理想刻度来解释与操作时间刻度相关的风险,以及与时间刻度相关联的风险。
6.补充资料
第2、3和4节中引用的Web附录和表格可在生物计量学网站http://www.biometrics.tibs.org.
致谢
我们感谢审稿人、副主编和主编的宝贵意见,这些意见使原稿有了实质性的改进。这项工作得到了NIH拨款R01-MH079448-01的支持。
工具书类
美国放射治疗和肿瘤学会共识小组
. (1997
).共识声明:放射治疗后PSA指南
.国际放射肿瘤学、生物学、物理学杂志
37
,1035
–1041
.奇凯蒂
,直流电。
和艾利森
,T。
(
1971
).一种评估脑电图睡眠记录评分可靠性的新方法
.美国脑电图技术杂志
11
,101
–109
.克莱顿
,D.G.公司。
(
1978
).双变量生命表的关联模型及其在慢性病家族倾向流行病学研究中的应用
.生物特征
65
,141
–151
.科恩
,J。
(
1960
).标称刻度的一致系数
.教育和心理测量
20
,37
–46
.科恩
,J。
(
1968
).加权kappa:名义规模协议,提供规模分歧或部分信贷
.心理学公报
70
,213
–220
.厨师
,R·J。
(
1998
). Kappa及其对边际利率的依赖性。在生物统计学百科全书
,第页。
阿米蒂奇
和T。
科尔顿
(编辑),2166
–2168
.纽约
:威利
.克里茨
,联邦航空局。
,塔尔顿
,钢筋混凝土。
、和荷兰
,D.A.博士。
(
1995
).前列腺特异性抗原监测联合放射治疗前列腺癌
.癌症
75
,2383
–2391
.克里茨
,联邦航空局。
,莱文森
,K。
,威廉姆斯
,W.H.公司。
、和荷兰
,D.A.博士。
(
1996
).前列腺特异性抗原nadir:前列腺癌放疗后的最佳水平
.临床肿瘤学杂志
14
,2893
–2900
.公爵夫人
,T。
和无法无天的
,J。
(
2000
).替代时间尺度和故障时间模型
.终身数据分析
6
,157
–179
.再会
,V.T.公司。
和考克斯
,D.R.公司。
(
1979
).关于寿命试验中多时间尺度的注记
.应用统计学
28
,73
–75
.弗莱斯
,J.L公司。
(
1971
).衡量许多评分员之间的名义规模一致性
.心理学公报
76
,378
–382
.弗莱斯
,J.L公司。
和科恩
,J。
(
1973
).加权kappa和类内相关系数作为可靠性度量的等价性
.教育和心理测量
33
,613
–619
.郭
,年。
和马纳通加
,答:K。
(
2005
).基于kappa系数的离散双变量生存时间一致性建模
.终身数据分析
11
,309
–332
.郭
,年。
和马纳通加
,答:K。
(
2007
).单变量删失下一致相关系数的非参数估计
.生物计量学
,63
,164
–172
.卡尔布弗雷希
,J·D·。
和普伦蒂斯
,共和国。
(
2002
).失效时间数据的统计分析。
新泽西州霍博肯
:约翰·威利父子公司
.国王
,T.秒。
和青椒
,V.米。
(
2001
).连续和分类数据的广义一致相关系数
.医学统计学
20
,2131
–2147
.克拉尔
,N。
,利普希茨
,S.R.公司。
、和易卜拉欣
,J。
(
2000
).kappa建模的估计方程方法
.生物医学杂志
42
,45
–58
.科尔登斯基
,英国。
和格茨巴赫
,一、。
(
1997
).多时间尺度和寿命变化系数:工程应用
.终身数据分析
三
,139
–156
.Korten公司
,答:E。
,乔姆
,A.F.公司。
,亨德森
,A.S.公司。
,麦库斯克
,E.公司。
、和折痕
,H。
(
1992
).阿尔茨海默病病例对照研究中暴露史的控制效应一致性
.国际流行病学杂志
21
,1121
–1131
.克莱默
,高压断路器。
(
1980
).卡伯系数的扩展
.生物计量学
36
,207
–216
.兰迪斯
,J.R.公司。
和科赫
,G.G.公司。
(
1977
).类别数据的观察者一致性度量
.生物计量学
33
,159
–174
.林
,D.Y.博士。
和应
,Z.公司。
(
1993
).一元删失下二元生存函数的一个简单非参数估计
.生物特征
80
,573
–581
.林
,拉丁美洲。
(
1989
).用于评估再现性的一致性相关系数
.生物计量学
45
,255
–268
.麦克卢尔
,M。
和威利特
,西海岸。
(
1987
).kappa统计的误解和误用
.美国流行病学杂志
126
,161
–169
.橡树
,D。
(
1989
).脆弱性诱发的双变量生存模型
.美国统计协会杂志
84
,487
–493
.橡树
,D。
(
1995
).生存分析中的多个时间尺度
.终身数据分析
1
,7
–18
.普伦蒂斯
,共和国。
和蔡
,J。
(
1992
).基于截尾多变量失效时间数据的协方差和生存函数估计
.生物特征
79
,495
–512
.施
,J.H。
(
1998
).多元离散故障时间数据建模
.生物计量学
54
,1115
–1128
.济
,W.Y.公司。
和克劳利
,J。
(
1998
).关于单变量删失下二元生存函数非参数估计的一个注记
.生物特征
85
,573
–580
.威廉姆森
,J·M·。
,马纳通加
,答:。
、和利普希茨
,S.R.公司。
(
2000
).测量依赖性分类一致性数据的kappa模型
.生物统计学
1
,191
–202
.
©2008,国际生物识别学会