总结

本文概述了风险调整图表,并以两组数据为例:第一组数据包括心脏手术后的结果和影响Parsonnet评分的患者因素;第二个是一名全科医生的年龄-性别调整死亡率。给出的图表包括累积和(CUSUM)、重置序列概率比检验、集合方法和休哈特图。对图表进行了比较。还讨论了工艺参数的估计和双面图。在平均运行长度(ARL)标准下,CUSUM被发现是重置顺序概率比测试类图表中效率最低的,但ARL标准被认为不适合在该类中进行比较。对于二进制数据,集合方法和CUSUM的经验比较表明,当控制中的ARL较小时,集合方法更有效,而当测试的参数变化较大时,对于控制中的范围稍大的ARL,集合方法则更有效。Shewart家族第页-即使测试的参数变化很大,图表的效率也不如CUSUM。

1引言

质量控制起源于工业环境,快速检测问题对效率至关重要。控制图,如休哈特图和累积和(CUSUM)图,是该方法的主要统计工具,自20世纪20年代以来一直用于监控自动化过程。最近,有人建议,此类监测计划可用于监测临床从业者(如外科医生和全科医生)的绩效(德莱瓦尔等。1994年;洛夫格罗夫等。, 1997, 1999;波罗涅基等。, 1998;斯坦纳等。2000年;Spiegelhalter公司等。, 2003).

与工业过程中的“受试者”(原料)在性质上可能相对同质不同,在医疗应用中,受试者(患者)在基线风险方面通常会有很大差异。如果在监测外科医生的表现时没有考虑基线患者风险的异质性,则由于该异质性导致的结果的额外可变性可能掩盖外科医生的基本表现的影响,并导致图表产生假警报或对表现的变化没有快速响应。此类风险调整(患者病例组合调整)已在累计观察-预期(O–E)曲线图中实施洛夫格罗夫等。(1997年、1999年)波罗涅基等。(1998)、CUSUM图表(斯坦纳等。2000年;Spiegelhalter公司等。, 2003),重置顺序概率比测试(RSPRT)图表(Spiegelhalter公司等。, 2003)、休哈特图表(厨师等。, 2003)和sets方法(《格里格与永别》,2004年).

1.1. 示例数据

整个过程中使用了两个示例数据集。第一个是基于1992年至1998年期间收集的心脏手术中心的数据。数据包括手术后30天的死亡率、年龄、性别、手术类型、糖尿病状态以及根据前四个变量加上其他变量计算的Parsonnet评分(参见帕森特等。(1989)). 下面详细讨论了使用风险调整CUSUM监控数据斯坦纳等。(2000).

这里,只讨论了其中一位外科医生的患者的相关数据。通过使用与手术失败概率和患者因素相关的逻辑回归模型来考虑患者风险,即根据患者的特征,使用模型预测患者在手术后30天内死亡的风险。如中所示斯坦纳等。(2000)利用1992-1993年的数据拟合模型建立图表,对1994-1998年的数据进行回顾性监测。从1994年开始,平均故障率假定为0.066。通过使用向后消去法选择模型,导致帕森特分数成为唯一包含的因素。由于帕森纳得分是基于其他因素的衡量标准,因此与其他因素高度相关,这并不奇怪。

在本例中,由于数据是二进制的,因此作为监控基础的自然参数是失败的概率。可接受的绩效水平是指逻辑回归模型所反映的绩效水平。相对于模型,偏离这一绩效水平的定义是所有患者的死亡率普遍增加或减少。因为在这种情况下,早期发现问题至关重要,所以除了Shewhart之外,我们还举例说明了如何对患者进行监控第页-图表中每79名患者更新一次(根据培训数据,一名典型外科医生大约需要6个月的手术时间)。

第二个例子是基于1987年至1998年期间,单一全科医生哈罗德·希普曼(Harold Shipman)的患者每年的死亡人数。一项公共调查得出结论,希普曼在23年内至少杀害了215名患者,每年死亡人数超过9名(2002年希普曼调查).

监测图表基于每年死亡人数是泊松分布的假设。特定类型患者可接受的“风险”水平t吨(男性或女性;年龄在45岁以下、45-64岁、65-74岁、75-84岁或84岁以上)被视为英格兰和威尔士该类型患者的年平均死亡率,如下所示贝克(2001)。这乘以类型的患者数量t吨在希普曼的实践中,给出假定泊松分布的预期计数。未经风险调整的图表将假设每个患者的风险等于英格兰和威尔士所有类型患者的平均发病率的加权平均值。假设1987年至1998年期间可接受的利率保持不变。不过,原则上,我们可以预测利率的趋势,并允许预期利率随时间变化。

例如2,由于数据是计数,因此监测的自然参数是每年的利率(或风险)。零利率是指根据Shipman护理下患者的年龄-性别分布调整后的英格兰和威尔士的利率。偏离这一水平被定义为所有患者死亡风险的增加或减少。由于假设利率是泊松分布的,因此可以将其合并为一个利率。

2偏离模型:观察到-预期图

风险调整后的O–E曲线由两人绘制波罗涅基等。(1998)(他们将其命名为累积风险调整死亡率图)和洛夫格罗夫等。(1997年)(他们称之为可变寿命调整显示图)。

图1将未调整的O–E图与风险调整的O-E图进行比较。该图表基于示例数据集1,其中患者的结果是一个二进制指标Y(Y)t吨患者是否t吨心脏手术后存活30天。未经调整的曲线图假设所有患者的死亡风险值相同第页(患者类型的平均风险),并绘制一段时间内t吨第页相比之下,调整后的O–E图显示了随着时间的推移t吨第页t吨,其中第页t吨是根据logistic回归模型估计的死亡风险。

心脏外科医生手术结果的O–E图(1994–1998):--,未经调整;----,风险调整后
图1

心脏外科医生手术结果的O–E图(1994–1998):--,未经调整;----,风险调整后

未经风险调整的情节表明,外科医生的表现比风险调整后的版本要差得多。这是因为许多手术都是针对高危患者。只有考虑到这一点,我们才能准确评估外科医生的表现。

图2显示了1987-1998年期间示例2数据的风险调整O–E图。图中还显示了75岁及以上女性的可比图。这里的风险调整是指对Shipman下观察到的利率进行比较针对每类患者相应的预期费率基于英格兰和威尔士的费率。在该图中,这对应于一个简单的调整,该调整是通过计算哈罗德·希普曼(Harold Shipman)实践中患者组合的年龄和性别调整率,然后多年平均得出一个在整个图表中使用的单一比率来进行的。在所有患者的图表中,这是每年35例死亡,而在75岁以上的女性图表中,则是每年12例死亡。近年来死亡率的迅速上升是显而易见的。总体死亡率的增加似乎主要归因于75岁以上女性的死亡率上升;特别是1989年和1993年,计算出的总超额完全是由于75岁以上女性死亡人数的超额。

哈罗德·希普曼(1987–1998)的O–E死亡曲线图,其中预期值基于英格兰和威尔士的平均值:--,所有患者;----,75岁及以上女性
图2

哈罗德·希普曼(1987–1998)的O–E死亡曲线图,其中预期值基于英格兰和威尔士的平均值:--,所有患者;----,75岁及以上女性

累积O–E统计数据代表了一种直观有用的方式来表示随时间推移的性能。然而,这种类型的图并不是确定是否以及何时应发出警报的最自然的图。CUSUM和RSPRT图表类似于O–E图,设计时考虑到了这一目的。

3重置顺序概率比测试和累积和图

RSPRT和CUSUM图表均来自Wald顺序概率比测试(SPRT)(瓦尔德,1945年). SPRT是对假设的顺序测试H(H)0另一种选择H(H)1检验统计量为对数似然比X(X)t吨赞成H(H)1累计数据的t吨。的值X(X)t吨可以表示为

X(X)t吨=X(X)t吨1+t吨,t吨=1,2,,
(1)

哪里X(X)0=0和t吨是单个数据点的对数似然比t吨.

SPRT终止时支持假设H(H)0如果下边界与近似的I类错误率交叉α并且赞成H(H)1如果上边界b条与近似的II类错误率交叉β,其中

=日志(β1α),b条=日志(1βα).
(2)

如果数据包含风险信息,则可以通过可能性在测试中考虑这一点。例如1,将30天死亡率与Parsonnet评分相关联的风险模型t吨被认为是

罗吉特(第页第页)=3.67+0.077第页,第页=1,2,,,
(3)

哪里第页第页是患者类型的概率第页手术后30天内失败。假设如下H(H)0:第页第页0=第页第页H(H)1:第页第页1=卢比第页/{1+(R(右)−1)第页第页},第页= 1,2, …,。如果假设数据为伯努利分布,则SPRT的对数似然比应为

t吨=日志{第页第页1t吨(1第页第页1)1t吨第页第页0t吨(1第页第页0)1t吨}
(4)

哪里t吨结果是t吨第个病人。

例如2,如果我们λ=Σ=110λ是所有类型患者的综合死亡率(其中λ是类型为的患者的费率,=1,2,…,10),并将假设定义为H(H)0:λ0=λH(H)1:λ1=R(右)λ则(假设数据为泊松分布),SPRT的对数似然比为

t吨=日志{λ1t吨经验(λ1)λ0t吨经验(λ0)}.
(5)

3.1. 累计和图表

CUSUM(严格来说表格的CUSUM)由开发页码(1954)与Wald SPRT一样,绘制了累积对数似然比,但在这种情况下H(H)0被视为无效假设。因为图表的目的是持续监测,而不是进行单一的显著性检验,所以接受零假设毫无意义。图表被阻止跨越下限并接受假设H(H)0通过更换位于保持屏障为0。

对于CUSUM,数据截至(包括)时间的累积对数似然比t吨可以写为

X(X)t吨=最大值(0,X(X)t吨1+t吨),t吨=1,2,,,
(6)

其中,对于SPRT,X(X)0=0和t吨是单个数据点的对数似然比t吨。当X(X)t吨>小时,其中小时定义绘图的上边界。此时,预计将停止监测并采取补救措施。

SPRT的性能由其标称错误率决定αβ而CUSUM图表的效率是根据报警(假报警或真报警)出现之前的时间长度进行量化的。检测报警的平均运行长度(ARL)是一个方便且通用的标准,用于评估CUSUM的性能。进程处于状态时要检测的ARLH(H)0称为控制中ARL,这类似于SPRT的I类错误率。失控ARL类似于SPRT的II型错误率。通常,通过设置边界来固定受控ARL小时然后测量具有相同边界的图表的失控ARL。

3.2、。重置顺序概率比测试图

一种更灵活的图表类别是RSPRT图表,其中包括作为特例的CUSUM,由斯皮格尔哈尔特等。(2003)并由详细讨论格里格等。(2003)这些,如CUSUM,也基于SPRT,但不是在0处具有较低的保持屏障,而是在0处有较低的高弹性(或重置)屏障即,当下边界到达时,图表重置为0并继续监视。因此,其中CUSUM可视为一系列SPRT,其下边界为0,上边界为小时,RSPRT可视为一系列SPRT,其下边界位于上边界位于b条。因此,CUSUM是带有= 0.

请注意,障碍(,b条)可以由参数定义(α*,β*)通过方程式(2),更换αβ具有α*β*分别是。这对(α*,β*)是简单的参数,是为了方便而选择的,与非复位SPRT不同,与I型和II型错误率无关αβ在图表中。因为图表会重置,直到越过上边界,所以RSPRT的实际I类错误率和II类错误率实际上分别为1和0。

3.2.1. 优化α*β*重置顺序概率比测试的参数

有无数对(α*,β*)(由定义方程式(2)哪里≈0和b条小时)提供与具有控制限制的CUSUM相同的控制中ARL小时,但只有一小部分(边界接近(0,小时))具有相同的失控ARL。但是,请注意,有些RSPRT图的失控ARL小于具有相同受控ARL的CUSUM。本质上,可以通过具有相对较低的上限来实现较小的失控ARLb条其绝对值小于下边界。此特性是在以下情况下实现的β*被选为与之相比非常小的α*.

考虑到示例数据1,图3显示,对于设计用于检测30天死亡率加倍概率的风险调整RSPRT,失控ARL如何因各种选择而变化(α*,β*)所有配对患者的控制ARL约为6700名患者,相当于大约6年的手术时间。失控ARL,与所选点一起给出(α*,β*),随着增加而减少α*和减少β*.

给定6700名患者的控制内ARL,配对(α*,β*)的失控ARL变化:监测心脏外科医生的RSPRT(示例1)(α*和β*通过方程(2)定义与a和b相关的参数,与图表中的真实错误率α=1和β=0无关)
图3

成对ARL失控的变化(α*,β*)对6700名患者进行ARL控制:RSPRT监测心脏外科医生(例1)(α*β*定义的参数与b条通过方程式(2)与真实错误率无关α=1和β=图表的0)

拥有的问题α*相对于设置高β*即具有下边界比上边界更极端b条这使得在图表中建立大量“信贷”成为可能。因此,与持有壁垒为0的CUSUM不同,RSPRT图表可能会累积信用,直至达到跨越下限所需的金额。

如果流程从监控开始就没有失控,那么这个信用就是一个问题,因为如果替代假设H(H)1这是真的,但更确切地说,在实施了一段时间的监控之后,它就失去了控制。例如,假设在心脏手术的例子中,1900名患者的30天死亡率增加了一倍(控制中的跑步长度分布的下四分位数)。把这个假设称为H(H)2.表1给出了赔率变化后的失控ARLH(H)1,当变化立即发生时H(H)2,适用于各种配对(α*,β*≡ (,b条)). 给出了相应的标准偏差。结果来自1000次运行的模拟。表1显示ARLH(H)2较高的图表更大α*和低β*而不是低α*和高β*,尽管低于H(H)1这是另一种情况(如下所示图3). 标准偏差的增加H(H)2,以及(不太明显)H(H)1,作为α*增加显示图表中α*跑步长度的可变性比那些低α*有鉴于此,当RSPRT图用于常规监测时,最小化失控ARL不是一个明智的优化标准。

表1

假设下ARL和游程标准偏差的比较H(H)1(几率=2)和H(H)2(1900次观察后的赔率=2)(α*,β*) ≡ (,b条)对照ARL 6700名患者(实施例1数据)

α*β*b条ARL公司标准偏差
H(H)1H(H)2H(H)1H(H)2
CUSUM公司04.5 193185120129
0.0130.3−1.193.99189189126136
0.03520.0352−3.313.31174210121145
0.050.009−4.662.99161217135159
0.080.00045−7.622.53140274134197
α*β*b条ARL公司标准偏差
H(H)1H(H)2H(H)1H(H)2
CUSUM公司04.5 193185120129
0.0130.3−1.193.99189189126136
0.03520.0352−3.313.31174210121145
0.050.009−4.662.99161217135159
0.080.00045−7.622.53140274134197
表1

假设下ARL和游程标准偏差的比较H(H)1(赔率=2)和H(H)2(1900次观察后的赔率=2)(α*,β*) ≡ (,b条)和对照组ARL 6700名患者(例1数据)

α*β*b条ARL公司标准偏差
H(H)1H(H)2H(H)1H(H)2
CUSUM公司04.5 193185120129
0.0130.3−1.193.99189189126136
0.03520.0352−3.313.31174210121145
0.050.009−4.662.99161217135159
0.080.00045−7.622.53140274134197
α*β*b条急性呼吸系统综合征标准偏差
H(H)1H(H)2H(H)1H(H)2
CUSUM公司04.5 193185120129
0.0130.3−1.193.99189189126136
0.03520.0352−3.313.31174210121145
0.050.009−4.662.99161217135159
0.080.00045−7.622.53140274134197

一般来说,在任何给定情况下比较图表的标准都应该根据被监控过程的特性进行选择。例如,该过程可能容易失控,或在任何阶段发生根本性变化,或可能出现波动。有些标准可能完全不适合在这种变化下选择最佳图表。

4.休哈特图表

沃尔特·休哈特(Walter Shewhart)在20世纪20年代开发的休哈特图表,只是绘制了一个过程的实际观察结果(有时是标准化的)。当超过预先规定的概率极限时,该过程被视为失控。通常设置99%的限制(3σ标准休哈特图对正常数据的限制),以便只检测到过程中的较大变化,并降低虚警率。通常实施双侧控制限值,但也可以使用单侧限值。

由于运行长度是一个离散的等待时间,因此可以假设运行长度分布是几何分布,平均值等于1,结果超出控制限的概率。

对于二进制数据,观察孤立的单个观测值是否跨越概率极限是没有意义的。要使用休哈特图表,必须对数据进行分组,并假设数据为二项式或正态分布。二项式数据的休哈特图表被称为第页-图表。

例如,对于计数数据,可以按原样绘制数据,并假设其为泊松分布或负二项式分布。

Shewhart的风险调整版本第页-二项式数据图表由厨师等。(2003)跟踪重症监护中分组的二元结果。在那里,它们只是允许每组观测值的失败概率n个t吨根据案例组合,并在假设每个时间点的故障数量分布的情况下计算该组的概率极限t吨可以充分建模为N个{=1n个t吨第页t吨,=1n个t吨第页t吨(1第页t吨)},,其中第页是预期失效概率当时组中的第个患者t吨在这里,我们做了一个更有力的假设,并说它可以被建模为𝓑(n个t吨,第页¯t吨)哪里第页¯t吨=(1/n个t吨)=1n个t吨第页t吨,因为我们认为这可能对较小的团队规模更准确。然而,模拟表明,对于这里的例子中检查的案例组合和组大小,这种二项式近似的表现类似于正态近似。

为了在计数数据的情况下应用风险调整休哈特图,我们假设一个组在某一时间的失败次数t吨大小为n个t吨跟随𝒫(λt吨)其中λt吨==1n个t吨λt吨,单个故障率的总和。只要数据是泊松分布的,这个结果就是准确的。对于二项式情况,人们认为,只要患者类型概率的分布紧密且不倾斜,近似值是合理的,但如果分布平坦或高度倾斜,则可能应通过模拟检查ARL。

4.1. 例子

对于示例1数据集,假设我们希望对30天死亡率加倍进行单侧测试,即测试H(H)0:第页第页0=第页第页 H(H)1:第页第页1=卢比第页/{1 + (R(右)− 1)第页第页},第页= 1, 2, …,现在,失败率在Parsonnet得分上的平均值(决定案例类型的因素),第页¯,可根据数据集计算得出,取0.066。对于第页-我们希望测试一名外科医生在30天内的失败次数𝓑(79,Σj个=179第页j个/79)α%级别。该组的规模被选为79,大致相当于一名普通外科医生6个月的手术时间。对于这里考虑的单一外科医生,79名患者与9个月的手术时间更接近。

为了实现6700例控制内ARL(84组79名患者),α需要设置为1/84=0.012。此图表的失控ARL为294(四组79名患者)。

图4显示了按照所述构造的示例1数据的风险调整休哈特图。这一限制没有被突破,因此30天死亡率的概率被认为没有改变。为了进行比较,还给出了未经调整的图表。这与风险调整图具有相同的控制内和控制外ARL,但在假设每79名患者的失败次数下计算出固定的限制𝓑(79,第页¯=0.066),其中第页¯是训练数据中患者类型的平均失败率。图表显示第一组观察结果。

心脏手术后30天死亡率加倍的6个月休哈特图表测试(对照组ARL,84个6个月周期):(a)调整;(b) 未经调整的
图4

心脏手术后30天死亡率加倍的6个月休哈特图表测试(对照组ARL,84个6个月周期):(a)调整;(b) 未经调整的

5集合方法和事件之间的时间休哈特图

监测不良结果的sets方法由陈(1978)作为先天性畸形的监测系统。加卢斯等。(1986年)后来改进了这个方法。对该方法进行了调整,以便通过以下方式进行风险调整《格里格与永别》(2004).

风险调整方法基于“集合”X(X)属于加权失效后的观察结果,包括下一次失效,其中权重取决于风险。如果X(X)T型n个连续出现,则发出警报,并认为进程已从初始状态转移H(H)0进入失控状态H(H)1.何时n个=1,该方法等效于单侧休哈特型图表监控事件之间的时间。建议的权重《格里格与永别》(2004)第页第页/第页¯,其中第页¯是风险类型的平均失效概率第页第页如前所述。使用这些重量,“平均”患者的重量为1,即未调整方法中采用的重量。

在最初的方法中,X(X)~几何(π0)在零假设下,类似地X(X)~几何(π1)在替代假设下。The distribution ofX(X)然而,对于风险调整方法来说,这是一个棘手的问题,概率计算涉及X(X)必须使用基于模拟的经验分布进行。

定义事件X(X)T型成为一名A类-事件和B类-事件的补语。因此,警报的概率(在任一假设下)由下式给出

P(P)(警报)=P(P)n个(A类)=0,1
(7)

设置控制中的ARLS公司0,我们要求警报的概率H(H)0满足

P(P)(警报)=α(ααD类n个+1)=1D类=0,1
(8)

对于= 0. 对于= 1方程式(8)给出了真实警报的概率之间的关系,P(P)1(报警)和失控ARLS公司1.条款ααD类n个+1分别对应于实际警报和可能警报的数量,以及D类=πS公司是预期结束的故障数S公司患者。

依据A类-事件,P(P)(报警)还必须满足关系

P(P)(警报)=P(P)n个(A类){1P(P)(A类)}1P(P)n个(A类)=0,1
(9)

该等式认识到报警被视为不相交的事实,即A类-事件跟踪n个连续的A类-只有在n个−1之前A类-这些事件不是之前警报的一部分。

等式表达式(8)和(9)给出

D类=1P(P)n个(A类)P(P)n个(A类){1P(P)(A类)}=0,1
(10)

可以重新安排

P(P)(A类)={1+D类D类P(P)(A类)}1/n个=0,1
(11)

方程式(10)和(11)用于查找的值n个T型这样的话D类1最小值,或者等效地,使失控ARLD类1/π1是最小的。根据加卢斯等。(1986年)仿真结果表明D类1在以下方面有一个独特的最小值n个T型。的值n个T型通过迭代过程发现,只要D类1发现高于上一次迭代。

迭代过程如下所示,从n个= 2.

  • (a)

    计算的值P(P)0(A类)通过将Newton–Raphson迭代应用于方程式(11),将解决方案用作初始值方程式(11)为获得n个− 1.

  • (b)

    插值T型从模拟的经验分布X(X)在下面H(H)0.

  • (c)

    插值P(P)1(A类)从模拟的经验分布X(X)在下面H(H)1.

  • (d)

    计算D类1方程(10).

  • (e)

    如果n个+ 1 >D类0,停止。

  • (f)

    增加n个乘以1。

5.1. 例子

假设我们想要测试(对于示例1的数据)H(H)0:第页第页0=第页第页  H(H)1:第页第页1=卢比第页/{1 + (R(右)− 1)第页第页},第页= 1,2, …,假设帕森特评分的平均失败率为0.066第页我们会增加重量第页第页/0.066至X(X).

通过模拟X(X)在假设之下H(H)0H(H)1根据上述算法,将控制中的ARL固定为6700名患者n个T型分别为10岁和17.31岁。相应的失控ARL为324.6。由于n个不等于1,则休哈特事件间隔时间图表对于该特定数据集不是最佳的。图5图示了集合图(草地图),如《格里格与永别》(2004),值为n个T型适用于示例1数据的。该图表只是根据当前集合或刀片的累积大小绘制观察值。每次失败后,图表都会重置为0(开始新的设置)。

Grass plot回顾性监测心脏外科医生(例1;n=10;T=17.31)
图5

格拉斯图回顾性监测心脏外科医生(例1;n个= 10;T型= 17.31)

6二进制数据图表的比较

陈(1987)建议在不良结果发生率较低的情况下,原始集合方法比CUSUM方法表现更好。加卢斯等。(1986年)Barbujani和Calzolari(1984)对陈的结果提出质疑,但加卢斯等。(1986年)认为他们的修改集方法可以比CUSUM更有效,但在不同的情况下。他们给出的示例表明,当设计用于检测的速率变化较大时,精化集方法的性能更好,而不一定是在初始速率较低时。

这里我们将集合方法与CUSUM和休哈特方法进行了比较第页-图表,使用来自示例数据集1的事例混合作为比较的基础。比较的重点是两个因素:被测参数变化的大小和案例组合概率。因此,我们计算了30天死亡率的两倍于五倍增长率的测试图表的相对效率。这是针对三组病例混合概率中的每一组进行的:原始概率(第页¯=0.066); 原始概率乘以λ= 0.5 (第页¯=0.033); 原始概率乘以λ= 1.5 (第页¯=0.099).

图6显示了sets方法的失控ARL与针对控制中ARL的各种值测量的CUSUM的比率(对数刻度)。

集合方法的失控ARL与固定对数的CUSUM之比(受控ARL)(--λ=1;--------,λ=0.5;····;(b) 图表测试赔率增加五倍
图6

sets方法的失控ARL与固定日志的CUSUM(受控ARL)的比率(--λ= 1; - - - - - - -,λ= 0.5; ·······,λ=1.5):(a)图表测试赔率加倍;(b) 图表测试赔率增加五倍

用于图表测试参数的较大增加(图6(b))与参数增加较小时相比,对于控制中ARL值范围稍大的情况,集合方法(对于三组病例组合概率中最小的两组)似乎比CUSUM更有效(图6(a)). 通过有效性,这意味着对于固定的控制中ARL,失控的ARL较小。病例组合概率的大小似乎有显著的影响。案例混合概率越大,集合方法与CUSUM相比效率越低。虽然可以看到这种影响,但似乎并不是很大。然而,这可能是因为三组(0.033、0.066、0.099)的平均病例组合概率变化很小。

表2和表3给出完整的结果,包括休哈特图ARL。表2比较心脏手术后30天死亡率加倍的图表测试和表3对比图表测试,增长了五倍。

表2

集合方法的失控ARL、固定对照ARL的CUSUM和Shewhart(组大小79)图表:心脏手术后30天死亡率加倍的图表测试

λ日志(控制ARL中)以下方法的ARL:λ日志(控制ARL中)以下方法的ARL:
集合CUSUM公司休哈特集合CUSUM公司休哈特
0.54.62   31.4   40.61581.53.74   13.8   17.579
4.74   34.7   43.91583.88   15.7   19.379
4.89   39.3   48.31584.06   18.1   21.779
5.38   56.6   66.11584.58   25.8   30.1158
5.80   76.2   84.41584.96   34   37.5158
6.541211242375.69   54.4   54.6158
7.191751652376.33   79.9   72.7158
7.792402083956.92112   91.4158
8.363132533957.47151111158
8.913952976328.01200130158
9.454883426328.54258149237
9.9759138812649.05331169237
14.04   18.3   23.3   79
4.18   20.6   25.6   79
4.34   23.6   28.3   79
4.84   33.8   39158
5.24   45.2   49158
5.97   72.6   71.5158
6.61107   95.3158
7.20146120158
7.76195145237
8.29254170237
8.82326196316
9.34415222316
λ日志(控制ARL中)以下方法的ARL:λ日志(控制ARL中)以下方法的ARL:
集合CUSUM公司休哈特集合CUSUM公司休哈特
0.54.62   31.4   40.61581.53.74   13.8   17.579
4.74   34.7   43.91583.88   15.7   19.379
4.89   39.3   48.31584.06   18.1   21.779
5.38   56.6   66.11584.58   25.8   30.1158
5.80   76.2   84.41584.96   34   37.5158
6.541211242375.69   54.4   54.6158
7.191751652376.33   79.9   72.7158
7.792402083956.92112   91.4158
8.363132533957.47151111158
8.913952976328.01200130158
9.454883426328.54258149237
9.9759138812649.05331169237
14.04   18.3   23.3   79
4.18   20.6   25.6   79
4.34   23.6   28.3   79
4.84   33.8   39158
5.24   45.2   49158
5.97   72.6   71.5158
6.61107   95.3158
7.20146120158
7.76195145237
8.29254170237
8.82326196316
9.34415222316
表2

集合方法的失控ARL、固定对照ARL的CUSUM和Shewhart(组大小79)图表:心脏手术后30天死亡率加倍的图表测试

λ日志(控制ARL中)以下方法的ARL:λ日志(控制ARL中)以下方法的ARL:
集合休哈特集合CUSUM公司休哈特
0.54.62   31.4   40.61581.53.74   13.8   17.579
4.74   34.7   43.91583.88   15.7   19.379
4.89   39.3   48.31584.06   18.1   21.779
5.38   56.6   66.11584.58   25.8   30.1158
5.80   76.2   84.41584.96   34   37.5158
6.541211242375.69   54.4   54.6158
7.191751652376.33   79.9   72.7158
7.792402083956.92112   91.4158
8.363132533957.47151111158
8.913952976328.01200130158
9.454883426328.54258149237
9.9759138812649.05331169237
14.04   18.3   23.3   79
4.18   20.6   25.6   79
4.34   23.6   28.3   79
4.84   33.8   39158
5.24   45.2   49158
5.97   72.6   71.5158
6.61107   95.3158
7.20146120158
7.76195145237
8.29254170237
8.82326196316
9.34415222316
λ日志(控制ARL中)以下方法的ARL:λ日志(控制ARL中)以下方法的ARL:
集合CUSUM公司休哈特集合CUSUM公司休哈特
0.54.62   31.4   40.61581.53.74   13.8   17.579
4.74   34.7   43.91583.88   15.7   19.379
4.89   39.3   48.31584.06   18.1   21.779
5.38   56.6   66.11584.58   25.8   30.1158
5.80   76.2   84.41584.96   34   37.5158
6.541211242375.69   54.4   54.6158
7.191751652376.33   79.9   72.7158
7.792402083956.92112   91.4158
8.363132533957.47151111158
8.913952976328.01200130158
9.454883426328.54258149237
9.9759138812649.05331169237
14.04   18.3   23.3   79
4.18   20.6   25.6   79
4.34   23.6   28.3   79
4.84   33.8   39158
5.24   45.2   49158
5.97   72.6   71.5158
6.61107   95.3158
7.20146120158
7.76195145237
8.29254170237
8.82326196316
9.34415222316
表3

集合法、CUSUM和Shewhart(组大小40)图表的非对照ARL用于固定对照ARL:图表测试心脏手术后30天死亡率增加5倍

λ日志(控制ARL中)以下方法的ARL:λ日志(控制ARL中)以下方法的ARL:
集合CUSUM公司休哈特集合CUSUM公司休哈特
0.54.8411.316.5801.53.96   6.47   7.9540
4.8711.616.6803.99   6.62   8.0540
4.8911.816.8804.03   6.93   8.1340
4.9212.517804.07   7.01   8.2840
5.0813.218.1804.29   7.66   9.0840
5.5518.321.8804.8610.711.540
6.2223.227.8805.4814.614.240
6.7227.532.2805.9818.216.640
7.2435.237.2806.5321.219.240
7.7944.142.5807.0524.821.880
14.23   7.62   9.9740
4.26   7.7510.140
4.29   7.9410.240
4.33   8.3110.440
4.36   8.5410.540
4.56   9.4711.440
5.0813.11440
5.7417.217.740
6.222020.580
6.7725.823.880
7.2930.22780
λ日志(控制ARL中)以下方法的ARL:λ日志(控制ARL中)以下方法的ARL:
集合CUSUM公司休哈特集合CUSUM公司休哈特
0.54.8411.316.5801.53.96   6.47   7.9540
4.8711.616.6803.99   6.62   8.0540
4.8911.816.8804.03   6.93   8.1340
4.9212.517804.07   7.01   8.2840
5.0813.218.1804.29   7.66   9.0840
5.5518.321.8804.8610.711.540
6.2223.227.8805.4814.614.240
6.7227.532.2805.9818.216.640
7.2435.237.2806.5321.219.240
7.7944.142.5807.0524.821.880
14.23   7.62   9.9740
4.26   7.7510.140
4.29   7.9410.240
4.33   8.3110.440
4.36   8.5410.540
4.56   9.4711.440
5.0813.11440
5.7417.217.740
6.222020.580
6.7725.823.880
7.2930.22780
表3

集合法、CUSUM和Shewhart(组大小40)图表的非对照ARL用于固定对照ARL:图表测试心脏手术后30天死亡率增加5倍

λ日志(控制ARL中)以下方法的ARL:λ日志(控制ARL中)以下方法的ARL:
集合CUSUM公司休哈特集合休哈特
0.54.8411.316.5801.53.96   6.47   7.9540
4.8711.616.6803.99   6.62   8.0540
4.8911.816.8804.03   6.93   8.1340
4.9212.517804.07   7.01   8.2840
5.0813.218.1804.29   7.66   9.0840
5.5518.321.8804.8610.711.540
6.2223.227.8805.4814.614.240
6.7227.532.2805.9818.216.640
7.2435.237.2806.5321.219.240
7.7944.142.5807.0524.821.880
14.23   7.62   9.9740
4.26   7.7510.140
4.29   7.9410.240
4.33   8.3110.440
4.36   8.5410.540
4.56   9.4711.440
5.0813.11440
5.7417.217.740
6.222020.580
6.7725.823.880
7.2930.22780
λ日志(控制ARL中)以下方法的ARL:λ日志(控制ARL中)以下方法的ARL:
集合CUSUM公司休哈特集合CUSUM公司休哈特
0.54.8411.316.5801.53.96   6.47   7.9540
4.8711.616.6803.99   6.62   8.0540
4.8911.816.8804.03   6.93   8.1340
4.9212.517804.07   7.01   8.2840
5.0813.218.1804.29   7.66   9.0840
5.5518.321.8804.8610.711.540
6.2223.227.8805.4814.614.240
6.7227.532.2805.9818.216.640
7.2435.237.2806.5321.219.240
7.7944.142.5807.0524.821.880
14.23   7.62   9.9740
4.26   7.7510.140
4.29   7.9410.240
4.33   8.3110.440
4.36   8.5410.540
4.56   9.4711.440
5.0813.11440
5.7417.217.740
6.222020.580
6.7725.823.880
7.2930.22780

来自两者表2和表3我们看到CUSUM图表比Shewhart更好第页-图表。用于图表测试优势比的较小变化(表2)这并不奇怪。然而,对于优势比变化较大的图表测试(表3),休哈特图表可能会比CUSUM更有效。这一结果被认为是因为必须对休哈特图的观察结果进行分组。在赔率变化较大的情况下(表3),集合方法均匀优于休哈特方法第页-图表。在赔率变化较小的情况下(表2),对于较大的控制内游程长度(log(控制内ARL)>8)和较大的情况混合概率(λ=1和λ=1.5),休哈特图表比集合方法更有效,尤其是对于λ= 1.5.

7改进测试

当一个过程需要长期监控以检测过程中的恶化时,注意过程中的改进也很重要。如果忽略过程中的改进,图表可能对过程中的后续恶化不太敏感。

对于改进和恶化的联合监测,页码(1954)建议使用双面CUSUM,即结合使用两个单面表格CUSUM:一个用于检测改进;一个用来检测恶化的。然而,ARL的计算并未得到证实。

最近,汗(1984)研究了两个单侧CUSUM(上部和下部)和一个单侧COSUM的运行长度之间的关系。导出的近似公式为

1ARL公司c(c)=1ARL公司++1ARL公司
(12)

在某些规则性条件下,其中ARLc(c)是双边CUSUM的ARL,ARL+是上部单面CUSUM和ARL的ARL是下部单面CUSUM的ARL。直观地说,这个公式代表了一个假设,即图表的两边是独立的(规则性条件本质上是两个部分不能相互作用)。此处未显示详细信息,但一项模拟研究表明,该公式也适用于RSPRT,并且它同样适用于带有风险调整的CUSUM和RSPRT。

图7演示了示例1数据的双边风险调整CUSUM。上下边界选择为小时u个=5.18和小时=−4.96,因此图表每一半的控制中ARL都等于13400。这意味着总ARL约为13400/2=6700。在这里,每一侧的控制中ARL都是相同的,以平衡虚警率。然而,我们可能会决定允许假阳性警报多于阴性警报,反之亦然,在这种情况下,应该使用非对称图表。

双侧风险调整CUSUM,hu=5.18,hl=−4.96,对照组ARL 6700名患者(示例1数据)
图7

双面风险调整CUSUM小时u个= 5.18,小时=−4.96和对照组ARL 6700名患者(例1数据)

8估算

图表的主要目的不是估计过程参数。即使如此,在发出警告信号后,想要提供一些参数估计通常是很自然的。

考虑示例2数据的未经调整的CUSUM图,其中每年的死亡率,λ,是感兴趣的参数。至少对于频率分析来说,困难在于最大似然估计(MLE)λ^有偏见。尽管可能性不受停止规则的影响λ^是。

解决问题的方法,由格里格等。(2003),即获得MLE,然后实施怀特海(1997)调整偏差的方法。这种方法涉及到寻找偏置函数b条(λ)对于特定图表和求解

λ˜=λ^b条(λ˜)
(13)

哪里λ^=Y(Y)n个/n个是的MLEλ在停车点,n个如果很难显式地获得偏置函数,则模拟近似值也可以正常工作。

对于风险调整图表,更容易处理λ¯构建偏置曲线时,其中λ¯是指不同类型患者的平均失败率(每年),而不是具有多个偏差曲线,每个患者类型的失败率对应一个偏差曲线。

从图表中获得的估计值可以基于自监测开始以来的所有观察值。然而,通常也只基于估计的“变化点”之后观察到的数据进行估计。这是进程被认为已从空状态转移到失控状态的点。

对于RSPRT,图表最后出现的时间下边界是对变化点的估计(从CUSUM的结果扩展为霍金斯和奥威尔(1997)). 对于集合方法,估计为最后一个开始之前的观测值n个连续集合。

8.1. 例子

考虑,对于示例2数据,使用双边CUSUM测试无效假设H(H)0:λ0=35另一种选择H(H)u个:λu个=1.2λ0,H(H):λ=0.8λ0现在,Pr{𝒫(42)>150}≈0。因此,约束Y(Y)t吨,每年的死亡人数为150人或更少,不应导致太多信息丢失。发件人第3节,对数似然比权重为

W公司t吨(u个)=Y(Y)t吨日志(1.2)7,W公司t吨()=Y(Y)t吨日志(0.8)+7}Y(Y)t吨{0,1,2,,150}
(14)

哪里u个分别参考上下图表。

图8显示了一个由这些权重组成的双侧CUSUM,监测在Harold Shipman(1987–1998)的指导下,所有类型的患者每年观察到的死亡率。边界被任意设置在小时=1,2,3,4,5(两侧)。

1987年至1998年哈罗德·希普曼(Harold Shipman)领导下的CUSUM监测每年的死亡率
图8

1987年至1998年哈罗德·希普曼(Harold Shipman)领导下的CUSUM监测每年的死亡率

该图表将在1995年底发出信号,如果小时由于1994年后利率急剧上升,被选在[3,8]范围内的任何地方。对于(−3,3)处的边界,控制内ARL为52年,控制外ARL为5年;在(-5,5)时,它们分别为403年和7.5年。

Whitehead偏差调整方法在MLE中的应用λ1995年底,根据所有数据计算得出的调整值为λ=41来自λ^=42.33。的大约95%置信区间λ是[37,45]。

自图表最后一次为0(1992年底)以来的MLE为λ^=53.33应用Whitehead的方法得出的调整值为λ= 52. 此调整估计值的大约95%置信区间为[43,60]。请注意,获得的置信区间几乎与使用所有数据(自1987年以来)进行估计得到的区间重叠。

图9说明了使用双面CUSUM图表的所有数据计算的MLE的模拟偏差曲线λ0= 35,λu个= 1.2λ0,λ= 0.8λ0小时u个=小时= 5. 也给出了与仅使用自图表最后一次为0以来的数据计算的估计值相关的偏差曲线。

λ0=35,λu=1.2λ0,λl=0.8λ0和hu=hl=5的双边CUSUM的模拟偏差曲线(示例2数据):○,所有数据;+,自上次0起的数据
图9

双边CUSUM的模拟偏差曲线λ0= 35,λu个= 1.2λ0,λ= 0.8λ0小时u个=小时=5(示例2数据):○,所有数据;+,自上次0以来的数据

估计量的选择λ结果如此不同的值显然是一个问题。如果过程在1992年发生变化,我们希望仅使用从那时起的数据来估计参数。然而,如果没有发生变化,或发生在1992年之前,不使用早期数据来形成估计值可能会导致具有较大偏差的估计值。即使进行了偏差调整,仍可能存在相当大的偏差。

这里还有一个假设,即过程中的变化,如果发生,将是即时的和持续的。然而,实际上,变化可能是渐进的,也可能是间歇性的。在这种情况下,除上述两个估计值外,其他估计值可能更合适。

9结论

这里提供了各种风险调整图表。图表之间的比较基于单个数据集的经验案例混合分布。然而,人们认为,如果适当谨慎,结果可以推广到更广泛的数据范围。当然,为了更好地理解所提出的方法之间的比较,还需要在这方面对其他对比数据集进行更多的研究。

对于RSPRT类图表(包括特殊情况下的CUSUM),可以看出,在“固定受控ARL的最小失控ARL”标准下,最优图表是一个低α*和高β*然而,有人认为,这一标准对于优化这一类别是不明智的,因为所选择的最佳图表是可以建立最多信用的图表,因此对除早期监控之外的任何时间发生的流程变化最不敏感。

还比较了集合方法、CUSUM和休哈特方法第页-图表。对于集合方法和CUSUM,目的是扩大和澄清之前所做的两个图表的比较。从收集的结果来看,建议在希望检测低事件率过程中的微小变化时,仅当需要非常快速地检测变化时,才应使用sets方法,而不考虑较高的误报率。否则,CUSUM可能是更好的工具。基本案例组合概率的大小对所研究示例中图表的比较效率有明显但相对较小的影响。然而,由于数据集的限制,很难说这种影响对于病例组合概率的较大变化是否更显著。

休哈特图表包含在比较中,因为它是一个标准而简单的图表。发现该图表(至少对于这些数据)的效率低于CUSUM。这被认为是因为,要监视二进制数据,它必须处理数据分组。对于参数变化较大的图表测试,以及对于控制中ARL较小的图表,也发现其效率低于集合方法。

强调了实施图表的重要性,这些图表可以检测流程中的改进和恶化。注意到这些改进可能会促使重新评估标准,此外,还可以确定表现良好的中心或个人。如果这些中心或个人有一种可转移的工作方法,则可以诱导积极的反馈系统。

关于从图表中估计过程参数,而不是直接使用图表,可以通过持续的平滑过程来估计参数,例如直接的指数加权移动平均值、贝叶斯指数加权移动均值或可能通过使用完全贝叶斯更新来估计参数。事实上,如果估算而不是质量控制至关重要,那么使用此类技术可能是使用控制图的替代策略。

关于哪种回顾性图表最好用于监测手术数据的实际问题(例1)第6节表明集合方法或CUSUM对观察到的特定病例组合最有效:图表数据(1994年至1998年)中的死亡率为0.086,对应于λ= 1.3. 如果我们想快速检测速率的变化或只检测速率的大变化,集合方法可能是更合适的方法。然而,CUSUM可能更容易实施。

根据希普曼的数据,任何监测老年女性死亡率的图表都有助于早期发现问题(图2例如,该调查表明,自1988年底以来,每年75岁以上的女性死亡人数超过20人(按英格兰和威尔士的平均数计算)。调查结果表明,其中大约一半可能是希普曼故意造成的。然而,通过控制图对这些亚组中的问题进行前瞻性识别,实际上是针对众多全科医生中的一个全科医生的问题,将被证明是困难的,原因有两个。首先,使用图表同时监控几个子组意味着由于多重性,每个相关图表都会失去动力。其次,大量组合图表的游程属性目前尚不清楚。

参考文献

贝克
,
R。
(
2001
)
哈罗德·希普曼(Harold Shipman)1974–1998年临床实践:由首席医疗官委托进行的审查
.
伦敦
:
文具办公室
.

巴布贾尼
,
G.公司。
卡尔佐拉里
,
E.公司。
(
1984
)
蒙特卡罗模拟监测出生缺陷的两种统计技术的比较
.
统计师。医学。
,
,
239
——
247
.

,
R。
(
1978
)
先天畸形监测系统
.
《美国统计杂志》。助理。
,
73
,
323
——
327
.

,
R。
(
1987
)
集合和cusum技术在监测罕见事件发生中的相对效率
.
统计师。医学。
,
6
,
517
——
525
.

厨师
,
D.A。
,
斯坦纳
,
S.H.公司。
,
再会
,
V.T.公司。
莫顿
,
A.P.公司。
(
2003
)
监测质量的演变过程:风险调整图表以跟踪重症监护的结果
.
批评。护理医学。
,
31
,
1676
——
1682
.

德莱瓦尔
,
M.R.先生。
,
弗朗索瓦
,
英国。
,
公牛
,
C、。
,
肌肉发达
,
W.B.公司。
Spiegelhalter公司
,
D.J.博士。
(
1994
)
一组手术失败的分析
.
J.托尔。卡德瓦斯克。外科学。
,
104
,
914
——
924
.

加卢斯
,
G.公司。
,
曼德里
,
C、。
,
马奇
,
M。
拉达埃利
,
G.公司。
(
1986
)
先天性畸形监测方法探讨
.
统计师。医学。
,
5
,
565
——
571
.

格里格
,
运营商。
再会
,
V.吨。
(
2004
)
监测不良医疗结果的风险调整Sets方法
.
统计师。医学。
,待发布。

格里格
,
运营商。
,
永别了
,
V.T.公司。
Spiegelhalter公司
,
D.J.博士。
(
2003
)
在医疗环境中使用风险调整CUSUM和RSPRT图表进行监测
.
统计师。方法。医学研究。
,
12
,
147
——
170
.

霍金斯
,
D.米。
奥威尔
,
D.H.博士。
(
1997
)
累积和图表和质量改进图表
.
纽约
:
施普林格
.

可汗
,
注册会计师。
(
1984
)
关于累积和过程和SPRT及其应用
.
J.R.统计。Soc公司。
B、,
46
,
79
——
85
.

洛夫格罗夫
,
J。
,
谢劳·约翰逊
,
C、。
,
巴伦西亚
,
O。
,
宝藏
,
T。
加利文
,
美国。
(
1999
)
监测心脏外科医生的表现
.
《运营杂志》。Res.Soc公司。
,
50
,
684
——
689
.

洛夫格罗夫
,
J。
,
巴伦西亚
,
O。
,
宝藏
,
T。
,
谢劳·约翰逊
,
C、。
加利文
,
美国。
(
1997
)
通过可变寿命调整显示监测心脏手术结果
.
柳叶刀
,
350
,
1128
——
1130
.

第页
,
E.S.公司。
(
1954
)
连续检查方案
.
生物特征
,
41
,
100
——
115
.

帕森特
,
五、。
,
院长
,
D。
伯恩斯坦
,
公元。
(
1989
)
评估成人获得性心脏病手术结果的统一风险分层方法
.
循环
,
79
,
补充1
,
1
——
12
.

波罗涅基
,
J。
,
巴伦西亚
,
O。
小约翰
,
第页。
(
1998
)
累积风险调整死亡率图用于检测死亡率变化:心脏手术的观察性研究
.
英国医学杂志。
,
316
,
1697
——
1700
.

船夫
,
查询
(
2002
)
船员调查:第一份报告
伦敦:文具办公室。(可从http://www.the-shipman-inquiry.org.uk/firstreport.asp.)

Spiegelhalter公司
,
D.J.博士。
,
格里格
,
运营商。
,
亲属
,
R。
宝藏
,
T。
(
2003
)
用于监控风险调整结果的顺序概率比测试(sprts)
.
国际J.质量。健康护理
,
15
,
1
——
7
.

斯坦纳
,
S.H.公司。
,
厨师
,
R·J。
,
再会
,
V.T.公司。
宝藏
,
T。
(
2000
)
使用风险调整累积和图监测手术绩效
.
生物统计学
,
1
,
441
——
452
.

沃尔德
,
答:。
(
1945
)
统计假设的序贯检验
.
安。数学。统计师。
,
16
,
117
——
186
.

怀特黑德
,
J。
(
1997
)
序贯临床试验的设计与分析
,第3版。
奇切斯特
:
霍伍德
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)