调查结果汇总表
通过对审查的主要结果进行简明透明的总结,SoF表格正在成为Cochrane审查的一个组成部分。目前,SoF表在Cochrane Reviews中的使用频率高于其他系统评审,研究表明,它们提高了CochraneReviews的可访问性和理解性[4,5]. 然而,它们已经出现在著名的期刊上,例如新英格兰医学杂志[8].
SoF表旨在为医疗服务提供者提供简洁、易于解释的证据展示,以做出明智的决策[9,10]. 关键要素包括对效果估计(证据质量)和效果大小的信心。评估证据质量的系统是由GRADE工作组开发的[11]并被Cochrane Collaboration采纳。
格式
SoF表的当前格式是ARMG和GRADE工作组制定和评估针对不同目标群体的Cochrane审查摘要的多项举措的产物[12]. SoF表的当前格式示例如图所示。SoF表中可能包含的信息类型如下:
1) 所有重要成果清单;既可取又不可取。
2) 衡量这些结果的典型负担(例如,控制组风险、估计风险)。
3) 干预组中的风险度量(或者,或者,或者另外,测量有干预和无干预的风险之间的差异)。
4) 影响的相对大小。
5) 参与者人数和针对这些结果的研究。
6) 对每个结果(可能因结果而异)的效果估计的总体信心评级。
7) 可能还有一个评论部分,提供澄清和/或其他信息。
在科克伦方法创新基金(MIF)的支持下,这些小组目前正在研究SoF表格的替代格式。
SoF表与GRADE证据概况(EP)不同,它展示了决定每个结果证据质量的每个因素的质量评估(例如,由于研究限制而降级的原因)。在GRADE EP中详细介绍了这一点,而在SoF表中,证据评估的质量仅在决策所需的关键信息中提供。它们代表了简单性(使信息尽可能容易被广大读者理解)和完整性(使资料和基本判断尽可能透明,但避免不必要的细节)之间的折衷。
成果
SoF表显示了被判断为对决策至关重要的结果。这些结果中的每一个都应该是患者重要的结果,而不是替代结果,其数量应限制在7个,这是2004年渥太华科克伦学术讨论会研讨会上所做工作的结果。然而,对七种结果的选择也是基于心理学领域的工作,这表明人类发现很难区分七个因素以外的其他因素,这有助于保持所呈现信息的可管理性[12]. 这要求Cochrane Reviews的作者根据其感知的重要性(理想情况下,在其综述工作的早期阶段)以及潜在的聚集相关但不同的结果来确定结果的优先级,在一个结果测量中几乎同等重要的结果(例如,患者呕吐和/或腹泻风险的胃肠道副作用的综合结果)。
虽然SoF表应关注患者的重要结果,但在某些情况下,可能没有直接证据表明这些结果。在这种情况下,评审员应提出他们对替代结果测量的治疗效果的推论;这个应该清楚地贴上标签。作者将通过使用对患者重要结果(见下文)的基线风险的最佳估计,然后应用替代结果的相对影响来实现这一点。
当相关患者重要结果的证据质量低或非常低,并且存在临床社区认为(正确或错误)高度相关的相关间接结果测量时,可能会出现另一种特殊情况。在这种情况下,可以提供间接证据,但作者应明确其作为替代措施的作用。
一般来说,SoF表应提供给定结果可用的最高质量证据。当两个证据的质量相似时(例如,随机试验和观察性研究),SoF表可能包括这两者的摘要。也有可能是,综述作者没有发现关于一个或多个关键或重要结果的公开证据。
基准风险
决策的一个重要问题是确定特定患者重要结果的基线风险。GRADE认识到,随机试验中的患者可能不代表普通人群(例如,他们可能是因为高危而被选中的,从而减少了样本量要求),并且这种基线风险因预后亚组而异。因此,直接从随机试验的数据计算效应大小的绝对值可能会产生误导。相反,如果可行的话,基线或对照组风险应从精心设计的观察研究中提取[12].
如果没有高质量的观察性研究,GRADE建议在纳入的研究中使用对照组的风险中位数(而不是受异常值影响的加权平均值)。如果控制组风险有重大变化,GRADEPro软件(由Jan Brozek、Andy Oxman和Holger Schunemann开发的计算机程序)(为作者提供了展示一系列风险的机会,而绝对效应大小度量的计算是以这些风险为基础的。迄今为止,GRADE一直回避量化围绕基线风险估计的不确定性[12]. 这是一个务实的决定,以避免额外的复杂性,这可能会使系统审查过程难以管理。
效果大小演示
根据对消费者计算能力的研究,效果大小呈现为自然频率,即每100名患者的事件,比呈现相对风险更为可取[13]. 然而,最近的数据(来自正在进行的研究)表明,百分比可能也会这样,有时甚至更好。对随机分为四种不同呈现特征的指导小组成员的证据资料进行的用户测试进一步证明了呈现绝对风险差异的价值[14]. 在圣保罗(2007年)科克伦学术讨论会期间举行的GRADE工作组会议上,是否将其纳入讨论范围是一个激烈的问题。绝对效果度量应与反映潜在精度的置信区间一起给出,并指出估计值所指的后续时间长度。
虽然用于报告二分法测量结果的相对和绝对效应大小对临床受众来说非常熟悉,但对连续结果的总结性测量对解释提出了特殊的挑战[15]. 最常见的方法是通过标准偏差来划分每个研究中的平均值差异,并以标准偏差单位(标准化平均差)表示汇总结果。它的缺点包括易受异质性的影响和难以解释。
为了提高可解释性而提倡的一种方法是,当MID已知时,以最小重要差异(MID)单位进行报告。另一种相关方法是使用MID作为阈值,将连续结果转换为二元结果,然后呈现相对和绝对效果大小[15].
SoF表的占用
自2008年以来,Cochrane Reviews中SoF表的使用量稳步增加。2009年第1期(季刊)科克伦图书馆,3个评论包括一个SoF表,在2012年第1期至第3期(月刊)中,这个数字增加到了94个评论。2012年3月,共有502项Cochrane审查包括一个或多个SoF表。这组SoF表的质量目前正在由ARMG进行评估。截至2013年9月,几乎有1000个审查包括一个SoF表。
根据进行新的Cochrane干预审查的方法学标准,包括SoF表是非常可取的,评估证据的质量对于新的Cockrane干预检查是强制性的。
SoF表的附加值
2005年,Gunn Vist与Andy Oxman、Paul Glassiou、Julian Higgins和Holger Schünemann合作进行了一项未发表的试点研究,首次评估了SoF表格的附加值。来自17个Cochrane审查小组(CRG)的20位作者被要求为其新的或更新的审查构建一个SoF表。为了做到这一点,作者平均额外花了4个小时(2到40个小时)进行审查。总的来说,作者报告说,SoF表的布局很清楚,在SoF表中显示审查结果很有帮助。在17个CRG中,有11个得出结论认为审查的可及性得到了提高,5个CRG得出结论认为审核的质量得到了改善,1个CRG重新表述了结论。大多数CRG都遇到了软件困难。
SoF表的附加值也在Cochrane Reviews的用户中进行了测试。两项小型随机试验发现,在系统审查中包括一个SoF表可以提高用户对关键信息的理解和快速检索[5]. 然而,综述作者对SoF的理解并不是最佳的。这可能有几个原因。标准表没有为评审作者提供足够的灵活性,以适应不同类型的评审。有些人还认为这些表紧凑且数据丰富,这使得它们对用户来说过于复杂(见图).
在开发过程中,这些表的用户测试揭示了一个主要挑战,即“实现精确性和简单性之间的矛盾”[5]其中,精确是指全面性。然而,对于未经训练的人来说,全面性很快就会成为掩盖主要信息的视觉混乱。
SoF开发团队通过使用分层方法解决了这种紧张关系,通过排版和颜色区分,表格的某些部分对眼睛来说比其他部分更重要。然而,由于网站和PDF格式的技术实现困难,这种印刷分层方法在很大程度上没有实现,从而影响了准确性和简单性的平衡。然而,尚未对SoF表在多大程度上帮助或改变决策进行正式调查。
进一步和未来的发展
目前,ARMG和GRADE工作组正在两个研究项目中进一步开发SoF表。Cochrane方法创新基金资助的一个研究项目评估了超出SoF表标准表示的可接受灵活性程度。该评估包括调查决策者可接受的替代列,并应将其作为替代列包含在SoF表中,例如,添加风险差异和需要处理的数量,而不是当前使用的假设和相应风险列。该评估还将包括对无法合并的结果进行描述,哪些列可以折叠,哪些比较应在主要SoF表中进行描述。该项目的第二个目的是为SoF表格的评论和脚注的标准化提供指导,重点是对降低和提高证据质量的解释。第三个目标是制定指南,说明在诊断测试准确性审查中,SoF表中应包含哪些信息。预计将于2013年底完成这项工作,其结果将纳入最新的培训材料中,以便为评审员作者和评审用户提供最佳指导。
DECIDE项目由GRADE工作组发起和开发,从2011年到2015年(http://www.decide-collaboration.eu),试图利用技术进步来改进SoF表。因此,交互式SoF表(iSoF)使用信息的电子表示,通过分层的信息表示方法来协调准确性和简单性。顶层显示基本信息,而深层允许根据需要访问更多细节。此外,用户可以控制表格显示的数量、结果以及格式(单词、数字、图形)(参见图).
除统计格式外,iSoF还有一列以叙述格式表示结果,或在统计数据不可用时以叙述格式代替。多重表示的可能性使表格更灵活地表示来自不同类型审查的数据。
iSoF的其他优点包括对置信区间和其他统计术语的交互式表示和解释,以及在不同尺寸和类型的电子设备上打印和显示的响应格式。
未来的计划包括将iSoF翻译成不同的语言。iSoF将纳入GRADEpro和可能的其他接口(例如,Cochrane Reviews、指南产品、电子病历)。不同的版本将以不同的格式呈现相同的核心信息。
简明语言摘要
简明语言总结(PLS,以前称为“概要”)旨在总结审查结果,使没有医学背景的医疗保健消费者能够轻易理解。对消费者进行的定性研究为PLS的当前格式提供了信息[6]. PLS由两部分组成:标题和测试正文。为了在消费者中更好地传播Cochrane证据合成,正在努力将PLS纳入PubMed Health,这是美国国家医学图书馆提供的一项免费服务。正在进行的改进工作旨在确保审查和PLS之间的一致性,实施简短而简明的标题,重新考虑目前400字的字数限制,同时保持可理解性。
简明语言摘要示例[16]:预防航空乘客深静脉血栓(DVT)的压缩袜。
在过去几年里,人们越来越关注压缩袜(有时称为“飞行袜”)是否能降低航空乘客患DVT(腿部血栓)和其他循环系统问题的风险。这种长袜在整个飞行过程中都会穿着,与那些已知对手术后躺在床上的患者有效的长袜类似。通过施加温和的压力,特别是对脚踝的压力,压缩袜可以帮助血液流动。压力与腿部运动相结合有助于浅静脉中的血液流向深静脉并返回心脏。这样血液就不太可能在深静脉中凝结,如果血栓流向肺部,这可能是致命的。
与不穿压缩袜的乘客相比,穿压缩袜导致被分配穿压缩袜的航空乘客的无症状DVT大大降低。穿长筒袜的人与不穿长筒靴的人相比,腿部的不适和肿胀(水肿)要少得多。
这些结论是基于九项试验得出的,这些试验研究了2800多人,其中大约一半人被随机分配到穿着长袜飞行至少七个小时,而另一半人则没有。没有乘客出现DVT症状(腿部缓慢疼痛、肿胀和体温升高),也没有严重事件(肺部血栓(肺栓塞)或死亡)的报告。航班结束后,乘客们被仔细评估,以检测腿部血液循环是否有任何问题,即使他们自己没有发现任何问题。两组之间无症状DVT的差异很大,相当于风险从千分之十降至千分之二或三。并非所有的试验都报告了穿长袜可能出现的问题,但在那些报告中,研究人员表示,长袜耐受性良好,没有任何问题。
关于SoF表,研究了如何将系统评审的结果传达给消费者,以及如何感知和理解这些结果[6,7,17]. 这项工作目前正在纳入《科克伦摘要作者的简明语言期望》(PLEACS)项目。PLEACS小组为PLS的内容制定了一套最低标准(http://www.consumers.cochrane.org/PLEACS网站). 目的是确保作者以简洁明了的方式向消费者传达审查的关键问题和结果。该小组还通过测试标题和数字的包含情况,致力于改进结果的叙述性报告。
目前的工作包括开发一种标准化语言,以根据效应大小和支持证据的质量描述统计结果[6]. 这种标准化的语言可以用于PLS,也可以用于Cochrane Reviews的摘要。iSoF项目是在表格中自己的栏中使用PLS标准化句子的原型,为读者提供结果要点的叙述性解释,旁边是数字。该合作组织目前正在探索标准化语言如何有助于确保PLS和摘要的翻译质量。
当前的辩论和挑战
当前的辩论和争议问题包括SoF表的最佳呈现格式、使用GRADE所涉及的培训和额外努力,以及Cochrane Reviews的作者应在多大程度上为患者、临床医生和决策者的目标受众提供明确的指导。第一个问题应该通过正在进行的实证调查和交互式SoF表来解决。其他两个问题可能更难解决。对GRADE的批评包括其复杂性、其应用所涉及的时间以及其应用在多大程度上导致效果评估的低置信度。GRADE的支持者认为,复杂性不在于GRADE,而在于GRADE所揭示的问题(例如,与精确度、直接性和一致性相关的复杂判断,以及何时降低对这些组成部分的信心和偏差风险的阈值)。如果要解决而不是忽视这些问题,GRADE提供了一种简化而不是增加复杂性的结构。GRADE的支持者还认为,所需的时间是准备摘要,以便解决证据评估问题,而不是评估本身。GRADE确实可以通过为通常是非结构化的工作提供一个结构来降低工作量,从而使工作更加杂乱无章和费力。关于应用GRADE可能导致效应估计结果置信度低的问题,缺乏高质量证据不是GRADE或SoF表的错。
更重要的是,GRADE和ARMG关注并尊重这些问题。目前,这种专注表现得淋漓尽致的是处理与基线风险或诊断测试准确性研究相关的不确定性的谨慎方法。到目前为止,对这一相对被忽视的领域的更多关注将增加复杂性,可能会增加所需的时间,并将增加对效果估计的低置信度评级的可能性。GRADE目前正致力于提高我们对这些问题的概念性理解,并提供一种方法来促进对这些问题进行考虑,同时最大限度地减少系统评审作者和指南制定者的相关负担。
科克伦协作组织明确表示,系统审查作者不应提出建议。与此同时,受众寻求关于如何应用结果的指导,科克伦为作者提供了机会,让他们反思其审查对临床实践和公共政策的影响。这些相互竞争的考虑造成了紧张局势。在临床领域,也许在卫生政策领域,一个潜在的解决方案是作者强调特定价值观和偏好的星座及其对特定行动方案的影响,并给出结果。