Use of the Laboratory

Craig Kaplan

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

Walker HK，Hall WD，Hurst JW，编辑。临床方法：病史、体检和实验室检查。第三版。波士顿：巴特沃斯；1990

临床方法：病史、体检和实验室检查。第三版。

显示详细信息

<上一个下一步>

第5章实验室的使用

克雷格·卡普兰.

安排和解释诊断测试是基本技能。然而，令人惊讶的是，有证据表明，我们中的许多人在这一重要领域训练不足。研究表明，医生通常会安排比要求更多的实验室检查，将其用于错误的目的，并忽视或曲解其结果。虽然这些错误对患者护理质量有明显影响，但也有很大的社会经济影响。20世纪80年代，美国的医疗支出每年超过4000亿美元，约占国民生产总值的10%。在这一成本中，很大一部分可归因于实验室测试。在一项住院期间费用的研究中，实验室费用平均占医院账单的26%。据估计，临床实验室在全国卫生保健资源中占110多亿美元，其中30亿美元仅用于临床化学！

诊断测试显然增加了大量支出。如果这些测试中有许多是不适当的、多余的或被误解的，那么学习如何正确使用实验室可能对单个患者和整个经济都有重大益处。术语诊断试验并不仅仅指昂贵的“高价”成像或监测程序，如磁共振成像、计算机轴向断层扫描、电子胎儿监测或心导管插入术。除了每天对患者进行数不清的实验室测试外，它还包括电解质、血清化学、凝血曲线或全血计数等测试。虽然这些“小票”测试个别来说很便宜，但总的医疗保健支出与更昂贵的项目一样多，甚至可能更多。

本章的基本原理是提高您为患者提供的护理质量，同时降低成本。这两个目标都可以通过合理的诊断测试排序和解释方法来实现。阅读本章后，您应该了解以下内容：

诊断的概率性质及其对实验室测试排序和解释的影响
定义实验室测试的五个操作特征：可靠性（精度）、准确性、敏感性、特异性和预测值
要求进行实验室测试的不同目的（诊断、监测治疗和筛查）以及每个目的所需的操作特征
“正常”测试结果及其含义
常用的测试排序策略及其局限性

诊断的概率性质

诊断是一门不确定的艺术。我的意思并不是说医生太犹豫或模棱两可，而是说，由于没有验尸室，我们很少能绝对确定诊断结果。在诊断评估的早期阶段尤其如此。对医生推理的研究表明，当医生评估患者时，他们会记住一组有限的五到七个诊断假设，每个假设都被分配了一个相对概率，例如“很可能”、“可能”或“不太可能”。这些相对概率（或可能性）会向上或向下调整，取决于通过病史、体检和诊断测试获得的新信息。有了足够的信息，医生就有可能停止进一步的检查，并宣布这种可能性为“诊断”

作为这个过程的一个例子，假设你被要求评估一名高血压患者。在你见到病人之前，你会想到几种诊断可能性：原发性高血压、肾血管疾病、原发性醛固酮增多症、嗜铬细胞瘤、主动脉缩窄和慢性肾脏疾病等等。根据大量参考的高血压患者系列，在获得除患者患有高血压之外的任何信息之前，您可以推测原发性高血压的可能性在90%到95%之间，继发性高血压累积可能性在5%到10%之间，大多数由肾血管疾病引起。因此，“初始”概率可能是：原发性高血压90%（很可能），肾血管性高血压5%（可能），其他小于5%（不太可能）。

想象一下，你走进检查室，看到病人是一名16岁的白人女性。鉴于此类肾血管疾病患者的比例很高，仅此信息就可以让您修改概率。肾血管疾病的“修正”概率会增加，而原发性高血压和其他疾病的“修订”概率会降低。你调整或修正后的概率可能如下：原发性高血压70%（可能），肾血管疾病25%（可能）和其他各小于1%（极不可能）。如果在体检时你听到侧翼杂音，你会越来越肯定患有肾血管疾病，从而进一步提高其发病率，并降低其他可能性。然后，通过动脉造影进行静脉肾盂造影或放射性核素流量扫描，并在每一步后进行概率修正。

这里重要的一点是，无论是明确的还是隐含的，医生都是通过使用连续修改概率的过程来进行诊断的。然而，有几个问题。还有证据表明，医生并没有从病史、体检和诊断测试中获得最大的信息；也就是说，他们并不总是将诊断概率修正到数据所保证的程度。与概率修正的正式数学模型相比，医生无法正确调整其疾病可能性，要么低估或高估实验室测试的诊断价值。医生倾向于将诊断测试视为完美的信息，未能认识到实验室数据本身是概率性的。面对不确定性，这些人为失误导致误用前面描述的诊断信息。

本章和下一章的大部分内容都是关于诊断的概率性质和实验室测试解释的含义。其中，阐述了诊断测试解释的一些正式规则。

实验室试验的操作特性

测试的几个特征对它们的解释至关重要。其中两个操作特性使您能够判断测试本身：可靠性和准确性。其他特征使您能够根据测试结果如何影响您的诊断概率来判断测试：敏感性、特异性和预测值（阳性和阴性）。

这个可靠性试验的（或精度）是通过在同一试样上多次进行试验而获得的再现性测量。不可靠测试是指由于偶然性或技术错误而产生差异很大的结果。因此，这种测试很难解释，因为给定测试中的日常变化可能是由于患者病情的真实变化以外的其他原因造成的。相比之下，在可靠测试中的这种变化更有可能反映出真正的患者变化。测试精确反映测试结果反映“真”值的程度。想象一下，我们正在研究一种新的、更便宜的红细胞压积测量方法。如果我们假设“真实”的红细胞比容是通过手动离心获得的，那么如果新的测试与离心结果非常匹配，那么它就是准确的。如果测试不准确，那么它将系统地偏离真实值。

重要的是要认识到，测试的可靠性和准确性可能会相互独立地变化。测试可能不准确，但完全可靠。如果上例中新开发的红细胞压积始终比离心红细胞压容高5个百分点，则会出现这种情况。在这种情况下，新的红细胞比容是可靠的（始终是相同的值），但不准确的（始终与真实值不同）。可靠性和准确性之间的不同关系如所示图5.1.

图5.1

诊断测试的操作特性。红细胞压积测量的可靠性和准确性之间的不同关系。假设“真实”红细胞压容为40%。

这个敏感检测的阳性率是指特定疾病患者检测阳性的比例。这个特异性检测阴性的患者比例是指没有疾病的患者。例如，考虑在大量系统性红斑狼疮（SLE）患者中获取抗核抗体（ANA）。每个患者可能有ANA阳性，称为真阳性，或ANA阴性，称为假阴性。敏感性将是这些系统性红斑狼疮患者ANAs阳性的比例。同样，一组无SLE且ANA阴性的患者的比例称为真正的否定，称为ANA的特异性。ANA阳性的非SLE患者将被称为假阳性。

另一方面，预测值是指患者在检测结果为阳性或阴性的情况下患有或不患有疾病的可能性。再次参考我们的SLE/ANA示例，如果你选取大量ANA阳性的患者，并独立（不使用ANA结果）确定哪些人真正患有SLE，那么患有SLE的ANA阳性患者的比例将代表正预测值ANA的。相反，无SLE的ANA阴性患者的比例代表其负预测值。敏感性、特异性以及阳性和阴性预测值之间的关系在图5.2.

图2

诊断试验的操作特点：敏感性、特异性、预测值。

虽然下一章将更深入地讨论这些概念，但在此需要注意的是，测试的阳性和阴性预测值不仅取决于其敏感性和特异性，还取决于疾病的可能性之前测试完成（称为先验概率、先验似然，或流行率疾病）。这意味着，虽然检测的敏感性和特异性不因患者而异，但如果患者先前患病的可能性不同，阳性或阴性预测值也会不同。先验概率在解释测试结果中的重要性怎么强调也不过分。特别是，即使进行了相对特定的测试，较低的先验概率通常也会导致较低的阳性预测值。例如，以先前概率较低的疾病为例，比如5%。如果这种疾病的检测灵敏度为90%，特异性为90%，阳性检测的预测值是多少？经过一点计算，该测试对先前可能性为5%的患者的阳性预测值仅为32%。即使检测结果呈阳性，患者仍有68%的几率没有疾病！相反，如果先前的可能性为50%，则相同测试的阳性预测值为90%。低先验概率通常导致低阳性预测值。

如果上述计算让你感到惊讶，那么你可以理解，当医生被直观地要求修改自己的概率时，他们并不总是做得很好。因此，每个医生都应该能够在床边进行简单的概率计算。了解这些操作特性将使您能够执行诊断过程所需的概率修正。首先，根据病史和体检确定先前的可能性。然后获得诊断测试，并使用敏感性、特异性和先验似然计算测试的阳性或阴性预测值。该预测值成为修正后的疾病概率。这些计算可以用一个手持式计算器进行，只需计算抗生素剂量或肌酐清除率即可。下一章将更具体地介绍计算预测值的实际过程。

订购实验室测试的目的

获得测试的目的与诊断测试的选择及其解释有很大关系。对一家大型教学医院的医生进行的一项调查发现，大多数实验室检查排序都是由三个一般原因造成的：诊断（37%）、监测治疗（33%）和无症状疾病筛查（32%）。

目的一：诊断

为了将检测用于诊断目的，检测必须在很大比例的患者中呈阳性（高灵敏度），而在没有疾病的患者中则呈阴性（高特异性）。理想情况下，为了使该测试对诊断用途发挥最大作用，敏感性和特异性都应为100%。这意味着每个患有该疾病的患者都会进行阳性检测（无假阴性），并导致阴性预测值为100%。同样，阳性检测只会发生在疾病患者身上（没有假阳性），阳性预测值为100%。不幸的是，具有如此高灵敏度、特异性和预测价值的测试是前所未闻的。事实上，高灵敏度测试往往具有低特异性，反之亦然。然而，稍微考虑一下，就可以为您的特定诊断目的选择合适的测试。

有人可能会说，实验室测试有两种基本的诊断用途。第一个是当你想完全排除疾病时，第二个是当您想确认疾病时。更仔细地检查这些目的可以让你确定每次使用所需的测试特征。为了绝对确定患者没有疾病（排除），必须尽量减少假阴性检测，因此应使用高灵敏度检测。通过高度敏感的测试，阴性结果产生非常高的阴性预测值，本质上意味着绝大多数阴性结果的患者没有该病。相反，为了非常确信某个人确实患有该病（证实它），应尽量减少假阳性检测，这就需要进行非常具体的检测。通过这种测试，阳性结果的个体很可能患有这种疾病（高阳性预测值）。

一般来说，如果你想排除特定的诊断，选择一种高灵敏度的测试；如果你想确认诊断，选择一种高特异性的测试。您选择测试的特定诊断目的将决定最重要的操作特征、敏感性或特异性。然而，会有明显的权衡。由于敏感性和特异性往往呈负相关，因此如果检测结果意外阳性，则用于排除疾病的检测对确认疾病没有特别的价值。同样，如果选择阴性检测来确认该疾病，则对排除该疾病的帮助不大。

例如，考虑一种疾病，它有两种测试：测试a，非常敏感，但缺乏特异性；测试B，非常特异，但缺乏敏感性。此外，假设疾病发生的可能性约为50%（患者患此病的可能性为50%）。表5.1给出了根据每次测试的结果修改后的疾病概率。您可以看到，如果使用测试A，则可以排除疾病，但无法确认。如果此测试为阳性，则疾病的可能性仍然只有70%，而如果为阴性，则可能性一直下降到8%。相反，如果使用测试B，则可能确认诊断，但不可能排除该疾病。如果检测结果呈阳性，患病的可能性大于90%，但如果检测结果呈阴性，患病的可能性仍高达30%。记住，要确认疾病，选择一种特异性高的测试；为了排除疾病，选择一种高灵敏度的测试。

表5.1

使用两种不同诊断测试（一种高度敏感，另一种高度特异）对修正概率的影响。先前患病的可能性为50%测试A：灵敏度95% 特异性60% 测试B：灵敏度60% 特异性 （更多…）

目的2：监测治疗

这种用于诊断测试的例子比比皆是。每当为了跟踪治疗药物水平或观察副作用而重复测试时，它就被用于监测目的。在使用利尿剂患者的血清钾之后，使用非甾体抗炎药和氨基糖苷类药物的肌酐或急性胃肠道出血患者的红细胞压积都是监测用途。监测治疗药物水平是另一个例子。为此，敏感性、特异性和预测值的相关性不如可靠性和准确性。

监测血清值通常意味着重复测量。为此，可靠性至关重要。如果血清钾突然从4.2 mmol/L下降到3.5 mmol/L.，那么必须确信这代表了钾值的真实变化，而不仅仅是技术错误或随机变化。为此，需要进行高度可靠和准确的测试。如果你使用的特定测试不准确，那么知道钾水平是4.0 mmol/L也没什么好处。在这种情况下，真正的钾可能低至3.0或高至5.0。

为了进行监测，显著的操作特征是可靠性和准确性。

目的3：筛选

使用诊断测试进行筛查的目的是在疾病最早的症状前状态下检测疾病，而据推测，这种疾病的传播范围较小，更容易治疗或治愈。大多数筛查项目，如大便隐血筛查或乳房X光检查，旨在检测癌症，但也有其他针对青光眼、高血压或糖尿病等疾病的筛查项目。成功的筛查项目有很多标准，但这里我们关注的是产生良好筛查测试所必需的操作特性。

理想的筛查试验通常具有理想诊断试验的许多特征。敏感性、特异性和预测值均应接近100%。正如我前面提到的，这种测试并不存在。我们通常面临着在高灵敏度和高特异性测试之间的选择。当需要进行筛查测试时，这种选择意味着什么？

最初的趋势是使用敏感测试。由于这种测试几乎没有假阴性，因此具有很高的阴性预测值，这意味着很少有患者会被遗漏。不幸的是，这种测试（高灵敏度，低特异性）的阳性预测值很低，这意味着大多数阳性个体都是假阳性。当这种检测用于筛查大量人群时，相当多的人检测呈阳性，但只有少数人真正患病。请记住，根据定义，筛查人群中的个体先前患病的可能性相对较低。在这种低可能性人群中，阳性检测的预测值将很低。粪便隐血筛查就是这样，所有受试者中有2%至6%呈阳性，但只有5%至10%呈阳性的人患有结肠癌。由于阳性预测值仅为5%至10%，许多患者都要接受昂贵、不舒适或潜在危险的手术，以检测少数患有结肠癌的患者。但使用高度特定的测试也有其缺点。高度特异性测试的阳性预测值较高，但阴性预测值较低。检测阳性的患者中，癌症患者的比例较高，但检测出的癌症患者较少。在缺乏一种相对便宜且灵敏度高的测试的情况下和高度特异性，选择是在导致大量不必要诊断评估的敏感测试，还是导致相当大比例的患病个体未被检测到的特定测试之间进行。不幸的是，这里没有可依赖的一般规则。您的选择取决于患者是否能从早期疾病检测中受益，以及后续诊断评估的相对成本和风险。

表5.2总结了为这三个特定目的之一选择诊断测试时要使用的一般指南。请记住，在选择测试时牢记特定目的是很重要的，因为很少有测试具有满足每个目的所需的操作特性。

表5.2

根据目的选择诊断测试。

正常测试结果及其意义

大多数实验室如何定义为其结果提供的正常值？最常见的是，这组正常值是通过确定大量可能健康的志愿者的测试结果并绘制结果的频率分布来获得的。然后，通过计算该分布的平均值和标准偏差，并将处于平均值两个标准偏差内的任何值声明为正常值，从而确定正常范围(图5.3). 根据统计数据的定义，这个范围包括大约95%的正常个体。当正常人以这种方式被定义时，5%的正常人就自相矛盾地被宣布为异常！当你面对患者意外异常的测试结果时，这是一个需要记住的重要点。

图5.3

将诊断测试的正常范围确定为平均值的±2标准偏差。

一个正常人在任何给定的测试中有5%的机会被宣布为异常，这一事实具有重要的意义，尤其是当人们回忆起诊断测试通常是以12人、20人甚至更多的群体（或电池组）进行的。在如此大的诊断电池中，随着电池中测试次数的增加，任何一项测试出现异常的总体可能性都会增加。看一看表5.3证明了这一点。五次测试电池中任何一次测试出现异常的可能性为23%。这意味着大约四分之一的健康患者的检测结果会异常。随着测试次数的增加，概率异常的百分比更令人印象深刻。在一个40次测试的化学“屏幕”中，一组完全正常的结果的可能性只有13%！当您决定是否进一步调查大型测试电池的意外异常测试结果时，考虑这种机会偏差的可能性非常重要。此类调查可能会占不适当实验室测试所产生的不必要成本和风险的很大一部分。

表5.3

大型多重测试电池偶然发生异常测试的可能性。

当然，除了偶然性和意外疾病的存在之外，还有其他意外异常的原因。某些个体亚群与普通人群的正常范围存在系统性差异。例如，对于许多诊断测试，年轻人和老年人都有自己特定的正常范围。如果采用通常的正常范围，这些个体的很大一部分可能被宣布为异常。不同性别的人和不同种族背景的人也可能如此。¹那么，当面对意外的异常结果时，该怎么办呢？我的建议是重新考虑和检查病人。通过记录更集中和详细的病史，以及重复体检的某些部分，您可能会发现一些信息，根据意外结果，这些信息可能会增加您对潜在疾病的怀疑。如果这个过程确实揭示了新的信息，也许意外的结果可能反映了患者的真正异常。然而，如果不是这样，那么最好的策略可能是随着时间的推移仔细观察患者，重复相关的病史、身体状况以及单一的异常测试结果。如果患者出现症状或体征，或者如果检测结果变得越来越不正常，则需要进一步调查。当然，很难为每个意外的异常结果推荐特定的操作。相反，我的意图是要让人们意识到，许多，也许是大多数这样的测试结果是由于某些因素而非潜在疾病造成的。最好的做法往往是谨慎地“观望”，而不是盲目追求每一个异常价值，直至其代价高昂且往往令人沮丧的终点。

另一方面，一个正常的测试结果可能会提供比你想象的更多的信息。事实上，它可能和异常测试结果一样影响诊断概率。举个例子，想象一个患者，你正在考虑两种疾病的可能性，a和B。在疾病a中，血沉（ESR）几乎总是升高（80%的时间），而在疾病B中，它却异常升高（20%的时间）。如果a和B疾病的原始概率均为50%，正常的ESR将如何影响诊断可能性？看一看表5.4表明正常结果对诊断概率有显著影响。修正后的概率表明，如果血沉正常，B病现在的可能性几乎是a病的四倍。正常结果可以显著改变诊断概率。

表5.4

正常测试结果值。

即使是正常人也有测试结果分布的范围。异常个体也是如此，不幸的是，这些范围重叠。一旦了解了这种情况，很明显为什么许多测试的敏感性和特异性不能同时最大化。图5.4证明了这一点。在图5.4A，显示给定实验室测试中正常和异常个体的重叠范围。如果我们将“临界点”定义为测试结果异常的值，那么一定比例的正常个体将被宣布为异常（假阳性），一定比例的异常个体将被声明为正常（假阴性）。

图5.4

移动诊断测试的“切点”对假阳性（FP）和假阴性（FN）比例的影响。

如果试图通过改变截止点来提高测试的灵敏度，会发生什么？这可以通过向右移动截止点来实现，如图5.4B，减少假阴性的数量，提高灵敏度。不幸的是，将截止点向右移动，假阳性的数量会增加，降低特异性。只要正常和异常的分布重叠，就无法在不降低特异性的情况下提高灵敏度。²反之亦然。图5.4C表示试图通过向左移动截止点来增加特异性，以减少假阳性。这通过同时增加假阴性的数量而导致灵敏度降低。

遗憾的是，只要正常和异常分布重叠，任何通过改变截止点来提高灵敏度或特异性的尝试都会降低其他特征。这是大多数实验室测试的情况。然而，还有一个更光明的方面。请记住，所需的操作特性因不同目的而异。排除试验要求高灵敏度，而确认试验要求高特异性。因此，人们可以想象改变截止点，以使测试适合特定用途。如果测试用于排除规则，则可将截止点向右移动，以提高灵敏度；如果用于验证目的，则可以将截止点向左移动以增加特异性。只需调整截止点，即可使测试适用于任何一种目的。

总之，一个正常的测试结果比第一眼看到的要多得多。应怀疑意外的异常结果，尤其是当在表面健康、潜在疾病可能性低的个体中获得的大型测试电池中遇到异常结果时。另一方面，正常测试结果通常允许修改诊断概率。最后，为了使测试适合特定目的，可以更改任何给定测试的正常-异常截止点。

测试排序策略及其误用

本节讨论了医生常用的几种诊断测试排序策略。一些已经被证明是低效和昂贵的。

策略1：“常规”入院实验室测试

自从多通道化学实验室设备问世以来，对每一位入院患者进行实验室检查已经成为一种时尚。测试通常包括全血计数、凝血曲线、尿液分析、血清电解质、血清化学、心电图和胸片。这些测试是常规性的，不考虑实际的入院诊断或潜在的可能性。为证明这一过程的合理性，通常引用的两个原因是，这些测试有助于筛查无症状疾病，并有助于定义“数据库”，即一组基线数据，根据这些数据可以评估未来的变化。

一些研究人员对常规筛查入院测试进行了批判性研究。总的来说，正如我上面所描述的，问题是随着例行测试的数量增加，意外异常测试的可能性急剧增加。除了引起医生和患者的焦虑外，如果使用更昂贵的或有创性的验证性试验重复或调查这些异常试验，可能会导致进一步的费用。此外，这种异常结果，即使持续存在，有时对患者护理也几乎没有影响。一项研究发现，医生往往忽视异常筛查测试，如果继续进行，很少会导致阳性诊断。另一项研究调查了200名筛查测试异常的患者，发现只有3例这种异常导致症状前疾病的诊断。在其他情况下，通过仔细考虑患者的临床状态，可以在回顾中预测异常，或者重复测试后测试正常。杜布里奇（1976）对500名患者进行常规筛查入院检查的益处进行评估，并将其与其他两个类似规模的组进行比较，在这两个组中，要么没有获得筛查检查，要么获得了筛查检查，但除非独立咨询委员会要求或认为有必要，否则拒绝接受主治医生的检查。尽管实验室总成本增加了64%，医院总费用增加了5%，但没有发现任何益处。最近，哈贝尔（1985）研究常规胸部x光对患者护理的影响，发现结果只影响了4%的治疗，尽管x光是在心肺疾病高发人群中获得的。

因此，对常规检测的研究发现，尽管成本增加，但这种策略很少导致“新的”诊断或患者护理的巨大变化。然而，值得注意的是，我已经仔细定义了“常规”，即在你几乎没有证据怀疑潜在疾病的患者中进行的测试（即，之前患病可能性较低的患者，因为他们没有任何症状或体征提示患病）。在这些患者中，人们预计阳性检测的预测值很低，从而得出上述研究的结果。对于您有理由相信先前患病可能性较高的患者，应进行特定的入院检查，例如利尿剂患者的血清钾或镁、恶性肿瘤失控患者的胸部x光片或胸痛患者的心电图。对此类患者进行的检测并非出于常规或筛查目的；取而代之的是，它们是为了监测治疗或在高患病可能性患者群体中进行诊断而获得的。

数据库概念与常规筛查概念密切相关。许多医院，尤其是那些与培训计划相关的医院，都有一个明确的数据库，其中包括对每一位住院患者进行的一系列诊断测试。当该数据库用于筛查疾病时，该策略也会受到上述相同的批评。然而，许多医生使用数据库作为“基线”，将已知疾病和/或治疗引起的可能变化与之进行比较。一些例子包括对接受肾毒性抗生素或细胞毒性药物治疗的患者的肾功能进行测量，对使用利尿剂的患者的血清电解质进行测量，或对患有缺血性心脏病的高危患者进行心电图检查。在许多这样的情况下，数据库具有重要的用途。然而，请注意，该数据库不是“常规”数据库。它专门用于当前或未来异常可能性高于“常规”患者的患者或患者组，这是一种特定的监测实例。

如果您决定使用数据库，您应该记住以下几点。首先，不必每次患者入院时都重复完整的数据库。除非自上次入院以来发生的事件让您有理由相信某些数据库值已更改，否则最初获得的值可能就足够了。其次，不必为每个患者，尤其是非卧床患者获取相同的数据库。患有腹股沟疝气的健康26岁男性不需要与患有严重肺炎的76岁男性相同的数据库，这仅仅是因为他们在潜在疾病的可能性和预期监测需求方面存在差异。因此，获取或重复数据库的决定应该根据患者以及患者随时间发生的情况进行个性化。

总之，“例行”准入或重复的数据库测试并没有证实那些几十年前开发多通道测试设备时就开始提倡使用它的人的高期望。入院或数据库测试绝不应是例行的；相反，它应该根据个人或选定患者群体的不同需求进行调整。

策略2：“排除”测试

这个策略包括订购一到两个实验室测试，以便在一长串的诊断可能性列表中“排除”每种疾病。大多数情况下，当医生面临复杂的诊断问题和广泛的鉴别诊断时，如不明原因的发烧，排除测试成为许多概率陷阱的牺牲品。

排除策略的主要问题是它们忽略了先验概率。一项测试被要求调查每种疾病的可能性，而不管这种可能性有多大。由于使用这种策略进行的测试数量相对较多，一项或多项测试偶然出现异常的可能性很高。此外，鉴于许多实验室测试的特异性较差，任何一项异常测试的阳性预测值都会很低，尤其是在先前患病可能性较低的情况下。以这种方式使用排除测试时，通常会导致更多而不是更少的诊断不确定性。

通过根据患者的初步评估制定鉴别诊断，然后仅对那些被认为最有可能的疾病进行实验室检测，可能会制定出更好的策略。通过为这一“最可能”的可能性子集选择测试，可以确认诊断，而不需要花费不必要的费用，也不需要对整个列表进行调查。^三如果通过这样的测试排除了所有可能性，那么这个子集的修正概率下降，第二个子集的修正概率上升。调查的第二阶段包括订购实验室或诊断测试，以评估第二份清单。如果这些可能性都没有得到确认，那么就进入第三个子集，依此类推。这种策略可以称为“有序子集”策略。评估最初冗长的鉴别诊断的连续子集可以避免效率较低、成本较高的排除策略所涉及的多重测试和较差预测值的陷阱。

策略3：组合或并行测试

许多疾病都有两种或两种以上的检测方法，其敏感性和特异性各不相同。检测方法的选择，无论是高度特异还是高度敏感，都取决于人们是想确认还是排除这种疾病。为什么不同时使用这两个测试？这个策略被称为结合或平行测试。

想象一下，一种疾病的先验概率是50%。有两种测试，A和B，每种测试的敏感性和特异性不同。测试A非常敏感（95%），但特异性较低（90%）；测试B敏感性低（80%），但特异性高（95%）。您决定使用这两种测试。此外，如果任何一个测试A或测试B为阳性。表5.5显示了这种平行测试组合的敏感性和特异性。以这种方式使用时，联合检测的灵敏度高于单独检测的灵敏度，但特异性要低得多。在这种组合中使用测试通常会导致敏感性增加和特异性降低。因此，这些组合的阴性预测值通常会非常高，但与任何一种单一测试相比，阳性预测值会非常低。⁴

表5.5

测试组合对灵敏度和特异性的影响。

您是否选择此策略取决于您的目的。如果你想排除疾病，平行组合可能会有用，因为它们的负预测值很高。如果你的目的是确认疾病，那么平行组合的低阳性预测值可能不合适。组合测试在临床医学中很常见，例如“肝功能测试”（SCOT、总胆红素、碱性磷酸酶和白蛋白）或“排除心肌梗死”（CPK、SGOT、LDH）电池。

无论你的目的是什么，记住组合是总是比单个测试更昂贵。因此，使用组合的决定不仅受到概率因素的影响，还受到成本的影响。

策略4：重复测试

有两种情况下重复进行相同的实验室检查：一种是检测结果异常，另一种是常规要求进行多次检测，如连续粪便潜血检查或连续血液培养。在某些方面，这种策略类似于组合测试，只是使用了同一测试的多次重复，而不是不同测试的组合。

当使用这种策略时，临床医生面临着两个规则之间的选择：“相信阳性”或“相信阴性”。第一个规则是，重复测试中的任何阳性测试都用来确认诊断，而第二个规则是用测试集中的任何阴性来排除诊断。这些规则如所示表5.6用于重复两次的测试。决定使用哪条规则可能比看起来要困难得多。一般来说，“相信阳性”规则往往会以牺牲特异性为代价增加敏感性，因为在多次重复中，假阳性结果比假阴性结果更有分量。同样，“相信否定”规则往往以牺牲敏感性为代价来增加特异性。“简单地”重复一个异常测试的经常反复行为可能并不像我们想象的那么简单！⁵

表5.6

重复实验室试验规则。

结论

诊断测试的大量误用和误解是由于医生并不总是能够直观地管理大多数实验室测试提供的概率信息。诊断过程是一个连续的概率修正过程。了解实验室测试的操作特征（即敏感性、特异性和预测值）可以极大地促进这一过程。通过对这些操作特性的熟悉使用，可以根据诊断、监测和筛查的特定目的定制测试选项。此外，这种使用允许对正常测试结果进行适当解释，以及区别使用常见策略，如筛选、排除测试、重复测试和组合测试。

工具书类

Berwick DM，Fineberg HC，Weinstein MC。当医生遇到数字时。美国医学杂志。1981;71:991–98.[公共医学: 7315859]
Borak J，Veilleux S.医生的直觉逻辑错误。社会科学与医学。1982;16:1939–47.[公共医学: 7157027]
Bradwell AR、Carmalt MHB、Whitehead TP。解释生化剖面调查的意外异常结果。柳叶刀。1974;1:1071–74.[公共医学: 4138109]
Casscells W、Schoenberger A、Graboys TB。医生对临床实验室结果的解释。N英格兰医学杂志。1978;299:999–1001.[公共医学: 692627]
Christensen-Szalanski JJ，Bushyhead JB公司。医生对正常结果的误解。医学决策。1983;三:169–75.[公共医学: 6633186]
Collen MF、Feldman R、Siegelaub AB等，自动化多相筛查每阳性检测的美元成本。N英格兰医学杂志。1970;283:459–63.[公共医学: 5434112]
Connelly D，Steele B。实验室利用：问题和解决方案。病理学实验室医学档案。1980;104:59–62.[公共医学: 6892549]
Detmer DE、Fryback DG、Gassner K.医疗决策中的启发式和偏见。医学期刊。1978;53:682–83.[公共医学: 682163]
Dixon RH，Laszlo F.医务人员对临床化学服务的利用。内科实习生档案。1974;134:1064–67.[公共医学: 4433187]
Durbridge TG、Edwards F和Edwards RG。等。入院后立即进行筛查试验的益处评估。临床化学。1976;22:968–71.[公共医学: 1277526]
Elstein AS、Shulman LS、Sprafka S等。医疗问题解决：临床推理分析。剑桥：哈佛大学出版社，1978年。
Elveback LR、Guillier CL、Keating FR。健康、正常和高斯的幽灵。JAMA公司。1970;211:69–75.[公共医学: 5466893]
Fineberg高压。临床化学：低成本诊断测试的高成本。摘自：Altman S，Blendon R，eds.医疗技术：医疗成本背后的罪魁祸首？DHEW出版物（PHS）79–3216。华盛顿特区：GPO，1979年。
福特HC。临床实验室的使用和滥用。新西兰医学杂志。1978;88:16–18.[公共医学: 284228]
Freeland MS，Schendler CE。20世纪80年代国家卫生支出增长：人口老龄化、新技术和竞争加剧。医疗保健融资审查。1983;4:1–58.[PMC免费文章：PMC4191308] [公共医学: 10309852]
Galen RS，Gambino SR.超出正常：医学诊断的预测价值和效率。纽约：约翰·威利，1975年。
乔治亚州戈尔里、普克SG、施瓦茨WB。正常发现的诊断重要性。N英格兰医学杂志。1978;298:486–89.[公共医学: 622139]
Griner PF、Glaser RJ。实验室测试和诊断程序的误用。N英格兰医学杂志。1982;307:1336–39.[公共医学: 7133071]
Griner PF，Liptzin B.教学医院实验室的使用。Ann医学实习生。1971;75:157–63.[公共医学: 4997641]
Griner PF、Mayewski RJ、Mushlin AI.等人。诊断试验和程序的选择和解释。Ann医学实习生。1981;94:553–600.[公共医学: 6452080]
Hubbell FA、Greenfield S、Tyler JL。等。常规入院胸片对患者护理的影响。N英格兰医学杂志。1985;312:209–13.[公共医学: 3965947]
Kassirer JP，Gorry GA。临床问题解决：行为分析。Ann医学实习生。1978;89:245–55.[公共医学: 677593]
Moloney TW，Rogers DE.医疗技术——对成本争论的不同观点。N英格兰医学杂志。1979;301:1413–19.[公共医学: 117359]
政治家P.可靠性、决策规则和重复测试的价值。医学决策。1982;2:47–69.[公共医学: 7169931]
Schneiderman LJ、DeSalvo L、Baylor S.等。“异常”筛查实验室结果。内科实习生档案。1972;129:88–90.[公共医学: 4550299]
Schoen I，Brooks SH.基于95%置信限的判断。美国临床病理学杂志。1970;53:190–95.[公共医学: 5415907]
Schottenfeld D.癌症筛查的基本问题。作者：Winawer S.Schottenfeld D，Sherlock P，eds.结直肠癌：预防、流行病学和筛查。纽约：Raven出版社，1980:167-74。
西蒙·巴蒂斯特。结直肠癌隐血筛查：一项重要综述。胃肠病学。1985;88:820–37.[公共医学: 3917961]
Snapper KJ、Fryback DG。基于不可靠报告的推断。实验心理学杂志。1971;87:401–4.
Weinstein MC，Fineberg HV公司。临床决策分析。费城：W.B.桑德斯，1980年。
Weintraub WS、Madeira SW、Bodenheimer MM等。贝叶斯定理在冠状动脉疾病无创诊断序贯测试中应用的关键分析。Am J Cardiol公司。1984;54:43–49.[公共医学: 6741837]
Wertman BG、Sostrin SV、Pavlova Z.等人。为什么医生要求进行实验室检查？JAMA公司。1980;243:2080–82.[公共医学: 7373751]
Wong ET，Lincoln TL.准备好了！着火了…瞄准！对实验室测试的调查。JAMA公司。1983;250:2510–13.[公共医学: 6632145]

脚注

1: 虽然很少，但也有例外。男性和女性的血红蛋白和红细胞压积的正常范围不同。此外，许多测试对儿童和成人年龄组有不同的正常范围。术语成年人，然而，它本身就有很大的年龄范围，正常的实验室值会有很大的差异。
2: 回忆一下灵敏度等于
如果假阴性的数量减少，则敏感性增加。同样，特异性等于
如果假阳性增加，则特异性降低。反之亦然：增加假阴性会降低敏感性，而减少假阳性会增加特异性。
三: 此处可能会考虑概率以外的其他因素。也许最重要的是需要在疾病发生的早期诊断某些疾病，因为即使是短暂的延误也可能危及生命。这种疾病的可能性可能会促使诊断测试，即使可能性很低。
4: 该分析基于条件独立性假设。基本上，这个假设表明，任何给定测试的敏感性和特异性都与任何其他测试的结果无关。这种假设可能并不总是合理的。
5: 《政治家》（1982）详细讨论了这个问题，它可能会更加复杂。如果考虑疾病和非疾病人群的测试可靠性，这些规则可能会增加或减少敏感性和特异性！

书架编号：NBK372PMID：21250213