摘要

太多关于基因变异与常见癌症部位和其他复杂疾病之间关联的报告都是假阳性。造成这种不幸情况的一个主要原因是基于P(P)仅价值,尤其是任何P(P)值低于.05。假阳性报告概率(FPRP),即在具有统计意义的发现下,基因变异与疾病之间没有真正关联的概率,不仅取决于观察到的P(P)值,但也要考虑到遗传变异与疾病之间关联真实的先验概率和测试的统计能力。在这篇评论中,我们展示了如何评估FPRP以及如何使用它来决定一项发现是否值得关注或“值得注意”。我们展示了这种方法如何能够改进分子流行病学研究的设计、分析和解释。我们的建议可以帮助研究人员、编辑和研究文章的读者避免过度解读统计意义重大的发现,这些发现可能并不意味着真正的关联。基于FPRP的判定是否值得注意的标准将调查人员已经非正式使用的过程正式化,也就是说,在考虑合理性的情况下,缓和对显著研究结果的热情。

基因组革命为了解癌症和其他复杂疾病的病因提供了激动人心的机会。我们现在面临着一项艰巨的任务,即搜索数量惊人的遗传变异,以确定其中少数与这些疾病的病因有关的变异。

即使对于大型、设计良好且执行良好的研究,最初的“统计显著”发现也很有可能成为假阳性发现(18)是我们所面临问题的一个症状。例如,Colhoun等人。(8)据估计,在基因变异与疾病之间的关联研究中,假阳性发现的比例至少为.95。当然,不可能知道明显的假阳性发现中归因于不良研究设计的比例[可能是中等的(6,9)],人口分层[可能较低(6,10)]或旨在复制积极结果的研究的统计能力低(7,11); 然而,即使完全消除了所有来源的偏见,大多数关于基因变异与疾病之间关联的报告也没有真正关联的可能性P(P)略低于0.05的数值将保持高位(2,5,6,8)我们称之为无关联概率,因为在统计上有显著意义的发现为假阳性报告概率(FPRP)。FPRP的精确定义和本文中使用的简单数学可以在附录中找到。

在没有偏见的情况下,有三个因素决定了统计上有意义的发现实际上是假阳性发现的概率。首先是P(P)价值(2,8,1214)第二,但不太受重视的是统计能力(2,8,14,15)这通常很低,因为除了少数例外,与疾病真正相关的遗传变异的比值比小于2,或者遗传变异不常见。第三,但最重要的是我们(6,14)和其他(2,8,15,16)注意到,是被测试的假设中正确的一部分。在这篇评论中,我们展示了如何1)根据FPRP的三个决定因素计算FPRP,以及2)基于FPRP制定一个标准来评估研究结果是否值得注意。然后,我们演示了如何将这种方法用于分子流行病学研究的设计、分析和解释。

E类病因学F类阿尔塞-P(P)积极的F类印度

假阳性问题的历史概述

最早的分子流行病学研究旨在测试有希望的假设。尽管这些研究中有许多都是小规模的,但大多数都是为了在特定基因重要性的有力生物学证据的基础上,以及在一定程度上,对特定基因变体的功能(例如GSTM1基因缺失的作用)进行假设测试(17)和NAT2缓慢乙酰化(18)膀胱癌的基因型。研究整个基因组、染色体区域,甚至单个通路中的多个基因是不可行的。然而,现在的技术进步,包括更低的成本、所需DNA数量的减少、高通量平台和精细单倍型结构的更好注释,使研究人员能够超越对最有希望的单核苷酸多态性(SNP)的少数假设的测试最有希望的候选基因用于测试数千个功能尚不明确或未知的基因中的几个单倍型和SNP。即使任何特定基因中的单个SNP不太可能导致复杂疾病,所有基因中的所有变异全部可能仍然对该病的病因起着重要作用。因此,我们现在面临的挑战是如何利用这些技术机会,加快癌症遗传原因的识别和确认,同时最大限度地减少假阳性结果的数量,进而减少其后果。

FPRP的决定因素

三个因素决定了FPRP的大小(看见方程式1附录):1)受试基因变体与疾病真正关联的先验概率π,2)α水平或观察到的P(P)值,以及3)在给定α水平上检测替代假设的比值比的统计能力,或者P(P)值。统计能力本身是基于样本大小、风险基因变异的频率以及替代假设下假定关联的特定比值比。高FPRP(例如>.5)可能是低先验概率、低统计功率或相对较高的任何组合的结果P(P)值。

不同场景下的FPRP

目前分子流行病学研究的实践是为α水平设定一个任意值,通常为.05,并将遗传变异与疾病之间的关联称为P(P)α以下的值具有统计学意义。图。1结果表明,在三个或更多数量级的范围内,最可能和最不可能的假设(通常被测试)之间的先验概率水平差异对FPRP有很大影响。在中等先验概率下,即使对于具有合理统计能力的研究,当观测到P(P)值接近.05。尽管通过增加统计功率,可以在中到高先验概率(即0.10–0.25)下大幅降低FPRP,但先验概率低于0.01时,FPRP将较高,即使最大统计功率为1(即图中的蓝色曲线)。1). 当统计功率高于0.8时,FPRP的减少很小,因此,即使样本量显著增加,尤其是在低先验概率下,FPRP也会减少。因此,增加病例患者和对照组受试者的数量可以在较高的先验概率下显著降低FPRP,但在先验概率较低时仅提供边际效益(图。2). 遗传变异的频率也会影响统计能力,从而影响FPRP。图。显示了一项对1500例患者和1500名对照受试者进行的研究中,当α=.05时,三个先前概率的等位基因频率范围内的FPRP。当考虑优势比1.5(相当于罕见疾病的风险比[RR])的统计能力时,研究不太常见的遗传变异的统计能力越低,FPRP越高(看见附录,电子表格步骤2)。

观察到的下限P(P)该值还降低了FPRP(图。4). 然而,相等P(P)由于先验概率和统计功率对FPRP的影响,这些值可以对应非常不同的FPRP。例如,图。4,一个P(P)在1500名病例患者和1500名对照受试者的研究中,0.00024的值将达到0.2的FPRP;然而,相同的P(P)在一项对300名病例患者和300名对照受试者进行的小型研究中,FPRP值为0.72。

一项大型研究可能比一项小型研究具有更大的统计能力,以实现宣布一项值得注意的发现所需的FPRP。例如,图。5一项针对1500名患者的研究比针对300名患者的调查具有更大的统计能力,以使FPRP低于0.5。

上述示例表明,基于在α0.05水平上拒绝零假设的统计显著性通用标准的当前实践在真实关联的先验概率范围内是站不住脚的,即使最大统计幂为1。因此,当我们测试越来越不可能的假设时,即使是无限大的样本量本身也不会显著降低FPRP。

U型唱一首FPRP C公司标准T型测试A类联合B类在a之间G公司遗传的变体或H(H)aplotype和D类疾病R(右)风险

SNP分析

以上,我们在一系列场景中探讨了FPRP的决定因素。现在,我们提出了一个四步程序,其中决定SNP与特定疾病之间的特定关联是否值得关注或值得注意。

1.为每个假设预设FPRP值得注意的值。宣布一项发现值得注意的普遍价值可能不合适;FPRP值的严格性应该取决于统计功率(图。5)以及潜在错误决策造成的损失(负面后果)的大小。对罕见肿瘤(如儿童癌症)的研究或对常见肿瘤的小型初步研究的FPRP值可能应为0.5或以上;鉴于分子流行病学文献中对整体FPRP的一些估计接近0.95(8)FPRP值接近0.5表示与当前实践相比有了实质性改进。我们认为,试图对假设进行更明确评估的大型研究或集合分析应使用更严格的FPRP值,可能低于0.2。

2.在查看研究结果之前,确定假设的先验概率。假设的先验概率可以简单地作为对以下问题的主观回答:“遗传变异(用于SNP分析)或基因(用于单倍型分析)与疾病之间有意义关联的概率是多少?”;然而,在某些情况下,较低的赔率是有道理的。

在缺乏流行病学数据的情况下,确定先验概率应结合基因和特定遗传变异的基因组和功能数据中的现有信息。例如,一个SNP导致一个被认为在疾病发病机制中起重要和速率控制作用的基因编码区发生非保守变化,其先验概率比基因中的同义SNP高(19)其中有一个冗余机制,至少可以部分补偿系统某个组件的故障(20)然而,基因的相关性通常比SNP的类型更重要(16);即使是同义SNP也会改变mRNA的稳定性和基因表达(21)或可能与功能重要的SNP处于连锁不平衡状态。

人们可以使用简单的假设来确定一个合理的较低范围,即位于基因内的随机选择的非同义变异确实与复杂疾病相关(8)如果3万个已知基因中的功能性变体数量在5万到25万之间,并且1到5个SNPs会导致疾病(22),先验概率可以设置在0.0001和0.00001之间。相比之下,具有功能数据的基因变体暗示可能存在关联的先前概率,可能来自基因敲除动物或在体外观察到,与疾病风险真正相关的可能在0.01–0.001范围内。

SNP或基因与疾病之间的关联或联系的现有流行病学数据也应影响先验概率。研究的质量(23)统计能力和P(P)测试值应影响流行病学证据的权重。也可以使用来自可能相关病因的疾病的数据。例如,有证据表明同一遗传变异与乳腺癌之间存在关联,可能会增加遗传变异与卵巢癌之间关联的先验概率。然而,数据不能“计数”两次;例如,在荟萃分析中,研究人员必须特别注意先验概率的规定与分析中使用的数据无关。

使用这种方法既不可能也不需要为特定假设指定精确的先验概率。将遗传变异分配给几个先验概率范围中的一个,而不是任何特定值,应该足以确定那些可能是稳健的发现。例如,每个先验概率类别的范围可以是10倍;事实上,简单地将先验概率指定为高(≈0.1)、中等(≈0.01)或低(≈0.001)就足够了。

或者,对选择先验概率的主观性感到不舒服的调查人员有其他选择;他们可以从类似研究中复制率的经验证据开始(,4,7,8)然后根据其他可用信息增加或减少假定的先验概率。此外,不愿意指定先验概率的研究人员可以对各种先验概率对FPRP的影响进行简单的敏感性分析(看见附录,电子表格步骤2)。

选择先验概率的做法可能并不像看上去那么陌生。研究人员已经非正式地使用先验概率来决定是否启动研究,研究哪些基因,以及如何解释结果。我们相信,在看到研究结果之前正式开发先验概率本身可以导致解释研究结果相对于当前科学实践的实质性改进。

3.指定应计算统计能力的优势比和遗传方式。在复制遗传变异与特定疾病之间的更多关联之前,我们主张使用统计能力来检测FPRP计算中风险较高的等位基因的比值比1.5[比值比1.5是重要生物效应的可信值(17,18)]. 在统计能力增加几乎没有影响的情况下,例如当统计能力已经超过0.8且先验概率远小于α时,选择大于1.5的比值比,FPRP的减少将很小。然而,通过指定更接近1的比值比,统计能力和FPRP可能会受到不利影响。

如果SNP具有未知的功能并且没有流行病学数据,那么在统计功率计算中指定遗传模式的依据就很少。也许显性模式是最合理的,前提是携带一个和两个遗传变异副本之间的差异对比值比的影响可能小于携带零个和一个遗传变异拷贝之间的差异。研究人员可能希望评估改变假定的遗传模式是否会大大改变FPRP。

4.研究完成后,确定该发现是否值得注意。使用标准软件计算比值比和95%置信区间(或比值比和P(P)值),以确定遗传变异与疾病之间的关联。根据观测值计算FPRPP(P)使用FPRP计算电子表格计算值、统计功率和先验概率(看见附录)。确定估计的FPRP值是否低于预先指定的FPRP数值。此外,在一系列先验概率上报告FPRP值可以通知假设与作者不同的先验概率的读者,并可以评估FPRP值对不同假设先验概率的敏感性。

根据报告的奇数比和置信区间计算SNP的FPRP

FPRP计算电子表格(看见附录)可以帮助审阅者、编辑和读者计算FPRP值,当P(P)比值比的值或置信区间可用,但不使用FPRP方法。调查可以使用电子表格自行确定是否认为文献中的某项发现值得注意。

单倍型分析

在研究单倍型时计算FPRP需要一些额外的考虑。如果不了解SNP在一个或多个单倍型中的功能,则先前的概率将应用于基因或位点作为一个整体,因此将大于每个单个SNP的先前概率(8)因此P(P)值可以从综合测试中获得(24)在综合检验中,无效假设是所有单倍型的疾病风险相同,另一个假设是至少一种单倍型疾病风险不同于其他单倍型。另一种假设可以获得统计能力,例如一种更常见单倍型携带者的比值比为1.5,以最常见的单倍型为参照。

D类设计暗示:FPRPS公司充足的S公司尺寸

图。6显示了如何使用FPRP考虑因素来确定样本大小。数百名病例患者和对照受试者的样本量将达到0.8的统计功效,以检测到中等频率遗传变异的比值比为1.5,当先前概率为0.25时,FPRP值为0.2。有趣的是,实现具有高先验概率的低FPRP所需的样本量与具有相同统计功率和0.05α水平的标准样本量计算类似。例如,对于q个=3,统计幂为0.8,检测比值比为1.5,先验概率为0.25的0.2的FPRP所需的样本量为389(图。6,棕色线),非常接近426,即当α=.05时的标准样本量(图。6,黑色虚线)。

E类示例A类应用FPRP A公司接近R(右)中的报告L(左)迭代

Kuschel等人。(25)最近报道了一项针对2200例患者和1800名对照受试者的病例对照研究中,涉及修复双链DNA断裂和乳腺癌的七个基因中16个SNP的结果。他们的文章强调了XRCC3中的两个多态性,XRCC2和LIG4中各有一个多态性以及基于三个SNP的XRCC3单倍型分析。我们使用Kuschel等人文章中的数据来演示FPRP方法的应用。在我们对Kuschel等人的数据进行分析时,我们将FPRP值指定为0.5,因为该值将为发现重要SNP提供较高的统计能力,并且该领域的其他大型乳腺癌研究很快将提供更多数据来说明这些基因的贡献。

为了确定这些基因的先验概率,我们考虑了之前的一项发现,即BRCA2(一种DNA双链修复基因)的遗传变异与乳腺癌风险相关(26)根据XRCC3基因遗传变异与其他肿瘤之间关联的证据(27)特别是皮肤黑色素瘤和膀胱癌,我们分配了一个相对较高的先验概率范围(即0.01–0.1)。然后,我们为四种遗传变异中的每一种制定了一系列先验概率(见表1)考虑到以前的报告,即这些特定基因中的遗传变异与其他癌症相关,遗传变异的类型及其在编码或非编码区域中的位置,以及功能数据(如果可用)。对于每个遗传变异,FPRP值使用估计的先验概率范围、检测优势比1.5(或其倒数0.67)的统计能力和报告的结果(使用估计的优势比和P(P)值)。附录中显示了一个SNP在主要继承模式下的FPRP计算电子表格。

在我们考虑的四种遗传变异中,A的FPRP值XRCC3在nt 17893的G SNP是我们选择的先验概率中唯一低于.5的FPRP值(表1). C类XRCC3在nt 18067时的T SNP较高P(P)值、类似的统计功率以及与A相同的先验概率范围XRCC3第17893页的G SNP;因此,其FPRP值较高,不太可能代表真正的关联。尽管如此,我们选择不突出XRCC2和LIG4 SNPP(P)值低于.1,因为考虑到我们先前的概率范围,将导致较高的FPRP值。对于高先验概率,LIG4 SNP结果的FPRP值比XRCC2 SNP低得多,尽管其报告P(P)值类似。这种情况是由于LIG4 SNP比XRCC2 SNP具有更大的统计能力来检测值得注意的发现。使用附录表1,研究人员可以将他们自己的先验概率范围分配给已发表的数据,为每个遗传变异选择FPRP值,并对先验概率对FPRP的影响进行敏感性分析。

Kuschel等人。(25)还使用单倍型分析来研究XRCC3基因中的遗传变异对乳腺癌风险的影响。他们给出了7个单倍型与任意基线的配对优势比,但我们更喜欢用综合的X平方检验来分析单倍型数据(24),该值为34,具有七个自由度P(P)0.000016的值(表1). 对于这个先验概率范围,FPRP值非常低,并且即使在低先验概率下也非常稳健——也就是说,即使在先验概率为0.0001的情况下,FPRP的值仍保持在0.5以下。这种解释表明,XRCC3基因可能包含一个或多个增加乳腺癌风险的基因变体。

D类震荡

分子流行病学研究准备利用更便宜、更快的实验室平台来分析更多基因中的许多SNP。然而,继续依赖该标准P(P)0.05的值标准来定义统计显著性,而不考虑功率或先验概率,这将使我们面临过多的误报。显然,我们需要一种新的方法来决定在结果中突出哪些发现。使用更低的P(P)基于多重比较的价值校正程序将导致具有高先验概率的假设以及收集大量病例不可行的疾病研究的不必要的低功率。限制我们对更合理的假设进行评估将消除数千个基因和SNP中新的、不可预测的发现的机会。相比之下,我们建议直接根据发现不代表真实关联的估计概率来决定是否值得关注或值得关注。因此,我们的方法允许假设的先验概率、研究的威力、对错误阳性决策的容忍度以及P(P)值,在决定某个发现是否值得注意方面发挥作用。

FPRP方法本质上是贝叶斯方法,因为它将直接观察研究结果的数据与真实关联可能性的其他信息进行了正式整合。大多数贝叶斯方法关注比值比的后验分布;然而,相比之下,FPRP方法保留了人们熟悉的发现的二分法(8,28)那些值得注意的和那些不值得注意的。此外,与大多数贝叶斯方法不同,FPRP方法不需要指定优势比的先验概率分布,这比仅指定先验概率更具挑战性,尤其是当对所研究的许多SNP知之甚少时。此外,FPRP和后验概率补集(从贝叶斯分析中获得)都是无关联的条件概率;然而,它们取决于不同的数据。也就是说,FPRP是以发现满足所谓值得注意的标准为条件的,并且没有另行定义,但后验概率的补充是以所有数据为条件的并且总是定义的。此外,我们对FPRP的计算是特定于替代假设的,包括遗传模式和特定优势比,对其进行统计能力计算。我们认为,尽管贝叶斯方法具有一些重要优势,但使用FPRP方法评估证据比标准贝叶斯法更容易理解,所需的假设和技术专业知识更少;因此,FPRP方法似乎更有可能被研究人员迅速采用和使用。

FPRP方法的一个潜在限制是分配先验概率范围的挑战。然而,研究人员已经非正式地使用先验概率来决定要进行哪些实验、哪些研究要进行实地调查、哪些特定假设要在这些研究中进行测试,以及解释结果。有了更多的经验,调查人员应该能够更好地确定先验概率。然而,同时,对先验概率进行粗略分类,将其分为低、中、高,或者对FPRP在一系列先验概率中的敏感性分析,应该是对完全依赖统计显著性的当前实践的改进。考虑先验概率的另一个重要好处是,研究人员被迫在看到自己的研究结果之前评估现有证据。

在发现被认为是真实的之前,要求在第二项研究中复制第一个具有统计学意义的关联,也可以降低假阳性的百分比。当假阳性很可能是由于设计偏差或现场工作不佳所致时,这是一种特别有用的策略。然而,如果假设多个研究的结果都是有效的并且可以合并,那么使用统计显著性的单独测试并不是根据可用数据做出决策的最佳方法。相反,FPRP方法适用于汇总分析或荟萃分析的结果,就像它适用于单个研究一样。

已经使用或提出了其他几种分析方法来减少假阳性结果的数量。Risch和Merikangas讨论的Bonferroni修正(29),以及更强大的错误发现率方法(30,31)根据所执行的测试总数降低α水平,以便任何真零假设被拒绝的概率保持在指定值,通常为0.05。Colhoun等人。(8)最近建议将统计显著性的标准值(即α水平)从.05降低到0.0005或0.00005,以实现20∶1的真阳性与假阳性报告比率,前提是假设(基于复制分数的经验证据).02是一个现实的先验概率。标准贝叶斯和经验贝叶斯方法产生后验分布。大多数经验贝叶斯方法使用每个SNP的优势比的经验分布来确定先验概率,而不考虑某些SNP比其他SNP更有可能与疾病相关;然而,一些方法(32)一定要允许先验概率不同。

与其他非贝叶斯分析方法相比,FPRP方法最重要的优点是它直接解决了文献中对过多假阳性报告的担忧(1)因此,决定遗传变异与疾病之间的关联是否值得注意,除了取决于P(P)值。我们认为,设置低α水平是实现低FPRP所需目的的一种间接而低劣的方法,因为即使观测值较低,FPRP也可能较高P(P)先验概率较低时的值。此外,坚持非常低的P(P)当先验概率较高时,在任何发现被认为具有统计意义之前的值可能会不必要地降低统计能力,从而限制对具有罕见遗传变异的疾病或对大样本研究不现实的疾病的研究。相比之下,FPRP方法允许对罕见遗传变异和疾病的关联进行即使是相对较小的研究或分析,也可以通过提供一种方法来仔细和明智地考虑其结果,从而为该领域做出贡献。

FPRP方法的灵活性提供了几个好处。首先,FPRP方法对于低先验概率的假设尤其有用,包括广泛的数据挖掘工作,例如全基因组扫描、亚组分析和基因-基因和基因-环境交互作用测试,因为它可以导致对令人惊讶的发现进行更谨慎的解释。第二,研究人员可以允许错误阳性和错误阴性决策的统计能力和损失影响FPRP值得注意的标准。第三,在决定是否需要进一步调查时,研究人员可以考虑假阴性报告概率(Wacholder S:未发表的数据),即在发现不值得注意的情况下,基因变异与疾病之间真正关联的概率。最后,FPRP单独整合了每个假设的证据,而不受外部因素的影响,例如有多少(33)或者其他假设也在评估中。事实上,允许两对先验概率之间相互关联的泛化将允许同一途径中遗传变异的影响相互关联,例如修复双链DNA断裂,从而根据疾病与同一途径中的另一遗传变异之间的明显关联强度,增加或减少一个遗传变异的FPRP。

关注FPRP有助于阐明研究设计、分析和解释分子流行病学研究中的问题。到目前为止,根据α水平为0.05的统计测试,研究人员几乎普遍表示这些发现在通常意义上具有“统计显著性”或“值得注意”。事实上,当流行病学研究或临床试验的主要假设的先验概率足够高,足以证明研究本身的合理性时,这种策略是有效的。例如,在一项统计幂为0.8的研究中,当P(P)该值略低于0.05,即0.06(先验概率为0.5)和0.36(先期概率为0.1)。然而,随着技术的最新进展,高通量、低成本的基因分型可以证明启动旨在评估许多SNP的分子流行病学研究是合理的,即使大多数或所有单个假设的先验概率都很低。

最直接的是,FPRP方法为发表和解释研究结果提供了指南。它为文章的编辑和读者提供了一种方式,以保护自己不被统计上的重大发现所误导,而这些发现并不意味着真正的关联。此外,用于解释初始发现的FPRP框架可以指导研究人员决定是尝试复制分子流行病学研究,还是通过发展在体外模型系统。最后,FPRP方法有助于将研究人员通常非正式地做的事情正规化,也就是说,在考虑合理性的情况下,缓和对令人惊讶的研究结果的热情。

A类附录

什么是假阳性报告概率?

为了理解误报概率(FPRP),首先考虑由零假设的真或假定义的四个联合概率(H(H)0),与统计测试结果相矛盾T型属于H(H)0我们假设关联性度量,即比值比或相对风险(RR),采用两个可能值之一,相对应力0在基因变异之间无关联的无效假设下=1(G公司)和疾病(D类)和相对应力A类在替代假设下(H(H)A类).

应用生物统计学课程中最常用的经典频率统计理论并没有具体讨论这些概率。在经典理论中H(H)0H(H)A类被认为是未知的,而不是随机的。因此,我们必须走出经典理论考虑H(H)0H(H)A类概率上。我们将先验概率(π)定义为π=Pr(H(H)A类为真)。在这个公式中,我们使用了统计大小(即零假设下的拒绝概率)和统计功率的频率概念。统计测试T型具有用于测试的统计大小αH(H)0当拒绝H(H)0定义为T型>z(z)α和Pr(T型>z(z)α|H(H)0为true)=Pr(拒绝H(H)0|H(H)A类为假)=α。统计功率用1−β表示,Pr(T型>z(z)α|H(H)0为false)=Pr(拒绝H(H)0|H(H)A类为真)=1−β或当替代假设时拒绝的概率H(H)A类是真的。请注意,当更低、更严格的统计大小α和更大z(z)α使用。

我们将标准统计显著性检验的FPRP定义为Pr(H(H)0是真的|关联被认为具有统计意义)=Pr(H(H)0为真|T>z(z)α),其中z(z)α是标准正态分布的α点。α水平、统计大小和FPRP之间的区别至关重要;α水平是指在假设零假设为真的情况下,发现具有统计意义的结果的概率,而FPRP是假设统计检验具有统计意义时,假设零假设成立的概率。

附录表1给出了随机选择一个SNP进行测试时,单个关联检验的统计显著性和替代假设的真实性的联合概率。

因此,
\[\mathrm{FPRP}\{=}\{\alpha}(1\{-}\{\ pi})/{[}\alpha{(1\\{-}\{\pi}测试})/{\alpha}{]}{\}}

从这个方程可以看出,当α远大于π时,FPRP总是高的,而当1−β较低时更是如此。

为了说明这一点,请考虑在分析疾病与从1000个可供测试的SNP中随机选择的SNP之间的关联时,阳性发现是错误的可能性。允许统计测试的最大幂为1,标准α水平为0.05(附录表2). 如果这1000个SNP中只有一个与疾病相关(即π=.001),那么真正关联和关联检验被拒绝的概率为.001=(.001×1),而没有关联和拒绝零假设的概率为.04995=.999×.05;拒绝的总概率为.05095=(.001+.04995)。因此,具有统计学意义的发现代表真实关联的可能性只有2%,也就是说,以拒绝测试为条件;仍有98%的机会没有关联(FPRP=0.98=0.04995/0.05095)。相反,如果1000个SNP中有500个与疾病相关(即π=0.5),那么FPRP将低于5%,并且具有统计意义的发现将有95%的概率表示真正的关联。

利用FPRP值进行设计和数据分析的技术要点

在本评论中描述的基于FPRP的分析方法中,FPRP值是根据先验概率、统计功率和观测值计算的P(P)通过替换P(P)值代替右侧的α方程式1如果FPRP值低于预设的FPRP值(F类)基因变异与疾病之间的关联被认为是值得注意的。就像P(P)值是测试被视为具有统计意义的最低α水平,FPRP值是测试产生显著结果的最低FPRP值。

考虑零假设检验的统计效力,其中相对风险为RR=RR0=1与替代假设RR=RRA类,我们首先假设RR的估计是方差σ正态分布的2当FPRP值低于给定先验概率(π)的预设FPRP值时,我们计算一个程序的统计功率(1−β),该程序确定一个值得注意的发现(拒绝零假设)。为了进行此计算,我们注意到统计功率(1−β)取决于α,并且必须满足以下方程:
\[1\{-}\{\beta}\{=}\{\\Phi}\{{}{[}\mathrm{log}(\mathrm{右}_{\mathrm{A}}/\mathrm{右}_{0}){]}/{\sigma}

其中Φ是标准正态分布的累积分布函数,以及z(z)α/2是标准累积正态分布的α/2点。方程式2是一个具有替代性假设的测试统计能力的标准公式,即优势比等于RRA类.方程式2可以根据基因型频率和病例患者和对照受试者的数量(N)重新表达为1−β=Φ[N(q个1 −q个0)2)/(2(1 −q个)q个)]0.5z(z)α/2,其中q个0是具有较高风险基因型的对照受试者的分数,q个1 =q个0(右后A类)/[1 +q个0(右后A类−1)],具有较高风险基因型的病例患者比例,以及q个= (q个1 +q个0)/2.

计算报告的FPRP值时,σ和z(z)α/2在里面方程式2被对数-比值比估计的标准误差(SE)和双侧误差所取代P(P)标准正态分布的值点。即使SE不直接可用,当1−α%置信区间(CI)U型至CIL(左))比值比为:SE=[log(CIU型−电流L(左))]/(2z(z)α/2),其中log是自然对数函数。例如,分母2z(z)α/2当α=0.05时,为2×1.96。

FPRP计算电子表格的表示

在线材料中包含用于计算FPRP的Excel电子表格(看见http://jnciancerspectrum.oupjournals.org/jnci/content/vol96/issue6). 在下面的电子表格表示中,输入数据用于实现该方法。输入数据为斜体,输出数据为粗体。第4步中的比值比(OR)和置信区间(CI)来自Kuschel等人。(25)注意,以下注释和FPRP计算电子表格中的数字分别由MatLab(the MathWorks,Natick,MA)和Excel(Microsoft,Redmond,WA)编写的程序获得。

步骤1。预设FPRP值以提高知名度。

FPRP值:0.5

第2步。输入最多六个值,表示遗传变异与疾病之间存在关联的先前概率。

先验概率1:。25

先验概率2:。1

先验概率3:。01

先验概率4:。001

先验概率5:。0001

先验概率6:.00001

步骤3。假设在主导模型下存在非空关联,则输入最多三个比值比值,这些值是值得注意的发现的合理值。比值比1:1.2,统计能力=.179; 优势比2:1.5,统计能力=.904; 比值比3:2,统计能力=1.

步骤4。输入比值比估计值和95%置信区间以获得FPRP值。或=1.316;95%置信区间=1.08至1.60;对数(OR)=.275; SE[对数(OR)]=.100;P(P)价值=.006.FPRP值如附录表所示.

图1。

当α水平为.05时,先验概率和统计能力的变化对假阳性报告概率(FPRP)的影响。所示FPRP用于P(P)值等于或略低于α;当观察到P(P)值大大低于α。只有在较高的先验概率下才能实现较低的FPRP。此外,统计能力对FPRP有重要影响,除了高先验概率和低先验概率。例如,对于先验概率0.1,对于统计幂0.2、0.5、0.8和1,FPRP为0.69、0.47、0.36和0.31。

图2。

样本大小对假阳性报告概率(FPRP)的影响。在这个图中,等位基因频率q个=3,α=.05,统计能力用于检测1.5的比值比。所示FPRP用于P(P)值等于或略低于α;当观察到P(P)值大大低于α。先前概率和N(病例患者和对照受试者的数量)对FPRP有很大影响。FPRP仍然很高,先验概率很低(.001)。将样本量增加到1500例患者和对照组受试者以上,对FPRP的影响微乎其微,因为统计能力已经接近1。

图3。

假阳性报告概率(FPRP)作为等位基因频率的函数(q个)高风险等位基因的三个先验概率。在该图中,α=.05,N=1500例患者和对照组受试者,并计算统计能力以检测1.5的比值比。所示FPRP用于P(P)值等于或略低于α;当观察到P(P)值大大低于α。等位基因频率通过对统计功率的影响影响FPRP。

图4。

样本大小对P(P)值和假阳性报告概率(FPRP)。FPRP显示为P(P)两个样本大小的值,N=300和N=1500,当先验概率为0.001时,等位基因频率(q个)为0.3,统计能力显示检测到1.5的比值比。即使在P(P)由于统计能力的差异,值和先验概率是相同的。

图5。

降低假阳性报告概率(FPRP)对宣布统计能力值得注意的发现的影响。统计能力显示检测到1.5的比值比,先验概率为0.001,等位基因频率(q个)300名患者和1500名病例患者及对照组受试者服用。注意,对于固定样本量,增加的统计功率和降低的FPRP之间的权衡,以及相同FPRP但较大样本量的统计功率的潜在增加。

图6。

在各种先验概率或α水平为.05的情况下,达到假阳性报告概率(FPRP)值0.2所需的样本量(黑色虚线)用于传统样本量(N)计算。样本大小显示了各种等位基因频率(q个)统计能力为0.8,检测优势比为1.5。

表1。

基于Kuschel等人的数据,对涉及双链DNA断裂修复的基因中16个变体与乳腺癌之间的关联的四个结果的假阳性报告概率(FPRP)值。(25)

基因/SNP比值比(95%CI)*隐性模型下的统计权力报道P(P)价值先验概率§
.25.1.01.001.0001.00001
XRCC3 C型T at nt 18067时1.32(1.08至1.60)1.015.042.12.59.94.993.9993
XRCC3 A型第17893页G0.82(0.72至0.94).9895.0075.022.064.43.88.987.9987
LIG4 T型1977年年底0.65(0.42至0.98).87.088.23.48.91.990.99901
XRCC2 G型第31479页2.60(1.00至6.73).17.071.56.79.98.998.99981
XRCC3单倍型1.000016#.000049.00015.00162016年.14.62
基因/SNP比值比(95%CI)*隐性模型下的统计权力报道P(P)价值先验概率§
.25.1.01.001.0001.00001
XRCC3 C型T at nt 18067时1.32(1.08至1.60)1.015.042.12.59.94.993.9993
XRCC3 A型第17893页G0.82(0.72至0.94).9895.0075.022.064.43.88.987.9987
LIG4 T型1977年年底0.65(0.42至0.98).87.088.23.48.91.990.99901
XRCC2 G型第31479页2.60(1.00至6.73).17.071.56.79.98.998.99981
XRCC3单倍型1.000016#.000049.00015.00162016年.14.62
*

除非另有说明,否则计算了具有罕见遗传变异的纯合子与具有常见遗传变异的纯合子的参照物的比值比,如(25).CI=置信区间。SNP=单核苷酸多态性。

统计能力,除非另有说明,是指检测具有罕见遗传变异的纯合子的比值比为1.5的能力(或检测保护效应的比值比0.67=1/1.5),检测杂合子和具有常见变异的纯合子的比值比为1的能力,α水平等于报告的比值比P(P)值。

P(P)如表2所示,使用两个自由度的综合齐方检验计算值(25)FPRP值基于这些P(P)值。

§

对于每个基因/SNP或单倍型,最可能的先验概率范围为粗体。先验概率是基因/SNP在观察到的比值比方向上的影响。

计算具有遗传变异的杂合子与具有常见遗传变异的纯合子的参照物的比值,如(25).

当第二常见单倍型和其他单倍型的比值比分别为1.5和1,以最常见的单倍型为参照时,使用综合齐方检验拒绝无效假设的统计能力。

#

P(P)值是使用七个自由度的omnibus chi-square检验计算的。

表1。

基于Kuschel等人的数据,对涉及双链DNA断裂修复的基因中16个变体与乳腺癌之间的关联的四个结果的假阳性报告概率(FPRP)值。(25)

基因/SNP比值比(95%CI)*隐性模型下的统计权力报道P(P)价值先验概率§
.25.1.01.001.0001.00001
XRCC3 C型T at nt 18067时1.32(1.08至1.60)1.015.042.12.59.94.993.9993
XRCC3 A型第17893页G0.82(0.72至0.94).9895.0075.022.064.43.88.987.9987
LIG4 T型1977年年底0.65(0.42至0.98).87.088.23.48.91.990.99901
XRCC2 G型编号31479的A2.60(1.00至6.73).17.071.56.79.98.998.99981
XRCC3单倍型1.000016#.000049.00015.00162016年.14.62
基因/SNP比值比(95%CI)*隐性模型下的统计权力报道P(P)价值先验概率§
.25.1.01.001.0001.00001
XRCC3 C型T at nt 18067时1.32(1.08至1.60)12015年.042.12.59.94.993.9993
XRCC3 A型第17893页G0.82(0.72至0.94).9895.0075.022.064.43.88.987.9987
LIG4 T型1977年年底0.65(0.42至0.98).87.088.23.48.91.990.99901
XRCC2 G型第31479页2.60(1.00至6.73).17.071.56.79.98.998.99981
XRCC3单倍型1.000016#.000049.00015.00162016年.14.62
*

除非另有说明,否则计算了具有罕见遗传变异的纯合子与具有常见遗传变异的纯合子的参照物的比值比,如(25).CI=置信区间。SNP=单核苷酸多态性。

除另有说明外,统计功效是指检测具有罕见遗传变异的纯合子的比值比为1.5(或保护作用为0.67=1/1.5),杂合子和具有常见变异的纯合子的比值比为1的功效,α水平等于报告的P(P)值。

P(P)如表2所示,使用两个自由度的综合齐方检验计算值(25)FPRP值基于这些P(P)值。

§

对于每个基因/SNP或单倍型,最可能的先验概率范围为粗体。先前的概率是基因/SNP在观察到的比值比方向上的影响。

计算具有遗传变异的杂合子与具有常见遗传变异的纯合子的参照物的比值,如(25).

当第二常见单倍型和其他单倍型的比值比分别为1.5和1,以最常见的单倍型为参照时,使用综合齐方检验拒绝无效假设的统计能力。

#

P(P)值是使用七个自由度的omnibus chi-square检验计算的。

附录表1。

检验显著性和假设真实性的联合概率

替代假设的真理测试的重要性
总计
重要不重要
真实关联(1−β)π[真正]βπ[假阴性]π
无关联α(1−π)[假阳性](1-α)(1-π)[真负值]1 − π
    总计(1 − β)π + α(1 − π)βπ + (1 − α) (1 − π)1
替代假设的真理测试的重要性
总计
重要不重要
真实关联(1−β)π[真正]βπ[假阴性]π
无关联α(1−π)[假阳性](1-α)(1-π)[真负值]1 − π
    总计(1 − β)π + α(1 − π)βπ + (1 − α) (1 − π)1
附录表1。

检验显著性和假设真实性的联合概率

另类假设的真实性测试的重要性
总计
重要不重要
真实关联(1−β)π[真正]βπ[假阴性]π
无关联α(1−π)[假阳性](1-α)(1-π)[真负值]1 − π
    总计(1 − β)π + α(1 − π)βπ + (1 − α) (1 − π)1
替代假设的真理测试的重要性
总计
重要不重要
真正的关联(1−β)π[真正]βπ[假阴性]π
无关联α(1−π)[假阳性](1-α)(1-π)[真负值]1 − π
    总计(1 − β)π + α(1 − π)βπ + (1 − α) (1 − π)1
附录表2。

当π=.001,α=.05,β=0时,拒绝检验和假设真值的联合概率

替代假设的真理测试的重要性
总计
重要不重要
真实关联0.0010000.00100
无关联0.049950.949050.99900
    总计0.050950.949051
替代假设的真理测试的重要性
总计
重要不重要
真实关联0.0010000.00100
无关联0.049950.949050.99900
    总计0.050950.949051
附录表2。

当π=.001,α=.05,β=0时,拒绝检验和假设真值的联合概率

替代假设的真理测试的重要性
总计
重要不重要
真实关联0.0010000.00100
无关联0.049950.949050.99900
    总计0.050950.949051
替代假设的真理试验的意义
总计
重要不重要
真实关联0.0010000.00100
无关联0.049950.949050.99900
    总计0.050950.949051
附录表3。

误报概率

附录表3。

误报概率

当前地址:Laure-El-ghormli,马里兰州罗克维尔乔治华盛顿大学生物统计中心。

R(右)参考文献

1

自由联想。

自然基因
1999
;
22
:
1
–2.

2

Sterne JA,Davey Smith G.筛选证据-显著性测试有什么问题?

BMJ公司
2001
;
322
:
226
–31.

Ioannidis JP、Ntzani EE、Trikalinos TA、Contopoulos-Ioannindis DG。遗传关联研究的复制有效性。

自然基因
2001
;
29
:
306
–9.

4

Hirschorn JN、Lohmueller K、Byrne E、Hirschorne K。遗传关联研究的综合综述。

遗传医学
2002
;
4
:
45
–61.

5

Thomas DC,Witte JS公司。要点:人群分层:候选基因关联病例对照研究的一个问题?

生物标志物与预防
2002
;
11
:
505
–12.

6

Wacholder S,Rothman N,Caporaso N。反驳:来自人口分层的偏见并不是对常见多态性和癌症流行病学研究结论有效性的主要威胁。

生物标志物与预防
2002
;
11
:
513
–20.

7

Lohmueller KE、Pearce CL、Pike M、Lander ES、Hirschorn JN。遗传关联研究的荟萃分析支持常见变异对常见疾病易感性的贡献。

自然基因
2003
;
33
:
177
–82.

8

Colhoun HM、McKeigue PM、Davey Smith G.报告遗传关联与复杂结果的问题。

柳叶刀
2003
;
361
:
865
–72.

9

Morton NE,Collins A.复杂遗传中等位基因关联的测试和估计。

美国国家科学院程序
1998
;
95
:
11389
–93.

10

Wacholder S,Rothman N,Caporaso N。常见遗传变异和癌症流行病学研究中的人群分层:偏差量化。

美国国家癌症研究所
2000
;
92
:
1151
–8。

11

Tversky A,Kahneman D。相信小数定律。

精神斗牛
1971
;
2
:
105
–10.

12

古德曼SN.走向循证医学统计。2:贝叶斯因素。

内科学年鉴
1999
;
130
:
1005
–13.

13

Cox DR。关于统计方法作用的另一个评论。

BMJ公司
2001
;
322
:
231
.

14

García-Closas M、Wachholder S、Caporaso N、Rothman N。遗传效应和基因-环境相互作用的队列和病例对照研究中的推断问题。收录人:Khoury MJ、Little J、Burke W,编辑。人类基因组流行病学:利用遗传信息改善健康和预防疾病的科学基础。纽约:牛津大学出版社;

2004
第页。
127
–44.

15

Browner WS,纽曼TB。所有有效P值是否相等?诊断测试和临床研究之间的类比。

日本汽车制造商协会
1987
;
257
:
2459
–63.

16

新泽西州里奇。寻找新千年的遗传决定因素。

自然
2000
;
405
:
847
–56.

17

Engel LS、Taioli E、Pfeiffer R、Garcia-Closas M、Marcus PM、Lan Q等。谷胱甘肽S-转移酶M1与膀胱癌的汇总分析和荟萃分析:HuGE综述。

美国传染病学期刊
2002
;
156
:
95
–109.

18

Marcus PM、Vineis P、Rothman N.NAT2慢乙酰化与膀胱癌风险:对在普通人群中进行的22项病例对照研究的荟萃分析。

药物遗传学
2000
;
10
:
115
–22.

19

Ng PC,Henikoff S.解释预测会影响蛋白质功能的人类多态性。

基因组研究
2002
;
12
:
436
–46.

20

Botstein D,Risch N.发现人类表型的基因型:孟德尔病的过去成就,复杂疾病的未来方法。

自然基因
2003
;
33
供应商:
228
–37.

21

Duan J、Wainwright MS、Comeron JM、Saitou N、Sanders AR、Gelernter J等。人类多巴胺受体D2(DRD2)的同义突变影响受体的mRNA稳定性和合成。

人类分子遗传学
2003
;
12
:
205
–16。

22

Chanock S.人类疾病研究中的候选基因和单核苷酸多态性(SNP)。

Dis标记
2001
;
17
:
89
–98.

23

Little J、Bradley L、Bray MS、Clyne M、Dorman J、Ellsworth DL等。基因型流行率和基因疾病相关性的报告、评估和整合数据。

美国传染病学期刊
2002
;
156
:
300
–10.

24

Fallin D、Cohen A、Essioux L、Chumakov I、Blumenfeld M、Cohen D等。使用估计的单倍型频率对病例/对照数据进行遗传分析:应用于APOE位点变异和阿尔茨海默病。

基因组研究
2001
;
11
:
143
–51.

25

Kuschel B、Auranen A、McBride S、Novik KL、Antoniou A、Lipscombe JM等。DNA双链断裂修复基因变异与乳腺癌易感性。

人类分子遗传学
2002
;
11
:
1399
–407.

26

Healey CS、Dunning AM、Teare MD、Chase D、Parker L、Burn J等。BRCA2的一种常见变异与乳腺癌风险和产前生存能力相关。

自然基因
2000
;
26
:
362
–4.

27

Goode EL、Ulrich CM、Potter JD。DNA修复基因的多态性及其与癌症风险的关系。

生物标志物与预防
2002
;
11
:
1513
–30.

28

Weinberg CR。是时候恢复P值了。

流行病学
2001
;
12
:
288
–90。

29

Risch N,Merikangas K。复杂人类疾病遗传研究的未来。

科学类
1996
;
273
:
1516
–7.

30

Benjamini Y,Hochberg Y。控制错误发现率:一种实用且强大的多重测试方法。

J Roy Stat Soc B级
1995
;
57
:
289
–300.

31

Sabati C,Service S,Freimer N.复杂疾病连锁和关联基因组筛查中的错误发现率。

遗传学
2003
;
164
:
829
–33.

32

Efron B,Tibshirani R.微阵列的经验贝叶斯方法和错误发现率。

基因流行病学
2002
;
23
:
70
–86.

33

罗斯曼KJ。多次比较不需要调整。

流行病学
1990
;
1
:
43
–6.