跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;PMC 2014年10月24日提供。
以最终编辑形式发布为:
预防性维修识别码:下午4180223
尼姆斯:NIHMS628939
PMID:24759409

人类疾病序列变异因果关系调查指南

关联数据

补充资料

摘要

稀有基因变体的发现正在加速,迫切需要明确的指南来区分致病序列变体和任何人类基因组中存在的许多潜在功能变体。如果没有严格的标准,我们就有可能加速因果关系的假阳性报告,这将阻碍基因组研究结果转化为临床诊断环境,并阻碍对疾病的生物学理解。在这里,我们讨论了评估人类疾病序列变异的关键挑战,整合了基因水平和方差水平对因果关系的支持。我们提出了总结变异致病性信心的指南,并强调了需要进一步资源开发的几个领域。

高通量测序方法可以生成疾病患者和普通人群基因变异的详细目录。然而,为了使这些技术产生最大的医学影响,我们必须能够从所有人类基因组中存在的变异的更广泛背景中可靠地分离出真正的致病或与疾病相关的遗传变异,这些变异是罕见的、潜在的功能性但实际上不是致病性的(方框1)用于正在调查的疾病或表型。

方框1 |用于描述序列变量的术语定义

用于描述序列变异的术语缺乏清晰度是人类遗传学混乱的主要来源。我们对本手稿中使用的术语采用了以下定义:

致病性:在机械上导致疾病,但不一定完全渗透(即,可能不足以单独导致疾病)。

隐含:拥有与致病作用相一致的证据,具有确定的置信度。

相关:与对照组相比,疾病病例显著增加。

破坏:改变基因或基因产物的正常水平或生化功能。

有害:降低携带者的生殖适应性,因此将成为净化自然选择的目标。

许多(但不幸的是并非所有)与罕见和常见遗传病有因果关系的变异代表了可靠和正确的结论。错误的致病性分配可能会对患者造成严重后果,导致不正确的预后、治疗或生殖建议,并对研究企业造成错误的资源分配,导致基础和治疗研究。不幸的是,尽管绝大多数与单基因疾病有因果关系的基因都是真阳性,但在不同水平上错误分配因果关系是一个重大问题。一项对104个新测序个体中406个已发表的严重疾病突变的最新分析报告称,其中122个(27%)是常见多态性或缺乏致病性的直接证据1其他研究已经在人群控制的基因组中发现了许多所谓的导致严重疾病的变异2,在其他情况下,对备受关注的报告突变进行有力的后续研究,对将疾病因果关系归因于序列变异的初步报告产生了严重怀疑4,5,但绝大多数假阳性发现可能仍未被发现。随着患者测序数据量的增加,对候选变异体进行严格评估以防止公共数据库中变异体致病性的进一步误报至关重要。

本文描述了可靠调查序列变异在人类疾病中的作用所面临的挑战,以及评估支持变异因果关系的证据的方法。它代表了由美国国家人类基因组研究所召集的基因组研究、分析和临床诊断测序专家工作组的结论。

我们将重点放在基因组规模方法的应用上,以调查罕见种系变异,这里定义为次要等位基因频率<1%的变异。我们的建议与对疾病风险影响相对较大的变异最为相关。我们的预期范围包括与严重单基因疾病相关的绝大多数变异,以及复杂疾病中罕见的、影响较大的风险变异6,但不包括复杂性状全基因组关联研究通常确定的常见小效应变异7.

序列变异的疾病因果关系的明确分配通常是不可能的,特别是对于许多罕见、严重疾病病例的低频变异。因此,我们在本手稿中提到了涉及基因或序列变体的概念:即整合和评估支持该基因或变体在发病机制中作用的证据的过程。我们强调,对于任何新基因的因果关系,强大的遗传支持是首要的,然后可以通过功能和信息研究的辅助支持进行补充和扩展。

我们的建议集中在五个关键领域:研究设计;基因层面含义;方差隐含;出版物和数据库;以及对临床诊断的影响。研究人员的核心指南总结于方框2我们还提供了一份在分析假定单基因疾病的候选变异体时需要考虑的因素列表(补充信息)以及用于评估致病性的资源列表(补充表1).

方框2 |人类疾病中序列变异的相关指南

一般指导方针

  • 提供与基因或变异暗示相关的完整正负证据,而不仅仅是与致病性一致的结果。
  • 在所有可能的情况下,将遗传、信息和实验结果放在一个定量框架内:确定随机选择的变体或基因偶然观察到该结果的概率。
  • 利用基因组变异、功能基因组数据和模式生物表型的公共数据集。
  • 不要把之前关于基因或变异影响的报告视为决定性的:在支持数据可用的程度上,像你自己的数据一样严格地重新评估它们。
  • 明确描述和评估支持先前基因或变异暗示报告的可用证据。

候选疾病基因证据评估

  • 在假定的单基因疾病病例中,在探索潜在的新基因之前,评估以前与类似表型相关的基因。
  • 只有当同一基因和类似临床表现中的变异在多个无关个体中被可靠牵连时,才能报告一个新基因被可靠牵涉。
  • 在所有可能的情况下,应用统计方法比较具有大型匹配对照队列或校准良好的零模型的患者中变异的分布。

候选致病性变体的证据评估

  • 确定并报告每种变异的分离或关联的正式统计证据,以及其在血统上尽可能与患者匹配的大型对照人群中的频率。
  • 认识到,强有力的证据表明变异有害(在进化意义上)和/或损害(基因功能)不足以暗示变异在疾病中起因果作用。
  • 使用比较基因组方法预测变异的有害性,但避免将任何单一方法视为确定性方法,或将多种方法视为独立的证据线。
  • 通过对患者衍生组织或成熟的细胞或基因功能动物模型的分析,从实验上验证候选变体的预测破坏性影响。
  • 避免假设牵连的变异体在任何特定疾病病例中都是完全渗透性的或完全解释性的。

出版物和报告

  • 客观评估和报告支持出版物中列出的所有变体致病性的证据的总体强度和凝聚力。
  • 在所有可能的情况下,确保在不同的数据库中传播致病性的置信水平和支持证据。
  • 将对照组和疾病患者的基因型和表型数据以及用于结果分析的数据存放在公共数据库中,以证明在研究特定参与者同意和道德认可的最大程度上存在关联。
  • 如果返回结果供临床使用,则应强调强有力的、可操作的发现,同时确保明确传达不确定或模糊的发现,以及适当的支持证据。
  • 当用于医疗干预的可能性很高时,根据证据有限的变种,就决策提供明确的警告。

研究设计

寻求识别致病性变体的研究人员应根据感兴趣疾病最可能的遗传结构选择技术和分析方法。外显子组测序可以经济高效地捕获罕见的高外显率蛋白编码变体,这正迅速成为推测单基因疾病的一线方法8细胞基因组阵列和连锁面板的基因分型仍然是鉴定拷贝数变异和鉴定孟德尔(特别是显性)大疾病家族中共同分离单倍型的有用方法。发现复杂疾病中罕见致病性变体的最佳方法尚不清楚:外显子组测序9、深度和低覆盖率全基因组测序10和/或下一代基因分型阵列具有更高的蛋白质编码变体覆盖率,都在研究环境中得到应用。随着测序成本的下降,我们预计深层全基因组测序将很快成为研究所有遗传结构的首选技术。

在为新研究选择技术和分析方法时,研究人员应考虑正式的功率计算11结合致病性变体的等位基因频率和效应大小的预测分布、可用队列的遗传和表型异质性、疾病的人群频率和可用样本大小。虽然参数值可能不确定,但疾病遗传学和类似特征的现有知识可以用于限制可能的范围。特别是,对于许多疾病,有大量证据表明,基因座和等位基因异质性都很高,例如自闭症、癫痫和精神分裂症。假设低基因座和等位基因异质性的研究设计在这些条件下肯定会失败,甚至通过对合理遗传模型的力量进行偶然评估也会揭示这一事实。通过对单个家族进行测序,有时可能发现低基因座异质性和足够高的外显率突变条件下的基因12然而,大多数基因发现应用需要更大的样本量:罕见单基因疾病需要多个无关家族,复杂疾病需要数千到数万名患者和对照9,13.

为了收集大量样本,通常需要由多个研究人员汇集患者队列。尽管这种联合体方法是可取的,但研究人员应注意由于技术偏见、人口分层以及遗传和表型异质性导致的队列之间的系统性差异。对于复杂性状的研究,为常见变异的全基因组关联研究开发的许多质量控制方法也将适用于罕见变异研究14但DNA测序数据面临着一系列不同且通常更具挑战性的质量考虑因素,特别是当数据集组合用于荟萃分析时。此外,可能需要开发新的方法来解决罕见变异的人群分层问题15,显示出比常见变体更强的地理聚集性16; 为了最大限度地减少分层的影响,对照组应与患者样本的祖先密切匹配。

对于假定的单基因疾病,具有非常相似临床表型的多个家族的可用性大大提高了基因发现的能力。对于只有一名先证者且无家族史的病例,研究人员应考虑对先证者未受影响的父母进行测序,以便有效发现从头开始突变和复合杂合基因型。研究人员应首先检查已知与该表型相关的基因的序列变异,并评估这些基因的编码序列和剪接连接的序列覆盖率,然后再探索受影响个体中新候选基因的可能性。

基因层面的影响

要将一个变体暗示为致病性,需要受该变体影响的DNA序列在疾病过程中发挥作用。对于以前未报告为因果关系的基因,研究人员必须同时证明候选基因和一个或多个干扰它的变体的作用的证据。即使候选基因以前与相同或类似的疾病表型有关,应仔细评估和报告来自已发布来源的总体支持。多种证据可能有助于在基因和变异水平上进行致病性推断,包括遗传、信息和实验数据(表1补充信息). 然而,为了与人类遗传学领域的历史保持一致,我们强调了强大的统计遗传支持对于新基因含义的关键重要性,然后可以用辅助的实验或信息证据来补充,以支持该基因在相关疾病中的机械作用。

表1

与疾病中序列变异含义相关的证据类别

证据
水平
证据
示例
基因水平遗传的基因负担:受影响的基因显示罕见(或从头开始)与对照组或空模型相比,在病例中分离出可能具有破坏性的变体。
实验蛋白质相互作用:基因产物与以前在感兴趣的疾病中牵涉到的蛋白质(基因或生物化学)相互作用。
生化功能:基因产物执行与感兴趣疾病中其他已知基因共享的生化功能,或与表型一致。
表达:该基因在与感兴趣疾病相关的组织中表达,和/或在患有该疾病的患者中表达发生改变。
基因破坏:携带候选突变的患者的基因和/或基因产物功能明显改变。
模型系统:具有类似受损基因拷贝的非人类动物或细胞培养模型显示出与人类疾病状态一致的表型。
拯救:通过添加野生型基因产物,可以拯救患者衍生细胞或工程等效物中的细胞表型。
变量级别遗传的关联性:与对照组相比,变异在病例中显著丰富。
分离:该变异体与受影响家族中的疾病状态共同遗传,不太可能或已排除其他共同分离的致病性变异体。
人群频率:在具有与患者相似血统的大规模人群队列中,发现该变异的频率较低,与拟议的遗传模型和疾病流行率一致。
信息保守性:变异体的位置显示进化保守性,与该位置序列变化的有害影响一致。
对功能的预测影响:在预测会导致功能中断的蛋白质内的位置发现变体(例如,酶活性部位、蛋白质结合区域)。
实验基因破坏:变异显著改变受影响基因产物的水平、剪接或正常生化功能。这显示在患者细胞或经过验证的在体外模型系统。
表型重演:将变异体或携带变异体的工程基因产品引入细胞系或动物模型,产生与疾病一致的表型,并且不太可能由随机选择的基因的破坏引起。
挽救:患者来源的细胞、模型生物或工程等效物中的细胞表型可以通过添加野生型基因产物或特异性敲除变异等位基因来挽救。

从历史上看,单基因疾病的基因层面含义首先依赖于通过遗传数据(如连锁分析或生物化学功能的实验数据)确定一组狭窄的候选基因,然后确定罕见的、可能具有破坏性的变体(改变基因或基因产品的正常水平或生物化学作用)在多个受影响患者的候选基因中。大规模测序数据的日益可用性现在允许采用基因组规模的方法进行基因发现,其中稀有、,将患者中预测的基因破坏变异与人群对照或经过充分验证的无效模型进行系统比较,以识别具有过量潜在致病变异的基因,用于临床和功能随访。

值得强调的是,与早期的分析相比,全基因组序列数据集在某些方面更容易被误解,因为任何人类基因组中都存在大量的候选因果突变,其中许多可能提供了一个令人信服的关于变异如何影响特征的故事;一个被称为人类基因组“叙事潜力”的问题17为了避免这种偏见,支持任何候选基因的证据应尽可能与在其他可能与疾病无关的基因上观察到的证据进行对比(例如,通过将该基因排在所有其他基因中,并报告偶然观察到类似或更大对比的可能性)。单基因疾病基因发现的正式全基因组统计方法需要大量的方法开发,但此处可以考虑确定变异重要性的一般指南。正如我们在下文中所讨论的,这些考虑同样适用于评估常见疾病研究中罕见变异的重要性。

我们最重要的建议是,对于孟德尔病和复杂疾病罕见变异的全基因组分析,应使用统计显著性的正式计算来评估一组发现的证据强度,遵循维持整体I型(错误发现)的既定标准错误率低于5%。例如,调查人员不应简单地假设存在两个或多个独立发生的从头开始序列队列中同一基因的突变是该基因因果作用的确凿证据18,19; 随着测序病例数量的增加,这种阈值导致假阳性的数量不断增加。为了说明这一点,考虑一下最近四项外显子组测序研究的情况,这四项研究共涉及945个患有自闭症儿童的家庭2023共观察到四个独立的从头开始错义突变TTN公司然而,调查人员没有考虑TTN公司在自闭症中起到因果作用,这是恰当的:使用与先前发表的方法类似的统计模型6,22,24这说明了基因大小(TTN公司具有基因组中任何基因中最大的编码序列)、突变率、三组分数目和外显子覆盖率分布,1.96全新TTN错义或功能丧失突变是偶然预测的,两者没有显著差异(P(P)=0.14)。

我们将单个基因视为所有疾病模型的单基因疾病基因测试的基本单位;由以下原因引起的疾病从头开始由遗传显性或隐性变异引起的突变或疾病。检测致病性变体的适当框架将评估基因中的所有变异,并与针对所考虑假设的经过良好校准的零模型进行比较(例如,从头开始、显性、隐性)。

尽管该领域有使用链接数据声明重要性的既定指南25现在重要的是,在缺乏其他系谱信息的情况下,考虑一个保守的基线阈值,以便纯粹从病例的测序数据中声明重要性。在这种情况下,由于基因是分析的基本单位,并且没有额外的数据来限制基因的搜索空间,一项典型的研究可能会对21000个蛋白质编码基因和9000个长非编码RNA基因进行测试26,27与此测试策略相对应的保守全基因组显著性阈值是Bonferroni校正P(P)值1.7×10−6(即30000分之0.05)。重要的是,如果使用几个不同的方案来定义此类分析中的“合格突变”,则有必要对所采用的每一组不同规则进行进一步的统计调整。

可以基于感兴趣的疾病模型指定正式的空模型。如上所述从头开始突变分析应考虑混杂变量,如样本量、基因量和突变率(不同基因的突变率可能有几个数量级的差异)。我们注意到,即使在极为罕见的情况下和小样本量下,这种零模型也有能力:第一次歌舞伎综合征外显子组测序研究28初步确定7从头开始中的功能损失变量MLL2级只有10个测序患者的基因,在上述背景突变模型下,这一发现极不可能是偶然的(P(P)= 1.9 × 10−28)这提供了令人信服的证据,证明该基因是因果关系。

评估罕见疾病队列中观察结果重要性的正式方法也可用于评估,例如,在考虑遗传变异时,基于先前发布的实例,在特定基因中分离罕见变异的总证据29在这种情况下,零模型应该是一个种群遗传模型,例如,从匹配良好的对照队列构建的变异位点频谱(SFS)。给定基因的SFS空模型应考虑突变率和作用于该基因的选择约束。在评估单个病例的数据时,可以通过首先确定该病例中该基因中存在的最具致病性的变异体类别,然后通过计算从无效SFS中采样相同致病性类别变异体的概率来估计基因变异来自零模型的概率。类似地,当应用隐性疾病模型时,确定父亲和母亲单倍型上最具致病性的变体类别,然后计算从空SFS中采样这两种变体的概率。这种遗传变异的测试框架很容易扩展到包括多种疾病病例。理想情况下,为了避免假阳性,SFS所依据的对照队列将以与疾病病例相同的方式进行排序和分析。

这种方法可能还不适用于每一种罕见的疾病,还需要将工作扩展到更奇异的遗传模式,如亲本印记或专性复合杂合子30虽然已经建立了严格执行这些测试的正式方法,但研究人员至少应该利用公共资源,如Exome Variant Server,评估和报告人群队列中受牵连基因的背景变异水平(http://evs.gs.washington.edu/evs/)当在发病机制中涉及新基因时。此外,对至少一些以与病例相同的方式进行测序和分析的对照进行分析,对于避免外显子组和基因组测序中常见的系统性假阳性至关重要。

正如常见变异的全基因组关联研究一样14新复杂疾病基因在独立家系或人群队列中的复制是关键的支持证据,在大多数情况下,新基因被认为与疾病有令人信服的关联是必不可少的。对于最罕见的疾病,可能无法获得独立复制的额外病例,并且可能无法仅从人类遗传数据中得出令人信服的统计结果。在这些情况下,基因含义必须基于对遗传、信息和实验证据的综合分析。

如果它是以统计上严格的方式进行的,那么辅助信息可以用来提高基因发现的能力。例如,许多基于全基因组测序的研究平等对待所有蛋白质改变变体,而忽略所有其他类型的变体。更优雅的方案旨在根据预测的致病性进行优先排序,这可能会增强此类研究的力量。另一种方法是通过候选基因在适合所分析疾病的组织中的表达将其分层。例如,最近的一项研究结合了变异和基因层面的分层,表明从头开始先天性心脏病患者与对照组的突变率相似,但当关注从头开始在发育中的心脏中表达的基因中预计会发生破坏性突变31.

有助于支持基因蕴涵的实验证据分为三大类,按强度大小排列如下。首先,实验数据可以用来证明基因的正常功能与疾病过程的已知生物学相一致,例如通过显示基因在与疾病相关的组织中表达32或其蛋白产物与先前与该疾病有关的其他基因的产物共定位或物理相互作用33第二,研究人员可以证明,基因产品的功能被感兴趣疾病患者的突变所破坏,如下文的方差水平证据部分所述。最后,可以证明模型生物体中候选基因的破坏会导致表型重演人类的相关病理学,并且随机选择的基因不太可能发生破坏34,35.

与基因暗示相关的实验方法的完整描述不在本手稿的范围内。然而,我们注意到,实验方法的价值在很大程度上取决于模型系统对正在研究的人类疾病的适用性。细胞系或动物模型是否最合适取决于上下文:简单的培养细胞模型可能不适合影响复杂器官系统的发育障碍。出于类似的原因,动物模型不适合分析生物学中人类特有的方面。

如上所述,考虑基因级支持的特异性也很重要;也就是说,如果对随机选择的基因进行实验或分析,则观察到类似结果的概率。例如,如果一个新的候选基因与人类非综合征性身材矮小有关,鉴于在30%以上的敲除小鼠株中出现类似的表型,观察到其同源基因与敲除小鼠的小体型相关就相对缺乏信息36类似地,有报道称与代谢紊乱潜在相关的基因产物定位于线粒体,也应考虑到线粒体是具有许多高表达基因的复杂细胞器。[在可能的情况下,研究人员应使用信息学方法在公开的功能基因组和模型生物表型数据的高通量数据集中评估此类指标37尽管量化功能观察的统计置信度仍然具有挑战性,但那些能够令人信服地证明在适当的零假设下代表极低概率事件的事件,为涉及给定变量提供了更有力的支持。即使在无法建立正式统计框架的情况下,我们也强调,研究人员必须严格评估功能数据,并明确报告其局限性。

变量级含义

涉及变异的遗传证据必须在人类罕见遗传变异的大量背景下进行评估。甚至健康的人也携带许多罕见的蛋白分裂变体38,大约一半携带至少一个从头开始蛋白质改变突变39因此,当在疾病病例中观察到这种变异时,即使存在于已确定的疾病基因中,也不足以证明因果关系:基因对变异的耐受性显著不同40甚至在人群控制中也经常观察到疾病相关基因中被预测具有破坏性的罕见变异41.

在已建立和新发现的疾病基因中,研究人员应正式评估和报告相关性的统计支持。基于家族的研究还应评估候选变异体与疾病状态的共同分离。考虑到一个单独的、未观察到的致病性突变可能与候选变异体位于同一单倍型上,单独的分离分析并不能明确表明特定变异体是致病性的,但(至少在完全外显率的假设下)缺乏分离可以将非致病性变异体排除在考虑范围之外。

变体含义的信息和/或实验证据可用于评估变体在进化意义上是否可能有害(方框1),主要来自生物信息学注释和比较基因组学42并从计算预测和实验分析两方面预测变体在生物功能方面具有破坏性。这两类证据都可以支持暗示,但它们不一定证明变异对研究性状的因果作用。我们再次强调,一个人中数百到数千种编码变体通常会被标记为潜在的有害或破坏性,或者两者兼而有之;必须在这种背景变异水平的背景下考虑致病性证据的强度。

进化序列保守性度量是广泛使用的蛋白质编码和非编码变异的有害性指标42这些方法证明了在优先考虑候选变体方面的价值43,44; 然而,它们的预测能力受到统计和生物因素的限制。许多有害变体没有显示出强烈的保守性特征,特别是如果该基因在人类或灵长类谱系中经历了快速进化,或者如果祖先物种的蛋白质的其他区域发生了补偿性替代45相反,即使在相对较弱的选择压力下,也可以保持较强的保育性,在这种压力下,变异对疾病风险的影响可能很小。这些方法的威力还取决于潜在序列比对的准确性和系统发育范围。当使用有害性预测作为暗示的证据时,应考虑这些限制。尽管使用多种预测算法是值得的,但研究人员应避免将这些算法视为致病性的有力或独立证据。

虽然一些种类的变异,如蛋白编码基因中间的截断或剪接-分裂变异,比其他变异更有可能造成破坏,但这些变异也因测序和注释错误而丰富,并可能通过选择性RNA剪接、其他变异或局部序列上下文而得到挽救41。应对这些可能性进行评估,如果可能,应对预测的破坏效果进行实验验证。

研究序列变异对基因功能或细胞或生物体表型的影响的实验方法,也可以在证明变异对基因的功能有损害以及确定变异对疾病风险影响的分子机制方面发挥作用。然而,必须非常小心地选择合适的实验方法,这将取决于变体的类别、生物环境(例如,组织类型)、获得样品和试剂的途径、所需的产量、时间和成本。当一个基因已经被确信与疾病有关,并且知道什么样的变异是因果关系的(例如,特定检测所代表的功能丧失或获得),那么将一个意义不明的变异放入这样一个功能类别的实验就可以提供特别的信息。

直接从患者组织或细胞获得的证据通常比模型系统的证据更强,尤其是(对于功能丧失变体),如果分子缺陷可以通过细胞分析中的互补来修复。在携带拟议因果变异的异源细胞系中复制与疾病相关的表型有助于排除患者遗传背景对疾病结局的影响。在模型生物、更多人工细胞培养系统和非细胞模型中进行的分析,如基于结构的改变蛋白质-蛋白质相互作用或转录剪接的分析,可以提供更弱但仍然有价值的支持。如果模型直接模拟候选变异体的预测功能影响,则模型最有价值:例如,基因敲除小鼠是隐性功能丧失的更好模型,而不是候选基因中显性错义突变的更好模型。在复合杂合子隐性遗传的情况下,如果拟议的作用模式取决于等位基因变体之间的相互作用,例如TAR综合征30-有必要开发同时包含和评估多种变体的细胞分析。

基因组非蛋白编码区变异的影响,如剪接和转录增强,尤其难以解释,但我们注意到,系统实验方法已经开始强调人类基因组最有可能在基因调控中发挥作用的区域46并剖析其内部变化的潜在影响47然而,鉴于预测非编码变异体影响的挑战,通过证明患者中的异常表达水平或通过在体外实验(例如minigene构建物)。

我们反对这样的假设,即令人信服的牵连变异体,即使是在假定的单基因疾病中,也必须是完全渗透的(即,足够孤立地导致疾病)。事实上,由于与样本确定相关的偏差,大多数报告的疾病相关突变的外显率尚未用当前数据进行准确评估。事实上,人口控制中报告的严重疾病导致突变的流行率2,表明不完全外显率、致病性错误分配或广泛的表达范围是报道的孟德尔病突变的一个比普遍认识到的更常见的特征。外显率的准确估计需要对大量表型良好的人群队列中报告的突变进行表征4850。这一领域应优先进行进一步大规模的此类研究。

我们还注意到,通过大规模测试确定为非致病性的变异体(例如,感兴趣基因中常见的错义多态性)来校准功能分析准确性的重要性未被充分认识。这些实验为耐受性良好的变异体对相关分析的影响建立了基线估计。

出版和数据共享

如上所述,疾病变异数据库中有许多假阳性,主要是由于临床诊断实验室和主要文献中对致病性的错误分配造成的1,2,51为了减少这一负担,将需要强大、集中的突变数据存储库,包括明确、结构化的变异致病性证据和快速更正条目的系统。激励研究和临床实验室将变异数据存入开放存储库,并更新支持或反对暗示的证据,是资助机构、期刊、研究联盟、临床组织和其他机构需要解决的关键挑战52我们希望这些活动能够围绕美国国家生物技术信息中心(NCBI)新推出的ClinVar数据库进行协调(https://www.ncbi.nlm.nih.gov/clinvar网站/)它还将与该领域的现有工作相结合,包括LOVD(Leiden Open(source)Variation Database)53和其他特定于地方的数据库,OMIM(人类孟德尔在线遗传;网址:http://omim.org/)和DECIPHER(使用集合资源的人类染色体不平衡和表型数据库)54.

在某些情况下,例如极为罕见或具有高度位点异质性的疾病,可能无法获得与特定基因或变异相关的明确证据以及可用样本量。在这种情况下,我们承认,指向基因潜在含义的暗示性证据在未来的临床和研究调查中仍然有价值,不应被排除在出版物或公共领域之外。然而,研究人员、评论员和期刊有责任明确描述支持证据以及每个拟议基因关联和报告变异的因果关系的置信度。

最后,我们强调尽可能共享临床和研究样本的序列和表型数据的价值。许多调查人员和研究资助者认为,负责任的数据共享是道德和职业上的当务之急55在许多情况下,特别是对于极为罕见的表型,没有积极招募受试者的个别实验室将只评估少数样本。测试实验室之间的序列数据共享通常受到限制,因此许多潜在致病性突变和相关表型仅为单个实验室所知。集中存储库中此类患者的全基因组变异呼叫和详细临床表型描述的可用性将需要在信息基础设施和新伦理框架方面进行大量投资,这将允许更快地积累新基因的证据,以及持续的再分析,以完善潜在相关变异的分类和人类疾病的基因型-表型图谱。在DECIPHER数据库的拷贝数变化领域已经存在成功共享罕见疾病数据的模型54和细胞基因组阵列国际标准联盟(https://www.iscaconsortium.org/)在越来越多的稀有资源联盟的帮助下,目前正在进行几项雄心勃勃的努力,以建立基因组数据共享的明确全球标准56.

增加了临床环境中的挑战

尽管本总结侧重于研究,但研究结果为临床解释提供了基础。基于微弱研究证据的因果关系的可疑属性很容易通过研究数据库传播,并且可能被临床误解为比实际更强。因此,即使是没有明确向患者提供诊断的研究人员也应该意识到,他们公布的研究结果可能会被用作临床决策的支持。

临床实验室和研究人员在评估变异致病性方面面临着类似的挑战,但诊断紧迫性和误诊的潜在严重后果增加了压力。尽管在诊断设置中有关于变量解释的指南57,下一代测序数据的分析框架才刚刚开始出现58,59这些技术的负责任应用需要测试验证、变体解释和结果返回的标准。

基因和基因组检测的结果越来越多地被用于医疗决策,包括预防性乳房切除术、心脏除颤器植入、肿瘤治疗和产前诊断的建议。这些行为既不是普遍不当的,也不是普遍错误的;然而,由于对变体的误解而造成的潜在危害是巨大的。尽管医生必须经常使用不完善或不明确的数据来做出医疗决策,但至关重要的是,医疗服务提供者必须意识到证据中不同程度的确定性,以证明疾病中存在变异,两者都通过一致使用变体分类术语和描述支持证据或缺乏证据。

结论

高通量DNA测序技术为发现人类疾病的新基因和变异提供了前所未有的机会,但必须严格执行和复制这些发现,以防止假阳性发现的扩散。

评估变异含义的证据是一个两步过程。首先,应考虑基因暗示的总体证据,主要侧重于遗传分析暗示的统计支持,并可能辅以信息来源和功能研究的辅助数据。其次,应该对单个候选变异体的遗传、实验和信息支持进行综合评估。即使基因或变异体之前已被报告为有确切牵连,也应进行此类评估;应使用新的可用信息不断重新评估先前的证据。

我们敦促研究人员尽可能在定量统计框架内评估遗传、信息和功能分析的结果,例如确定在零假设下病例和对照中观察到的遗传变异分布的概率,以及检测特定频率和效应大小的变体的先验能力。为支持暗示而提供的实验或信息结果的特异性也应尽可能通过询问在一组随机变体或基因中偶然获得类似结果的频率来评估。在这样的分析中,研究人员应该利用基因组规模测序和功能数据的日益可用性,并通过将他们的发现贡献给公共数据库来帮助构建这些资源。

社区还应关注几个关键领域的持续资源开发(方框2). 特别是,迫切需要对报告的致病性突变数据库进行重大改进,包括支持致病性的证据细节。此外,还需要进行大规模实验,在其他大型、表型良好的人群中分析先前报告的疾病相关突变,以确认致病性,并提供外显率和表达性的有力证据。最后,需要进行大量的工作来制定正式的统计框架,以量化证据的影响力。

方框2 |研究和基础设施开发的优先事项

  • 改进了人类遗传变异的公共数据库,纳入了明确的、最新的支持证据,以证明疾病中的变异含义,并对解释中的变化进行了审计跟踪记录。
  • 改进了激励措施以及伦理和后勤解决方案,以共享研究和临床诊断实验室的遗传和表型数据。
  • 公共数据库中的变异和等位基因频率数据来自广泛祖先的大量人群参考样本。
  • 在大型、表型良好的人群队列中对报告的人类致病变异体进行大规模基因分型,减少相关外显率和表型异质性评估中的偏差。
  • 开发和基准化标准化、定量统计方法,以便客观地为新的候选疾病基因和变体指定因果概率。

对致病性证据进行客观、系统和定量的评估,并在研究和临床实验室之间共享这些评估和数据,将最大限度地提高致病基因变异与所有人类基因组中常见的许多罕见非致病变异的正确区分机会。

补充材料

补充信息

单击此处查看。(155K,pdf格式)

致谢

本文的灵感来源于美国国家人类基因组研究所(NHGRI)于2012年9月12日和13日召集的一个专家工作组的审议,该工作组旨在解决将疾病因果关系确定为遗传变异的挑战。作者感谢B.M.尼尔、L.E.邓肯、K.E.萨莫查、E.T.Lim和C.G.C.麦克阿瑟对手稿的贡献。

脚注

补充信息可在论文的在线版本中找到。

作者贡献D.G.M、T.A.M和C.G.策划了该项目并领导了写作小组。D.G.M、T.A.M、C.G、D.P.D、H.L.R和J.S担任组委会。所有作者都参加了2012年9月的研讨会,从自己的专业知识中贡献了指南,并对手稿进行了审查和评论。

作者声明没有竞争性的经济利益。

工具书类

1Bell CJ等。通过下一代测序对严重儿童隐性疾病进行携带者检测。科学。Transl.公司。医学。2011;:65ra4。 [PMC免费文章][公共医学][谷歌学者]
2薛毅等。健康个体中的有害和疾病流行率:来自当前预测、突变数据库和人群规模重新排序的见解。Am.J.Hum.遗传学。2012;91:1022–1032. [PMC免费文章][公共医学][谷歌学者]
三。Norton N等人,评估扩张型心肌病罕见变异在外显子组时代的致病性。循环心血管遗传学。2012;5:167–174. [PMC免费文章][公共医学][谷歌学者]
4Weng L等。冠心病中MEF2A突变的缺乏。临床杂志。投资。2005;115:1016–1020. [PMC免费文章][公共医学][谷歌学者]
5Hunt KA等人,罕见且功能齐全SIAE公司在多达66924名欧洲血统个体中,变异与自身免疫性疾病风险无关。自然遗传学。2012;44:3–5. [PMC免费文章][公共医学][谷歌学者]
6Allen AS等。癫痫脑病的从头突变。自然。2013;501:217–221. [PMC免费文章][公共医学][谷歌学者]
7Manolio TA等人。寻找复杂疾病的缺失遗传力。自然。2009;461:747–753. [PMC免费文章][公共医学][谷歌学者]
8Bamshad MJ等。外显子序列测定作为孟德尔病基因发现的工具。《自然·遗传学评论》。2011;12:745–755.[公共医学][谷歌学者]
9Kiezun A等人。外显子序列测定和复杂性状的遗传基础。自然遗传学。2012;44:623–630. [PMC免费文章][公共医学][谷歌学者]
10Pasaniuc B等人。极低覆盖率测序和插补提高了全基因组关联研究的能力。自然遗传学。2012;44:631–635. [PMC免费文章][公共医学][谷歌学者]
11Li B,Wang G,Leal SM.SimRare:一个生成和分析基于序列的数据的程序,用于定量和定性性状的关联研究。生物信息学。2012;28:2703–2704. [PMC免费文章][公共医学][谷歌学者]
12Johnston JJ等。PIGA种系突变的表型:阵发性夜间血红蛋白尿症的基因体细胞突变。Am.J.Hum.遗传学。2012;90:295–300. [PMC免费文章][公共医学][谷歌学者]
13Zuk O等,《寻找缺失遗传力:设计罕见变异关联研究》。程序。国家科学院。科学美国。2014;111:E445–E464。 [PMC免费文章][公共医学][谷歌学者]
14Chanock SJ等。复制基因型-表型关联。自然。2007;447:655–660.[公共医学][谷歌学者]
15O'Connor TD等人。人口分层的精细模式混淆了罕见的变异关联测试。《公共科学图书馆·综合》。2013;8:e65834。 [PMC免费文章][公共医学][谷歌学者]
16Mathieson I,McVean G.空间结构种群中罕见和常见变异的差异混淆。自然遗传学。2012;44:243–246. [PMC免费文章][公共医学][谷歌学者]
17Goldstein DB等人,《人类遗传学中的序列研究:设计和解释》。《自然·遗传学评论》。2013;14:460–470. [PMC免费文章][公共医学][谷歌学者]
18de Ligt J等。严重智力残疾患者的诊断外显子组测序。北英格兰。医学杂志。2012;367:1921–1929.[公共医学][谷歌学者]
19.Rauch A等。与严重非综合征散发性智力残疾相关的基因突变范围:外显子组测序研究。柳叶刀。2012;380:1674–1682.[公共医学][谷歌学者]
20Sanders SJ等。全基因组测序显示的从头突变与自闭症密切相关。自然。2012;485:237–241. [PMC免费文章][公共医学][谷歌学者]
21O'Roak BJ等。偶发性自闭症外显子揭示了从头突变的高度互联的蛋白质网络。自然。2012;485:246–250. [PMC免费文章][公共医学][谷歌学者]
22Neale BM等,自闭症谱系障碍外显子从头突变的模式和比率。自然。2012;485:242–245. [PMC免费文章][公共医学][谷歌学者]
23Iossifov I等人,自闭症谱系儿童的从头基因中断。神经元。2012;74:285–299. [PMC免费文章][公共医学][谷歌学者]
24O'Roak BJ等。多重靶向测序确定自闭症谱系障碍中反复突变的基因。科学。2012:1619–1622. [PMC免费文章][公共医学][谷歌学者]
25Lander E,Kruglyak L.复杂性状的遗传解剖:解释和报告连锁结果的指南。自然遗传学。1995;11:241–247.[公共医学][谷歌学者]
26.Harrow J等人。基因编码:ENCODE项目的参考人类基因组注释。基因组研究。2012;22:1760–1774. [PMC免费文章][公共医学][谷歌学者]
27Derrien T等。人类长非编码RNA的GENCODE v7目录:对其基因结构、进化和表达的分析。基因组研究。2012;22:1775–1789. [PMC免费文章][公共医学][谷歌学者]
28Ng SB等。外显子组测序鉴定MLL2级突变是歌舞伎综合征的病因。自然遗传学。2010;42:790–793. [PMC免费文章][公共医学][谷歌学者]
29.Lemaire M等人DGKE公司引起非典型溶血性尿毒综合征。自然遗传学。2013;45:531–536. [PMC免费文章][公共医学][谷歌学者]
30Albers CA等。外显子-连接复合体亚单位中低频调节性SNP和罕见零突变的复合遗传RBM8A型导致TAR综合征。自然遗传学。2012;44:435–439. [PMC免费文章][公共医学][谷歌学者]
31Zaidi S等。先天性心脏病组织修饰基因的从头突变。自然。2013;498:220–223. [PMC免费文章][公共医学][谷歌学者]
32Lage K等人。人类疾病基因和复合物的组织特异性病理学和基因表达的大规模分析。程序。国家科学院。科学。美国。2008;105:20870–20875. [PMC免费文章][公共医学][谷歌学者]
33Franke L等人。重建功能性人类基因网络,并应用于确定位置候选基因的优先级。Am.J.Hum.遗传学。2006;78:1011–1025. [PMC免费文章][公共医学][谷歌学者]
34Boulding H,Webber C.通过发育障碍患者中确定的结构变异,将小鼠表型与人类症状进行大规模客观关联。嗯,变种人。2012;33:874–883.[公共医学][谷歌学者]
35Webber C等人。在人类智力低下相关CNV和小鼠基因敲除模型之间建立联系。公共科学图书馆-遗传学。2009;5:e1000531。 [PMC免费文章][公共医学][谷歌学者]
36Reed DR、Lawler MP、Tordoff MG。减轻体重是基因敲除对小鼠的常见影响。BMC基因。2008;9:4. [PMC免费文章][公共医学][谷歌学者]
37Giallourakis C、Henson C、Reich M、Xie X、Mootha VK。通过整合基因组学发现疾病基因。每年。基因组学评论。2005;6:381–406.[公共医学][谷歌学者]
38Tennessen JA等人。人类外显子深度测序中罕见编码变异的进化和功能影响。科学。2012;337:64–69. [PMC免费文章][公共医学][谷歌学者]
39Veltman JA、Brunner H.G。从头开始人类遗传病的突变。《自然·遗传学评论》。2012;13:565–575.[公共医学][谷歌学者]
40Bustamante CD等。人类基因组中蛋白质编码基因的自然选择。自然。2005;437:1153–1157.[公共医学][谷歌学者]
41.麦克阿瑟DG等。人类蛋白编码基因中功能丧失变体的系统调查。科学。2012;335:823–828. [PMC免费文章][公共医学][谷歌学者]
42Cooper GM、Shendure J.《针堆中的针:在大量基因组数据中发现致病性变体》。《自然·遗传学评论》。2011;12:628–640.[公共医学][谷歌学者]
43Adzhubei IA等。一种预测破坏性错义突变的方法和服务器。自然方法。2010;7:248–249. [PMC免费文章][公共医学][谷歌学者]
44Cooper GM等。单核苷酸进化约束评分突出了致病突变。自然方法。2010;7:250–251. [PMC免费文章][公共医学][谷歌学者]
45Kondrashov AS、Sunyaev S、Kondrasshov FA。蛋白质进化中的Dobzhansky-Muller不相容性。程序。国家科学院。科学。美国。2002;99:14878–14883. [PMC免费文章][公共医学][谷歌学者]
46ENCODE项目联盟人类基因组中DNA元素的综合百科全书。自然。2012;489:57–74. [PMC免费文章][公共医学][谷歌学者]
47Patwardhan RP等。哺乳动物增强子的大规模平行功能解剖体内.自然生物技术。2012;30:265–270. [PMC免费文章][公共医学][谷歌学者]
48Cooper GM等。发育迟缓的拷贝数变异发病率图。自然遗传学。2011;43:838–846. [PMC免费文章][公共医学][谷歌学者]
49Bick AG等人。弗雷明翰和杰克逊心脏研究队列中罕见肌节基因变异的负担。Am.J.Hum.遗传学。2012;91:513–519. [PMC免费文章][公共医学][谷歌学者]
50Flannick J等人。评估显性孟德尔型糖尿病基因罕见变异在普通人群中的表型效应。自然遗传学。2013:1380–1385. [PMC免费文章][公共医学][谷歌学者]
511000基因组项目联盟人口规模测序的人类基因组变异图。自然。2010;467:1061–1073.勘误表473,544 (2011).[PMC免费文章][公共医学][谷歌学者]
52编辑共享相似。自然。2012;490:143–144.[公共医学][谷歌学者]
53Fokkema IF等人,LOVD v.2.0:基因变异数据库中的下一代。嗯,变种人。2011;32:557–563.[公共医学][谷歌学者]
54Firth HV,et al.DECIPHER:使用集合资源的人类染色体不平衡和表型数据库。Am.J.Hum.遗传学。2009;84:524–533. [PMC免费文章][公共医学][谷歌学者]
55Walport M,Brest P.分享研究数据以改善公共卫生。柳叶刀。2011;377:537–539.[公共医学][谷歌学者]
56Altshuler DA等人创建全球联盟,以实现基因组和临床数据的负责任共享。2013 http://genomicsandhealth.org/files/public/White%20Paper%20June%203%20final.pdf.[谷歌学者]
57Richards CS等人。ACMG关于序列变异解释和报告标准的建议:2007年修订版。遗传学。医学。2008;10:294–300.[公共医学][谷歌学者]
58Gargis AS等。确保临床实验室实践中新一代测序的质量。自然生物技术。2012;30:1033–1036. [PMC免费文章][公共医学][谷歌学者]
59.Rehm HL等人,ACMG下一代测序临床实验室标准。遗传学。医学。2013(在媒体上)[PMC免费文章][公共医学][谷歌学者]