NHGRI标志

在过去的四分之一世纪里,基因组学领域的进展已经导致基因组测序成本的大幅降低。与基因组测序的不同方法和策略相关的潜在成本非常有趣,因为它们影响了几乎所有基因组学研究项目的范围和规模。

概述

自20世纪80年代末基因组学领域开始以来,人们对基因组测序成本及其计算方式进行了大量的审查和关注。例如,NHGRI追踪每个基因组的成本在其资助的“基因组测序中心”工作了多年(见图1)。随着人类遗传学研究的规模越来越大,基因组测序的临床应用越来越多,人们越来越重视了解生成人类基因组序列的潜在成本。

准确确定对给定基因组(例如人类基因组)进行测序的成本并不简单。有许多参数需要定义,细微差别需要考虑。事实上,很难引用精确的基因组测序成本数据,因为在现实中,不同的研究人员、研究机构和公司通常以不同的方式跟踪和说明这些成本。

图:每个基因组的测序成本

基因组测序引物

基因组由细胞核中包含的所有DNA组成。DNA由四个化学构建块或“碱基”(为了简单起见,缩写为G、A、T和C)组成,DNA中编码的生物信息由这些碱基的顺序决定。二倍体生物与人类和所有其他哺乳动物一样,几乎所有DNA都有重复拷贝(即染色体对;每对染色体中有一条染色体从父母双方遗传而来)。生物体基因组的大小通常被认为是其核DNA一个代表性拷贝中碱基的总数。在二倍体生物(如人类)的情况下,这相当于每个染色体对的一个副本的大小之和。

生物体的基因组大小通常不同。例如大肠杆菌(生活在肠道中的细菌)约为500万碱基(也称为巨碱基),果蝇约为1.23亿碱基,人类约为30亿碱基(或约30亿碱)。还有一些令人惊讶的极端情况,例如火炬松的基因组大小约为230亿碱基,比我们的基因组大7倍。显然,基因组测序的成本取决于其大小。下面的讨论重点是人类基因组;请记住,人类基因组的单个“代表性”拷贝的大小约为30亿个碱基,而一个人的实际(二倍体)基因组的大小约为60亿个碱基。

基因组很大,至少在今天的方法中,它们的碱基不能在一个步骤中按顺序(即测序)端到端地“读出”。相反,要对基因组进行测序,必须首先将其DNA分解成更小的片段,然后对每个片段进行化学反应,以推断其碱基的身份和顺序。从每一段DNA中得出的已建立的碱基顺序通常被称为“序列读取”,然后通过计算将所得序列读取集(通常以数十亿计)重新组合在一起,以推断起始基因组的序列。目前,人类基因组的测序得益于人类基因组可用“参考”序列的可用性,这些序列在计算组装过程中发挥着重要作用。从历史上看,分解基因组、测序单个DNA片段,然后重新组装单个序列读取以生成起始基因组序列的过程被称为“鸟枪测序”(尽管这个术语现在使用的频率较低)。当整个基因组被测序时,这个过程被称为“全基因组测序”人类基因组项目期间和大约2016年期间人类基因组测序方法的比较见图2。

dna测序

全基因组测序的另一种选择是对基因组的一部分进行定向测序。通常,这只需要对基因组的蛋白质编码区进行测序,这些蛋白质编码区位于被称为“外显子”的DNA片段中,反映了大多数基因组中目前“最容易理解”的部分。例如,人类基因组中的所有外显子(人类“外显子”)约占人类总基因组的1.5%。现在已经有方法可以实验性地“捕获”(或分离)外显子,然后对其进行测序,以生成基因组的“全基因组序列”。全外显子序列测定需要额外的实验室操作,因此全外显元序列的成本不超过全基因组序列的1.5%。但由于测序的DNA要少得多,所以全基因组测序(至少目前)比全基因组测测序便宜。

与生成基因组序列相关的成本的另一个重要驱动因素与数据质量有关。这种质量在很大程度上取决于基因组中每个碱基在测序过程中实际“读取”的平均次数。在人类基因组计划(HGP)期间,考虑的典型质量水平是:(1)“草图序列”(覆盖基因组的约90%,准确率约99.9%);和(2)“完成的序列”(以99.99%的准确率覆盖了基因组的95%以上)。按照这个定义生产真正高质量的“成品”序列是非常昂贵的;值得注意的是,“序列整理”过程非常劳动密集,因此成本很高。事实上,今天产生的大多数人类基因组序列都是“草图序列”(有时高于,有时低于上面定义的精确度)。

因此,在计算与基因组测序相关的成本时,有许多因素需要考虑。基因组序列有多种不同的类型和质量水平,在这个过程中可能涉及许多步骤和活动。因此,要了解基因组序列的真实成本,就需要了解在计算该成本时曾经包括和没有包括的内容(例如,序列数据生成、序列整理、前期活动,如绘图、设备摊销、间接费用、公用事业、工资、数据分析等)。事实上,在不同情况下估算基因组测序成本时,所包含的内容往往存在差异。

以下是关于以下内容的摘要信息:(1)作为HGP的一部分对第一个人类基因组进行测序的估计成本;(2) 2006年(即大约十年前)人类基因组测序的估计成本;以及(3)2016年(即现在)人类基因组测序的估计成本。

成本时间表

作为人类基因组计划的一部分,生成第一个人类基因组序列需要花费多少钱?

HGP生成了人类基因组的“参考”序列,具体来说,它对每个人类染色体的所有部分(总共约30亿个碱基)的一个代表性版本进行了测序。最后,“完成”序列的质量非常高,估计误差率<1/100000个碱基;注意,这比今天产生的典型人类基因组序列要高得多。生成的序列并非来自一个人的基因组,作为一个约30亿碱基的“参考”序列,它实际上反映了一个人约60亿碱基基因组测序时生成的序列的一半(见下文)。

HGP首先对人类基因组进行定位,然后进行测序。当时需要前者,因为没有其他“框架”来组织实际测序或结果序列数据。人类基因组图充当了连接组装DNA序列各个片段的“支架”。这些基因组绘制工作相当昂贵,但在当时对于生成准确的基因组序列至关重要。很难估计与HGP的“人类基因组绘图阶段”相关的成本,但肯定是数千万美元(可能还有数亿美元)。

一旦HGP的重要人类基因组测序开始,在15个月的时间内(从1999年4月到2000年6月)生成了一份“草图”人类基因组序列(如上所述)。生成初始“草案”人类基因组序列的估计成本为~3亿美元在全球范围内,NIH提供了大约50-60%的资金。

HGP随后对“草案”进行了改进,并生成了“完成的”人类基因组序列(如上所述),该序列于2003年实现。将“草图”人类基因组序列推进到“完成”序列的估计成本为~1.5亿美元全球范围内。值得注意的是,由HGP生成最终人类基因组序列还依赖于在HGP的主要生产测序阶段之前生成的人类基因组小目标区域的序列;无法估计与这些其他各种基因组测序工作相关的成本,但它们的总成本可能高达数千万美元。

上述解释说明了很难为作为HGP的一部分生成第一个人类基因组序列的成本提供一个单一、准确的数字。这样的计算需要清楚地描述估算中“计算”和“不计算”的内容;此外,单个组件的大多数成本估算只能作为范围给出。在下限,这一成本数字似乎至少为5亿美元;按上限计算,这一成本数字可能高达10亿美元。真相可能介于两者之间。

上述HGP生成第一个人类基因组序列的估计成本不应与HGP的总成本混淆。美国对HGP捐款的最初预计成本为30亿美元;事实上,该项目最终花费的时间更少(约13年,而不是约15年),所需资金更少——~27亿美元但后一个数字代表了美国在HGP的保护伞下对人类基因组测序以外的广泛科学活动的总资助,包括技术开发、物理和遗传绘图、模型生物基因组绘图和测序、生物伦理学研究和项目管理。此外,这一数额并没有反映出其他参与人类基因组计划的国家所从事的一系列重叠活动的额外资金。

随着HGP接近完成,基因组测序管道已经稳定,NHGRI能够从研究所资助的主要测序中心收集到相当可靠的成本信息。根据这些数据,NHGRI估计,使用当时可用的方法和技术生成“第二个”参考人类基因组序列的假设成本约为5000万美元。

2006年(即大约十年前)对人类基因组进行测序需要多少费用?

自从人类基因组计划的完成和第一个“参考”人类基因组序列的产生以来,人们的努力越来越多地转移到从个人身上生成人类基因组序列。对个人“个人”基因组进行测序实际上涉及到确定约60亿碱基DNA的身份和顺序(而不是约30亿碱基的“参考”序列;见上文)。因此,生成一个人的基因组序列与HGP所做的工作截然不同。

在人类基因组计划结束后的几年内(例如2006年),基因组测序的格局开始发生变化。虽然革命性的新DNA测序技术,如目前使用的技术,当时还没有完全实施,但基因组学小组继续完善HGP期间使用的基本方法,并继续降低基因组测序的成本。在非人类基因组测序(远比人类基因组更重要)方面正在做出巨大努力,但当时收集的成本核算数据可用于估计当时与人类基因组测速相关的大致成本。

根据NHGRI从该研究所资助的基因组测序小组收集的数据,到2006年,生成高质量“草图”人类基因组序列的成本已降至约1400万美元。假设,生成一个“完成的”人类基因组序列的成本可能会高达2000万至2500万美元——虽然昂贵,但仍远低于生成第一个参考人类基因组序列。

2016年(即今天)对人类基因组进行测序需要多少费用?

HGP之后的十年带来了DNA测序技术的革命性进展,从根本上改变了基因组学的性质。所谓的“下一代”DNA测序方法问世,其效果很快在以下方面变得明显降低基因组测序成本; 请注意,这些NHGRI收集的数据在性质上具有“追溯性”,并不总是准确反映未来基因组测序的“预计”成本)。

2015年,最常见的个人人类基因组测序程序包括生成一个“草图”序列,并将其与参考人类基因组序列进行比较,以便编录该基因组中的所有序列变体;这样的例程不涉及任何序列结束。简而言之,2015年几乎所有人类基因组测序都会产生高质量的“草图”(但尚未完成)序列。如前所述,该测序通常针对所有外显子(全基因组测序)或整个约60亿碱基基因组(全基因组序列)。生成的“草稿”序列的质量在很大程度上取决于生成数据提供的平均基本冗余量(冗余越高,成本越高)。

2015年,商业企业以竞争性价格提供基因组测序服务的出现,使基因组测序的复杂局面雪上加霜。商业基因组测序和学术基因组测序操作之间的直接比较可能特别具有挑战性,因为每种操作在任何成本估算中都有许多细微差别(私营公司通常不会透露这些细节)。NHGRI从其资助的基因组测序小组收集的成本数据包括关于广泛活动和组成部分的信息,例如:试剂、消耗品、DNA测序仪器、某些计算机设备、其他设备、实验室管道开发、实验室信息管理系统、初始数据处理、,向公共数据库、项目管理、公用事业、其他间接成本、劳动力和行政部门提交数据。注意,此类成本核算通常不包括质量保证/质量控制(QA/QC)、将生成的序列与参考人类基因组对齐、序列组装、基因组变体调用或注释等活动。几乎可以肯定的是,公司在上述清单中的哪些项目被纳入任何成本估算方面存在差异,这使得与学术基因组测序小组进行直接成本比较变得困难。因此,在比较不同群体声称的基因组测序成本时,考虑这些变量以及追溯成本与预测成本之间的区别是很重要的。任何比较基因组测序成本的人都应该意识到“价格”和“成本”之间的区别——给定的价格可能高于或低于实际成本。

基于数据收集自NHGRI资助的基因组测序小组,2015年年中生成高质量“草图”全人类基因组序列的成本略高于4000美元;到2015年底,这一数字已降至1500美元以下。生成完整序列的成本通常低于1000美元。全基因组和全基因组序列的商业价格通常(但并不总是)略低于这些数字。

展望未来

基因组测序技术和战略的创新似乎没有放缓。因此,人们可以很容易地预期人类基因组测序的成本会继续降低。在评估与生成人类基因组序列的估计成本相关的“价值”时要考虑的关键因素,尤其是基因组数量(整体与外显子组)、质量和相关数据分析(如果有),可能基本上保持不变。随着未来几年预计会有新的DNA测序平台,生成的序列数据的性质和相关成本可能会继续保持动态。因此,需要继续关注基因组测序相关成本的计算方法。

联系人

Kris Wetterstrand,医学硕士。
Kris A.Wetterstrand,医学硕士。
  • 与校外活动主任的科学联络
  • 董事办公室

上次更新时间:2021年11月1日