作为人类基因组计划的一部分,生成第一个人类基因组序列需要花费多少钱?
HGP生成了人类基因组的“参考”序列,具体来说,它对每个人类染色体的所有部分(总共约30亿个碱基)的一个代表性版本进行了测序。最后,“完成”序列的质量非常高,估计误差率<1/100000个碱基;注意,这比今天产生的典型人类基因组序列要高得多。生成的序列并非来自一个人的基因组,作为一个约30亿碱基的“参考”序列,它实际上反映了一个人约60亿碱基基因组测序时生成的序列的一半(见下文)。
HGP首先对人类基因组进行定位,然后进行测序。当时需要前者,因为没有其他“框架”来组织实际测序或结果序列数据。人类基因组图充当了连接组装DNA序列各个片段的“支架”。这些基因组绘制工作相当昂贵,但在当时对于生成准确的基因组序列至关重要。很难估计与HGP的“人类基因组绘图阶段”相关的成本,但肯定是数千万美元(可能还有数亿美元)。
一旦HGP的重要人类基因组测序开始,在15个月的时间内(从1999年4月到2000年6月)生成了一份“草图”人类基因组序列(如上所述)。生成初始“草案”人类基因组序列的估计成本为~3亿美元在全球范围内,NIH提供了大约50-60%的资金。
HGP随后对“草案”进行了改进,并生成了“完成的”人类基因组序列(如上所述),该序列于2003年实现。将“草图”人类基因组序列推进到“完成”序列的估计成本为~1.5亿美元全球范围内。值得注意的是,由HGP生成最终人类基因组序列还依赖于在HGP的主要生产测序阶段之前生成的人类基因组小目标区域的序列;无法估计与这些其他各种基因组测序工作相关的成本,但它们的总成本可能高达数千万美元。
上述解释说明了很难为作为HGP的一部分生成第一个人类基因组序列的成本提供一个单一、准确的数字。这样的计算需要清楚地描述估算中“计算”和“不计算”的内容;此外,单个组件的大多数成本估算只能作为范围给出。在下限,这一成本数字似乎至少为5亿美元;按上限计算,这一成本数字可能高达10亿美元。真相可能介于两者之间。
上述HGP生成第一个人类基因组序列的估计成本不应与HGP的总成本混淆。美国对HGP捐款的最初预计成本为30亿美元;事实上,该项目最终花费的时间更少(约13年,而不是约15年),所需资金更少——~27亿美元但后一个数字代表了美国在HGP的保护伞下对人类基因组测序以外的广泛科学活动的总资助,包括技术开发、物理和遗传绘图、模型生物基因组绘图和测序、生物伦理学研究和项目管理。此外,这一数额并没有反映出其他参与人类基因组计划的国家所从事的一系列重叠活动的额外资金。
随着HGP接近完成,基因组测序管道已经稳定,NHGRI能够从研究所资助的主要测序中心收集到相当可靠的成本信息。根据这些数据,NHGRI估计,使用当时可用的方法和技术生成“第二个”参考人类基因组序列的假设成本约为5000万美元。
2006年(即大约十年前)对人类基因组进行测序需要多少费用?
自从人类基因组计划的完成和第一个“参考”人类基因组序列的产生以来,人们的努力越来越多地转移到从个人身上生成人类基因组序列。对个人“个人”基因组进行测序实际上涉及到确定约60亿碱基DNA的身份和顺序(而不是约30亿碱基的“参考”序列;见上文)。因此,生成一个人的基因组序列与HGP所做的工作截然不同。
在人类基因组计划结束后的几年内(例如2006年),基因组测序的格局开始发生变化。虽然革命性的新DNA测序技术,如目前使用的技术,当时还没有完全实施,但基因组学小组继续完善HGP期间使用的基本方法,并继续降低基因组测序的成本。在非人类基因组测序(远比人类基因组更重要)方面正在做出巨大努力,但当时收集的成本核算数据可用于估计当时与人类基因组测速相关的大致成本。
根据NHGRI从该研究所资助的基因组测序小组收集的数据,到2006年,生成高质量“草图”人类基因组序列的成本已降至约1400万美元。假设,生成一个“完成的”人类基因组序列的成本可能会高达2000万至2500万美元——虽然昂贵,但仍远低于生成第一个参考人类基因组序列。
2016年(即今天)对人类基因组进行测序需要多少费用?
HGP之后的十年带来了DNA测序技术的革命性进展,从根本上改变了基因组学的性质。所谓的“下一代”DNA测序方法问世,其效果很快在以下方面变得明显降低基因组测序成本; 请注意,这些NHGRI收集的数据在性质上具有“追溯性”,并不总是准确反映未来基因组测序的“预计”成本)。
2015年,最常见的个人人类基因组测序程序包括生成一个“草图”序列,并将其与参考人类基因组序列进行比较,以便编录该基因组中的所有序列变体;这样的例程不涉及任何序列结束。简而言之,2015年几乎所有人类基因组测序都会产生高质量的“草图”(但尚未完成)序列。如前所述,该测序通常针对所有外显子(全基因组测序)或整个约60亿碱基基因组(全基因组序列)。生成的“草稿”序列的质量在很大程度上取决于生成数据提供的平均基本冗余量(冗余越高,成本越高)。
2015年,商业企业以竞争性价格提供基因组测序服务的出现,使基因组测序的复杂局面雪上加霜。商业基因组测序和学术基因组测序操作之间的直接比较可能特别具有挑战性,因为每种操作在任何成本估算中都有许多细微差别(私营公司通常不会透露这些细节)。NHGRI从其资助的基因组测序小组收集的成本数据包括关于广泛活动和组成部分的信息,例如:试剂、消耗品、DNA测序仪器、某些计算机设备、其他设备、实验室管道开发、实验室信息管理系统、初始数据处理、,向公共数据库、项目管理、公用事业、其他间接成本、劳动力和行政部门提交数据。注意,此类成本核算通常不包括质量保证/质量控制(QA/QC)、将生成的序列与参考人类基因组对齐、序列组装、基因组变体调用或注释等活动。几乎可以肯定的是,公司在上述清单中的哪些项目被纳入任何成本估算方面存在差异,这使得与学术基因组测序小组进行直接成本比较变得困难。因此,在比较不同群体声称的基因组测序成本时,考虑这些变量以及追溯成本与预测成本之间的区别是很重要的。任何比较基因组测序成本的人都应该意识到“价格”和“成本”之间的区别——给定的价格可能高于或低于实际成本。
基于数据收集自NHGRI资助的基因组测序小组,2015年年中生成高质量“草图”全人类基因组序列的成本略高于4000美元;到2015年底,这一数字已降至1500美元以下。生成完整序列的成本通常低于1000美元。全基因组和全基因组序列的商业价格通常(但并不总是)略低于这些数字。