NHGRI标志

多年来,国家人类基因组研究所(NHGRI)一直在跟踪由该研究所资助的测序中心进行的DNA测序的相关成本。这些信息已成为评估DNA测序技术改进和建立NHGRI基因组测序计划DNA测序能力的重要基准。NHGRI对这些数据进行了分析,从中可以看出近年来DNA测序技术和数据生产管道的显著改进。

概述

此处所示的成本核算数据总结了两个指标:(1)“DNA序列的每兆碱基成本”——确定特定质量DNA序列的一兆碱基(Mb;一百万碱基)的成本[见下文];(2) “每个基因组的成本”——对人类大小的基因组进行测序的成本。对于每种情况,都提供了一个图表,显示了自2001年以来的数据;此外,图表反映的实际数字在汇总表中提供。

NHGRI欢迎人们下载这些图表,并将其用于演示和教学材料中。NHGRI计划定期更新这些数据。您可以通过下载2022年排序成本.

 

每兆基地排序成本

 

图:每个基因组的测序成本

 

为了说明DNA测序成本降低的性质,每张图还显示了反映摩尔定律的假设数据,摩尔定律描述了计算机硬件行业的长期趋势,即“计算能力”每两年翻一番(见:摩尔定律[wikipedia.org])。人们普遍认为,“跟上”摩尔定律的技术改进做得非常好,这使其有助于进行比较。

在这两张图中,请注意:(1)在Y轴上使用对数刻度;以及(2)从2008年1月开始,摩尔定律突然而深刻地被打破。后者代表了测序中心从基于Sanger-based(双脱氧链终止测序)的DNA测序技术过渡到“第二代”(或“下一代”)的时间。下面提供了有关这些图表的更多详细信息。

然而,这些数据并没有反映出NHGRI大规模基因组测序计划的所有相关成本。测序中心执行许多额外的活动,在计算生产导向DNA测序的成本时,这些活动的成本不适合包括在内。换言之,NHGRI对“生产”活动和“非生产”活动进行了区分。生产活动对于常规生成公共数据库中提供的大量高质量DNA序列数据至关重要;这里总结了与生产DNA测序相关的成本,并在两张图上进行了描述。下面提供了测序中心执行的其他活动的其他信息。

关键考虑因素

成本类别

每个类别中包含的支出是根据NHGRI工作人员和测序中心人员之间的讨论确定的。

对于这两张图(“DNA序列每兆碱基成本”和“每基因组成本”),计算了以下“生产”成本:

  • 劳工、行政、管理、公用事业、试剂和消耗品
  • 排序仪器和其他大型设备(三年摊销)
  • 与序列生产直接相关的信息活动(例如,实验室信息管理系统和初始数据处理)
  • 向公共数据库提交数据
  • 间接成本因为它们与上述项目有关
     

在对测序中心(例如,为购买大型设备提供资金的受赠机构)提供大量补贴所涵盖的成本的情况下,国家人权信息研究所试图在这些分析中适当说明这些成本。

以下“非生产”活动的相关成本未反映在两个图表中:

  • 排序项目的质量评估/控制
  • 改进测序管线的技术开发
  • 开发生物信息学/计算工具以改进测序管道或改进下游序列分析
  • 单个测序项目的管理
  • 信息设备
  • 初始数据处理下游的数据分析(例如序列组装、序列比对、识别变体和结果解释)
     

DNA测序技术

在这两张图中,2001年至2007年10月的数据代表了使用桑格化学和毛细管仪器(“第一代”测序平台)生成DNA序列的成本。从2008年1月开始,这些数据代表了使用“第二代”(或“下一代”)测序平台生成DNA序列的成本。仪器的变化代表了近年来DNA测序技术的快速发展。

质量

对于基于Sanger的序列数据,成本核算反映了最低质量分数为Phred20(或Q20)的碱基的生成,这表示错误概率为1%,是高质量碱基的公认社区标准。对于使用第二代测序平台生成的序列数据,目前还没有一种公认的准确度测量方法;每个制造商提供的质量分数在此时被NHGRI测序中心接受为等于或大于Q20。

在“DNA序列每兆位的成本”图中,数据反映了生成原始未组装序列数据的成本;尽管序列读取长度存在显著差异,但未对使用不同仪器生成的数据进行调整。相反,“每个基因组的成本”图确实考虑了这些差异,因为序列读取长度会影响生成组装基因组序列的能力。

基因组覆盖率

“每个基因组的成本”图是使用与生成“DNA序列的每兆碱基成本”图相同的基础数据生成的;因此,前者反映了对人类基因组测序成本的估计,而不是特定基因组测序项目的实际成本。

为了计算基因组测序的成本,需要知道该基因组的大小和所需的“序列覆盖率”(即“序列冗余”),以便在使用特定测序平台的情况下生成高质量的基因组组装。为了生成“每个基因组的成本”图,假设基因组大小为3000 Mb(即人类基因组的大小)。根据测序平台的平均序列读取长度,不同测序平台所需的假定序列覆盖率不同。

以下“序列覆盖率”值用于计算每个基因组的成本:
  • 基于Sanger-based测序(平均读取长度=500-600个碱基):6倍覆盖率
  • 454测序(平均读取长度=300-400个碱基):10倍覆盖率
  • Illumina和SOLiD测序(平均读取长度=75-150个碱基):30倍覆盖率
     

对于自2008年1月以来的数据(代表使用“第二代”测序平台生成的数据),“每个基因组的成本”图反映了涉及人类基因组“重新测序”的项目,其中可用参考人类基因组序列作为下游数据分析的主干。对于没有参考基因组序列的基因组测序,所需的“序列覆盖率”将更大。

  • 主要注意事项

    成本类别

    根据NHGRI工作人员和测序中心人员之间的讨论,确定了每个类别中的支出。

    对于这两张图(“DNA序列每兆碱基成本”和“每基因组成本”),计算了以下“生产”成本:

    • 劳工、行政、管理、公用事业、试剂和消耗品
    • 测序仪器和其他大型设备(三年摊销)
    • 与序列生产直接相关的信息活动(例如,实验室信息管理系统和初始数据处理)
    • 向公共数据库提交数据
    • 间接成本因为它们与上述项目有关
       

    在对测序中心(例如,为购买大型设备提供资金的受赠机构)提供大量补贴所涵盖的成本的情况下,国家人权信息研究所试图在这些分析中适当说明这些成本。

    以下“非生产”活动的相关成本未反映在两个图表中:

    • 排序项目的质量评估/控制
    • 改进测序管线的技术开发
    • 开发生物信息学/计算工具以改进测序管道或改进下游序列分析
    • 单个测序项目的管理
    • 信息设备
    • 初始数据处理下游的数据分析(例如序列组装、序列比对、识别变体和结果解释)
       

    DNA测序技术

    在这两张图中,2001年至2007年10月的数据代表了使用桑格化学和毛细管仪器(“第一代”测序平台)生成DNA序列的成本。从2008年1月开始,这些数据代表了使用“第二代”(或“下一代”)测序平台生成DNA序列的成本。仪器的变化代表了近年来DNA测序技术的快速发展。

    质量

    对于基于Sanger的序列数据,成本核算反映了最小质量分数为Phred20(或Q20)的碱基的生成,这表示1%的错误概率,并且是高质量碱基的公认社区标准。对于使用第二代测序平台生成的序列数据,目前还没有一种公认的准确度测量方法;每个制造商提供的质量分数目前被NHGRI测序中心接受为等于或大于Q20。

    在“DNA序列每兆位的成本”图中,数据反映了生成原始未组装序列数据的成本;尽管序列读取长度存在显著差异,但未对使用不同仪器生成的数据进行调整。相反,“每个基因组的成本”图确实考虑到了这些差异,因为序列读取长度会影响生成组装基因组序列的能力。

    基因组覆盖率

    “每个基因组的成本”图是使用与生成“DNA序列的每兆碱基成本”图相同的基础数据生成的;因此,前者反映了对人类基因组测序成本的估计,而不是特定基因组测序项目的实际成本。

    为了计算基因组测序的成本,需要知道该基因组的大小和所需的“序列覆盖率”(即“序列冗余”),以便在使用特定测序平台的情况下生成高质量的基因组组装。为了生成“每个基因组的成本”图,假设基因组大小为3000 Mb(即人类基因组的大小)。根据测序平台的平均序列读取长度,不同测序平台所需的假定序列覆盖率不同。

    以下“序列覆盖率”值用于计算每个基因组的成本:
    • 基于Sanger-based测序(平均读取长度=500-600个碱基):6倍覆盖率
    • 454测序(平均读取长度=300-400个碱基):10倍覆盖率
    • Illumina和SOLiD测序(平均读取长度=75-150个碱基):30倍覆盖率
       

    对于2008年1月以来的数据(代表使用“第二代”测序平台生成的数据),“每个基因组的成本”图反映了涉及人类基因组“重新测序”的项目,其中可用的参考人类基因组序列可作为下游数据分析的骨干。对于没有参考基因组序列的基因组测序,所需的“序列覆盖率”将更大。

工具书类

Mardis E.DNA测序技术十年展望。 自然, 470: 198-203. 2011. [公共医学]
Metzker M.测序技术——下一代。 自然遗传学, 11: 31-46. 2010. [公共医学]
Stein L.基因组信息学中的云计算案例。 基因组生物学, 11: 207-213. 2010. [公共医学]

人类基因组十年:序列爆炸。 自然, 464: 670-671. 2010. [公共医学]
NHGRI基因组测序程序

如何引用此网页:
Wetterstrand KA。DNA测序成本:NHGRI基因组测序计划(GSP)数据,网址:www.genome.gov/sequencingcostsdata。已访问[访问日期]。

联系人

Kris Wetterstrand,医学硕士。
Kris A.Wetterstrand,医学硕士。
  • 与校外活动主任的科学联络
  • 董事办公室

上次更新时间:2023年5月16日