DNA测序成本：数据

多年来，国家人类基因组研究所（NHGRI）一直在跟踪由该研究所资助的测序中心进行的DNA测序的相关成本。这些信息已成为评估DNA测序技术改进和建立NHGRI基因组测序计划DNA测序能力的重要基准。NHGRI对这些数据进行了分析，从中可以看出近年来DNA测序技术和数据生产管道的显著改进。

概述

此处所示的成本核算数据总结了两个指标：（1）“DNA序列的每兆碱基成本”——确定特定质量DNA序列的一兆碱基（Mb；一百万碱基）的成本[见下文]；（2） “每个基因组的成本”——对人类大小的基因组进行测序的成本。对于每种情况，都提供了一个图表，显示了自2001年以来的数据；此外，图表反映的实际数字在汇总表中提供。

NHGRI欢迎人们下载这些图表，并将其用于演示和教学材料中。NHGRI计划定期更新这些数据。您可以通过下载2022年排序成本.

为了说明DNA测序成本降低的性质，每张图还显示了反映摩尔定律的假设数据，摩尔定律描述了计算机硬件行业的长期趋势，即“计算能力”每两年翻一番（见：摩尔定律[wikipedia.org]）。人们普遍认为，“跟上”摩尔定律的技术改进做得非常好，这使其有助于进行比较。

在这两张图中，请注意：（1）在Y轴上使用对数刻度；以及（2）从2008年1月开始，摩尔定律突然而深刻地被打破。后者代表了测序中心从基于Sanger-based（双脱氧链终止测序）的DNA测序技术过渡到“第二代”（或“下一代”）的时间。下面提供了有关这些图表的更多详细信息。

然而，这些数据并没有反映出NHGRI大规模基因组测序计划的所有相关成本。测序中心执行许多额外的活动，在计算生产导向DNA测序的成本时，这些活动的成本不适合包括在内。换言之，NHGRI对“生产”活动和“非生产”活动进行了区分。生产活动对于常规生成公共数据库中提供的大量高质量DNA序列数据至关重要；这里总结了与生产DNA测序相关的成本，并在两张图上进行了描述。下面提供了测序中心执行的其他活动的其他信息。

关键考虑因素

成本类别

每个类别中包含的支出是根据NHGRI工作人员和测序中心人员之间的讨论确定的。

对于这两张图（“DNA序列每兆碱基成本”和“每基因组成本”），计算了以下“生产”成本：

劳工、行政、管理、公用事业、试剂和消耗品
排序仪器和其他大型设备（三年摊销）
与序列生产直接相关的信息活动（例如，实验室信息管理系统和初始数据处理）
向公共数据库提交数据
间接成本因为它们与上述项目有关

在对测序中心（例如，为购买大型设备提供资金的受赠机构）提供大量补贴所涵盖的成本的情况下，国家人权信息研究所试图在这些分析中适当说明这些成本。

以下“非生产”活动的相关成本未反映在两个图表中：

排序项目的质量评估/控制
改进测序管线的技术开发
开发生物信息学/计算工具以改进测序管道或改进下游序列分析
单个测序项目的管理
信息设备
初始数据处理下游的数据分析（例如序列组装、序列比对、识别变体和结果解释）

DNA测序技术

在这两张图中，2001年至2007年10月的数据代表了使用桑格化学和毛细管仪器（“第一代”测序平台）生成DNA序列的成本。从2008年1月开始，这些数据代表了使用“第二代”（或“下一代”）测序平台生成DNA序列的成本。仪器的变化代表了近年来DNA测序技术的快速发展。

质量

对于基于Sanger的序列数据，成本核算反映了最低质量分数为Phred20（或Q20）的碱基的生成，这表示错误概率为1%，是高质量碱基的公认社区标准。对于使用第二代测序平台生成的序列数据，目前还没有一种公认的准确度测量方法；每个制造商提供的质量分数在此时被NHGRI测序中心接受为等于或大于Q20。

在“DNA序列每兆位的成本”图中，数据反映了生成原始未组装序列数据的成本；尽管序列读取长度存在显著差异，但未对使用不同仪器生成的数据进行调整。相反，“每个基因组的成本”图确实考虑了这些差异，因为序列读取长度会影响生成组装基因组序列的能力。

基因组覆盖率

“每个基因组的成本”图是使用与生成“DNA序列的每兆碱基成本”图相同的基础数据生成的；因此，前者反映了对人类基因组测序成本的估计，而不是特定基因组测序项目的实际成本。

为了计算基因组测序的成本，需要知道该基因组的大小和所需的“序列覆盖率”（即“序列冗余”），以便在使用特定测序平台的情况下生成高质量的基因组组装。为了生成“每个基因组的成本”图，假设基因组大小为3000 Mb（即人类基因组的大小）。根据测序平台的平均序列读取长度，不同测序平台所需的假定序列覆盖率不同。

以下“序列覆盖率”值用于计算每个基因组的成本：

基于Sanger-based测序（平均读取长度=500-600个碱基）：6倍覆盖率
454测序（平均读取长度=300-400个碱基）：10倍覆盖率
Illumina和SOLiD测序（平均读取长度=75-150个碱基）：30倍覆盖率

对于自2008年1月以来的数据（代表使用“第二代”测序平台生成的数据），“每个基因组的成本”图反映了涉及人类基因组“重新测序”的项目，其中可用参考人类基因组序列作为下游数据分析的主干。对于没有参考基因组序列的基因组测序，所需的“序列覆盖率”将更大。

主要注意事项
成本类别

根据NHGRI工作人员和测序中心人员之间的讨论，确定了每个类别中的支出。

对于这两张图（“DNA序列每兆碱基成本”和“每基因组成本”），计算了以下“生产”成本：

劳工、行政、管理、公用事业、试剂和消耗品

测序仪器和其他大型设备（三年摊销）

与序列生产直接相关的信息活动（例如，实验室信息管理系统和初始数据处理）

向公共数据库提交数据

间接成本因为它们与上述项目有关

在对测序中心（例如，为购买大型设备提供资金的受赠机构）提供大量补贴所涵盖的成本的情况下，国家人权信息研究所试图在这些分析中适当说明这些成本。

以下“非生产”活动的相关成本未反映在两个图表中：

排序项目的质量评估/控制

改进测序管线的技术开发

开发生物信息学/计算工具以改进测序管道或改进下游序列分析

单个测序项目的管理

信息设备

初始数据处理下游的数据分析（例如序列组装、序列比对、识别变体和结果解释）

DNA测序技术

在这两张图中，2001年至2007年10月的数据代表了使用桑格化学和毛细管仪器（“第一代”测序平台）生成DNA序列的成本。从2008年1月开始，这些数据代表了使用“第二代”（或“下一代”）测序平台生成DNA序列的成本。仪器的变化代表了近年来DNA测序技术的快速发展。

质量

对于基于Sanger的序列数据，成本核算反映了最小质量分数为Phred20（或Q20）的碱基的生成，这表示1%的错误概率，并且是高质量碱基的公认社区标准。对于使用第二代测序平台生成的序列数据，目前还没有一种公认的准确度测量方法；每个制造商提供的质量分数目前被NHGRI测序中心接受为等于或大于Q20。

在“DNA序列每兆位的成本”图中，数据反映了生成原始未组装序列数据的成本；尽管序列读取长度存在显著差异，但未对使用不同仪器生成的数据进行调整。相反，“每个基因组的成本”图确实考虑到了这些差异，因为序列读取长度会影响生成组装基因组序列的能力。

基因组覆盖率

“每个基因组的成本”图是使用与生成“DNA序列的每兆碱基成本”图相同的基础数据生成的；因此，前者反映了对人类基因组测序成本的估计，而不是特定基因组测序项目的实际成本。

为了计算基因组测序的成本，需要知道该基因组的大小和所需的“序列覆盖率”（即“序列冗余”），以便在使用特定测序平台的情况下生成高质量的基因组组装。为了生成“每个基因组的成本”图，假设基因组大小为3000 Mb（即人类基因组的大小）。根据测序平台的平均序列读取长度，不同测序平台所需的假定序列覆盖率不同。

以下“序列覆盖率”值用于计算每个基因组的成本：

基于Sanger-based测序（平均读取长度=500-600个碱基）：6倍覆盖率

454测序（平均读取长度=300-400个碱基）：10倍覆盖率

Illumina和SOLiD测序（平均读取长度=75-150个碱基）：30倍覆盖率

对于2008年1月以来的数据（代表使用“第二代”测序平台生成的数据），“每个基因组的成本”图反映了涉及人类基因组“重新测序”的项目，其中可用的参考人类基因组序列可作为下游数据分析的骨干。对于没有参考基因组序列的基因组测序，所需的“序列覆盖率”将更大。

工具书类

Mardis E.DNA测序技术十年展望。自然, 470: 198-203. 2011. [公共医学]
Metzker M.测序技术——下一代。 自然遗传学, 11: 31-46. 2010. [公共医学]
Stein L.基因组信息学中的云计算案例。 基因组生物学, 11: 207-213. 2010. [公共医学]

人类基因组十年：序列爆炸。自然, 464: 670-671. 2010. [公共医学]
NHGRI基因组测序程序

如何引用此网页：
Wetterstrand KA。DNA测序成本：NHGRI基因组测序计划（GSP）数据，网址：www.genome.gov/sequencingcostsdata。已访问[访问日期]。

联系人

Kris A.Wetterstrand，医学硕士。

与校外活动主任的科学联络
董事办公室

上次更新时间：2023年5月16日