成本类别
根据NHGRI工作人员和测序中心人员之间的讨论,确定了每个类别中的支出。
对于这两张图(“DNA序列每兆碱基成本”和“每基因组成本”),计算了以下“生产”成本:
- 劳工、行政、管理、公用事业、试剂和消耗品
- 测序仪器和其他大型设备(三年摊销)
- 与序列生产直接相关的信息活动(例如,实验室信息管理系统和初始数据处理)
- 向公共数据库提交数据
- 间接成本因为它们与上述项目有关
在对测序中心(例如,为购买大型设备提供资金的受赠机构)提供大量补贴所涵盖的成本的情况下,国家人权信息研究所试图在这些分析中适当说明这些成本。
以下“非生产”活动的相关成本未反映在两个图表中:
- 排序项目的质量评估/控制
- 改进测序管线的技术开发
- 开发生物信息学/计算工具以改进测序管道或改进下游序列分析
- 单个测序项目的管理
- 信息设备
- 初始数据处理下游的数据分析(例如序列组装、序列比对、识别变体和结果解释)
DNA测序技术
在这两张图中,2001年至2007年10月的数据代表了使用桑格化学和毛细管仪器(“第一代”测序平台)生成DNA序列的成本。从2008年1月开始,这些数据代表了使用“第二代”(或“下一代”)测序平台生成DNA序列的成本。仪器的变化代表了近年来DNA测序技术的快速发展。
质量
对于基于Sanger的序列数据,成本核算反映了最小质量分数为Phred20(或Q20)的碱基的生成,这表示1%的错误概率,并且是高质量碱基的公认社区标准。对于使用第二代测序平台生成的序列数据,目前还没有一种公认的准确度测量方法;每个制造商提供的质量分数目前被NHGRI测序中心接受为等于或大于Q20。
在“DNA序列每兆位的成本”图中,数据反映了生成原始未组装序列数据的成本;尽管序列读取长度存在显著差异,但未对使用不同仪器生成的数据进行调整。相反,“每个基因组的成本”图确实考虑到了这些差异,因为序列读取长度会影响生成组装基因组序列的能力。
基因组覆盖率
“每个基因组的成本”图是使用与生成“DNA序列的每兆碱基成本”图相同的基础数据生成的;因此,前者反映了对人类基因组测序成本的估计,而不是特定基因组测序项目的实际成本。
为了计算基因组测序的成本,需要知道该基因组的大小和所需的“序列覆盖率”(即“序列冗余”),以便在使用特定测序平台的情况下生成高质量的基因组组装。为了生成“每个基因组的成本”图,假设基因组大小为3000 Mb(即人类基因组的大小)。根据测序平台的平均序列读取长度,不同测序平台所需的假定序列覆盖率不同。
以下“序列覆盖率”值用于计算每个基因组的成本:
- 基于Sanger-based测序(平均读取长度=500-600个碱基):6倍覆盖率
- 454测序(平均读取长度=300-400个碱基):10倍覆盖率
- Illumina和SOLiD测序(平均读取长度=75-150个碱基):30倍覆盖率
对于2008年1月以来的数据(代表使用“第二代”测序平台生成的数据),“每个基因组的成本”图反映了涉及人类基因组“重新测序”的项目,其中可用的参考人类基因组序列可作为下游数据分析的骨干。对于没有参考基因组序列的基因组测序,所需的“序列覆盖率”将更大。