跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物信息学。2008年12月1日;24(23): 2776–2777.
2008年10月7日在线发布。 doi(操作界面):10.1093/生物信息学/btn512
预防性维修识别码:项目经理2639273
PMID:18842598

应用生物系统SOLiD序列数据到功能基因组应用参考基因组的有效映射

关联数据

补充资料

摘要

总结:在此,我们报告了SOCS(短寡核苷酸颜色空间)的开发,该程序旨在将应用生物系统SOLiD序列数据高效灵活地映射到参考基因组。SOCS在“颜色空间”上下文中执行映射,并通过允许用户指定数量的不匹配来最大化可用数据。序列普查功能促进了多种功能基因组学应用,包括转录组绘图和分析以及ChIP-Seq。

可用性:可执行文件、源代码和示例数据位于http://socs.biology.gatech.edu/

联系人: ude.hcetag@namgrebkcin

补充信息: 补充数据可在生物信息学在线。

DNA测序技术的最新进展使收集比前几年大得多的序列数据成为可能,几个测序平台现在能够在一次运行中生成大于1 Gb的序列数据。尽管从头开始使用这些系统进行基因组测序仍然是一个挑战,因为在组装短阅读方面存在困难,其极高的吞吐量使下一代测序方法成为各种功能基因组学应用的越来越有吸引力的选择,包括转录组分析、,蛋白质与DNA相互作用的全球鉴定和单核苷酸多态性(SNP)发现。最近的几项研究证明了基于序列的方法在这些应用中的可行性和优势(约翰逊等。,2007; 那加拉克什米等。,2008; 托雷斯等。,2008; 威廉等。,2008). 尽管在处理这些系统产生的海量数据(主要是将单个序列读取映射到参考基因组)方面存在计算挑战,但在这些领域也取得了重大进展(Li等。,2008; 史密斯等。,2008)总的来说,高通量测序将成为功能基因组学日益强大的选择。

最新的下一代测序平台之一是Applied Biosystems SOLiD系统。该平台比之前描述的系统生成的序列数据要多得多——每次运行6 Gb或更多,25–35 nt读取,并使用独特的连接介导测序策略,该策略不太容易出现与高通量逐个合成测序策略相关的一些问题,例如均聚物序列的不准确记录(Shendure等。,2005,请参阅Applied Biosystems网站以获取平台的完整描述)。此外,SOLiD系统使用双基编码方案,其中每个数据点代表两个相邻的碱基,每个碱基被询问两次,这有助于区分测序错误和真正的多态性。总之,这些属性使SOLiD测序系统特别适合于各种功能基因组学应用。

与其他测序系统相比,SOLiD数据不是作为DNA序列直接收集的,而是记录在“颜色空间”中,其中读取的单个值(颜色)提供关于(但不是确定的)两个相邻碱基的信息。如果没有将颜色数据转换为序列数据的解码步骤,就无法使用传统的比对工具将其映射到参考基因组。然而,将颜色数据直接转换为序列数据有一个显著的回溯读数,其中包含无法准确转换的排序错误(在转换颜色空间字符串时,排序错误后的所有碱基都将被错误转换)。有鉴于此,有一个明确的动机是将序列读取映射到颜色空间内的参考基因组,最近开发了几个软件工具来执行这项任务[例如MAQ(http://maq.sourceforge.net/)、虾(http://compbio.cs.toronto.edu/shrimp/)、摩赛克(http://bioinformatics.bc.edu/marthlab/Mosaik(生物信息学))以及ABI的SOLiD校准浏览器]。

这些比对工具面临的挑战之一是,ABI SOLiD系统与其他超高通量短读测序系统一样,其错误率明显高于传统的Sanger测序,并且包含相对于参考基因组的一个或多个错配的序列读取在SOLiD数据集中非常常见。这些读取比精确匹配参考的读取更难映射,因此,现有工具通常仅映射相对于参考基因组不匹配≤3的读取。这允许快速运行时,但也会使每个数据集中相当大的一部分(在某些情况下大于50%)未使用。尽管存在≥4个失配,但这些剩余数据中的大部分都可以明确映射(表1),因此对序列普查方法很有用,我们试图开发一种工具,该工具将允许在更灵活、不匹配容忍的环境中映射SOLiD序列数据,从而最大限度地增加给定数据集中可用序列的数量。

表1。

SOCS在SOLiD序列数据映射中的性能

不匹配所需时间额外读取次数
容忍映射(百分比)
010.3分钟4 004 404 (14.3%)
111.9分钟4 664 183(16.7%,总计31.0%)
215.7分钟3 583 141(12.8%,总计43.8%)
35.4分钟2 706 247(9.7%,总计53.5%)
43.5小时2 054 061(7.4%,总计60.9%)
522.1小时1 594 608(5.7%,总计66.6%)

使用包含由SOLiD测序系统生成的27 942 602 35bp读数的样本数据集测试SOCS。这些读数来自一项实验,在该实验中,从炭疽杆菌已测序,并将其映射到炭疽杆菌Ames Ancestor基因组序列。SOCS在Apple Mac Pro上运行(2×3.0 GHz双核Xeon,4 GB RAM)。显示的时间是在指定的不匹配容差下映射和记分函数所需的总数,它们反映了单线程执行。多线程大大改善了整体运行时间,尤其是在不匹配容差≥3时。

在这里,我们描述了SOCS(短寡核苷酸颜色空间),这是一个将SOLiD序列数据高效映射到颜色空间内参考基因组的程序。SOCS建立在Rabin–Karp字符串算法(Karp和Rabin,1987),它使用散列来加速序列读取到参考基因组的匹配过程(参见补充材料有关算法的更广泛描述)。我们的散列函数使用每种颜色2位枚举被散列的序列的子集(子集的大小受散列表的内存限制)。整体算法与用于分析Illumina-Selexa数据的软件工具(Li等。,2008; 史密斯等。,2008); 简单地说,要匹配所有序列读取n个与参考基因组不匹配,n个 + 使用了1个部分哈希,这确保至少有一个部分哈希会与引用字符串中的部分哈希匹配。不匹配容差由用户指定,容差越高,数据可用性越高,运行时间越长(随着容差的增加,用于每个部分散列的片段越小,因此它们的散列就越不唯一)。为了帮助补偿此时间增加,SOCS首先在较低公差处进行映射,减少在较高公差处映射的数据。

在映射过程中,如果一个读取映射到最大耐受范围内的两个或多个不相同的基因组子串,则使用质量分数和错配计数来确定最佳匹配(参见补充材料). 如果基因组子串相同,则所有匹配的位置都会被记录并标记为不明确。一旦确定了最佳匹配,就可以计算每个参考染色体的覆盖图。对于每个映射的读取,该读取所覆盖的核苷酸的覆盖分数增加1。从本质上讲,每个覆盖率分数代表参考基因组中给定核苷酸在序列读取池中表示的次数(每个链独立考虑)。标记为不明确的读取的分数记录在单独的文件中,这样,可以将明确映射的数据与存在不确定性的数据分开保存。最后,为了帮助SNP的发现,SOCS发现所有颜色空间差异,这些差异表明测序核苷酸和参考基因组之间存在孤立的不匹配。所示不匹配的位置和基础转换记录在另一组分数文件中。

我们使用SOLiD数据集对从炭疽杆菌。我们的测试数据集包含27 942 602个读取,我们将它们映射到炭疽杆菌Ames Ancestor基因组来自GenBank。算法每次迭代所需的时间如所示表1,以及在每个步骤中成功映射的读取次数。失配公差≤3时所需的时间与其他最近开发的工具(Li等。,2008)应该注意的是,尽管将容差设置为三个以上会显著增加运行时间,但可用的序列数据量也会显著增加。例如,错配公差为5比公差为3多产生24.5%的可用数据,而错配公差8多产生65.8%的数据(未显示数据)。这对于转录组分析等应用来说是一个显著的优势,在转录组分析中,只要每个读数都能明确地映射到基因组,测序错误或多态性就无关紧要。

SOCS是用C++编写的,在Mac OS和Linux/Unix系统上运行良好。该程序支持多线程,并且能够有效地使用多个处理器(在五个不匹配的容差下,四个线程的映射运行速度比一个线程快约3.6倍)。此外,为了有效地将SOLiD数据映射到大型参考基因组(因为运行时将以与读取数和参考基因组大小大致呈线性的方式扩展),SOCS可以在集群上实现-我们已经将3200万个读取数据集映射到完整的人类基因组(构建36.3)在8节点(64核)集群上,允许在~17h内出现四个失配。可执行版本、源代码、示例数据集、使用说明和有助于在集群上实现SOCS的脚本可在http://socs.biology.gatech.edu/.

补充材料

【补充资料】

致谢

我们感谢Martin Storm协助收集SOLiD序列数据,感谢Terry Turner和Georgia Tech OIT小组协助在PACE集群上实施和测试SOCS,感谢Bergman实验室进行有益的讨论。

基金:DHHS合同(N266200400059C/N01-AI-40059);东南RCE颁发的生物防御和新发传染病新机遇奖。

利益冲突:未声明。

参考文献


文章来自生物信息学由以下人员提供牛津大学出版社