生物信息学。2009年8月15日;25(16): 2078–2079.
序列对齐/映射格式和SAMtools
,1,† ,2,† ,2 ,2 ,三 ,4 ,5 ,6 ,1,*和1000基因组项目数据处理子组7
Heng Li(李恒)
1威康信托桑格研究所,威康信托基因组校园,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
鲍勃·汉德萨克
1威康信托桑格研究所,威康信托基因组校园,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
亚历克·怀索克
1威康信托桑格研究所,威康信托基因组校园,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
蒂姆·芬内尔
1威康信托桑格研究所,威康信托基因组校区,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
觉阮
1威康信托桑格研究所,威康信托基因组校园,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
尼尔斯·霍默
1威康信托桑格研究所,威康信托基因组校区,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
加博尔·马思
1威康信托桑格研究所,威康信托基因组校园,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
Goncalo Abecasis公司
1威康信托桑格研究所,威康信托基因组校园,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,中国北京100029,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
德宾
1威康信托桑格研究所,威康信托基因组校区,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
1000基因组项目数据处理子组
1威康信托桑格研究所,威康信托基因组校园,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org
1威康信托桑格研究所,威康信托基因组校园,剑桥,CB10 1SA,英国,2麻省理工学院和哈佛大学博德学院,剑桥,马萨诸塞州02141,美国,三中国科学院北京基因组研究所,北京100029,中国,4加利福尼亚大学洛杉矶分校计算机科学系,加利福尼亚州洛杉矶90095,5马萨诸塞州Chestnut Hill波士顿学院生物系,邮编02467,6美国密歇根大学生物统计系统计遗传学中心7http://1000genomes.org *信件应寄给谁。
†作者希望大家知道,在他们看来,前两位作者应被视为联合第一作者。
副主编:阿方索·巴伦西亚
2009年4月28日收到;2009年5月28日修订;2009年5月30日接受。
1简介
随着Illumina/Solexa、AB/SOLiD和Roche/454(Mardis,2008)各种新的校准工具(Langmead等。,2009; 李等。,2008)已被设计用于实现针对大型参考序列(包括人类基因组)的高效读取映射。然而,这些工具以不同的格式生成对齐,使下游处理复杂化。支持所有序列类型和比对器的通用比对格式在比对和下游分析之间创建了一个定义明确的接口,包括变体检测、基因分型和组装。
序列比对/映射(SAM)格式旨在实现这一目标。它支持单端和双端读取以及组合不同类型的读取,包括从AB/SOLiD读取颜色空间。其设计可缩放到10个对齐集11或多个碱基对,这是一个人深重测序的典型情况。
在本文中,我们将概述SAM格式,并简要介绍配套的SAMtools软件包。SAMtools网站上提供了详细的格式规范和完整的SAMtool文档。
2方法
2.1 SAM格式
2.1.1 SAM格式概述
SAM格式由一个标题部分和一个对齐部分组成。标题部分中的行以字符“@',而对齐部分中的线则没有。所有行都以TAB分隔。示例如所示b。
扩展香烟和堆积输出的示例。(一)一对读数和三个单端读数的对齐。(b条)相应的SAM文件。“@SQ公司'标题部分的行给出了引用序列的顺序。尤其是,r001号是读取对的名称。根据旗帜163(=1+2+32+128),映射到位置7的读取是对(128)中的第二个读取,并被视为正确配对(1+2);它的配对被映射到反向链(32)上的37。阅读r002号有三个软卷边(未对齐)底座。SAM中显示的坐标是第一个对齐底座的位置。此对齐的CIGAR字符串包含P(P)(填充)正确对齐插入序列的操作。如果对齐器不支持多序列对齐,则可能缺少填充操作。阅读的最后六个基础第003期映射到位置9并且前五个映射到反向链上的位置29。硬剪裁操作H(H)指示序列字段中不存在剪裁的序列。这个NM公司标签给出了不匹配的数量。阅读第004期跨插入子对齐,由N个操作。(c(c))SAMtools简化了堆积输出。每行由参考名称、排序坐标、参考基数、覆盖位置的读取次数和读取基数组成。在第五个字段中,点或逗号表示与参考相同的基础;点或大写字母表示前向链上映射的read的基数,而反向链上的逗号或小写字母。
在SAM中,每条对齐线有11个必填字段和可变数量的可选字段。必填字段在中进行了简要描述。它们必须存在,但其值可以是“⋆'或零(取决于字段),如果相应信息不可用。可选字段以键值对的形式显示,格式为标签:类型:值。它们存储来自平台或对准器的额外信息。例如RG公司'标记保留每次读取的“读取组”信息。结合“@RG公司'标题行,此标记允许每个读取都使用有关其来源、排序中心和库的元数据进行标记。SAM格式规范详细描述了每个字段和预定义的标签第条。
表1。
不。 | 姓名 | 描述 |
---|
1 | QNAME(姓名) | 读取或读取对的查询名称 |
2 | 旗帜 | 位FLAG(配对、串、配对串等) |
三 | RNAME公司 | 参考序列名称 |
4 | 位置 | 基于1的剪裁对齐最左侧位置 |
5 | MAPQ公司 | MAPping质量(Phred-scaled) |
6 | 香烟 | 扩展的香烟串(操作:MIDNSHP公司) |
7 | MRNM公司 | Mate Reference NaMe(如果与RNAME公司) |
8 | 复合材料 | 基于1的最左侧配合位置 |
9 | ISIZE公司 | 推断插入尺寸 |
10 | 序列 | 查询与参考相同链上的序列 |
11 | 质量 | 查询质量(ASCII-33=Phred基本质量) |
2.1.2加长型卷烟
成对对齐的标准雪茄描述定义了三种操作:M(M)'用于匹配/不匹配,'我'用于与引用比较的插入,以及'D类'进行删除。SAM中提议的扩展雪茄烟又增加了四项业务:N个'对于基于引用的跳过的基,'S公司'用于软剪辑,'H(H)'用于硬剪切和'P(P)'用于填充。这些支持拼接、剪裁、多部分和填充对齐。显示了不同类型对齐的香烟字符串示例。
2.1.3二进制对齐/映射格式
为了提高性能,我们设计了一种伴生格式二进制对齐/映射(BAM),它是SAM的二进制表示,与SAM保持完全相同的信息。BAM由BGZF库压缩,BGZF是我们开发的一个通用库,用于在zlib兼容的压缩文件中实现快速随机访问。112 Gbp Illumina GA数据的示例对齐需要116 GB的磁盘空间(每个输入基1.0字节),包括序列、基质量和MAQ生成的所有元信息。大部分空间用于存储基本质量。
2.1.4排序和索引
SAM/BAM文件可以取消排序,但按坐标排序用于简化数据处理并避免将额外对齐加载到内存中。可以索引位置排序的BAM文件。我们结合了UCSC装箱方案(肯特等。,2002)以及简单的线性索引,以实现对重叠于特定染色体区域的比对的快速随机检索。在大多数情况下,只需要一个查找调用即可检索区域中的路线。
2.2 SAMtools软件包
SAMtools是一个库和软件包,用于解析和操作SAM/BAM格式的对齐。它能够从其他对齐格式转换、排序和合并对齐、删除PCR重复项、生成堆积格式的位置信息(c) ,调用SNP和短indel变体,并在基于文本的查看器中显示对齐。对于112 Gbp Illumina GA数据的示例对齐,SAMtools从MAQ格式转换大约需要10个小时,使用<30 MB内存进行索引需要40分钟。转换速度较慢,主要是因为使用zlib进行压缩比解压缩慢。外部排序写入临时BAM文件,速度通常是转换速度的两倍。
SAMtools有两个单独的实现,一个用C实现,另一个用Java实现,功能略有不同。
3个结论
我们设计并实现了一种通用的比对格式SAM,它易于使用,并且足够灵活,可以保存来自各种测序平台和读取比对器的大多数信息。等效的二进制表示BAM大小紧凑,支持快速检索指定区域中的对齐。使用位置排序和索引,应用程序可以对特定基因组区域执行基于流的处理,而无需将整个文件加载到内存中。SAM/BAM格式和SAMtools将比对步骤与下游分析分离,实现了基因组测序数据分析的通用和模块化方法。
致谢
我们感谢James Bonfield对索引的评论,感谢SAMtools用户在软件成熟时对其进行测试。
基金:威康信托/077192/Z/05/Z;美国国立卫生研究院Hapmap/1000基因组项目拨款(授予B.H.的U54HG002750)。
利益冲突:未声明。
参考文献
- Kent WJ等人。加州大学旧金山分校的人类基因组浏览器。基因组研究。2002;12:996–1006. [PMC免费文章][公共医学][谷歌学者]
- Langmead B等人。短DNA序列与人类基因组的超快和记忆效率比对。基因组生物学。2009;10:R25。 [PMC免费文章][公共医学][谷歌学者]
- Li H等。使用映射质量分数映射短DNA测序读取和调用变体。基因组研究。2008;18:1851–1858. [PMC免费文章][公共医学][谷歌学者]
- Mardis ER。下一代DNA测序方法。每年。基因组学评论。2008;9:387–402.[公共医学][谷歌学者]