摘要

总结:在这里,我们描述了在Galaxy平台中实现的一组工具,旨在使生物学家真正能够分析多个基因组比对。这些工具可通过基于web的图形用户界面和命令行界面使用。

可用性和实施:这个开源工具集是用Python实现的,已经集成到在线数据分析平台Galaxy中(公共网络访问:http://usegalaxy.org; 下载:http://getgalaxy.org)。其他帮助可作为实时补充从http://usegalaxy.org/u/dan/p/maf.

联系人: james.taylor@emory.edu;anton@bx.psu.edu

补充信息: 补充数据可在生物信息学在线。

1简介

随着新测序技术的出现和迅速普及,数据生成不再是基因组学的主要挑战。不幸的是,基因组测序的相对容易并不能自动转化为生物知识的扩展——要解读基因组DNA的功能意义仍然相当困难。其中一个原因是,绝大多数功能研究都集中在注释人类和模型生物的基因组上。全基因组比对为这一挑战提供了解决方案。通过将新测序的基因组与注释良好的序列对齐,人们可以获得各种功能、结构和进化方面的见解。

然而,生物医学科学家作为全基因组比对的最终“消费者”,仍然面临着两大障碍,无法在研究中有效利用它们。首先,全基因组比对非常大。例如,现有的28种哺乳动物的比对集(米勒等。, 2007)46种脊椎动物(葛田等。, 2011)占用数百GB的磁盘空间,并包含数百万个对齐块。即使对于具有丰富编程经验的研究人员来说,处理这种规模的数据也带来了挑战,而对于大多数实验生物学家来说,这简直是遥不可及。其次,数据以一种特殊的格式存在,即多重对齐格式(MAF;补充图S1)。尽管MAF格式是通用的,并且包含解释定线所需的信息,但它目前尚未被下游应用程序接受或处理。

这里我们描述了一组工具,可通过基于web的图形用户界面(GUI)和命令行界面使用,旨在解决处理这些数据时面临的挑战。使用GUI版本的工具无需下载,因为它们已被应用到基于web的基因组分析平台Galaxy中(布兰肯伯格等。, 20072010;戈克斯等。, 2010;泰勒等。, 2007)。Galaxy旨在弥合数据与成功分析之间的差距。

作为公共服务免费提供(http://usegalaxy.org)作为一个开源软件项目(http://getgalaxy.org),Galaxy可以部署在单个实验室和云资源上(阿夫根等。, 2010)。Galaxy具有一个跟踪用户输入和参数设置的历史系统,确保可以精确地复制分析,以及一个无缝的工作流系统,允许通过从现有分析历史中提取或使用交互式拖放界面创建可重用的多个工具管道。研究人员不仅能够与同事或更大的科学界分享他们的分析历史和工作流程,而且他们还可以使用基于网络的文字处理器风格(即所见即所得)编辑器来编写完整的分析协议(页面),该编辑器具有内置的历史和工作流程嵌入功能。这份手稿的补充信息可以在Galaxy Pages中找到(http://usegalaxy.org/u/dan/p/maf).

MAF格式简介:MAF格式已经成为事实上的存储和交换全基因组多重比对的标准。以这种格式存储的比对保留了比对序列范围的序列和基因组位置信息。按照银河系的惯例,序列是根据源物种基因组构建和构建中的序列标识符(通常是染色体或连体)命名的;基因组构建和序列识别由一个周期分开。例如,2006年3月人类基因组参考组合中的21号染色体序列称为hg18,命名为“hg18.chr21”。路线安排在阻碍由空白行分隔,其中每个块构成一组单独的序列范围(例如,涉及一些物种的单个局部比对)。这些范围不必唯一,因为MAF集可以包含重叠块。在MAF格式中,“-”链上比对的基因组坐标相对于源序列的反向补体进行编号(不同于其他常见的基因组注释格式,如GFF和BED)。虽然这通常是生物学家使用这些文件的一个障碍,但坐标系中的这一重要差异在这个工具集中是在内部解决的,用户无需付出额外的努力或考虑。

2一套用于多重对准分析的工具

2.1对准拔取器

通常,使用整个基因组的所有比对既不实际也不可取。利用全基因组比对进行分析的一个常见的第一步是提取感兴趣的特定子集,例如那些与基因或其他基因组元素相对应的子集。因此,能够快速有效地识别与给定基因组区间重叠的一组比对块至关重要。这就需要第一组工具,称为对齐提取器(补充图S2)。在公共web服务器实现中,用户可以从本地缓存在Galaxy服务器上的路线集合中提取,从通过从计算机上传或复制并粘贴URL提供的路线中提取,或者从直接从外部数据源获取的路线中提出。将修剪起点和终点位置超过所请求区域边界的块。此外,区块以提供的基因组区间的股向自动输出。

2.2格式转换器

2.2.1 MAF至FASTA

大多数当前的对齐分析程序都无法识别MAF对齐文件,这就需要第二组工具:格式转换器。MAF到FASTA转换的两种方法(补充图S3)提供:一个用于创建逐块多对齐FASTA文件,另一个用于生成单个对齐块。创建多重对齐FASTA文件的工具还允许用户排除缺少请求物种的块。后一种工具将所有块的序列串联起来,形成一个大型对齐块,其中每个物种正好有一个序列,而缺少特定物种的块将使未对齐区域充满空白。

2.2.2 MAF至间隔

MAF到区间转换器允许用户从比对中提取基因组区间信息。该工具创建一个包含对齐序列数据的表格文件,并将包含的基因组区域信息转换为基于零的半开放(类BED)格式。

2.3缝合器

除了对齐提取器和格式转换器之外,还有一种工具可以混合这两个概念。这些工具被称为MAF“缝合器”(补充图S4),通过解决重叠并将相邻块“缝合”在一起,为每个用户提供的间隔精确生成一条路线。这里提供了两种形式的缝合:一种适用于标准基因组区间,另一种适用于具有定义蛋白质编码外显子的额外字段的基因组区间(即BED12)。例如,可以直接从UCSC表格浏览器检索BED12文件(卡鲁契克等。, 2004)通过选择基因轨迹(例如RefSeq Genes)并选择为每个“完整基因”创建一个BED记录的选项。

对于指定的每个基因组区间,创建一个FASTA比对块。该比对块仅包含出现在基因组间隔所属的基因组内的基因组位置;相对于参考物种,对齐物种中的插入物被丢弃。必须考虑MAF路线内允许的重叠块。从概念上讲,这些块在重叠的边界处被分割,对齐块的原始分数用于确定按物种使用的对齐序列;如果一个物种的序列存在于较低的评分比对块中,但不存在于任何较高的评分比对区中,则该物种的序列取自较低的分数比对块。在基因基础上执行此操作时,输出中只包括作为参考物种蛋白质编码序列的一部分的位置;如上所述,单个编码外显子作为单独的基因组区间进行处理,并且这些外显子针对每个请求的基因连接在一起。

2.4 MAF操作工具

2.4.1物种限制

公开的预先计算的多重比对中包含的物种数量继续增加,这使得这些比对更加有用,但也更加难以分析,因为更多的物种会导致更零散的比对。额外的空白,例如那些只在被移除物种的基因组中发现的插入留下的空白,应该被消除。仅限于所需物种的排列(补充图S5)可以作为单独的工具使用,也可以直接在Extract MAF块工具界面中完成。

2.4.2砌块连接件

过滤器种类工具的一个变体是“按种类连接MAF块”工具(补充图S6),这不仅删除了不需要的物种,还连接了相邻的MAF块。当导致块被分割的物种被移除时,分割的块可以合并在一起以创建单个MAF对齐块。这要求区块中每个物种的基因组位置要连接,以使基因组位置开始和结束时彼此直接相邻。连接时,每个序列的链都很重要,因为以相反方向列出的位置被视为不同,即使它们是等效位置。

2.4.3 MAF过滤器

很多时候,无需修改对齐块的内容,但需要应用一组过滤器来删除与一组条件不匹配的块。通过指定属性过滤MAF工具,用户可以构建应用于每个对齐块的复杂多步骤过滤器。这方面的例子包括移除缺少物种的区块、移除非同步染色体或股之间存在对齐物种的区块,移除缺少所需物种的区块以及移除不在所需大小范围内的区块(补充图S7).

2.5线路覆盖范围

修改或过滤对齐(或不修改)后,MAF Coverage Stats工具允许查看参考特定间隔集的剩余块的覆盖信息。有两种不同类型的输出:一种是按间隔提供信息,另一种是提供所有间隔的摘要。输出中只包括所提供基因组区间的基因组中存在的位置。

3结论

由于多物种全基因组比对的规模,通过搜索其全部内容来定位所需的区块是不现实的;这导致了可压缩索引实现的使用,该实现是位置装箱方法的变体(肯特等。, 2002;米勒等。, 2007)存储在磁盘上。用户历史中出现的MAF索引是在历史项目创建过程中生成的;当索引不可用时,命令行工具将动态创建临时索引文件。对于较大的本地缓存对齐,将压缩源MAF文件,并创建相关联的查找表,以允许索引与压缩数据的互操作性。

值得一提的是,公共Galaxy服务器本地缓存的每个对齐集实际上由几个单独的MAF文件组成。这些文件往往被比对的参考(投影)基因组的染色体分割并命名。例如,28向比对根据每个比对块中发现的人类染色体进行划分。这会产生49个单独的压缩MAF文件、索引和查找表;由于“随机”的染色体区域、几个染色体单倍型和线粒体基因组,这个数量大于人类染色体的数量。不要求以这种(或任何)方式划分MAF集合,因为索引指示在特定MAF文件中找到的块,但这是创建对齐的研究组的常见发布实践,可以在硬件和系统方面提供更大的灵活性。

虽然所有这些工具都是为个人Galaxy安装直接设计的,但还需要其他步骤来为提取工具提供预缓存的源对齐集合。这些步骤包括获取源对齐、生成索引和压缩源MAF文件(如果需要);Galaxy wiki列出了执行这些操作所需的步骤,并在中提供了直接链接补充材料。不需要设置这些本地缓存的对齐源,因为用户可以在任何工具中直接上载和使用自己的对齐文件。

这里描述的工具是用Python实现的,允许无缝的跨平台兼容性,并利用bx-Python包(https://bitbucket.org/james_taylor/bx-python网站/)。此工具集的GUI版本已通过公共Galaxy服务器提供(http://usegalaxy.org)用户不仅可以访问上述工具,还可以访问其他基因组分析工具和数据源,所有这些都在一个统一的界面中。命令行工具和图形配置文件作为标准Galaxy发行版的一部分分发(http://getgalaxy.org)。这些工具和整个Galaxy框架在学术免费许可下以开源形式发布,允许开发人员修改和重新发布应用程序,几乎没有任何限制。

致谢

我们要感谢加州大学旧金山分校基因组生物学小组(尤其是吉姆·肯特和大卫·豪斯勒)生成、维护和提供对比对的访问。银河队(Enis Afgan、Dannon Baker、Dan Blankenberg、Nate Coraor、Jeremy Goecks、Greg Von Kuster、Ross Lazarus、Kanwei Li、Kelly Vincent)的努力有助于实现这项工作。

基金:贝克曼基金会青年研究员奖(授予A.N.);国家科学基金资助项目(DBI 0850103);国家卫生研究院拨款(HG004909,发给A.N.和J.T.);宾夕法尼亚州立大学;哈克生命科学研究院(A.N.);埃默里大学(转J.T.);宾夕法尼亚州卫生部使用烟草结算基金(部分)。

利益冲突:未声明。

参考文献

阿夫根
E.公司。
Galaxy CloudMan:交付云计算集群
BMC生物信息学
2010
,卷。 
11
 
补充12
第页
S4系列
 
布兰肯伯格
D。
Galaxy:面向实验人员的基于网络的基因组分析工具
货币。协议。分子生物学。
2010
 
第19章单元19.10.1–19.10.21
布兰肯伯格
D。
ENCODE数据协同分析框架:使大规模分析对生物学家友好
基因组研究。
2007
,卷。 
17
(第
960
-
964
)
葛田
私人助理。
UCSC基因组浏览器数据库:2011年更新
核酸研究。
2011
,卷。 
39
(第
第876页
-
D882型
)
Goecks公司
J。
银河系:支持生命科学中可访问、可复制和透明计算研究的综合方法
基因组生物学。
2010
,卷。 
11
第页。 
86兰特
 
卡鲁契克
D。
UCSC表浏览器数据检索工具
核酸研究。
2004
,卷。 
32
(第
D493号
-
D496号
)
肯特
W.J.公司。
UCSC的人类基因组浏览器
基因组研究。
2002
,卷。 
12
(第
996
-
1006
)
米勒
西。
UCSC基因组浏览器中的28路脊椎动物排列和保护轨迹
基因组研究。
2007
,卷。 
17
(第
1797
-
1808
)
泰勒
J。
使用galaxy进行大规模交互式数据分析
货币。协议。生物信息。
2007
,卷。 
19
(第
10.5.1
-
10.5.25
)

作者注释

副主编:阿方索·巴伦西亚

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。

补充数据