跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC生物信息学。2008; 9: 386.
2008年9月19日在线发布。 数字对象标识:10.1186/1471-2105-9-386
预防性维修识别码:项目经理2563014
PMID:18803844

宏基因组RAST服务器–用于宏基因组自动系统发育和功能分析的公共资源

摘要

背景

随机群落基因组(宏基因组)现在通常用于研究不同环境中的微生物。在过去的几年里,与宏基因组学相关的主要挑战从生成序列转移到分析序列。高通量、低成本的下一代测序为广泛的研究人员提供了宏基因组学的途径。

结果

已经构建了一条高通量管道,为所有对使用宏基因组学感兴趣的研究人员提供高性能计算。该管道通过比较蛋白质和核苷酸数据库,自动生成元基因组中序列的功能分配。生成宏基因组的系统发育和功能摘要,并将比较宏基因组学的工具纳入标准视图。控制用户访问以确保数据隐私,但支持该服务的协作环境提供了一个在多个用户之间共享数据集的框架。在宏基因组RAST中,所有用户都保留对其数据的完全控制,所有内容都可以以各种格式下载。

结论

开源宏基因组RAST服务为宏基因组的注释和分析提供了一种新的范式。宏基因组RAST内置对多个数据源的支持,并有一个包含抽象数据类型的后端,因此它稳定、可扩展,并可供所有研究人员免费使用。这项服务消除了宏基因组序列分析的主要瓶颈之一——高性能计算用于注释数据的可用性。

http://metagenomics.nmpdr.org

背景

20世纪90年代的基因组革命产生了近千个已测序的微生物基因组。最近,随机群落基因组学(或称宏基因组学)的爆炸式发展,直接从环境样品中测序DNA,为微生物群落的研究提供了新的视角。目前,常用两种方法对宏基因组样本进行测序。在传统方法中,DNA被克隆到BAC或小质粒中,并使用双脱氧链终止测序(“Sanger测序”)来确定序列[1,2]. 在另一种方法中,使用所谓的下一代测序技术之一,通常是焦磷酸测序,在不克隆的情况下对DNA进行测序。这两种方法都有优点和缺点。例如,桑格测序产生更长的序列读取,但由于克隆而存在固有的偏差。与桑格测序法相比,焦磷酸测序法具有更高的吞吐量和更低的每基测序错误率,但这些错误偏向于某些错误[].

无论使用何种测序方法来生成数据,任何元基因组分析的第一步都需要将这些序列与已知序列数据库进行比较。这项计算密集的任务为许多后续分析提供了基本数据类型,包括系统发育比较、功能注释、序列组合、系统发育分析和代谢重建。

在这里,我们描述了一个自由可用的、完全自动化的开源系统的开发,该系统用于处理宏基因组序列数据以生成这些基本元素。该系统的公开实施已提供给所有研究人员分析其宏基因组。我们的服务,即宏基因组RAST服务器(简称mg-RAST),可通过网络向所有研究人员提供,访问不限于特定组或数据类型。到目前为止,近500个宏基因组已经通过测试版的管道进行了处理。

实施和结果

MG-RAST服务器是一个基于SEED比较基因组学框架的开源系统[4,5]. 用户可以上传fasta格式的原始序列数据;序列将被规范化和处理,并自动生成摘要。基因组注释系统不断进化;因此,为了适应可能开发的新方法,管道采用模块化框架设计,允许在分析的任何阶段快速添加新的分析步骤或比较数据。服务器提供了几种访问不同数据类型的方法,包括系统发育和代谢重建,以及比较一个或多个宏基因组和基因组的代谢和注释的能力。此外,服务器还提供了全面的搜索功能。对数据的访问受密码保护,自动管道生成的所有数据都可以以各种常见格式下载和分析。这里我们描述了管道的关键组件,如图所示图11.

保存图片、插图等的外部文件。对象名称为1471-2105-9-386-1.jpg

上传数据集(a)后,系统计算初始质量控制(b),并允许用户设置系统发育分析的参数(c)。然后,系统显示结果(d)并允许用户改变参数(e)。本例中显示的数据来自MG-RAST服务器中公开可用的数据集CF11.2(ID:4440026.3)。

用户注册和管理

用户注册有两个功能:限制用户及其同事对每个数据集的访问,并在需要通信时保护有效的电子邮件地址,例如发生数据处理问题时。登录后,用户可以查看自己的宏基因组、所有者授予他们权限的宏基因组以及默认的公开可用的宏基因组集。该系统支持授权委托,以便用户可以允许其他人访问他们的一个或多个宏基因组。此外,数据所有者可以随时向公众发布他们的宏基因组,允许系统的所有用户查看他们的数据。

数据类型

管道接受多种格式的数据:454次读取可以直接以454发送的格式上传[6],也可以上传桑格序列的典型fasta文件以及其他平台使用的文件。管道还将接受fasta格式的组装序列。序列数据可以通过几种常见的计算机程序之一进行压缩,以加快上传速度。

用户可以选择上传未组装的原始读取或组装的连接。如下文所述,每种方法都有优点和缺点。具有有限数量的较大连续体(平均连续体长度超过40 kb)的用户应考虑使用RAST服务器分析完整的细菌和古细菌基因组[7].

基因组学标准联盟提出了一个最小数据集,称为基因组序列的最小信息(MIGS)[8],应该与每个元基因组序列一起收集。尽管这是一个不断发展的标准,但宏基因组-RAST服务器符合MIGS。元数据是关于宏基因组的辅助数据(例如,采集样本的日期和位置),在提交序列时向用户请求。该数据与用户数据一起存储,当序列数据准备公开发布时,可以提供给GSC基因组目录和其他档案。

实施和核心分析

该管道是通过使用许多开源组件在Perl中实现的,包括SEED框架[4]、NCBI爆破[9]、SQLite和Sun网格引擎[10]作为组件。该系统还使用公开的SEED子系统、SEED nr和FIGfam蛋白家族(参见http://www.theSEED.org).

实现这些不同的步骤是为了提供灵活、可扩展的处理管道。这些步骤逐步将数据添加到一个独立的“作业目录”中,其中包含平面文件和SQLite中所有与作业相关的数据[11]格式。关系数据库技术用于有效地将元基因组中的序列映射到生物体和代谢功能,同时允许用户更改底层序列匹配的参数。用户界面允许下载用户的作业目录,软件的未来版本将允许将用户创建的目录上传到服务器。

上传数据后,一个规范化步骤(参见图图2)2)执行,生成唯一的内部ID并从454个数据集中精确删除重复序列。(这些序列是测序技术的产物,没有科学意义[12].)

保存图片、插图等的外部文件。对象名称为1471-2105-9-386-2.jpg

宏基因组学RAST管道中实施的工作流程概述。执行三个不同的处理阶段,每个阶段都将数据添加到一个目录中,最终实现基于web的结果浏览。

在第二步中,通过BLASTX对序列进行潜在蛋白质编码基因(PEG)的筛选[9]搜索来自INSDC数据库、测序中心和其他来源的SEED综合非冗余数据库[4]. 期望值(E)截止值为0.01,用于拾取潜在的编码元素。(这是根据经验选择的,目的是增加潜在编码元素的数量,同时不影响数据分析。)在BLASTX搜索的同时,通过使用适当的算法和重要性选择标准,将序列数据与所有附属数据库进行比较。这些数据库包括几个rDNA数据库,包括GREENGENES[13]、RDP-II[14]和欧洲16S RNA数据库[15]和精品数据库,如叶绿体数据库、线粒体数据库和ACLAME移动元素数据库[16]. 搜索条件对于每个数据库都是特定的。例如,使用BLASTN对rDNA数据库进行核糖体RNA基因筛选,但使用更严格的选择标准来识别候选RNA基因,而不是识别蛋白质编码基因(默认情况下,相似性长度必须超过50 bp,预期值小于1×10-5个).

在第三步中,使用这些与外部数据库的匹配来计算派生数据。首先,利用SEED nr数据库中包含的系统发育信息以及与核糖体RNA数据库的相似性计算样本的系统发育重建。PEG的功能分类是根据SEED FIGfams进行预测来计算的[17]以及基于这些相似性搜索的子系统[4]. 这些功能分配成为自动生成的样本初始代谢重建的原始输入,为代谢通量和流动、反应和酶提供建议。

此服务器的设计目标之一是通过基于web的界面轻松访问。该界面提供了用于浏览和分析数据的视图,以及下载所有结果表和显示的每个子集的序列的方法。图3概述了用户界面的各种元素,并突出显示了用于下载各种子集的选项。用户界面提供了一种方法,可以更改用于计算功能、代谢和系统发育重建的一些参数。这允许更严格的匹配标准(例如,期望值、分数、整体百分比标识、匹配长度和不匹配数量);并且,通过限制匹配,可以动态更改派生数据。默认参数是通过经验测试选择的,代表了准确性和特异性之间的权衡。

保存图片、插图等的外部文件。对象名称为1471-2105-9-386-3.jpg

我们强调数据的可访问性,(a)序列分析结果(例如BLAST匹配)和元基因组中的所有序列都是可见的,并且可以下载。此外,服务器还提供了元基因组(c)中每个片段的序列分析结果概览(b)。

比较基因组学

丰富的比较宏基因组学工具对mg-RAST平台的使用至关重要。框架中内置了各种工具,允许用户将其数据与其他宏基因组或从SEED中提取的完整基因组进行比较[4]环境。子系统热图和分类热图提供了比较宏基因组学总结,概括了样本之间的差异。

子系统比较工具确定每个元基因组中通过蛋白质水平相似性连接到子系统的peg数量。基于这些联系,通过计算每个子系统中与蛋白质相似的序列数量,对样本中的每个子系统进行评分。该分数除以样本中与子系统中任何蛋白质相似的序列总数,得出给定子系统中子系统的一部分序列。这种方法允许在序列数不同的样本之间进行比较。由于分数往往很小(每个子系统中有几个序列,但SEED中现在有600多个子系统),因此可以将分数作为因子进行显示。此外,还提供了一种非定量方法来对子系统得分进行分组,强调了样本之间差异最大的子系统。此外,根据用户的需要,显示器可以被限制在特定的新陈代谢区域或其他子系统组。

分类热图以类似的方式工作,但突出了每个样本中不同的分类图谱,这是由最终用户选择的系统发育或系统发育学方法确定的(例如,16S比较、BLAST结果的系统发育学)。同样,样本可以以非定量的方式进行分组,以快速突出不同样本中占主导地位的特定系统发育类群。

通常,一个宏基因组包含一些优势生物,并且可以预测宏基因组中的许多途径。自动生成的代谢重建可以与任何给定的宏基因组或完整的微生物基因组进行比较。这种方法强调了元基因组、比较基因组或两者共同的子系统所特有的子系统。使用这些工具,用户可以识别样本中存在的共享代谢。

保存图片、插图等的外部文件。对象名称为1471-2105-9-386-4.jpg

比较四个宏基因组的系统发育组成。最初(a)用户选择宏基因组或基因组的子集(这里我们选择了2个苏丹矿样品和2个海洋样品)。下一步骤(b)允许选择比较的基础(仅基于蛋白质的SEED子系统或所有SEED蛋白质与基于RNA的RDP或Greengenes)和匹配的参数。这些参数包括e值、最小对齐长度、p值和百分比标识。最后,结果(c)以表格格式显示,其中使用heatmap样式的颜色编码来突出显示差异。结果表可以作为电子表格下载。

讨论

一个全新的公共宏基因组注释系统已经开发并发布。该过程是多年规划和工程的结果。mg-RAST平台旨在利用SEED微生物基因组注释平台,提供元基因组数据、微生物基因组学和手动管理注释的无缝集成。每个宏基因组项目对严格性、要分析的数据集以及结果的输出格式都有自己的要求。宏基因组学SEED管道的设计目的是允许改变系统发育和代谢重建中序列匹配的参数,以限制匹配。它是通过使用可扩展格式构建的,允许集成新数据集和算法,而无需重新计算现有结果。

mg-RAST服务处理组装和未组装的数据。每种方法都有优点,在比较宏基因组时应加以考虑。例如,如果一个人正在进行比较宏基因组学,或者如果使用统计数据来比较样本[18,19]序列无法组装,因为组装过程会丢失对确定样本之间差异至关重要的频率信息。相反,组装序列往往更长,因此更有可能从binning中准确识别基因功能或系统发育来源[20].

集成到管道中的分析方法提供了核心注释和分析工具,用于比较和对比一组不同的宏基因组[21-24]. 基于子系统的宏基因组功能分析方法已通过9个主要生物群落的90个不同样本进行验证。分析表明,生物群落可以通过其功能组成清楚地分开[25]. 该研究中的所有宏基因组都包含在mg-RAST服务器中可见的公开数据集中。

尽管该服务包含宏基因组注释和分析的核心功能,但许多传统上用于基因组分析的技术(例如,预测编码序列的方法)要么不适用于宏基因组,要么表现出显著的性能下降[26]. 完整基因组注释和元基因组注释之间的许多差异让人想起以前在分析表达序列标签时遇到的那些差异[27]. 因此,需要新的分析方法来充分理解宏基因组学数据。最明显的问题是任何样本中都有大量未知序列。根据处理的特定样本,只有10%或98%的序列可能与数据库中的任何内容都没有已知的相似性[28]. 我们和其他人正在开发新的binning、clustering和coding区域预测工具来处理这些未知序列,有效的工具将在可用时并入管道中。另一个问题是,生成序列数据的快速速度超过了计算速度的增长,因此需要改进常用搜索算法,以确保能够准确有效地搜索序列空间。第三个问题是,代谢重建和分析依赖于数据的基本质量,这是所有注释平台所共有的。由于采用子系统注释方法,SEED具有任何公开来源中最一致和准确的微生物基因组注释。然而,SEED子系统必须集中于一些特定生物体的核心代谢和发病机制。为了真正理解这些数据集,需要对次级代谢,特别是对不同环境特有的代谢进行全面的子系统覆盖。

结论

我们为宏基因组序列数据的分析提供了免费的公共资源。我们的服务不需要特定类型的序列数据,也不需要发布或控制数据。所有序列数据仍受密码机制保护,并且仅对允许的用户可见。该宏基因组学注释管道专门用于处理焦磷酸测序数据,并适应与该数据相关的一些细微差别。然而,无论序列类型如何,我们开发的工具和方法都适用于任何元基因组项目。这项服务消除了宏基因组序列分析的主要瓶颈之一——高性能计算对数据进行注释的可用性。

可利用性

经过简单的注册过程后,所有用户都可以使用该服务。除了可以通过集成的SEED-Viewer获得[29]界面中,所有结果都可以多种格式下载,包括GFF3、GenBank和纯文本格式(例如,电子表格中使用的标签分隔文本)。服务器是在尽最大努力的基础上提供的,所有底层数据和软件都是开源的(请参阅ftp://ftp.these.org网站).

计划包括开发新工具,以便在样本中进行系统数据挖掘,并改进对基于16S的元基因组数据集的深入分析的支持。

缩写

RAST:使用子系统技术的快速注释;mg-RAST:宏基因组的RAST。

致谢

根据合同号HHSN266200400042C,该项目的一部分由国家变态反应和传染病研究所、国家卫生研究院、卫生与公众服务部的联邦资金资助。阿贡国家实验室的工作得到了美国能源部合同DE-AC02-06CH11357的支持。我们感谢Forest Rohwer及其团队所有成员在开发管道时提供的有益建议。我们感谢Veronika Vonstein和Ross Overbeek及其团队成员在使用子系统技术方面的建议和意见。

提交的手稿由阿贡国家实验室(“阿贡”)运营商UChicago Argonne有限责任公司创作。阿贡是美国能源部科学办公室实验室,根据合同号DE-AC02-06CH11357运营。美国政府为自己和代表其行事的其他人保留对上述文章的付费、非排他性、不可撤销的全球许可,以便由政府或代表政府复制、制作衍生作品、向公众分发副本、公开表演和公开展示。

工具书类

  • Venter JC、Remington K、Heidelberg JF、Halpern AL、Rusch D、Eisen JA、Wu D、Paulsen I、Nelson KE、NelsonW等。马尾藻海环境基因组鸟枪测序。科学。2004;304:66–74. doi:10.1126/science.1093857。[公共医学] [交叉参考][谷歌学者]
  • Tyson GW、Chapman J、Hugenholtz P、Allen EE、Ram RJ、Richardson PM、Solovyev VV、Rubin EM、Rokhsar DS、Banfield JF。通过从环境中重建微生物基因组实现群落结构和代谢。自然。2004;428:37–43. doi:10.1038/nature02340。[公共医学] [交叉参考][谷歌学者]
  • Huse SM、Huber JA、Morrison HG、Sogin ML、Welch DM。大规模平行DNA焦测序的准确性和质量。基因组生物学。2007;8:R143.doi:10.1186/gb-2007-8-7-R143。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Overbeek R、Begley T、Butler RM、Choudhuri JV、Diaz N、Chuang H-Y、Cohoon M、de Crécy-Lagard V、Disz T、Edwards R等。基因组注释的子系统方法及其在1000个基因组注释项目中的使用。核酸研究。2005;33 [PMC免费文章][公共医学][谷歌学者]
  • McNeil LK、Reich C、Aziz RK、Bartels D、Cohoon M、Disz T、Edwards RA、Gerdes S、Hwang K、Kubal M等。国家微生物病原体数据库资源(NMPDR):基于子系统注释的基因组学平台。核酸研究。2007年:D347-353。doi:10.1093/nar/gkl947。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Margulies M、Egholm M、Altman WE、Attiya S、Bader JS、Bemben LA、Berka J、Braverman MS、Chen YJ、Chen Z等。微加工高密度微晶反应器中的基因组测序。自然。2005;437:376–380. [PMC免费文章][公共医学][谷歌学者]
  • Aziz RK、Bartels D、Best AA、DeJongh M、Disz T、Edwards RA、Formsma K、Gerdes S、Glass EM、Kubal M等。RAST服务器:使用子系统技术的快速注释。BMC基因组学。2008 [PMC免费文章][公共医学][谷歌学者]
  • Field D,Morrison N,Selengut J,Sterk P.会议报告:电子基因组学:编目我们的完整基因组收集II。奥密克戎。2006;10:100–104。doi:10.1089/omi.2006.10.100。[公共医学] [交叉参考][谷歌学者]
  • Altschul SFl、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. doi:10.1093/nar/25.17.3389。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • gridengine–项目主页http://gridengine.sunsource.net/
  • 数据库http://www.sqlite.org/
  • Jarvie T.个人沟通。2006
  • DeSantis TZ、Hugenholtz P、Larsen N、Rojas M、Brodie EL、Keller K、Huber T、Dalevil D、Hu P、Andersen GL。Greengenes,一种嵌合体检查的16S rRNA基因数据库和与ARB兼容的工作台。应用环境微生物。2006;72:5069–5072. doi:10.1128/AEM.03006-05。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Cole JR、Chai B、Farris RJ、Wang Q、Kulam-Syed-Mohideen AS、McGarrell DM、Bandela AM、Cardenas E、Garrity GM、Tiedje JM。核糖体数据库项目(RDP-II):引入myRDP空间和质量控制公共数据。核酸研究。2007年:D169–172。doi:10.1093/nar/gkl889。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wuts J,Peer Y Van de,Winkelmans T,de Wachter R.欧洲小亚单位核糖体RNA数据库。核酸研究。2002;30:183–185. doi:10.1093/nar/30.1.183。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Leplae R、Hebrant A、Wodak SJ、Toussaint A.ACLAME:流动遗传元素的分类。核酸研究。2004年:D45–49。doi:10.1093/nar/gkh084。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Meyer F、Overbeek R、Rodriquez A.FIGfams–另一个蛋白质家族集合。2008
  • Tringe SG、von Mering C、Kobayashi A、Salamov AA、Chen K、Chang HW、Podar M、Short JM、Mathur EJ、Detter JC等。微生物群落的比较宏基因组学。科学。2005;308:554–557. doi:10.1126/science.1107851。[公共医学] [交叉参考][谷歌学者]
  • 罗德里格斯-布里托B,罗威F,爱德华兹RA。统计学在比较基因组学中的应用。BMC生物信息学[电子资源]2006;7:162.网址:10.1186/1471-2105-7-162。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • McHardy AC、Martin HG、Tsirigos A、Hugenholtz P、Rigoutsos I.可变长度DNA片段的准确系统发育分类。自然方法。2007;4:63–72. doi:10.1038/nmeth976。[公共医学] [交叉参考][谷歌学者]
  • Edwards RA、Rodriguez-Brito B、Wegley L、Haynes M、Breitbart M、Peterson DM、Saar MO、Alexander S、Alexander EC、Jr、Rohwer F.使用焦测序揭示深部矿井微生物生态学。BMC基因组学。2006;7:57.网址:10.1186/1471-2164-7-57。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Fierer N、Breitbart M、Nulton J、Salamon P、Lozupone C、Jones R、Robeson M、Edwards RA、Felts B、Rayhawk S等。元基因组和小亚单位rRNA分析揭示了土壤中细菌古生菌、真菌和病毒的遗传多样性。应用环境微生物。2007;73:7059–7066。doi:10.128/AEM.00358-07。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wegley L,Edwards R,Rodriguez-Brito B,Liu H,Rohwer F.与珊瑚类石灰岩相关微生物群落的宏基因组分析。环境微生物学。2007;9:2707–2719. doi:10.1111/j.1462-2920.2007.01383.x。[公共医学] [交叉参考][谷歌学者]
  • Mou XSS、Edwards RA、Hodson RE、Moran MA。沿海海洋细菌碳加工中的广义物种。自然。2008[公共医学][谷歌学者]
  • Dinsdale EA、Edwards RA、Hall D、Angly F、Breitbart M、Brulc JM、Furlan M、Desnues C、Haynes M、Li LM等。《九种生物的功能基因组分析》。自然。2008[公共医学][谷歌学者]
  • Krause L,Diaz NN,Bartels D,Edwards RA,Puhler A,Rohwer F,Meyer F,Stoye J.在从环境中分离出来的细菌群落中发现新基因。生物信息学。2006;22:e281–289。doi:10.1093/bioinformatics/btl247。[公共医学] [交叉参考][谷歌学者]
  • Liang F、Holt I、Pertea G、Karamycheva S、Salzberg SL、Quackenbush J。EST序列分析的优化协议。核酸研究。2000;28:3657–3665. doi:10.1093/nar/28.18.3657。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Rohwer F.个人沟通。2007
  • Paarmann D、Paczian T、Meyer F.SEED-Viewer–研究基因组数据集的web用户界面。未发表的.

文章来自BMC生物信息学由以下人员提供BMC公司