跳到主要内容

MetaMine–检测和分析环境中基因模式的工具

摘要

背景

现代测序技术允许对基因组和宏基因组进行快速测序和生物信息学分析。每一个新的测序项目都会产生大量新的蛋白质,许多基因的功能还未分类,仅基于序列相似性的证据。将相似性搜索扩展到基因模式方法(定义为共享不同基因组邻域的基因),已经证明可以显著提高功能分配的数量。通过将这些基因模式与流行的环境参数相关联,可以获得进一步的功能证据。MetaMine的开发是为了通过基于关键基因搜索栖息地中的重复基因模式来接近大量未分类蛋白质。

结果

MetaMine是一种交互式数据挖掘工具,可以检测环境中的基因模式。基因模式搜索从用户定义的对环境感兴趣的关键基因开始。利用该基因对包含海洋基因组和宏基因组序列的微生物生态基因组数据库(MEGDB)进行BLAST搜索。然后确定给定距离内的所有相邻基因,并搜索功能等效的基因。在最后一步中,确定在特定数量的不同基因组中存在的一组共同基因。发现的基因模式与其描述基因顺序和方向的单个模式实例有关。它们与样品和栖息地信息一起呈现。MetaMine是用Java实现的,并作为客户端/服务器应用程序提供,具有用户友好的图形用户界面。该系统通过与甲烷循环和一氧化碳氧化相关的环境相关基因进行评估。

结论

MetaMine提供了一种基于专家输入的有针对性的、半自动的基因模式搜索。MetaMine的图形用户界面提供了计算出的基因模式的用户友好概述,以便在生态环境中进行进一步检查。与关键基因相关的普遍生物过程可用于推断新的注释和形成假设,以指导进一步的分析。使用案例表明,使用MetaMine可以快速检测出有意义的基因模式。

MetaMine可从http://www.megx.net/metamine网站.

背景

地球上99%以上的微生物多样性仍然抵制耕种。为了解决它们的代谢潜力,全世界已经完成了许多直接从环境(元基因组)中克隆和测序大型DNA片段的工作。几项研究[1]已经表明,平均只有27-48%的基因可以通过相似性搜索推断出特定功能[4]. 这种未开发的所谓假设蛋白质库代表了新的酶促反应的一个尚未开发的来源。

随着大量完整基因组的出现,比较基因组学变得越来越重要。该方法的主要方面是对基因邻域进行分析,以指示功能关联,因此可以显著改进对基因功能的预测。Overbeek及其同事于1999年首次系统地应用了这一理念[5]. 他们引入了“一对紧密的双向最佳点击”的概念,并可以证明这些基因在多条路径中的功能耦合。几年后,引入了子系统方法[6,7],是对通路概念的概括,描述了一组共同参与细胞机制特定方面的相关功能作用。如今,IMG等系统[8]/毫克/米[9],字符串[10,11]和RAST[12]基于预先计算的数据,提供多种功能来分析广泛微生物基因组的基因邻域和其他蛋白质相互作用特征。

通过将这些基因模式与流行的环境参数相关联,可以获得对功能性证据的额外支持。来自环境,特别是海洋系统的基因组和宏基因组序列的数量不断增加,首次为以系统的方式将基因组信息与环境参数联系起来开辟了可能性[1315]. 随后,如果能够在栖息地中识别出与过程相关的基因模式,则应该可以返回有关各自模式功能的提示。

MetaMine是一种交互式数据挖掘工具,可以检测基因模式,定义为共享不同基因组邻域的基因,由用户提供的关键基因启动。基础管道旨在处理基因家族分类信息不可用或不完整的基因组数据集。因为一致的家族分类是模式确定步骤的先决条件,所以我们首先计算功能等价的基因组。这仍然是一个公开的研究问题。因此,我们的系统允许用户使用不同的参数设置并在替代方法之间切换。通过将重点放在结果模式上,功能群的计算允许将高度相似的平行记录和基因包含在几个组中,因为这一步中的错误可以很容易地通过发现的基因模式揭示出来。给定用户选择的与环境相关的关键基因,MetaMine在定期更新的海洋基因组和宏基因组数据库上对基因模式进行半自动搜索。在交互式图形用户界面(GUI)中,将发现的基因模式与有关样本和栖息地的信息一起呈现给用户,以供进一步检查。据我们所知,目前还不存在将基因组和宏基因组模式信息与环境参数相结合的系统。

实施

微生物生态基因组数据库

微生物生态基因组数据库(MEGDB)包含海洋起源的原核基因组和元基因组序列及其环境背景信息。已使用一系列标准来选择(元)基因组序列以构建数据库:i)公共访问(序列必须在公共序列数据库中可用[16]); ii)海洋起源;iii)细菌或古细菌;iv)高序列质量(即序列覆盖率至少为八倍的组合连续序列)和v)序列的确切地理起源(例如来自原始出版物)。

栖息地参数,如水和沉积物深度、温度、盐度和其他物理化学性质,已从文献中提取,或根据全球海洋数据集(如世界海洋地图集和世界海洋数据库)进行推断[17]和遥感信息(SeaWiFS)[18]在欧盟项目MetaFunctions中[19]. MEGDB当前内容的详细概述可以在http://www.megx.net/portal/content/content.html.

除MetaMine外,MEGDB的公共访问权也由MetaLook工具授予[20]尤其是Genomes Mapserver作为中心入口点[14,21]. 也可以在线使用Geographic-BLAST工具来获得特定基因在世界各地的地理分布概况。

基因模式和关键基因方法

术语“基因模式”通常涵盖遗传学/基因组学中的两个相关生物学观察结果。在原核基因组中,基因通常以操纵子的形式组织,在操纵子中,转录导致单个信使RNA分子(mRNA)编码蛋白质的不同亚单位,甚至不同但相关的蛋白质。操纵子的定义是严格的,作为一组共同调控的基因,但只要没有共同的mRNA被实验证明,相应的一组基因通常被称为基因簇/基因模式,它被松散地定义为一组相邻的基因,具有可能的耦合功能和/或跨生物体的保守顺序。

操纵子和基因模式之间的区别对于我们想用MetaMine解决的生物学问题来说并不是至关重要的。此外,检测栖息地特定基因模式需要对上述概念中的环境参数进行一些扩展。为了系统地研究栖息地和基因含量之间的相关性,有两种基本类型的基因模式值得关注:(1)在特定环境条件下存在或过度/不足表达的基因,以及(2)由发生在特定基因组邻里中的一组基因组成的模式。如果发现这样的基因模式,基因组上下文分析有助于潜在的功能分配。此外,如果基因模式与不同的环境参数或过程相关,则可以推断出潜在功能的进一步证据。MetaMine旨在检测此类基因模式。由于基因组和宏基因组序列数量巨大,我们决定采用自下而上的方法,利用先前的生物学知识选择所谓的关键基因具有已知的生物功能和环境相关性,其发挥种子的作用以在具有至少两个预测基因的基因组序列中搜索基因模式。

工艺步骤

对于基因模式发现,用户可以从选择关键基因开始执行以下过程步骤。分析过程的详细说明(包括流程图)可在网站上的用户指南中找到,并作为附加文件提供2.

1. & 2. 项目和关键基因的定义

为了存储和检索特定分析的结果,在由项目名称、用户和简短注释描述的项目中组织相应的处理步骤。此外,关键基因由名称、其功能的简短描述和注释定义。

3.导入/检索相应的关键基因序列

相应的关键基因序列可以从包含Fasta格式蛋白质序列的外部文件导入,也可以从MEGDB检索蛋白质序列。

4.使用关键基因进行BLAST搜索

使用关键基因序列作为BLAST搜索的查询[22]针对存储在MEGDB中的至少两个预测基因的所有海洋基因组和宏基因组序列进行。结果是一个包含以下信息的表e(电子)-在MetaMine GUI中的特定BLAST面板中,向用户显示此BLAST搜索发现的类似基因的价值、生物、采样地点、栖息地、水和沉积物深度以及潜在基因功能。

5.相邻基因的确定

给定用户定义的参数k个这个k个确定与上一步骤中BLAST搜索发现的所有基因相关的每一侧相邻基因,并以表格形式显示。使用鼠标悬停和第二个面板,用户可以查看有关基因功能注释的详细信息。

6.所有相邻基因的BLAST搜索

对最后一步的所有相邻基因进行BLAST搜索。结果由一个哈希表表示,该表包含所有相邻基因的集合及其相关的BLAST结果。用户可以通过单击相邻表中的一个基因来访问该散列表,并在相应的BLAST面板中获取相关的BLAST信息。

7.功能等效基因的测定

为了检测功能等价的基因,采用了一种互惠的最佳命中方法,然后使用聚类算法。结果是一组组,每组代表功能对等的基因。所有组成员都是彩色编码的,并在相邻基因表中呈现给用户(图。1). 此外,相互最佳匹配和功能组显示在单独的视图中。

图1
图1

图案面板的MetaMine屏幕截图。

8.基因模式的确定

给定两个用户定义参数的最小长度和法定人数q个基因模式被定义为至少至少存在于q个不同的基因组或宏基因组样本。每个模式都与一个模式实例视图相关联。描述基因顺序和方向的模式实例及其环境信息以表格形式显示(另请参见图1). 参数设置指南可在用户指南中找到(请参阅附加文件2).

9.所有中间结果的存储和检索

所有中间结果都组织在特殊数据对象中,这些数据对象可以存储到本地MEGDB(仅单机版)并从中检索,还可以导出到外部XML文件并从中导入。

每个过程步骤都可以与其他参数一起重复,从而形成树状结构来组织中间结果。如图的左侧面板所示。1,用户可以浏览所有步骤的历史,以详细分析相应的结果。用户应注意,最终结果可能会受到前面所有步骤的方法和参数设置的影响。因此,差异可以用来证明结果的稳定性。如果某个基因不在预期的功能组或基因模式中,这种回滚机制允许进一步深入分析。

如果用户事先指定了所有参数,他还可以启动批处理模式分析。可以使用设置菜单中的参数对话框“设置参数”调整所有参数。

算法

以下部分简要概述了描述基本思想和策略的底层算法。

功能等效基因的测定

在这一步中,我们感兴趣的是找到功能等效的基因群,这些基因构成了下一步的元素——共同基因模式的确定。获得这类群体存在不同的概念和方法。经典且成熟的方法–由同源群簇(COG)引入[23]–依赖于基于系统发育的直系学概念。正畸学描述了不同物种中通过物种形成从共同祖先衍生而来的基因,而不是由复制事件产生的同源基因。因此,正畸学代表了一种强有力的关系,具有描述相同生物功能的高潜力。然而,它最初是一个系统发育概念,用于研究基因进化。因此,这不包括可能仍然具有相同功能的Paralog。一个互补的概念是,当Pfam应用时,为从多重比对和结构域架构中导出的基因功能的固有属性建模[24,25]. 第三种是基于序列相似性和无监督聚类(如TRIBES)的自动方法[26].

我们的数据集中有很大一部分是由元基因组样本组成的,这些样本具有很高的潜在新基因序列,而这些新基因序列在现有数据库中并不存在,可能会形成新的,有时甚至是小的功能群。因此,我们从COG的基本思想开始,放宽了对宏基因组和inparalogs的限制[27]. 一般来说,正畸学是一个很好的功能注释概念,随着基因模式的建立,包含一些假阳性的潜在错误很容易被排除。在这种情况下,Boekhorst和Snel[28]已经表明,“共享基因顺序和大小相似性显著增加了查询命中对同源的可能性”。

为了检测功能等效的基因组,我们使用了一种启发式方法,该方法仅限于BLAST搜索中发现的基因序列,主要包括以下两个步骤:

  • 互惠最佳匹配的确定

  • 功能等效基因群的确定。

G公司表示存储在MEGDB中的所有基因组和元基因组序列的一组标识符,分别与生物体名称和采样点相关,以及R(右)表示预测为蛋白质编码基因的所有序列区域的一组标识符,然后基因组:R(右)G公司是决定特定基因基因组标识符的功能。b条 第页 表示BLAST基因搜索的结果第页 R(右)针对MEGDB和B类一组BLAST结果b条 第页 对于给定的集合R(右),然后人民币:R(右)×B类×G公司R(右)是一个函数,用于确定基因反向最佳BLAST命中的标识符第页 R(右)关于基因组 G公司.

互惠最佳匹配通常定义如下:基因 在基因组中G公司 A类 是基因的最佳匹配 b条 在基因组中G公司 B类 和基因 b条 是基因的最佳匹配 .给定BLAST结果集B类函数人民币为指定的基因和基因组检查此约束。搜索互惠最佳匹配仅限于集合R(右) n个 R(右)用关键基因及其邻域表示BLAST搜索中发现的基因。因此,R(右) n个 对应于图中右侧面板中的上表。1此外,这组基因组G公司 n个 G公司仅限于第页 卢比基因组(第页). 这些是与BLAST搜索中发现的具有关键基因的基因(及其邻居)相关的基因组,对应于此表中的行。此步骤的结果是一个哈希映射成果管理制带钥匙第页 R(右) n个 存储基因组相关互惠最佳匹配的载体人民币= (人民币1,人民币2, ...,人民币 荷兰 )带有 G公司 n个 对于相邻表中的每个基因。这个中间结果可以在矫形面板的第二个表中看到。

下一步是确定仅基于散列图中存储的信息的功能组成果管理制并以自下而上的方式进行。F类表示这组功能组,其中每个组(f) F类,= 1, ..., |F类|包含一组功能等效的基因,其建立如下:

  • 对于每个基因第页 R(右) n个 从散列图中检索与基因组相关的相互最佳匹配的对应矢量成果管理制并检查相互最佳匹配的三角形关系。如果载体的至少三个基因之间存在这种三角关系,则可能是一个群体(f) 新的 是用这些基因创造的。该策略对应于COG方法[23].

  • 根据所有现有组检查新组F类对于以下三种情况:a)所有基因(f) 新的 包含在一个组中(f) .然后(f) 新的 不需要,将被删除。b) 如果(f) 新的 与一个组(f) ≥3个基因,并且在(f) 新的 不包含在组中(f) ,检查这些剩余的基因是否存在三角关系(f) 并尽可能将其包括在内。如果所有剩余的基因都能包含在组中(f) ,(f) 新的 不需要,将被删除。c) 至少存在一个来自(f) 新的 不能包含在任何组中(f) 然后(f) 新的 已添加到集合F类.

  • 检查集合的所有组F类用于子集关系。从中删除较小的F类如果等价,只保留一组。

根据这个过程,一个基因可以是几个功能群的一部分,一个功能群可以包含来自同一基因组的几个基因(inparalogs),但outparalog被排除在外人民币方法。

基因模式的确定

如上所述,对于我们的方法,我们将基因模式定义为给定基因组邻域内的一组共享基因。此定义对应于一个问题,即基因团队模型[2932]它搜索在一组给定基因组中共生的一组基因组。有关正式模型的更多信息,请参阅Mandoiu第8章[33]. 基因的顺序和方向不需要保守,基因模式中允许插入/删除。为了进行深入分析,我们使用模式实例的概念来描述这些属性,这些属性在模式确定过程中被忽略。上述方法[2932]在以下特征方面是不同的:i)如果它们是为两个或多个输入基因组设计的,ii)如果它们限制一个基因在基因组/染色体中是唯一的,或者如果允许并行。此外,这些方法需要对所有输入基因组的基因进行一致的家族分配,这在许多情况下是不可用的或不完整的。胡和同事[34]称这类问题为基因模式挖掘问题并描述一种与我们的方法非常相似的方法。

对于模式发现步骤,我们实现了两种方法:系统搜索和启发式搜索,以减少搜索空间。系统搜索采用了字符枚举方法,该方法成功应用于Pratt等模体搜索算法[35,36]和TEIRESIAS[37]不同的是,要枚举的基本单位是一个功能组,而不是单个字符。

给定一组功能组F类由数字标识符和参数排序的前一步骤的最小图案长度q个(quorum)描述模式的最小长度以及模式应出现的不同序列的最小数量,系统搜索如下:

P(P)表示要确定的模式集,然后P(P)使用由实体表示的长度为1的模式进行初始化(f) F类每个模式都与一组(元)基因组标识符相关G公司 第页 G公司发生的位置。在每次迭代中,= 2, ..., |F类|所有图案第页 P(P) |第页| =-1(来自上一次迭代的具有长度的图案-1) 由具有下一个更高标识符的功能组进行放大,并检查相应的基因组标识符集是否涵盖了比q个。如果是,图案将添加到P(P)这种系统搜索保证找到满足给定参数约束的所有模式,但它的搜索空间根据功能组的数量呈指数增长 | F类 | : O(运行) ( = 1 | F类 | ( | F类 | ) ) 数学类型@MTEF@5@5@+=feaagart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabibiWaaaGcbaGaeiiFaWNaemOrayKaeiiFawNaeioaOJaem4ta80aaeWaaeaadaaeWbqaamaabaqbaeqabiqaaqaaaiabcYha8jabAeagjabcYha8bqaaiMgaPbaaaawIcacGLPaaaaSqaaabdMgaPjabg2da9iabidaXaqaaabcYha 8jabqdcqGHris5aGccaGLOAaGaayzkaaaaaa@444E@

因此,结合系统搜索和启发式实现了第二种方法。为了生成模式,需要检查两个实体:i)作为模式组成部分的功能基团和ii)存在模式的(元)基因组。与基于功能组的系统搜索相比,启发式在以下意义上颠倒了成分和测试。首先按照上述方法生成基因模式,直到用户指定的长度minLength启发式默认值为5。第二,对于集合P(P)在迄今为止发现的模式中,相关的(元)基因组标识符集G公司 第页 进行收集和过滤,以确保无冗余。生成的集合包含所有基因组组合G公司 第页 ,其中可能会出现模式。然后,对于每个(元)基因组组合G公司 第页 应用交集运算确定最大的共享功能组集。给定一组基因组组合,这种启发式方法的优点是能够快速检测长基因模式,而无需显式生成和测试所有功能组组合,这可能是一个巨大的数字。

系统架构

该系统使用三层架构实现,该架构允许MetaMine随后集成到其他系统中。它可以在两种模式下使用:作为直接访问本地数据库的独立系统,或作为使用web服务执行所有数据库操作的客户端-服务器应用程序。

持久层负责永久存储和检索MetaMine的所有必要数据。因此,它为MEGDB提供了存储和检索功能。此外,还有读写文件系统的功能,特别是导入以FASTA格式存储的关键基因序列,以及将分析结果作为XML文件导入和导出,以进行进一步的数据交换。包含用于BLAST搜索的蛋白质序列的BLAST数据库文件也属于该层。原则上,可以用自己的版本交换底层数据库。

应用层包含通过为提供给用户的所有功能提供方法来实现应用程序逻辑的所有对象和方法(有关详细信息,请参阅原型描述)。此外,还存在用于序列相似性搜索的BLAST等外部程序的接口,以及分子生物学应用中使用的特定文件格式的读取器和编写器。

表示层包括图形用户界面和激活用户所选功能的控制器。

结果和讨论

MetaMine软件使用MEGDB进行测试,MEGDB包含高质量的地理参考海洋基因组和原核生物源的宏基因组。只要一个重要部分包含至少两个预测基因的序列,这种模式检测方法也可以成功地应用于基于shot-gun测序方法的大型宏基因组数据集。哈灵顿等。[4]最近有报道称,通过全基因组枪测序获得的短宏基因组序列中,47%实际上甚至在相同的转录方向上都有邻居。

MetaMine的重点是寻找代表特定环境中发生的生物功能的基因模式,而不管其进化历史如何。即使当前的公共DNA序列数据库只涵盖了自然原核生物多样性的一小部分[38],已经发现了海洋环境中存在的许多与环境相关的微生物途径,并对其进行了遗传学描述[3941]. 介绍了两个例子,说明了MetaMine半自动基因模式发现程序在(meta)基因组背景下研究全球重要代谢途径的益处。

古生菌C1代谢基因模式

甲烷生成和甲烷厌氧氧化(AOM)是两种与环境相关的微生物代谢途径,因为它们分别在海洋沉积物中产生和消耗温室气体甲烷。使用古生物C1关键基因进行MetaMine分析(mcrA、mcrB、mcrC、mcrD、mcrG、mrtC取自[42])发现了五种不同的基因模式,称为mcrB/G/A-14、mcrC-14、mcrB/D/C/G/A-5a/11、mcrC/B/G/A-5b和mrtC-17,其中名称描述了所包含的关键基因和模式的长度(见图。2和其他文件1). 正如预期的那样,分析表明,所有关键基因及其相关模式都只出现在栖息地类型“沉积物”中。计算结果促进了基因与C1代谢相关的功能耦合。此外,除了在分离生物中发现的模式(mcrB/D/C/G/A-5a/11)外,所有模式都揭示了保守的假设基因(chp;图中的所有红色基因。2)表明它们在这些特定代谢中的潜在作用。这些基因代表了有趣的新功能候选基因,应该是湿式实验室实验的优先目标。此外,五种基因模式中的四种可以在宏基因组片段上检测到,但在完整基因组上无法检测到,这可能反映了AOM代谢与经典产甲烷途径相比所需的特定修改[43,42,39].

图2
图2

共识模式用mcr基因进行分析的五种一致模式(最长的不匹配延伸)。Chp代表保守的假设蛋白质。所有BLAST搜索的阈值均为1E-5。

一氧化碳氧化基因模式

一氧化碳(CO)是一种从海洋中蒸发到大气中的气体。一氧化碳与羟基自由基反应,羟基自由基也能氧化甲烷和氧化亚氮,因此是温室效应的间接介质[40]. 有趣的是,最近研究表明,表层海水中的微生物携带编码CO氧化途径的基因,可能会影响这种气体在大气中的扩散[44,45].

为了搜索与CO氧化相关的基因模式,相应的关键基因被用作MetaMine分析的输入(coxL,GenBank:AAV95654和GenBank:AAV94806[44,40]). 结果显示了四种主要的基因模式,包括多达五个基因(图。和其他文件1). 在这些模式中可以找到两个保守的假设基因,这表明它们可能与CO氧化途径有关(图。绿色和蓝色基因)。此外,八种基因模式中有一种仅存在于从海洋沉积物/地热源分离的基因组中,而不存在于源自水柱的基因组中(图,图案ID 70)。

图3
图3

coxL分析所有BLAST搜索均以1E-1阈值进行。

结论

指数级增长的DNA序列数据集只能通过超出基于相似性的方法的半自动处理管道进行有效处理。研究表明,比较方法可以显著提高功能分配的数量和质量,从而深入了解细胞中复杂的代谢和调节过程。几年前由文特尔号巡洋舰发起的生态基因组革命,通过将同步基因模式与特定的环境参数和相关的普遍生物过程联系起来,为扩大这种方法打开了大门。

MetaMine提供了一个目标明确、知识驱动的系统,用于检测基因模式,以便随后与环境信息进行关联。首先,该系统旨在确认关于参与特定过程或途径的基因的现有生物知识。其次,该方法有可能检测到迄今为止功能未知但功能与特定栖息地参数相关的基因。通过将结构基因组信息与环境条件相结合,MetaMine有助于找到“(元)基因组大海捞针”,尤其是对于迄今为止功能未知的基因。这组减少的基因包含了更多的候选基因,用于进一步详细的湿地功能分析古生菌C1代谢和CO氧化基因表明,使用MetaMine和一组用户定义的关键基因可以快速生成有意义的初始结果。进一步的发展将集中于纳入进一步的基因组和宏基因组序列、额外的环境参数和检测功能等效基因的进一步方法。此外,为了提高MetaMine的可用性,我们计划包括到外部资源(如GO或KEGG)的链接,以支持功能注释以及概念,从而将MetaMine发现的功能组与其他系统(如COG)进行比较。

可用性和要求

项目名称:MetaMine

项目主页:http://www.megx.net/metamine网站

操作系统:每个带有Java JRE 1.5或更高版本(在Windows/Linux上测试)的操作系统。

编程语言:Java。

其他要求:Java JRE 1.5或更高版本

许可证:无许可证。

非学者使用的任何限制:MetaMine不得与任何类型的商业应用程序一起销售或捆绑。

缩写

AOM公司:

甲烷的厌氧氧化

有限公司:

一氧化碳

考克斯L:

一氧化碳脱氢酶(大亚基)基因

主控室/主控室:

甲基-酶-M还原酶基因/蛋白质

风险管理:

互惠最佳匹配

中心距:

同源基因群簇

图形用户界面:

图形用户界面

XML:

可扩展标记语言

第六部分:

欧洲联盟第六个框架方案

巢穴:

新兴科学技术

工具书类

  1. Tyson GW、Chapman J、Hugenholtz P、Allen EE、Ram RJ、Richardson PM、Solovyev VV、Rubin EM、Rokhsar DS、Banfield JF:通过从环境中重建微生物基因组实现群落结构和代谢。自然2004, 428(6978):37–43. 10.1038/自然02340

    第条 中国科学院 公共医学 谷歌学者 

  2. Venter JC、Remington K、Heidelberg JF、Halpern AL、Rusch D、Eisen JA、Wu D、Paulsen I、Nelson KE、NelsonW、Fouts DE、Levy S、Knap AH、Lomas MW、Nealson K、White O、Peterson J、Hoffman J、Parsons R、Baden-Tillson H、Pfannkoch C、Rogers YH、Smith HO:马尾藻海的环境基因组鸟枪测序。科学类2004, 304(5667):66–74. 10.1126/科学.1093857

    第条 中国科学院 公共医学 谷歌学者 

  3. Tringe SG、von Mering C、Kobayashi A、Salamov AA、Chen K、Chang HW、Podar M、Short JM、Mathur EJ、Detter JC、Bork P、Hugenholtz P、Rubin EM:微生物群落的比较宏基因组学。科学类2005, 308(5721):554–557. 10.1126/科学.1107851

    第条 中国科学院 公共医学 谷歌学者 

  4. Harrington ED、Singh AH、Doerks T、Letunic I、von Mering C、Jensen LJ、Raes J、Bork P:从宏基因组学鸟枪序列预测蛋白质功能的定量评估。美国国家科学院2007, 104(35):13913–13918. 10.1073/pnas.0702636104

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  5. Overbeek R,Fonstein M,D’Souza M,Pusch GD,Maltsev N:基因簇用于推断功能耦合。美国国家科学院院刊1999, 96(6):2896–2901. 10.1073/pnas.96.6.2896

    第条 中国科学院 谷歌学者 

  6. Ye Y,Osterman A,Overbeek R,Godzik A:基因组分析中子系统/通路变异的自动检测。生物信息学2005年,21(补充1):i478-i486。10.1093/生物信息学/bti1052

    第条 中国科学院 公共医学 谷歌学者 

  7. Overbeek R、Begley T、Butler RM、Choudhuri JV、Chuang HY、Cohoon M、de Crécy-Lagard V、Diaz N、Disz T、Edwards R、Fonstein M、Frank ED、Gerdes S、Glass EM、Goesmann A、Hanson A、Iwata-Reuyl D、Jensen R、Jamshidi N、Krause L、Kubal M、Larsen N、Linke B、McHardy AC、Meyer F、Neuweger H、Olsen G、Olson R、Osterman A、Portnoy V、Pusch GD、Rodionov DA,Rückert C、Steiner J、Stevens R、Thiele I、Vassieva O、Ye Y、Zagnitko O、Vonstein V:基因组注释的子系统方法及其在注释1000个基因组的项目中的使用。核酸研究2005, 33(17):5691–5702. 10.1093/nar/gki866年10月10日

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  8. Markowitz V、Korzeniewski F、Palaniappan K、Szeto E、Werner G、Padki A、Zhao X、Dubchak I、Hugenholtz P、Anderson I、Lykidis A、Mavromatis K、Ivanova N、Kyrpides N:综合微生物基因组(IMG)系统。核酸研究2006,(34数据库):D344-D348。10.1093/nar/gkj024

    谷歌学者 

  9. Markowitz V、Ivanova N、Palaniappan K、Korzeniewski ESF、Lykidis A、Anderson I、Mavromatis K、Kunin V、Martin HG、Dubchak I、Hugenholtz P、Kyrpides N:实验性宏基因组数据管理和分析系统。生物信息学2006年,22(14):e359-e367。10.1093/生物信息学/btl217

    第条 中国科学院 公共医学 谷歌学者 

  10. Snel B,Lehmann G,Bork P,Huynen MA:STRING:检索和显示基因重复出现的邻域的网络服务器。核酸研究2000, 28(18):3442–3444. 10.1093/nar/28.18.3442

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  11. von Mering C、Jensen LJ、Kuhn M、Chaffron S、Doerks T、Krüger B、Snel B、Bork P:STRING 7-蛋白质相互作用整合和预测的最新进展。核酸研究2007,(35数据库):D358-D362。10.1093/nar/gkl825

    谷歌学者 

  12. Aziz RK、Bartels D、Best AA、DeJongh M、Disz T、Edwards RA、Formsma K、Gerdes S、Glass EM、Kubal M、Meyer F、Olsen GJ、Olson R、Osterman AL、Overbeek RA、McNeil LK、Paarmann D、Paczian T、Parrello B、Pusch GD、Reich C、Stevens R、Vassieva O、Vonstein V、Wilke A、Zagnitko O:RAST服务器:使用子系统技术进行快速注释。BMC基因组学2008, 9: 75. 10.1186/1471-2164-9-75

    第条 公共医学中心 公共医学 谷歌学者 

  13. Field D、Garrity G、Gray T、Morrison N、Selengut J、Sterk P、Tatusova T、Thomson N、Allen MJ、Ashburner M、Baldauf S、Ballard S、Boore J、Cochrane G、Cole J、de Pamphilis C、Edwards R、Faruque N、Feldman R、Glöckner FO、Haft D、Hancock D、Herjakob H、Hertz-Fowler C、Hugenholtz P、Joint I、Kane M、Kennedy J、Kowalchuk G、Kottmann R、Kolker E、,Kyrpides N、Leebens-Mack J、Lewis SE、Liste A、Lord P、Maltsev N、Markowitz V、Martiny J、Methe B、Moxon R、Nelson K、Parkhill J、Sansone SA、Spiers A、Stevens R、Swift P、Taylor C、Tateno Y、Tett A、Turner S、Ussery D、Vaughan B、Ward N、Whetzel T、Wilson G、,Wipat A:更丰富地描述我们完整的基因组和宏基因组集合:“基因组序列的最小信息”(MIGS)规范。[http://www.nature.com/nbt/consult/pdf/Field_et_al.pdf]

  14. Lombardot T、Kottmann R、Pfeffer H、Richter M、Teeling H、Quast C、Glöckner F:Megx.net–海洋生态基因组学数据库资源。核酸研究2006,(34数据库):D390-D393。10.1093/nar/gkj070年10月10日

    谷歌学者 

  15. Markowitz VM、Szeto E、Palaniappan K、Grechkin Y、Chu K、Chen IMA、Dubchak I、Anderson I、Lykidis A、Mavromatis K、Ivanova NN、Kyrpides NC:2007年集成微生物基因组(IMG)系统:数据内容和分析工具扩展。核酸研究2008,(36数据库):D528-D533。

    谷歌学者 

  16. 国际核苷酸序列数据库合作(INSDC)[网址:http://www.insdc.org]

  17. 国家海洋数据中心[网址:http://www.nodc.noaa.gov]

  18. SeaWiFS项目[http://oceancolor.gsfc.nasa.gov/SeaWiFS/]

  19. 欧盟项目MetaFunctions[http://www.metafunctions.org]

  20. Lombardot T、Kottmann R、Giuliani G、de Bono A、Addor N、Glöckner F:MetaLook:海洋生态基因组学的3D可视化软件。BMC生物信息学2007, 8: 406. 10.1186/1471-2105-8-406

    第条 公共医学中心 公共医学 谷歌学者 

  21. 基因组地图服务器[http://www.megx.net/gms]

  22. Altschul S、Gish W、Miller W、Myers EW、Lipman DJ:基本的本地对齐搜索工具。分子生物学杂志1990, 215: 403–410.

    第条 中国科学院 公共医学 谷歌学者 

  23. Tatusov RL、Galperin MY、Natale DA、Koonin EV:COG数据库:蛋白质功能和进化的基因组尺度分析工具。核酸研究2000, 28: 33–36. 10.1093/nar/28.133

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  24. Bateman A、Coin L、Durbin R、Finn R、Hollich V、Griffiths-Jones S、Khanna A、Marshall M、Moxon S、Sonnhammer E、Studholme D、Yeats C、Eddy S:Pfam蛋白质家族数据库。核酸研究2004,(32数据库):D138-D141。10.1093/nar/gkh121

    谷歌学者 

  25. Finn R、Mistry J、Schuster-Böckler B、Griffiths-Jones S、Hollich V、Lassmann T、Moxon S、Marshall M、Khanna A、Durbin R、amd EL、Sonnhammer SE、Bateman A:Pfam:部族、网络工具和服务。核酸研究2006年,(34数据库):D247-D251。10.1093/nar/gkj149号

    谷歌学者 

  26. Enright A、Kunin V、Ouzounis C:基因组序列空间中的蛋白质家族和TRIBES。核酸研究2003, 31(15):4632–4638. 10.1093/nar/gkg495

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  27. Alexeyenko A,Tamas I,Liu G,Sonnhammer EL:由多个蛋白质组共享的直系和非直系同源的自动聚类。生物信息学2006年,22(14):e9-e15。10.1093/生物信息学/btl213

    第条 中国科学院 公共医学 谷歌学者 

  28. Boekhorst J,Snel B:通过利用外源基因特性识别不重要BLAST命中中的同源物。BMC生物信息学2007, 8: 356. 10.1186/1471-2105-8-356

    第条 公共医学中心 公共医学 谷歌学者 

  29. Luc N、Risler JL、Bergeron A、Raffinot M:基因团队:比较基因组学基因簇的新形式化。计算生物学和化学2003, 27: 59–67. 10.1016/S1476-9271(02)00097-X

    第条 中国科学院 公共医学 谷歌学者 

  30. Béal MPP、Bergeron A、Corteel S、Raffinot M:基因团队的算法视图。理论计算机科学2004, 320: 395–418. 2016年10月10日/j.tcs.2004.02.036

    第条 谷歌学者 

  31. He X,Goldwasser MH:在同源家族中识别保守基因簇。计算生物学杂志2005, 12(6):638–656. 10.1089/立方米.2005.12.638

    第条 中国科学院 公共医学 谷歌学者 

  32. Kim SJH,Yang CJ:放松邻近约束的基因团队。程序IEEE计算系统生物信息会议2005, 44–55.

    谷歌学者 

  33. Mandoiu I,(编辑)亚利桑那州:生物信息学算法:技术与应用《威利生物信息学丛书》,John Wiley&Sons;2008

     谷歌学者 

  34. Hu M,Choi K,Su W,Kim S,Yang J:使用原核生物可互换基因集的基因模式挖掘算法。BMC生物信息学2008, 9: 124. 10.1186/1471-2105-9-124

    第条 公共医学中心 公共医学 谷歌学者 

  35. Jonassen I,Collins JF,Higgins DG:在未对齐的蛋白质序列中寻找灵活的模式。蛋白质科学1995, 4(8):1587–1595.

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  36. Jonassen I:使用模式图高效地发现保守模式。计算机在生物科学中的应用1997, 13(5):509–522.

    中国科学院 公共医学 谷歌学者 

  37. Rigoutsos I,Floratos A:生物序列中的组合模式发现:TEIRESIAS算法。生物信息学1998, 14: 55–67. 10.1093/生物信息学/14.1.55

    第条 中国科学院 公共医学 谷歌学者 

  38. Yooseph S、Sutton G、Rusch DB、Halpern AL、Williamson SJ、Remington K、Eisen JA、Heidelberg KB、Manning G、Li W、Jaroszewski L、Cieplak P、Miller CS、Li H、Mashiyama ST、Joachimiak MP、van Belle C、Chandonia JM、Soergel DA、Zhai Y、Natarajan K、Lee S、Raphael BJ、Bafna V、Friedman R、Brenner SE、Godzik A、Eisenberg D、Dixon JE、Taylor SS、,Strausberg RL、Frazier M、Venter JC:魔法师II全球海洋采样探险:拓展蛋白质家族的宇宙。公共科学图书馆生物2007年,5(3):e16。10.1371/期刊.pbio.0050016

    第条 公共医学中心 公共医学 谷歌学者 

  39. 约根森B,博埃提乌斯A:深海床上的盛宴和家庭生活。《自然评论》微生物学2007, 5(10):770–778. 10.1038/nrmicro1745

    第条 公共医学 谷歌学者 

  40. Moran MA,Miller WL:资源丰富的异养生物充分利用了沿海海洋中的光。《自然评论》微生物学2007, 5(10):792–800. 10.1038/nrmicro1746

    第条 中国科学院 公共医学 谷歌学者 

  41. Giovannoni S,Stingl U:“组学”时代培养浮游细菌的重要性。《自然评论》微生物学2007, 5(10):820–826. 10.1038/nrmicro1752

    第条 中国科学院 公共医学 谷歌学者 

  42. Hallam S,Preston NPC,Detter J,Rokhsar D,Richardson P,DeLong E:反向甲烷生成:用环境基因组学检验这一假设。科学类2004, 305(5689):1457–1462. 10.1126/科学.1100025

    第条 中国科学院 公共医学 谷歌学者 

  43. Meyerdierks A、Kube M、Lombardot T、Knittel K、Bauer M、Glöckner FO、Reinhardt R、Amann R:了解介导甲烷厌氧氧化的古菌基因组。环境微生物学2005, 7(12):1937–1951. 10.1111/j.1462-2920.2005.00844.x号

    第条 中国科学院 公共医学 谷歌学者 

  44. Moran MA、Buchan A、González JM、Heidelberg JF、Whitman WB、Kiene RP、Henriksen JR、King GM、Belas R、Fuqua C、Brinkac L、Lewis M、Johri S、Weaver B、Pai G、Eisen JA、Rahe E、Sheldon WM、Ye W、Miller TR、Carlton J、Rasko DA、Paulsen IT、Ren Q、Daugherty SC、Deboy RT、Dodson RJ、Durkin AS、Madupu R、Nelson WC、Sullivan SA、Rosovitz MJ、Haft DH、,Selengut J,Ward N:波美罗伊硅杆菌的基因组序列揭示了其对海洋环境的适应。自然2004, 432(7019):910–913. 10.1038/自然03170

    第条 中国科学院 公共医学 谷歌学者 

  45. Moran MA、Belas R、Schell MA、González JM、Sun F、Sun S、Binder BJ、Edmonds J、Ye W、Orcutt B、Howard EC、Meile C、Palefsky W、Goesmann A、Ren Q、Paulsen I、Ulrich LE、Thompson LS、Saunders E、Buchan A:海洋Roseobacters的生态基因组学。应用与环境微生物学2007, 73(14):4559–4569. 10.1128/AEM.02580-06

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

我们感谢审稿人对改进手稿提出的有用意见,并感谢所有MetaFunctions合作伙伴进行的富有成果的讨论。这项工作得到了FP6欧盟项目MetaFunctions(授予CT 511784)、卓越网络“欧洲海洋基因组学”和马克斯·普朗克学会的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信尤塔·波内贝克.

其他信息

作者的贡献

UB设计并实现了MetaMine,并起草了手稿。RK设计并实现了底层数据库的当前版本,并集成了宏基因组数据。UB和TL执行并评估了生物测试示例。UB、RK和TL参与了作为MPI的客户机-服务器版本安装MetaMine系统。FOG领导EU项目MetaFunctions,为软件开发提供建议,并对原稿进行了修订和贡献。

电子辅助材料

12859_2008_2444_MOESM1_ESM.pps

附加文件1:该文件包含两个示例分析的屏幕截图和相应共识模式的更详细描述。(PPS 9 MB)

附加文件2:该文件包含有关MetaMine 1.2版的用户指南。(文档532 KB)

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Bohnebeck,U.,Lombardot,T.,Kottmann,R。等。MetaMine–检测和分析环境中基因模式的工具。BMC生物信息学 9, 459 (2008). https://doi.org/10.1186/1471-2105-9-459

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-9-459

关键词