微生物生态基因组数据库
微生物生态基因组数据库(MEGDB)包含海洋起源的原核基因组和元基因组序列及其环境背景信息。已使用一系列标准来选择(元)基因组序列以构建数据库:i)公共访问(序列必须在公共序列数据库中可用[16]); ii)海洋起源;iii)细菌或古细菌;iv)高序列质量(即序列覆盖率至少为八倍的组合连续序列)和v)序列的确切地理起源(例如来自原始出版物)。
栖息地参数,如水和沉积物深度、温度、盐度和其他物理化学性质,已从文献中提取,或根据全球海洋数据集(如世界海洋地图集和世界海洋数据库)进行推断[17]和遥感信息(SeaWiFS)[18]在欧盟项目MetaFunctions中[19]. MEGDB当前内容的详细概述可以在http://www.megx.net/portal/content/content.html.
除MetaMine外,MEGDB的公共访问权也由MetaLook工具授予[20]尤其是Genomes Mapserver作为中心入口点[14,21]. 也可以在线使用Geographic-BLAST工具来获得特定基因在世界各地的地理分布概况。
基因模式和关键基因方法
术语“基因模式”通常涵盖遗传学/基因组学中的两个相关生物学观察结果。在原核基因组中,基因通常以操纵子的形式组织,在操纵子中,转录导致单个信使RNA分子(mRNA)编码蛋白质的不同亚单位,甚至不同但相关的蛋白质。操纵子的定义是严格的,作为一组共同调控的基因,但只要没有共同的mRNA被实验证明,相应的一组基因通常被称为基因簇/基因模式,它被松散地定义为一组相邻的基因,具有可能的耦合功能和/或跨生物体的保守顺序。
操纵子和基因模式之间的区别对于我们想用MetaMine解决的生物学问题来说并不是至关重要的。此外,检测栖息地特定基因模式需要对上述概念中的环境参数进行一些扩展。为了系统地研究栖息地和基因含量之间的相关性,有两种基本类型的基因模式值得关注:(1)在特定环境条件下存在或过度/不足表达的基因,以及(2)由发生在特定基因组邻里中的一组基因组成的模式。如果发现这样的基因模式,基因组上下文分析有助于潜在的功能分配。此外,如果基因模式与不同的环境参数或过程相关,则可以推断出潜在功能的进一步证据。MetaMine旨在检测此类基因模式。由于基因组和宏基因组序列数量巨大,我们决定采用自下而上的方法,利用先前的生物学知识选择所谓的关键基因具有已知的生物功能和环境相关性,其发挥种子的作用以在具有至少两个预测基因的基因组序列中搜索基因模式。
工艺步骤
对于基因模式发现,用户可以从选择关键基因开始执行以下过程步骤。分析过程的详细说明(包括流程图)可在网站上的用户指南中找到,并作为附加文件提供2.
1. & 2. 项目和关键基因的定义
为了存储和检索特定分析的结果,在由项目名称、用户和简短注释描述的项目中组织相应的处理步骤。此外,关键基因由名称、其功能的简短描述和注释定义。
3.导入/检索相应的关键基因序列
相应的关键基因序列可以从包含Fasta格式蛋白质序列的外部文件导入,也可以从MEGDB检索蛋白质序列。
4.使用关键基因进行BLAST搜索
使用关键基因序列作为BLAST搜索的查询[22]针对存储在MEGDB中的至少两个预测基因的所有海洋基因组和宏基因组序列进行。结果是一个包含以下信息的表e(电子)-在MetaMine GUI中的特定BLAST面板中,向用户显示此BLAST搜索发现的类似基因的价值、生物、采样地点、栖息地、水和沉积物深度以及潜在基因功能。
5.相邻基因的确定
给定用户定义的参数k个这个k个确定与上一步骤中BLAST搜索发现的所有基因相关的每一侧相邻基因,并以表格形式显示。使用鼠标悬停和第二个面板,用户可以查看有关基因功能注释的详细信息。
6.所有相邻基因的BLAST搜索
对最后一步的所有相邻基因进行BLAST搜索。结果由一个哈希表表示,该表包含所有相邻基因的集合及其相关的BLAST结果。用户可以通过单击相邻表中的一个基因来访问该散列表,并在相应的BLAST面板中获取相关的BLAST信息。
7.功能等效基因的测定
为了检测功能等价的基因,采用了一种互惠的最佳命中方法,然后使用聚类算法。结果是一组组,每组代表功能对等的基因。所有组成员都是彩色编码的,并在相邻基因表中呈现给用户(图。1). 此外,相互最佳匹配和功能组显示在单独的视图中。
8.基因模式的确定
给定两个用户定义参数的最小长度我和法定人数q个基因模式被定义为至少我至少存在于q个不同的基因组或宏基因组样本。每个模式都与一个模式实例视图相关联。描述基因顺序和方向的模式实例及其环境信息以表格形式显示(另请参见图1). 参数设置指南可在用户指南中找到(请参阅附加文件2).
9.所有中间结果的存储和检索
所有中间结果都组织在特殊数据对象中,这些数据对象可以存储到本地MEGDB(仅单机版)并从中检索,还可以导出到外部XML文件并从中导入。
每个过程步骤都可以与其他参数一起重复,从而形成树状结构来组织中间结果。如图的左侧面板所示。1,用户可以浏览所有步骤的历史,以详细分析相应的结果。用户应注意,最终结果可能会受到前面所有步骤的方法和参数设置的影响。因此,差异可以用来证明结果的稳定性。如果某个基因不在预期的功能组或基因模式中,这种回滚机制允许进一步深入分析。
如果用户事先指定了所有参数,他还可以启动批处理模式分析。可以使用设置菜单中的参数对话框“设置参数”调整所有参数。
算法
以下部分简要概述了描述基本思想和策略的底层算法。
功能等效基因的测定
在这一步中,我们感兴趣的是找到功能等效的基因群,这些基因构成了下一步的元素——共同基因模式的确定。获得这类群体存在不同的概念和方法。经典且成熟的方法–由同源群簇(COG)引入[23]–依赖于基于系统发育的直系学概念。正畸学描述了不同物种中通过物种形成从共同祖先衍生而来的基因,而不是由复制事件产生的同源基因。因此,正畸学代表了一种强有力的关系,具有描述相同生物功能的高潜力。然而,它最初是一个系统发育概念,用于研究基因进化。因此,这不包括可能仍然具有相同功能的Paralog。一个互补的概念是,当Pfam应用时,为从多重比对和结构域架构中导出的基因功能的固有属性建模[24,25]. 第三种是基于序列相似性和无监督聚类(如TRIBES)的自动方法[26].
我们的数据集中有很大一部分是由元基因组样本组成的,这些样本具有很高的潜在新基因序列,而这些新基因序列在现有数据库中并不存在,可能会形成新的,有时甚至是小的功能群。因此,我们从COG的基本思想开始,放宽了对宏基因组和inparalogs的限制[27]. 一般来说,正畸学是一个很好的功能注释概念,随着基因模式的建立,包含一些假阳性的潜在错误很容易被排除。在这种情况下,Boekhorst和Snel[28]已经表明,“共享基因顺序和大小相似性显著增加了查询命中对同源的可能性”。
为了检测功能等效的基因组,我们使用了一种启发式方法,该方法仅限于BLAST搜索中发现的基因序列,主要包括以下两个步骤:
让G公司表示存储在MEGDB中的所有基因组和元基因组序列的一组标识符,分别与生物体名称和采样点相关,以及R(右)表示预测为蛋白质编码基因的所有序列区域的一组标识符,然后基因组:R(右)→G公司是决定特定基因基因组标识符的功能。让b条
第页
表示BLAST基因搜索的结果第页 ∈ R(右)针对MEGDB和B类一组BLAST结果b条
第页
对于给定的集合R(右),然后人民币:R(右)×B类×G公司→R(右)是一个函数,用于确定基因反向最佳BLAST命中的标识符第页 ∈ R(右)关于基因组克 ∈ G公司.
互惠最佳匹配通常定义如下:基因克
一
在基因组中G公司
A类
是基因的最佳匹配克
b条
在基因组中G公司
B类
和基因克
b条
是基因的最佳匹配克
一
.给定BLAST结果集B类函数人民币为指定的基因和基因组检查此约束。搜索互惠最佳匹配仅限于集合R(右)
n个
⊂ R(右)用关键基因及其邻域表示BLAST搜索中发现的基因。因此,R(右)
n个
对应于图中右侧面板中的上表。1此外,这组基因组G公司
n个
⊂ G公司仅限于∪第页 ∈ 卢比基因组(第页). 这些是与BLAST搜索中发现的具有关键基因的基因(及其邻居)相关的基因组,对应于此表中的行。此步骤的结果是一个哈希映射成果管理制带钥匙第页 ∈ R(右)
n个
存储基因组相关互惠最佳匹配的载体人民币= (人民币克1,人民币克2, ...,人民币
荷兰
)带有∀克
我
∈ G公司
n个
对于相邻表中的每个基因。这个中间结果可以在矫形面板的第二个表中看到。
下一步是确定仅基于散列图中存储的信息的功能组成果管理制并以自下而上的方式进行。让F类表示这组功能组,其中每个组(f)
我
∈ F类,我= 1, ..., |F类|包含一组功能等效的基因,其建立如下:
-
对于每个基因第页 ∈ R(右)
n个
从散列图中检索与基因组相关的相互最佳匹配的对应矢量成果管理制并检查相互最佳匹配的三角形关系。如果载体的至少三个基因之间存在这种三角关系,则可能是一个群体(f)
新的
是用这些基因创造的。该策略对应于COG方法[23].
-
根据所有现有组检查新组F类对于以下三种情况:a)所有基因(f)
新的
包含在一个组中(f)
我
.然后(f)
新的
不需要,将被删除。b) 如果(f)
新的
与一个组(f)
我
≥3个基因,并且在(f)
新的
不包含在组中(f)
我
,检查这些剩余的基因是否存在三角关系(f)
我
并尽可能将其包括在内。如果所有剩余的基因都能包含在组中(f)
我
,(f)
新的
不需要,将被删除。c) 至少存在一个来自(f)
新的
不能包含在任何组中(f)
我
然后(f)
新的
已添加到集合F类.
-
检查集合的所有组F类用于子集关系。从中删除较小的F类如果等价,只保留一组。
根据这个过程,一个基因可以是几个功能群的一部分,一个功能群可以包含来自同一基因组的几个基因(inparalogs),但outparalog被排除在外人民币方法。
基因模式的确定
如上所述,对于我们的方法,我们将基因模式定义为给定基因组邻域内的一组共享基因。此定义对应于一个问题,即基因团队模型[29–32]它搜索在一组给定基因组中共生的一组基因组。有关正式模型的更多信息,请参阅Mandoiu第8章[33]. 基因的顺序和方向不需要保守,基因模式中允许插入/删除。为了进行深入分析,我们使用模式实例的概念来描述这些属性,这些属性在模式确定过程中被忽略。上述方法[29–32]在以下特征方面是不同的:i)如果它们是为两个或多个输入基因组设计的,ii)如果它们限制一个基因在基因组/染色体中是唯一的,或者如果允许并行。此外,这些方法需要对所有输入基因组的基因进行一致的家族分配,这在许多情况下是不可用的或不完整的。胡和同事[34]称这类问题为基因模式挖掘问题并描述一种与我们的方法非常相似的方法。
对于模式发现步骤,我们实现了两种方法:系统搜索和启发式搜索,以减少搜索空间。系统搜索采用了字符枚举方法,该方法成功应用于Pratt等模体搜索算法[35,36]和TEIRESIAS[37]不同的是,要枚举的基本单位是一个功能组,而不是单个字符。
给定一组功能组F类由数字标识符和参数排序的前一步骤的最小图案长度和q个(quorum)描述模式的最小长度以及模式应出现的不同序列的最小数量,系统搜索如下:
让P(P)表示要确定的模式集,然后P(P)使用由实体表示的长度为1的模式进行初始化(f) ∈ F类每个模式都与一组(元)基因组标识符相关G公司
第页
⊂ G公司发生的位置。在每次迭代中我,我= 2, ..., |F类|所有图案第页 ∈ P(P) ∧|第页| =我-1(来自上一次迭代的具有长度的图案我-1) 由具有下一个更高标识符的功能组进行放大,并检查相应的基因组标识符集是否涵盖了比q个。如果是,图案将添加到P(P)这种系统搜索保证找到满足给定参数约束的所有模式,但它的搜索空间根据功能组的数量呈指数增长
因此,结合系统搜索和启发式实现了第二种方法。为了生成模式,需要检查两个实体:i)作为模式组成部分的功能基团和ii)存在模式的(元)基因组。与基于功能组的系统搜索相比,启发式在以下意义上颠倒了成分和测试。首先按照上述方法生成基因模式,直到用户指定的长度minLength启发式默认值为5。第二,对于集合P(P)在迄今为止发现的模式中,相关的(元)基因组标识符集G公司
第页
进行收集和过滤,以确保无冗余。生成的集合包含所有基因组组合G公司
第页
,其中可能会出现模式。然后,对于每个(元)基因组组合G公司
第页
应用交集运算确定最大的共享功能组集。给定一组基因组组合,这种启发式方法的优点是能够快速检测长基因模式,而无需显式生成和测试所有功能组组合,这可能是一个巨大的数字。
系统架构
该系统使用三层架构实现,该架构允许MetaMine随后集成到其他系统中。它可以在两种模式下使用:作为直接访问本地数据库的独立系统,或作为使用web服务执行所有数据库操作的客户端-服务器应用程序。
持久层负责永久存储和检索MetaMine的所有必要数据。因此,它为MEGDB提供了存储和检索功能。此外,还有读写文件系统的功能,特别是导入以FASTA格式存储的关键基因序列,以及将分析结果作为XML文件导入和导出,以进行进一步的数据交换。包含用于BLAST搜索的蛋白质序列的BLAST数据库文件也属于该层。原则上,可以用自己的版本交换底层数据库。
应用层包含通过为提供给用户的所有功能提供方法来实现应用程序逻辑的所有对象和方法(有关详细信息,请参阅原型描述)。此外,还存在用于序列相似性搜索的BLAST等外部程序的接口,以及分子生物学应用中使用的特定文件格式的读取器和编写器。
表示层包括图形用户界面和激活用户所选功能的控制器。