摘要

摘要:哺乳动物线粒体基因组数据库MamMiBase是哺乳动物物种完整线粒体基因组序列的关系数据库。该数据库对系统发育分析很有用,因为它可以以三种不同格式(NEXUS用于PAUP程序、MEGA程序和PHYLIP程序)检索编码线粒体基因的13个蛋白质的核苷酸和氨基酸个体比对。用户可以根据参数值下载对他/她有用的序列,例如序列长度、,第页-距离、碱基含量、跃迁转换比、伽马,也由MamMiBase给出。还可以下载一个简单的系统发育树(带有Jukes-Cantor距离的邻接树),用于参数计算和其他简单任务。

可利用性:MamMiBase位于http://www.mammibase.lncc.br

联系人: atrv@lnccbr

简介

近年来,分子序列的产生出现了前所未有的增长,其中最受欢迎的数据库GenBank已经存储了数十万亿个碱基。不幸的是,在正确分析之前,这些序列中的大多数对理解它们的生物学意义仍然毫无用处。可靠的系统发育分析可以作为理解生物模式及其进化过程的基础。然而,对于一个特定的系统发育问题,有许多数据集可用,即使经过适当分析,也可能产生相互矛盾的结果。序列长度、变异水平、间隙、转换和颠倒比值已被证明对基因性能至关重要(俄罗斯., 1996).

限制性更强的数据库对减少这个问题起着关键作用,因为它们可以快速检索用户想要分析的序列集。在这篇文章中,我们提出了一个线粒体蛋白质数据库,它对于那些旨在重建系统发育的人来说特别有趣。在这一点上,数据库不包括已被隔离测序的单个基因;该银行允许用户从迄今已测序的线粒体基因组中迅速选择单个基因比对。用户可以通过GC含量、γ参数等统计参数值选择基因。为此,我们收集了哺乳动物线粒体完整基因组序列中的所有蛋白质编码基因,除了两个四足类外,还包括外群。

MamMiBase公司

MamMiBase是一个具有用户友好界面的关系数据库。它以树菜单的形式显示,可以从MySQL关系数据库中存储的所有哺乳动物线粒体基因组中选择特定的一组。网络界面是用PHP编写的:超文本处理器,一种基于网络的编程语言。为了执行计算值距离,PERL(实用提取和报告语言)与通用网关接口(CGI,用于web)和数据库接口(DBI)一起使用。MamMiBase是一个MySQL数据库,包含来自线粒体DNA的哺乳动物有机体信息、氨基酸和核苷酸序列表、gi编号、相关文献信息和其他蛋白质信息(例如名称、长度和基因关系)。所有DNA序列均来自GenBank数据库。在MamMiBase的开发过程中,使用PERL脚本处理线粒体DNA数据文件。BioPERL工具包用于分析GenBank下载文件并运行程序,例如用于比对的CLUSTALW。

我们决定排除tRNA和rRNA序列以及部分基因组。考虑到翻译的氨基酸序列,所有蛋白质编码基因之前都是多重排列的。多重比对由CLUSTALW生成并通过肉眼检查。

MamMiBase的内容

MamMiBase旨在存储哺乳动物线粒体基因组序列,并为基因比对提供快速访问,以及有用的系统发育信息,例如第页-距离、过渡和横向比。它提供了一个分类层次,专门设计用于促进哺乳动物生物的选择。MamMiBase包含哺乳动物的线粒体基因组和以鸡为代表的两个外群五倍子还有非洲蟾蜍非洲爪蟾。其他哺乳动物物种的完整基因组记录将在GenBank上公布。

数据库最有趣的方面是基于所选哺乳动物物种的统计参数值检索比对。这些比对可用于MEGA、PHYLIP和NEXUS(即PAUP)格式的核苷酸和氨基酸序列。为了减少计算机时间,在存储预处理结果的位置创建了一些表。成对第页-例如,之前已经计算了距离和过渡横向比值,并且已经存储了所有两两比较值。

MamMiBase还提供了需要为每个特定物种集计算的参数,例如平均碱含量和gamma参数。PAML第3.13条(杨,1997)用于估计伽马参数,使用四种速率类别在最大似然框架中近似伽马分布。这种方法需要一个系统发育树,这是由LinTree程序推断出来的(竹前., 1995). 在这种情况下,PERL脚本将LinTree输出文件转换为带有分支长度的附加说明(Newick格式)树内嵌。该文件与核苷酸序列一起输入PAML中,以估计伽马参数。计算完所有参数后,将组织一个具有各自参数值的基因列表,用户可以根据这些参数下载所选生物体的氨基酸或核苷酸序列比对(或树文件)。

除了这些参数外,数据库还提供了可供下载的系统发育树。它是一个具有Jukes-Cantor(1969)距离和完全删除的邻接树。MamMiBase使用LinTree程序生成一个平面文件,其中包含树的拓扑和分支长度。它以文本(LinTree程序为.njb)、newick(PAML程序包)和postscript(出版物为.ps)格式提供下载。需要强调的是,我们不鼓励在系统发育研究中使用这种自动生成的树;它可以用于更简单的任务,例如参数计算,或者仅仅作为多对齐步骤的指南。MamMiBase为比较分析提供了有用的附加资源。

MamMiBase的开发是在LNCC(国家科学计算实验室)完成的。我们感谢达西·德·阿尔梅达(Darcy F.de Almeida)对本手稿最终准备工作的帮助。这项工作得到了巴西科学技术部国家研究委员会(CNPq/MCT)和里约热内卢科学基金会(FAPERJ)对A.T.V.和C.A.M.R.的资助。

参考文献

Russo,C.A.M.等人。

1996
不同基因和不同建树方法在恢复已知脊椎动物系统发育中的效率。
分子生物学。进化。
13
525
–536

Takezaki,N.等人。

1995
分子钟和线性树的系统发育测试。
分子生物学。进化。
12
823
–833

Z.杨。

1997
PAML:通过最大似然进行系统发育分析的程序包。
橱柜,
13
555
–556