跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2010年6月9日11:312。
doi:10.1186/1471-2105-11-312。

GIGA:一种简单有效的基因组时代基因树推理算法

附属公司

GIGA:一种简单有效的基因组时代基因树推理算法

保罗·D·托马斯. BMC生物信息学. .

摘要

背景:基因之间的系统发育关系不仅在理论上有意义:它们使我们能够通过对从细菌到果蝇和小鼠等许多模型生物体中的人类基因亲属的实验研究来了解人类基因。然而,由于算法和生物学方面的诸多原因,最常用的用于重建基因树的计算算法可能不准确。基因序列数据之外的其他信息已被证明可以提高重建的准确性,尽管计算成本很高。

结果:我们描述了一种简单、快速的基因系统发育推断算法,该算法利用了基因组时代之前不可用的信息:即跨越生命树大部分的可靠物种树,以及物种基因组中完整基因补体的知识。该算法称为GIGA,利用序列的距离矩阵表示聚合地构建树,使用简单的规则来合并基因组年龄信息。GIGA利用一种新的基因树概念化方法,由直系子树(仅包含物种形成事件)组成,这些子树与其他进化事件(如基因复制或水平基因转移)相连。GIGA的一个重要创新是,在聚集过程的每一步,树都会根据创建它的进化事件进行解释/重新解释。值得注意的是,GIGA即使在使用非常简单的距离度量(成对序列差异)时也表现良好在树的构建过程中,没有对枝进行距离平均。

结论:GIGA是一种高效的方法,可以对非常大的基因家族进行系统发育重建,并大规模确定同源基因。它对添加更多的基因序列非常强大,为创建稳定的标识符提供了可能性,不仅可以引用现有基因,还可以引用它们的共同祖先。我们将GIGA生成的树与TreeFam数据库中的树进行了比较,它们大体上非常相似,大多数差异可能是由于较差的对齐质量。然而,剩下的一些差异是算法上的,可以用GIGA倾向于更强调最小化基因重复和缺失事件这一事实来解释。

PubMed免责声明

数字

图1
图1
将具有重复事件的树分解为正交子树(OS)该示例显示了人类亚甲基四氢叶酸还原酶(MTHFR)基因家族的一部分。这种树可以通过两种不同的方式分解为OS:1)真菌MET13/met9组与其祖先保持在同一OS中,而MET12/met11组发现了新的OS;2)MET12/met11组与其祖先保持在同一OS中,而MET13/met9组发现了新的OS。在这两种情况下,这两个OS都是兄弟组,因为它们包含从复制事件中下降的基因,并且在这两个情况下,较新OS的FCE(只有真菌基因的OS)可以相对于物种形成事件来确定,在本例中,在opisthokont共同祖先和真菌共同祖先之间。物种缩写为5个字母的UniProt代码:CAEEL(秀丽线虫,线虫),鸡(加卢斯,鸡肉),丹麦(斑马鱼,斑马鱼),DICDI(D.盘状体,细胞黏菌),人类(智人,人类),小鼠(小M,鼠标),SCHPO(S.pombe公司,裂变酵母),酵母(酿酒酵母,贝克酵母)。
图2
图2
物种形成活动的GIGA规则请注意,GIGA规则1和2产生的树拓扑与标准聚合方法(如UPGMA)不同。由于GIGA利用了物种树的知识,它假设酵母MET13/met9群实际上与其他生物体的MTHFR基因同源,但在从D.椎间盘(DICDI),因为真菌谱系的进化速度加快。
图3
图3
重复事件的GIGA规则GIGA推断,使用规则2一定发生了重复,因为连接的两个OS包含来自贝克酵母(yeast)和裂变酵母(SCHPO)的两个基因。然后将复制放在最近的MRCA物种形成事件(本例中为真菌)之前,这是关于基因缺失事件的最节省的解决方案(规则3)。请注意,许多其他解决方案都是可行的(最节俭的情况下显示了两个示例),但它们需要越来越多的独立基因缺失事件。
图4
图4
简单GIGA算法的核心.OS=同源子树,基因树的一部分,仅包含物种形成事件;FCE=创建复制事件,创建给定OS的事件(相对于物种形成事件定位);在GIGA的第一个实现中,所有FCE都是重复事件。算法从每个序列在其自己的独立操作系统中开始。每次迭代都在当前最近的一对操作系统上操作。在每次迭代中,1)两个操作系统合并为一个操作系统(右侧),或2)一个(或两个)操作系统被分配FCE。当所有操作系统都分配了FCE时,树即完成。
图5
图5
本研究中使用的TreeFam家族特征(14331个家族,至少有4个序列)(A)家族平均和最小成对同一性的分布,(B)序列数和蛋白质比对长度的分布。
图6
图6
树重建所需的CPU时间,请注意日志规模GIGA比NJ快100倍,比ML快1000倍。(A) 取决于序列数(排列长度在200-204时不变)。(B) 依赖于对齐长度(序列数恒定为20)。每种方法都使用相同的对齐方式。
图7
图7
GIGA树的准确性:与14000多个TreeFam家族的TreeFam-clean树进行比较.A)归一化RF距离比较树拓扑;B) 正交对数对差异(见正文)实质上小于RF距离,这表明TreeBeST树和GIGA树之间的许多拓扑差异是由于物种形成事件顺序的差异。
图8
图8
多种不同树重建方法的比较绘制了每对树的RF距离与(A)族中序列数和(B)对齐长度的关系图,以显示对这些参数的依赖性。GIGA和TreeBeST(蓝色钻石)通常比任何其他方法产生更多相似的树,但NJ-ML除外,后者具有相似性。每对方法的RF距离平均值和标准偏差在括号中的图例中。图6中使用了TreeFam家族的相同子集。
图9
图9
从GIGA树和TreeBeST树计算的直方图之间的重叠GIGA推断出了TreeBeST推断出的96%的同源基因,但也发现了许多其他同源基因,这主要是因为隐含的基因重复和缺失事件最小化。
图10
图10
TreeBeST(a)和GIGA(B)、TreeFam家族TF105095之间在推断的重复事件和相应的直系图方面存在重大分歧的树示例。根据PredictedSP,序列比对是高质量的,因此这种不一致是由于算法差异而不是有问题的比对。主要差异在于CYP17A1谱系中基因重复事件(橙色节点)的推断(牛谱系中最近的重复除外)。(A) TreeBeST推断出两个重复事件(dup 1和dup 2),这两个事件都发生在射线鱼-四足动物发散之前,然后是至少五个单独的缺失事件:一个在蛙-羊膜发散之前(del 1),一个在鸡-哺乳动物发散之前,一个跟随青蛙谱系的分化(del 4),另一个跟随鸡谱系的分化(del 5)。请注意,根据这棵树,鸡、青蛙或鱼中没有人类CYP17A1的直系祖先。(B) GIGA推断出一个重复事件,在鱼类辐射(dup1')之前,没有缺失事件。请注意,根据这棵树,在青蛙中有一个人类CYP17A1的直系同源基因,在鸡中一个,在每种鱼类中两个。还请注意,树(B)推断出两个加速(潜在自适应)分子进化速率的周期,这可能解释了为什么分子进化模型倾向于具有较长发散时间的拓扑,如(a)中所示。
图11
图11
树推理算法的健壮性:GIGA和TreeBeST的直方图,用于14000多个TreeFam家族的“干净”与“完整”对齐。完全对齐包括其他序列,但对齐与干净集的对齐相同。RF距离为0表示树拓扑通过添加更多序列而保持不变。总的来说,GIGA对添加序列的扰动比TreeBeST更稳健。

类似文章

引用人

工具书类

    1. Felsenstein J.推断系统发育。纽约:Sinauer,Inc。;2004
    1. Barnabas J,Goodman M,Moore GW.用最大简约法研究哺乳动物α-珠蛋白链序列的下降。分子生物学杂志。1972;69(2):249–278. doi:10.1016/0022-2836(72)90229-X。-DOI程序-公共医学
    1. 赛头N,内M。邻接法:重建系统发育树的新方法。分子生物学进化。1987;4(4):406–425.-公共医学
    1. Prager EM,Wilson AC。蛋白质和核酸系统发育树的构建:替代矩阵方法的经验评估。分子进化杂志。1978;11(2):129–142. doi:10.1007/BF01733889。-DOI程序-公共医学
    1. Whelan S.推理树。方法分子生物学。2008;452:287–309. 完整文本。-公共医学

出版物类型