摘要

动机:当使用序列分析蛋白质序列时相似性搜索,同源序列(由物种形成)是一种新蛋白质的更可靠预测因子功能优于同源序列(由基因分化复制),因为复制可以实现功能多元化。系统发育信息在高通量基因组注释(“植物基因组学”)是广泛认可,但现有的方法要么是手动的,要么间接(例如,不基于系统发育树)。我们的目标是使用显式系统发育推断自动化系统发育组学。A类必要成分是一种推断物种形成和给定基因树中的重复事件。

结果:我们给出了一个推断物种形成和复制的算法基因树上的事件与可信物种树进行比较。这个算法的最坏运行时间为O(

\(n^{2}\)
)这比之前的两种算法差
\({\sim}\)
O(运行)(
\(n\)
)基因树
\(n\)
序列。然而,我们的算法非常简单,并且它的渐近最差病例行为仅在病理数据集上实现。我们展示了根据经验,使用从Pfam蛋白构建的1750个基因树家庭数据库,它似乎是一个实用的(并且经常高级)用于分析真实基因树的算法。

可利用性:http://www.genetics.wustl.edu/eddy/forester网站

联系人:zmasek@genetics.wustl.edu;eddy@genetics.wustl.edu

此内容仅以PDF格式提供。