跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物信息学。2019年2月1日;35(3): 518–520.
2018年7月19日在线发布。 数字对象标识:10.1093/生物信息学/bty625
预防性维修识别码:PMC6361231型
PMID:30032202

TreeGrafter:基于进化树的蛋白质注释,带有基因本体术语和其他注释

拉塞尔·施瓦茨,助理编辑

关联数据

补充资料

摘要

摘要

TreeGrafter是一种新的软件工具,用于使用预先注释的系统发育树注释蛋白质序列。目前,该工具为基因本体(GO)术语以及PANTHER家族和子家族提供注释。该方法可推广到参考系统发育树内部节点的任何注释。TreeGrafter获取每个输入查询蛋白序列,在预先计算、预先注释的基因树库中找到最佳匹配的同源家族,然后将其移植到树中的最佳位置。然后,它通过从引用树中的祖先节点传播注释来对序列进行注释。我们表明,TreeGrafter在正确分配子家族成员方面优于子家族HMM评分,并且它基于注释的参考系统发育树生成高度特定的GO术语注释。这种方法将进一步集成到InterProScan中,从而实现更广泛的用户社区。

可用性和实施

TreeGrafter在网站上免费提供https://github.com/pantherdb/TreeGrafter网站,包括Docker图像。

补充信息

补充数据可在生物信息学在线。

1引言

新蛋白质序列发现的增长速度继续增加对自动计算方法的需求,以对这些序列进行功能注释。基因本体(GO)是迄今为止使用最广泛、可计算的基因和蛋白质功能表示(阿什伯恩等。, 2000;基因本体联盟,2017年). 已经开发了几种方法来推断实验上未标记的蛋白质序列的GO注释。Blast2GO使用BLAST查找输入序列的同系物,提取现有GO注释以获取点击,最后使用注释规则为查询序列分配GO术语(科内萨等。, 2005). InterPro2GO公司(伯格等。, 2012)将GO术语与InterPro条目关联,并基于匹配的InterPro条目将GO词汇传播到序列(米切尔等。, 2015). PANTHER公司(等。, 2017)使用两种类型的隐藏马尔可夫模型(HMM)对序列进行分类:家族HMM(识别大家族树的成员)和子家族HMM。

在过去几年里,GO联盟中的生物验证者使用系统发育注释和引用工具(PAINT)用GO术语注释了5000多个基因树(高德特等。, 2011). 这些注释基于实验GO注释,并根据具体情况考虑每个GO项,从而降低假阳性和假阴性功能预测率(高德特等。, 2011). PAINT已被用于注释这些参考树中~100个基因组的蛋白质序列,但直到现在,还没有办法将这些注释应用于其他测序项目(包括全基因组和元基因组)发现的数百万个序列。

在这里,我们提出了一个新的工具TreeGrafter,它将基于树的注释推理模型扩展到不在注释参考树中的序列。TreeGrafter将查询序列移植到参考系统发育树上。与树中的任何其他序列一样,查询序列将从树中其注释的祖先节点继承注释(包括函数注释、族标签注释等)(图1).

保存图片、插图等的外部文件。对象名称为bty625f1.jpg

TreeGrafter根据每个序列嫁接到带注释的参考树的位置对其进行注释。给定带有预先注释的祖先基因节点的同一棵树(左面板),每个查询序列都被嫁接到树上。对于查询1(顶部,蓝色开圆圈)的移植位置,有两个带注释的祖先节点,查询1从中继承注释,而对于查询2(底部,蓝色开圆),只有一个带注释祖先节点,并且只有来自这一节点的注释被查询2继承

2材料和方法

TreeGrafter算法的详细描述以及注释的源代码见补充材料简单地说,每个查询序列都使用HMM评分与一个蛋白质家族相匹配(等。,2017); 将序列添加到族多序列比对中;和RAxML(Stamatakis,2014年)用于将序列嫁接到带注释的家谱树。注释继承自树中移植点祖先的注释节点。注意,祖先节点可以用函数的损失和增益来注释;在损失的情况下,给定的函数是由其后代继承。

3验证和结果

3.1树木嫁接的准确性

我们使用跨越王国和门的八个完整蛋白质组,进行了leave-on-out测试,以评估TreeGrafter将序列嫁接到正确树位置的能力(补充表S1). 对于每个序列,我们首先将其从相应的PANTHER系统发育树和多序列比对中删除,然后使用TreeGrafter将输入序列嫁接回简化树。

TreeGrafter在将序列分配给适当的子家族方面优于亚家族HMM评分(PANTHER和InterProScan使用了近20年的标准)(补充表S1). 该测试特别严格,因为我们从参考树(和比对)中删除了验证序列,但没有从用于训练子族HMM的比对中删除验证序列。在对准步骤中使用HMMER3而不是MAFFT大大提高了速度(补充图S1)并且还略微提高了我们的子系列分类基准的性能。

3.2比较TreeGrafter和InterPro2GO中的GO注释

解释2GO(伯格等。, 2012)是最先进的蛋白质序列注释工具之一,也是应用最广泛的工具。InterPro签名(主要是HMM,包括PANTHER)已由专家管理人员用GO术语进行注释。我们比较了TreeGrafter和InterPro2GO对八个物种的每个蛋白质序列的GO注释(补充表S2). 总的来说,我们发现对于带注释的蛋白质,TreeGrafter推断出的GO注释数量比InterPro2GO更多。当两种方法中的GO项在GO层次结构中相关(因此具有可比性)时,TreeGrafter注释往往更具体。然而,TreeGrafter的GO注释并没有与InterPro2GO完全重叠,目前也没有覆盖那么多的蛋白质,这表明了这些方法的互补性。TreeGrafter将在不久的将来并入InterProScan,并且随着GO系统发育注释项目的进行,TreeGraft注释的蛋白质数量将继续增加。

3.3 TreeGrafter的局限性

用户应该意识到TreeGrafter应用于一般系统发育方法的潜在局限性。首先,结果将取决于输入多序列比对的准确性和输入参考树。在我们的实现中,TreeGrafter使用了PANTHER中的树,这些树作为手动注释过程的一部分进行了检查和改进,但与任何计算推断结果一样,它们可能是不正确的。这对于短蛋白或序列差异相对较高的家族来说尤其如此。其次,结果将取决于查询序列与引用树中的序列的密切关系。足够远的关系可能会导致众所周知的“长枝吸引”效应,这将倾向于将远相关序列嫁接到参考树中较长的分支上。域洗牌也会导致问题;在多域族的某些情况下,树将仅基于单个域进行估计,这可能导致不完整甚至不正确的功能预测。

4实施

TreeGrafter在Perl中作为独立的命令行工具实现,可在https://github.com/pantherdb/TreeGrafter网站。为了简化安装,此存储库还包含部署TreeGrafter Docker容器的说明。

补充材料

补充资料

致谢

我们感谢Aleksandra Tarkowska为TreeGrafter创建Docker容器。我们感谢Mi Huaiyu博士、Anushya Muruganujan博士和Huang Xiaosong博士对PANTHER和PAINT数据的帮助。

基金

这项工作得到了国家科学基金会(美国)[赠款编号1458808]和生物技术和生物科学研究委员会(英国)[赠款号BB/N00521X/1]的支持。

利益冲突:未声明。

工具书类


来自的文章生物信息学由以下人员提供牛津大学出版社