TreeGrafter: phylogenetic tree-based annotation of proteins with Gene Ontology terms and other annotations

Haiming Tang; Robert D Finn; Paul D Thomas

doi:10.1093/bioinformatics/bty625

生物信息学。2019年2月1日；35(3): 518–520.

2018年7月19日在线发布。数字对象标识：10.1093/生物信息学/bty625

预防性维修识别码：PMC6361231型

PMID：30032202

TreeGrafter：基于进化树的蛋白质注释，带有基因本体术语和其他注释

唐海明,¹ 罗伯特·D·芬恩,²和保罗·D·托马斯¹

拉塞尔·施瓦茨，助理编辑

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: bty625_补充材料.docx（236000）
GUID:EC6356FA-E69F-407D-BE95-B2E1C57444E3

摘要

TreeGrafter是一种新的软件工具，用于使用预先注释的系统发育树注释蛋白质序列。目前，该工具为基因本体（GO）术语以及PANTHER家族和子家族提供注释。该方法可推广到参考系统发育树内部节点的任何注释。TreeGrafter获取每个输入查询蛋白序列，在预先计算、预先注释的基因树库中找到最佳匹配的同源家族，然后将其移植到树中的最佳位置。然后，它通过从引用树中的祖先节点传播注释来对序列进行注释。我们表明，TreeGrafter在正确分配子家族成员方面优于子家族HMM评分，并且它基于注释的参考系统发育树生成高度特定的GO术语注释。这种方法将进一步集成到InterProScan中，从而实现更广泛的用户社区。

可用性和实施

TreeGrafter在网站上免费提供https://github.com/pantherdb/TreeGrafter网站，包括Docker图像。

补充信息

补充数据可在生物信息学在线。

1引言

新蛋白质序列发现的增长速度继续增加对自动计算方法的需求，以对这些序列进行功能注释。基因本体（GO）是迄今为止使用最广泛、可计算的基因和蛋白质功能表示(阿什伯恩等。, 2000;基因本体联盟，2017年). 已经开发了几种方法来推断实验上未标记的蛋白质序列的GO注释。Blast2GO使用BLAST查找输入序列的同系物，提取现有GO注释以获取点击，最后使用注释规则为查询序列分配GO术语(科内萨等。, 2005). InterPro2GO公司(伯格等。, 2012)将GO术语与InterPro条目关联，并基于匹配的InterPro条目将GO词汇传播到序列(米切尔等。, 2015). PANTHER公司(米等。, 2017)使用两种类型的隐藏马尔可夫模型（HMM）对序列进行分类：家族HMM（识别大家族树的成员）和子家族HMM。

在过去几年里，GO联盟中的生物验证者使用系统发育注释和引用工具（PAINT）用GO术语注释了5000多个基因树(高德特等。, 2011). 这些注释基于实验GO注释，并根据具体情况考虑每个GO项，从而降低假阳性和假阴性功能预测率(高德特等。, 2011). PAINT已被用于注释这些参考树中~100个基因组的蛋白质序列，但直到现在，还没有办法将这些注释应用于其他测序项目（包括全基因组和元基因组）发现的数百万个序列。

在这里，我们提出了一个新的工具TreeGrafter，它将基于树的注释推理模型扩展到不在注释参考树中的序列。TreeGrafter将查询序列移植到参考系统发育树上。与树中的任何其他序列一样，查询序列将从树中其注释的祖先节点继承注释（包括函数注释、族标签注释等）(图1).

在单独的窗口中打开

图1。

TreeGrafter根据每个序列嫁接到带注释的参考树的位置对其进行注释。给定带有预先注释的祖先基因节点的同一棵树（左面板），每个查询序列都被嫁接到树上。对于查询1（顶部，蓝色开圆圈）的移植位置，有两个带注释的祖先节点，查询1从中继承注释，而对于查询2（底部，蓝色开圆），只有一个带注释祖先节点，并且只有来自这一节点的注释被查询2继承

2材料和方法

TreeGrafter算法的详细描述以及注释的源代码见补充材料简单地说，每个查询序列都使用HMM评分与一个蛋白质家族相匹配(米等。，2017); 将序列添加到族多序列比对中；和RAxML(Stamatakis，2014年)用于将序列嫁接到带注释的家谱树。注释继承自树中移植点祖先的注释节点。注意，祖先节点可以用函数的损失和增益来注释；在损失的情况下，给定的函数是不由其后代继承。

3验证和结果

3.1树木嫁接的准确性

我们使用跨越王国和门的八个完整蛋白质组，进行了leave-on-out测试，以评估TreeGrafter将序列嫁接到正确树位置的能力(补充表S1). 对于每个序列，我们首先将其从相应的PANTHER系统发育树和多序列比对中删除，然后使用TreeGrafter将输入序列嫁接回简化树。

TreeGrafter在将序列分配给适当的子家族方面优于亚家族HMM评分（PANTHER和InterProScan使用了近20年的标准）(补充表S1). 该测试特别严格，因为我们从参考树（和比对）中删除了验证序列，但没有从用于训练子族HMM的比对中删除验证序列。在对准步骤中使用HMMER3而不是MAFFT大大提高了速度(补充图S1)并且还略微提高了我们的子系列分类基准的性能。

3.2比较TreeGrafter和InterPro2GO中的GO注释

解释2GO(伯格等。, 2012)是最先进的蛋白质序列注释工具之一，也是应用最广泛的工具。InterPro签名（主要是HMM，包括PANTHER）已由专家管理人员用GO术语进行注释。我们比较了TreeGrafter和InterPro2GO对八个物种的每个蛋白质序列的GO注释(补充表S2). 总的来说，我们发现对于带注释的蛋白质，TreeGrafter推断出的GO注释数量比InterPro2GO更多。当两种方法中的GO项在GO层次结构中相关（因此具有可比性）时，TreeGrafter注释往往更具体。然而，TreeGrafter的GO注释并没有与InterPro2GO完全重叠，目前也没有覆盖那么多的蛋白质，这表明了这些方法的互补性。TreeGrafter将在不久的将来并入InterProScan，并且随着GO系统发育注释项目的进行，TreeGraft注释的蛋白质数量将继续增加。

3.3 TreeGrafter的局限性

用户应该意识到TreeGrafter应用于一般系统发育方法的潜在局限性。首先，结果将取决于输入多序列比对的准确性和输入参考树。在我们的实现中，TreeGrafter使用了PANTHER中的树，这些树作为手动注释过程的一部分进行了检查和改进，但与任何计算推断结果一样，它们可能是不正确的。这对于短蛋白或序列差异相对较高的家族来说尤其如此。其次，结果将取决于查询序列与引用树中的序列的密切关系。足够远的关系可能会导致众所周知的“长枝吸引”效应，这将倾向于将远相关序列嫁接到参考树中较长的分支上。域洗牌也会导致问题；在多域族的某些情况下，树将仅基于单个域进行估计，这可能导致不完整甚至不正确的功能预测。

4实施

TreeGrafter在Perl中作为独立的命令行工具实现，可在https://github.com/pantherdb/TreeGrafter网站。为了简化安装，此存储库还包含部署TreeGrafter Docker容器的说明。

补充材料

补充资料

单击此处查看其他数据文件。^{（236K，docx）}

致谢

我们感谢Aleksandra Tarkowska为TreeGrafter创建Docker容器。我们感谢Mi Huaiyu博士、Anushya Muruganujan博士和Huang Xiaosong博士对PANTHER和PAINT数据的帮助。

基金

这项工作得到了国家科学基金会（美国）[赠款编号1458808]和生物技术和生物科学研究委员会（英国）[赠款号BB/N00521X/1]的支持。

利益冲突：未声明。

工具书类

Ashburner M.等人。.(2000)基因本体论：生物学统一的工具。基因本体联盟.自然遗传学。 ,25, 25–29. [PMC免费文章][公共医学][谷歌学者]
Burge S.等人。.(2012)预测性蛋白质特征的人工GO注释：GO管理的InterPro方法.数据库（牛津）,2012，巴068。[PMC免费文章][公共医学][谷歌学者]
Conesa A.等人。.(2005)Blast2GO：功能基因组学研究中注释、可视化和分析的通用工具.生物信息学（英国牛津）,21, 3674–3676.[公共医学][谷歌学者]
Gaudet P.等人。.(2011)基因本体联盟中基于系统发育的功能注释传播.简介。生物信息学 ,12, 449–462. [PMC免费文章][公共医学][谷歌学者]
Mi H.等人。.(2017)PANTHER版本11：来自基因本体论和反应体途径的扩展注释数据，以及数据分析工具增强.核酸研究。 ,45，D183–d189. [PMC免费文章][公共医学][谷歌学者]
Mitchell A.等人。.(2015)InterPro蛋白质家族数据库：15年后的分类资源.核酸研究.43，D213–D221。[PMC免费文章][公共医学][谷歌学者]
Stamatakis A.（2014）RAxML版本8：一个用于系统发育分析和大型系统发育后分析的工具.生物信息学（英国牛津）,30，1312–1313。[PMC免费文章][公共医学][谷歌学者]
基因本体联盟。(2017)基因本体知识库和资源的扩展.核酸研究 ,45，D331–d338。[PMC免费文章][公共医学][谷歌学者]

来自的文章生物信息学由以下人员提供牛津大学出版社