生物信息学。2019年2月1日;35(3): 518–520.
TreeGrafter:基于进化树的蛋白质注释,带有基因本体术语和其他注释
,1 ,2和1
唐海明
1美国加利福尼亚州洛杉矶市南加州大学预防医学系生物信息学系
罗伯特·D·芬恩
2欧洲生物信息学研究所(EMBL-EBI)欧洲分子生物学实验室,英国剑桥Hinxton Wellcome Trust基因组校区
保罗·D·托马斯
1美国加利福尼亚州洛杉矶市南加州大学预防医学系生物信息学系
拉塞尔·施瓦茨,助理编辑
1美国加利福尼亚州洛杉矶市南加州大学预防医学系生物信息学系
2欧洲生物信息学研究所(EMBL-EBI)欧洲分子生物学实验室,英国剑桥Hinxton Wellcome Trust基因组校区
2018年3月16日收到;2018年6月25日修订;2018年7月18日验收。
- 补充资料
GUID:EC6356FA-E69F-407D-BE95-B2E1C57444E3
摘要
摘要
TreeGrafter是一种新的软件工具,用于使用预先注释的系统发育树注释蛋白质序列。目前,该工具为基因本体(GO)术语以及PANTHER家族和子家族提供注释。该方法可推广到参考系统发育树内部节点的任何注释。TreeGrafter获取每个输入查询蛋白序列,在预先计算、预先注释的基因树库中找到最佳匹配的同源家族,然后将其移植到树中的最佳位置。然后,它通过从引用树中的祖先节点传播注释来对序列进行注释。我们表明,TreeGrafter在正确分配子家族成员方面优于子家族HMM评分,并且它基于注释的参考系统发育树生成高度特定的GO术语注释。这种方法将进一步集成到InterProScan中,从而实现更广泛的用户社区。
1引言
新蛋白质序列发现的增长速度继续增加对自动计算方法的需求,以对这些序列进行功能注释。基因本体(GO)是迄今为止使用最广泛、可计算的基因和蛋白质功能表示(阿什伯恩等。, 2000;基因本体联盟,2017年). 已经开发了几种方法来推断实验上未标记的蛋白质序列的GO注释。Blast2GO使用BLAST查找输入序列的同系物,提取现有GO注释以获取点击,最后使用注释规则为查询序列分配GO术语(科内萨等。, 2005). InterPro2GO公司(伯格等。, 2012)将GO术语与InterPro条目关联,并基于匹配的InterPro条目将GO词汇传播到序列(米切尔等。, 2015). PANTHER公司(米等。, 2017)使用两种类型的隐藏马尔可夫模型(HMM)对序列进行分类:家族HMM(识别大家族树的成员)和子家族HMM。
在过去几年里,GO联盟中的生物验证者使用系统发育注释和引用工具(PAINT)用GO术语注释了5000多个基因树(高德特等。, 2011). 这些注释基于实验GO注释,并根据具体情况考虑每个GO项,从而降低假阳性和假阴性功能预测率(高德特等。, 2011). PAINT已被用于注释这些参考树中~100个基因组的蛋白质序列,但直到现在,还没有办法将这些注释应用于其他测序项目(包括全基因组和元基因组)发现的数百万个序列。
在这里,我们提出了一个新的工具TreeGrafter,它将基于树的注释推理模型扩展到不在注释参考树中的序列。TreeGrafter将查询序列移植到参考系统发育树上。与树中的任何其他序列一样,查询序列将从树中其注释的祖先节点继承注释(包括函数注释、族标签注释等)().
TreeGrafter根据每个序列嫁接到带注释的参考树的位置对其进行注释。给定带有预先注释的祖先基因节点的同一棵树(左面板),每个查询序列都被嫁接到树上。对于查询1(顶部,蓝色开圆圈)的移植位置,有两个带注释的祖先节点,查询1从中继承注释,而对于查询2(底部,蓝色开圆),只有一个带注释祖先节点,并且只有来自这一节点的注释被查询2继承
2材料和方法
TreeGrafter算法的详细描述以及注释的源代码见补充材料简单地说,每个查询序列都使用HMM评分与一个蛋白质家族相匹配(米等。,2017); 将序列添加到族多序列比对中;和RAxML(Stamatakis,2014年)用于将序列嫁接到带注释的家谱树。注释继承自树中移植点祖先的注释节点。注意,祖先节点可以用函数的损失和增益来注释;在损失的情况下,给定的函数是不由其后代继承。
3验证和结果
3.1树木嫁接的准确性
我们使用跨越王国和门的八个完整蛋白质组,进行了leave-on-out测试,以评估TreeGrafter将序列嫁接到正确树位置的能力(补充表S1). 对于每个序列,我们首先将其从相应的PANTHER系统发育树和多序列比对中删除,然后使用TreeGrafter将输入序列嫁接回简化树。
TreeGrafter在将序列分配给适当的子家族方面优于亚家族HMM评分(PANTHER和InterProScan使用了近20年的标准)(补充表S1). 该测试特别严格,因为我们从参考树(和比对)中删除了验证序列,但没有从用于训练子族HMM的比对中删除验证序列。在对准步骤中使用HMMER3而不是MAFFT大大提高了速度(补充图S1)并且还略微提高了我们的子系列分类基准的性能。
3.2比较TreeGrafter和InterPro2GO中的GO注释
解释2GO(伯格等。, 2012)是最先进的蛋白质序列注释工具之一,也是应用最广泛的工具。InterPro签名(主要是HMM,包括PANTHER)已由专家管理人员用GO术语进行注释。我们比较了TreeGrafter和InterPro2GO对八个物种的每个蛋白质序列的GO注释(补充表S2). 总的来说,我们发现对于带注释的蛋白质,TreeGrafter推断出的GO注释数量比InterPro2GO更多。当两种方法中的GO项在GO层次结构中相关(因此具有可比性)时,TreeGrafter注释往往更具体。然而,TreeGrafter的GO注释并没有与InterPro2GO完全重叠,目前也没有覆盖那么多的蛋白质,这表明了这些方法的互补性。TreeGrafter将在不久的将来并入InterProScan,并且随着GO系统发育注释项目的进行,TreeGraft注释的蛋白质数量将继续增加。
3.3 TreeGrafter的局限性
用户应该意识到TreeGrafter应用于一般系统发育方法的潜在局限性。首先,结果将取决于输入多序列比对的准确性和输入参考树。在我们的实现中,TreeGrafter使用了PANTHER中的树,这些树作为手动注释过程的一部分进行了检查和改进,但与任何计算推断结果一样,它们可能是不正确的。这对于短蛋白或序列差异相对较高的家族来说尤其如此。其次,结果将取决于查询序列与引用树中的序列的密切关系。足够远的关系可能会导致众所周知的“长枝吸引”效应,这将倾向于将远相关序列嫁接到参考树中较长的分支上。域洗牌也会导致问题;在多域族的某些情况下,树将仅基于单个域进行估计,这可能导致不完整甚至不正确的功能预测。
致谢
我们感谢Aleksandra Tarkowska为TreeGrafter创建Docker容器。我们感谢Mi Huaiyu博士、Anushya Muruganujan博士和Huang Xiaosong博士对PANTHER和PAINT数据的帮助。
基金
这项工作得到了国家科学基金会(美国)[赠款编号1458808]和生物技术和生物科学研究委员会(英国)[赠款号BB/N00521X/1]的支持。
利益冲突:未声明。
工具书类
- Ashburner M.等人。.(2000)基因本体论:生物学统一的工具。基因本体联盟.自然遗传学。 ,25, 25–29. [PMC免费文章][公共医学][谷歌学者]
- Burge S.等人。.(2012)预测性蛋白质特征的人工GO注释:GO管理的InterPro方法.数据库(牛津),2012,巴068。[PMC免费文章][公共医学][谷歌学者]
- Conesa A.等人。.(2005)Blast2GO:功能基因组学研究中注释、可视化和分析的通用工具.生物信息学(英国牛津),21, 3674–3676.[公共医学][谷歌学者]
- Gaudet P.等人。.(2011)基因本体联盟中基于系统发育的功能注释传播.简介。生物信息学 ,12, 449–462. [PMC免费文章][公共医学][谷歌学者]
- Mi H.等人。.(2017)PANTHER版本11:来自基因本体论和反应体途径的扩展注释数据,以及数据分析工具增强.核酸研究。 ,45,D183–d189. [PMC免费文章][公共医学][谷歌学者]
- Mitchell A.等人。.(2015)InterPro蛋白质家族数据库:15年后的分类资源.核酸研究.43,D213–D221。[PMC免费文章][公共医学][谷歌学者]
- Stamatakis A.(2014)RAxML版本8:一个用于系统发育分析和大型系统发育后分析的工具.生物信息学(英国牛津),30,1312–1313。[PMC免费文章][公共医学][谷歌学者]
- 基因本体联盟。(2017)基因本体知识库和资源的扩展.核酸研究 ,45,D331–d338。[PMC免费文章][公共医学][谷歌学者]