跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

网站是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2005年10月;1(5):e45。
doi:10.1371/journal.pcbi.0010045。 Epub 2005年10月7日。

贝叶斯系统发育学预测蛋白质分子功能

附属公司

贝叶斯系统发育学预测蛋白质分子功能

芭芭拉·恩格哈特等。 公共科学图书馆计算生物学. 2005年10月.

摘要

我们提出了一个统计图形模型,利用同源性推断未标记蛋白质序列的特定分子功能。基于系统发育原理,SIFTER(Statistical Inference of Function Through Evolutionary Relationships)通过进化关系精确预测蛋白质家族成员的分子功能,给出协调的系统发育和可用的功能注释,即使数据稀疏或有噪声。与基因本体注释数据库、BLAST、GOtcha和Orthostrapper相比,我们的方法在100个Pfam家族中产生了特定且一致的分子功能预测。我们对腺苷-5’-单磷酸/腺苷脱氨酶家族和乳酸/苹果酸脱氢酶家族的功能预测进行了更详细的探索,在前一种情况下,将预测与一组公开的功能特征金标准进行了比较。已知脱氨酶家族中3%的蛋白质的功能注释,SIFTER在预测文献中报道的实验表征蛋白质的分子功能方面达到96%的准确率。与其他当前可用的方法相比,SIFTER在该数据集上的准确性有了显著提高,例如BLAST(75%)、GeneQuiz(64%)、GOtcha(89%)和Orthostrapper(11%)。我们还对恶性疟原虫的腺苷脱氨酶进行了实验表征,证实了SIFTER的预测。结果表明,在系统发育问题中利用功能进化的统计模型具有预测能力。作者提供了SIFTER的软件实现。

PubMed免责声明

利益冲突声明

相互竞争的利益。提交人声明,不存在相互竞争的利益。

数字

图1
图1。AMP/腺苷脱氨酶家族分子功能预测错误或缺失的蛋白质百分比,用金标准测试集评估
SIFTER、BLASTA(最显著的非同一注释序列)、BLASTB(最显著非同一序列)、GeneQuiz、GOtcha、GOtcha-exp(仅使用实验性GO注释)、Orthostrapper(显著聚类)和Orthostraper-ns(非显著聚类)的结果。金标准测试集是根据文献检索手动编译的。相对于测试集,所有百分比均为真阳性。(A) 仅区分三种脱氨酶底物的结果,作为28种可能正确功能的百分比。(B) 三种脱氨酶底物加上额外的生长因子结构域之间的区分结果,以36种可能的正确功能的百分比表示;对于BLAST、GeneQuiz、Orthostrapper和Orthostrapper-ns,我们要求传输的注释包含这两个函数;对于SIFTER、GOtcha和GOtcha-exp,我们要求两个正确的函数具有两个排名最高的后验概率或分数。
图2
图2。代表AMP/腺苷脱氨酶Pfam家族中发现的三种底物特异性相关功能以及与该家族少数成员相关的生长因子活性的基因本体层次部分
双椭圆表示四个函数,它们都不兼容,与SIFTER中用于推理的随机向量相关的随机变量相对应。
图3
图3。AMP/腺苷脱氨酶家族剪除版本的结果
显示了推理中使用的协调系统发育,以及推理结果(脱氨酶底物的后验概率和基于最大后验概率的功能预测)。这棵树中的八个蛋白质被标注有生长因子活性,第二高的可能性是腺苷脱氨酶。用于推断的函数观察值由列左侧的填充框表示,带有后验概率。对于每一种产生的底物特异性,系统发育中的一个边缘都会识别出该突变的可能位置。文中讨论了突出显示的序列。蓝色顶点表示物种形成事件,红色顶点表示复制事件。树是使用1.92版ATV软件绘制的[68]。
图4
图4。BLASTC、SIFTER和SIFTER-N(标准化)AMP/腺苷脱氨酶家族功能预测的ROC图
这些ROC曲线是针对脱氨酶家族的测试集中的28种蛋白质计算的。该图显示了SIFTER产生的后验概率(以及SIFTER-N的归一化)和E类-BLASTC的值显著性得分用于注释蛋白质,在脱氨酶底物AMP、腺嘌呤和腺苷之间进行选择。假阳性轴按对数缩放,以便在假阳性百分比较低时关注真阳性百分比。FN,假阴性;FP,假阳性;TN,真阴性;TP,真阳性。
图5
图5。17 nM Q8IJA9_PLAFA对腺苷脱氨基速率与底物浓度的依赖性
开圆圈是单独的数据点,而实线是数据与方程式1的拟合。插图显示了Q8IJA9_PLAFA通过265nm处的吸光度损失检测到的三种底物脱氨基的原始数据。粗体、细线和虚线分别是100μM腺嘌呤、AMP和腺苷的数据。与腺嘌呤和AMP的反应含有860 nM的酶,而含有腺苷的分析只有17 nM的酶类。所有分析的反应条件为25°C,50 mM磷酸钾(pH 7.4)。
图6
图6。系统发育片段的描述与Noisy-OR模型
(A) 两种蛋白质,Q9VFS0和Q9VVS1,均来自黑腹果蝇,由一个共同的祖先蛋白相关。(B) 蛋白Q9VFS1具有腺苷脱氨酶的功能观察结果(中心矩形)。还显示了每个分子函数的后验概率,作为推断后注释向量的灰度(白色表示零,黑色表示一)。载体的每个成分对应于一种特定的脱氨酶底物。(C) 作为推理过程基础的噪声OR模型。我们关注蛋白质Q9VFS0中的腺苷脱氨酶随机变量。这个随机变量的转移概率取决于所有祖先随机变量和转移参数q个m、 n个.

类似文章

引用人

工具书类

    1. Galperin MY,Koonin EV。基因组功能注释中系统错误的来源:结构域重排、非直向同源基因置换和操纵子破坏。硅生物。1998;1:7.-公共医学
    1. Brenner SE,基因组注释错误。趋势Genet。1999;15:132–133.-公共医学
    1. Koonin EV.弥合序列和功能之间的差距。趋势Genet。2000;16:16.-公共医学
    1. Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990;215:403–410.-公共医学
    1. Khan S、Situ G、Decker K、Schmidt CJ。GoFigure:自动基因本体注释。生物信息学。2003;18:2484–2485.-公共医学

出版物类型