跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
2008年7月1日;24(13):i348-56。
doi:10.1093/bioinformatics/btn189。

基于动态贝叶斯网络的肽片段识别模型

附属公司

基于动态贝叶斯网络的肽片段识别模型

Aaron A Klammer先生等。 生物信息学

摘要

动机:串联质谱(MS/MS)是鉴定复杂混合物中蛋白质不可缺少的技术。蛋白质被消化成多肽,然后通过质谱仪中的碎片模式进行鉴定。因此,MS/MS蛋白质鉴定的核心依赖于肽片段的相对可预测性。不幸的是,肽片段是复杂的,并没有被完全理解,所理解的并不总是被肽识别算法所利用。

结果:我们使用混合动态贝叶斯网络(DBN)/支持向量机(SVM)方法来解决这两个问题。我们训练一组DBN进行高置信肽谱匹配。这些DBN统称为Riptide,包含肽片段化学的概率模型。通过对Riptide获得的分布进行检查,可以确定新的趋势,例如肽裂解位点C-term的a-离子普遍裂解为疏水残基。此外,Riptide可用于生成可能性分数,以指示给定肽谱匹配是否正确。SVM对这种分数向量进行评估,生成最终分数,用于肽识别。与其他最先进的MS/MS识别算法相比,以这种方式使用Riptide可以提高识别能力,以1%的错误发现率将阳性识别的数量增加12%。

可利用性:Python和C源代码可根据作者的要求提供。策划的培训集可在http://noble.gs.washington.edu/proj/sterized/。图形模型工具包(GMTK)可从以下网站免费获得:http://sslie.washington.edu/bilmes/gmtk。

PubMed免责声明

数字

图1。
图1。
实验概述。我们首先收集高置信PSM。这些训练PSM用于训练Riptide模型,该模型由一组DBN组成,这些DBN对控制肽片段离子强度的概率分布进行建模。Riptide用于评估测试PSM,以生成每个PSM的特征向量,每个特征与其中一个Rippide DBN分配给PSM的概率相关。最后,可以通过附加算法(如SVM)分析这些特征向量,以生成测试PSM的分数。
图2。
图2。
涨潮概述。训练和评估激流的过程包括两个主要阶段。(A) 该过程从高置信度PSM开始(正面PSM,顶部)。这些阳性PSM的每个光谱也与随机产生的肽相关联,以产生一组阴性PSM(底部)。这两类PSM用于训练一组DBN,每个离子系列一个正离子和一个负离子。(B) 然后,使用经过训练的DBN评估测试PSM,为每个PSM和每种DBN类型生成一对概率(正和负)以及它们之间的比率,即对数优势比。因此,每个测试PSM都表示为一个标量值向量,每个DBN有三个值。然后,在测试期间,这些向量被用作SVM或Percolator算法的输入(第4节)。
图3。
图3。
两种类型的激流DBN。第一类DBNs(A)分别模拟离子片段强度的分布,条件是断裂位点两侧的氨基酸产生特定的离子。第二类DBN(B)成对地对离子碎片强度的分布进行建模,结合了由同一位点的碎片产生的相关离子之间的依赖性。观察到的节点为灰色阴影;隐藏节点不着色。每个中心帧顶部的节点连接到前一帧和后一帧中相同的节点。实线表示条件依赖,虚线表示切换父关系,这是条件依赖的一种特殊形式。
图4。
图4。
阳性肽鉴定作为q个-值(FDR的度量)。Riptide记分功能与S进行比较EQUEST(均衡)记分函数Xcorr公司,测试SVM归一化判别得分函数(A)的效用。此外,Riptide DBN特征向量被用作算法Percolator(Käll)的输入等。,2007),并与原始Percolator特征(B)进行了比较。
图5。
图5。
的分布-从C位裂解到疏水或极性残基的离子强度。差异在P(P)≪ 0.0001.
图6。
图6。
学习了激流模型的参数。(A类)显示使用激流单离子模型学习的不同残留物和离子类型的平均峰值强度。每个单元格显示特定离子系列和侧翼残基的平均归一化强度值。对于左边的热图,指定的残基是那些在酰胺键左边断裂以产生该类型离子的残基(即酰胺键本身是残基的C项),而对于右边的热图来说,指定的残留是那些在断裂的酰胺键右边的残基。上图是使用matrix2png创建的(Pavlidis和Noble,2003)。(B类)显示使用激流对离子模型学习的离子对的峰值强度的2D高斯分布。每个图显示了由相同酰胺键断裂引起的离子强度的联合分布;因此,例如b条/图对应于b条/n个成对,用于长度的肽n个。色标表示自然对数概率。

类似文章

引用人

工具书类

    1. Bafna V,Edwards N.SCOPE:根据肽数据库对串联质谱进行评分的概率模型。生物信息学。2001年;17:S13–S21。-公共医学
    1. Bilmes J,Bartels C.语音识别的图形模型架构。IEEE信号处理。2005年7月;22:89–100.
    1. Dongre AR等。肽组成、气相碱度和化学修饰对裂解效率的影响:流动质子模型的证据。美国化学杂志。Soc.1996年;118:8365–8374。
    1. Dancik V等人。通过串联质谱法进行新肽测序。J.计算。《生物学》,1999年;6:327–342.-公共医学
    1. Eng JK等。一种将肽串联质谱数据与蛋白质数据库中氨基酸序列相关联的方法。美国社会杂志质量规范。1994;5:976–989。-公共医学

出版物类型