跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物信息学。2008年7月1日;24(13):i348–i356。
数字对象标识:10.1093/生物信息学/btn189
预防性维修识别码:项目经理2665034
美国国立卫生研究院:NIHMS100499标准
PMID:18586734

基于动态贝叶斯网络的肽片段识别模型

摘要

动机:串联质谱(MS/MS)是鉴定复杂混合物中蛋白质不可缺少的技术。蛋白质被消化成多肽,然后通过质谱仪中的碎片模式进行鉴定。因此,MS/MS蛋白质鉴定的核心依赖于肽片段的相对可预测性。不幸的是,肽片段是复杂的,并没有被完全理解,所理解的并不总是被肽识别算法所利用。

结果:我们使用混合动态贝叶斯网络(DBN)/支持向量机(SVM)方法来解决这两个问题。我们训练一组DBN进行高置信肽谱匹配。这些DBN统称为Riptide,包含肽片段化学的概率模型。通过对Riptide获得的分布进行检查,可以识别新的趋势,如流行趋势-肽切割位点的离子断裂C-术语为疏水性残基。此外,Riptide可用于生成可能性分数,以指示给定肽谱匹配是否正确。SVM对这种分数向量进行评估,生成最终分数,用于肽识别。与其他最先进的MS/MS识别算法相比,以这种方式使用Riptide可以提高识别能力,以1%的错误发现率将阳性识别的数量增加12%。

可利用性:Python和C源代码可根据作者的要求提供。策划的培训集可在http://noble.gs.washington.edu/proj/censity/图形模型工具包(GMTK)可从以下网站免费获得:http://sslie.washington.edu/bilmes/gmtk

联系人:ude.notgnihsaw.sg@elbon

1简介

生物学的一个主要目标是鉴定和表征细胞的整个蛋白质补体或蛋白质组。为此,基于串联质谱(MS/MS)的技术能够快速识别复杂混合物中的蛋白质(Mann等。,2001; 耶茨,1998). MS/MS中的一个重要步骤是质子化肽的裂解,并以质谱的形式检测产生的片段离子。由于肽片段的复杂化学性质,这种光谱中的峰型只能定性预测:光谱峰高的准确预测,甚至哪些峰存在或不存在,都被证明是难以捉摸的(Dancik等。,1999; 埃利亚斯等。,2004; 万和陈,2005; 张,2004)。

模拟肽片段的一个动机是帮助将肽序列分配给观察到的片段光谱。然而,由于肽片段的复杂性,肽谱识别软件的设计者往往严重依赖专家知识来设计简单的启发式(Eng等。,1994; 字段等。,2002)或者在更大的模型中设置概率(Bafna和Edwards,2001). 只有最近根据实际质谱数据训练的模型才被采用(Dancik等。,1999; 埃利亚斯等。,2004; 哈维里奥等。,2003; 万和陈,2005). 这些肽鉴定方法通常使用相对简单的模型,忽略了大部分已知的断裂途径,例如中性损失(Elias等。,2004; 万和陈,2005)或者将大多数已知的碎片化路径纳入一个不易解释或扩展的黑箱模型中(Zhang,2004)。

本文提出的方法建立在并扩展了之前的工作基础上,努力解决现有碎片模型和搜索方法的局限性。我们测试了两个密切相关的假设:第一,基于实际MS/MS数据训练的肽质谱峰强度改进模型,将为质子化肽片段的复杂化学提供洞察力;第二,这种模型将有助于改进未知肽片段光谱的识别,尤其是与序列数据库搜索相结合。我们使用称为动态贝叶斯网络(DBN)的机器学习工具来解决这些假设。

贝叶斯网络是一种图形模型(Lauritzen,1996)是一种数学工具,其中使用图表示概率分布族的重要因式分解属性。这些特性允许计算效率高的动态规划算法执行重要任务,如参数估计和模式识别。如果没有因子分解的表达式,这样的算法将很难处理。贝叶斯网络还提供了此类概率模型的可视化、直观但数学形式化的图形描述,这在设计模型以解决给定问题时可能会有很大帮助。

DBN是一种贝叶斯网络(Heckerman,1995)它非常适合于序列数据,例如语音识别中的声学语音信号或生物序列分析中的DNA和蛋白质序列。由于DBN包含隐马尔可夫模型(HMM),并且HMM已被广泛且成功地用于各种序列分析任务,因此更强大的DBN家族可能会进一步推动生物信息学领域的发展。DBN是使用固定长度构造的模板其被展开以便对任意长度的序列进行建模。DBN仅使用有限数量的参数描述,但可以描述无限长度的序列,这是DBN的强大功能之一。关于本工作中使用的DBN类型的详细描述,但对于语音识别的问题域,可以在(Bilmes和Bartels,2005). 由于DBN能够模拟大型复杂现象,因此特别适合模拟肽片段离子强度。此外,DBN的控制参数(在本工作中自动学习)具有高度的可解释性,使其非常适合提供科学见解。

我们的碎片模型称为激流由捕获肽片段物理特性的DBN集合组成。Rippide的设计灵感来源于广受欢迎的流动质子模型肽片段(Dongre等。,1996; 威索基等。,2000). 根据该模型,在低能条件下,由于质子迁移到肽骨架上的某个位置,随后肽裂解为b条-和-离子。这一碎裂事件可能受到许多因素的影响(Dongre等。,1996). 影响裂解的最密切研究因素是相邻氨基酸残基对发生在特定主链酰胺键上的裂解概率的影响。该效应在激流DBN中进行了详细建模。此外,主碎片事件b条-和-离子(对应于序列N项和C项,对应于碎片位置)通常伴随着一些额外的碎片事件:-离子通过一氧化碳从b条-离子;NH损失或H2O(金特和谢尔曼,2000). Rippide明确地模拟了这些离子的形成,无论是单独的还是与其前体离子联合的。其他机器学习方法中缺少此功能b条-和-离子(Elias等。,2004; Wan和Chen,2005)。

Rippide的概率参数是根据先前识别的串联质谱训练的。为了避免训练集受到错误识别光谱的污染,我们使用七种肽识别算法的组合生成了高置信度的识别,特别注意控制错误发现。1208个肽谱匹配(PSM)的最终集合可在以下网站免费获得:http://noble.gs.washington.edu/proj/censity

Riptide模型检测这些高质量PSM中肽片段强度的已知和潜在新趋势。在这些趋势中,也许最具挑衅性的是更高强度的趋势-离子峰和-从裂解位点C项到疏水残基的离子中性损失峰值。除了为肽片段化学提供科学见解外,Riptide模型指定的概率还有助于改进肽鉴定。我们证明,当包含Riptide概率的特征向量用作SVM或半监督学习算法Percolator的输入时,它们分别将1%错误发现率(FDR)下的肽识别提高了10.9%和12.4%。

2进近

虽然激流模型的细节很复杂,但激流训练和测试程序的输入和输出都很简单(图1). 我们从中所述生成的高置信度PSM集合开始第3.2节这些PSM用于训练Riptide模型,该模型由一组DBN组成,这些DBN对控制肽片段离子强度的概率分布进行建模。然后在一组测试PSM上对生成的Rippide模型进行评估,为每个PSM生成一个概率特征向量。然后,这些向量可以用作分析软件的输入,为PSM分配分数。分析软件的示例包括支持向量机(SVM)或Käll的半监督学习算法Percolator等。(2007) (第4节)。

保存图片、插图等的外部文件。对象名称为btn189f1.jpg

实验概述。我们首先收集高置信PSM。这些训练PSM用于训练Riptide模型,该模型由一组DBN组成,这些DBN对控制肽片段离子强度的概率分布进行建模。Riptide用于评估测试PSM,以生成每个PSM的特征向量,每个特征与其中一个Rippide DBN分配给PSM的概率相关。最后,可以通过附加算法(如SVM)分析这些特征向量,以生成测试PSM的分数。

2.1激流训练

Riptide模型的训练分为两个主要步骤,如图2第一步从高置信度PSM开始,如中所述第3.2节。这些阳性PSM的每个光谱也与随机生成的肽相关联,以产生一组阴性PSM。我们使用这两类PSM(正和负)来训练一组“正”和“负”动态贝叶斯网络(图2A) ●●●●。然后,这些经过训练的DBN用于评估测试PSM,为每个PSM和每种类型的DBN生成一对概率(正值和负值)。除了原始概率外,我们还包括它们之间的比率,我们发现这有助于区分(第2.3节). 因此,每个原始训练PSM都表示为一个长度为三的向量,在原始Riptide训练中,每种DBN都有三个标量值(图2B、 右侧)。然后,这些向量可以在测试期间用作SVM或Percolator的输入(第4节)。

保存图片、插图等的外部文件。对象名为btn189f2.jpg

涨潮概述。训练和评估激流的过程包括两个主要阶段。(A) 该过程从高置信度PSM开始(正面PSM,顶部)。这些阳性PSM的每个光谱也与随机产生的肽相关联,以产生一组阴性PSM(底部)。这两类PSM用于训练一组DBN,每个离子系列一个正离子和一个负离子。(B) 然后,使用经过训练的DBN评估测试PSM,为每个PSM和每种DBN类型生成一对概率(正和负)以及它们之间的比率,即对数优势比。因此,每个测试PSM都表示为一个标量值向量,每个DBN有三个值。然后,这些向量在测试期间用作SVM或Percolator算法的输入(第4节)。

2.2贝叶斯网络

激流算法的核心是两种DBN,它们对控制光谱离子强度的概率分布进行建模。DBN模板的一部分称为框架。每个模型的三个框架如所示图3使用标准DBN图表语义。模型中的节点表示随机变量,实线表示这些变量之间的潜在依赖性,虚线表示切换边(Bilmes和Bartels,2005)。

保存图片、插图等的外部文件。对象名称为btn189f3.jpg

两种类型的激流DBN。第一类DBNs(A)分别模拟离子片段强度的分布,条件是断裂位点两侧的氨基酸产生特定的离子。第二类DBN(B)成对地对离子碎片强度的分布进行建模,结合了由同一位点的碎片产生的相关离子之间的依赖性。观察到的节点为灰色阴影;隐藏节点不着色。每个中心帧顶部的节点连接到前一帧和后一帧中相同的节点。实线表示条件依赖,虚线表示切换父关系,这是条件依赖的一种特殊形式。

第一种网络类型是单离子模型,捕获肽化学对单个离子系列影响的信息(图3A) ●●●●。直觉上,该模型学习的概率关系可以表示为“b条-N项到脯氨酸的离子往往具有高强度“或”-天冬氨酸的C项离子强度低。第二种网络是成对离子模型,它捕获有关相关类型离子对之间关系的信息(图3B) ●●●●。这些模型学习的概率关系可以表示为“b条-和-来自相同解理位置的离子往往具有相似高度的强度综上所述,这两种模型能够捕获控制碎片离子强度的一组丰富的概率关系。我们针对不同的离子系列和离子系列对训练每种模型类型的特定实例。例如,Riptide包含一个训练于b条-离子本身,以及训练于b条-和-离子联合作用。随后给出了关于每种模型类型的更多详细信息。

2.2.1单离子模型

单离子模型的图形表示如所示图3答:它模拟了光谱和相关肽的一系列特定片段离子之间的关系。每个帧对应于肽中的单个片段位置以及与该片段相关的质谱中的峰的强度。例如b条-肽EAMPK产生的离子将包含四个框架,第一个框架对应于b条-肽片段E和AMPK之间的酰胺键断裂产生的离子。

对于一组给定的训练PSM,针对18个不同的离子系列中的每一个训练一个单离子模型。其中包括九个单电荷和九个双电荷离子系列,后者用“++’. 对于每个电荷态,我们模拟了三个初级离子系列(b条,),每个初级系列都有失水(表示为b条,)和氨损失(表示b条*,**). 因为我们对PSM的正负集训练了一个单独的模型,所以这个过程产生了36个单离子模型(3个离子类型×3个损耗类型×2个电荷状态×2个训练集)。

在单离子模型的每个框架的中心是一个随机变量,它表示离子强度为质谱中观察到的峰值的百分位秩,使用0到1之间的数字,推导如下第3.1节。我们使用三个高斯的混合物对该变量进行建模,共有八个自由参数(三个平均值、三个方差和两个权重)。发现三个高斯分布与自然离子强度分布很好地匹配:大多数分布都有一个大峰值,逐渐变细为其他两个高斯分布所模拟的宽背景分布。

强度变量取决于其他几个变量,这些变量可以分为两组。第一组由两个变量组成,它们影响光谱中检测到峰值的概率。作为物理仪器,质谱仪只能检测有限范围内的离子/z(z)值。因此,第一个变量指示特定峰值是否在质谱的可检测部分内,而第二个变量指示是否确实检测到峰值。我们不希望将低概率分配给带有未检测离子的肽,如果该离子在物理上无法检测到;因此,当这两个变量都为假时,我们将中心强度变量设置为1。另一方面,如果一个离子可以检测到但没有检测到,那么我们在测试过程中使用零强度离子的概率(通常很低)对其进行惩罚。最后,如果一个离子既可检测又可检测,那么我们使用相应的强度值在中心强度节点处训练(或测试)适当的一维三分量高斯混合。

假设碎片离子被检测到,第二组三个变量影响碎片离子的强度。两个变量表示紧邻肽片段位置左侧(N项)和右侧(C项)的侧翼氨基酸。这些位置已被证明对检测到由该位置的解理位置(Tabb等。,2004威索基等。,2000). 第三个变量表示沿着/z(z)相对于完整肽的光谱轴/z(z)(使用0到4之间的整数)。这个变量解释了多肽中偏向中心断裂的原因。这三个变量通过一个隐藏的混合变量混合在一起,混合变量的分布取决于质谱的区域。混合过程允许使用切换母体机制将非常多的训练参数(20个左旋残基×20个右翼残基×5个肽区×8个高斯参数=16000)转换为更小的数量((20+20+5)×8=360)。因此,与其他方式相比,混合节点允许我们在更少的数据上训练更丰富的模型。一条边将肽区域连接到这个混合节点,因为肽不同区域的碎片强度对侧翼残基和肽位置的依赖性略有不同。例如,无论侧翼残基(Havilio等。,2003)而朝向肽中心的强度差异则更多地受到侧翼残基的影响。

2.2.2成对离子模型

成对离子模型类型的图形表示如所示图3这种模型试图捕捉不同类型的相关离子之间的成对关系。一些离子类型对密切相关,因为它们来自相同的碎片事件(例如。b条n个,对于长度为的肽n个). 这是因为在低能量条件下b条-离子和-离子碎片以松散的络合物共存;这个二聚体的两个成员竞争质子,电荷的分配由两个离子(Paizs和Suhai,2004). 碎片如果不带电就无法被检测到,所以这种竞争关系到检测到的离子强度。其他离子类型对是相关的,因为一种类型可以在二次分裂时产生另一种类型(b条b条). 还有一些是相关的,因为它们代表同一离子的不同电荷态(b条b条++). 因此,我们为以下15对相关离子中的每一对训练配对离子模型:b条/,b条/b条,/,b条/,b条/b条*,/*,b条/b条++,/++,b条/b条○++,/○++,/++,b条*/b条*++,*/*++,/b条++/++为了清楚起见,图3显示了的模型b条-和-仅离子;对其他离子对进行类似的建模。对于单离子模型,每个离子系列都训练一个模型,用于训练PSM的正负集(图2)生产30个经过训练的模型。与单离子模型一样,配对离子模型中的每一帧对应于肽中的单个片段位置,并对与该片段相关的质谱中的一对峰的强度进行建模。例如,+1模型的第一帧b条-和-肽EAMPK产生的离子将模拟b条-离子E和-离子AMPK。

底部的三个变量图2表示峰值强度。其中两个变量分别对离子的强度进行建模,并且与上述单离子模型的强度变量基本相同。这些变量也使用三个一维高斯函数的混合物,如果只检测到一个或另一个离子,而不是同时检测到这两个离子,则使用这些变量。另一方面,如果两个离子都被检测到,则中心变量使用九个2D高斯的混合物对离子进行联合建模。无论检测到哪种类型的离子,对应于未检测到的离子类型的分布都会得到一个单位分数。使用每个强度变量正上方的三个变量指示是否检测到离子。最后,指示是否检测到离子的三个变量取决于肽区域,这与单离子模型中的相应节点相同。这三个变量对肽区的依赖性表明,一些离子对类型(b条)在光谱中,从肽的中心更可能同时观察到。

2.3使用Riptide评估PSM

最终的Rippide模型由66个动态贝叶斯网络组成,包括18个单离子系列和15对离子系列((18+15)*2=66)中每个离子的正负模型。一旦对这些网络进行了训练,就可以使用它们为来自任何给定PSM的离子序列分配概率。使用上述模型之一评估PSM,得出特定离子系列强度模式的观测值的联合概率和肽第页给定训练模型M(M),公共关系(,第页|M(M)). 每个离子序列都有两个分配给它的概率:一个用于正PSM训练的模型,另一个用于负PSM训练模型。我们使用这两种概率计算每个离子系列和PSM的对数比值比。因此,给定PSM离子系列和特定肽与预期的匹配程度的最终测量值如下所示

方程式图像
(1)

哪里M(M)+M(M)分别是正模型和负模型。评估33个正模型和33个负模型中每个模型的对数优势比,得出每个PSM额外33个值的向量。因此,总结每个PSM的最终向量是99个元素长。我们将这些向量用作其他算法(如SVM)的输入,详见第4节

3方法

3.1光谱预处理

在分析任何特定的光谱之前,我们通过按强度升序排列峰值来变换强度,并计算该峰值的小于或等于该强度的峰值分数。我们使用这些峰值强度的分数表示来训练激流动态贝叶斯网络。因此,在具有10个峰值的假设光谱中,强度最高的峰值将被指定为1.00的归一化秩,强度最低的峰值将指定为0.10的归一化秩。这种强度变换类似于在(Wan和Chen,2005)并减少动态范围和噪声变化的影响。

3.2培训数据集

为了生成MS/MS数据大肠杆菌在酸性洗涤剂的存在下,将裂解物还原、氨基甲酰化并用胰蛋白酶消化(RapiGest,Waters Corp.,Milford,MA)。使用μ多维蛋白质鉴定技术(Washburn)通过μLC-MS/MS分析产生的肽等。,2001)在ThermoFinnigan Orbitrap LTQ质谱仪上,共产生112 329个光谱。

我们希望避免从含有多肽异质群体的MS/MS光谱的PSM中学习虚假关系。为了从同源肽群中选择光谱,我们使用了同位素检测算法HardKlör(Hoopmann等。,2007). 我们包括MS/MS光谱,该光谱在3个窗口内只有一个同位素分布/z(z)前驱体离子在四分之三的MS光谱上,共产生51 179 MS/MS光谱。

根据大肠杆菌蛋白质序列数据库使用多种算法来减轻任何一种算法或算法类产生的偏差:SEQUEST(均衡)(工程师等。,1994; 耶茨等。,1995)、OMMSA(吉尔等。,2004),ProbID(张等。,2002)佩普诺沃(Frank和Pevzner,2005)卢特菲斯克(Taylor and Johnson,1997)检查(Tanner等。,2005)和GutenTag(标签等。,2003). 选择这些算法是为了代表现有MS/MS分析软件的多样性,并根据源代码和可执行文件的可用性。适当设置每个算法的参数,以搜索前体质量耐受性为+/-2.5 Da的所有肽(无论酶特异性如何)。如果每个算法的PSM满足以下标准,则接受它们:最小长度为6个氨基酸,电荷为+2,完全锥虫(以K或R结尾),没有遗漏的裂解。算法GutenTag和SEQUEST(均衡)具有最小DeltCN分别为0.20和0.10的附加过滤器。许多算法针对特定频谱返回多个PSM;在这些情况下,匹配上述标准的顶级PSM(根据该算法的主要评分方法)被选为该算法和频谱的PSM。每种算法的FDR都是通过搜索随机洗牌序列数据库的光谱来估计的,该数据库由随机生成的蛋白质组成,与原始序列数据库具有相同的氨基酸频率和长度分布。PSM按主要评分指标排序,给定主要评分阈值下的FDR等于洗牌数据库的标识数除以高于该阈值的实际数据库的标识数量。为了计算FDR,忽略了真实序列数据库和洗牌序列数据库中出现的少数短肽。每个算法生成的PSM的接受阈值设置与1%的FDR一致。

在某些情况下,PSM包含不同算法对同一光谱的不同肽的矛盾分配。我们将这些矛盾的PSM从集合中删除。最后,我们要求每个PSM至少通过两种算法进行确认,每个肽至少通过两个光谱进行确认。由此产生的1208个电荷+2个PSM被用于训练激流。

3.3测试数据集

为了进行验证,我们使用了克拉默公开提供的串联质谱数据集等。(2007),可用作60厘米数据集http://noble.gs.washington.edu/proj/retention/data/data.html数据集由18 149个光谱组成,这些光谱来自酵母全细胞裂解物,如前所述(克拉默等。,2007). 该数据集用于证明模型在不同肽集上的泛化能力。

首先将用于搜索测试数据集的酵母蛋白质序列数据库消化为胰蛋白酶肽生物信息学通过在K或R之后(P之后除外)切割蛋白质序列,并允许内部缺失切割。然后,将生成的肽按其质量(Da)进行索引,并四舍五入到最接近的整数。对于每个测试光谱,我们创建了一个候选肽列表,方法是将光谱的Da质量(假设电荷为+2)四舍五入到最接近的整数,并提取取整质量+/-3Da内的所有肽。对于足够大的序列数据库,该候选肽列表将非常大;因此,为了进一步筛选此列表,我们应用了类似于S的后续筛选步骤EQUEST(均衡)Sp分数(英语等。,1994)。

3.4支持向量机训练

对于SVM,我们使用高斯核和超参数C类和σ。C类是软边缘惩罚,或错误分类示例的惩罚,σ是使用的高斯宽度。使用5倍嵌套交叉验证选择这些超参数,其中选择接收器工作特性(ROC)曲线下面积最大的参数。SVM是使用公开可用的软件包PyML实现的http://pyml.sourceforge.net)。

4结果

4.1序列数据库搜索验证

我们在三级计算管道的上下文中测试Riptide,其中(1)通过重新实现S生成候选PSMEQUEST(均衡).(C.Y.公园等。,出版中);(2) 这些PSM由Riptide进行评估,(3)生成的特征向量由SVM或称为Percolator(Käll)的半监督学习算法进行后处理等。,2007). 我们使用目标和诱饵PSM训练Riptide和SVM大肠杆菌(第3.2节),然后我们使用酵母全细胞裂解物产生的光谱测量管道区分目标PSM和诱饵PSM的能力(第3.3节)。

SVM是一种二元分类器,它将特征向量投影到高维空间中,并在该空间中学习正负示例之间的最优分离超平面(第3.4节). 在这种情况下,我们使用SVM学习区分正PSM和负PSM,使用Riptide生成的99维特征向量。在SVM训练后,使用SVM分类器的判别值(测试PSM的特征向量与SVM超平面之间的距离)对测试集PSM进行评分。如果评分功能运行良好,则正确的PSM将被分配为正判别分数,错误的PSM则被分配为负分数。

图4A比较了Riptide+SVM和XCorr的性能,XCorr是S使用的得分函数EQUEST(均衡)[在软件包Crux(C.Y.Park)中重新实现等。,按)]。为了生成该图,我们对照相同蛋白质序列数据库的搅乱诱饵版本搜索测试集中的每个光谱(Klammer等。,2007). 我们使用特定分数阈值下诱饵数据库的匹配次数来估计目标PSM(Käll)之间的错误识别率等。,2008). 对于每个PSM,我们计算q个其被定义为PSM被认为是重要的最小FDR阈值(Storey和Tibshirani,2003). 图中的每个系列绘制了目标PSM的数量,该数量是q个-值阈值。我们选择这种评估模式是因为它与典型质谱仪的目标非常吻合:以最低的错误识别率识别数量最多的肽。使用静态SVM的Riptide性能优于SEQUEST(均衡)在1%的FDR下,增长了10.8%。在本实验中,Riptide DBNs对许多短肽(长度为7或更少)失败,因此不包括在分析中。如果包括这些肽,性能会急剧下降。

保存图片、插图等的外部文件。对象名称为btn189f4.jpg

阳性肽鉴定作为q个-值(FDR的度量)。Riptide记分功能与S进行比较EQUEST(均衡)记分函数Xcorr公司,测试SVM归一化判别得分函数(A)的效用。此外,Riptide DBN特征向量被用作算法Percolator(Käll)的输入等。,2007)和与原始Percolator功能(B)进行了比较。

除了测试静态SVM后处理器之外,我们还结合半监督学习算法Percolator(Käll等。,2007). Percolator使用SVM迭代学习,通过使用诱饵数据集中的PSM作为目标数据集中不正确PSM的代理来区分正确和不正确的PSM。如前所述,Percolator使用了20个特征的集合,包括从算法S派生的几个特征财政部:例如。Xcorr公司,服务提供商,deltCN(deltCN)以及描述肽末端的胰蛋白酶特性等。我们测试了Percolator的三个变体:使用最初的20个功能,使用Riptide的99个功能,以及使用所有119个功能。结果如所示图4B.当Riptide的特征向量与原始Percolator出版物中使用的特征向量相结合时,在1%的错误发现率下,阳性率提高了12.4%(图4B) ●●●●。

图4B、 来自(Käll)的原始特征等。,2007)当两者单独使用时,性能优于Riptide功能。这可能是由于利用信息生成Riptide无法获得的Percolator特征,特别是蛋白质水平的信息。因此,当与基于高水平、非碎片化的信息相结合时,河滩衍生特征可能最有利于识别。

4.2学习碎片概率分析

在激流模型中使用DBN的另一个好处是,网络学习到的概率分布可以很容易地进行解释,以产生科学见解。我们检验了由潮汐模型的单离子和成对离子类型学习到的控制离子碎片强度的概率分布图6

保存图片、插图等的外部文件。对象名称为btn189f6.jpg

学习了激流模型的参数。(A类)显示使用激流单离子模型学习的不同残留物和离子类型的平均峰值强度。每个单元格显示特定离子系列和侧翼残基的平均归一化强度值。对于左边的热图,指定的残基是那些在酰胺键左边断裂以产生该类型离子的残基(即酰胺键本身是残基的C项),而对于右边的热图来说,指定的残留是那些在断裂的酰胺键右边的残基。上图是用matrix2png(Pavlidis和Noble,2003). (B类)显示使用激流对离子模型学习的离子对的峰值强度的2D高斯分布。每个图显示了由相同酰胺键断裂引起的离子强度的联合分布;因此,例如b条/图对应于b条/n个成对,用于长度的肽n个。色标表示自然对数概率。

图6A、 我们通过单离子模型检验了特定残基和离子类型的强度分布。每张图显示了18个单离子模型中每个模型的平均强度,以及可以位于被劈开的酰胺键的左侧和右侧(N项和C项)的20个残基。可以检测到几个预期趋势:b条-和-离子;N项到P的裂解强度较高,C项到P相应的裂解强度较低。其他在肽裂解文献中尚未广泛注意到的趋势也存在:+2-当基本残基为C项时,离子的碎裂位置;以及单电荷强度的增加-当疏水残基对裂解位点为N项时,则为离子。第一个效应从物理原理上讲是有道理的。我们通过观察-疏水残基附近的离子强度。具体来说,我们比较了-由具有极性残基RKDENQ的疏水性残基YILMFWC(其中C用碘乙酰胺修饰)的裂解事件C项引起的离子强度(图5). 这两种分布之间存在显著差异(Kolmogorov–Smirnov检验,P(P)≪ 0.0001).

保存图片、插图等的外部文件。对象名称为btn189f5.jpg

的分布-从C位裂解到疏水或极性残基的离子强度。差异在P(P)≪ 0.0001.

图6B、 我们检查了配对离子模型中由关节强度节点学习的二维分布。在这里,我们分析了由相同酰胺键断裂产生的离子强度对是如何相互依赖的。同样,可以检测到几个预期趋势:b条-和-离子,具有相对较高的显著性-离子(面板b条/); 相对较低的值++离子,但偏好(面板/++). 还可以发现其他提示性趋势:b条-离子及其各自的中性损耗(面板右侧的对角线羽流b条/b条b条/b条*); 图中显示的质量差异b条-一方面,离子中性损失及其电荷+2种,以及-离子中性损失及其电荷+2种,另一种(b条/b条○++b条*/b条*++与。/○++*/*++). 这个-离子在图的顶部有一个显著的羽流,表明在低+1电荷状态下,相对于b条-离子。

5讨论

我们介绍了Riptide,它使用从高质量PSM训练的DBN集合来模拟肽片段化学。Riptide可以提供对片段生物化学的深入了解,Rippide生成的特征向量可以用作进一步机器学习算法的输入,以改进肽识别。

Rippide模型很好地概括了不同生物体的PSM:我们在PSM上训练我们的模型大肠杆菌并测试酵母中的PSM酿酒酵母这种良好的泛化得益于DBN机器通过切换父节点来控制模型复杂性的能力,大大减少了可训练参数的数量。例如,如果没有类似的参数还原机制,考虑到C项和N项侧翼氨基酸的模型不太可能在几千个光谱上训练。

当然,Riptide可能无法很好地推广所有类型的MS/MS肽片段数据。例如,使用不同的方法激活肽离子,例如电子转移解离(ETD)(Mikesh等。,2007)或电子碰撞离解(ECD)(Zubarev,2004),可能需要重新培训该模型。此外,非常长或非常短的肽(如第4.1节)也可能表现出颠覆激流模型的不同化学物质。然而,这里使用的学习方法的好处之一是Riptide不是静态的,可以随着数据的改进以及技术和协议的改变而改进。例如,在本研究中,我们重点关注电荷态+2的胰蛋白酶肽的裂解,因为这些是我们用碰撞诱导解离分析的样品中最常见的肽。但是,可以使用由不同蛋白酶生成的不同样本或使用不同破碎技术分析的不同样本来训练Riptide模型。机器学习方法的一个相关优点是,新的DBN可以应用于任意离子序列。在这项工作中,我们重点研究了+2肽的碰撞诱导解离裂解光谱。一个明显的扩展是将DBN应用于不同的电荷状态,例如+1和+3或更高。此外,ETD和ECD已被证明在蛋白质组学中有用,但普遍产生c(c)-和z(z)-离子,而不是b条给出适当的训练数据,Riptide可以从这些离子序列中学习碎片模式。

从某种意义上说,Riptide学习肽片段生物化学和提高我们识别光谱的能力的两个总体目标相互矛盾。这种紧张关系与DBN通常采用两种不同的参数训练方法的观察结果有关。一方面生成性训练其中,优化目标函数意味着相应的联合概率分布应该最好地描述数据。作为一个简单的例子,给定强度和肽的联合分布的DBN表示公共关系(,第页|θ) 其中θ是模型参数,生成模型训练会调整θ,以便该联合分布尽可能准确。歧视性培训另一方面,调整模型参数,使分类精度尽可能高。例如,使用贝叶斯规则,我们可以形成后验公共关系(第页|, θ)=公共关系(,第页|θ)/公共关系(|θ) 然后选择第页使这个后部最大化。调整参数θ以最小化同构贝叶斯决策规则的错误率将构成区分训练。相对于区分性训练,生成性训练的计算成本较低。因此,在这项工作中,我们通过分别显式训练正模型和负模型,模拟了一个有区别的训练过程。后一种选择也是出于获得可解释的概率参数的愿望,而仅在正PSM上训练的模型允许这样做。在未来的工作中,我们计划使用一个完全区分的Rippide模型进行肽鉴定,并使用一个单独的、完全生成的模型来研究碎片现象。

尽管Riptide的实时速度相对较快(对于此处考虑的数据库,每个频谱大约为一分钟),但与其他常用的PSM评估指标相比,它的速度较慢,例如Xcorr公司这是可以接受的,因为在MS/MS分析软件中,使用快速初步评分对肽进行预筛选,然后再将其交给敏感但昂贵的最终评分程序,这已有很长的历史。Riptide对给定频谱标度进行评分的运行时间约为O(运行)(自然对数第页N个日志(N个)),其中是肽的平均长度,N个第页是该光谱的候选肽数量,N个是所考虑的离子级数,以及N个是特定光谱中的峰数。

目前,Riptide是通过C++和Python代码的组合实现的,使用GMTK包进行动态贝叶斯网络分析。GMTK是免费的,作者可以根据要求提供C++代码。在不久的将来,我们计划将Riptide迁移到C,并将代码集成到序列数据库搜索包Crux中。(C.Y.公园等。,正在印刷中)。最终,Crux软件包将把Riptide为PSM产生的概率纳入蛋白质鉴定概率中。

致谢

基金:这项工作得到了美国国立卫生研究院R01 EB007057和P41 RR11823奖的支持。

利益冲突:未声明。

参考文献

  • Bafna V,Edwards N.SCOPE:根据肽数据库对串联质谱进行评分的概率模型。生物信息学。2001年;17:S13–S21。[公共医学][谷歌学者]
  • Bilmes J,Bartels C.语音识别的图形模型架构。IEEE信号处理。美格。2005年;22:89–100。 [谷歌学者]
  • Dongre AR等。肽组成、气相碱度和化学修饰对裂解效率的影响:流动质子模型的证据。美国化学杂志。Soc公司。1996;118:8365–8374. [谷歌学者]
  • Dancik V等人。从头开始多肽序列的串联质谱分析。J.计算。生物。1999;6:327–342.[公共医学][谷歌学者]
  • Eng JK等。一种将肽串联质谱数据与蛋白质数据库中氨基酸序列相关联的方法。美国社会杂志质量规范。1994;5:976–989.[公共医学][谷歌学者]
  • Elias JE等。通过机器学习从串联质谱库中识别基于强度的蛋白质。自然生物技术。2004;22:214–219.[公共医学][谷歌学者]
  • Field HI等。Radars是一种生物信息学解决方案,可自动化蛋白质组质谱分析,优化蛋白质鉴定,并将数据归档到关系数据库中。蛋白质组学。2002;2:36–47.[公共医学][谷歌学者]
  • Frank A,Pevzner P.Pepnovo:通过概率网络建模进行从头测序。分析。化学。2005年;77:964–973.[公共医学][谷歌学者]
  • Geer LY等,开放式质谱搜索算法。蛋白质组研究杂志。2004;:958–964.[公共医学][谷歌学者]
  • 赫克曼·D·。技术报告。雷蒙德:微软公司;1995年,贝叶斯网络学习教程。[谷歌学者]
  • Havilio M等人。串联质谱的基于强度的统计记分器。分析。化学。2003;75:435–444.[公共医学][谷歌学者]
  • Hoopmann MR等。使用高分辨率质谱对鸟枪蛋白质组数据集进行高速数据简化、特征检测和MS/MS光谱质量评估。分析。化学。2007;79:5620–5632. [PMC免费文章][公共医学][谷歌学者]
  • Kinter M,Sherman NE,纽约:Wiley-Interscience;2000.蛋白质序列测定和串联质谱鉴定。[谷歌学者]
  • Klammer AA等人,在不同色谱条件下使用肽保留时间预测改进串联质谱鉴定。分析。化学。2007;79:6111–6118.[公共医学][谷歌学者]
  • Käll L等人。一种半监督机器学习技术,用于从鸟枪蛋白质组数据集识别肽。自然方法。2007;4:923–925.[公共医学][谷歌学者]
  • Käll L等。使用诱饵数据库对串联质谱法鉴定的肽进行重要性赋值。蛋白质组研究杂志。2008;7:29–34.[公共医学][谷歌学者]
  • 劳里岑S。图形模型。新泽西州普林斯顿:牛津科学出版物,牛津大学出版社;1996[谷歌学者]
  • Mann M等人。用质谱法分析蛋白质和蛋白质组。生物化学年鉴。2001年;70:437–473.[公共医学][谷歌学者]
  • Mikesh LM等。ETD质谱在蛋白质组分析中的应用。生物化学。生物物理学。《学报》。2007;1764:1811–1822. [PMC免费文章][公共医学][谷歌学者]
  • Pavlidis P,Noble WS.Matrix2png:可视化矩阵数据的实用程序。生物信息学。2003;19:295–296。[公共医学][谷歌学者]
  • Paizs B,Suhai S.质子化肽的片段化途径。质谱。版次。2004;24:508–548。[公共医学][谷歌学者]
  • Park CY等人。蛋白质组研究杂志。2008年。通过串联质谱快速准确地鉴定肽。[PMC免费文章][公共医学][谷歌学者]
  • Storey JD,Tibshirani R.全基因组研究的统计意义。赞成的意见。国家。阿卡德。科学。美国。2003;100:9440–9445. [PMC免费文章][公共医学][谷歌学者]
  • Taylor JA,Johnson RS.序列数据库搜索从头开始肽序列的串联质谱分析。快速通讯。质量规格。1997;11:1067–1075.[公共医学][谷歌学者]
  • Tabb DL等人。Gutentag:通过经验推导的片段模型进行高通量序列标记。分析。化学。2003;75:6415–6421. [PMC免费文章][公共医学][谷歌学者]
  • Tabb DL,等。肽低能碰撞诱导解离光谱中碱性残基含量对片段离子峰强度的影响。分析。化学。2004;76:1243–48. [PMC免费文章][公共医学][谷歌学者]
  • Tanner S等人。InsPecT:从串联质谱鉴定翻译后修饰肽。分析。化学。2005年;77:4626–4639.[公共医学][谷歌学者]
  • Wysocki VH等。移动和定域质子:理解肽离解的框架。美国社会杂志质量规范。2000;35:1399–1406.[公共医学][谷歌学者]
  • Washburn MP等人。利用多维蛋白质鉴定技术对酵母蛋白质组进行大规模分析。国家生物技术。2001年;19:242–247.[公共医学][谷歌学者]
  • Wan Y,Chen T.PepHMM:用于质谱数据库搜索的基于隐马尔可夫模型的评分函数。分析化学。2005年;78:432–437。[公共医学][谷歌学者]
  • Yates,III JR,等。将修饰肽的串联质谱与蛋白质数据库中的氨基酸序列相关联的方法。分析。化学。1995;67:1426–1436.[公共医学][谷歌学者]
  • Yates,III JR.质谱和蛋白质组的年龄。分析。化学。1998;33:1–19.[公共医学][谷歌学者]
  • 张恩,等。ProbID:一种利用串联质谱数据通过序列数据库搜索识别肽的概率算法。蛋白质组学。2002;2:1406–1412.[公共医学][谷歌学者]
  • 祖巴列夫·RA。电子捕获解离串联质谱法。货币。操作。生物技术。2004;15:12–16.[公共医学][谷歌学者]
  • 张泽。肽的低能碰撞诱导解离光谱的预测。分析。化学。2004;76:3908–3922.[公共医学][谷歌学者]

文章来自生物信息学由以下人员提供牛津大学出版社