跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
蛋白质组研究杂志。作者手稿;PMC 2013年8月15日提供。
以最终编辑形式发布为:
在线发布2008年9月13日。 数字对象标识:10.1021/pr800484x
预防性维修识别码:项目经理3744223
NIHMSID公司:NIHMS499594标准
PMID:18788775

枪式蛋白质组学中改进肽鉴定的自适应判别函数分析和MS/MS数据库搜索结果的重新排序

摘要

对通过串联质谱和序列数据库搜索获得的肽鉴定进行稳健的统计验证是鸟枪蛋白质组学的一项重要任务。肽先知是一种常用的计算工具,用于计算肽鉴定的置信度。在本文中,我们研究了肽噬菌体建模方法的几个局限性,包括在计算判别搜索分数时使用固定系数,以及仅选择每个光谱得分最高的肽分配。为了解决这些局限性,我们描述了一种自适应方法,其中以迭代的方式从数据中学习新的判别函数。我们扩展了建模框架,以超越每个谱的最高评分肽分配。我们还研究了根据光谱质量分数对光谱进行聚类的效果,然后进行了特定于簇的混合建模。使用四种不同类型的质谱仪上从纯化蛋白质混合物中获得的数据以及复杂的人类血清数据集进行分析。特别强调分析在高质量精度仪器上生成的数据。

关键词:串联质谱法、数据库搜索、肽鉴定、统计建模、自适应鉴别分析、质量准确度、诱饵序列

简介

串联质谱(MS/MS)和序列数据库搜索是高通量鉴定复杂生物样品中蛋白质的首选方法12蛋白质组学越来越依赖于使用SEQUEST的自动化大规模MS/MS数据库查询,吉祥物4,X!串联5和类似工具6——8.验证肽分配到MS/MS光谱的统计方法在整个质谱(MS)数据分析管道中起着核心作用6910.

肽营养素11是一种常用的统计验证工具,可将MS/MS数据库搜索分数转换为肽识别正确的概率。最初是为了分析SEQUEST搜索结果而开发的,现在已经扩展到其他搜索工具,包括X!串联和吉祥物。最近的改进将肽营养素的概率建模与靶向恢复策略(例如,将诱饵序列添加到搜索的蛋白质序列数据库中)结合到半监督混合建模框架中12在无监督混合建模可能无法准确捕获分数的潜在分布的低质量数据集的情况下,这提高了正确识别的计算概率的稳健性和准确性。通过最近描述的半参数混合建模方法,原始实现的参数假设也可以放宽13.

肽噬菌体方法有几个局限性,有待仔细研究。首先,在SEQUEST和X的情况下!串联搜索工具,在无监督或半监督混合建模之前,该模型使用一组固定的权重因子将多个数据库搜索得分组合成单个判别搜索得分。这些系数是通过LCQ离子阱质谱仪从已知蛋白质组分的对照样品中产生的光谱得出的11并且可能不是在所有情况下都是最优的1415另一个限制是仅对每个MS/MS谱使用排名靠前(基于主要搜索分数)的肽分配。在某些情况下,排名靠前的肽是不正确的,但正确的肽在排名中并不远。因此,仅使用基于主要评分的排名靠前的肽可能会导致无法忽略的正确肽分配损失,否则可以从数据中提取。尽管在支架的混合物建模实现中可以使用每个光谱的多个肽分配16,以及最近描述的其他几个工具中1415,这样做的好处尚未详细调查。最后,使用一种常见的混合分布对数据集中所有光谱进行建模的有效性仍然存在问题,即使光谱在光谱质量方面可能存在显著差异17.

在本文中,我们研究了这些局限性,并描述了一种动态建模方法来解决它们。特别是,在计算判别搜索得分时,我们没有使用固定的权重系数,而是使用了一种自适应方法,其中从数据中学习新的判别函数。我们还扩展了建模框架,以超越每个谱的最高评分肽分配。为了实现这一点,对每个光谱提取前10个肽(基于初级评分),然后使用计算出的后验概率在每个光谱内重新分类,以得出新的排名靠前的肽。最后,我们根据光谱质量分数研究了光谱聚类的效果,然后进行了特定于簇的混合建模。该分析是使用几个不同复杂度的数据集进行的,从对照蛋白质混合物到人类血清样本,并使用不同的质谱仪生成。数据库搜索程序SEQUEST用作代表性搜索工具。特别强调对高质量精度仪器产生的数据的分析,特别是质量公差和其他数据库搜索约束在验证过程中的作用。

方法

实验数据

蛋白质混合物数据

该数据集取自参考文献。18使用纯化胰蛋白酶消化蛋白混合物(“蛋白混合物3”)在四种不同的质谱仪上收集MS/MS光谱:Thermo LTQ-FT、Thermo LTQ、Agilent XCT Ultra和Waters/Micromass QTOF Ultima。使用SEQUEST对光谱进行搜索,数据库中包含已知存在于样本中的蛋白质序列,并附有更大的反向人类蛋白质序列数据库。搜索是在酶半限制模式下进行的(至少在一个末端进行胰蛋白酶裂解),最多允许一个缺失的内部裂解位点,并使用较大的质量耐受窗口(3 Da,平均质量;表示为“LW”)。半胱氨酸残基的固定修饰为57.02。使用LTQ-FT质谱仪收集的光谱以四种其他模式进行额外搜索:窄质量容限(0.025 Da,单同位素质量;表示为“NW”)、无约束酶(“非约束”)、半胰蛋白酶(“半”)或胰蛋白酶(‘加密’)搜索,以及大质量容限,酶无限制搜索。所有与样本蛋白质中肽序列的匹配都被认为是正确的,而与来自反向人类蛋白质序列的肽的所有匹配都被视为不正确11.

人血清

该数据集由美国国家癌症研究所(National Cancer Institute)癌症小鼠模型西方联盟(Western Consortium of the National Cancel Institute's Mouse Models of Human Cancer)生成19样品通过多重亲和去除系统(MARS)处理,以从人类血清中去除白蛋白、转移蛋白、IgG、IgA、抗胰蛋白酶和结合珠蛋白。本研究仅使用了一个LC-MS/MS复制品(文件MARS_humansera_01)。使用SEQUEST对IPI人类蛋白质数据库版本3.32进行了光谱搜索,该数据库附加了等量的反向蛋白质序列。使用3Da质量耐受性、平均质量、半胰蛋白酶搜索进行搜索,最多允许一个缺失的内部卵裂位点。半胱氨酸残基的固定修饰为57.02。

数据库搜索得分和判别函数

许多搜索工具计算多个分数,用于区分正确和错误的标识。这些分数与各种肽属性一起用于评估肽分配的有效性。初级数据库搜索得分(例如SEQUEST中的Xcorr得分)测量获得的MS/MS谱与为搜索的蛋白质序列数据库中的每个肽构建的理论谱之间的相似性。除了基本分数外,还可以定义相关的度量,例如,δ分数测量给定频谱的顶级和次佳数据库匹配分数之间的相对距离1120——25。为了简化随后的混合建模,在PeptidePhrophet中,将多个数据库搜索得分合并为一个判别得分1112.

具体来说,SEQUEST使用了三个搜索分数1112:1)Xcorr’,对数变换和长度归一化的互相关(Xcorr)分数,2)ΔCn,最佳和第二最佳评分肽的Xcorr分数之间的归一化差异,以及3)SpRank,其测量在初步评分步骤中得分最高的肽相对于其他候选肽的排名,日志已转换。判别分数(表示为S)通过以下等式计算

S公司c(c)1X(X)腐蚀'+c(c)2ΔC类n个c(c)ln(SpRank)+c(c)4
(1)

系数为等式1使用线性判别分析(LDA)确定。LDA是一种将多个搜索分数投影到一条实线上的方法,该实线最能区分正确和错误的标识。SEQUEST判别得分系数使用18种胰蛋白酶消化蛋白与LCQ离子阱仪器收集的光谱、酶无约束搜索、大质量耐受性(3Da)的混合物生成的数据集进行训练。分别模拟了不同电荷态的光谱。

基于混合建模的后验概率和FDR

数据库搜索得分仅代表一组判别特征。可以定义其他有用的功能6与消化步骤(例如,胰蛋白酶末端和缺失裂解的数量,NTT和NMC)、肽分离步骤(例如,观察到的和预测的保留时间之间的差异)或MS测量的第一阶段(例如,dM,测量到的和计算得到的肽质量之间的差异)有关,参见图1用于说明整个过程。其他鉴别参数(例如。圆周率值)可以根据实验协议在适当的时候定义。

保存图片、插图等的外部文件。对象名为nihms499594f1.jpg
LDA-EM程序概述

定期分析:使用SEQUEST或类似工具为实验MS/MS光谱指定肽。将多个数据库搜索得分合并为单个判别得分S,判别函数中的系数使用训练数据集(18个蛋白质混合数据)确定。判别搜索得分S和可从消化(NTT)或MS获得的辅助变量的分布1使用混合模型EM算法对步骤(质量精度dM)进行建模,并为每个肽识别分配正确的概率p。然后过滤具有计算概率的肽分配列表,以获得所需的FDR,或将其作为蛋白质水平分析的输入。新采用组件(灰框):计算的肽概率用于创建新的实时训练数据集。使用这个新的训练数据集重复LDA分析。更新后的判别函数系数用于计算每个肽赋值的新判别分数,然后用于重复混合建模部分并更新概率。迭代整个过程直到收敛。

判别搜索得分S和辅助肽信息(在本工作中,NTT、NMC、dM)的联合分布统称为D,建模为多元混合分布,其中两个成分分别表示正确和错误的标识。假设在识别状态的条件下,各个变量的边际分布是独立的。该模型是使用期望最大化(EM)算法进行的,并且要求对判别搜索得分S的分布形状进行事先规范。基于使用训练数据的经验观察,在SEQUEST情况下,S的分布分别用正态分布和伽玛分布建模,用于正确和错误的识别,详细描述见参考文献。11。根据判别搜索得分和肽属性,识别正确的概率可以计算为

第页=第页(对的|D类)=π1(f)1(D类)π1(f)1(D类)+π0(f)0(D类)
(2)

带π0+ π1= 1.

对正确和不正确标识之间的分布的参数的估计,(f)1(D)(f)0(D)和混合比例,π0和π1可以由常规EM算法执行(无监督的EM),或使用最近描述的半监督的混合建模框架12。当某些肽标识的类别标签(正确或错误)已知时,可以进行半监督建模,例如,通过将诱饵蛋白序列附加到搜索的序列数据库中26在这些情况下,通过修改的总体对数似然将诱饵匹配合并到估计中,诱饵只会对不正确分布的估计起作用。此外,虽然在本工作中没有使用,但可以通过半参数混合建模放松参数假设13.

使用计算的概率等式2可以解释为对本地错误发现率的补充1227——29它们还可以用于计算用作过滤数据的阈值的每个概率的全局错误发现率(FDR)。实际上,肽水平数据被作为下一水平分析的输入,在下一水平的分析中,重新计算概率,并在蛋白质水平上进行FDR控制3031.

自适应判别函数

自适应框架的概要如所示图1分析从通常的应用混合模型EM算法的例行程序开始,使用基于原始ISB 18蛋白质混合数据集确定的系数的判别搜索分数计算肽概率。然后使用计算出的概率创建一个新的实时训练数据集,如下所示。在无监督混合建模框架中,选择概率大于0.9或小于0.01的谱的肽分配来构建新的训练数据集。选定的低概率肽被分配为类别标签0(不正确)。对于每个高概率肽(>0.9),其类别标签通过与概率相等的频率进行采样而被视为1(正确)或0。此外,概率很低(通常为0.0001)的肽分配被排除在新的训练数据集中,因为这些通常是低质量的谱,可能会扭曲判别函数11在半监督框架的情况下应用相同的程序,除了简单地从匹配到诱饵肽来创建负集。

对高概率光谱重复上述类别标签采样过程多次(10–50次),以获得不同的训练数据集(相同的肽标识,但不同的类别标签)。然后,将更新后的判别函数系数集导出为每个采样训练数据集获得的判别函数参数的平均值。更新后的系数用于计算每个肽分配的新判别分数,然后用于重复混合建模部分并更新概率。迭代整个过程直到收敛,即判别函数系数变得稳定,并且没有观察到肽概率的显著变化。

排名前10的再排名

标准方法仅考虑每个光谱的最高评分肽分配(如果是SEQUEST,则根据Xcorr评分进行排名)。建模可以扩展到包括初选肽,例如考虑前10个得分最高的肽,每个肽匹配被视为一个独立的标识。传统的定义是ΔCn测量一级序列和二级序列之间Xcorr的相对距离。为了将其扩展到具有前10位序列的数据集,第j位匹配(包括前10位匹配)的ΔCn被重新定义为ΔC类n个[j个]=X(X)校正[j个]负极X(X)校正[10]X(X)校正[j个]即,根据排名第j位和第10位序列之间的Xcorr差异获得的标准化分数。对于搜索工具报告的少于10个肽匹配的光谱,使用最后报告的匹配分数代替排名第10的匹配。注意,在自适应LDA策略中,只使用排名靠前的肽来训练新的判别函数,因为这部分不需要包括所有排名靠前10的肽。

如上所述,使用自适应判别函数计算所有前10个肽的判别搜索得分。使用EM算法对前10个肽进行混合建模,并计算每个匹配的正确识别后验概率。最后,根据后验概率的顺序(从高到低),对每个谱的肽匹配顺序进行重新排序。对于每个光谱,保留新的排名靠前的肽(后验概率最高的肽)用于后续分析。

基于光谱质量的聚类

初步分析后,根据光谱质量将MS/MS光谱分为三个簇。使用QualScore计算频谱质量分数32。质量分数是在连续尺度上测量的,然后将其离散为三个区间:低于−1、介于−1和1之间、等于或大于1,分别代表低质量、中等质量和高质量光谱簇。然后对每个簇分别采用EM混合建模过程,这意味着对不同的簇假设不同的混合分布。在这项工作中,仅使用频谱质量分数来建立簇。然而,该方法是通用的,可以使用其他分数或多光谱特性对光谱进行聚类。

结果

首次使用蛋白质混合数据集研究了自适应判别函数方法的性能、每个光谱中前10个肽分配的重新分类以及光谱聚类的效果。采用了无监督和半监督混合建模框架。在使用半监督框架时,为了在扩展方法和原始方法之间进行客观比较,随机选择了一半的诱饵匹配,并将其视为未知。这些肽用于评估计算概率的辨别能力。诱饵匹配的剩余一半被用作已知的不正确匹配,并且它们的类标签被半监督EM算法使用。

不同类型的质谱仪

第一次分析是为了调查使用不同类型质谱仪获得的数据集之间的差异。这是使用四种不同仪器产生的光谱完成的:Thermo LTQ-FT、Thermo LTQ、Agilent XCT Ultra和Waters/Micromass QTOF Ultima。在所有情况下,使用SEQUEST在相同的搜索条件下搜索光谱:酶半约束模式,大质量耐受性(3.0 Da),详见方法。

对于每个数据集,分析从使用原始的18蛋白混合LCQ离子阱数据集导出的相同默认判别函数系数集开始(更新的系数可以在参考文献。12)。应用自适应LDA-EM混合模型直到收敛,并比较更新后的判别函数系数。使用无监督混合建模的分析结果如所示图2a,绘制Xcorr’的判别系数与ΔCn的判别系数之比,c(c)1/c2,用于四个不同质谱仪中的每一个。系数的比率反映了两个分数在区分正确识别和错误识别方面的相对重要性。比率的增加表明ΔCn的显著性降低。请注意,第三个分数RankSp(未绘制)的显著性远小于Xcorr’和ΔCn的显著性,并且不会改变解释。

保存图片、插图等的外部文件。对象名为nihms499594f2.jpg
使用不同类型质谱仪生成的数据分析

(a)使用自适应LDA方法从四种不同质谱仪LTQ-FT、LTQ、QTOF和Agilent的2+(实线)和3+(虚线)MS/MS光谱中学习的SEQUEST判别系数c(Xcorr’)和c(ΔCn)的比值。使用Semi-LW搜索选项搜索MS/MS光谱。(b))使用固定的判别系数(黑色实线)和自适应LDA-EM(红色虚线)获得的根据FDR绘制的双电荷谱的正确识别数。

这两个判别系数的比值没有显示出显著的变化。这表明,无论仪器类型如何,这两个因素在判别函数中的相对重要性(假设样本和搜索条件相同)都非常相似。然而,应注意的是,Xcorr和ΔCn是高度相关的变量,这使得系数对LDA分析的细节非常敏感。因此,更具信息量的是直接比较在有无自适应再训练的情况下获得的各种FDR的正确识别数。图2(b)绘制了四个数据集中每个数据集的双电荷光谱的接收器工作特性(ROC)样曲线。三重带电光谱的结果与使用半监督框架的结果相似(数据未显示)。这些图集中在小FDR(≤0.03)区域,这是最具实际意义的。ROC图显示,无论仪器类型如何,这两种方法在识别正确的肽分配方面表现同样出色。在LTQ平台的情况下,可以看到自适应方法的唯一次要好处。总的来说,这些结果表明,在保持其他参数不变的情况下,在不同质谱仪上生成的MS/MS数据集没有实质性差异,需要为每种仪器类型优化不同的判别函数,这与以前的报告一致33.

不同的数据库搜索条件

不同数据库搜索分数的辨别能力取决于选择的候选肽的数量(平均数),以针对数据集中的每个实验光谱进行评分。这个数字不仅取决于序列数据库的大小,还取决于用于执行搜索的搜索参数。其中,最重要的是质量耐受性、酶消化限制和允许的变量修改数量。为了更详细地研究不同搜索条件的影响,使用LTQ-FT数据集进行分析。分析中使用了五种搜索模式,从最小约束的Unconst-LW(酶无约束,大质量耐受)到最大约束的Tryptic-NW(仅胰蛋白酶肽,窄质量耐受)。

图3(a)绘制了五组SEQUEST搜索结果的Xcorr’和ΔCn的判别函数系数之比。作为一个总体趋势,随着搜索参数变得更加严格,该比率会增加。换句话说,随着数据库中针对每个光谱评分的候选肽数量的减少,ΔCn的可靠性降低。由于候选肽集的尺寸较小,它对随机效应更为敏感,因此对鉴别作用不大。

保存图片、插图等的外部文件。对象名为nihms499594f3.jpg
利用不同数据库搜索参数搜索光谱分析LTQ-FT数据

(a)使用自适应LDA方法学习的SEQUEST判别系数c(Xcorr’)和c(ΔCn)的比值,用于使用五种不同搜索选项搜索的2+(实线)和3+(虚线)MS/MS光谱。(b)五个搜索选项中的四个选项使用固定的判别系数(黑色实线)和自适应LDA-EM(红色虚线)获得的根据FDR绘制的三重带电光谱的正确识别数。(c)ΔCn根据Xcorr评分绘制,用于从Tryptic-NW数据集(左面板)和Semi-LW数据集中随机选择20%的数据。错误标识显示为黑色圆圈,正确标识为红色三角形,灰色虚线表示基于ΔCn和Xcorr得分的判别线。

根据FDR绘制了三重带电光谱的正确识别数图3(b)用于五个搜索条件中的四个。对于最受限制的搜索(色氨酸-NW),使用自适应LDA-EM方法可以在固定的FDR下显著增加已识别肽的数量。对于第二大受限搜索选项(Semi-NW),在较小的FDR区域(<0.01)也有较小但仍然显著的增益。对于约束较少的搜索选项(Semi-LW和Unconst-LW),原始模型(固定LDA系数)的性能与自适应模型一样好。在双电荷光谱中观察到类似的趋势,尽管改进不太显著(数据未显示)。

这些结果表明,不同判别因子的相对重要性取决于搜索条件。因此,使用固定的判别函数系数可能会导致在与用于训练判别函数的条件截然不同的条件下搜索数据集的次优判别。在这种情况下,自适应LDA-EM方法从数据本身动态学习判别函数,可以将LDA投影从次优平面修正为最优平面,提高判别能力。详见图3(c),它显示了半LW和色氨酸-NW数据集的Xcorr’vs.ΔCn散点图。虚线表示LDA分析确定的最佳分离面。当从约束较少的搜索条件转到约束较多的搜索条件时,最优平面中的偏移很明显-最优平面越靠近垂直线,ΔCn对区分的重要性就越小。另外值得注意的是,在色氨酸-NW数据集的情况下,ΔCn的变异性要高得多,特别是对于不正确的识别,这反映了每个搜索MS/MS谱的候选数据库肽的数量显著减少。

上述分析研究了在不同搜索条件下使用自适应判别函数方法所实现的改进。另一个问题是,就已识别肽的总数而言,什么数据库搜索参数是最佳的。表1显示了SEQUEST指定的正确识别的最热门肽的总数。总的来说,Semi-LW搜索条件提供了最佳结果。将质量耐受性从3.0 Da缩小到0.025 Da,并将搜索限制为仅搜索胰蛋白酶肽(色氨酸-NW),导致正确的肽分配损失约18%,在3+光谱的情况下,从4314个肽减少到3683个。这可以通过以下事实来解释:对于该数据集中的3+光谱,大约8%的正确分配是半胰蛋白酶肽,而对于大约10%的光谱,仪器软件错误地确定了单同位素肽质量(报告的是第一或第二同位素的质量)。在2+光谱中观察到类似的结果。

表1

在使用SEQUEST搜索的LTQ-FT蛋白质混合数据集中,使用五种不同的搜索选项,对3+电荷态的MS/MS光谱进行正确肽分配的总数,以及在0.005 FDR下正确分配的数量和灵敏度。

搜索选项正确总数对的
(FDR 0.005)
敏感
(FDR 0.005)
色氨酸-NW368330220.82
半NW396734520.87
无约束西北384235460.92
半低功率431441590.96
未确认LW406639780.98

此外,表1研究表明,在搜索约束较少的情况下,区分正确和错误标识的能力也较高。在固定的FDR为0.005时,即使使用自适应LDA选项,在色氨酸-NW数据集的情况下,也可能只提取3022个正确的肽分配给3+光谱。这相当于82%的灵敏度(总共3683人中的3022人)。对于半LW数据集,过滤的灵敏度显著更高,为96%(对于无约束搜索,无约束LW甚至更高)。因此,这两个搜索选项(半低密度和色氨酸-NW)在低0.005 FDR下识别的肽数量差异为27%,即甚至大于正确分配总数的18%差异。这一观察结果起初可能会违反直觉:开放搜索空间(例如,使用比LTQ-FT数据所需更高的质量容限)以包含更多候选肽,预计会增加假阳性的数量。然而,当相关肽属性(例如本例中的质量精度dM)用于使用肽营养素的混合建模方法计算概率时,打开搜索空间可以产生净正效应。在相同的窄质量容限与大质量容限示例中,正确的肽始终集中在dM接近0的区域。相反,随着质量耐受性的增加,错误的肽分布在更大范围的可能dM值上1213这有效地提高了具有较小dM的肽中正确与错误分配的比例。dM值的分布由肽营养素从数据中学习,并计入计算的概率。正确识别和错误识别之间的dM分布差异越明显,计算出的概率在用于过滤数据时越具有鉴别性。其他肽性质也有类似的趋势,最显著的是胰蛋白酶肽NTT的数量。

具有重新标记的前10个肽

该分析被进一步扩展,以使用在两种搜索条件下搜索的LTQ-FT数据集(Semi-LW和Tryptic-NW),研究超越每个光谱的最高评分(基于Xcorr评分)肽分配的益处。本节中的分析是使用半监督EM混合物模型进行的。半监督方法有望更加稳健,因为在每个光谱包含前10个肽后,错误的识别占据了整个分布,这使得无监督混合物建模更加困难。

在仅使用排名靠前的肽应用自适应LDA-EM算法后,计算每个光谱排名靠前10的肽的判别分数(参见方法)。在最后一次迭代中,应用EM混合物模型计算所有前10个肽的概率。在此之后,使用了两种选择:(1)保留所有前10名的比赛(“前10名”);(2) 基于概率选择新的排名第一的比赛(“新排名第一”)16。这两个选项的全局FDR图以及原始方法(标记为“旧顶部1”)如所示图4。几个趋势显而易见。首先,与选择新的秩1肽相比,在分析的最后阶段保持每个谱的前10个分配具有负净效应,即相同数量的正确识别增加了FDR。其次,在色氨酸-NW数据集的情况下,与原始方法相比,由于前10个重取和使用新的秩1肽分配,没有任何改进。如前一节所述,在高度限制数据库搜索的情况下,Xcorr分数比ΔCn更重要。因此,基于判别得分S的肽排序与仅基于Xcorr的肽排序没有显著差异。此外,对于色氨酸-NW数据集,正确和错误识别之间的质量准确度得分dM的分布对于NTT参数来说没有显著差异,甚至是相同的(因为所有候选肽都是完全色氨酸)。因此,基于概率的排名在很大程度上遵循了判别得分S的排名,因此也遵循了原始Xcorr得分。相比之下,对于Semi-LW数据集,无论是双电荷谱还是三电荷谱,重新标记都显示出显著的改进。Semi-LW数据集中概率分数的改进排名部分反映了ΔCn分数的重要性,也反映了其他肽属性、NTT、NMC和dM的使用。因此,大量正确的胰蛋白酶肽鉴定最初被“掩盖”(基于Xcorr分数)根据计算出的概率,一个或多个dM值较高的不正确半胰蛋白酶肽成为其相应光谱的顶级肽分配。

保存图片、插图等的外部文件。对象名称为nihms499594f4.jpg
重新划分每个MS/MS谱的前10个肽分配

(a)LTQ-FT数据集中的正确识别数,半低重搜索选项,根据使用三种模型获得的FDR绘制:固定判别函数,仅使用最高评分(基于Xcorr评分)肽分配(黑色实线);自适应LDA-EM保留所有前10名匹配(红色虚线);自适应LDA-EM,根据概率(绿色虚线-点线)选择新的顶级匹配,分别显示2+(左面板)和3+(右面板)光谱。(b)与(a)相同,Tryptic-NW搜索选项。

基于光谱质量的聚类

PeptidePhrophet参数混合建模方法的一个基本假设是,数据集中同一类(正确或错误)的所有肽分配都是根据其判别搜索得分分布从单个分布中提取的。一般来说,这可能不是真的,原因有几个,其中一个是低质量的MS/MS光谱与高质量的光谱相比,可能会显示出不同的搜索分数模式17为了更好地理解此假设在实际环境中的含义,根据质谱质量将质谱分为不同类别(见方法)。使用LTQ Semi-LW数据集进行分析。每个光谱质量簇内双电荷光谱的肽分配的判别搜索分数S的观察直方图如所示图5(a)正如从频谱质量的定义中所预期的那样,与中等和低频谱质量集群相比,高质量集群的正确分配比例要大得多。此外,每个聚类内的判别分数分布与所有光谱组合的观察结果不同。然而,图5(b)表明在该数据集中,两个模型(有集群和无集群)在识别正确分配方面产生了相似的结果,并且在每个集群中分别执行EM算法没有任何收益。

保存图片、插图等的外部文件。对象名为nihms499594f5.jpg
不同质量光谱的SEQUEST判别搜索分数分布

(a)为LTQ数据集中所有2+MS/MS光谱绘制的判别搜索得分S直方图,以及为高质量(簇1)、中等质量(簇2)和低质量(簇3)光谱分别绘制的直方图。正确的标识用蓝色表示。(b)通过对所有组合的光谱(黑色实线)或每个光谱质量簇内的单独光谱(红色虚线)应用自适应LDA-半监督EM方法获得的FDR绘制的正确识别数(2+光谱)。

复杂人类血清数据集的应用

为了在更复杂的数据集上评估各种方法的性能,使用LTQ仪器从人类血清样本中生成的数据重复分析(见实验数据)。使用Semi-LW选项执行SEQUEST搜索。搜索中使用的序列数据库具有相同数量的目标序列和诱饵序列。与诱饵肽的匹配被视为不正确的识别,而对于每个基于概率的过滤阈值,正确识别的数量被估计为与目标序列的匹配数量减去诱饵匹配的数量。FDR的估计类似于诱饵匹配数与目标序列匹配数之比626.

图6对以下三种模型的应用结果进行了比较:(1)固定的判别系数,无需重新分类(“top 1固定系数EM”);(2) 自适应LDA(“自适应LDA-EM排名第一”);(3) 自适应LDA,使用前10个肽,并根据概率选择排名靠前的肽(“具有自适应LDA-EM的新前1个”);总的来说,根据对蛋白质混合数据的分析,最后一种方法的表现最好,正如预期的那样。在考虑自适应LDA与使用排名前10位的单独效应时,自适应LDA方法负责改善FDR极低区域(小于0.03)。在FDR较高的区域,它没有增加正确识别的数量,因为自适应LDA方法增加的不是正确识别的总数,而是计算出的概率的辨别能力,以区分正确识别和错误识别。相比之下,使用前10名进行重新分类会增加正确识别的总数,但代价是识别能力稍差。因此,重新标记导致在较高FDR区域正确识别的肽数量增加。基于光谱质量的聚类结果没有发生显著变化(数据未显示)。

保存图片、插图等的外部文件。对象名为nihms499594f6.jpg
复杂蛋白质样品的应用

人类血清数据集中正确识别的估计数量,Semi-LW选项,根据使用三个模型获得的FDR绘制:固定判别系数,没有重新排序(出售的黑线);自适应LDA(红色虚线);自适应LDA,使用前10个肽,根据概率选择排名靠前的肽(绿色虚线)。左右面板分别显示了2+和3+电荷态的光谱结果。

讨论

肽营养素方法代表了监督和非监督建模的结合,而非监督部分发挥了更为显著的作用。肽营养素的监督部分与判别搜索得分的计算有关。使用使用训练数据开发的判别函数将多个分数合并为一个分数。剩下的分析可以描述为无监督建模,其中使用EM混合建模算法从每个数据集中重新学习正确和错误识别之间的判别分数分布和其他肽特征(NTT、NMC、dM等)的分布。此外,使用单个数据库搜索得分通常就足够了,例如吉祥物得分或X中的期望值!串联。在这些情况下,判别函数只涉及简单的比例因子,整个方法可以描述为无监督的EM混合建模方法。

最近描述了肽营养素混合建模方法的一个扩展,它可以结合一些肽识别的类标签知识12例如,搜索的数据库可能包括诱饵肽序列,这些诱饵肽可能不存在于感兴趣的生物体中的任何表达蛋白中。因此,诱饵肽对MS/MS光谱的分配可能被标记为不正确。EM混合建模算法可以利用这些知识,在这种情况下,该方法可以描述为半监督EM混合模型34然而,判别搜索得分仍然是以监督的方式计算的,即使用固定的判别得分系数。

这里介绍的自适应LDA方法是在我们早期的工作中概述的11,并且我们使用此方法的元素来执行动态频谱质量评估32它与旨在通过动态学习减少对训练数据依赖性的其他近期方法有相似之处1415.从相反的方向移动,即扩展完全受监督的方法25为了适应不同实验数据集之间观察到的差异,Kall最近提出了一种半监督支持向量机(SVM)方法和计算工具Percolator14对于Percolator,半监督学习应用于包含所有特征的整个SVM分类器。这里使用的LDA只关心数据库搜索分数,因为所有其他信息都是在第二步添加的,并且已经以无监督或半监督的方式进行了建模。Percolator方法需要诱饵肽,而在自适应LDA方法中,诱饵的使用是可选的。Percolator利用了更多的特征和更复杂的分类方法(SVM),这可以提高辨别能力。另一方面,当应用于较小的数据集或质量较低的数据集时,仅使用信息量最大的分数和LDA的简单性应使其更加稳健。参考文献中给出的分析。15还采用了动态训练方法,但重点是磷酸化肽。

任何计算方法的稳健性都是一个重要的考虑因素。在实践中,对不同大小的数据集进行计算和统计分析,这些数据集使用不同的实验协议生成,并使用不同复杂性的样本。数据集的大小可能从大规模鸟枪蛋白质组分析实验中的数十万个光谱到在亲合富集蛋白质样品上运行的单个LC-MS/MS中的数千个光谱不等。自适应LDA方法要求数据集包含足够数量的正确识别的肽,以构建新的训练数据集,用于重新训练判别函数。这项工作中的分析表明,自适应LDA方法的优点在高度约束搜索的情况下最为明显。因此,一种充分且更实用的方法是实施一种简化处理,即当每个搜索MS/MS谱的候选肽平均数量低于某个阈值时,应用不同的(也是预先计算的)判别函数。这对于胰蛋白酶以外的消化酶也可能有益14,这在本工作中未进行调查。或者,可以使用转换值进行分析1735代替原始Xcorr和ΔCn分数。然而,如果从原始分数(如Xcorr)到期望值的转换还有待观察35,或其他类型的拟议分数转换17,不受ΔCn变化性增加的相同关注。

在每个光谱中包含超过排名靠前的肽分配,只会使高置信肽识别数量略有改善,在FDR约为0.05时增加不到10%,而在FDR较低时甚至更少。这种增加在蛋白质水平上进一步减少(数据未显示)。然而,在某些数据集中,包含超过排名靠前的分配可能有助于减少由于序列同源性高而产生的假阳性蛋白质鉴定数量36例如,在本研究中使用的人类血清数据集中,蛋白纤溶酶原相关蛋白B前体(SWISS-PROT:Q02325号,基因符号PLGLB1)被错误地鉴定为相对较高的ProteinProphet概率0.94,因为从4 MS/MS光谱中鉴定了肽CEEDKEFTCR。然而,在所有4种情况下,排名第二的肽分配是CEEDEFTCR,其对应于相关蛋白纤溶酶原前体(SWISS-PROT:Q00747问题,基因符号PLG),由该蛋白质特有的多个其他肽明确识别。考虑到CEEDKEFTCR包含一个缺失的卵裂,根据计算的概率,排名第二的肽(正确的序列)成为得分最高的肽,从而避免了ProteinProphet将PLGLB1作为单独条目进行报告(不准确)。然而,更有效的方法需要开发一个结合肽水平和蛋白质水平分析的统一模型。这种模型将涉及将肽分组为蛋白质,并计算肽水平概率,将蛋白质分组信息(如同胞肽的数量)与前10个重新排序程序同时考虑在内。

什么样的搜索参数是最佳的,以获得最大数量的正确识别,这一问题具有重要的实际意义。对于LTQ-FT和LTQ-Orbitrap等高质量精度仪器来说,这一点尤其重要,因为在这些仪器中,以非常窄的质量公差进行搜索似乎是一个很有吸引力的选择37它还经常争论搜索是否应限于胰蛋白酶肽,或至少允许半胰蛋白酶肽3839。本研究中使用的数据集提供了一些有趣的见解。尽管这可能违反直觉,但如果辅助信息(本例中的质量精度)被准确建模并包含在计算肽概率中,那么打开搜索空间(例如,使用比必要更高的质量容限)可能会产生净积极影响。然而,应该指出的是,基于对少数数据集的分析而得出的观察结果不应泛化。例如,与更复杂的样品相比,已知使用控制蛋白混合物生成的数据集具有更高比例的半胰蛋白酶肽,这是因为仪器能够对源内衰变产物的低丰度离子进行序列测定。更准确地计算前体离子质量的能力也会影响最佳搜索条件的选择40——43最后,根据在特定数据库搜索工具中实现的评分功能的细节,结果可能不同。以前报告的大多数工作都局限于分析数据库搜索结果,然后进行简单的基于阈值的过滤44——47。未来的工作应包括对数据库搜索条件的最佳性进行更详细的分析,特别是在海量准确数据的情况下,并结合更复杂的数据库后搜索统计数据验证选项。

结论

我们提出了一种自适应LDA-EM算法,并将其性能与目前在肽营养素中实现的固定判别函数EM混合建模方法进行了比较。在高度限制性搜索(例如,窄质量耐受性、胰蛋白酶搜索)的情况下,与每个MS/MS谱相比较的搜索数据库中候选肽的数量变少,这种改进最为显著。在这种情况下,δ得分测量,如SEQUEST中的ΔCn,对随机波动很敏感,与用于训练肽营养素鉴别功能的数据集中观察到的数据相比,对鉴别的用处不大。另一方面,质量仪器的类型不是一个因素,在重新训练每种仪器类型的判别函数后,没有观察到任何改善。使用每个MS/MS谱的前10个肽匹配,然后基于概率的重新分类,只会带来适度的改进,并且只有在约束较少的搜索中,大量正确的肽被“屏蔽”(不是根据主要搜索分数排名第一)但可以借助辅助判别信息进行恢复。虽然这项工作中的分析考虑了使用SEQUEST和PeptidePhropet获得的肽鉴定,但大多数观察结果在本质上是通用的。特别是,它与其他计算工具相关,例如ProteinProspector48和检查49,在计算肽概率之前,将多个搜索分数合并为单个判别分数。

确认

这项工作得到了美国国立卫生研究院/国家癌症研究所R01 CA-126239拨款的部分支持。我们感谢达米安·费尔明、夏曹、大卫·什滕伯格、埃里克·多伊奇、亨利·林和布莱恩·普拉岑的有益讨论。

参考文献

1Aebersold R,Mann M.基于质谱的蛋白质组学。自然。2003;422(6928):198–207.[公共医学][谷歌学者]
2Steen H,Mann M.肽序列的ABC(和XYZ)。Nat Rev Mol细胞生物学。2004;5(9):699–711.[公共医学][谷歌学者]
三。Eng JK,McCormack AL,Yates JR。将肽串联质谱数据与蛋白质数据库中的氨基酸序列关联的方法。美国质谱学会杂志。1994;5(11):976–989.[公共医学][谷歌学者]
4Perkins DN、Pappin DJC、Creasy DM、Cottrell JS。通过使用质谱数据搜索序列数据库进行基于概率的蛋白质鉴定。电泳。1999;20(18):3551–3567.[公共医学][谷歌学者]
5Craig R,Beavis RC。串联质谱:用串联质谱匹配蛋白质。生物信息学。2004;20(9):1466–1467.[公共医学][谷歌学者]
6Nesvizhskii AI,Vitek O,Aebersold R.串联质谱法产生的蛋白质组数据的分析和验证。自然方法。2007;4(10):787–797.[公共医学][谷歌学者]
7Chalkley RJ、Hansen KC、Baldwin MA。利用质谱数据进行蛋白质组应用的生物信息学方法。生物质谱法。2005;第402卷:289–312.[公共医学][谷歌学者]
8Sadygov RG、Cociorva D、Yates JR。使用串联质谱进行大型数据库搜索:在书的背面查找答案。自然方法。2004;1(3) :195–202。[公共医学][谷歌学者]
9Carr S、Aebersold R、Baldwin M、Burlingame A、Clauser K、Nesvizhskii A。肽和蛋白质鉴定数据出版指南的需要-肽和蛋白质鉴别数据出版指南工作组。分子与细胞蛋白质组学。2004;(6):531–533.[公共医学][谷歌学者]
10谢赫,格里芬TJ。串联质谱蛋白质组学中使用二维线性离子阱在高灵敏度和增加假阳性肽序列匹配可能性之间进行权衡。蛋白质组研究杂志。2006[公共医学][谷歌学者]
11Keller A、Nesvizhskii AI、Kolker E、Aebersold R。估算通过MS/MS和数据库搜索进行肽鉴定准确性的经验统计模型。分析化学。2002;74(20):5383–5392.[公共医学][谷歌学者]
12Choi H,Nesvizhskii AI.基于质谱的蛋白质组学中肽鉴定的半监督模型验证。蛋白质组研究杂志。2008;7(1):254–265.[公共医学][谷歌学者]
13Choi H,Ghosh D,Nesvizhskii AI.使用目标经济数据库搜索策略和灵活混合物建模对大规模蛋白质组学中的肽鉴定进行统计验证。蛋白质组研究杂志。2008;7(1) :286–292。[公共医学][谷歌学者]
14Kall L、Canterbury JD、Weston J、Noble WS、MacCoss MJ。从鸟枪蛋白质组数据集半监督学习肽鉴定。自然方法。2007;4(11):923–925.[公共医学][谷歌学者]
15Du X,Yang F,Manes NP,Stenoien DL,Monroe ME,Adkins JN,States DJ,Purvine SO,Camp IIDG,Smith RD。基于线性判别分析的磷酸识别错误发现率估计。蛋白质组研究杂志。2008;7(6):2195–2203. [PMC免费文章][公共医学][谷歌学者]
16Searle BC、Turner M、Nesvizhskii AI。通过概率组合多个MS/MS搜索方法的结果来提高灵敏度。蛋白质组研究杂志。2008;7(1):245–253.[公共医学][谷歌学者]
17Martinez Bartolome S、Navarro P、Martin Maroto F、Lopez Ferrer D、Ramos Fernandez A、Villar M、Garcia Ruiz JP、Vazquez J.序列平均得分分布的性质。分子与细胞蛋白质组学。2008;7(6):1135–1145.[公共医学][谷歌学者]
18Klimek J、Eddes JS、Hohman L、Jackson J、Peterson A、Letarte S、Gafken PR、Katz JE、Mallick P、Lee H、Schmidt A、Ossola R、Eng JK、Aebersold R、Martin DB。标准蛋白质混合物数据库:一个多样的数据集,用于帮助生产改进的肽和蛋白质鉴定软件工具。蛋白质组研究杂志。2008;7(1):96–103. [PMC免费文章][公共医学][谷歌学者]
19Whiteaker JR、Zhang HD、Eng JK、Fang RH、Piening BD、Feng LC、Lorentzen TD、Schoenherr RM、Keane JF、Holzman T、Fitzgibbon M、Lin CW、ZhangH、Cooke K、Liu T、Camp DG、Anderson L、Watts J、Smith RD、McIntosh MW、Paulovich AG。血清分馏技术的头对头比较。蛋白质组研究杂志。2007;6(2):828–836.[公共医学][谷歌学者]
20Lopez-Ferrer D、Martinez-Bartolome S、Villar M、Campillos M、Martin-Maroto F、Vazquez J。使用SEQUEST从串联质谱数据库中大规模肽鉴定的统计模型。分析化学。2004;76(23):6853–6860.[公共医学][谷歌学者]
21Razumovskaya J、Olman V、Xu D、Uberbacher EC、VerBerkmoes NC、Hettich RL、Xu Y.用SEQUEST评估串联质谱分析中肽识别可靠性的计算方法。蛋白质组学。2004;4(4):961–969.[公共医学][谷歌学者]
22Resing KA、Meyer Arendt K、Mendoza AM、Aveline Wolf LD、Jonscher KR、Pierce KG、Old WM、Cheung HT、Russell S、Wattawa JL、Goehle GR、Knight RD、Ahn NG。通过鸟枪蛋白质组学提高鉴定人类蛋白质的再现性和敏感性。分析化学。2004;76(13):3556–3568.[公共医学][谷歌学者]
23Strittmatter EF、Kangas LJ、Petritis K、Mottaz HM、Anderson GA、Shen YF、Jacobs JM、Camp DG、Smith RD。肽液相色谱保留时间信息在串联质谱法肽鉴定判别函数中的应用。蛋白质组研究杂志。2004;(4):760–769.[公共医学][谷歌学者]
24Ulintz PJ,Zhu J,Qin ZHS,Andrews PC。使用更新的机器学习方法改进质谱数据库搜索结果的分类。分子与细胞蛋白质组学。2006;5(3):497–509.[公共医学][谷歌学者]
25Anderson DC,Li WQ,Payan DG,Noble WS。蛋白质组学中鸟枪肽测序评估的新算法:肽MS/MS谱和SEQUEST评分的支持向量机分类。蛋白质组研究杂志。2003;2(2):137–146.[公共医学][谷歌学者]
26Elias JE,Gygi SP。通过质谱法提高大规模蛋白质鉴定信心的目标经济搜索策略。自然方法。2007;4(3):207–214.[公共医学][谷歌学者]
27Choi H,Nesvizhskii AI.基于质谱的蛋白质组学中的错误发现率和相关统计概念。蛋白质组研究杂志。2008;7(1):47–50.[公共医学][谷歌学者]
28Fitzgibbon M,Li QH,McIntosh M。评估肽鉴定可信度的推理模式。蛋白质组研究杂志。2008;7(1):35–39. [PMC免费文章][公共医学][谷歌学者]
29Kall L、Storey JD、MacCoss MJ、Noble WS。后验错误概率和错误发现率:同一枚硬币的两面。蛋白质组研究杂志。2008;7(1) :40–44。[公共医学][谷歌学者]
30Nesvizhskii AI,Keller A,Kolker E,Aebersold R.通过串联质谱鉴定蛋白质的统计模型。分析化学。2003;75(17):4646–4658.[公共医学][谷歌学者]
31Price TS、Lucitt MB、Wu WC、Austin DJ、Pizarro A、Yocum AK、Ian AB、FitzGerald GA、Grosser T.EBP,一个使用多串联质谱数据集进行蛋白质鉴定的程序。分子与细胞蛋白质组学。2007;6(3):527–536.[公共医学][谷歌学者]
32Nesvizhskii AI、Roos FF、Grossmann J、Vogelzang M、Eddes JS、Gruissem W、Baginsky S、Aebersold R.动态光谱质量评估和Shotgun蛋白质组数据的迭代计算分析:更有效地识别翻译后修饰、序列多态性和新肽。分子细胞蛋白质组学。2006;5(4):652–670.[公共医学][谷歌学者]
33Prazen B、Nilsson E、Pratt B、Sadilek M、Martin D、Klimek J、Gemmill A、Hohmann L、Jackson J。肽营养素的仪器特定校准;华盛顿州西雅图。2006年第54届ASMS质谱及相关主题会议。[谷歌学者]
34Nigam K,McCallum A,Mitchell T.使用EM进行半监督文本分类。收录:Chapelle O,Zien A,Scholkopf B,编辑。半监督学习。波士顿:麻省理工学院出版社;2006[谷歌学者]
35芬约D,比维斯RC。使用通用评分方案评估基于质谱的蛋白质鉴定的统计显著性的方法。分析化学。2003;75(4):768–774.[公共医学][谷歌学者]
36Nesvizhskii AI,Aebersold R.鸟枪蛋白质组数据的解释-蛋白质推断问题。分子与细胞蛋白质组学。2005;4(10):1419–1440.[公共医学][谷歌学者]
37Olsen JV、de Godoy LMF、Li GQ、Macek B、Mortensen P、Pesch R、Makarov A、Lange O、Horning S、Mann M。轨道飞行器质谱仪通过锁定质量注入到C阱的百万分之一质量精度。分子与细胞蛋白质组学。2005;4(12):2010–2021.[公共医学][谷歌学者]
38Olsen JV、Ong SE、Mann M.胰蛋白酶只能将C末端裂解为精氨酸和赖氨酸残基。分子与细胞蛋白质组学。2004;(6):608–614.[公共医学][谷歌学者]
39Picotti P,Aebersell R,Domon B。蛋白水解背景对鸟枪蛋白质组学的影响。分子与细胞蛋白质组学。2007;6(9):1589–1598.[公共医学][谷歌学者]
40Hoopmann MR、Finney GL、MacCoss MJ。使用高分辨率质谱对鸟枪蛋白质组数据集进行高速数据缩减、特征检测和MS/MS光谱质量评估。分析化学。2007;79(15):5620–5632. [PMC免费文章][公共医学][谷歌学者]
41Mayampurath AM、Jaitly N、Purvine SO、Monroe ME、Auberry KJ、Adkins JN、Smith RD.DeconMSn:用于串联质谱准确测定母离子单同位素质量的软件工具。生物信息学。2008;24(7):1021–1023. [PMC免费文章][公共医学][谷歌学者]
42Shin B、Jung HJ、Hyung SW、Kim H、Lee D、Lee C、Yu MH、Lee SW。串联质谱数据的实验后单同位素质量过滤和细化(PE-MMR)提高了LC/MS/MS中肽鉴定的准确性。分子与细胞蛋白质组学。2008;7(6):1124–1134.[公共医学][谷歌学者]
43Zubarev R,Mann M.关于蛋白质组学中质量准确性的正确使用。分子与细胞蛋白质组学。2007;6(3):377–381.[公共医学][谷歌学者]
44Bakalarski CE,Haas W,Dephoure NE,Gygi SP。磷酸蛋白质组学中质量准确性、数据采集速度和搜索算法选择对肽识别率的影响。分析和生物分析化学。2007;389(5):1409–1419.[公共医学][谷歌学者]
45Brosch M、Swamy S、Hubbard T、Choudhary J。吉祥物和X的比较!用于低精度和高精度质谱的串联性能以及调整吉祥物阈值的开发。分子与细胞蛋白质组学。2008;7(5):962–970. [PMC免费文章][公共医学][谷歌学者]
46Haas W、Faherty BK、Gerber SA、Elias JE、Beausoleil SA、Bakalarski CE、Li X、Villen J、Gygi SP。鸟枪蛋白质组学中肽质量测量准确性的优化和使用。分子与细胞蛋白质组学。2006;5(7) :1326–1337。[公共医学][谷歌学者]
47Rudnick PA、Wang Y、Evans E、Lee CS、Balgley BM。使用基于质量精度的THreshold(MATH)对MASCOT结果进行大规模分析,有效地改进了数据解释。蛋白质组研究杂志。2005;4(4):1353–1360.[公共医学][谷歌学者]
48Chalkley RJ、Baker PR、Huang L、Hansen KC、Allen NP、Rexach M、Burlingame AL。对四极选择、四极碰撞池、飞行时间质谱仪II上获得的多维液相色谱-质谱数据集进行综合分析。蛋白质探测仪的新发展允许对大型数据集进行可靠和全面的自动分析。分子与细胞蛋白质组学。2005;4(8):1194–1204.[公共医学][谷歌学者]
49Tanner S、Shu HJ、Frank A、Wang LC、Zandi E、Mumby M、Pevzner PA、Bafna V.InsPecT:从串联质谱鉴定过渡后修饰肽。分析化学。2005;77(14):4626–4639.[公共医学][谷歌学者]