跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
蛋白质组研究杂志。作者手稿;PMC 2009年8月28日发布。
以最终编辑形式发布为:
预防性维修识别码:PMC2734080型
EMSID:英国MS5069
PMID:19338334

用吉祥物渗透仪准确、灵敏地鉴定多肽

摘要

Mascot和Sequest等序列数据库搜索算法的健全评分方法对于从蛋白质组串联质谱数据中灵敏准确地鉴定肽和蛋白质至关重要。在本文中,我们提出了一个将Mascot与Percolator接口的软件包,Percolator是一种性能良好的机器学习方法,用于重新存储数据库搜索结果,并证明它适用于低精度和高精度质谱数据,超越所有可用的吉祥物评分方案,并提供可靠的显著性指标。Mascot Percolator可以很容易地用作独立工具,也可以集成到现有的数据分析管道中。

关键词:肽识别、数据库搜索算法、吉祥物、数据分析、机器学习、SVM、Percolator

介绍

质谱(MS)领域的技术进步使高通量鸟枪蛋白质组学实验成为可能1,2产生数千个串联质谱。-5数据库搜索引擎目前是用肽序列注释光谱的选择方法,最广泛使用的是Sequest,6吉祥物7和X!串联。8数据库搜索算法为每个肽谱匹配(PSM)计算一个分数,该分数反映了实验肽谱和计算的理论肽谱之间的互相关质量。对得分的PSM进行排名,通常只报告每个频谱的最佳匹配。然而,光谱中最匹配的肽并不一定正确,因此,肽和蛋白质鉴定的灵敏度和准确性取决于合理的评分方案。已经应用了许多替代方法:从手动启发式规则,9例如简单的分数阈值,对于更复杂的系统,该系统基于一系列特征对PSM进行评分和分类,从而利用搜索结果中存在的信息,而这些信息在其他情况下是不使用的。10-14

在评估报告的PSM可靠性方面向前迈出的关键一步是引入了由Moore等人开创的目标/诱饵搜索策略:15不仅根据标准序列数据库(目标)搜索数据,还根据反向,15随机化,16或洗牌17数据库(诱饵)。从诱饵数据库中获得的PSM可用于估计错误目标PSM的数量,并可直接估计已确定的错误发现率18(FDR)。在这种情况下,FDR可以解释为所选标识集中错误PSM的预期比例。19由于FDR不是基础分数的函数q个-Storey和Tibshirani提出的价值指标20在基因组学领域,Käll等人将其应用于质谱分析。19,21这个q个-值可以理解为PSM被接受的最小FDR,因此,可以将特定的q个-数据集中任何PSM的值。19,21然而,重要的是要注意q个-值度量总是数据集中所有PSM的结果;例如,使用q个-值截止值为0.05时,预计数据集中有5%的PSM不正确。

随着高精度仪器的出现,预计肽鉴定的特异性将提高,因为在几个ppm的区域内的肽质量准确性将搜索空间减少几个数量级。22-24然而,我们最近的研究使用目标/诱饵搜索策略来评估吉祥物的性能,结果表明情况未必如此。25Mascot为每个单独的频谱查询报告一个基于概率的Mascot标识阈值(MIT),高于该阈值时,PSM被视为重要的肽分配。25我们的研究表明,对于严格的肽质量耐受设置(搜索空间小),MIT是反保守的(低特异性,但高灵敏度),而对于宽松的参数设置,MIT则是非常保守的(高特异性,但是低灵敏度)。吉祥物还报告了一个经验吉祥物同源阈值(MHT),在此阈值下,吉祥物得分可以被视为所有肽匹配到给定光谱的得分分布的显著异常值。总的来说,MHT比MIT更敏感,但只有在对足够的候选肽进行评分的PSM中才有报道,例如,在宽松的搜索参数设置下。这些发现使我们实现了调整马斯科特同源性阈值(AMT),利用松弛搜索参数下的MHT,结合对质量误差重新校准数据的肽质量偏差滤波器(AMT/质量滤波器),被证明是可用于高精度数据的最灵敏的马斯科特评分方法。25

然而,AMT/质量过滤策略的一个局限性是,它需要一个固定的质量容限过滤器,以便随后确定维持预定义FDR的分数阈值。一种更灵活的实施方式是结合使用分数截止值和质量偏差这两个特征来区分正确和错误的PSM。这可以通过最近引入的称为Percolator的迭代机器学习方法来实现14利用目标/诱饵数据的。

对于每个目标和诱饵PSM,Percolator计算与匹配质量相关的特征向量(例如,互相关分数或质量偏差)。随后,根据最相关的特征(例如PSM分数)对目标和诱饵PSM集进行区分,并过滤到固定的FDR(例如1%)。该子集(正训练集)与所有诱饵PSM(负训练集)一起用于训练支持向量机。然后将学习的分类器应用于所有目标/诱饵PSM,然后再次进行FDR滤波,以继续训练过程(图1,过滤盒)。结果表明,经过几次迭代,系统收敛并产生一个鲁棒分类器,然后用于重新搜索数据集中的每个PSM。对于每个PSM,关联的q个-报告值以及单个PSM不正确的概率。21,26整个过程完全自动化,不需要任何专家驱动或主观决策,从而消除任何人为偏见。学习的分类器针对每个数据集进行了专门的调整和唯一性,从而适应数据质量、协议和仪器的变化。

保存图片、插图等的外部文件。对象名称为ukmss-5069-f0001.jpg

吉祥物Percolator工作流程图。

尽管Percolator最初设计为仅用于Sequest,但标准输入格式的可用性使得Percolator可以用作通用机器学习算法,其中目标/诱饵数据可用。因此,我们实现了一个吉祥物扩展(“吉祥物Percolator”),它从吉祥物搜索结果中提取并计算相关特征,训练Percolator,将结果分类器应用于每个PSM,并编写一个结果文件。我们首先使用Mascot Percolator评估了AMT/massfilting方法,但也扩展了该方法,使其具有更多可直接从Mascot搜索结果获得的特征,例如Mascot评分信息、肽和蛋白质属性。此外,还探索了一个扩展的特征集,其中包含无法直接从吉祥物搜索结果中获取的信息,包括离子匹配统计信息和强度信息。我们使用高前体质量精度LC-MS/MS数据集评估了吉祥物Percolator的性能。我们还使用原始Percolator出版物中使用的低质量精度LC-MS/MS数据集对其进行了基准测试。在最终评估中,我们验证了q个-Percolator使用蛋白质标准数据集报告的值准确性。吉祥物Percolator免费提供http://www.sanger.ac.uk/Software/analysis/MascotPercolator网站/包括本文中介绍的数据库、峰值列表和结果。

方法

样品

样品1

用1 mM二硫苏糖醇(Sigma)在70°C下将小鼠胚胎干细胞的核蛋白提取物(2 mg/mL)还原10分钟,然后在室温(25°C)下用2 mM碘乙酰胺(Sigma-)烷基化30分钟。在NuPAGE Novex 4-12%双三凝胶(Invitrogen)上分离10毫克总蛋白。凝胶用胶体考马斯蓝(Sigma)染色。将整个凝胶条带切成48条带,用50%乙腈脱色,然后用测序级胰蛋白酶(Roche)消化过夜。用5%甲酸、50%乙腈提取肽两次,并在SpeedVac(Thermo Fisher Scientific)中真空干燥。肽在0.5%甲酸中重新溶解并进行LC-MS/MS。

样品2

酵母(酿酒酵母应变S288C)样品;参见Käll等人。14

样品3

用Tris(2-羧乙基)膦盐酸盐(TCEP)还原48种人类蛋白质的标准蛋白质组(Sigma,通用蛋白质组学标准组UPS1),并如上所述用碘乙酰胺烷基化,然后用测序级胰蛋白酶(Roche Applied Science)在溶液中消化过夜。为了尽可能减少在蛋白质标准样品中检测到低丰度污染物的机会,直接对10 fmol(每种蛋白质)的极低浓度进行LC-MS/MS。

LC-MS/MS分析

使用在线纳米LC-MS/MS系统分析肽,该系统包括LTQ FT(Thermo Fisher Scientific)、混合线性离子阱和7-T傅里叶变换离子回旋共振质谱仪,以及Ultimate 3000纳米/毛细管液相色谱系统(Dionex)。样品首先在存水弯(内径0.3 mm(内径)×5 mm)上加载并脱盐,温度为20μL/min,加入0.1%甲酸5 min,然后在分析柱(75)上分离μm i.d.×15 cm)(两种PepMap C18,LC填料)在4-40%CH的30分钟线性梯度上CN,0.1%甲酸用于样品1。通过色谱柱的流速为300 nL/min。对于样品3,分离梯度为120 min,4-32%CH亚特兰蒂斯C18柱上的CN/0.1%甲酸(100μm i.d.×25 cm,Waters)。

LTQ FT质谱仪在Xcalibur 1.4软件控制的标准数据相关采集模式下运行。调查扫描是在FT-ICR上获得的(/z(z)样品1为400-2000或样品3为400-1500),分辨率为100 000/z(z)400,每个光谱采集一个微扫描。对于样品1,前三个最丰富的多电荷离子(在1000计数时强度最小)在隔离宽度为3Th的线性离子阱中进行MS/MS。对于样品3,前五个最丰富双电荷和三电荷离子在隔离宽度1.5Th的MS/MS中进行。

在30 ms的活化时间和活化时间下进行前体活化0.25。归一化碰撞能量设置为35%。动态排除宽度设置为5 ppm,两次重复,持续时间为30 s(样品1),10 ppm,一次重复,60 s(样品3)。为了实现高质量精度,自动增益控制目标值调节为4×105(对于样品1)或1×106(用于样品3)用于FT和1×104对于离子阱,FT的最大注入时间为1000 ms,离子阱(样品1)为100 ms或250 ms(样品3)。使用咖啡因、小肽(序列:MRFA)和Ultramark 1600的标准校准混合物对仪器进行外部校准。

原始数据分析

使用BioWorks 3.2(赛默飞世尔科技公司)将LTQ FT-MS原始数据文件处理至峰值列表。处理参数如下:前体质量设置为800-4500 Da,分组允许50次中间MS/MS扫描,前体质量容差设置为10 ppm,MS/MS中的最小离子数为15。每组的最小扫描次数设置为1。对于样本3,分组被禁用。

Käll等人之前对样品2进行了LC-MS/MS分析和RAW转换。14

Ms/Ms数据库搜索

样品1

使用Mascot 2.2使用以下参数搜索峰列表(38058光谱):酶=胰蛋白酶(允许在脯氨酸之前切割27); 最大遗漏劈理=2;可变修饰=半胱氨酸的氨基甲酰化,蛋氨酸的氧化;产品质量公差=0.5 Da。国际蛋白质指数(IPI)数据库版本337(小家鼠)用作蛋白质序列数据库。来自cRAP的常见外部污染物(通过全球蛋白质组机器组织提供的污染物、实验室蛋白质和蛋白质标准的维护列表,http://www.thegpm.org/crap/index.html,已追加。复合数据库包含51 355个序列和23 635 027个残基。对于FDR评估,使用Matrix Science提供的decoy.pl Perl脚本从蛋白质序列数据库生成单独的诱饵数据库。此脚本随机化每个条目,但保留条目的平均氨基酸组成和长度。

在100ppm肽质量耐受性下搜索数据,以评估数据集的质量准确性。修正后25在系统质量偏差为3ppm的情况下,Mascot评分大于30的所有PSM中,90%和99%分别位于±5和±20ppm质量窗口内。对于马斯科特阈值最敏感的最严格的质量容限设置,数据搜索为20 ppm。此外,还搜索了500 ppm肽质量耐受性的数据,以便结合调整的MHT(调整的吉祥物阈值,AMT)进行质量精度过滤25). 将质量偏差过滤器设置为5 ppm,这是与AMT(支持信息)结合使用时最有效的过滤器设置图1)。

样品2

用吉祥物2.2搜索峰列表(35 236个光谱)。针对Käll等人使用的相同目标和诱饵数据库。14使用以下参数:酶=胰蛋白酶;最大遗漏劈理=2;固定修饰=半胱氨酸的氨基甲酰化;肽质量耐受性设置=3Da;产品质量公差=0.5 Da。

样品3

用马斯科特2.2对人类IPI(2007年6月,68 322个序列,28 806 780个残基)的峰列表(8190个光谱)进行了搜索,包括cRAP的常见外部污染物。使用的参数:酶=胰蛋白酶;最大遗漏劈理=2;可变修饰=半胱氨酸的氨基甲酰化、蛋氨酸的氧化以及天门冬氨酸和谷氨酰胺的脱酰胺;肽质量耐受性=20 ppm;产品质量容差=0.5 Da。此外,生成了序列数据库的10个随机版本(使用如上所述的decoy.pl脚本),并在相同条件下单独搜索。

吉祥物Percolator

吉祥物Percolator是用Java编程语言实现的,确保了平台无关的操作。它利用了Matrix Science提供的Mascot Java解析器库(http://www.matrixscience.com/msparser.html)并使用Percolator(华盛顿大学,http://noble.gs.washington.edu/proj/percoator/). 本研究使用了最新版本的Percolator 1.07,在将本研究结果与Percolator的原始出版物进行比较时,应考虑到这一点,14其中使用了1.01版本。

每次跑步时,吉祥物击球手都会执行以下操作:读取吉祥物结果文件,计算结果和讨论部分中介绍的得分特征,并将其用于击球手训练,如简介中所述。在最后一步中,Percolator的结果文件和输入文件合并为包含肽、蛋白质和评分信息(图1)。

Mascot Percolator被设计为一个命令行程序,可以作为独立应用程序运行,也可以作为一个组件运行,该组件可以嵌入到现有的数据处理管道中,从而简化数据和自动化。下面是执行该程序的示例,以进行说明:“java-cp MascotPercolator.jar cli.MascotMercolator-target 11026-decoy 11027-out 11026-11027”。此命令行从与提供的吉祥物作业ID(11026)关联的文件中读取吉祥物结果。11027),计算用于后续Percolator运行的特征并将结果和日志写入以11026-11027为前缀的文件中。Percolator使用了其默认参数。通过使用基本和扩展功能集,Mascot Percolator分别处理1500和75 PSM/s(2.4 GHz AMD CPU)。

数据分析

通过改变q个-值截止值并报告相应的真阳性数。MIT、MHT和AMT被用作比较的参考。当没有MHT报告时,使用了MIT,这是吉祥物的默认行为。MIT和MHT的接收器工作特性是通过改变Mascot显著性阈值产生的第页(默认值0.05)在1×10之间−5至1×10−1,后者表示允许的最大值。

Percolator因子是不正确的目标PSM的百分比19进入q个-值计算(参考14补充方法1.1.2)。为了保持一致性q个-MIT、MHT和AMT的数值计算也考虑了这一因素,并使用软件“qvality”进行确定:260.55(样品1)、0.5(样品2)、0.77(样品3)。

结果和讨论

使用肽质量准确度特征的吉祥物透皮器

样本1是通过LTQ FT获得的一个大型数据集,是高质量精度蛋白质组学实验的代表。对于该数据集,我们之前表明,AMT/质量过滤法是可用的最敏感的吉祥物评分方法:25在500 ppm肽质量耐受性下搜索数据,过滤到5 ppm(支持信息图1)并且应用AMT阈值,在一个q个-值为1.0%。相比之下,麻省理工学院和MHTq个-在20 ppm的最严格(见方法)肽质量耐受性设置下,该值仅鉴定出10 385和12 338个真阳性(图2、AMT、MIT、MHT)。

保存图片、插图等的外部文件。对象名称为ukmss-5069-f0002.jpg

在20 ppm的吉祥物搜索中,基本和扩展吉祥物Percolator(MP)、吉祥物身份阈值(MIT)和吉祥物同源阈值(MHT)性能是根据q个-值截止值范围为0至0.06。此外,在500 ppm吉祥物搜索中,还显示了质量过滤(5 ppm)策略、调整吉祥物阈值(AMT)和模拟Percolator AMT方法(MP AMT)的性能。注:如果没有MHT报告,则使用MIT。25

一种更灵活的实施方式是结合使用分数截止值和质量偏差这两个功能,以改进正确和错误PSM的区分,例如,考虑到PSM分数非常重要,接受质量偏差稍大的PSM。

这可以通过使用与AMT/质量过滤策略相关的特征的机器学习算法(例如Percolator)来实现。因此,从500 ppm吉祥物目标和诱饵搜索中计算出以下特征,并用于Percolator训练:MHT减去吉祥物得分,理论和观察到的肽质量偏差,以及质量偏差的绝对值。

Mascot Percolator共鉴定出14603个估计为真阳性的PSM,占1.0%q个-价值(图2,MP AMT),明显优于AMT/质量过滤方法7%。当将吉祥物Percolator与吉祥物阈值进行比较时,发现与MIT和MHT相比,真阳性(独特)肽分别多41%(38%)和18%(17%),显著优于两种吉祥物的阈值。

这些结果表明,综合使用分数阈值和质量偏差特征作为鉴别器的性能优于AMT/质量滤波策略。应该注意的是,所使用的特征分别处理系统质量误差和随机质量误差,因此,由于不需要进行后处理来消除系统质量偏移,因此简化了可用性。这些有希望的结果,再加上Percolator算法处理任意数量特征的能力,激发了对更全面特征集的评估。

使用扩展特征集的吉祥物拾音器

除了前面描述的质量偏差特征外,可以直接从Mascot搜索结果中提取的特征被添加为Mascot Percolator的输入,定义了“基本特征集”(表1,特征1-9)。此外,还考虑了包含碎片离子匹配统计信息的“扩展特征集”(表1,特征1-18)。然而,这些特征在Mascot结果文件中并不容易获得,因此是通过将观察到的光谱与理论光谱相匹配来计算的。对于每个离子系列(例如b/y系列、单/双电荷系列和中性损耗系列的组合),分别计算了其中一些特征(16-18)。

表1

特征1-9代表基本特征集,特征1-18代表吉祥物Percolator中使用的扩展特征集

特征缩写功能描述
1.质量计算确定肽的单同位素质量。
2.收费前体离子电荷
3.m核心吉祥物得分
4.d得分吉祥物得分减去次佳非等压肽得分
5.三角洲计算出的减去观察到的肽质量(单位:道尔顿和ppm)。
6.absDeltaM(增量)计算的肽质量减去观察到的肽质量的绝对值(单位:道尔顿和ppm)
7.isoDeltaM计算的减去观察到的肽质量,校正同位素误差(单位:道尔顿和ppm)
8.独特的Peps无(0)、一(1)、两(2)个或更多不同的肽序列与同一蛋白质匹配
9.兆赫错过胰裂
10.总积分总离子强度(log)
11.int匹配点总匹配离子强度(log)
12.相对IntMatchedTot总匹配离子强度除以总离子强度
13.箱子参考文献中描述的肽评分28
14.fragMassError(碎片质量错误)平均碎片质量误差(单位:道尔顿和ppm)
15.absFragMass错误碎片质量平均绝对误差(单位:道尔顿和ppm)
16.压裂离子匹配匹配的计算离子分数(每个离子系列)
17.seqCov匹配离子的序列覆盖率(每个离子系列)
18.int匹配匹配离子强度(每个离子系列)
有关这些功能的进一步讨论,请参阅补充信息1(支持信息)。

通过使用目标/诱饵吉祥物搜索结果以及基本和扩展特征集进行后续Percolator训练,与仅使用AMT/质量过滤特征的吉祥物Percolator性能相比,肽识别性能分别提高了6%和11%(图2和支持信息图2). 由于500ppm和20ppm搜索的识别次数相同,因此基本和扩展特征集似乎有效地替代了强质量精度鉴别器的必要性。

因此,具有包括吉祥物评分和肽特征以及离子匹配统计数据的吉祥物Percolator分别比MIT和MHT多58%(52%)和33%(29%)的真阳性(独特)肽,分别为1.0%q个-标准20 ppm搜索的值(图2). 这意味着与MIT和MHT相比,蛋白质识别率分别增加15%和6%。

总的来说,这些结果是对所有当前吉祥物评分方法(包括AMT)的重大改进,并且消除了在放松质量公差下搜索高精度数据以提高灵敏度的需要,如参考文献25

吉祥物检波器在低质量精度数据中的应用

以下评估与样本2有关,样本2是在用于评估Sequest Percolator的LTQ仪器上获得的酵母数据集。为了比较吉祥物Percolator和Sequest Percolator,随后的实验不仅基于相同的数据,还基于Käll等人描述的相同目标/诱饵数据库和搜索参数。,14唯一的例外是胰蛋白酶特异性参数。

使用MIT和MHT,6426和7541个真阳性鉴定(图3,麻省理工学院,MHT)q个-值分别为0.7%和1.0%(吉祥物显著性阈值限制为0.1,对应于q个-值0.7%)。与Mascot Percolator一起使用的基本功能集使MIT和MHT的灵敏度分别提高了39%和19%以上,达到1.0%q个-价值(图3,MP基本)。当应用扩展特征集时,灵敏度进一步提高了40%以上(图3,MP扩展)。与MIT和MHT相比,这涉及在标准1.0%下分别为84%(74%)和57%(49%)的(独特)肽鉴定增益q个-价值,转化为蛋白质鉴定分别增加57%和38%。总的来说,这些结果进一步支持了Mascot Percolator相对于默认MIT和MHT的性能优势。

保存图片、插图等的外部文件。对象名称为ukmss-5069-f0003.jpg

确定了每个PSM的估计正确数量q个-基本和扩展吉祥物Percolator(MP)运行、调整后的吉祥物阈值(AMT)、吉祥物身份阈值(MIT)和吉祥物同源性阈值(MHT)以及Sequest Percolator的值截止。

此外,基本特征集和扩展特征集之间的Mascot Percolator性能差异明显大于样本1中的数据,突出了特征贡献对于不同数据集可能有很大差异,并证明了Percolator算法的动态和自适应特性(参考文献14,补充2). 可以推测,低精度数据受益于更多的鉴别特征,而高精度数据由于搜索参数和已知电荷状态的限制,在基本特征集上已经达到了最大灵敏度。

此外,Käll等人将胰蛋白酶特异性确定为一个强烈的鉴别特征,因此他们在没有酶特异性的情况下进行搜索。14然而,由于搜索空间更大,这种做法明显更加占用CPU。当指定了半胰蛋白酶而不是胰蛋白酶时,吉祥物中的搜索时间慢1个数量级;当没有定义酶的特异性而不是胰酶时,则慢2个数量级(http://www.matrixscience.com/pdf/2006 WKSHP1.pdf). 因此,Mascot Percolator不使用任何与酶特异性相关的特征,但使用扩展的特征集保持敏感性,性能与Sequest Percolator相当(图3)。

标准蛋白质数据集验证

The robustness and precision of theq个-原始Percolator出版物的补充材料中验证了该值。14使用的目标/诱饵搜索策略q个-价值估计是一种被广泛接受的方法,但产生诱饵数据库的方法多种多样。因此,我们评估了q个-该值是Matrix Science decoy.pl脚本(参见方法)和蛋白质标准数据集(示例3)的结果。使用Mascot Percolator,使用相同的目标,但独立生成的随机数据库,执行十次Mascot搜索并进行分析。这使得可以计算q个-价值计算。对于每个估计值q个-值,通过计算与预期蛋白质序列不匹配的错误PSM来确定相应的观察FDR。

人们发现q个-两种吉祥物Percolator版本(基本和扩展特征集)的价值估计与预期蛋白质序列获得的结果非常一致(图4). 这意味着灵敏度的提高(支持信息图3)使用马斯科特Percolator时,仅限于预期错误率范围内的有效序列。此外,相同的数据集用于要求更高的no-enzyme搜索,并且显示出类似的准确性q个-价值评估,证明稳健的评分(支持信息图4)。

保存图片、插图等的外部文件。对象名称为ukmss-5069-f0004.jpg

估计q个-根据蛋白质标准数据集报告的延长和基本吉祥物Percolator跑步的错误发现率绘制数值。虚线表示标准错误。

总的来说q个-价值评估表明,所选特征中没有一个会导致严重低估或高估q个-这些值可以被视为对实际错误率的准确可靠的估计。与使用MIT或MHT的标准Mascot结果相比,这是一个显著的改进,我们之前已经表明,实际的FDR可能与预期的FDR相差数倍。25

结论

最近引入了Percolator机器学习算法来重新搜索Sequest结果,并证明显著提高了肽和蛋白质鉴定的灵敏度。Percolator为每个数据集独立学习分类器,从而适应不同数据集之间的固有差异,例如更改分析协议或仪器。在这项工作中,我们实现并评估了吉祥物Percolator,这是一个将吉祥物与Percolator连接在一起的软件包。它自动从目标/诱饵吉祥物搜索结果中提取并计算相关特征,训练Percolator,将结果分类器应用于每个PSM并写入结果文件。Mascot Percolator是作为命令行工具开发的,可以很容易地集成到现有管道中,也可以作为独立应用程序使用。研究了大量与PSM质量相关的特征,如Mascot评分、亲本和片段质量准确性、肽、蛋白质以及离子匹配统计等。

我们已经证明,与使用MIT和MHT相比,Mascot Percolator在高质量和低质量精度数据方面大大优于以前的Mascot评分方法,在最佳情况下,识别出的独特肽分别多74%和49%,蛋白质分别多57%和38%。这表明,当几个定义PSM质量的因素共同用于评分而不是仅用于一个指标时,可以提高识别潜力。此外,我们还表明q个-这些值与实际FDR非常吻合,与吉祥物阈值相比,精确度有了显著提高。

确认

我们感谢Lukas Käll提供和支持Percolator以及许多有益的讨论,感谢Matrix Science的John Cottrell提供与吉祥物相关的支持和功能建议,感谢Jenny Mattison和Mark Collins批判性阅读手稿。这项工作由Wellcome信托基金资助。

缩写

微软质谱法
PSM公司肽谱匹配
麻省理工学院吉祥物身份阈值
MHT公司吉祥物同源阈值
AMT公司调整吉祥物阈值
财务总监错误发现率

脚注

可用的支持信息:使用50、25、10、5和3 ppm的质量偏差过滤器设置,评估调整后的吉祥物阈值(AMT)的性能,放松(500 ppm)和严格(20 ppm)吉祥物搜索的吉祥石过山车性能,使用基本和扩展特征集对蛋白质标准数据集在以下范围内的MIT和MHT性能q个-值和没有任何酶约束的补充特征信息。此材料可通过互联网免费获取,网址为网址:http://pubs.acs.org

工具书类

(1)Hunt DF、Henderson RA、Shabanowitz J、Sakaguchi K、Michel H、Sevilir N、Cox AL、Appella E、Engelhard VH。用质谱法对与I类MHC分子HLA-A2.1结合的肽进行表征。科学。1992;255:1261–1263.[公共医学][谷歌学者]
(2)Wolters DA,Washburn MP,Yates JR.,III鸟枪蛋白质组学的自动化多维蛋白质鉴定技术。分析。化学。2001年;73:5683–5690.[公共医学][谷歌学者]
(3)Desiere F、Deutsch EW、Nesvizhskii AI、Mallick P、King NL、Eng JK、Aderem A、Boyle R、Brunner E、Donohoe S、Fausto N、Hafen E、Hood L、Katze MG、Kennedy KA、Kregenow F、Lee H、Lin B、Martin D、Ranish JA、Rawlings DJ、Samelson LE、Shiio Y、Watts JD、Wollscheid B、Wright ME、Yan W、Yang L、Yi EC、Zhang H、Aebersold R。通过高通量质谱获得的肽序列与人类基因组整合。基因组生物学。2005年;6:R9。 [PMC免费文章][公共医学][谷歌学者]
(4)de Godoy LM,Olsen JV,de Souza GA,Li G,Mortensen P,Mann M.通过质谱进行完整蛋白质组分析的现状:SILAC标记酵母作为模型系统。基因组生物学。2006;7:R50。 [PMC免费文章][公共医学][谷歌学者]
(5)Foster LJ、de Hoog CL、Zhang Y、ZhangY、Xie X、Mootha VK、Mann M.通过蛋白质相关分析绘制的哺乳动物细胞器图。单元格。2006;125:187–199.[公共医学][谷歌学者]
(6)Eng JK,McCormack AL,Yates JR。一种将肽串联质谱数据与蛋白质数据库中氨基酸序列相关联的方法。《美国社会质谱学杂志》。1994;5:976–989.[公共医学][谷歌学者]
(7)Perkins DN、Pappin DJ、Creasy DM、Cottrell JS。通过使用质谱数据搜索序列数据库进行基于概率的蛋白质鉴定。电泳。1999;20:3551–3567.[公共医学][谷歌学者]
(8)Craig R,Beavis RC。串联质谱:将蛋白质与串联质谱相匹配。生物信息学。2004;20:1466–1467.[公共医学][谷歌学者]
(9)Resing KA、Meyer Arendt K、Mendoza AM、Aveline Wolf LD、Jonscher KR、Pierce KG、Old WM、Cheung HT、Russell S、Wattawa JL、Goehle GR、Knight RD、Ahn NG。通过鸟枪蛋白质组学提高鉴定人类蛋白质的再现性和敏感性。分析。化学。2004;76:3556–3568.[公共医学][谷歌学者]
(10)Keller A、Nesvizhskii AI、Kolker E、Aebersold R。估算通过MS/MS和数据库搜索进行肽鉴定准确性的经验统计模型。分析。化学。2002;74:5383–5392.[公共医学][谷歌学者]
(11)Anderson DC,Li W,Payan DG,Noble WS。蛋白质组学中鸟枪肽测序评估的新算法:肽MS/MS光谱和SEQUEST评分的支持向量机分类。蛋白质组研究杂志。2003;2:137–146.[公共医学][谷歌学者]
(12)Elias JE、Gibbons FD、King OD、Roth FP、Gygi SP。通过机器学习从串联质谱库中识别基于强度的蛋白质。自然生物技术。2004;22:214–219.[公共医学][谷歌学者]
(13)Ulintz PJ,Zhu J,Qin ZS,Andrews PC。使用更新的机器学习方法改进质谱数据库搜索结果的分类。摩尔细胞。蛋白质组学。2006;5:497–509.[公共医学][谷歌学者]
(14)Käll L、Canterbury JD、Weston J、Noble WS、MacCoss MJ。从鸟枪蛋白质组数据集半监督学习肽鉴定。自然方法。2007;4:923–925.[公共医学][谷歌学者]
(15)Moore RE,Young MK,Lee TD.Qscore:评估SEQUEST数据库搜索结果的算法。《美国社会质谱学杂志》。2002;13:378–386.[公共医学][谷歌学者]
(16)Colinge J、Masselot A、Giron M、Dessingy T、Magnin J.OLAV:走向高通量串联质谱数据识别。蛋白质组学。2003;:1454–1463.[公共医学][谷歌学者]
(17)克拉默尔AA,麦考斯MJ。改良消化方案对复杂混合物中蛋白质鉴定的影响。蛋白质组研究杂志。2006;5:695–700. [PMC免费文章][公共医学][谷歌学者]
(18)Benjamini Y,Hochberg Y。控制错误发现率:一种实用且强大的多重测试方法。J.R.Stat.Soc.,塞尔维亚。B。1995;57:289–300. [谷歌学者]
(19)Käll L,Storey JD,MacCoss MJ,Noble WS。使用诱饵数据库对串联质谱鉴定的肽进行重要性赋值。蛋白质组研究杂志。2008;7:29–34.[公共医学][谷歌学者]
(20)Storey JD,Tibshirani R.全基因组研究的统计意义。程序。国家。阿卡德。科学。美国。2003;100:9440–9445. [PMC免费文章][公共医学][谷歌学者]
(21)Käll L,Storey JD,MacCoss MJ,Noble WS。后验错误概率和错误发现率:同一枚硬币的两面。蛋白质组研究杂志。2008;7:40–44.[公共医学][谷歌学者]
(22)Zubarev RA,Hakansson P,Sundqvist B.通过单同位素分子质量测量确定肽特征的准确性要求。分析。化学。1996;68:4060–4063. [谷歌学者]
(23)Zubarev R,Mann M.关于蛋白质组学中质量准确性的正确使用。摩尔细胞。蛋白质组学。2007;6:377–381.[公共医学][谷歌学者]
(24)Elias JE,Gygi SP。通过质谱法提高大规模蛋白质鉴定信心的目标经济搜索策略。自然方法。2007;4:207–214。[公共医学][谷歌学者]
(25)Brosch M、Swamy S、Hubbard T、Choudhary J.吉祥物与X的比较!用于低精度和高精度质谱的串联性能以及调整吉祥物阈值的开发。摩尔细胞。蛋白质组学。2008;7:962–970. [PMC免费文章][公共医学][谷歌学者]
(26)Käll L,Storey JD,Noble WS。与串联质谱法鉴定的肽相关的后验误差概率的非参数估计。生物信息学。2008;24:i42–48。 [PMC免费文章][公共医学][谷歌学者]
(27)Rodriguez J,Gupta N,Smith RD,Pevzner PA。胰蛋白酶在脯氨酸之前切割吗?蛋白质组研究杂志。2008;7:300–305.[公共医学][谷歌学者]
(28)Beausoleil SA、Villen J、Gerber SA、Rush J、Gygi SP。高通量蛋白质磷酸化分析和位点定位的基于概率的方法。国家生物技术。2006;24:1285–1292.[公共医学][谷歌学者]