蛋白质组研究杂志。作者手稿;PMC 2010年7月6日发布。
以最终编辑形式发布为:
预防性维修识别码:PMC2710313型
美国国立卫生研究院:美国国立卫生研究院118901
改进Percolator算法以从鸟枪蛋白质组数据集识别肽
,1 ,1 ,1 ,2,三和2,4,*
玛丽娜·斯皮瓦克
1NEC Research,美国新泽西州普林斯顿
杰森·韦斯顿
1NEC Research,美国新泽西州普林斯顿
莱昂·博图
1NEC Research,美国新泽西州普林斯顿
卢卡斯·卡尔
2美国华盛顿大学基因组科学系
三瑞典斯德哥尔摩大学生物化学和生物物理系生物膜研究中心
威廉·斯塔福德·诺布尔
2美国华盛顿大学基因组科学系
4美国华盛顿州西雅图华盛顿大学计算机科学与工程系
1NEC Research,美国新泽西州普林斯顿
2美国华盛顿大学基因组科学系
三瑞典斯德哥尔摩大学生物化学和生物物理系生物膜研究中心
4美国华盛顿州西雅图华盛顿大学计算机科学与工程系
- 补充资料
1_si_001:图7:补充图:Q-ranker算法的性能随着隐藏单元数量的变化而变化(17个特征)。每个面板都将接受的PSM数量绘制为以下函数q个值阈值。每个面板对应于指定的培训或测试集。这些结果基于17元素特征向量。图8:补充图:Q-ranker使用替代评估策略表现良好 q个 值。每个面板都绘制了被认可的独特肽的数量,这些肽被识别为q个值。在这个实验中,q个使用Elias描述的FDR估计程序计算值等。[12]. 该系列对应于三种不同的算法,包括Q-ranker和Percolator的两种变体,它们使用17个特征和37个特征。
图9:补充图:Q-ranker在考虑识别的不同肽数量时表现良好。这个数字与除了每个图中的y轴是识别出的不同肽的数量,而不是接受的PSM的总数之外。每个面板绘制不同肽的数量作为q个值。该系列对应于三种不同的算法,包括Q-ranker和Percolator的两种变体,它们使用17个特征和37个特征。
图10:补充图:当训练集和测试集肽不重叠时,Q-ranker表现良好。该图与图9类似,只是训练集和测试集之间的划分使得两组之间的肽没有重叠。每个面板绘制不同肽的数量作为q个值。该系列对应于两种不同的算法,每种算法都有两种变体,分别使用17个功能和37个功能。
图11:补充图:Q-ranker的性能优于线性SVM。该图显示了我们的算法与胰蛋白酶消化酵母数据集上的线性SVM之间的比较。每个面板绘制不同肽的数量作为q个值。该系列对应于三种不同的算法,包括使用17个特征和37个特征的每个算法的变体。
表4:补充表:特征对肽计数的贡献。表中的每一行都列出了在q个<0.01,如果从具有17个特征的Q-Ranker算法的特征集中消除了相应的特征。
指南:69AF729E-81D2-4101-AF48-82B37FC2401E
摘要
Shotgun蛋白质组学结合数据库搜索软件可以在单个实验中识别大量肽。然而,一些现有的搜索算法,如SEQUEST,使用的评分函数主要用于识别给定光谱的最佳肽。因此,当比较光谱之间的标识时,SEQUEST得分函数Xcorr公司未能准确区分正确和不正确的肽鉴定。提出了几种机器学习方法来解决由此产生的区分正确和错误肽谱匹配(PSM)的分类任务。最近的一个例子是Percolator,它使用半监督学习和诱饵数据库搜索策略来学习区分由数据库搜索算法识别的正确和错误PSM。目前的工作描述了Percolator的三项改进。(1) Percolator的启发式优化被一个明确的目标函数取代,其选择背后有直观的原因。(2) 使用可牵引非线性模型代替线性模型,从而提高了原始Percolator的精度。(3) 一种Q-ranker方法,用于在指定条件下直接优化已识别光谱的数量q个提出了价值,从而获得了进一步的收益。
关键词:鸟枪蛋白质组学、串联质谱、机器学习、肽鉴定
1引言
鸟枪蛋白质组学质谱实验为给定的生物样品产生一组光谱,每一个光谱都可以通过以下方法映射回其生成肽从头开始或数据库搜索技术(请参阅[26,25]). 对于任何数据库搜索过程来说,评分函数都至关重要,它评估观察到的光谱和候选肽之间的匹配质量。这一职能起着两个互补的作用。首先,该功能将候选肽相对于单个光谱进行排序,为每个光谱生成一个得分最高的肽谱匹配(PSM)。其次,该函数将来自不同光谱的PSM彼此进行排序。后者,绝对排名任务本质上比相对排名任务更难。根据定义,完美的绝对排名函数也是完美的相对排名函数,但反之则不然,因为PSM分数可能无法从一个谱到下一个谱进行很好的校准。
已经开发了多种方法来从实际数据中学习PSM评分函数。通常,这些PSM后处理方法的输入是相对分数,以及代表PSM质量的光谱、肽和特征的属性。肽营养素[19]例如,使用SEQUEST数据库搜索算法计算的四个统计信息作为线性判别分析分类器的输入。该系统通过从已知蛋白质的纯化样品中提取的标记正确和错误的PSM进行训练。其他方法使用替代特征表示或分类算法,如支持向量机(SVM)[1]或决策树[11].
这些机器学习方法的一个缺点是,它们通常不能很好地泛化不同的机器平台、色谱条件等。因此,当实验条件发生变化时,必须获取新的训练集,而这种获取和训练可能会很昂贵。
为了解决这个问题,已经描述了几种针对每个新数据集调整模型参数的方法。例如,肽营养素使用固定的线性判别函数,但将其与后处理器耦合,后处理器将得到的无单位判别分数映射到估计的概率。在PeptidePhrophet的原始版本中[19],该映射函数是使用期望最大化(EM)算法以无监督的方式从每个数据集学习的(即,不知道哪些PSM是正确的,哪些是错误的)[9].
随后,描述了几种使用半监督学习根据每个新数据集调整模型参数。与监督学习不同的是,在监督学习中,给定的训练集是完全标记的,而半监督学习者则被提供一个部分标记的训练集。在PSM评分的背景下,这些标签是使用诱饵数据库创建的[24]. 每个光谱针对真实(“目标”)蛋白质数据库搜索一次,针对由反向蛋白质数据库组成的诱饵数据库搜索一次[24],已洗牌[20]或Markov-chain生成的蛋白质[6]. 与目标数据库的匹配是未标记的,它们可能是正确的,也可能不是正确的(我们预计50-90%是假阳性)。但与诱饵数据库的匹配可以被自信地标记为“不正确”
PeptideProphet的半监督版本[5]使用诱饵PSM改进从判别分数到概率的映射。在EM步骤中,肽噬菌体包括诱饵PSM,迫使它们被标记为“不正确”。产生的概率比以无监督方式估计的概率要准确得多。
Percolator算法[17]将半监督方法向前推进了一步。Percolator不是使用固定的判别函数,而是使用半监督学习作为后处理器,而是以半监督的方式解决整个问题,学习一个函数,该函数将诱饵PSM始终排在高置信度目标PSM的子集之下。Percolor使用一种基于SVM的迭代算法,首先识别一小组高得分目标PSM,然后学习将其与诱饵PSM分离。将学习的分类器应用于整个集合,如果识别出新的高置信度PSM,则重复该过程。算法成功的关键是基于估计的错误发现率的统计评分过程[2],这可以防止高置信度PSM集爆炸。
肽营养素的后续版本[10]以类似的方式扩展了该算法。与Percolator一样,最新版本的PeptidePhrophet调整判别函数的参数以反映数据集的特定特征,并允许算法使用多个PSM来识别最佳评分肽。此外,该算法在其模型中使用了频谱质量度量。
尽管Percolator的性能很好,但算法本身有点启发式;实际上,Percolator究竟优化了什么,以及该算法的迭代优化过程是否可证明收敛,目前尚不清楚。目前的工作提出了一种新颖、有根据的方法来解决这个问题。虽然只有部分与目标数据库的匹配是积极的例子,但我们选择将此问题视为带有噪声标签的完全监督分类问题;即,我们将所有目标PSM标记为“正确”(但其中一些标记错误),而所有诱饵PSM标记“不正确”。然而,我们定义了一个损失函数,该函数不会严重惩罚远离决策边界的示例。这样,不正确的目标PSM不会强烈影响学习过程。我们展示了这种损失选择如何优于更经典的损失函数选择,以及在线性情况下,它如何产生与原始结果相似的结果半监督的Percolator算法。使用完全监督方法的一个重要优点是,与Percolator相比,新方法定义了一个清晰、直观的目标函数,其最小化已知收敛。此外,生成的分类器可以使用易于处理的非线性模型进行训练,从而显著改善Percolator的结果。随后,我们对我们的算法进行了修改,直接优化了PSM相对于用户特定统计置信阈值的数量。指定所需置信阈值的能力先验的在实践中是有用的,并导致结果的进一步改进。新算法Q-ranker在Crux 2.0版中实现,该版本的源代码位于http://noble.gs.washington/proj/crux.
2材料和方法
2.1数据集
我们使用了四个先前描述的数据集来测试我们的算法[17]. 第一个是包含69705个目标PSM和两倍于诱饵PSM数量的酵母数据集。这些数据是从一种未分离酵母裂解物的胰蛋白酶消化物中获得的,并使用四小时反相分离进行分析。在整个工作中,通过使用SEQUEST将肽分配到没有酶特异性和没有氨基酸修饰的光谱中。接下来的两组数据来自相同的酵母裂解物,但由不同的蛋白水解酶处理:弹性蛋白酶和糜蛋白酶。这些数据集分别包含57860和60217个目标PSM以及两倍于此数量的诱饵PSM。最终数据集源自秀丽线虫用胰蛋白酶消化的蛋白质水解物,并与酵母数据集进行类似处理。
每个PSM都使用中列出的17个功能来表示注意,Percolator最初使用了20个功能。在这项工作中,我们删除了利用蛋白质级信息的三个特征,因为很难通过诱饵数据库搜索准确验证使用此类信息的方法。我们还为每个肽定义了20个额外的特征,也在,对应于给定肽中氨基酸的计数。使用这些附加特征可以生成长度为37的特征向量。
表1
用于表示PSM的功能前十个特征由SEQUEST计算。第3.6节中使用了特征18-37。
1 | XCorr公司 | 计算光谱和观测光谱之间的相互关系 |
2 | ΔC类n个 | 电流和次优XCorr之间的分数差 |
三 |
| 当前和第五个最佳XCorr之间的分数差 |
4 | 服务提供商 | 肽与预测片段离子值的初步评分 |
5 | ln(rSp) | 基于Sp得分的比赛排名的自然对数 |
8 | 质量 | 观测质量[M+H]+ |
6 | ΔM | 计算质量与观测质量的差异 |
7 | abs(ΔM) | 计算质量与观测质量之差的绝对值 |
9 | 离子压裂 | 匹配的b和y离子的分数 |
10 | ln(数量) | 指定m/z范围内数据库肽数量的自然对数 |
11 | enzN公司 | 布尔值:肽前面有酶(胰蛋白酶)位点吗? |
12 | enzC公司 | 布尔值:肽有酶(胰蛋白酶)C末端吗? |
13 | enzInt公司 | 缺失的内部酶(胰蛋白酶)位点数量 |
14 | pepLen蛋白 | 匹配肽的长度,以残基计 |
15–17 | 充电1–3 | 指示充电状态的三个布尔特征 |
18–37 | A、 …,Y | 20种氨基酸的计数 |
2.2统计置信度估计
在整个工作中,我们使用q个价值[28]作为分配给每个PSM的统计置信度。如果我们指定分数阈值t吨并参考得分高于t吨作为认可的PSM,然后错误发现率(FDR)被定义为接受的不正确PSM的百分比(即,产生光谱时质谱仪中不存在肽)。这个q个值定义为接受给定PSM的最小FDR阈值。请注意q个值是与用于评估SEQUEST结果的Qscore方法无关的通用统计置信度[24].
我们计算q个使用诱饵PSM的值[18],通过根据洗牌蛋白质序列数据库搜索每个光谱得出。表示目标PSM的分数(f)1,(f)2,…,(f)米(f)以及诱饵PSM的分数d日1,d日2,…,d日米d日。对于给定的分数阈值t吨,接受的PSM数量(正)为P(P)(t吨) = |{(f)我>t;我= 1,…,米(f)}|. 阳性中假阳性的估计数量由下式给出,其中π0是不正确的目标PSM的估计比例。在这项工作中,如前所述[17],我们使用固定π0= 0.9. 然后我们可以在给定的阈值下估计FDRt吨作为
这个q个分配给分数的值(f)我就是那个时候
3结果
3.1一种有监督的目标诱饵识别算法
给出一组示例(PSM)(x个1, …x个n个)(粗体表示向量)和相应的标签(年1, …年n个),目标是选择一个判别函数(f)(x个),因此
要查找(f)(x个)我们首先选择一个参数化函数族,然后在该函数族中搜索最适合经验数据的函数。使用损失函数测量拟合质量我((f)(x个),年)它量化了(f)(x个)和真正的标签年.
首先,我们考虑由线性模型实现的函数族:
权重的可能选择定义了函数族的成员。
为了找到使损失最小的函数,我们选择使用梯度下降,因此损失函数本身必须是可微的。这一要求使我们无法简单地计算错误的数量(标签错误的示例),这称为零损失。典型的可微损失函数包括神经网络中常用的平方损失[22],铰链损失,用于支持向量机[8]和乙状结肠丢失。这些损失函数如所示.
损失函数的三种类型每个面板将损失绘制为真实和预测标签差异的函数。平方损失我((f)(x个),年) = ((f)(x个) −年)2通常用于回归问题,也用于分类[22]. 铰链损失我((f)(x个),年)=最大值(0,1−伊夫(x个))在支持向量机中用作零损失的凸近似[8]. 乙状结肠丢失我((f)(x个),年) = 1/经验(1+(f)(x个))可能不太常用,但在中进行了讨论,例如[23,27].
一般来说,选择合适的损失函数对实现良好性能至关重要。对选择损失函数的见解来自问题域。在当前设置中,我们可以安全地假设,给定搜索算法产生的PSM中有很大一部分是不正确的,这可能是因为用于识别PSM的分数函数无法准确识别正确的肽,或者是因为光谱对应于给定数据库中不存在的肽,翻译后修饰的肽、异质肽或非肽污染物。因此,在这种情况下,理想的损失函数将对数据中的多个误报具有鲁棒性。换句话说,如果错误分类的例子离分离超平面太远,理想的损失函数不会严重惩罚错误分类的示例。考虑中的损失函数,sigmoid损失是唯一具有所需性质的函数:当年我(f)(x个)<-5,梯度接近于零。另一方面,平方损失对于远离边界的错误分类示例比靠近边界的示例具有更大的梯度,而铰链损失线性地惩罚示例(如果示例分类错误,则其具有恒定的梯度)。因此,我们推测sigmoid损失函数应该比备选方案工作得更好。
3.2监督学习产生的性能与Percolator相当
我们通过使用目标诱饵搜索策略测量学习的评分函数的性能来测试这一推测。在本实验中,我们使用了一组通过酵母全细胞裂解液的微柱液相色谱MS/MS获得的光谱。使用SEQUEST搜索这些光谱[13]针对一个目标数据库和两个独立洗牌的诱饵数据库,生成一组PSM。对于给定的目标PSM排名,我们使用相应的诱饵PSM集合来估计q个值(第2.2节)。我们的目标是为给定的q个值。因此,在,我们将已识别PSM的数量绘制为q个值阈值。
损失函数的比较每个面板绘制酵母(A)训练集和(B)测试集的可接受PSM数量,作为q个值阈值。每个系列对应于中所示的三个损失函数之一,包括Percolator和SEQUEST系列用于比较。
为了确保有效的实验,我们将目标和诱饵PSM分成两个相等的部分。我们对由前半部分阳性和阴性组成的数据集进行训练,并将后半部分数据用作测试集。这个q个值估计来自测试集,而不是训练集。这种方法比[17]其中积极的例子被用于培训和测试。然而尽管如此,在随后的实验中,我们保留了序列和测试集的完全分离。
比较了XCorr、Percolator和使用三种不同损失函数训练的线性模型的排名性能。图中显示,例如,Percolator算法在q个值阈值为0.01。正如预期的那样,S形损失在我们考虑的其他两个损失函数中占主导地位,即平方损失和铰链损失。
事实上,带有S形损失的线性模型获得了与Percolator算法几乎相同的结果。这种一致性可以用以下方式解释。Percolator还使用带有铰链损失函数的线性分类器(线性SVM)。然而,在每次迭代中只有一部分正面示例用作标记训练数据根据超平面的位置。其他具有较小值的正面示例年我(f)(x个我)在训练中被忽视。因此,可以说它们的梯度为零;因此,铰链损失函数在某一点上被“切割”,这样它就不再线性地惩罚任何距离上的错误,如切铰损失实际上是乙状函数的分段线性版本。事实上,这种切割铰链损失以前已经使用过,被称为斜坡损失[7]. 因此,通过使用sigmoid损失函数,我们开发了一种方法,该方法解释了Percolator算法的启发式选择,但实现了直接、直观的目标函数。此后,我们将这种方法称为“直接分类”
“切割”铰链损失会产生一种称为斜坡损失使铰链损失具有零梯度z(z)=年我(f)(x个) <秒对于某些选定值秒有效地生成了sigmoid函数的分段线性版本。
3.3非线性判别函数族提高了性能
在确定了使用线性模型的直接分类和Percolator在该数据集上的性能之后,我们接下来通过考虑两层神经网络来考虑非线性函数族
哪里小时k个(x个)定义为tanh((w个k个)⊤x个+b条k个)、和w个k个和b条k个索引的权重向量和阈值k个第个隐藏单元。
我们可以通过增加或减少神经网络的隐藏单元数来选择非线性判别函数族的容量。基于对酵母训练数据集的初步实验,我们选择第一层具有五个线性隐藏单元。中的实验比较结果表明,在相同的数据集上,非线性分类器的性能优于线性模型。对于每个q个在图中,非线性模型(标有“直接分类(线性)”的实线蓝线)产生的PSM数量与线性对应物(标有“间接分类(非线性)”的实心黑线)相同或更多。
Percolator、直接分类和Q-ranker的比较该图显示了接受的PSM数量与q个酵母数据集的阈值。每个序列对应一个不同的排序算法,包括Percolator以及直接分类算法和Q-ranker的线性和非线性版本。非线性方法使用5个隐藏单元。
3.4相对于指定值进行优化的Q-ranker算法q个价值
我们已经确定,与Percolator的半监督方法相比,将我们的问题构建为一个监督分类任务,利用非线性模型,可以产生稍微改进的结果。我们现在表明,将问题重新定义为排名任务,而不是分类任务,可以获得更好的性能。
一般来说,许多鸟枪蛋白质组学实验的目标是在给定的条件下识别尽可能多的蛋白质q个值阈值。对于肽识别问题,此任务对应于找到PSM的排名,该排名可最大化指定PSM的接受数量q个值阈值。因此,为了直接解决这个排名问题,我们假设用户指定了一个特定的期望q个值阈值先验的。然后,我们搜索相对于给定的q个值。用于解决排序问题的标准公式是排序SVM[15,16],具体如下:
从属于
此算法对示例进行了重新排序,以便w个⊤x个对应于积极的例子。注意,与之前提出的分类问题相比,此公式不再具有阈值b条,因为不再预测类别标签,所以只预测排序。排名公式相当于优化接收机工作特性(ROC)曲线下的区域[14],因此将优化所有q个值。优化尝试满足每个成对排序约束。同样,正如在分类问题中一样,因为我们预计50-90%的阳性示例是误报,所以目标函数会过分关注这些示例。
然而,如果只优化某个q个值,然后重新排序示例,远远超出q个边界两侧的值阈值点对q个利息价值。因此,我们将重点放在q个值截断,并寻求对该区域中的示例进行重新排序。
因此,提出的算法如下。我们首先找到一个一般的判别式(f)(x个)使用上一节中描述的直接分类算法。然后我们指定一个q个要优化的值,并依次关注在指定值附近选择的数据集中的几个间隔q个值。区间的选择是启发式的,在我们的例子中涉及到定义一个集合属于q个阈值为0到0.1,步长为0.01,并在这些步骤上迭代。间隔ε设置为达到阈值的肽数量的两倍。在培训过程中,我们记录了指定q个每个历元后的值。指定的直接排序算法的伪代码描述q个值(Q等级)如所示.
算法1
Q-ranker算法输入变量是训练集X(X)PSM特征向量,对应的二进制标签Y(Y),表示哪些PSM是目标,哪些是诱饵问第个,共个q个值,集合阈值的q个值和数字n个训练迭代次数。这个选择随机子程序选择随机正值或负值(取决于第一个布尔参数)示例x个满足|(f)(x个)| <ε. The渐变步长子程序进行梯度步长以满足约束(f)(x个+) >(f)(x个−)+1. 算法返回学习的权重向量w个.
1: | 程序Q-等级(X(X),Y(Y),问,,n个) | |
2个: | w个← 使用直接分类初始化 | ▷ 解决直接分类问题。 |
三: | 对于 q个t吨∈问 做 | |
第4页: | 对于 q个∈ 做 | |
5: | t吨← 计算阈值(X(X),Y(Y),w个,q个) | ▷ 计算对应的阈值q个 |
第6页: | ε← 2 * |{x个∈X(X)|(f)(x个) >t吨}| | |
7: | 对于 我larr;1 …n个 做 | |
8: | x个+← 选择随机(TRUE,X(X),Y(Y),w个,ε) | ▷ 随机选择一对示例 |
9: | x个−← 选择随机(FALSE,X(X),Y(Y),w个,ε) | |
10: | w个← 渐变步长(w个,(f)(x个+),(f)(x个−)) | ▷ 更新权重。 |
11: | 结束 | |
12: | 结束 | |
13: | 将最佳结果记录在q个t吨 | |
14日: | 结束 | |
第15页: | 返回(w个) | |
16: | 结束程序 | |
Q-ranker可以简单地扩展到搜索几个问题的最优解q个通过记录每个指定的q个每个历元之后的值。在下面介绍的所有实验运行中阈值的q个值还用作一组指定的q个值。
在实践中,由于Q-ranker关注训练集的子集,我们发现使用正则化技术控制模型复杂性可以改进我们的结果。在这项工作中,我们使用了标准重量衰减程序,该程序优化了误差函数:
哪里w个我是判别函数的所有权重(f)(x个)我们正在尝试学习,并且μ是重量衰减参数,并且E类是原始的错误函数。在训练网络之前,我们执行了一个三重交叉验证程序,以选择学习速率和μ.
Q-ranker从两个方面推广了排序SVM公式:(i)该公式是非线性的(但不使用核);和(ii)如果ε是非常大的,那么算法是等价的,但是ε我们的算法开始关注给定的q个值。
有趣的是,从数据集的某个区域选择示例也大致相当于将具有高梯度的乙状结肠区域放置在阈值相关区域上q个值。因为示例比ε如果没有选取,则此方法等效于在这些区域中生成梯度为零的损失函数。这意味着我们可以用更直观的损失选择来代替用于训练一般神经网络的乙状损失函数。特别是,这里我们使用线性损耗我((f)(x个),年) = |(f)(x个) −年|这实际上成为了“斜坡损失”(c.f。)围绕q个扁平零件的阈值为±ε。因为我们正在解决非线性情况下的排名问题,所以我们现在选择具有以下架构的网络:
也就是说,我们不再有最终的偏置输出。
3.5 Q-ranker产生更好的性能
我们在胰蛋白酶消化的酵母数据集上测试了我们的直接分类和Q-ranker算法从图中可以清楚地看出,尽管线性Q-ranker算法没有比直接分类算法改进,但使用非线性结构会带来很大的改进,尤其是对于较大的q个值。非线性架构的其他选择(隐藏单元的数量)如所示补充图7每一项都提高了Percolator的性能。
与第3.1节中描述的直接分类方法相比,当观察到任何给定的训练行为时,Q-ranker也会产生更一致的训练行为q个值。为了说明这种现象,我们固定了间隔εQ-ranker算法由与指定阈值相对应的单个阈值定义q个价值。显示不同指定的结果q个值在训练直接分类模型的过程中发生变化。PSM数量过低q个数值阈值(例如,0.0075、0.01)在训练早期达到峰值,然后变得次优,而最高q个价值阈值需要更长的时间才能实现。这意味着在培训过程中q个根据迭代次数优化值阈值。相反,如所示,Q-ranker算法学习指定的最佳决策边界q个值阈值,并且在进一步培训期间不会与最佳结果有实质性差异。此行为表明算法实际上优化了所需数量。因此,在接下来的实验中,我们选择Q-ranker作为我们的算法,并将其与Percolator和PeptidePhrophet进行了进一步的比较。
训练优化方法的比较(迭代与错误率)Q-ranker优化从训练过程中获得的直接优化的最佳结果开始,并继续进行300次迭代。这些结果在训练集上。请注意,对于每个q个值选择,Q-ranker将训练误差提高到分类算法的最佳结果之上。
3.6跨多个数据集的算法比较
在最后一轮实验中,我们比较了Q-ranker、Percolator和两个版本的PeptidePhrophet的性能,这两个版本是原始参数版本[19],它假设诱饵分数按照伽马分布分布,目标分数按照高斯分布,以及一种更新的半参数方法[4],它使用核函数的混合模型来建模这两种分布。对于两组肽营养素结果,我们使用算法的半监督版本[5]. 为Percolator、Q-ranker和PeptidePhrophet提供相同的诱饵PSM。对于Percolator和Q-ranker,我们使用50%的PSM进行训练,50%用于测试,就像以前一样。PeptidePhrophet不提供在一组数据上学习模型参数并将所学模型应用于第二组数据的能力;因此,通过将算法应用于整个数据集来生成PeptidePhropet结果。这种差异给了PeptidePhrophet一个优势,因为该算法从两倍多的数据中学习其模型,并且不会因过拟合而受到惩罚。
我们使用17或37个特征报告结果,如,用于Percolator和Q-Ranker。显示了使用第2.1节中描述的四个数据集进行的此实验的结果。在四个数据集中,Q-ranker在所有数据集中始终优于PeptidePhrophetq个值阈值。的左半部分显示了使用17个特征作为输入的所有四个数据集上Percolator和Q-ranker的详细比较。在q个值为0.05或0.10时,Q-ranker比Percolator或PeptidePhrophet产生更多可接受的目标PSM,而Percolator对q个< 0.01.
PeptideProphet、Percolator和Q-ranker在四个数据集上的比较每个面板都将接受的目标PSM数量绘制为以下函数q个值。该系列对应于三种不同的算法,包括使用17个特征和37个特征的两种Q-ranker变体。
表2
Percolator和Q-ranker在17和37个特征数据集上的比较表中的每个条目表示给定算法(列)在给定指定数据集上接受的PSM数量q个值(行)。粗体显示的条目表明,对于此数据集,此算法的性能优于其他算法,并且q个值阈值。
| | 17个功能 | 37个功能 |
---|
数据集 | q个价值 | 渗滤器 | Q-等级 | 渗滤器 | Q-等级 |
---|
酵母胰蛋白酶 | 0.01 | 5917 | 5885 | 5983 | 6072 |
| 0.05 | 6793 | 6940 | 6813 | 7501 |
| 0.1 | 7168 | 7610 | 7200 | 8430 |
|
酵母弹性蛋白酶 | 0.01 | 1389 | 1380 | 1491 | 1615 |
| 0.05 | 1806 | 1851 | 1958 | 2140 |
| 0.1 | 2103 | 2196 | 2301 | 2561 |
|
酵母糜蛋白酶 | 0.01 | 2077 | 2086 | 2158 | 2312 |
| 0.05 | 2576 | 2620 | 2680 | 2844 |
| 0.1 | 2914 | 2961 | 3057 | 3214 |
|
蠕虫胰蛋白酶 | 0.01 | 5116 | 5031 | 5192 | 5238 |
| 0.05 | 5864 | 6119 | 5830 | 6419 |
| 0.1 | 6169 | 6730 | 6146 | 7128 |
理论上,当输入特征空间增加时,只要模型不超调,非线性网络可以比线性模型产生更大的效益。因此,我们尝试扩展PSM特征向量,添加20个与肽中氨基酸计数相对应的新特征。使用这些扩展向量运行Q-ranker的结果如所示,标记为“Q-ranker 37”。增加特征数量可以更大程度地提高Q-ranker的非线性版本的性能。这种影响在用糜蛋白酶和弹性蛋白酶消化的酵母裂解物得到的数据集上尤其明显。在此扩展之后,Q-ranker识别的光谱比其他任何一种算法都多,即使在q个<0.01(右半部分).
最后,我们通过测量针对特定训练网络的性能,进一步研究了Q-ranker的行为q个其他方面的价值q个值。我们专注于特定q个值0.01、0.05和0.1。显示,当使用所有37个功能时,针对指定的q个价值始终优于或等于此性能q个值,与为其他指定的q个值。
表3
Q-ranker成功优化了指定的q个价值表中的每个条目列出了给定条件下接受的PSM数量q个当优化指定的q个值(行)。粗体输入表示每列中的最大值。注意,对于每个数据集,所有对角线条目都是黑体字。
明确规定 | 酵母胰蛋白酶 | 蠕虫胰蛋白酶 | 酵母弹性蛋白酶 | 酵母糜蛋白酶 |
---|
| 0.01 | 0.05 | 0.10 | 0.01 | 0.05 | 0.10 | 0.01 | 0.05 | 0.10 | 0.01 | 0.05 | 0.10 |
---|
0.01 | 6072 | 7453 | 8360 | 5238 | 6412 | 7098 | 1615 | 2054 | 2395 | 2312 | 2843 | 3199 |
0.05 | 6032 | 7501 | 8426 | 5238 | 6419 | 7047 | 1615 | 2140 | 2561 | 2302 | 2844 | 3198 |
0.10 | 6030 | 7500 | 8430 | 5213 | 6418 | 7128 | 1615 | 2140 | 2561 | 2300 | 2830 | 3214 |
4讨论
在这项工作中,我们使用SEQUEST和Percolator组合进行了所有分析。然而,我们在这里得出的结论对不使用这些特定软件系统的研究人员具有启示意义。首先,这些结论可能会在搜索引擎中得到推广。例如,Percolator之前已经被证明可以很好地与Inspect配合使用[17]和MASCOT搜索引擎[三],所以Q-ranker很可能也会推广到这些搜索引擎。其次,我们已经证明了从半监督框架转移到具有修改损失函数的监督框架的效用,无论是在提高对目标函数最大化的理解方面,还是在提高判别力方面。类似的改变应该很简单,例如应用于半监督版本的肽营养素,可能会产生类似的益处。
在整个评估过程中,我们一直致力于最大限度地增加正确分配肽的光谱数量(即可接受的PSM数量)。可以想象,给定的算法可能会在其可以识别的肽类型上有偏差。在这种情况下,两种肽识别的相对性能可能取决于我们是计算接受的PSM的数量还是从一组光谱中识别的不同肽的数量。补充图9证明了我们的结果中没有出现这种偏差:当我们计算识别出的不同肽的数量时,我们考虑的算法的相对性能没有显著变化。
我们实验的一个令人惊讶的结果是,氨基酸组成特征提供了相对较大的益处。我们假设,这些信息允许分类器学习预期光谱的某些特征。例如,脯氨酸的存在意味着一对高强度峰对应于脯氨酸的N端裂解;许多碱性残基的存在会导致更多的+2离子,而许多疏水性残基的出现会导致更多带单电荷的+1离子[21]. 然而,之前使用氨基酸组成特征进行的Percolator实验并没有产生显著的性能改进。不同的是,在当前设置中,我们已经从半监督设置切换到完全监督设置。这个开关允许我们使用更复杂的非线性模型。通常,如果特征空间丰富,则复杂模型比简单模型有更多的改进机会。因此,尽管Percolator中的简单线性模型无法充分利用更丰富的37维特征空间,但非线性模型可以。添加成分特征也可以提高直接分类方法的性能(结果未显示),这一观察结果支持了这一结论。
另一种可能的解释是,氨基酸组成特征增加了识别能力,为算法提供了一种“作弊”的方法。在我们的实验中,我们不能保证训练集和测试集包含不相交的肽集。因此,一种算法可能会超越氨基酸组成特征,并成功识别序列和测试集中肽的重复出现。为了消除这种替代性解释,我们进行了一项后续实验,在该实验中,我们防止了相同的肽出现在训练和测试集中。结果如所示补充图10,表明Q-ranker相对于Percolator的改进性能仍然有效。
使用非线性鉴别分类器的一个缺点是难以解释所学模型。在这项工作中,我们专注于优化错误率,而不是可解释性;有时两者都很难兼得。事实上,如图11所示,在直接分类设置中简单地切换到线性SVM会显著降低性能。然而,即使使用非线性模型,通过逐个“剔除”每个特征并测量最终分类器的性能,仍然可以对各种特征的相对贡献进行一些了解。补充表4显示了在q个当我们用17个特征剔除Q-Ranker的每个特征时,<0.01。毫不奇怪,酶特征最显著,其次是得分特征(XCorr和ΔC类n个). 许多功能相对较小的百分比减少表明许多功能提供了冗余信息。通过针对相关特征组的进一步淘汰实验,可以对模型进行更详细的解释,如在[17].
值得注意的是,当我们使用替代方法时,我们考虑的方法的相对性能不会改变q个价值评估方案。埃利亚斯等。[12]主张使用目标诱饵竞争来估计FDR(即,针对目标和诱饵的串联数据库搜索每个频谱,并且仅保留单个得分最高的肽),并且针对目标和诱饵PSM的组合集合来估计FDR。表明我们的结果并不取决于我们的q个价值评估程序,我们在补充图8结果类似于,但使用根据Elias的方案估计的FDRs等。即使在这种情况下,Q-ranker算法也优于Percolator和两个版本的PeptidePhrophet。
通常,使用较大的特征空间通常需要伴随大量的训练示例。对于较小的光谱集合,或者对于有效正例数较少的低质量光谱,我们预计较大的特征空间会导致过拟合。在当前版本的软件中,用户必须明确检查过拟合,并明确选择正则化参数。我们未来工作的一个重点是通过调整正则化参数或降低模型的复杂性来实现和验证用于避免此类过拟合的稳健方法。
5结论
我们描述了一系列算法,这些算法以各种方式改进了Percolator算法。给定未标记的目标PSM和负标记的诱饵PSM,Percolator将此问题视为半监督分类问题。在这项工作中,我们使用有监督的方法来解决同一问题。这一改变使我们能够陈述一个明确的目标函数,也使我们能够推广到更强大的非线性模型。最后,如果用户愿意指定所需的置信阈值,那么Q-ranker算法会找到与指定阈值相关的最佳排名,从而获得相对于Percolator或PeptidePhrophet的持续改进的性能。直接分类和Q-ranker算法都在Crux工具包中实现,该工具包的源代码来自http://noble.gs.washington.edu/proj/crux.
补充材料
1_si_001
图7:补充图:Q-ranker算法的性能随着隐藏单元数量的变化而变化(17个特征)。每个面板都将接受的PSM数量绘制为以下函数q个值阈值。每个面板对应于指定的培训或测试集。这些结果基于17元素特征向量。
图8:补充图:Q-ranker使用替代评估策略表现良好 q个 值。每个面板都绘制了被认可的独特肽的数量,这些肽被识别为q个值。在这个实验中,q个使用Elias描述的FDR估计程序计算值等。[12]. 该系列对应于三种不同的算法,包括Q-ranker和Percolator的两种变体,它们使用17个特征和37个特征。
图9:补充图:Q-ranker在考虑识别的不同肽数量时表现良好。这个数字与除了每个图中的y轴是识别出的不同肽的数量,而不是接受的PSM的总数之外。每个面板绘制不同肽的数量作为q个值。该系列对应于三种不同的算法,包括Q-ranker和Percolator的两种变体,它们使用17个特征和37个特征。
图10:补充图:当训练集和测试集肽不重叠时,Q-ranker表现良好。该图与图9类似,只是训练集和测试集之间的划分使得两组之间的肽没有重叠。每个面板绘制不同肽的数量作为q个值。该系列对应于两种不同的算法,每种算法都有两种变体,分别使用17个功能和37个功能。
图11:补充图:Q-ranker的性能优于线性SVM。该图显示了我们的算法与胰蛋白酶消化酵母数据集上的线性SVM之间的比较。每个面板绘制不同肽的数量作为q个值。该系列对应于三种不同的算法,包括使用17个特征和37个特征的每个算法的变体。
表4:补充表:特征对肽计数的贡献。表中的每一行都列出了在q个<0.01,如果从具有17个特征的Q-Ranker算法的特征集中消除了相应的特征。
致谢
6资金
这项工作由NIH奖R01 EB007057资助。
工具书类
1Anderson DC,Li W,Payan DG,Noble WS。蛋白质组学中鸟枪肽测序评估的新算法:肽MS/MS光谱和固存分数的支持向量机分类。蛋白质组研究杂志。2003;2(2):137–146.[公共医学][谷歌学者] 2Benjamini Y,Hochberg Y。控制错误发现率:一种实用且强大的多重测试方法。英国皇家统计学会学报B。1995;57:289–300. [谷歌学者] 三。Brosch M、Yu L、Hubbard T、Choudhary J。用吉祥物Percolator准确、灵敏地鉴定肽。2008提交。[PMC免费文章][公共医学][谷歌学者] 4Choi H,Ghosh D,Nesvizhskii A.使用目标经济数据库搜索策略和灵活混合物建模对大规模蛋白质组学中的肽鉴定进行统计验证。蛋白质组研究杂志。2008;7(1) :286–292。[公共医学][谷歌学者] 5Choi H,Nesvizhskii AI.基于质谱的蛋白质组学中肽鉴定的半监督模型验证。蛋白质组研究杂志。2008;7(1):254–265.[公共医学][谷歌学者] 6Colinge J、Masselot A、Giron M、Dessingy T、Magnin J.OLAV:走向高通量串联质谱数据识别。蛋白质组学。2003;三:1454–1463.[公共医学][谷歌学者] 7Collobert R、Sinz F、Weston J、Bottou L。大型传导性svms。机器学习研究杂志。2006;7:1687–1712. [谷歌学者] 8Cortes C,Vapnik V.支持向量网络。机器学习。1995;20:273–297. [谷歌学者] 9Dempster AP、Laird NM、Rubin DB。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会杂志。1977;39:1–22. [谷歌学者] 10Ding Y,Choi H,Nesvizhskii A.自适应判别函数分析和MS/MS数据库搜索结果的重新排序,用于改进鸟枪蛋白质组学中的肽鉴定。蛋白质组研究杂志。2008;7(11):4878–4889. [PMC免费文章][公共医学][谷歌学者] 11Elias JE、Gibbons FD、King OD、Roth FP、Gygi SP。通过机器学习从串联质谱库中识别基于强度的蛋白质。自然生物技术。2004年;22:214–219.[公共医学][谷歌学者] 12Elias JE,Gygi SP。通过质谱法提高大规模蛋白质鉴定信心的目标经济搜索策略。自然方法。2007;4(3) :207–214。[公共医学][谷歌学者] 13Eng JK,McCormack AL,Yates JR.,III将肽串联质谱数据与蛋白质数据库中氨基酸序列关联的方法。美国质谱学会杂志。1994;5:976–989.[公共医学][谷歌学者] 14Hanley JA,McNeil BJ。接收机工作特性(ROC)曲线下面积的含义和使用。放射科。1982;143:29–36.[公共医学][谷歌学者] 15Herbrich R,Graepel T,Obermayer K。序数回归的支持向量学习。第九届人工神经网络国际会议论文集。1999:97–102. [谷歌学者] 16Joachims T.使用点击数据优化搜索引擎。ACM SIGKDD知识发现和数据挖掘会议(KDD)2002:133–142. [谷歌学者] 17Käll L、Canterbury J、Weston J、Noble WS、MacCoss MJ。一种半监督机器学习技术,用于从鸟枪蛋白质组数据集识别肽。自然方法。2007;4:923–25.[公共医学][谷歌学者] 18Käll L,Storey JD,MacCoss MJ,Noble WS。使用诱饵数据库对串联质谱鉴定的肽进行重要性赋值。蛋白质组研究杂志。2008;7(1):29–34.[公共医学][谷歌学者] 19Keller A、Nesvizhskii AI、Kolker E、Aebersold R。估算通过MS/MS和数据库搜索进行肽鉴定准确性的经验统计模型。分析化学。2002;74:5383–5392.[公共医学][谷歌学者] 20克拉默尔AA,麦考斯MJ。改良消化方案对复杂混合物中蛋白质鉴定的影响。蛋白质组研究杂志。2006;5(3):695–700. [PMC免费文章][公共医学][谷歌学者] 21Klammer AA、Reynolds SR、Hoopmann M、MacCoss MJ、Bilmes J、Noble WS。用动态贝叶斯网络模拟肽片段,可改进串联质谱鉴定。生物信息学。2008;24(13) :i348–i356。 [PMC免费文章][公共医学][谷歌学者] 22LeCun Y、Bottou L、Orr GB、Müller KR。高效后支柱。收录人:Orr G,Müller KR,编辑。神经网络:交易技巧。施普林格;1998年,第9-50页。[谷歌学者] 23Mason L,Bartlett PL,Baxter J.通过显式优化裕度改进泛化。机器学习。2000;38(3):243–255. [谷歌学者] 24Moore RE,Young MK,Lee TD.Qscore:评估隔离数据库搜索结果的算法。美国质谱学会杂志。2002;13(4):378–386.[公共医学][谷歌学者] 25Nesvizhskii AI、Vitek O、Aebersold AR。串联质谱法产生的蛋白质组数据的分析和验证。自然方法。2007;4(10):787–797.[公共医学][谷歌学者] 26Hernandez MMP,Appel RD。串联质谱自动蛋白质鉴定:问题和策略。质谱检查。2006;25:235–254.[公共医学][谷歌学者] 27Shen X、Tseng GC、Zhang X、Wong WH。打开(psi)-学习。美国统计协会杂志。2003;98(463):724–734. [谷歌学者] 28Storey JD公司。错误发现率的直接方法。英国皇家统计学会杂志。2002;64:479–498. [谷歌学者]