与竞争方法的比较
使用两个测试将CRYSTALP2方法与SECRET、CRYSTALP、OB-Score、ParCrys和XtalPred方法进行比较:在D418数据集上进行交叉验证测试,以及在FEAT数据集上训练模型并在test、test-RL和test-NEW数据集上测试的测试。这些测试模拟了[22,23]. 我们在表中报告了精确度、马修斯相关系数(MCC)和ROC曲线下面积(AROC)2ROC曲线表示真阳性(TP)率和假阳性(FP)率之间的关系;它是通过对预测值的置信分数建立阈值,然后改变阈值来生成的。这使得分析员能够比较不同TP或FP速率下的预测质量,这在分析员必须考虑I型和II型错误的不同成本时非常重要(即错误地放弃结晶尝试或在无法成功时继续尝试成本更高吗?)D418的结果,SECRET方法的TEST和TEST-RL数据集取自[20]和[23]; CRYSTALP、ParCrys和OB-Score的结果来自[22]和[23],使用位于的web服务器计算XtalPred预测http://ffas.burnham.org/XtalPred[45]. 假设XtalPred产生最优、次优和平均输出的目标是可结晶的,而其余两类(困难和非常困难)则假设对应于非结晶链。这种赋值可以获得最佳的预测质量。ROC曲线中提供了与其他赋值相对应的结果,即XtalPred ROC曲线的每个点,如图所示1对应于一个潜在的赋值。ParCrys-W是指通过在具有不均匀结晶链和非结晶链的不同数据集上训练ParCrys方法而获得的预测[23]. TEST数据集包括大小不受限制的序列,因此只报告ParCrys、OB-score和CRYSTALP2的结果。ParCrys和XtalPred的TEST-NEW数据集上的结果是使用位于http://www.compbio.dundee.ac.uk/xtal/cgi-bin/input.pl和http://ffas.burnham.org/XtalPred分别是。
表2显示CRYSTALP2比CRYSTALP有了改进。虽然两种方法在D412数据集上显示出相同的质量,但CRYSTAL在TEST-RL数据集上的表现相对较差。这可能是由于输入特征在该方法中未被规范化;TEST-RL集合的蛋白质链大小分布与D418集合不同。我们观察到,CRYSTALP2在该测试集上获得的MCC=0.4,这与OB评分的结果相似,仅比ParCrys和XtalPred的结果差。同时,该方法在TEST集上的性能优于除XtalPred外的所有竞争方法,该集大于TEST-RL数据集,并且包含大小不受限制的链。对最大TEST-NEW数据集的测试表明,ParCrys、XtalPred和CRYSTALP2这三种性能最好的方法提供了类似的性能,准确度约为70%,MCC和AROC分别约为0.4和0.75。
图中的ROC曲线1为TEST、TEST-RL和TEST-NEW数据集上的三种最佳执行方法(CRYSTALP2、ParCrys和XtalPred)生成,以便于进行更详细的比较。我们观察到,对于TEST数据集,CRYSTALP2在FP速率的中低范围值方面优于ParCrys(当相对较少的链被错误地归类为可结晶链时),而当FP速率>0.6时,ParCrys生成的TP速率稍高。因此,当错误地将链分类为可结晶链的成本很高时,CRYSTALP2比ParCrys更合适。在该数据集上,XtalPred的表现通常优于ParCrys和CRYSTALP2。在TEST-RL数据集的情况下,与CRYSTALP2相比,ParCrys和XtalPred可以提供良好的预测质量。最后,最大TEST-NEW数据集上的ROC曲线表明,这三种方法在整个FP和TP速率范围内的性能相似。总的来说,尽管XtalPred似乎在所有三个数据集上都提供了良好的性能,但我们观察到没有明确的赢家,而且所有三种方法都提供了相对可比的预测质量。
这一相似性能的发现促使对前三种预测方法的互补性进行了调查。我们将CRYSTALP2的预测与XtalPred和ParCrys的预测进行了比较,将它们分为四类:1)对CRYSTALB2和XtalPred(或ParCrys)都正确的预测;2) CRYSTALP2预测正确,XtalPred(或ParCrys)预测错误;3) CRYSTALP2预测错误,XtalPred(或ParCrys)预测正确;和4)对CRYSTALP2和XtalPred(或ParCrys)的预测都不正确。结果如表所示三; 我们注意到,我们无法在中复制ParCrys的结果[23]通过使用web服务器,因此我们无法在表中的TEST和TEST-RL数据集上与此方法进行比较三类别(1)和(4)的分数显示重叠的结果,而第二和第三类表示互补预测的数量。结果表明,CRYSTALP2对XtalPred和ParCrys都是互补的。例如,TEST-NEW数据集的结果表明,CRYSTALP2对XtalPred和ParCrys分别错误预测的大约14.8%和12.8%的输入蛋白质链提供了正确预测。同时,XtalPred和ParCrys分别对TEST-NEW数据集中出现错误的15.5%和14.2%的链进行了正确预测。总的来说,CRYSTALP2、XtalPred和ParCrys的预测分别只有69.8%和73%的输入链重叠。为了进一步研究互补性,我们实现了一个基于多数投票的元分类程序,该元分类程序从CRYSTALP2、XtalPred和ParCrys对链进行预测,并输出3种方法中至少有2种方法同意的分类。当且仅当基分类器互补时,元分类器将改进单个基分类器。我们的元分类器在TEST-NEW数据集上获得了73.4%的准确率和0.48的MCC。与ParCrys在该数据集上获得的最佳准确度相比,多数投票预测值将错误率降低了(73.4-70.6)/(100-70.6”=2.8/29.4=9.5%。因此,我们得出结论,提出的CRYSTALP2方法、ParCrys和XtalPred相互补充,提供了可比较的预测质量,并且优于其他三种方法。我们强调,CRYSTALP2和XtalPred之间的互补性表明,计算黑盒方法(如CRYSTALB2)为结构生物学家的“手动”工作提供了有用的支持,如在XtalPret中建模。
对拟议序列表示法的讨论
为CRYSTALP2选择的88个特征包括直接从序列计算的组成和配位矢量的元素,以及通过考虑氨基酸链的特定物理化学性质从序列推导的pI和疏水性。我们注意到,在过去的几项研究中使用了后两个特征[16,17,21,23],而前面的86个功能集是作为在[22]. 我们研究这两个数据来源,即序列和序列的物理化学性质,在预测结晶倾向的背景下是否提供了互补或冗余信息。
表4比较了使用三个特征子集时的预测质量:1)pI和疏水性;2) 基于构图和搭配的特征;3) 全部88项功能。在TEST-NEW、TEST和TEST-RL数据集上的实验表明,使用88个特征的组合集可以获得更好的预测结果。与仅使用86个基于搭配的特征获得的结果相比,根据使用的数据集,CRYSTALP2的准确性提高了12.5%至7.4%。同样,与仅利用pI和疏水性特征的预测相比,CRYSTALP2预测提高了0.5%至9.7%。当将CRYSTALP2与仅基于搭配特征以及pI和疏水性的预测进行比较时,AROC的改善范围分别为0.06和0.1,0.03和0.13。我们使用TEST-NEW、TEST和TEST-RL数据集上三组特征的ROC曲线进一步探讨了预测质量的上述差异,见图2曲线显示,对于TEST、TEST-RL和TEST-NEW数据集,使用86个基于序列的特征进行预测的特点是,对于低FP率,预测的质量更好或可比较,分别高达0.55、0.5和0.2。这种低FP速率产生的较高TP速率对应于预测,其中错误地预测了少量序列能够结晶,而正确地预测了较多链可以结晶。相反,使用这两种物理化学性质进行预测会导致高FP速率值的TP速率较高。根据这些观察结果,我们得出结论,这两种数据来源提供了补充信息。我们还观察到,所有88个特征的组合导致ROC曲线适用于整个FP率范围。
在下文中,我们研究了CRYSTALP2使用的各个功能。我们表明,基于残基搭配的特征涉及氨基酸类型,这些氨基酸类型也用于结晶增强突变。然后,我们讨论了各个特征与预测结果的关联。
表面熵减少方法,即基于点突变的替换具有高构象熵的溶剂暴露的残基(例如Glu(e)、Gln(Q)和Lys(K)),用具有较低构象熵和较高介导晶体接触潜力的残基(例如Ala(A)、Tyr(Y)、Thr(T)、Ser(S)和His(H))提供了一种可行的策略来最小化结晶时的构象熵损失,并使结晶在热力学上有利[46,47,37]. 突变位点的选择通常考虑到它们在序列中的邻近性[37,47,48],这在概念上类似于我们的配置向量方法。同时,ParCrys和XtalPred方法使用了几个AA类型的组合,而不考虑它们的接近性。参与表面熵降低的八种AA类型可能表明蛋白质具有低/高结晶倾向,它们出现在CRYSTALP2使用的73%的特征中。由于这些氨基酸在蛋白质链中的总丰度约为41%,因此它们在我们的特征集中的较高发生率表明CRYSTALP2隐含地应用了构象熵信息。我们注意到,ParCrys使用了Ser(S)、Gly(G)、Cys(C)、Phe(F)、Tyr(Y)和Met(M)AAs的组成。其中只有两种AA类型与结晶增强突变中建议的残基相关,这进一步支持了我们关于CRYSTALP2和ParCrys之间互补性的主张。类似地,XtalPred分析Cys(C)、Met(M)、Trp(W)、Tyr(Y)和Phe(F)AAs的组成,并且在这些氨基酸类型中,只有Y出现在突变背景中。
由于CRYSTALP2使用非线性黑盒模型来表示所有输入特征与预测结果之间的关系,因此不可能直接使用该模型来确定单个特征与特定结果之间的关联。相反,我们计算了单个特征与相应蛋白质链注释(可结晶与不可结晶)之间的双列相关系数,以量化关联强度。总之,我们观察到CRYSTALP2使用的75个特征具有弱绝对相关系数值(<0.1)。虽然单个特征的有用信息很少,但分类模型通过组合来自多个特征的信息来利用这些单独的弱相关性。其余13个具有较高系数值的特征包括(相关系数显示在括号中)L-E(0.28)、SS(0.25)、L(0.20)、T-S(0.16)、GL(0.15)、R-S(0.14)、I--E(0.14。我们观察到,上述搭配包括AA类型,与XtalPred使用的AA类型互补(C、F、M、W和Y;只有一种AA类型F是常见的)。当我们考虑ParCrys时也是如此,ParCrys使用C、F、G、M、S和Y的组合(只有F、G和S是通用的)。
为了检查并置肽与结晶性的关系,我们将13个特征(不包括pI)分为两个子集,可以预期与结晶或非结晶类别相关。鉴于E、Q和K是高熵残基,我们认为搭配包括这些残基和与其相关的残基(即L-E、i---E、E---F、L、GL和L---L),与非结晶链相关。类似地,A、Y、T、S和H具有更高的介导晶体接触的潜力,用于注释与可结晶链相关的其余相关搭配(即SS、T-S、R-S、F-S、S---H和S-T-S)。我们聚合(汇总)了每个子集的相应特征值,并对比了两个结果之间的结果值,见图3A级我们还将这些结果与表示pI和疏水性的图表进行了比较,见图3B公司我们观察到,无论是搭配的使用,还是pI和疏水性,都无法在这两类蛋白质链之间产生明确的分离。同时,正如预期的那样,与可结晶链相关的配位发生率高的链往往会导致成功的结晶,反之亦然;请参见图的右下角和左上角3A级分别是。相比之下,图3B公司表明尽管较高的pI值与较小的结晶可能性有关,但疏水性没有显示出任何明显的趋势。
CRYSTALP2预测分析
我们还检查了CRYSTALP2在第二次测试中获得的结果(FEAT培训、test-NEW、test和test-RL数据集测试)。有两个问题值得关注:1)如果FEAT数据集的大小增加,预测质量是否会提高(将有更多结晶报告可用)?以及2)所提出的方法对每个预测结果的表现如何。
培训数据集大小的影响
我们选择FEAT数据集的子集,并在这些简化的数据集上重新训练NRBF分类器(使用相同的参数)。子集为10%、20%、30%,。。。,FEAT数据集的90%,根据均匀分布随机选择,无需替换。通过精确度和MCC测量的预测质量,用于TEST-NEW、TEST-RL和TEST数据集的FEAT的每个子集,如图所示4.
在TEST-RL中,预测质量比TEST和TEST-NEW数据集变化更大。尽管如此,我们可以看出这三个数据集的预测质量总体呈上升趋势。TEST和TEST-NEW数据集的趋势更为清晰,我们观察到,随着训练中包含更多FEAT数据集,预测质量会提高,并且在使用整个FEAT数据集中时,预测质量达到最大值。最重要的是,我们观察到,即使考虑到训练数据集的很大一部分,即80%、90%和100%,改进率也相对恒定。这一趋势的内插表明,在训练数据集中包含更多数据可能会进一步提高预测质量。
图中的线性回归4表明TEST和TEST-NEW数据集的改进幅度大于TEST-RL数据集,这突出了这些数据集之间的差异。我们注意到,FEAT、TEST-NEW和TEST包括大小不限的序列,而TEST-RL仅包括长度在46到200个残基之间的序列。序列大小分布的差异可能是TEST和TEST-NEW数据集更强改进的原因。
可结晶和非结晶蛋白质的预测结果
我们分别分析了CRYSTALP2方法预测可结晶和非结晶蛋白质的性能。使用敏感性=TP/(TP+FN)和特异性=TN/(TN+FP)测量两种结果的预测质量,见表5我们注意到,这两个度量对于两类分类是对称的,即一类的特异性等于另一类的敏感性,反之亦然。TEST-NEW、TEST和TEST-RL的结果是一致的,它们表明CRYSTALP2为预测可结晶蛋白质提供了更高的灵敏度。这意味着,与非结晶链的预测相比,正确预测了实际(真实)结晶链的更高比例。预测为可结晶的非结晶链数量高于预测为不可结晶的结晶链数量,这表明,与确认结晶失败的任务相比,在确认给定链适合结晶的情况下,所提出的方法更好。