CRYSTALP2: sequence-based protein crystallization propensity prediction

Kurgan, Lukasz; Razib, Ali A; Aghakhani, Sara; Dick, Scott; Mizianty, Marcin; Jahandideh, Samad

doi:10.1186/1472-6807-9-50

方法论文章
开放式访问
出版：2009年7月31日

CRYSTALP2：基于序列的蛋白质结晶倾向预测

BMC结构生物学 体积 9，物品编号：50(2009)引用这篇文章

10公里访问
54引文
韵律学细节

摘要

背景

目前的研究方案为小于30%的已知蛋白质生成晶体，这表明自动识别可结晶蛋白质可以提高高通量结构基因组学的工作。我们介绍了CRYSTALP2，这是一种基于核的方法，可以预测给定蛋白质序列产生衍射质量晶体的倾向。该方法利用氨基酸的组成和搭配、等电点和疏水性（根据一级序列估计）来生成预测。CRYSTALP2扩展了其前身CRYSTALP，支持对大小不受限制的序列进行预测，并提高了预测质量。

结果

CRYSTALP2使用的大多数搭配包括具有高构象熵的残基，或用于调节晶体接触的低熵和高电位残基；值得注意的是，这些残留物被表面熵减少方法所利用。我们表明，这些搭配为疏水性和等电点提供了补充信息。对四个数据集的测试表明，CRYSTALP2优于几个现有的基于序列的预测因子（CRYSTALP、OB-score和SECRET）。CRYSTALP2的精度、MCC和AROC的范围分别为69.3%和77.5%、0.39和0.55、0.72和0.79。我们的预测在质量上类似，并且与最新的ParCrys和XtalPred方法的预测是互补的。我们的结果还表明，随着蛋白质结晶工作的继续（从而扩大具有已知结晶倾向的蛋白质的数量），CRYSTALP2方法的预测质量应该会提高。此贡献中使用的预测模型和数据集可从以下网址下载http://biomine.ece.ualberta.ca/CRYSTALP2/CRYSTALP2.html.

结论

CRYSTALP2为特定蛋白质链提供了相对准确的结晶倾向预测，该预测优于或补充了现有方法。该方法可用于支持当前提高衍射质量晶体获得成功率的努力。

背景

结构基因组学是一项全球倡议，旨在绘制蛋白质结构空间的综合图[1]. 由此产生的蛋白质三级结构的知识对于理解和操纵给定蛋白质的生物化学和细胞功能至关重要。这是合理药物设计的重要一步[2]并对重要疾病提供有价值的见解[三]. 有几种不同的方法可以获得结构，包括X射线衍射、电子显微镜和核磁共振。虽然大多数蛋白质结构是通过第一种方法获得的，但后两种方法对一些蛋白质类型（如膜蛋白）起到了很强的互补作用[4——6]. 结构基因组学倡议面临的主要挑战之一是，只有约2-10%的蛋白质目标追求高分辨率蛋白质结构[7]. 已经提出了几种提高成功率的策略，包括每个蛋白质家族获得一个代表性结构，以及使用多个同源物[8——11]. 获得这种结构最重要的瓶颈之一是获得衍射质量的晶体[12——14]. 同时，结晶具有显著的磨损速度，是结构生物学中最复杂、最难理解的问题之一[10]. 目前的方案产生了大约30%的输入蛋白质的晶体，以及更小部分的良好衍射晶体[10]. 这推动了可用于支持或直接预测蛋白质结晶的模型的开发[15]. 例如，根据一级序列计算的等电点（pI）用于建议结晶筛选最佳pH范围的方法[16,17]. 其他几项研究表明，来自蛋白质序列的特征可用于预测结晶倾向[18,19]. 为此，最近开发了一些硅内方法，这些方法使用一级序列作为输入来预测结晶倾向。其中包括机密[20]，OB-核心[21]，晶体[22]和最近的ParCrys[23]. SECRET和CRYSTALP只接受长度在46到200个氨基酸（AAs）之间的序列。尽管OB评分没有对序列大小施加限制，但它只考虑了两个预测特征（pI和疏水性），这限制了其预测的质量。ParCrys方法通过使用基于核的分类算法并将几个氨基酸（包括Ser、Cys、Gly、Phe、Tyr和Met）的组成向量添加到预测特征集中来扩展OB核。所有这些方法都是使用黑盒分类模型构建的，这些模型是从一组蛋白质链中归纳得出的，这些蛋白质链都被标注为可结晶和非结晶。相比之下，XtalPred方法[24]是一种白盒方法，它结合了根据几个蛋白质特征计算的成功结晶概率。该方法是根据结构基因组学联合中心的经验开发的，旨在模仿结构生物学家的工作。XtalPred将输入蛋白质的九个生化和生物物理特征与根据TargetDB数据库数据估计的概率分布进行了比较http://targetdb.pdb.org/[25]. 这些特征包括蛋白质长度、分子量、肉汁指数和不稳定性指数、消光系数、等电点、Cys、Met、Trp、Tyr和Phe残基的含量、与非冗余蛋白质序列数据库中同源物相比的比对插入、预测的二级结构、预测的无序、，低复杂度和螺旋区，预测跨膜螺旋和信号肽。将各个概率组合成一个单一的结晶分数，用于分配五个结晶类别中的一个：最优、次优、平均、困难和非常困难。XtalPred提供了一个很好的比较基准，因为它使用了复杂的序列分析（包括几个预测），并为结构生物学家的常规“手动”工作建模。

在当前的文章中，我们扩展了CRYSTALP方法，以提高预测的质量并消除序列大小限制。与CRYSTALP相比，提出的CRYSTALP2方法使用新的预测特征，这些预测特征基于氨基酸在序列中的配置[22,26——29]，包括关于pI和疏水性的信息，并应用基于核的分类器。我们的目标是提供一种相对简单的方法，即我们不使用复杂的序列分析。因此，我们希望我们的方法能够补充当前的方法，包括XtalPred和ParCrys。我们还注意到，许多研究表明，基于序列的预测方法可以解决蛋白质的各种结构和功能特性，为基础研究和药物设计提供有用的信息和见解，因此受到科学界的广泛欢迎[30——34].

方法

我们的方法包括两个步骤：（1）将蛋白质序列转换为固定大小的特征向量，（2）将特征值输入分类模型以预测蛋白质类别（可结晶/不可结晶）。我们遵循与中相同的设计程序[20,22]我们的评估如下[20,22,23].

数据集集合

该方法的设计基于418个蛋白质（以下简称D418）的数据集，其中包括192个非结晶链和226个结晶链，该数据集是在[20]. 遵循保密设计和测试方法[20]和CRYSTALP[22]，该设计基于D418数据集的十倍交叉验证。我们将D418的样本外预测与SECRET和CRYSTALP进行了比较。我们还使用了最近引入的三个数据集[23]以及在本贡献中引入的一个新的测试数据集，用于将CRYSTALP2与CRYSTALP、SECRET、OB Score、ParCrys和XtalPred进行比较。这四个数据集来自TargetDB[25]和百事可乐http://pepcdb.pdb.org/通过应用在[23]. 我们使用FEAT数据集（由1456个序列组成，728个可结晶序列和728个不可结晶序列）作为训练数据集，而TEST和TEST-RL数据集分别由144个序列（72个可结晶和72个非结晶序列）和86个序列（43个可结晶或43个非结晶）组成，用作样本外测试集。测试数据集中的序列是非冗余的（使用CD-HIT[35]对于D418，使用AMPS[36]对于TEST和TEST-RL），以避免对类似蛋白质的任何偏见，并确保训练和测试数据之间的独立性。D418和TEST-RL数据集包括长度在46到200个残基之间的链，而FEAT和TEST数据集包括无限制长度的链（最小42个残基，最大1169个残基）。该实验设计与[23]. 我们还引入了一个新的2000个蛋白质测试数据集（以下简称test-new），用于评估最近考虑的目标的预测质量；我们注意到FEAT、TEST和REST-RL数据集基于2007年4月之前沉积的蛋白质。该数据集模拟了所提方法的大规模应用，并按照[23]. 可结晶的蛋白质是从储存在TargetDB中的序列中提取的。我们选择了截至2008年12月31日的最后1000个沉积，这些沉积被标注为具有“衍射质量晶体”，并且在“状态”字段中没有标注“In PDB”。结果包括2006年7月至2008年12月期间沉积的蛋白质。从储存在PepcDB中的试验序列中提取与所使用的实际构建体序列相对应的非结晶序列。集合中包括在“状态”字段中注释为“停止工作”和“克隆”但在“状态历史”字段中不包括结晶指示器（例如“晶体”）的序列。在这些靶点中，我们删除了DNA序列、注释为“测试目标”的序列以及“stopDetails”中包含“发现重复目标”的顺序。与可结晶链的情况一样，对剩余链进行过滤，以选择截至2008年12月31日的最后1000个沉积物。还对所选2000个序列进行了处理，以去除C末端的N末端hexaHis标签（MGHHHHHSH）和LEHHHH标签，这两个标签用于简化纯化；同样是在[23]. 最后，我们删除了重复序列，因此，所选的2000条蛋白质链是非冗余的。我们在此数据集上的结果与ParCrys和XtalPred方法的预测进行了比较。

特征生成

这个合成向量以前用于预测结晶倾向[20,22,23]. 给定20个AA(A类,C类,...,W公司,Y（Y）)，按字典顺序排列，表示为AA公司₁,AA公司₂,...,AA公司₁₉、和AA公司₂₀，以及的出现次数AA公司_我按顺序（表示n个_我)，合成向量定义为

哪里k个是序列的长度。

这个氨基酸配位载体首次用于[22]并且它被定义为被间隙分隔的两个或多个氨基酸，即任何类型的氨基酸的出现次数。晶体[22]使用了两个氨基酸（并置二肽）的配位向量，这两个氨基酸被最多四个间隙隔开，即。，AA公司_我AA公司_j个,AA公司_我-AA公司_j个,AA公司_我--AA公司_j个,AA公司_我---AA公司_j个、和AA公司_我---AA公司_j个，其中AA公司_我AA公司_j个是二肽，AA公司_我-AA公司_j个是由任何类型的一个氨基酸（用-表示）等分开的同一个二肽。这产生了5*400=2000个搭配特征。对于CRYSTALP2，我们还考虑并置三肽，其中包括8000个三肽AA公司_我AA公司_j个AA公司_k个和24000个单间隙三肽，AA公司_我AA公司_j个-AA公司_k个,AA公司_我-AA公司_j个AA公司_k个、和AA公司_我-AA公司_j个-AA公司_k个与CRYSTALP相反，所有并置二肽和三肽的出现次数均按序列长度标准化，以便预测大小不受限制的序列。我们注意到，蛋白质链中的局部邻域信息也被用于最近设计可结晶蛋白质变体的方法中[37].

我们还使用了pI和疏水性作为特征。在OB-score中使用了pI[21]、ParCrys[23]和XtalPred[24]与结晶筛分效率密切相关[16,17]. 使用ExPASy服务器计算pI值[38]基于中所述氨基酸的pK值[39]. 基于序列的疏水性也用于[21,23]. 如中所示[23]，疏水性计算为Goldmann-Engleman-Steiz（GES）疏水性值之和[40]对于所有残基，除以序列长度。计算的特征总数为34022。

功能选择

由于初始特征集相对较大，因此使用了一种特征选择方法来减少特征数量并识别出最有用的特征。我们采用了基于相关性的特征子集选择方法（CFSS）[41]，以前用于设计CRYSTALP[22]. CFSS通过考虑每个特征的单独预测能力以及特征之间的冗余度来评估特征子集的值。特征选择中采用的搜索策略是最佳优先搜索。该搜索方法通过使用带回溯的贪婪爬山来探索属性子集的空间。在D418数据集上使用10倍交叉验证进行特征选择，以避免过拟合，并选择CFSS认为在至少1倍内重要的特征。由于初始特征集的维数较大，特征选择分两步进行。首先，我们从组成和并置二肽特征（在晶体中使用）、三肽和并置三肽中选择了性能最佳的特征。这导致选择了1103个特征，即来自组成向量的2个特征，94个来自并置的二肽，250个来自三肽，757个来自并集的三肽，pI和疏水性。将这些特征合并在一起，并重复进行特征选择。这导致了最终的88个功能集，如表所示1我们观察到，CRYSTALP仅使用了15个选定特征；这是由于特征值的归一化和在所提出的CRYSTALP2中包含新特征。

表1选定的功能集。

全尺寸桌子

分类器

SECRET和ParCrys方法使用基于核的分类器作为其预测模型。SECRET使用具有高斯核的支持向量机，而ParCrys使用Parzen窗口密度估计器。我们使用另一种基于核的技术，即归一化高斯径向基函数（RBF）网络，它是一种基于非线性高斯核函数的具有隐藏层的神经网络。与经典RBF网络相比[42]，归一化RBF（NRBF）网络已被证明可以提高泛化能力，从而在看不见的测试数据上获得更好的性能[43]. 我们在WEKA中使用了NRBF实现[44]其中，RBF函数是使用k-均值聚类算法计算的，即对称多元高斯拟合到每个k-均值生成的聚类的数据中，并且分类基于逻辑回归。该分类器要求将聚类数、高斯核的宽度和逻辑回归的岭值指定为训练参数。集群的数量等于2，这是我们问题中的类数（预测结果）。其他两个参数是在D418数据集上使用十倍交叉验证测试进行网格搜索的基础上选择的。当岭值为140且粒宽为2.0时，获得了最佳分类精度。我们注意到，CRYSTALP2生成的每个预测都与一个置信分数相关，该置信分数定义为两种结果的概率之间的差异。NRBF网络生成一个概率，即给定的输入链被预测为可结晶和不可结晶。CRYSTALP2预测，当此类的置信度大于非结晶类的置信度时，可以获得衍射质量的晶体。

结果和讨论

与竞争方法的比较

使用两个测试将CRYSTALP2方法与SECRET、CRYSTALP、OB-Score、ParCrys和XtalPred方法进行比较：在D418数据集上进行交叉验证测试，以及在FEAT数据集上训练模型并在test、test-RL和test-NEW数据集上测试的测试。这些测试模拟了[22,23]. 我们在表中报告了精确度、马修斯相关系数（MCC）和ROC曲线下面积（AROC）2ROC曲线表示真阳性（TP）率和假阳性（FP）率之间的关系；它是通过对预测值的置信分数建立阈值，然后改变阈值来生成的。这使得分析员能够比较不同TP或FP速率下的预测质量，这在分析员必须考虑I型和II型错误的不同成本时非常重要（即错误地放弃结晶尝试或在无法成功时继续尝试成本更高吗？）D418的结果，SECRET方法的TEST和TEST-RL数据集取自[20]和[23]; CRYSTALP、ParCrys和OB-Score的结果来自[22]和[23]，使用位于的web服务器计算XtalPred预测http://ffas.burnham.org/XtalPred[45]. 假设XtalPred产生最优、次优和平均输出的目标是可结晶的，而其余两类（困难和非常困难）则假设对应于非结晶链。这种赋值可以获得最佳的预测质量。ROC曲线中提供了与其他赋值相对应的结果，即XtalPred ROC曲线的每个点，如图所示1对应于一个潜在的赋值。ParCrys-W是指通过在具有不均匀结晶链和非结晶链的不同数据集上训练ParCrys方法而获得的预测[23]. TEST数据集包括大小不受限制的序列，因此只报告ParCrys、OB-score和CRYSTALP2的结果。ParCrys和XtalPred的TEST-NEW数据集上的结果是使用位于http://www.compbio.dundee.ac.uk/xtal/cgi-bin/input.pl和http://ffas.burnham.org/XtalPred分别是。

表2通过精度、MCC和AROC测量的拟议方法和五种竞争方法的预测质量比较。

全尺寸桌子

表2显示CRYSTALP2比CRYSTALP有了改进。虽然两种方法在D412数据集上显示出相同的质量，但CRYSTAL在TEST-RL数据集上的表现相对较差。这可能是由于输入特征在该方法中未被规范化；TEST-RL集合的蛋白质链大小分布与D418集合不同。我们观察到，CRYSTALP2在该测试集上获得的MCC=0.4，这与OB评分的结果相似，仅比ParCrys和XtalPred的结果差。同时，该方法在TEST集上的性能优于除XtalPred外的所有竞争方法，该集大于TEST-RL数据集，并且包含大小不受限制的链。对最大TEST-NEW数据集的测试表明，ParCrys、XtalPred和CRYSTALP2这三种性能最好的方法提供了类似的性能，准确度约为70%，MCC和AROC分别约为0.4和0.75。

图中的ROC曲线1为TEST、TEST-RL和TEST-NEW数据集上的三种最佳执行方法（CRYSTALP2、ParCrys和XtalPred）生成，以便于进行更详细的比较。我们观察到，对于TEST数据集，CRYSTALP2在FP速率的中低范围值方面优于ParCrys（当相对较少的链被错误地归类为可结晶链时），而当FP速率>0.6时，ParCrys生成的TP速率稍高。因此，当错误地将链分类为可结晶链的成本很高时，CRYSTALP2比ParCrys更合适。在该数据集上，XtalPred的表现通常优于ParCrys和CRYSTALP2。在TEST-RL数据集的情况下，与CRYSTALP2相比，ParCrys和XtalPred可以提供良好的预测质量。最后，最大TEST-NEW数据集上的ROC曲线表明，这三种方法在整个FP和TP速率范围内的性能相似。总的来说，尽管XtalPred似乎在所有三个数据集上都提供了良好的性能，但我们观察到没有明确的赢家，而且所有三种方法都提供了相对可比的预测质量。

这一相似性能的发现促使对前三种预测方法的互补性进行了调查。我们将CRYSTALP2的预测与XtalPred和ParCrys的预测进行了比较，将它们分为四类：1）对CRYSTALB2和XtalPred（或ParCrys）都正确的预测；2） CRYSTALP2预测正确，XtalPred（或ParCrys）预测错误；3） CRYSTALP2预测错误，XtalPred（或ParCrys）预测正确；和4）对CRYSTALP2和XtalPred（或ParCrys）的预测都不正确。结果如表所示三; 我们注意到，我们无法在中复制ParCrys的结果[23]通过使用web服务器，因此我们无法在表中的TEST和TEST-RL数据集上与此方法进行比较三类别（1）和（4）的分数显示重叠的结果，而第二和第三类表示互补预测的数量。结果表明，CRYSTALP2对XtalPred和ParCrys都是互补的。例如，TEST-NEW数据集的结果表明，CRYSTALP2对XtalPred和ParCrys分别错误预测的大约14.8%和12.8%的输入蛋白质链提供了正确预测。同时，XtalPred和ParCrys分别对TEST-NEW数据集中出现错误的15.5%和14.2%的链进行了正确预测。总的来说，CRYSTALP2、XtalPred和ParCrys的预测分别只有69.8%和73%的输入链重叠。为了进一步研究互补性，我们实现了一个基于多数投票的元分类程序，该元分类程序从CRYSTALP2、XtalPred和ParCrys对链进行预测，并输出3种方法中至少有2种方法同意的分类。当且仅当基分类器互补时，元分类器将改进单个基分类器。我们的元分类器在TEST-NEW数据集上获得了73.4%的准确率和0.48的MCC。与ParCrys在该数据集上获得的最佳准确度相比，多数投票预测值将错误率降低了（73.4-70.6）/（100-70.6”=2.8/29.4=9.5%。因此，我们得出结论，提出的CRYSTALP2方法、ParCrys和XtalPred相互补充，提供了可比较的预测质量，并且优于其他三种方法。我们强调，CRYSTALP2和XtalPred之间的互补性表明，计算黑盒方法（如CRYSTALB2）为结构生物学家的“手动”工作提供了有用的支持，如在XtalPret中建模。

表3 CRYSTALP2、XtalPred和ParCrys对TEST、TEST-RL和TEST-NEW数据集的预测比较。

全尺寸桌子

对拟议序列表示法的讨论

为CRYSTALP2选择的88个特征包括直接从序列计算的组成和配位矢量的元素，以及通过考虑氨基酸链的特定物理化学性质从序列推导的pI和疏水性。我们注意到，在过去的几项研究中使用了后两个特征[16,17,21,23]，而前面的86个功能集是作为在[22]. 我们研究这两个数据来源，即序列和序列的物理化学性质，在预测结晶倾向的背景下是否提供了互补或冗余信息。

表4比较了使用三个特征子集时的预测质量：1）pI和疏水性；2）基于构图和搭配的特征；3）全部88项功能。在TEST-NEW、TEST和TEST-RL数据集上的实验表明，使用88个特征的组合集可以获得更好的预测结果。与仅使用86个基于搭配的特征获得的结果相比，根据使用的数据集，CRYSTALP2的准确性提高了12.5%至7.4%。同样，与仅利用pI和疏水性特征的预测相比，CRYSTALP2预测提高了0.5%至9.7%。当将CRYSTALP2与仅基于搭配特征以及pI和疏水性的预测进行比较时，AROC的改善范围分别为0.06和0.1，0.03和0.13。我们使用TEST-NEW、TEST和TEST-RL数据集上三组特征的ROC曲线进一步探讨了预测质量的上述差异，见图2曲线显示，对于TEST、TEST-RL和TEST-NEW数据集，使用86个基于序列的特征进行预测的特点是，对于低FP率，预测的质量更好或可比较，分别高达0.55、0.5和0.2。这种低FP速率产生的较高TP速率对应于预测，其中错误地预测了少量序列能够结晶，而正确地预测了较多链可以结晶。相反，使用这两种物理化学性质进行预测会导致高FP速率值的TP速率较高。根据这些观察结果，我们得出结论，这两种数据来源提供了补充信息。我们还观察到，所有88个特征的组合导致ROC曲线适用于整个FP率范围。

表4使用88个特征集（包括组成、搭配、pI和疏水性）的拟议方法、使用86个组成和搭配特征的方法和仅使用pI和憎水性特征的方法之间通过精度、MCC和AROC测量的预测质量的比较。

全尺寸桌子

在下文中，我们研究了CRYSTALP2使用的各个功能。我们表明，基于残基搭配的特征涉及氨基酸类型，这些氨基酸类型也用于结晶增强突变。然后，我们讨论了各个特征与预测结果的关联。

表面熵减少方法，即基于点突变的替换具有高构象熵的溶剂暴露的残基（例如Glu（e）、Gln（Q）和Lys（K）），用具有较低构象熵和较高介导晶体接触潜力的残基（例如Ala（A）、Tyr（Y）、Thr（T）、Ser（S）和His（H）)提供了一种可行的策略来最小化结晶时的构象熵损失，并使结晶在热力学上有利[46,47,37]. 突变位点的选择通常考虑到它们在序列中的邻近性[37,47,48]，这在概念上类似于我们的配置向量方法。同时，ParCrys和XtalPred方法使用了几个AA类型的组合，而不考虑它们的接近性。参与表面熵降低的八种AA类型可能表明蛋白质具有低/高结晶倾向，它们出现在CRYSTALP2使用的73%的特征中。由于这些氨基酸在蛋白质链中的总丰度约为41%，因此它们在我们的特征集中的较高发生率表明CRYSTALP2隐含地应用了构象熵信息。我们注意到，ParCrys使用了Ser（S）、Gly（G）、Cys（C）、Phe（F）、Tyr（Y）和Met（M）AAs的组成。其中只有两种AA类型与结晶增强突变中建议的残基相关，这进一步支持了我们关于CRYSTALP2和ParCrys之间互补性的主张。类似地，XtalPred分析Cys（C）、Met（M）、Trp（W）、Tyr（Y）和Phe（F）AAs的组成，并且在这些氨基酸类型中，只有Y出现在突变背景中。

由于CRYSTALP2使用非线性黑盒模型来表示所有输入特征与预测结果之间的关系，因此不可能直接使用该模型来确定单个特征与特定结果之间的关联。相反，我们计算了单个特征与相应蛋白质链注释（可结晶与不可结晶）之间的双列相关系数，以量化关联强度。总之，我们观察到CRYSTALP2使用的75个特征具有弱绝对相关系数值（<0.1）。虽然单个特征的有用信息很少，但分类模型通过组合来自多个特征的信息来利用这些单独的弱相关性。其余13个具有较高系数值的特征包括（相关系数显示在括号中）L-E（0.28）、SS（0.25）、L（0.20）、T-S（0.16）、GL（0.15）、R-S（0.14）、I--E（0.14。我们观察到，上述搭配包括AA类型，与XtalPred使用的AA类型互补（C、F、M、W和Y；只有一种AA类型F是常见的）。当我们考虑ParCrys时也是如此，ParCrys使用C、F、G、M、S和Y的组合（只有F、G和S是通用的）。

为了检查并置肽与结晶性的关系，我们将13个特征（不包括pI）分为两个子集，可以预期与结晶或非结晶类别相关。鉴于E、Q和K是高熵残基，我们认为搭配包括这些残基和与其相关的残基（即L-E、i---E、E---F、L、GL和L---L），与非结晶链相关。类似地，A、Y、T、S和H具有更高的介导晶体接触的潜力，用于注释与可结晶链相关的其余相关搭配（即SS、T-S、R-S、F-S、S---H和S-T-S）。我们聚合（汇总）了每个子集的相应特征值，并对比了两个结果之间的结果值，见图3A级我们还将这些结果与表示pI和疏水性的图表进行了比较，见图3B公司我们观察到，无论是搭配的使用，还是pI和疏水性，都无法在这两类蛋白质链之间产生明确的分离。同时，正如预期的那样，与可结晶链相关的配位发生率高的链往往会导致成功的结晶，反之亦然；请参见图的右下角和左上角3A级分别是。相比之下，图3B公司表明尽管较高的pI值与较小的结晶可能性有关，但疏水性没有显示出任何明显的趋势。

CRYSTALP2预测分析

我们还检查了CRYSTALP2在第二次测试中获得的结果（FEAT培训、test-NEW、test和test-RL数据集测试）。有两个问题值得关注：1）如果FEAT数据集的大小增加，预测质量是否会提高（将有更多结晶报告可用）？以及2）所提出的方法对每个预测结果的表现如何。

培训数据集大小的影响

我们选择FEAT数据集的子集，并在这些简化的数据集上重新训练NRBF分类器（使用相同的参数）。子集为10%、20%、30%，。。。，FEAT数据集的90%，根据均匀分布随机选择，无需替换。通过精确度和MCC测量的预测质量，用于TEST-NEW、TEST-RL和TEST数据集的FEAT的每个子集，如图所示4.

在TEST-RL中，预测质量比TEST和TEST-NEW数据集变化更大。尽管如此，我们可以看出这三个数据集的预测质量总体呈上升趋势。TEST和TEST-NEW数据集的趋势更为清晰，我们观察到，随着训练中包含更多FEAT数据集，预测质量会提高，并且在使用整个FEAT数据集中时，预测质量达到最大值。最重要的是，我们观察到，即使考虑到训练数据集的很大一部分，即80%、90%和100%，改进率也相对恒定。这一趋势的内插表明，在训练数据集中包含更多数据可能会进一步提高预测质量。

图中的线性回归4表明TEST和TEST-NEW数据集的改进幅度大于TEST-RL数据集，这突出了这些数据集之间的差异。我们注意到，FEAT、TEST-NEW和TEST包括大小不限的序列，而TEST-RL仅包括长度在46到200个残基之间的序列。序列大小分布的差异可能是TEST和TEST-NEW数据集更强改进的原因。

可结晶和非结晶蛋白质的预测结果

我们分别分析了CRYSTALP2方法预测可结晶和非结晶蛋白质的性能。使用敏感性=TP/（TP+FN）和特异性=TN/（TN+FP）测量两种结果的预测质量，见表5我们注意到，这两个度量对于两类分类是对称的，即一类的特异性等于另一类的敏感性，反之亦然。TEST-NEW、TEST和TEST-RL的结果是一致的，它们表明CRYSTALP2为预测可结晶蛋白质提供了更高的灵敏度。这意味着，与非结晶链的预测相比，正确预测了实际（真实）结晶链的更高比例。预测为可结晶的非结晶链数量高于预测为不可结晶的结晶链数量，这表明，与确认结晶失败的任务相比，在确认给定链适合结晶的情况下，所提出的方法更好。

表5用CRYSTALP2方法预测可结晶和非结晶蛋白质的灵敏度和特异性测量的预测质量的比较。

全尺寸桌子

结论

我们引入了一种新的算法CRYSTALP2，该算法通过当前的结构生物学技术预测给定蛋白质链生成衍射质量晶体的倾向。我们的结果表明，疏水性、等电点和某些并置二肽和三肽的频率是结晶的重要预测因子。我们表明，与疏水性和等电点相比，配位特征提供了互补的信息来源。CRYSTALP2结合AA配位，对应于具有低构象熵和高电位的残基簇，以介导与可结晶蛋白质的晶体接触。具有高构象熵的残基簇与非结晶蛋白质相关。这样的图案可以作为潜在的结晶标记。

对几个独立数据集的测试表明，CRYSTALP2优于SECRET、CRYSTALP和OB-Score等几种现有方法，并提供了与ParCrys和XtalPred方法可比较和互补的结果。CRYSTALP2和XtalPred之间的互补性表明，拟议的黑盒方法是结构生物学家当前手动技术的有益补充，该技术在XtalPret中建模。我们的结果表明，由于持续的蛋白质结晶努力，训练集的大小增加可能会导致CRYSTALP2的预测质量增加。我们还表明，与预测非结晶蛋白质相比，该方法在预测结晶蛋白质方面表现更好。

我们注意到，我们的方法和所有竞争方法，即SECRET、CRYSTALP、OB-Score、XtalPred和ParCrys，只考虑蛋白质链中编码的分子内因子。当必须考虑蛋白质和/或蛋白质-沉淀相互作用、缓冲液组成、沉淀扩散法、重力等分子间因素时，它们可能无法提供可靠的预测。所有这些基于序列的预测因子都局限于预测非冗余链的结晶倾向；在评估同系物结晶时不应使用它们。在后一种情况下，我们建议在以下位置使用web服务器http://www.doe-mbi.ucla.edu/SER/服务[37]. 最后，我们的预测只涉及可溶性蛋白质，因为只有这些蛋白质用于训练和验证预测方法。尽管存在这些局限性，但诸如提议的CRYSTALP2等方法应该会找到有用的应用。例如，一个潜在的应用领域是结构基因组学倡议，在该倡议中，寻求代表特定蛋白质家族的蛋白质结构，而不是特定蛋白质链的结构[8——11].

工具书类

Chandonia JM，Brenner SE公司：结构基因组学的影响：期望和结果。 科学类2006,311:347–351. 10.1126/科学.1121018
第条中国科学院公共医学谷歌学者
Norin M，SundströM M：药物发现中的蛋白质模型。 当前药物发现进展2001,4:284–290.
中国科学院公共医学谷歌学者
Fernàndez-Busquets X，de Groot NS，Fernandez D，文图拉S：构象疾病的最新结构和计算见解。 当前医学化学2008,15:1336–49. 2017年10月17日/092986708784534938
第条公共医学谷歌学者
Lacapère JJ、Pebay-Peyroula E、Neumann JM、Etchebest C：测定膜蛋白结构：仍然是一个挑战！ 生物化学科学趋势2007,32（6）：259–70。10.1016/j.tibs.2007.04.001
第条公共医学谷歌学者
Schnell JR、Chou JJ：甲型流感病毒M2质子通道的结构和机制。 自然2008,451:591–595. 10.1038/性质06531
第条公共医学中心中国科学院公共医学谷歌学者
Xu C、Gagnon E、Call ME、Schnell JR、Schwieters CD、Carman CV、Chou JJ、Wucherpfenig KW：通过CD3epsilon细胞质酪氨酸基基序的动态膜结合调节T细胞受体激活。 单元格2008,135(4):702–713. 2016年10月10日/j.cell.2008.09.044
第条公共医学中心中国科学院公共医学谷歌学者
服务R：结构基因组学，第2轮。 科学类2005,307:1554–1558. 10.1126/科学307.5715.1554
第条中国科学院公共医学谷歌学者
布伦纳证券交易所：结构基因组学的靶点选择。 自然结构生物2000,7:967–969. 10.1038/80747
第条中国科学院公共医学谷歌学者
Chandonia JM，Brenner SE公司：结构基因组学对目标选择策略的影响：Pfam全基因组和随机方法。 蛋白质类5000,58:166–179. 10.1002/保护20298
第条谷歌学者
Hui R，Edwards A：高通量蛋白质结晶。 J结构生物学2003,142条：154–61. 10.1016/S1047-8477（03）00046-7
第条中国科学院公共医学谷歌学者
Savchenko A、Yee A、Khachatryan A、Skarina T、Evdokimova E、Pavlova M、Semesi A、Northey J、Beasley S、Lan N、Das R、Gerstein M、Arrowmith CH、Edwards AM：原核生物结构蛋白质组学策略：量化研究同源蛋白质和使用核磁共振和x射线晶体学方法的优势。 蛋白质类2003,50:392–399之间。10.1002/保护10282
第条中国科学院公共医学谷歌学者
Biertumpfel C、Basquin J、Suck D：在手动结晶设置中提高吞吐量的实际实现。 应用结晶杂志2005,38:568–570. 10.1107/S0021889805008277
第条谷歌学者
Chayen东北：将蛋白质结晶从一门艺术变成一门科学。 当前操作结构生物2004,14:577–583. 2016年10月10日/j.sbi.2004.08.002
第条中国科学院公共医学谷歌学者
Puesy M、Liu ZJ、Tempel W、Praissman J、Lin D、Wang BC、Gavira JA、Ng JD：蛋白质结晶和X射线晶体学的快速发展。 Prog Biophys分子生物学2005,88:359–386. 2016年10月10日/j.pbiomolbio.2004.07.011
第条谷歌学者
Rupp B，Wang JW：蛋白质结晶的预测模型。 方法2004,34:391–408. 2016年10月10日/j.methy.2004.03.031
第条谷歌学者
Kantardjieff KA，卢比B:蛋白质等电点是结晶筛选效率提高的预测因子。 生物信息学2004,20:2162–2168. 10.1093/生物信息学/bth066
第条中国科学院公共医学谷歌学者
Kantardjieff KA、Jamshidian M、Rupp B：pI与pH的分布为结晶筛选实验的设计提供了强有力的先验信息。 生物信息学2004,20:2171年至2174年。10.1093/生物信息学/bth453
第条中国科学院谷歌学者
Canaves JM，第R页，Wilson IA，Stevens RC：与海洋热托加结晶成功相关的蛋白质生物物理特性：结构基因组学的最大聚类策略。 分子生物学杂志2004,344:977–991. 2016年10月10日/j.jmb.2004.09.076
第条中国科学院公共医学谷歌学者
Goh CS、Lan N、Douglas SM、Wu B、Echols N、Smith A、Milburn D、Montelione GT、Zhao H、Gerstein M：挖掘结构基因组管道：识别影响高通量实验分析的蛋白质特性。 分子生物学杂志2004,336:115–130. 10.1016/j.jmb.2003.11.053
第条中国科学院公共医学谷歌学者
Smialowski P、Schmidt T、Cox J、Kirschner A、Frishman D：我的蛋白质会结晶吗？基于序列的预测器。 蛋白质类2006,62:343–355. 10.1002/保护20789
第条中国科学院公共医学谷歌学者
奥弗顿IM，巴顿GJ：结构基因组学目标排名的标准化尺度：OB-Score。 FEBS信函2006,580:4005–4009. 2016年10月10日/j.febslet.2006.06.015
第条中国科学院公共医学谷歌学者
Chen K、Kurgan L、Rahbari M：利用氨基酸对搭配预测蛋白质结晶。 生物化学-生物物理研究委员会2007,355页：764–769. 10.1016/j.bbrc.2007.02.040
第条中国科学院公共医学谷歌学者
Overton IM、Padovani G、Girolama MA、Barton GJ：ParCrys：蛋白质结晶倾向预测的Parzen窗口密度估计方法。 生物信息学2008,24:901–907. 10.1093/生物信息学/btn055
第条中国科学院公共医学谷歌学者
Slabinski L、Jaroszewski L、Rodrigues APC、Rychlewski L、Wilson IA、Lesley SA、Godzik A：蛋白质结构测定的挑战——结构基因组学的教训。 蛋白质科学2007,16（11）：2472–82。10.1110/ps.073037907
第条公共医学中心中国科学院公共医学谷歌学者
Chen L、Oughtred R、Berman HM、Westbrook J：TargetDB：结构基因组学项目的目标注册数据库。 生物信息学2004,20(16):2860–2. 10.1093/生物信息学/bth300
第条中国科学院公共医学谷歌学者
坎贝尔K、库尔根L：利用氨基酸对的搭配，基于序列预测β-转角的位置和类型。 打开Bioinf J2008,2:37–49. 10.2174/1875036200802010037
第条中国科学院谷歌学者
Chen K、Kurgan L、Ruan J：使用并置氨基酸对从序列预测蛋白质中的柔性/刚性区域。 BMC结构生物2007,7:25. 10.1186/1472-6807-7-25
第条公共医学中心公共医学谷歌学者
Chen K、Jiang Y、Du L、Kurgan L：通过配位疏水氨基酸对预测整体膜蛋白类型。 计算机化学2009,30(1):163–172. 10.1002/jcc.21053
第条谷歌学者
Chen YZ、Tang YR、Sheng ZY、Zhang Z：使用k间隔氨基酸对的组成预测哺乳动物蛋白质中的粘蛋白型O-糖基化位点。 BMC生物信息学2008,9:101. 10.1186/1471-2105-9-101
第条公共医学中心中国科学院公共医学谷歌学者
周KC、沈HB:蛋白质亚细胞定位预测的最新进展。 Ana Biochem公司2007,370:2016年10月1日至16日/j.ab.2007.07.006
第条中国科学院公共医学谷歌学者
周KC：蛋白质结构类预测的进展及其对生物信息学和蛋白质组学的影响。 Cur-Prot Pept科学2005,6:423–436. 10.2174/138920305774329368
第条中国科学院谷歌学者
周KC：结构生物信息学及其对生物医学科学的影响。 中药化学2004,11:2105–2134.
第条中国科学院谷歌学者
Kurgan LA、Cios KJ、Zhang H、Zhang T、Chen K、Shen S、Ruan J：蛋白质结构实值预测的基于序列的方法。 Cur生物信息学2008,三（3）：183–196。10.2174/157489308785909197
第条中国科学院谷歌学者
Yang ZR、Wang L、Young N、Chou KC：蛋白质功能位点预测的模式识别方法。 Cur-Prot Pept科学2005,6:479–491. 10.2174/138920305774329322
第条中国科学院谷歌学者
Li W，Godzik A：Cd-hit：一个快速程序，用于聚类和比较大量蛋白质或核苷酸序列。 生物信息学2006,22:1658–1659. 10.1093/生物信息学/btl158
第条中国科学院公共医学谷歌学者
Barton GJ、Sternberg MJE：蛋白质序列快速多重比对的策略：三级结构比较的置信水平。 分子生物学杂志1987,198:327–337. 10.1016/0022-2836(87)90316-0
第条中国科学院公共医学谷歌学者
Goldschmidt L、Cooper DR、Derewenda Z、Eisenberg D：走向合理的蛋白质结晶：设计可结晶蛋白质变体的Web服务器。 蛋白质科学2007,16:1569–76. 10.1110/ps.072914007
第条公共医学中心中国科学院公共医学谷歌学者
Gasteiger E、Hoogland C、Gattiker A、Duvaud S、Wilkins MR、Appel RD、Bairoch A：ExPASy服务器上的蛋白质识别和分析工具。在蛋白质组学协议手册.编辑：Walker JM.Humana出版社；2005:571–607.
第章谷歌学者
Bjellqvist B、Basse B、Olsen E、Celis JE：用于比较不同人类细胞类型蛋白质二维图谱的参考点，这些细胞类型在pH值范围内定义，其中等电点与多肽成分相关。 电泳1994,15:529–539. 10.1002/elps.1150150171
第条中国科学院公共医学谷歌学者
Engelman DM、Steitz TA、Goldman A：识别膜蛋白氨基酸序列中的非极性跨双层螺旋。 Ann Rev Biophys生物物理化学1986年，15:321–353. 10.1146/anurev.bb.15.060186.001541年
第条中国科学院谷歌学者
M厅：基于相关性的机器学习特征选择，博士论文怀卡托大学计算机科学系；1999
谷歌学者
穆迪J，Darken Ch:本地调谐处理单元网络中的快速学习。 神经计算1989,1:281–294. 10.1162/neco.1989.1.2.281
第条谷歌学者
巴格曼G：归一化高斯径向基函数网络。 神经计算1998,20:97–110.2016年10月10日/S0925-2312（98）00027-7
第条谷歌学者
Witten I、Frank E：数据挖掘：实用机器学习工具和技术第二版。Morgan Kaufmann，旧金山；2005
谷歌学者
Slabinski L、Jaroszewski L、Rychlewski L、Wilson IA、Lesley SA、Godzik A：XtalPred：用于预测蛋白质结晶性的web服务器。 生物信息学2007,23(24):3403–5. 10.1093/生物信息学/btm477
第条中国科学院公共医学谷歌学者
Cooper DR、Boczek T、Grelewska K、Pinkowska M、Sikorska M、Zawadzki M、Dere温达Z：通过表面熵降低实现蛋白质结晶：SER策略的优化。 Acta Crystallogr D生物晶体仪2007,63:636–45. 10.1107/S0907444907010931
第条中国科学院公共医学谷歌学者
德雷温达Z：通过突变表面工程实现蛋白质合理结晶。 结构2004,12:529–35. 2016年10月10日/j.str.2004.03.008
第条中国科学院公共医学谷歌学者
Wang W，Malcolm文学学士：两阶段PCR协议允许使用QuikChange Site-Directed Mutagenesis引入多重突变、缺失和插入。 生物技术1999,26:680–2。
中国科学院公共医学谷歌学者

下载参考资料

致谢

这项研究部分得到了NSERC在发现拨款计划下的支持。作者感谢Lukasz Slabinski在运行XtalPred服务器方面的帮助，感谢Ian Overton提供TEST、TEST-RL和FEAT数据集。

作者信息

作者和附属机构

加拿大阿尔伯塔省埃德蒙顿市阿尔伯塔大学电气与计算机工程系
卢卡斯·库根（Lukasz Kurgan）、阿里·A·拉齐卜（Ali A Razib）、萨拉·阿格哈尼（Sara Aghakhani）、斯科特·迪克（Scott Dick）和马金·米齐安蒂（Marcin Mizianty）
伊朗设拉子市设拉子医科大学医学物理系
萨马德·贾汉迪德

作者

卢卡斯·库根
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
阿里·阿拉齐卜
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
萨拉·阿格哈尼
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
斯科特·迪克
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
马金·米齐安蒂
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
萨马德·贾汉德德
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信卢卡斯·库根.

其他信息

作者的贡献

LK对所提方法的概念、特征集和分类器的设计、测试的执行、结果的评估和解释做出了贡献，并撰写了手稿。AR和SA帮助设计特征集和分类器，计算特征，帮助执行测试，并帮助评估结果。SD帮助进行了测试，并对结果评估和手稿撰写做出了贡献。MM为实验测试和结果评估做出了贡献。SJ对结果的解释和手稿的撰写做出了贡献。所有作者都已阅读并批准了手稿的最终版本。

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

图4的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Kurgan，L.、Razib，A.A.、Aghakhani，S。等。CRYSTALP2：基于序列的蛋白质结晶倾向预测。BMC结构生物 9, 50 (2009). https://doi.org/10.1186/1472-6807-9-50

下载引文

收到:2009年1月5日
认可的:2009年7月31日
出版:2009年7月31日
内政部:https://doi.org/10.1186/1472-6807-9-50

CRYSTALP2：基于序列的蛋白质结晶倾向预测

摘要

背景

结果

结论

背景