晶体2

CRYSTALP2:基于序列的蛋白质结晶倾向预测。背景:目前的研究方法能为小于30%的已知蛋白质生成晶体,这表明自动识别可结晶蛋白质可以提高高通量结构基因组学的工作效率。我们介绍CRYSTALP2,一种基于核的方法,它预测给定蛋白质序列产生衍射质量晶体的倾向。该方法利用氨基酸的组成和配位、等电点和疏水性(根据一级序列估计)来生成预测。CRYSTALP2扩展了它的前身CRYSTALP,通过对大小不受限制的序列进行预测,并提供了改进的预测质量。结果:CRYSTALP2所使用的配位中,绝大多数是高构象熵的残基,或是低熵、高电位介导晶体接触的残基,尤其是表面熵还原法。我们发现配位提供了疏水性和等电点的补充信息。对四个数据集的测试表明,CRYSTALP2优于现有的几种基于序列的预测因子(CRYSTALP、OB score和SECRET)。CRYSTALP2的准确度、MCC和AROC的范围分别为69.3和77.5%、0.39和0.55以及0.72和0.79。我们的预测在质量上是相似的,并且与最近的ParCrys和XtalPred方法的预测是互补的。我们的结果还表明,随着蛋白质结晶工作的继续(从而扩大具有已知结晶倾向的蛋白质的数量),CRYSTALP2方法的预测质量应该提高。本文中使用的预测模型和数据集可从http://biomine.ece.ualberta.ca/CRYSTALP2/CRYSTALP2.html下载。结论:CRYSTALP2为给定的蛋白质链提供了相对准确的结晶倾向预测,该预测要么优于现有的方法,要么是对现有方法的补充。所提出的方法可用于支持当前提高获得衍射质量晶体的成功率的努力。