SCPRED公司

结构蛋白序列的精确相似性预测。背景:蛋白质结构预测方法在预测同源蛋白质时提供了准确的结果,而在没有同源模板的情况下,预测结果较差。然而,一些具有曙光区成对同一性的蛋白质链可以形成相似的折叠,因此在没有序列相似性的情况下确定结构相似性将是结构预测的理想选择。蛋白质或其结构域的折叠类型被定义为结构类。现有的结构类预测方法对SCOP中定义的四个结构类进行预测,对于任何一对序列的序列同一性属于曙光区的数据集,其预测精度高达63%。我们提出了SCPRED方法,该方法提高了与用于预测的序列具有相同曙光区成对相似性的序列的预测精度。结果:SCPRED使用支持向量机分类器,以多个定制特征作为输入,预测结构类别。基于广泛的设计,考虑了2300多种基于指标、成分和物理化学性质的特征以及基于预测的二级结构和含量的特征,分类器的输入包括8个基于PSI-PRED预测的二级结构信息的特征和一个由序列计算的特征。在1673个蛋白质链的数据集上进行的测试表明,SCPRED在预测四个SCOP定义的结构类时获得了80.3%的准确率,与最近十几种基于支持向量机的竞争方法相比,这一点更为优越,logistic回归和分类器-预测组合。结论:SCPRED可以准确地找到与预测序列同源性低的序列的相似结构。SCPRED所获得的高预测精度归功于特征的设计,这些特征能够在低维的情况下分离结构类。我们还证明了SCPRED的预测可以成功地用作后处理过滤器,以提高现代褶皱分类方法的性能。