×

基于可变预测模型的分类算法,用于有效分离蛋白质结构类。 (英语) Zbl 1158.62081号

摘要:提出了一种基于变量预测模型的类判别(VPMCD)算法,作为一种有效的蛋白质二级结构分类工具。该算法在数学上表示每个蛋白质结构特有的氨基酸相互作用特征,并进一步利用它们来区分不同的结构。新概念和VPMCD分类器是使用包含四个蛋白质类的研究良好的数据集作为基准建立的。从SCOP和PDB数据库中选择的蛋白质样本具有不同的同源性(25-100%)和类别样本的不均匀分布,这为分类问题带来了挑战。将新方法与分量耦合、支持向量机和神经网络等先进的分类算法进行了性能比较。VPMCD为高同源性数据集提供了卓越的性能。自我一致性测试实现了100%的分类,在jackknife测试中预测准确率提高了5%。通过改变模型结构/类型和序列同源性来研究新算法的敏感性。一种实现更简单的VPMCD算法被认为是一种稳健的分类技术,并显示出有效扩展到生物系统中其他临床诊断和数据挖掘应用的潜力。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
92C40型 生物化学、分子生物学
62H30型 分类和区分;聚类分析(统计方面)

软件:

Matlab公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 贝克·J·V。;Arnold,K.J.,《工程与科学中的参数估计》(1977),威利出版社:威利纽约·兹比尔0363.62020
[2] Berman,H.M.,蛋白质数据库,核酸研究,28,235-242(2000)
[3] Cai,Y.D。;周国平,用神经网络预测蛋白质结构类别,生物化学,82,8,783-785(2000)
[4] Cai,Y.D。;刘晓杰。;Xu,X.B。;Zhou,G.P.,用于预测蛋白质结构类别的支持向量机,BMC生物信息学,2,3(2001)
[5] 曹毅。;刘,S。;张,L。;秦,J。;Wang,J。;Tang,K.,用粗糙集预测蛋白质结构类,BMC生物信息学,7,20(2006)
[6] Chou,K.C.,预测(20-1)-D氨基酸组成空间中蛋白质结构类的新方法,蛋白质结构。功能。遗传学。,21, 319-344 (1995)
[7] Edler,L。;格拉斯曼,J。;苏海,S.,统计方法在蛋白质折叠类预测中的作用和结果,数学。计算。型号。,33, 1401-1417 (2001) ·Zbl 0980.92010号
[8] 洛杉矶库根。;Homaeian,L.,蛋白质序列和结构域结构类的预测——预测算法、序列表示和同源性以及测试程序对准确性的影响,模式识别。,39, 2323-2343 (2006) ·Zbl 1103.68767号
[9] MATLAB,2005年。MATLAB 7.0.4版本14。马萨诸塞州纳蒂克市MathWorks公司。;MATLAB,2005年。MATLAB 7.0.4版本14。马萨诸塞州纳蒂克市MathWorks公司。
[10] Murzin,A。;Brenner,S。;哈伯德,T。;Chothia,C.,SCOP:用于序列和结构研究的蛋白质数据库的结构分类,J.Mol.Biol。,247, 536-540 (1995)
[11] Nakashima,H。;西川,K。;Ooi,T.,蛋白质的折叠类型与氨基酸组成有关,J.Biochem。,99, 152-162 (1986)
[12] 周国平,关于蛋白质结构类预测的有趣争议,蛋白质化学杂志。,17, 729-738 (1998)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。