×

提高蛋白质结构类的预测准确性:采用交替词频和归一化Lempel-Ziv复杂度进行处理。 (英语) Zbl 1411.92241号

摘要:预测低相似度序列的蛋白质结构类别仍然是一个具有挑战性的问题。在这项研究中,通过结合交替词频和归一化Lempel-Ziv复杂度,开发了一种新的计算方法来预测蛋白质结构类。为了评估所提方法的性能,对三个广泛使用的基准数据集进行了折刀交叉验证测试,25个PDB分别为1189和640。我们报告了83.6%、81.8%和83.6%的预测准确率25个PDB分别为1189和640个基准。我们的结果与其他方法的比较表明,所提出的方法非常有前景,可以提供一种经济高效的方法来预测蛋白质结构类,特别是对于低相似度数据集,并且可能至少对现有方法起到重要的补充作用。

MSC公司:

92D20型 蛋白质序列,DNA序列
2015年第68季度 复杂性类(层次结构、复杂性类之间的关系等)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Altschul,S.F。;Madden,T.L。;Schaffer,A.A。;张杰。;张,Z。;Miller,W。;Lipman,D.J.,Gapped BLAST和PSI-BLASTa新一代蛋白质数据库搜索程序,Nucl。《酸类研究》,25,3389-3402(1997)
[2] 阿南德,A。;Pugalenthi,G.(普加伦蒂,G.)。;Suganthan,P.N.,利用分类优化特征和决策概率通过SVM预测蛋白质结构类别,J.Theor。生物学,253,375-380(2008)
[3] Cai,Y.D。;周国平,用神经网络预测蛋白质结构类别,生物化学,82783-785(2000)
[4] Cai,Y.D。;刘晓杰。;Xu,X。;周国平,预测蛋白质结构类的支持向量机,BMC生物信息学,2,3(2001)
[5] Cai,Y.D。;刘晓杰。;Xu,X.B。;Chou,K.C.,J.计算。化学。,26, 293-296 (2002)
[6] Cai,Y.D。;Feng,K.Y。;卢,W.C。;Chou,K.C.,使用LogitBoost分类器预测蛋白质结构类别,J.Theor。《生物学》,238172-176(2006)·Zbl 1445.92220号
[7] 曹玉凤。;刘,S。;张立德。;秦,J。;Wang,J。;唐锦霞,用粗糙集预测蛋白质结构类,BMC生物信息学,7,20(2006)
[8] Chang,C.C.,Lin,C.J.,2001年。LIBSVM:支持向量机库网址:http://www.csie.ntu.edu.tw/cjlin/libsvm;Chang,C.C.,Lin,C.J.,2001年。LIBSVM:支持向量机库网址:http://www.csie.ntu.edu.tw/cjlin/libsvm
[9] 陈,C。;田玉霞。;邹,X.Y。;蔡,P.X。;Mo,J.Y.,使用伪氨基酸组成和支持向量机预测蛋白质结构类别,J.Theor。《生物学》,243444-448(2006)·Zbl 1447.92300号
[10] Chen,K。;洛杉矶库根。;Ruan,J.S.,使用新的基于进化搭配的序列表示预测蛋白质结构类,J.Compute。化学。,29, 1596-1604 (2008)
[11] Chothia,C.,《蛋白质可接触和埋藏表面的性质》,《分子生物学杂志》。,105, 1, 1-12 (1976)
[12] Chou,K.C.,《蛋白质结构类测定的关键驱动力》,《生物化学》。生物物理学。Res.Commun.公司。,264, 216-224 (1999)
[13] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,《蛋白质》,43,246-255(2001)
[14] Chou,K.C.,蛋白质结构类预测进展及其对生物信息学和蛋白质组学的影响,Curr。蛋白质肽。科学。,6, 423-436 (2005)
[15] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号
[16] Chou,K.C。;Cai,Y.D.,通过功能域组成预测蛋白质结构类别,生物化学。生物物理学。Res.Commun.公司。,321, 1007-1009 (2004)
[17] Chou,K.C。;沈海斌,蛋白质亚细胞定位预测的最新进展,分析。生物化学。,370, 1-16 (2007)
[18] Chou,K.C。;Zhang,C.T.,蛋白质结构类预测,生物化学评论。分子生物学。,30, 275-349 (1995)
[19] 戴奇。;李毅。;刘晓强。;Yao,Y.H。;曹永杰。;He,P.A.,蛋白质结构类别预测预测二级结构从内容到位置的统计特征比较研究,BMC生物信息学,14,152(2013)
[20] Deschavanne,P。;Tuffery,P.,《探索蛋白质分类和结构类预测的无对齐方法》,Biochimie,90,615-625(2008)
[21] 丁Y.S。;Zhang,T.L。;Chou,K.C.,用伪氨基酸组成和模糊支持向量机网络预测蛋白质结构类,protein Pept。莱特。,2014年11月14日至2015年8月15日(2007年)
[22] Feng,K.Y。;蔡,Y.D。;Chou,K.C.,预测蛋白质结构域结构类的Boosting分类器,生物化学。生物物理学。Res.Commun.公司。,334, 213-217 (2005)
[23] 华,S。;Sun,Z.,蛋白质亚细胞定位预测的支持向量机方法,生物信息学,17,721-728(2001)
[24] Jin,L.X。;方,W.W。;Tang,H.W.,用一种新的信息差异度量预测蛋白质结构类别,计算机。生物化学。,373-380(2003年)
[25] Jones,D.T.,《基于位置特异性评分矩阵的蛋白质二级结构预测》,《分子生物学杂志》。,292, 195-202 (1999)
[26] Kedarisetti,K.D。;库根,L。;Dick,S.,关于用新的信息差异度量预测蛋白质结构类的评论,计算。生物化学。,30, 393-394 (2006) ·Zbl 1120.92019年9月
[27] Kedarisetti,K.D。;库根,L。;Dick,S.,《不同同源性蛋白质结构类预测的分类器集成》,《生物化学》。生物物理学。Res.Commun.公司。,348, 981-988 (2006)
[28] 洛杉矶库根。;Homaeian,L.,蛋白质序列和结构域结构类的预测——预测算法、序列表示和同源性以及测试程序对准确性的影响,模式识别,39,2323-2343(2006)·Zbl 1103.68767号
[29] 库根,L。;Cios,K。;Chen,K.,SCPRE《利用预测序列对曙光区相似性序列的蛋白质结构类进行精确预测》,BMC生物信息学,9,226(2008)
[30] 洛杉矶库根。;张,T。;张,H。;沈S.Y。;Ruan,J.S.,蛋白质结构类的二级结构赋值,氨基酸,35551-564(2008)
[31] Lempel,A。;Ziv,J.,《有限序列的复杂性》,IEEE Trans。通知。理论,IT-2275-81(1976)·Zbl 0337.94013号
[32] 李,C。;王,A。;Xing,L.,RNA二级结构的相似性,J.Compute。化学。,第28页,第2页,第508-512页(2007年)
[33] Lin,H。;Li,Q.Z.,《利用伪氨基酸组成预测结合400个二肽组分的蛋白质结构分类》,J.Compute。化学。,1463-1466年(2007年)
[34] 刘,T。;Jia,C.,使用预测的二级结构信息的高精度蛋白质结构类预测算法,J.Theor。生物学,267,272-275(2010)·Zbl 1410.92087号
[35] 刘,N。;Wang,T.M.,DNA序列相似性分析的相对相似性度量,化学。物理学。莱特。,408, 307-311 (2005)
[36] 刘,N。;Wang,T.,RNA二级结构快速相似性分析方法,BMC生物信息学,7493(2006)
[37] 刘,T。;郑,X。;Wang,J.,使用支持向量机和PSI-BLAST剖面预测低相似度序列的蛋白质结构类别,Biochimie,921330-1334(2010)
[38] 刘,T。;耿,X。;郑,X。;李,R。;Wang,J.,使用psi冲击波谱的自协方差变换准确预测蛋白质结构类别,氨基酸,422243-249(2012)
[39] 罗瑞英。;冯,Z.P。;刘建康,用氨基酸和多肽组成预测蛋白质结构类别,《欧洲生物化学杂志》。,269, 4219-4225 (2002)
[40] Mizianty,M.J。;Kurgan,L.,利用预测序列从曙光区一致性序列对蛋白质结构类进行模块化预测,BMC生物信息学,10,414(2009)
[41] Nakashima,H。;西川,K。;Ooi,T.,蛋白质的折叠类型与氨基酸组成有关,J.Biochem。,99, 153-162 (1986)
[42] Otu,H.H。;Sayood,K.,用于构建系统发育树的新序列距离度量,生物信息学,19,16,2122-2130(2003)
[43] 邱建德。;Luo,S.H。;黄,J.H。;Liang,R.P.,《使用支持向量机预测基于离散小波变换的蛋白质结构类》,J.Compute。化学。,30, 1344-1350 (2009)
[44] 夏尔马,A。;Lyons,J。;Dehzangi,A。;Paliwal,K.K.,《使用位置特定评分矩阵的二元概率进行蛋白质折叠识别的特征提取技术》,J.Theor。生物,320,41-46(2013)·Zbl 1406.92471号
[45] Shen,H.B。;Chou,K.C.,用优化的证据理论K最近分类器和伪氨基酸组成预测蛋白质亚核位置,生物化学。生物物理学。Res.Commun.公司。,337, 752-756 (2005)
[46] Shen,H.B。;杨,J。;刘晓杰。;Chou,K.C.,《使用监督模糊聚类预测蛋白质结构类别》,《生物化学》。生物物理学。Res.Commun.公司。,334, 577-581 (2005)
[47] Sommer,我。;Rahnenfuhrer,J。;多明格斯,F.S。;德利希滕贝格,美国。;Lengauer,T.,从功能预测预测蛋白质结构类别,生物信息学,20770-776(2004)
[48] Sun,X.D。;Huang,R.B.,使用支持向量机预测蛋白质结构类,氨基酸,30469-475(2006)
[49] 王Z.X。;袁,Z.,用组分耦合法预测蛋白质结构类别的效果如何?,蛋白质,38165-175(2000)
[50] Xia,X.Y。;孟,M。;王Z.X。;Pan,X.M.,蛋白质结构类的准确预测,PLoS ONE,7,6,e37653(2012)
[51] Xiao,X。;Shao,S.H。;黄,Z.D。;Chou,K.C.,使用伪氨基酸组成预测蛋白质结构类别,与复杂性度量因子近似,J.Compute。化学。,27, 478-482 (2006)
[52] Yang,J.Y。;彭,Z.L。;Yu,Z.G。;张瑞杰。;Anh,V。;Wang,D.S.,基于混沌博弈表示的递归量化分析预测蛋白质结构类,J.Theor。生物学,257,618-626(2009)·Zbl 1400.92417号
[53] Yang,J.Y。;彭,Z.L。;Chen,X.,基于预测的二级结构预测低同源序列的蛋白质结构类别,BMC生物信息学,11,Suppl.1,S9(2010)
[54] 袁,Z。;黄,B.,用支持向量回归预测蛋白质可及表面积,蛋白质,57558-564(2004)
[55] 袁,Z。;Bailey,T.L。;Teasdak,R.D.,蛋白质B因子谱预测,蛋白质,58905-912(2005)
[56] Zhang,T.L。;Ding,Y.S.,使用伪氨基酸组成和二元树支持向量机预测蛋白质结构类别,《氨基酸》,33,623-629(2007)
[57] Zhang,T.L。;丁Y.S。;Chou,K.C.,用伪氨基酸组成近似熵和疏水性模式预测蛋白质结构类别,J.Theor。生物学,250186-193(2008)·兹比尔1397.92551
[58] 张,S。;Yang,L.等人。;Wang,T.,《利用信息差异度量比较蛋白质二级结构》,J.Mol.StructTheochem。,909, 102-106 (2009)
[59] Zhang,Y。;Hao,J。;周,C。;Chang,K.,归一化Lempel-Ziv复杂性及其在生物序列分析中的应用,J.Math。化学。,46, 1203-1212 (2009) ·Zbl 1197.92020号
[60] Zhang,S.L。;丁世勇。;Wang,T.M.,基于预测的二级结构对低相似性序列的蛋白质结构类别的高精度预测,Biochimie,93110-714(2011)
[61] 张,S。;Ye,F。;Yuan,X.,使用主成分分析和支持向量机通过PSSM预测低相似度序列的蛋白质结构类别,J.Biomol。结构。戴恩,29,6,1138-1146(2012)
[62] 周国平,关于蛋白质结构类预测的有趣争议,蛋白质化学杂志。,17, 729-738 (1998)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。