×

利用蛋白质粒度提取蛋白质序列特征。 (英语) 兹比尔1330.92098

摘要:蛋白质序列的特征提取是一个具有挑战性的问题。它可能需要许多领域的理论和实践知识。当研究人员仅从蛋白质序列中提取特征时,难度会增加。在本文中,我们提出了一种蛋白质粒度的方法。分别给出了蛋白质粒度、粒度顺序、粒度界、粒度极限和粒度增量的概念。蛋白质粒度可以单独从蛋白质序列中挖掘出有用的信息。我们提供了一种构造特征向量的方法。特征向量包括氨基酸组成信息、序列序信息、相同氨基酸的“邻居”信息和序列长度信息。因此,特征向量可以更好地表示蛋白质序列。我们的特征提取方法明显考虑了蛋白质序列长度的影响。进行了蛋白质结构类别预测实验。该预测达到了96.6%的总准确率,每个子集的成功率分别为全(α)92.3%、全(β)100%、(α/β)100%和(α+β)93.5%。子集的最后三个成功率等于已发表文献中的最佳成功率。PG-SVM预测的总体准确性是第二好的结果,与第一好的结果只有一个蛋白质预测误差差异。理论和实验结果表明,将蛋白质粒度应用于蛋白质序列的特征提取是成功的。

MSC公司:

92D20型 蛋白质序列,DNA序列
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安芬森,C.B.,《蛋白质链折叠原理》,《科学》,181,223-230(1973)
[2] 贝克,D.,《蛋白质折叠的惊人简单性》,《自然》,40539-42(2000)
[3] 布朗,M.P.S。;W.N.格兰迪。;Lin,D。;北卡罗来纳州克里斯蒂亚尼尼。;苏格纳,C.W。;Furey,T.S。;阿瑞斯,M。;Haussler,D.,使用支持向量机对微阵列基因表达数据进行基于知识的分析,Proc。美国国家科学院。科学。美国,97,262-267(2000)
[4] Cai,Y.D。;刘晓杰。;Xu,X.B。;Chou,K.C.,用支持向量机预测蛋白质结构类,计算。化学。,26, 293-296 (2002)
[5] Cai,Y.D。;Feng,K.Y。;卢,W.C。;Chou,K.C.,使用LogitBoost分类器预测蛋白质结构类别,J.Theor。生物学,238172-176(2006)·Zbl 1445.92220号
[6] 陈,C。;田玉霞。;邹晓勇。;蔡,P.X。;Mo,J.Y.,使用伪氨基酸组成和支持向量机预测蛋白质结构类别,J.Theor。《生物学》,243444-448(2006)·Zbl 1447.92300号
[7] 陈,C。;陈立新。;邹晓勇。;蔡培新,基于多特征融合的蛋白质结构类预测,J.Theor。《生物学》,253388-392(2008)·Zbl 1398.92196号
[8] Chen,L.Y。;李庆忠,凋亡蛋白亚细胞定位蛋白的预测,J.Theor。生物学,245775-783(2007)·Zbl 1451.92112号
[9] Cherstvy,A.G。;科洛米斯基,A.B。;Kornyshev,A.A.,《蛋白质-DNA相互作用:到达和识别靶点》,J.Phys。化学。,112, 4741-4750 (2008)
[10] Cherstvy,A.G.,结构蛋白的DNA-结合域中带正电荷的残基遵循DNA磷酸基团的序列特异性位置,J.Phys。化学。,113, 4242-4247 (2009)
[11] Chou,K.C.,《蛋白质结构类测定的关键驱动力》,《生物化学》。生物物理学。Res.Commun.公司。,264, 216-224 (1999)
[12] Chou,K.C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,Curr。蛋白质组学,2626-274(2009)
[13] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号
[14] Chou,K.C。;沈海波,大规模植物蛋白质亚细胞定位预测,细胞杂志。生物化学。,100, 665-678 (2006)
[15] Chou,K.C。;Zhang,C.T.,《综述:蛋白质结构类的预测》,《生物化学评论》。分子生物学。,30, 275-349 (1995)
[16] 丁,C.H.Q。;Dubchak,I.,使用支持向量机和神经网络的多类蛋白质折叠识别,生物信息学,17,349-358(2001)
[17] 杜,P.F。;Li,Y.D.,通过将假氨基酸成分与分段序列的各种物理化学特征杂交来预测蛋白质亚线粒体的位置,BMC生物信息学,7518(2006)
[18] 杜青山。;姜振强。;何维珍。;李博士。;Chou,K.C.,氨基酸主成分分析(AAPCA)及其在蛋白质结构类别预测中的应用,J.Biomol。结构。动态。,23, 635-640 (2006)
[19] Feng,K.Y。;蔡,Y.D。;Chou,K.C.,用于预测蛋白质结构域结构类别的Boosting分类器,生物化学。生物物理学。Res.Commun.公司。,334213-217(2005年)
[20] 高庆斌。;Zhao,H.Y。;Ye,X.F。;He,J.,使用伪氨基酸成分预测模式识别受体家族,生物化学。生物物理学。Res.Commun.公司。,417, 73-77 (2012)
[21] 海亚特,M。;Khan,A.,通过将复合蛋白序列特征融合到伪氨基酸组成中来预测膜蛋白类型,J.Theor。生物学,27110-17(2011)·Zbl 1405.92217号
[22] Huang,W.L。;东,C.W。;Huang,H.L。;黄,S.F。;Ho,S.Y.,ProLoc:使用支持向量机预测蛋白质亚核定位,并从物理化学成分特征中自动选择,生物系统,90,573-581(2007)
[23] 黄,Y。;Li,Y.D.,使用模糊k-NN方法预测蛋白质亚细胞位置,生物信息学,20,21-28(2004)
[24] 贾汉德德,S。;Abdolmaleki,P。;Jahandideh,M。;Asadabadi,E.B.,预测蛋白质结构类别的新型两阶段混合神经判别模型,生物物理。化学。,128, 87-93 (2007)
[25] 姜晓勇。;Wei,R。;Zhang,T.L。;顾强,利用周伪氨基酸组成的概念预测凋亡蛋白的亚细胞定位:一种近似熵方法,蛋白质肽Lett。,15, 392-396 (2008)
[26] 雷,Z。;Dai,Y.,基于SVM的蛋白质亚核定位预测系统,BMC生物信息学,6291-298(2005)
[27] 李,Z.C。;周,X.B。;戴,Z。;Zou,X.Y.,《通过Chou的伪氨基酸组成预测蛋白质结构类别:使用连续小波变换和主成分分析的方法》,《氨基酸》,37,415-425(2009)
[29] Lin,H。;Li,Q.Z.,《使用伪氨基酸组成预测蛋白质结构类别:通过合并400个二肽组分的方法》,J.Compute。化学。,28, 1463-1466 (2007)
[30] 罗瑞英。;冯,Z.P。;刘建康,用氨基酸和多肽组成预测蛋白质结构类别,《欧洲生物化学杂志》。,269, 4219-4225 (2002)
[31] 马索,M。;Vaisman,预测人类非同义单核苷酸多态性疾病可能性的基于知识的计算突变,J.Theor。生物学,266560-568(2010)·Zbl 1407.92082号
[32] Nakashima,H。;西川,K。;Ooi,T.,蛋白质的折叠类型与氨基酸组成有关,J.Biochem。,99, 153-162 (1986)
[33] 纳尼。;布拉南,S。;Lumini,A.,用于蛋白质分类的小波图像和Chou的伪氨基酸组成,《氨基酸》,43,657-665(2012)
[34] Qui,J.D。;罗,S.H。;Huang,J.H.(黄建海)。;Liang,R.P.,使用支持向量机预测基于离散小波变换的蛋白质结构类别,J.Comput。化学。,30, 1344-1350 (2008)
[35] Sahu,S.S。;Panda,G.,一种基于周氏伪氨基酸组成的新特征表示方法,用于蛋白质结构类预测,Compute。生物化学,34,320-327(2010)·Zbl 1403.92221号
[36] Shen,H.B。;杨,J。;刘晓杰。;Chou,K.C.,《使用监督模糊聚类预测蛋白质结构类别》,《生物化学》。生物物理学。Res.Commun.公司。,334, 577-581 (2005)
[37] Sun,X.D。;Huang,R.B.,使用支持向量机预测蛋白质结构类,氨基酸,30469-475(2006)
[38] Vapnik,V.,《统计学习理论》(1998),Wiley-Interscience:Wiley-Interscience纽约·兹比尔0935.62007
[39] Xiao,X。;Shao,S.H。;黄,Z.D。;Chou,K.C.,《使用伪氨基酸组成预测蛋白质结构类别:用复杂性度量因子进行探讨》,J.Compute。化学。,27, 478-482 (2006)
[40] Xiao,X。;王,P。;Chou,K.C.,GPCR-2L:通过杂交两种不同模式的伪氨基酸组成预测G蛋白偶联受体及其类型,分子生物系统,7911-919(2011)
[41] Zhang,T.L。;Ding,Y.S.,使用伪氨基酸组成和二元树支持向量机预测蛋白质结构类别,《氨基酸》,33,623-629(2007)
[42] Zhang,T.L。;丁Y.S。;Chou,K.C.,用伪氨基酸组成预测蛋白质结构类:近似熵和疏水性模式,J.Theor。生物学,250186-193(2008)·Zbl 1397.92551号
[43] 张振华。;王振华。;Z.R.Zhang。;Wang,Y.X.,基于分组权重和支持向量机的结合编码的凋亡蛋白亚细胞定位预测新方法,FEBS Letters,5806169-6174(2006)
[44] 周国平。;K博士,凋亡蛋白的亚细胞定位预测,蛋白质:结构。功能。Genet,50,44-48(2003)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。