×

使用投票特征区间结合Chou的伪氨基酸组成对膜蛋白类型进行分类。 (英语) Zbl 1343.92006年

摘要:膜蛋白是细胞的主要组成部分,在细胞中发挥着许多重要的功能。这些功能主要与膜蛋白的类型有关。最初,通过传统方法对膜蛋白类型进行分类,并使用这些方法获得了合理的结果。然而,由于在数据库中对蛋白质序列进行了大量的探索,因此很难或有时不可能通过常规方法进行分类,因为这既费力又浪费时间。因此,一种新的强大的判别模型对于高精度的膜蛋白类型分类是必不可少的。在这项工作中,开发了一个很有前景的分类模型,该模型具有有效的膜蛋白类型识别能力。在我们的分类模型中,通过伪氨基酸组成提取蛋白质序列的沉默特征。使用了五种分类算法。在这些分类算法中,投票特征区间在所有三个数据集中都取得了优异的性能。通过10倍交叉验证测试,该模型在数据集S1上的准确率为93.9%,在数据集S2上为89.33%,在数据集中S3上为86.9%。成功率表明,我们提出的模型比文献中的其他现有模型获得了最大的结果,并将在药物设计和制药工业领域发挥重要作用。

MSC公司:

92B15号机组 普通生物统计学
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[2] Barati,E.,《数据挖掘方法用于皮肤病预测的调查》,J.Sel。区域健康信息。,2011年第2、3、1-11页,(JSHI)
[3] Cai,Y.D。;周国平。;Chou,K.C.,通过使用功能域组成预测膜蛋白类型的支持向量机,Biophys。J.,843257-3263(2003)
[4] 曹,D.S。;徐庆生。;Liang,Y.Z.,Propy:生成Chou的PseAAC各种模式的工具,生物信息学,29960-962(2013)
[5] 曹,D.S。;徐庆生。;Liang,Y.Z.,Propy:生成Chou的PseAAC各种模式的工具,生物信息学,29960-962(2013)
[6] Chen,e.a.,使用改进的杂交方法和伪氨基酸组成预测凋亡蛋白亚细胞位置,J.Theor。《生物学》,248,2377-381(2007)·Zbl 1451.92113号
[7] Chen,W。;冯,P.M。;邓,E.Z。;Lin,H。;Chou,K.C.,iTIS-PseTNC:一种基于序列的预测因子,用于使用伪三核苷酸组成识别人类基因中的翻译起始位点,Ana。生物化学。,462, 76-83 (2014)
[8] Chen,W。;冯,P.M。;Lin,H。;Chou,K.C.,iRSpot-PseDNC:用伪二核苷酸成分识别重组点,《核酸研究》,41,6,e68(2013)
[9] Chen,W。;Lei,T.Y。;Jin,D.C。;Lin,H。;Chou,K.C.,PseKNC:生成伪K元组核苷酸组成的灵活web服务器,Ana。生物化学。,456, 53-60 (2014)
[10] Chen,W。;张,X。;布鲁克,J。;Lin,H。;张,L。;Chou,K.C.,PseKNC-General:生成各种模式伪核苷酸组成的跨平台软件包,生物信息学,31,1,119-120(2014)
[11] Chen,Y.K。;Li,K.B.,《通过将蛋白质拓扑结构、结构域、信号肽和物理化学性质纳入周氏伪氨基酸组成的一般形式来预测膜蛋白类型》,J.Theor。生物学,3181-12(2012)·Zbl 1406.92450号
[12] Chou,K.C.,使用伪氨基酸成分预测蛋白质亚细胞属性,蛋白质结构。功能。遗传学。,43, 246-255 (2001)
[13] Chou,K.C.,使用伪氨基酸成分预测蛋白质亚细胞属性,蛋白质:结构。功能。遗传学。,43, 246-255 (2001)
[14] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,21,10-19(2005)
[15] Chou,K.C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,Curr。蛋白质组。,262-274年6月4日(2009年)
[16] Chou,K.C.,《关于预测分子生物系统中多标签属性的一些评论》,Mol.Biosyst。,9, 1092-1100 (2013)
[17] Chou,K.C.,生物信息学对药物化学的影响,医学化学。,11, 218-234 (2015)
[18] Chou,K.C。;Elrod,D.E.,《膜蛋白类型和亚细胞位置的预测》,《蛋白质:结构》。功能。遗传学。,34, 137-153 (1999)
[19] Chou,K.C。;Shen,H.B.,MemType-2L:一个通过Pse PSSM整合进化信息来预测膜蛋白及其类型的网络服务器,Biochem。生物物理学。Res.Commun.公司。,360, 339-345 (2007)
[20] Chou,K.C。;Shen,H.B.,Cell-PLoc:一个用于预测各种生物体中蛋白质亚细胞定位的Web服务器包,《国家协议》。,3153-162(2008年)
[21] Chou,K.C。;吴振聪。;Xiao,X.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号
[22] Chou,K.C。;吴振聪。;Xiao,X.,iLoc-Hum:利用累积-标签尺度预测人类蛋白质在单位点和多位点的亚细胞位置,Mol.Biosyst。,8, 629-641 (2012)
[24] 德米罗兹,G。;Guvenir,H.A.,《按投票特征间隔分类》,LNAI,1224,85-92(1997),《施普林格:施普林格柏林》
[25] 杜,P。;顾S。;Jiao,Y.,PseAAC-General:为大规模蛋白质数据集快速构建Chou伪氨基酸组成的各种通用形式,国际分子科学杂志。,15, 3495-3506 (2014)
[26] 杜,P。;王,X。;徐,C。;Gao,Y.,PseAAC-Builder:一个跨平台独立程序,用于生成各种特殊的Chou伪氨基酸成分,Ana。生物化学。,425, 117-119 (2012)
[27] Eyheramendy,S。;刘易斯,D.D。;Madigan,D.,《关于文本分类的朴素贝叶斯模型》,Artif。智力。统计,3-6(2003)
[28] 方,Y。;郭毅。;Feng,Y。;Li,M.,《预测DNA结合蛋白:从Chou的伪氨基酸组成和其他特定序列特征探讨》,《氨基酸》,34,103-109(2008)
[29] 高庆斌。;Ye,X.F。;Jin,Z.C。;He,J.,通过融合不同形式的伪氨基酸成分提高外膜蛋白的识别能力。,J.分析。生物化学。,398, 52-59 (2010)
[30] Guo,S.-H。;邓永中。;徐立清。;丁,H。;Lin,H。;Chen,W。;Chou,K.-C.,iNuc-PseKNC:一种基于序列的预测因子,用于预测具有伪K元组核苷酸组成的基因组中的核小体定位,生物信息学,30,1522-1529(2014)
[31] Guo,S.H。;邓,E.Z。;徐立清。;丁,H。;Lin,H。;Chen,W。;Chou,K.C.,iNuc-PseKNC:一种基于序列的预测因子,用于预测具有伪K元组核苷酸组成的基因组中的核小体定位,生物信息学,30,1522-1529(2014)
[32] Guvenir,心律失常分析的有监督机器学习算法,计算机。心脏病。IEEE,24,433-436(1997)
[33] H.A.古韦纳。;Cakir,M.,《基于特征构造的投票分类器及其在预测财务困境中的应用》,专家系统。申请。,37, 1713-1718 (2010)
[34] H.A.古韦纳。;德米罗兹,G。;Ilter,N.,《使用投票特征间隔学习红斑鳞状病变的鉴别诊断》,Artif。智力。医学,13,147-165(1998)
[35] Han,G.S。;Yu,Z.G。;Anh,V.,通过将氨基酸分类和物理化学性质纳入Chou s PseAAC,J.Theor的一般形式,预测膜蛋白类型的两阶段SVM方法。生物学,344,31-39(2014)·Zbl 1412.92242号
[36] Hany,e.a.,使用支持向量机预测蛋白质-蛋白质相互作用的结构域和疏水性特征的比较,World Acad。科学。工程技术。,7, 431-437 (2007)
[37] 海亚特,M。;Iqbal,N.,通过结合伪平均化学位移和支持向量机来区分蛋白质结构类别,J.Comput。方法生物识别程序。,116, 184-192 (2014)
[38] 海亚特,M。;Khan,A.,通过将复合蛋白序列特征融合到伪氨基酸组成中来预测膜蛋白类型,J.Theor。生物学,27110-17(2011)·Zbl 1405.92217号
[39] 海亚特,M。;Khan,A.,基于Chou的PseAAC,Protein Pept的一般形式,使用模糊k-最近邻算法识别外膜蛋白。莱特。,19, 411-421 (2012)
[40] 海亚特,M。;Khan,A.,使用基于二肽和伪氨基酸组成的复合特征预测膜蛋白类型,IET Commun。,6, 3257-3264 (2012)
[41] 海亚特,M。;Khan,A.,MemHyb:通过SAAC和PSSM杂交预测膜蛋白类型,J.Theor。生物,29293-102(2012)·Zbl 1307.92308号
[42] 海亚特,M。;Tahir,M.,PSOFuzzySVM-TMH:利用集成模糊支持向量机的集成特征空间识别跨膜螺旋片段,J.Mol.Biosyst。,11, 2255-2262 (2015)
[43] 黄,G。;Zhang,Y。;Chen,L。;张,N。;黄,T。;Cai,Y.D.,用综合方法预测人类多种类型膜蛋白,PloS One,9,e93553(2014)
[44] 黄,Y。;Li,Y.,概率神经网络在中枢神经系统白血病和胚胎性肿瘤分类预测中的应用,神经过程。莱特。,19, 211-226 (2004)
[45] 贾,J。;线路接口单元;Xiao,X。;刘,B。;Chou,K.C.,iPPI-Esml:一种集成分类器,用于通过将蛋白质的物理化学性质和小波变换合并到PseAAC,J.Theor中来识别蛋白质的相互作用。《生物学》,377,47-56(2015)
[46] 琼斯,跨膜蛋白超家族存在吗?,FEBS信函。,423, 281-285 (1998)
[47] Z.U.Khan。;海亚特,M。;Khan,M.A.,《结合概率神经网络模型使用伪氨基酸组成区分酸性和碱性酶》,J.Theor。生物,365197-203(2014)·Zbl 1314.92069号
[48] 李伟(Li,W.)。;Godzik,A.,《Cd-hit:聚类和比较大组蛋白质或核苷酸序列的快速程序》,生物信息学,221658-1659(2006)
[49] Lin,H。;邓,E。;丁,H。;Chen,W。;Chou,K.C.,iPro54-PseKNC:基于序列的预测因子,用于识别具有伪K元组核苷酸组成的原核生物中的sigma-54启动子,核酸研究,42,12961-12972(2014)
[50] 刘,B。;方,L。;刘,F。;王,X。;陈,J。;Chou,K.C.,用伪结构状态组成方法识别真实的microRNA前体,PloS One,10,e0121501(2015)
[51] 刘,B。;刘,F。;方,L。;王,X。;Chou,K.C.,repDNA:一个Python软件包,通过结合用户定义的物理化学特性和序列序效应,为DNA序列生成各种模式的特征向量,生物信息学,311307-1309(2015)
[54] 刘,H。;王,M。;Chou,K.C.,预测膜蛋白类型的低频傅里叶光谱,生物化学。生物物理学。Res.Commun.公司。,336, 737-739 (2005)
[55] 刘,Z。;Xiao,X。;邱伟荣。;Chou,K.-C.,iDNA-Methyl:通过伪三核苷酸组成识别DNA甲基化位点,Ana。生物化学。,474, 69-77 (2015)
[56] Mandle,A.K。;Jain,P。;Shrivastava,S.K.,使用支持向量机的蛋白质结构预测,Int.J.Soft Comput。(IJSC),3,67-78(2012)
[57] Marsolo,Keith,角膜形状的空间建模和分类,IEEE Trans。技术信息。生物识别。,203-212年11月(2007年)
[58] Mei,S.,通过Chou的基于PseAAC公式的多标记同源知识转移学习预测植物蛋白质亚细胞多定位,J.Theor。生物学,310,80-87(2012)·兹比尔1337.92065
[59] Mohabatkar,H。;贝吉,M。;Abdolahi,K。;Mohsenzadeh,S.,利用Chou的伪氨基酸组成概念和机器学习方法预测过敏性蛋白质,医学化学。,9, 133-137 (2013)
[60] Mohabatkar,H。;贝吉,M。;Esmaeili,A.,使用Chou的伪氨基酸组成和支持向量机概念预测GABA(A)受体蛋白,J.Theor。生物学,281,18-23(2011)·Zbl 1397.92215号
[61] 蒙达尔,S。;巴夫纳,R。;R.巴布。;Ramakumar,S.,用于芋螺毒素超家族分类的伪氨基酸组成和多类支持向量机方法,J.Theor。生物学,243,252-260(2006)·Zbl 1447.92309号
[62] 纳尼。;Lumini,A.,《为亚线粒体定位创建周氏伪氨基酸特征的遗传编程》,《氨基酸》,34653-660(2008)
[63] 纳尼。;鲁米尼,A。;古普塔,D。;Garg,A.,通过融合一组基于Chou伪氨基酸组成变体和进化信息的分类器来识别细菌毒性蛋白,IEEE/ACM Trans。计算。生物信息学。,9, 467-475 (2012)
[64] Paliwal,M。;美国库马尔,《神经网络和统计技术:应用综述》,专家系统。申请。,36, 2-17 (2009)
[66] 邱建德。;黄,J.H。;Liang,R.P。;Lu,X.Q.,基于Chou伪氨基酸组成概念的G蛋白偶联受体类别预测:基于离散小波变换的方法,Ana。生物化学。,390, 68-73 (2009)
[67] 曲,W。;隋,H。;杨,B。;Qian,W.,使用多模态BP方法改进蛋白质二级结构预测,计算。生物医学,41946-959(2011)
[69] Rezaei,医学硕士。;Maleki,P.A。;Z.卡拉米。;Asadabadi,E.B。;医学硕士Sherafat。;Moghaddam,K.A。;法代,M。;Forouzanfar,M.,《利用小波分析和级联神经网络预测膜蛋白类型》,J.Theor。生物学,255,817-820(2008)
[72] Sarangi,A.N。;Lohani,M。;Aggarwal,R.,《通过将各种物理化学特征合并到Chou的伪氨基酸组成的一般形式中来预测原核生物中的基本蛋白质》,Protein Pept。莱特。,207781-795(2013)
[73] Shen,H.B。;Chou,K.C.,PseAAC:用于生成各种蛋白质伪氨基酸组成的灵活web服务器,Ana。生物化学。,373, 386-388 (2008)
[74] Specht,D.F.,概率神经网络,神经网络。,3109-118(1990年)
[75] 孙晓勇。;史,S.P。;邱建德。;索,S.B。;黄S.Y。;Liang,R.P.,通过离散小波变换将物理化学性质纳入Chou的PseAAC的一般形式,从而识别蛋白质四元结构属性,Mol.Biosyst。,8,3178-3184(2012年)
[77] Wang,e.a.,《基于伪氨基酸的堆积泛化预测膜蛋白类型》,J.Theor。《生物学》,242941-946(2006)·Zbl 1447.92315号
[78] Wang,L。;袁,Z。;陈,X。;周,Z.,用NPE预测膜蛋白类型,IEICE Electron。快递,7,6,397-402(2010)
[79] 王,M。;杨,J。;刘国平。;徐志杰。;Chou,K.C.,基于伪氨基酸组成预测膜蛋白类型的加权支持向量机,蛋白质工程设计。选择。,17, 509-516 (2004)
[80] Xiao,X。;王,P。;林,W.Z。;贾建华。;Chou,K.C.,iAMP-2L:用于识别抗菌肽及其功能类型的两级多标签分类器,Ana。生物化学。,436, 168-177 (2013)
[81] 张国勇。;Fang,B.S.,使用Chou的伪氨基酸组成概念预测蛋白质亚细胞定位:一种结合进化信息和von Neumann熵的方法,氨基酸,34565-572(2008)
[82] 周国平。;蔡永德,通过杂交基因本体和伪氨基酸组成预测蛋白酶类型,蛋白质,43,63,681-684(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。