×

用于蛋白质分类的高性能PseAAC集和基于序列的描述符。 (英语) Zbl 1407.92103号

摘要:研究可靠的蛋白质自动分类系统对几个领域都很重要,包括寻找新药和疫苗。过去十年中,在开发可靠的蛋白质分类系统方面取得了一些进展。人们特别感兴趣的是探索从蛋白质中提取特征的新方法,以增强对给定问题的分类。然而,迄今为止开发的大多数方法仅在一个或两个应用领域进行了评估。还没有探索出能够很好地跨多个应用领域和数据集进行推广的方法。本研究的目的是找到一种通用方法,或一组方法,能够很好地处理不同的蛋白质分类数据集和问题。
为此,我们评估了几种用于从蛋白质的氨基酸序列开始表示蛋白质的特征提取方法,以及使用分类器集成(支持向量机)的不同特征描述符组合。在我们的实验中,使用九个不同的数据集比较了十多个不同的蛋白质描述符。我们使用盲测试协议开发我们的系统,其中系统的参数使用一个数据集进行优化,然后使用其他数据集进行验证(每个数据集依此类推)。虽然不同的独立分类器在某些数据集上运行良好,而在其他数据集上则不然,但我们发现不同方法之间的融合在所有测试数据集上都获得了良好的性能,尤其是在使用加权和规则时。
在我们的特征描述符组合中,引入了两个新的描述符,一个基于小波,另一个基于氨基酸基团。使用我们的系统,两者都优于其标准实现。我们还将简单氨基酸组成(AC)和二肽组成(2G)作为基线,因为它们广泛用于蛋白质分类。我们提出的方法优于AC和2G。

MSC公司:

92D20型 蛋白质序列,DNA序列
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: DOI程序 哈尔

参考文献:

[1] Bairoch,A。;Apweiler,R.,SWISS-PROT蛋白质序列数据库及其补充TrEMBL,核酸研究,28,45-48(2000)
[2] Ben-Ga,L.I。;沙尼,A。;Gohr,A。;Grau,J。;阿尔维夫,S。;什米洛维奇,A。;Posch,S。;Grosse,I.,用可变阶贝叶斯网络识别转录因子结合位点,生物信息学,212657-2666(2005)
[3] Bock,J。;Gough,D.,全蛋白质组相互作用挖掘,生物信息学,19,125-135(2003)
[4] 陈,C。;Chen,L。;邹,X。;Cai,P.,利用Chou的伪氨基酸组成和支持向量机概念预测蛋白质二级结构含量,《蛋白质与肽快报》,16,27-31(2009)
[5] Chen,L。;杨,J。;Yu,J。;姚,Z。;Sun,L。;沈毅。;Jin,Q.,VFDB:细菌毒力因子参考数据库,核酸研究,33,D325-D328(2005)
[6] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质:结构、功能和遗传学,43,246-255(2001)
[7] Chou,K.C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,《现代蛋白质组学》,第6期,第262-274页(2009年)
[8] 周,K.C。;Zhang,C.T.,《综述:蛋白质结构类的预测》,《生物化学与分子生物学评论》,30275-349(1995)
[9] 周,K.C。;沈海斌,《综述:蛋白质亚细胞定位预测的最新进展》,分析生物化学,370(2007)
[10] 周,K.C。;Shen,H.B.,Signal-CF:预测信号肽的一种亚组偶联和窗口融合方法,生物化学和生物物理研究通讯,357633-640(2007)
[11] 周,K.C。;Shen,H.B.,MemType-2L:通过Pse-PSSM结合进化信息预测膜蛋白及其类型的网络服务器,生物化学和生物物理研究通讯,360,339-345(2007)
[12] 周,K.C。;Shen,H.B.,Cell-PLoc:一个用于预测各种生物体中蛋白质亚细胞定位的网络服务器包,《自然协议》,3153-162(2008)
[13] 周,K.C。;Shen,H.B.,ProtIdent:一种通过融合功能域和序列进化信息来识别蛋白酶及其类型的网络服务器,《生物化学和生物物理研究通讯》,376321-325(2008)
[14] Chou,K.C.,Shen,H.B.,2009年。综述:开发用于预测蛋白质属性的网络服务器的最新进展。自然科学2,63-92(在〈http://www.scirp.org/journal/NS/; Chou,K.C.,Shen,H.B.,2009年。综述:开发用于预测蛋白质属性的网络服务器的最新进展。自然科学2,63-92(在〈http://www.scirp.org/journal/NS/
[15] 周,K.C。;Shen,H.B.,预测单位点和多位点真核蛋白亚细胞定位的新方法:Euk-mP Loc 2.0,PLoS ONE,5,e9931(2010)
[16] 克里斯蒂安尼,N。;Shawe-Taylor,J.,《支持向量机和其他基于内核的学习方法简介》(2000),剑桥大学出版社:剑桥大学出版社,英国剑桥
[17] Daras,P。;扎尔帕拉斯,D。;Axenopoulos,A。;Tzovaras,D。;Strintzis,M.G.,蛋白质分类的三维形状结构比较方法,IEEE计算生物学和生物信息学汇刊,3193-207(2006)
[18] 丁Y.S。;Zhang,T.L.,使用周的伪氨基酸组成预测凋亡蛋白的亚细胞定位:基于免疫遗传算法的集成分类器方法,模式识别快报,291887-1892(2008)
[19] Esmaeili,M。;Mohabatkar,H。;Mohsenzadeh,S.,使用周的伪氨基酸组成概念预测人类乳头瘤病毒的风险类型,理论生物学杂志,263203-209(2010)·Zbl 1406.92455号
[20] Fawcett,T.,《ROC图表:研究人员的注意事项和实际注意事项》(2004年),惠普实验室:美国帕洛阿尔托惠普实验室
[21] 加格,A。;Gupta,D.,VirulentPred:一种基于SVM的细菌病原体毒力蛋白预测方法,BMC生物信息学,9(2008)
[22] 郭J.、林Y.、孙Z.,2005年。一种新的蛋白质亚细胞定位方法:结合残差耦合模型和支持向量机。摘自:《第三届亚太生物信息学会议论文集》,第117-129页。;郭J.、林Y.、孙Z.,2005年。一种新的蛋白质亚细胞定位方法:结合残差耦合模型和支持向量机。摘自:《第三届亚太生物信息学会议论文集》,第117-129页。
[23] 何振生。;张杰。;史晓华(Shi,X.H.)。;胡丽莲。;Kong,X.G.公司。;Cai,Y.D。;Chou,K.C.,基于功能群和生物特征预测药物靶点相互作用网络,《公共科学图书馆·综合》,5,e9603(2010)
[24] Ho,T.K.,构建决策森林的随机子空间方法,IEEE PAMI,20832-844(1998)
[25] Hu,J.,Zhang F.,使用基于氨基酸基团的物理化学编码改进蛋白质定位预测,BICoB 2009,LNBI 54622009,第248-258页;Hu,J.,Zhang F.,使用基于氨基酸基团的物理化学编码改进蛋白质定位预测,BICoB 2009,LNBI 54622009,第248-258页
[26] Jaakkola,T.,Diekhans,M.,Haussler,D.,1999年。使用fisher核方法检测远程蛋白同源性。参加:第七届分子生物学智能系统国际会议。AAAI出版社,第149-158页。;Jaakkola,T.,Diekhans,M.,Haussler,D.,1999年。使用fisher核方法检测远程蛋白同源性。参加:第七届分子生物学智能系统国际会议。AAAI出版社,第149-158页。
[27] 蒋,X。;魏,R。;Zhang,T.L。;Gu,Q.,使用周的伪氨基酸组成概念预测凋亡蛋白的亚细胞位置:一种近似熵的方法,《蛋白质与肽快报》,15,392-396(2008)
[28] 川岛,S。;Kanehisa,M.,AAindex:氨基酸指数数据库,核酸研究,20(2000)
[29] Kittler,J.,《关于组合分类器》,IEEE PAMI,20,226-239(1998)
[30] Kumar,M.,Verma,R.,Raghava,G.P.S.,2006年。使用支持向量机和隐马尔可夫模型预测线粒体蛋白质。生物化学杂志281,5357-5363。;Kumar,M.,Verma,R.,Raghava,G.P.S.,2006年。使用支持向量机和隐马尔可夫模型预测线粒体蛋白质。《生物化学杂志》281,5357-5363。
[31] Landgrebe,T.C.W。;Duin,Robert P.W.,通过成对分析近似多类ROC,模式识别快报,281747-1758(2007)
[32] 雷,Z。;Dai,Y.,基于SVM的蛋白质亚核定位预测系统,BMC生物信息学,6(2005)
[33] Leslie,C.S。;Eskin,E。;科恩,A。;韦斯顿,J。;Noble,W.S.,用于区分蛋白质分类的错配字符串核,生物信息学,20467-476(2004)
[34] 李,F.M。;Li,Q.Z.,使用周的伪氨基酸组成和改进的杂交方法预测蛋白质亚细胞位置,《蛋白质与肽快报》,15(2008)
[35] 李,Z.C。;周,X.-B。;戴,Z。;邹晓勇,《利用周氏伪氨基酸组成预测蛋白质结构类别:利用连续小波变换和主成分分析的方法》,《氨基酸》,22,699-705(2008)
[36] Liao,S。;劳,M.W.K。;Chung,A.C.S.,纹理分类的主要局部二进制模式,IEEE图像处理汇刊,181107-1118(2009)·Zbl 1371.94232号
[37] Lin,H.,利用周氏伪氨基酸成分预测外膜蛋白的改良马氏判别式,理论生物学杂志,252350-356(2008)·Zbl 1398.92076号
[38] Lin,H。;丁·H。;郭峰标,F.B。;张亚勇。;黄,J.,利用周的伪氨基酸组成预测分枝杆菌蛋白质的亚细胞定位,《蛋白质与肽快报》,15739-744(2008)
[39] Lin,W.Z.,Xiao,X.,Chou,K.C.,2009年。GPCR-GIA:通过灰色关联分析识别G蛋白偶联受体及其家族的网络服务器。蛋白质工程、设计与选择;Lin,W.Z.,Xiao,X.,Chou,K.C.,2009年。GPCR-GIA:通过灰色关联分析识别G蛋白偶联受体及其家族的网络服务器。蛋白质工程、设计和选择
[40] 马丁·S。;罗伊,D。;Faulon,J.L.,使用特征产品预测蛋白质相互作用,生物信息学,21,2,218-226(2005)
[41] Murphy,L.R。;Wallqvist,A。;Levy,R.M.,蛋白质折叠识别的简化氨基酸字母及其对折叠的影响,蛋白质工程,13,149-152(2000)
[42] Nanni,L.,HIV-1蛋白酶裂解位点预测的特征提取方法比较,模式识别,39,711-713(2006)·Zbl 1122.68497号
[43] Nanni,L。;Lumini,A.,预测蛋白质相互作用的K-Local超平面集合,生物信息学,221207-1210(2006)
[44] Nanni,L。;Lumini,A.,构建肽和蛋白质分类不同字母的遗传方法,BMC生物信息学,9(2008)
[45] 普迪尔,P。;Novovicova,J。;Kittler,J.,特征选择中的浮动搜索方法,模式识别字母,5119-1125(1994)
[46] 秦总,2006。概率分类器预测的ROC分析。摘自:第四届机器学习和控制论国际会议,第5卷,第3119-3312页。;秦总,2006。概率分类器预测的ROC分析。见:第四届机器学习和控制论国际会议,第5卷,第3119-3312页。
[47] 邱建德。;黄,J.H。;Liang,R.P。;Lu,X.Q.,基于Chou伪氨基酸组成概念的G蛋白偶联受体类别预测:基于离散小波变换的方法,分析生物化学,390,68-73(2009)
[48] 罗德里格斯,J.J。;Kuncheva,L.I。;Alonso,C.J.,《旋转森林:一种新的分类器集成方法》,IEEE PAMI,281619-1630(2006)
[49] 沈海波。;Chou,K.-C.,《病毒-PLoc:预测宿主和病毒感染细胞内病毒蛋白亚细胞定位的融合分类器》,《生物聚合物》,第15期,第233-240页(2007年)
[50] 沈,H.-B。;Chou,K.-C.,Gpos-PLoc:预测革兰氏阳性细菌蛋白质亚细胞定位的集成分类器,蛋白质工程设计与选择,20,39-46(2007)
[51] Shen,H.B。;Chou,K.C.,Gneg-mPLoc:一种自顶向下的策略,用于提高预测革兰氏阴性细菌蛋白质亚细胞定位的质量,《理论生物学杂志》,264,326-333(2010)·Zbl 1406.92211号
[52] Tan,X。;Triggs,B.,《困难照明条件下用于人脸识别的增强局部纹理特征集》,《人脸和手势分析与建模LNCS》,4778,168-182(2007)
[53] Tantoso,E。;Li,K.B.,AAIndexLoc:基于氨基酸指数序列的新表示预测蛋白质的亚细胞定位,《氨基酸》,35,345-353(2008)
[54] 维玛,R。;瓦什尼,G.C。;Raghava,G.P.S.,使用分裂氨基酸组成和PSSM谱预测疟疾寄生虫的线粒体蛋白质,氨基酸(2009年)
[55] Xi,L。;Bo,L。;俞,S。;Z.青光。;Jiawei,L.,利用氨基酸序列的全局编码预测蛋白质功能类别利用氨基酸序列全局编码预测蛋白功能类别,理论生物学杂志,261290-293(2009)·Zbl 1403.92212号
[56] Xiao,X。;Lin,W.Z.,蛋白质灰色关联度测度在预测蛋白质四级结构类型中的应用,氨基酸,37741-749(2009)
[57] Xiao,X。;王,P。;Chou,K.C.,用伪氨基酸组成预测蛋白质结构类:使用细胞自动机图像几何矩的方法,理论生物学杂志,254691-696(2008)·Zbl 1400.92416号
[58] Xiao,X。;Lin,W.Z。;Chou,K.C.,《使用灰色动态模型和伪氨基酸组成预测蛋白质结构类别》,《计算化学杂志》,292018-2024(2008)
[59] Xiao,X。;王,P。;Chou,K.C.,GPCR-CA:一种用于预测G蛋白偶联受体官能团的细胞自动机图像方法,计算化学杂志,3011414-1423(2009)
[60] Xiao,X。;王,P。;Chou,K.C.,通过杂交功能域组成和伪氨基酸组成预测蛋白质四元结构属性,应用晶体学杂志,42,169-173(2009)
[61] Xiao,X.,Shao,S.H.,Huang,Z.D.,Chou,K.C.,2006a。用伪氨基酸组成预测蛋白质结构类别:用复杂性度量因子探讨。计算化学杂志。;Xiao,X.,Shao,S.H.,Huang,Z.D.,Chou,K.C.,2006a。用伪氨基酸组成预测蛋白质结构类别:用复杂性度量因子探讨。计算化学杂志。
[62] Xiao,X。;Shao,S.H。;丁永胜。;黄,Z.D。;Chou,K.C.,使用细胞自动机图像和伪氨基酸组成预测蛋白质亚细胞位置,《氨基酸》,30,49-54(2006)
[63] Xiao,X。;邵,S。;丁,Y。;Huang,Z。;黄,Y。;Chou,K.C.,使用复杂性度量因子预测蛋白质亚细胞位置,《氨基酸》,28,57-61(2005)
[64] Yang,Z.R。;Thomson,R.,预测蛋白质蛋白酶裂解位点的生物基函数神经网络,IEEE神经网络汇刊,16,263-274(2005)
[65] 曾Y.H。;郭义忠。;肖瑞秋。;Yang,L。;Yu,L.Z。;Li,M.L.,基于自协方差方法使用增强的周伪氨基酸组成预测蛋白质亚线粒体位置,理论生物学杂志,259366-372(2009)·Zbl 1402.92193号
[66] 周国平,《关于蛋白质结构类预测的有趣争议》,《蛋白质化学杂志》,17,729-738(1998)
[67] 周,X.B。;陈,C。;李,Z.C。;邹晓勇,利用周氏两亲性伪氨基酸组成和支持向量机预测酶亚科类别,理论生物学杂志,248546-551(2007)·Zbl 1451.92245号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。