×

CE-PLoc:通过融合不同模式的伪氨基酸组成预测蛋白质亚细胞位置的集成分类器。 (英语) Zbl 1226.92020号

摘要:关于细胞中蛋白质位置的精确信息有助于理解蛋白质的功能及其在细胞环境中的相互作用。这些信息进一步有助于研究特定的代谢途径和其他生物过程。我们提出了一种称为“CE-PLoc”的集成方法,用于基于单个分类器融合的亚细胞位置预测。该方法利用了从二肽组成(DC)和两亲性伪氨基酸组成(PseAAC)两种基于特征提取策略获得的特征。通过使用PseAAC为选定的基础学习者改变维度,可以获得不同的特征空间。首先分析了使用基于PseAAC的特征训练的支持向量机、最近邻、概率神经网络、协变判别等个体学习机制的性能。分类器是使用相同的学习机制开发的,但在基于PseAAC的不同维特征空间上进行训练。这些分类器通过投票策略进行组合,从而提高了预测性能。通过结合在基于DC的特征空间和基于PseAAC的不同维特征空间上训练的不同学习机制,开发CE-PLoc进一步提高了预测性能。使用准确性、MCC和Q-统计对两个蛋白质亚细胞定位基准数据集的CE-PLoc预测性能进行了评估。通过折刀试验,对12个和14个亚细胞位置数据集的预测准确率分别为81.47%和83.99%。在独立数据集测试中,12类和14类数据集的预测准确率分别为87.04%和87.33%。

MSC公司:

92C40型 生物化学、分子生物学
92-08 生物问题的计算方法
92立方37 细胞生物学
65C20个 概率模型,概率统计中的通用数值方法

关键词:

二肽组成
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Afridi,T.H。;A.Khan。;Lee,Y.S.,Mito-GSAAC:使用遗传集成分类器和分离氨基酸组成预测线粒体,《氨基酸》(2011年)
[2] 阿南德,A。;Suganthan,P.N.,《利用支持向量机对分类优化基因和概率估计进行多类癌症分类》,《理论生物学杂志》,259533-540(2009)·Zbl 1402.92227号
[3] Bairoch,A。;Apweiler,R.,SWISS-PROT蛋白质序列数据库及其补充TrEMBL,核酸研究,25,31-36(1997)
[4] 博登,M。;Teasdale,R.D.,《利用蛋白质相互作用从序列中确定核仁关联》,《计算生物学杂志》,第15期,第291-304页(2008年)
[5] Chang,C.C。;Lin,C.J.,LIBSVM:支持向量机库(2008),可从以下网站获取:
[6] Chou,K.C.,通过结合准序列顺序效应预测蛋白质亚细胞位置,生物化学和生物物理研究通讯,278477-483(2000)
[7] Chou,K.C.,使用伪氨基酸组成预测蛋白质细胞属性,蛋白质:结构、功能和遗传学,43246-255(2001)
[8] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,21,10-19(2005)
[9] Chou,K.C。;Cai,Y.D.,使用功能域组成和支持向量机预测蛋白质亚细胞位置,生物化学杂志,27745765-45769(2002)
[10] Chou,K.C。;蔡永德,蛋白质亚细胞位置的预测和分类-序列序效应和伪氨基酸组成,细胞生物化学杂志,901250-1260(2003)
[11] Chou,K.C。;Elrod,D.W.,蛋白质亚细胞位置预测,蛋白质工程,12,107-118(1999)
[12] Chou,K.C。;Shen,H.B.,Hum-PLoc:预测人类蛋白质亚细胞定位的新型集成分类器,生物化学和生物物理研究通讯,347150-157(2006)
[13] Chou,K.C。;沈海斌,融合多分类器预测蛋白质亚细胞定位,细胞生物化学杂志,99517-527(2006)
[14] Chou,K.C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,《现代蛋白质组学》,第6期,第262-274页(2009年)
[15] Chou,K.C。;Shen,H.B.,《评论:开发用于预测蛋白质属性的网络服务器的最新进展》,《自然科学》,第263-92页(2009年)
[16] Chou,K.C。;吴振聪。;Xiao,X.,iLoc-Euk:预测单复合体和复合真核蛋白亚细胞定位的多标记分类器,PLoS One,6,e18258(2011)
[17] Chou,K.C。;Shen,H.B.,预测单位点和多位点Euk-mPLoc 2真核蛋白亚细胞定位的新方法。0,公共科学图书馆综合版,5,e9931(2010)
[18] Chou,K.C。;Shen,H.B.,Plant-mPLoc:一种自上而下的策略,以增强预测植物蛋白质亚细胞定位的能力,《公共科学图书馆·综合》,5,e11335(2010)
[19] Chou,K.C。;Shen,H.B.,Cell-PLoc 2.0:一个改进的网络服务器包,用于预测各种生物中蛋白质的亚细胞定位,自然科学,21090-1103(2010)
[20] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,《理论生物学杂志》,273,236-247(2011),(50周年回顾)·Zbl 1405.92212号
[21] Chou,K.C。;Shen,H.B.,Cell-PLoc:预测各种生物体中蛋白质亚细胞定位的Web服务器包,《自然协议》,3153-162(2008)
[22] Chou,K.C。;张春涛,蛋白质结构类预测,生物化学与分子生物学评论,30,275-349(1995)
[23] Daun,S。;鲁宾,J。;沃多沃茨,Y。;罗伊,A。;R·帕克。;Clermont,G.,大鼠对细菌脂多糖的急性炎症反应模型集合:参数空间减少的结果,理论生物学杂志,253843-853(2008)·兹比尔1398.92053
[24] 邓,M。;张凯。;梅塔,S。;Chen,T。;Sun,F.,利用蛋白质相互作用数据预测蛋白质功能,计算生物学杂志,10947-960(2003)
[25] Denoeux,T.,A(k)-基于Dempster-Shafer理论的最近邻分类规则,IEEE系统人与控制论汇刊,25804-813(1995)
[26] 杜,P。;曹,S。;Li,Y.,SubChlo:用伪氨基酸组成和证据理论K最近邻(ET-KNN)算法预测蛋白质亚叶绿体位置,理论生物学杂志,261330-335(2009)·Zbl 1403.92063号
[27] 杜达,R.O。;哈特,体育。;Stork,D.G.,《模式分类》(2001),John Wiley&Sons公司:John Willey&Sons,Inc.纽约·Zbl 0968.68140号
[28] 法亚兹,M。;Mujahid,A。;A.Khan。;Bangash,A.,通过分类器加权组合预测蛋白质亚细胞定位,(2007年国际电气工程会议(ICEE,2007)。2007年国际电气工程会议(ICEE,2007),2007年4月11日至12日,巴基斯坦拉合尔(2007))
[29] 高,Y。;邵,S。;Xiao,X。;丁,Y。;黄,Y。;黄,Z。;Chou,K.C.,使用伪氨基酸组成预测蛋白质亚细胞位置:用Lyapunov指数、贝塞尔函数和切比雪夫滤波器进行探讨,《氨基酸》,28,373-376(2005)
[30] 加格,A。;巴辛,M。;Raghava,G.P.S.,使用氨基酸成分进行人类蛋白质亚细胞定位的基于支持向量机的方法。它们的顺序和相似性搜索,《生物化学杂志》,28014427-14432(2005)
[31] 郭,X。;Gao,X.,一种用于蛋白质折叠识别的新型层次集成分类器,蛋白质工程设计与选择,21659-664(2008)
[32] 胡,L。;黄,T。;施,X。;卢,W.C。;Cai,Y.D.,基于加权蛋白质相互作用网络和蛋白质杂交特性预测小鼠蛋白质功能,PLoS ONE,6,e14556(2011)
[33] 何,Z。;张杰。;史晓华(Shi,X.H.)。;胡丽莲。;Kong,X.,《基于功能群和生物特征预测药物靶点相互作用网络》,《公共科学图书馆·综合》,5,e9603(2010)
[34] 海亚特,M。;Khan,A.,通过将复合蛋白质序列特征融合到伪氨基酸组成中预测膜蛋白类型,理论生物学杂志,271,10-17(2011)·Zbl 1405.92217号
[35] Jaimovich,A。;Elidan,G。;Margalit,H。;Friedman,N.,《走向一个集成的蛋白质相互作用网络:关系马尔可夫网络方法》,《计算生物学杂志》,第13期,第145-164页(2006年)
[36] 贾,P。;钱,Z。;曾,Z。;蔡,Y。;Li,Y.,基于功能结构域组成的亚细胞蛋白定位预测,《生物化学和生物物理研究通讯》,357366-370(2007)
[37] 坎达斯瓦米,K.K。;周,K.C。;马丁内茨,T。;莫勒,S。;Suganthan,P.N.,AFP-Pred:从序列衍生特性预测抗冻蛋白的随机森林方法,理论生物学杂志,27056-62(2011)
[38] Kavousi,K。;Moshiri,B。;Sadeghi,M。;Araabi,B.N。;Moosavi-Movahedic,A.A.,通过PSSM融合不同模式的伪氨基酸组成而形成的蛋白质折叠分类器,计算生物学与化学杂志,35,1-9(2010)·Zbl 1403.92209号
[39] A.Khan。;法亚兹,M。;Choi,T.S.,变换域中基于邻近性的GPCR预测,生物化学和生物物理研究通讯,371,411-415(2008)
[40] A.Khan。;马吉德,A。;Mirza,A.M.,使用遗传编程进行性别分类时分类器的组合和优化,基于知识的智能工程系统国际期刊,9,1-11(2005)
[41] Kuncheva,L.I。;Whitaker,C.J.,《分类器集合多样性的度量及其与集合准确性的关系》,机器学习,51,181-207(2003)·Zbl 1027.68113号
[42] 李,S。;刘,B。;曾,R。;蔡,Y。;Li,Y.,使用SVM预测哺乳动物蛋白质中的O-糖基化位点,计算生物学和化学杂志,30203-208(2006)·Zbl 1102.92022号
[43] 李,F.M。;Li,Q.Z.,使用周的伪氨基酸组成和改进的杂交方法预测蛋白质亚细胞位置,《蛋白质与肽快报》,15,612-616(2008)
[44] Lin,H.,利用周氏伪氨基酸成分预测外膜蛋白的改良马氏判别式,理论生物学杂志,252350-356(2008)·Zbl 1398.92076号
[45] Mohabatkar,H.,利用周氏伪氨基酸组成预测细胞周期蛋白,《蛋白质与肽快报》,17,1207-1214(2010)
[46] 马吉德,A。;A.Khan。;Mirza,A.M.,使用遗传编程的支持向量机组合I,《混合智能系统国际期刊》,3,109-125(2006)·Zbl 1095.68645号
[47] Matthews,B.W.,T4噬菌体溶菌酶预测和观察二级结构的比较,生物化学与生物物理学报,405,442-451(1975)
[48] 梅,S。;Fei,W。;Zhou,S.,基于基因本体的蛋白质亚细胞定位转移学习,BMC生物信息学,12,44(2011)
[49] 纳维德,M。;Khan,A.,GPCR-MPredictor:使用遗传集成对G蛋白偶联受体进行多级预测,《氨基酸》(2011年)
[50] 潘,Y.X。;张,Z.Z。;郭振明。;Feng,G.Y。;黄,Z.D。;He,L.,伪氨基酸组成在预测蛋白质亚细胞位置中的应用:随机信号处理方法,《蛋白质化学杂志》,22,395-402(2003)
[51] 邱建德。;黄,J.H。;施,S.P。;Liang,R.P.,使用Chou的伪氨基酸组成概念预测酶家族类别:基于离散小波变换的支持向量机方法,《蛋白质与肽快报》,17,715-722(2010)
[52] 拉赫曼,Z.U。;Khan,A.,利用不同理化性质的伪氨基酸组成和多尺度能量表示进行GPCR预测,分析生物化学,412173-182(2011)
[53] Sahu,S.S。;Panda,G.,一种基于Chou伪氨基酸组成的用于蛋白质结构类预测的新特征表示方法,计算生物学与化学杂志,34220-327(2010)·兹比尔1403.92221
[54] Schölkopf,B。;斯莫拉,A.J。;Müller,K.R.,作为核特征值问题的非线性分量分析,神经计算,10,1299-1319(1998)
[55] 沈永清。;Burger,G.,TEST Loc:根据EST数据预测蛋白质亚细胞定位,BMC生物信息学,11563(2010)
[56] Shen,H.B。;Chou,K.C.,Gneg-mPLoc:一种自上而下的策略,用于提高预测革兰氏阴性细菌蛋白质亚细胞定位的质量,《理论生物学杂志》,264,326-333(2010)·Zbl 1406.92211号
[57] Shen,H.B。;杨,J。;Chou,K.C.,Euk-PLoc:大规模真核蛋白质亚细胞定位预测的集成分类器,氨基酸,33,57-67(2007)
[58] 沈毅。;Burger,G.,“团结与征服”:通过集成多种专业工具增强蛋白质亚细胞定位预测,BMC生物信息学,8420-430(2007)
[59] 史建勇。;张世伟。;潘,Q。;Cheng,Y.M。;Xie,J.,使用多尺度能量和伪氨基酸组成的支持向量机预测蛋白质亚细胞定位,氨基酸,33,69-74(2007)
[60] 史建勇。;张世伟。;潘,Q。;周国平,用伪氨基酸组成预测蛋白质亚细胞位置:与氨基酸组成分布的探讨,《氨基酸》,35,321-327(2008)
[61] 苏肯斯,J.A.K。;Van Gestel,T。;范德维尔,J。;De Moor,B.,PCA分析的支持向量机公式及其内核版本,IEEE神经网络汇刊,14,447-450(2003)
[62] Tan,F。;X·冯。;方,Z。;李,M。;郭毅。;蒋,L.,基于遗传算法的线粒体蛋白质预测——偏最小二乘和支持向量机,氨基酸,33,669-675(2007)
[63] Xiao,X。;邵,S。;丁,Y。;黄,Z。;黄,Y。;Chou,K.C.,使用复杂性度量因子预测蛋白质亚细胞位置,《氨基酸》,28,57-61(2005)
[64] Xiao,X。;邵,S。;丁,Y。;黄,Z。;Chou,K.C.,使用细胞自动机图像和伪氨基酸组成预测蛋白质亚细胞位置,《氨基酸》,30,49-54(2006)
[65] Xiao,X。;王,P。;Chou,K.C.,GPCR-2L:通过杂交两种不同模式的伪氨基酸组成预测G蛋白偶联受体及其类型,分子生物系统,7911-919(2011)
[66] Xu,Y。;Wang,X.B。;丁,J。;Wu,L.Y。;邓,纽约,使用支持向量机分类器集成预测赖氨酸乙酰化位点,理论生物学杂志,2641130-135(2010)·Zbl 1406.92223号
[67] Yeh,J.I。;Mao,L.,使用支持向量机算法预测结核分枝杆菌的膜蛋白,计算生物学杂志,13,126-129(2006)
[68] 张,L。;Liao,B。;李,D。;朱伟,利用支持向量机预测凋亡蛋白亚细胞定位的新表示,理论生物学杂志,259361-365(2009)·Zbl 1402.92163号
[69] 张世伟。;潘,Q。;张海川。;邵,Z.C。;Shi,J.Y.,《通过伪氨基酸组成预测蛋白质同源异构体类型:改进特征提取和朴素贝叶斯特征融合的方法》,《氨基酸》,30461-468(2006)
[70] Zhang,T.L。;丁Y.S。;Chou,K.C.,预测具有伪氨基酸组成的蛋白质结构类别:近似熵和疏水性模式,理论生物学杂志,250186-193(2008)·Zbl 1397.92551号
[71] 张,T。;丁,Y。;Chou,K.C.,使用氨基酸序列的疏水模式预测蛋白质亚细胞位置,计算生物学和化学杂志,30367-371(2006)·Zbl 1119.92033号
[72] 张,T。;丁,Y。;Chou,K.C.,使用氨基酸序列的疏水模式预测蛋白质亚细胞位置,计算生物学和化学,30367-371(2006)·Zbl 1119.92033号
[73] 邹哈尔,L.M。;Denoeux,T.,带参数优化的证据理论K-NN规则,IEEE系统人与控制论汇刊,28263-271(1998)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。