×

基于加权GO转移模型的蛋白质亚叶绿体位置预测稳健特征生成。 (英语) Zbl 1412.92187号

摘要:叶绿体是绿色植物和真核藻类的重要细胞器,因为它们进行光合作用。预测蛋白质的叶绿体下位置可以为理解其生物学功能提供重要的见解。亚叶绿体位置预测算法的性能通常取决于从基因组和蛋白质组数据中导出预测性和简洁的特征。在这项工作中,提出了一种新的加权基因本体(GO)转移模型,用于从序列数据和GO类别中生成鉴别特征。该模型包含两个组件。首先,我们转移同源蛋白的GO项,然后将位核作为权重分配给GO特征。其次,我们使用术语选择方法来确定GO术语的权重。由于对同源知识转移产生的噪声具有耐受性,该模型能够提高预测精度。提出的基于位核和CHI-平方对数变换的加权GO转移方法(WS-LCHI)性能优于基线模型,也优于四种离体亚叶绿体预测方法。

MSC公司:

92C80型 植物生物学
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿哈·D·。;Kibler,D.,基于实例的学习算法,马赫。学习。,6, 37-66 (1991)
[2] Altschul,S.F。;Madden,T.L。;Schäffer,A.A。;Zhang,J.H。;张,Z。;Miller,W。;Lipman,D.J.,Gapped BLAST和PSI-BLASTa新一代蛋白质数据库搜索程序,Nucl。《酸类研究》,25,17,3389-3402(1997)
[3] Boeckmann,B。;Bairoch,A。;阿普韦勒,R。;布拉特,M.C。;Estreicher,A。;Gasteiger,E。;马丁·M·J。;Michoud,K。;奥多诺万,C。;Phan,I.,SWISS-PROT蛋白质知识库及其补充TrEMBL,2003年,Nucl。《酸类研究》,33,1,451-454(2003)
[4] 卡蒙,E。;Magrane,M。;巴雷尔,D。;李,V。;调光器,E。;马塞伦,J。;宾斯,D。;哈特,N。;洛佩兹,R。;Apweiler,R.,基因本体注释(GOA)数据库与基因本体在uniprot中共享知识,Nucl。酸研究,32,补充1,D262-D266(2004)
[5] Chang,C.C。;Lin,C.J.,支持向量机的LIBSVMa库,ACM Trans。智力。系统。技术。,2, 27:1-27:27 (2011)
[6] Chi,S.M。;Nam,D.G.,WegoLoc使用加权基因本体术语准确预测蛋白质亚细胞定位,生物信息学,28,7,1028-1030(2012)
[7] Chou,K.C.,使用伪氨基酸组成预测蛋白质细胞属性,蛋白质,43,3246-255(2001)
[8] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,1,21,10-19(2005)
[9] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论(50周年回顾),J.Theor。生物学,273,1,236-247(2011)·Zbl 1405.92212号
[10] Chou,K.C。;Cai,Y.D.,利用GO-FunD-PseAA预测因子预测蛋白质亚细胞位置,生物化学。生物物理学。Res.Co.,320,4,1236-1239(2004)
[11] Chou,K.C。;Shen,H.B.,蛋白质亚细胞定位预测的最新进展,分析。比奥海姆。,370, 1-16 (2007)
[12] Chou,K.C。;Shen,H.B.,预测单位点和多位点真核蛋白亚细胞定位的新方法Euk-mPLoc 2.0,PLoS ONE,5,4,e9931(2010)
[13] Chou,K.C。;Shen,H.B.,Cell-PLoc 2.0是一个改进的网络服务器包,用于预测各种生物体中蛋白质的亚细胞定位,《自然科学》。,2, 1090-1103 (2010)
[14] Chou,K.C。;吴振聪。;Xiao,X.,iLoc-Euka多标签分类器用于预测单复合体和多复合体真核蛋白的亚细胞定位,PLoS ONE,6,3,e18258(2011)
[15] Chou,K.C.,《关于预测分子生物系统中多标签属性的一些评论》,Mol.Biosyst。,9, 6, 1092-1100 (2013)
[16] 库克,D。;Feuz,K.D。;北卡罗来纳州克里希南,《活动认知调查中的迁移学习》,Knowl。信息系统。,36, 3, 537-556 (2013)
[17] Debole,F。;Sebastiani,F.,《自动文本分类的监督术语权重》,SAC(2003)
[18] 杜,P.F。;Li,Y.D.,通过将假氨基酸成分与分段序列的各种物理化学特征杂交来预测蛋白质亚线粒体位置,BMC生物信息学。,7, 518 (2006)
[19] 杜,P.F。;曹S.J。;Li,Y.D.,用伪氨基酸成分和循证K-最近邻(ET-KNN)算法预测蛋白质亚叶绿体位置,J.Theor。生物学,261,2330-335(2009)·Zbl 1403.92063号
[20] 杜,P.F。;Li,T.T。;Wang,X.,预测蛋白质亚亚细胞位置的最新进展,实验评论。,3, 8, 391-404 (2011)
[21] 杜,P.F。;田,Y。;Yan,Y.,利用预测的基因本体得分预测人类内部和细胞器膜蛋白的亚细胞定位,J.Theor。生物学,313,61-67(2012)
[22] 杜,P.F。;Li,T.T。;王,X。;Xu,C.,亚氯代预测蛋白亚叶绿体位置与加权基因本体得分,Curr。生物信息学。,193-199年8月(2013年)
[23] 杜,P.F。;Xu,C.,预测多位点蛋白质亚细胞定位的进展和挑战,实验评论。,10, 3, 227-237 (2013)
[24] 杜,P.F。;Yu,Y.,SubMito-PSPCP通过将位置特异性物理化学性质与伪氨基酸成分杂交来预测蛋白质的亚线粒体位置,生物医学研究国际(2013),http://dx.doi.org/10.1155/2013/263829
[25] O.伊曼纽尔森。;尼尔森,H。;布鲁纳克,S。;von Heijne,G.,基于蛋白质N端氨基酸序列预测蛋白质的亚细胞定位,分子生物学杂志。,300, 4, 1005-1016 (2000)
[26] Fan,G.L。;Li,Q.Z.,通过将不同描述符组合成Chou伪氨基酸组成的一般形式预测蛋白质亚线粒体位置,氨基酸,43,2,545-555(2012)
[27] Farahat,A.K。;Ghodsi,A。;Kamel,M.S.,《无监督学习的高效贪婪特征选择》,Knowl。信息系统。,35, 2, 285-310 (2013)
[28] 费罗,M。;Salvi,D。;布鲁盖尔,S。;米拉斯,S。;科瓦尔斯基,S。;Louwagie,M。;加林,J。;Joyard,J。;Rolland,N.,拟南芥叶绿体膜的蛋白质组学,分子细胞。蛋白质组。,2, 325-345 (2003)
[29] Galavotti,L.,Sebastiani,F.,Simi,M.,2000年。在自动文本分类中使用特征选择和否定证据的实验。摘自:ECDL-00会议记录,第四届欧洲数字图书馆研究和先进技术会议(里斯本,PT,2000)。第59-68页。;Galavotti,L.,Sebastiani,F.,Simi,M.,2000年。在自动文本分类中使用特征选择和否定证据的实验。摘自:ECDL-00会议记录,第四届欧洲数字图书馆研究和先进技术会议(里斯本,PT,2000)。第59-68页。
[30] 加格,A。;Gupta,D.,基于VirulentPreda SVM的细菌病原体毒力蛋白预测方法,BMC Bioinformat。,9, 62 (2008)
[31] Han,G.S。;Yu,Z.G。;Anh,V。;Krishnajith,A.P.D。;Tian,Y.C.,从初级蛋白质结构预测亚核定位的集合方法,PLoS ONE,8,2,e57225(2013)
[32] Höglund,A。;Dönnes,P。;Bluml,T。;阿道夫,H.W。;Kohlbaeher,O.,使用N末端靶向序列、序列基序和氨基酸组成对蛋白质亚细胞定位的多位点预测,生物信息学,22,10,1158-1165(2006)
[33] 胡,J。;Yan,X.H.,BS KNNan预测蛋白质叶绿体下定位的有效算法,进化论。生物信息学。,8, 79-87 (2012)
[34] Huang,W.L。;东,C.W。;Huang,H.L。;Ho,S.J.,利用GO-氨基酸组成特征预测蛋白质亚核定位,生物系统,98,2,73-79(2009)
[35] 黄,Y。;牛,B.F。;高,Y。;傅立明。;Li,W.Z.,用于聚类和比较生物序列的CD-HIT Suitea web服务器,生物信息,26,5,680-682(2010)
[36] 黄,H。;何庆明。;Chiew,K。;钱,F。;Ma,L.H.,CLOVERa快速无先验方法用于稀有类别检测,Knowl。信息系统。,35, 3, 713-736 (2013)
[37] 亨特,S。;阿普韦勒,R。;阿特伍德,T.K。;Bairoch,A。;贝特曼,A。;宾斯,D。;博克,P。;达斯,美国。;Daughty,L。;Duquenne,L。;R·D·芬恩。;高夫,J。;哈夫特·D。;北卡罗来纳州胡洛市。;卡恩,D。;凯利,E。;Laugraud,A。;Letunic,I。;Lonsdale,D。;洛佩兹,R。;Madera,M。;马斯伦,J。;McAnulla,C。;麦克道尔,J。;Mistry,J。;米切尔,A。;Mulder,N。;纳塔莱,D。;奥伦戈,C。;奎因,A.F。;塞兰古特,J.D。;Sigrist,C.J。;蒂玛,M。;P.D.托马斯。;瓦伦丁,F。;Wilson,D。;Wu,C.H。;Yeats,C.,InterProthe综合蛋白质特征数据库,Nucl。酸性研究,37,数据库问题,D211-D215(2009)
[38] Jeong,J.C。;林,X。;Chen,X.W.,《蛋白质功能预测的位置特异性评分矩阵》,IEEE/ACM Trans。计算。生物信息学。,8, 2 (2011)
[39] Kleffmann,T。;Russenberger,D。;von Zychlinski,A。;克里斯托弗·W·。;Sjölander,K。;格鲁伊斯姆,W。;Baginsky,S.,拟南芥叶绿体蛋白质组揭示了途径丰度和新的蛋白质功能,Curr。生物学,14,5,354-362(2004)
[40] Lam,W.,Ho,C.Y.,1998年。使用通用实例集进行自动文本分类。摘自:SIGIR-98会议记录,第21届ACM信息检索研究与开发国际会议(澳大利亚墨尔本,1998年),第81-89页。;Lam,W.,Ho,C.Y.,1998年。使用通用实例集进行自动文本分类。参见:SIGIR-98会议记录,第21届ACM信息检索研究与开发国际会议(澳大利亚墨尔本,1998年),第81-89页。
[41] Lee,Y.H。;谭,H.T。;Chung,M.C.M.,蛋白质组学的亚细胞分馏方法和策略,蛋白质组,10,22,3935-3956(2010)
[42] Lei,J.B。;Yin,J.B。;Shen,H.B.,用于优化计算生物学中基于高斯函数的相似性度量的GFOa数据驱动方法,神经计算,99,307-315(2013)
[43] Letunic,I。;科普利,R.R。;桩,B。;平克特,S。;舒尔茨,J。;Bork,P.,《基因组和网络背景下的SMART5域》,Nucl。《酸类研究》,34,D257-D260(2006)
[44] 李,X。;廖,B。;Shu,Y。;曾庆国。;Luo,J.W.,使用氨基酸序列的全局编码预测蛋白质功能类别,J.Theor。生物学,261290-293(2009)·Zbl 1403.92212号
[45] 李国忠。;王,X。;胡晓华。;Liu,J.M。;赵R.W.,蛋白质亚细胞位置预测的多标签学习,IEEE Trans。纳米生物学。,11, 3, 237-243 (2012)
[46] Lin,H。;陈,W。;袁,L.F。;李振强。;Ding,H.,使用过度代表的四肽预测蛋白质亚线粒体的位置,生物学报。,61, 259-268 (2013)
[47] Lin,T.H。;墨菲,R.F。;Joseph,Z.B.,预测蛋白质亚细胞定位的判别基序发现,IEEE/ACM Trans。计算。生物信息学。,8, 2, 441-451 (2011)
[48] Lin,T.H。;Joseph,Z.B。;Murphy,R.F.,《利用蛋白质相互作用和序列基序学习细胞分类途径》,J.Compute。生物学,18,11,1709-1722(2011)
[49] Mak,M。;郭杰。;Kung,S.,基于局部成对剖面对齐和SVM的PairProSVM蛋白质亚细胞定位,IEEE/ACM Trans。计算。生物信息学。,5, 3, 416-422 (2008)
[50] Marchler-Bauer,A。;安德森,J.B。;德比郡,M.K。;DeWeese-Scott,C。;新泽西州冈萨雷斯。;瓜兹,M。;Hao,L。;He,S。;Hurwitz博士。;J.D.杰克逊。;Ke,Z。;Krylov,D。;Lanczycki,C.J。;Liebert,C.A。;刘,C。;卢·F。;卢,S。;马尔克勒,G.H。;Mullokandov,M。;Song,J.S。;Thanki,N。;Yamashita,R.A。;尹建杰(音)。;张,D。;Bryant,S.H.,CDDa为交互式域家族分析保存了域数据库,Nucl。《酸类研究》,35,D237-D240(2007)
[51] 梅,S.Y。;Wang,F。;Zhou,S.G.,基于基因本体的蛋白质亚细胞定位转移学习,BMC Bioinformat。,12, 44 (2011)
[52] Mei,S.Y.,基于周氏pseAAC公式的蛋白质亚线粒体定位多核转移学习,J.Theor。生物学,293121-130(2012)·Zbl 1307.92085号
[53] Mei,S.Y.,通过周氏基于pseAAC公式的多标记同源知识转移学习预测植物蛋白质亚细胞多定位,J.Theor。生物学,310,80-87(2012)·Zbl 1337.92065号
[54] Mintz-Oron,S。;Aharoni,A。;鲁平,E。;Shlomi,T.,代谢酶亚细胞定位的网络预测,生物信息学,25,ISMB,i247-i252(2009)
[55] 莫特·R。;Sehultz,J。;博克,P。;Ponting,C.P.,使用区域投影方法预测蛋白质细胞定位,《基因组研究》,第12期,第1168-1174页(2002年)
[56] Mount,D.W.,《生物信息学序列和基因组分析》(2001),冷泉港实验室出版社:纽约冷泉港实验出版社
[57] 墨菲,R.F。;博兰德,M.V。;Vellister,M.,《蛋白质亚细胞定位系统学——蛋白质定位模式的定量描述和荧光显微镜图像的自动分析》,Proc。国际竞争情报。系统。分子生物学。,8, 251-259 (2000)
[58] Nakashima,H。;Nishikawa,k.,使用氨基酸组成和残基对频率的细胞内和细胞外蛋白质的区分,J.Mol.Biol。,238, 1, 54-61 (1994)
[59] 纳尼。;鲁米尼,A。;Brahnam,S.,《基于矩阵的蛋白质表征及其与基于序列方法的结合的实证研究》,《氨基酸》,34,34(2012)
[60] Nguyen,T.T。;Chang,K.Y。;Hui,S.C.,用于文本分类的监督术语加权质心分类器,Knowl。信息系统。,35, 1, 61-85 (2013)
[61] Pham,D.S。;萨哈,B。;Phung,D.Q。;Venkatesh,S.,《跨通道异常检测》,Knowl。信息系统。,35,1,33-59(2013)
[62] Pierreoni,A。;Martelli,P.L。;Casadio,R.,MemLoci预测真核生物膜蛋白的亚细胞定位,生物信息学,27,9,1224-1230(2011)
[63] 邱建德。;黄,J.H。;Liang,R.P。;Lu,X.Q.,基于离散小波变换的周伪氨基酸合成方法的概念预测G蛋白偶联受体类别,Ana。生物化学。,390, 1, 68-73 (2009)
[64] Quinlan,R.,《机器学习C4.5程序》(1993),Morgan Kaufmann出版社:Morgan Koufmann-Publishers San Mateo,CA
[65] Reeck,D.R。;德哈恩,C。;哥伦比亚特区特勒。;杜立德,R.F。;惠誉,W.M。;Dickerson,R.E。;Chambon,P。;麦克拉克伦,A.D。;Margoliash,E。;Jukes,T.H.,《蛋白质和核酸中的“同源性”——术语混淆和出路》,《细胞》,50,5,667(1987)
[66] 莱因哈特,A。;Hubbard,T.,使用神经网络预测蛋白质的亚细胞位置,Nucl。《酸类研究》,26,9,2230-2236(1998)
[67] Ruiz,M.E.,Srinivasan,P.,1999年。文本分类的层次神经网络。摘自:《SIGIR-99会议记录》,第22届ACM信息检索研究与开发国际会议,美国伯克利,1999年,第281-282页。;Ruiz,M.E.,Srinivasan,P.,1999年。文本分类的层次神经网络。摘自:《SIGIR-99会议记录》,第22届ACM信息检索研究与开发国际会议,美国伯克利,1999年,第281-282页。
[68] Sahu,S.S。;Panda,G.,一种基于周氏伪氨基酸组成的新特征表示方法,用于蛋白质结构类预测,Compute。生物化学。,34,5-6,320-327(2010年)·Zbl 1403.92221号
[69] 史,S.P。;邱建德。;孙晓勇。;黄,J.H。;黄S.Y。;索,S.B。;Liang,R.P。;Zhang,L.,从离散小波变换特征提取策略中用伪氨基酸组成方法识别亚线粒体和亚叶绿体位置,BBA-Mol.Cell Res.,1813,424-430(2011)
[70] Shin,C.J。;Wong,S。;戴维斯,M.J。;Ragan,M.A.,作为亚细胞位置预测因子的蛋白质相互作用,BMC系统。生物学,3,28(2009)
[71] Soua,B。;Borgi,A。;Tagina,M.,《模糊规则分类系统的集成方法》,Knowl。信息系统。,36285-410(2013)
[72] Sun,C.L。;赵晓明。;Tang,W.H。;Chen,L.N.,FGsubFusarium graminearum蛋白质亚细胞定位预测,BMC系统。《生物学》,第4期,第2期,第12期(2010年)
[73] Tantoso,E。;Li,K.B.,AAIndexLoc基于氨基酸指数序列的新表示预测蛋白质的亚细胞定位,《氨基酸》,35,2,346-353(2008)
[74] Vapnik,V.N.,《统计学习理论》(1998),Wiley-Interscience:Wiley-Interscience纽约·Zbl 0935.62007号
[75] van Dijk,A.D.J。;博世,D。;ter Braak,C.J.F。;van der Krol,A.R。;van Ham,R.C.H.J.,预测II型膜蛋白的亚高尔基体定位,生物信息学,24,16,1779-1786(2008)
[76] Walter,F.M.,Homologya个人对一些问题的看法,《当代趋势》。,16, 5, 227-231 (2000)
[77] Wang,Y.C。;Wang,X.B。;杨振新。;邓,纽约,通过结合结合三联体特征的伪氨基酸组成预测酶亚科类别,蛋白质Pept。莱特。,17, 11, 1441-1449 (2010)
[78] Witten,I.H。;Frank,E.,《数据挖掘实用机器学习工具和技术与JAVA实现》(2005),Morgan Kaufmann:Morgan Koufmann San Francisco·Zbl 1076.68555号
[79] 吴振聪。;萧,X。;Chou,K.C.,iLoc-Plant:一种多标记分类器,用于预测具有单位点和多位点的植物蛋白质的亚细胞定位,Mol.BioSyst。,3287-3297年7月12日(2011年)
[80] 萧,X。;吴振聪。;Chou,K.C.,iLoc-Virusa多标记学习分类器,用于识别具有单个和多个位点的病毒蛋白的亚细胞定位,J.Theor。生物学,284,1,42-51(2011)·Zbl 1397.92238号
[81] 熊,H。;Capurso博士。;Sen,M.R.,使用歧视性模体特征选择的基于序列的分类,《公共科学图书馆·综合》,6,11,e27382(2011)
[82] Yang,L。;李义忠。;肖瑞秋。;曾Y.H。;肖建民。;Tan,F.Y。;Li,M.L.,基于进化信息的膜蛋白功能判别的自协方差方法,氨基酸,381497-1503(2010)
[83] Yin,J.B。;Li,T.等人。;Shen,H.B.,高斯核优化复杂问题和简单解决方案,神经计算,743816-3822(2011)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。