×

GOASVM:一种亚细胞位置预测因子,通过将术语频率基因本体纳入Chou伪氨基酸组成的一般形式。 (英语) Zbl 1314.92060号

摘要:蛋白质亚细胞定位预测是一个重要而又具有挑战性的问题。最近,提出了几种基于基因本体(GO)的计算方法来解决这一问题,并证明了其优于基于其他特征的方法。然而,现有的基于GO的方法并没有充分利用GO信息。本文提出了一种称为GOASVM的高效GO方法,该方法利用GO项频率和远距离同源物的信息来表示Chou伪氨基酸组成的一般形式的蛋白质。该方法首先选择相关GO项的子集以形成GO向量空间。然后,对于每个蛋白质,该方法使用该蛋白质的登录号(AC)或其同源物的登录号来查找基因本体注释(GOA)数据库中选定GO术语的出现次数,作为构建GO向量以进行支持向量机(SVM)分类的手段。利用GO术语频率的优势和包含有用同源信息的新策略,GOASVM可以在一个新的独立测试集上实现72.2%的预测准确率,该测试集由新的蛋白质组成,这些新蛋白质在比训练集创建日期晚六年添加到Swiss-Prot。GOASVM和补充材料可在线获取,网址为http://bioinfo.eie.polyu.edu.hk/mGoaSvmServer/GOASVM.html.

MSC公司:

92C40型 生物化学、分子生物学
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altschul,S.F。;Madden,T.L。;Schaffer,A.A。;张杰。;张,Z。;Miller,W。;Lipman,D.J.,Gapped BLAST和PSI-BLASTa新一代蛋白质数据库搜索程序,核酸研究,25,3389-3402(1997)
[2] Apweiler,R。;Bairoch,A。;Wu,C.H。;巴克,W.C。;Boeckmann,B。;费罗,S。;Gasteiger,E。;黄,H。;洛佩兹,R。;Magrane,M。;马丁·M·J。;Ntale,D.A。;奥多诺万,C。;Redaschi,N。;Yeh,L.S.,UniProtthe Universal Protein知识库,核酸研究,32,D115-D119(2004)
[3] 桶,D。;调光器,E。;亨特利·R·P。;宾斯,D。;奥多诺万,C。;Apweiler,R.,《2009年GOA数据库——综合基因本体注释资源》,核酸研究,37,D396-D403(2009)
[4] 宾斯,D。;调光器,E。;亨特利,R。;巴雷尔,D。;奥多诺万,C。;Apweiler,R.,基因本体搜索的QuickGOa网络工具,生物信息学,25,22,3045-3046(2009)
[5] 布鲁姆,T。;Briesemeister,S。;Kohlbacher,O.,《结合系统发育和基因本体术语的MultiLoc2改进亚细胞蛋白定位预测》,BMC生物信息学,10274(2009)
[6] Briesemeister,S。;Blum,T。;Brady,S。;Lam,Y。;科尔巴赫,O。;Shatkay,H.,SherLoc2a预测蛋白质亚细胞定位的高精度杂交方法,蛋白质组研究杂志,8,5363-5366(2009)
[7] 卡蒙,E。;Magrane,M。;桶,D。;宾斯,D。;Fleischnann,W。;科尔西,P。;Mulder,N。;Oinn,T。;马塞伦,J。;Cox,A.,SWISS-PROT、TrEMBL和InterPro中GO的基因本体注释(GOA)投影实现,基因组研究,13,662-672(2003)
[8] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质结构。功能。遗传学。,43, 246-255 (2001)
[9] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,21,10-19(2005)
[10] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273236-247(2011),(50周年回顾)·Zbl 1405.92212号
[11] Chou,K.C。;蔡永德,蛋白质亚细胞位置序列效应和伪氨基酸组成的预测和分类,细胞杂志。生物化学。,90, 1250-1260 (2003)
[12] Chou,K.C。;Cai,Y.D.,利用GO-FunD-PseAA预测因子预测蛋白质亚细胞位置,生物化学。生物物理学。Res.Commun.公司。,320, 1236-1239 (2004)
[13] Chou,K.C。;蔡永德,预测芽殖酵母中的蛋白质定位,生物信息学,21944-950(2005)
[14] Chou,K.C。;Shen,H.B.,Hum-PLoca预测人类蛋白质亚细胞定位的新型集成分类器,生物化学。生物物理学。Res.Commun.公司。,347, 150-157 (2006)
[15] Chou,K.C。;Shen,H.B.,革兰氏阴性细菌蛋白质亚细胞位置的大规模预测,蛋白质组研究杂志,53420-3428(2006)
[16] Chou,K.C。;Shen,H.B.,通过融合优化的证据理论K最近邻分类器预测真核蛋白亚细胞位置,《蛋白质组研究杂志》,51888-1897(2006)
[17] Chou,K.C。;Shen,H.B.,Euk-mPLoca融合分类器,通过结合多个位点进行大规模真核蛋白亚细胞定位预测,《蛋白质组研究杂志》,61728-1734(2007)
[18] Chou,K.C。;沈海斌,蛋白质亚细胞定位预测的最新进展,分析。生物化学。,1, 370, 1-16 (2007)
[19] Chou,K.C。;Shen,H.B.,用于预测各种生物体中蛋白质亚细胞定位的网络服务器Cell-PLoca包,《国家协议》,3153-162(2008)
[20] Chou,K.C。;Shen,H.B.,综述开发用于预测蛋白质属性的网络服务器的最新进展,国家科学院。,2, 63-92 (2009)
[21] Chou,K.C。;Shen,H.B.,Cell-PLoc 2.0是一个改进的网络服务器包,用于预测各种生物体中蛋白质的亚细胞定位,《自然科学》。,2, 1090-1103 (2010)
[22] Chou,K.C。;Shen,H.B.,Plant-mPLoca自顶向下策略,以增强预测植物蛋白质亚细胞定位的能力,《公共科学图书馆·综合》,5,e11335(2010)
[23] Chou,K.C。;吴振聪。;Xiao,X.,iLoc-Euka多标签分类器用于预测单复合体和多复合体真核蛋白的亚细胞定位,PLoS ONE,6,3,e18258(2011)
[24] Chou,K.C。;吴振聪。;Xiao,X.,iLoc Hum利用积累标记量表预测具有单个和多个位点的人类蛋白质的亚细胞位置,Mol.BioSyst。,8, 629-641 (2012)
[26] O.伊曼纽尔森。;尼尔森,H。;布鲁纳克,S。;von Heijne,G.,基于蛋白质N端氨基酸序列预测蛋白质的亚细胞定位,分子生物学杂志。,300, 4, 1005-1016 (2000)
[28] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2001),斯普林格·弗拉格·Zbl 0973.62007号
[30] 胡,Y。;李·T。;Sun,J。;唐,S。;熊,W。;李,D。;陈,G。;Cong,P.,基于定位基序预测革兰氏阳性细菌蛋白亚细胞定位,J.Theor。生物学,308135-140(2012)·Zbl 1411.92078号
[31] Huang,W.L。;东,C.W。;Ho,S.W。;黄,S.F。;Ho,S.Y.,ProLoc-GOutilizing informative Gene Ontology terms for sequence-based prediction of protein亚细胞定位,BMC生物信息学,9,80(2008)
[32] Huang,W.L。;东,C.W。;Ho,S.W。;黄,S.F。;Ho,S.Y.,利用GO-氨基酸组成特征预测蛋白质亚核定位,生物系统,98,2,73-79(2009)
[33] Lee,K.Y。;Kim,D.W。;Na,D.K。;Lee,K.H。;Lee,D.H.,基于不平衡和重叠数据集的PLPD可靠蛋白质定位预测,核酸研究,34,17,4655-4666(2006)
[34] 雷,Z。;Dai,Y.,用基因本体评估蛋白质相似性及其在亚核定位预测中的应用,BMC生物信息学,7491(2006)
[35] Lord,P.W。;史蒂文斯,R.D。;黄铜,A。;Goble,C.A.,《跨基因Ontologythe序列和注释之间关系的语义相似性度量研究》,生物信息学,19,10,1275-1283(2003)
[36] 卢,Z。;Szafron,D。;格雷纳,R。;Lu,P。;Wishart,D.S。;波林,B。;Anvik,J。;麦克唐奈尔,C。;Eisner,R.,使用机器学习分类器预测蛋白质的亚细胞定位,生物信息学,20,4,547-556(2004)
[37] Lubec,G。;Afjehi Sadat,L。;Yang,J.W。;John,J.P.,《基于原始数据和文献的假设蛋白质理论和实践探索》,Prog。神经生物学。,77, 90-127 (2005)
[38] Mak,M.W。;郭杰。;Kung,S.Y.,基于局部成对剖面对齐和SVM的PairProSVM蛋白质亚细胞定位,IEEE/ACM Trans。计算。生物.生物信息学,5,3,416-422(2008)
[39] Matthews,B.,t4噬菌体溶菌酶预测和观察二级结构的比较,生物化学。生物物理学。《学报》,405,442-451(1975)
[40] Mei,S.,人类蛋白质亚细胞定位的多标签多核转移学习,《公共科学图书馆·综合》,7,6,e37716(2012)
[41] Mei,S.Y。;Fei,W。;Zhou,S.G.,基于基因本体的蛋白质亚细胞定位转移学习,BMC生物信息学,12,44(2011)
[42] 莫特·R。;舒尔茨,J。;博克,P。;Ponting,C.,使用区域投影方法预测蛋白质细胞定位,《基因组研究》,12,8,1168-1174(2002)
[43] 奈尔(Nair,R.)。;Rost,B.,亚细胞定位保守序列,蛋白质科学。,11, 2836-2847 (2002)
[44] Nakai,K。;Kanehisa,M.,预测革兰氏阴性菌蛋白质定位位点的专家系统,蛋白质结构。功能。遗传学。,11, 2, 95-110 (1991)
[45] Nakashima,H。;Nishikawa,K.,《利用氨基酸组成和残对频率区分细胞内和细胞外蛋白质》,《分子生物学杂志》。,238, 54-61 (1994)
[46] Park,K.J。;Kanehisa,M.,使用氨基酸和氨基酸对的组成通过支持向量机预测蛋白质亚细胞位置,生物信息学,19,13,1656-1663(2003)
[47] 斯科特,M。;托马斯博士。;Hallett,M.,通过蛋白质模体共现预测亚细胞定位,《基因组研究》,第14、10a期,1957-1966(2004)
[48] Shen,H.B。;Chou,K.,用于预测革兰氏阳性细菌蛋白质亚细胞定位的Gpos-PLocan集成分类器,蛋白质工程设计。选择。,第20页,第39-46页(2007年)
[50] Wang,G.L。;邓布雷克,J。;双鱼座,R.L.,蛋白质序列筛选服务器,生物信息学,19589-1591(2003)
[52] 吴振聪。;Xiao,X。;Chou,K.C.,iLoc-Planta多标记分类器,用于预测具有单位点和多位点的植物蛋白质的亚细胞定位,Mol.Biosyst。,7, 3287-3297 (2011)
[53] 吴振聪。;Xiao,X。;Chou,K.C.,用于预测单重和多重革兰氏阳性细菌蛋白的亚细胞定位的iLoc-Gposa多层分类器,Protein Peptide Lett。,19, 4-14 (2012)
[54] Xiao,X。;吴振聪。;Chou,K.C.,《预测革兰氏阴性细菌蛋白质亚细胞定位的单位点和多位点多标记学习分类器》,《公共科学图书馆·综合》,6,6,e20592(2011)
[55] Xiao,X。;吴振聪。;Chou,K.C.,iLoc-Virusa多标记学习分类器,用于识别具有单个和多个位点的病毒蛋白的亚细胞定位,J.Theor。《生物学》,284,42-51(2011)·兹比尔1397.92238
[56] Zdobnov,E.M。;Apweiler,R.,InterProScan-InterPro中签名识别方法的集成平台,生物信息学,17847-4848(2001)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。