×

R3P-Loc:使用岭回归和随机投影进行蛋白质亚细胞定位的紧凑型多标记预测。 (英语) Zbl 1343.92177号

摘要:在细胞环境中定位蛋白质对于阐明其生物功能至关重要。众所周知,基于知识数据库的计算方法(如基因本体注释(GOA)数据库)比基于序列的方法效率更高。然而,基于知识的方法的主要场景是:(1)知识数据库通常具有巨大的规模并呈指数级增长,(2)知识数据库包含冗余信息,以及(3)从知识数据库中提取的特征数量远大于带有地面真实标签的数据样本数量。这些特性使得提取的特征容易产生冗余或不相关的信息,导致预测系统过拟合。为了解决这些问题,本文提出了一种有效的多标签预测器,即R3P-Loc,该预测器使用两个紧凑的数据库进行特征提取,并应用随机投影(RP)降低集成岭回归(RR)分类器的特征维数。两个新的紧凑型数据库由瑞士Prot和GOA数据库创建。这些数据库拥有的信息量几乎与全尺寸数据库相同,但规模要小得多。对两个最新数据集(真核生物和植物)的实验结果表明,R3P-Loc可以将尺寸减小七倍,显著优于最先进的预测工具。本文还表明,紧凑型数据库在不降低预测精度的情况下,将内存消耗减少了39倍。为方便读者,R3P-Loc服务器可在线访问http://bioinfo.eie.polyu.edu.hk/R3PLoc服务器/.

MSC公司:

92C40型 生物化学、分子生物学
92B10型 数学生物学中的分类学、分支学、统计学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Achlioptas,D.,《数据库友好型随机投影》,《Johnson-Lindenstraus与二进制硬币》,J.Compute。系统。科学。,66, 671-687 (2003) ·Zbl 1054.68040号
[2] Altschul,S.F。;Madden,T.L。;Schaffer,A.A。;张杰。;张,Z。;Miller,W。;Lipman,D.J.,Gapped BLAST和PSI-BLASTa新一代蛋白质数据库搜索程序,核酸研究,25,3389-3402(1997)
[5] Briesemeister,S。;Blum,T。;Brady,S。;Lam,Y。;科尔巴赫,O。;Shatkay,H.,SherLoc2a预测蛋白质亚细胞定位的高精度杂交方法,《蛋白质组研究杂志》,8,5363-5366(2009)
[6] 坎贝尔,J.B。;克罗克,J。;Shenoi,P.M.,《小涎腺肿瘤中S-100蛋白定位有助于诊断》,J.Laryngol。奥托尔。,102, 10, 905-908 (1988)
[7] 坎迪斯,E.J。;Tao,T.,从随机投影中恢复近最优信号通用编码策略?,IEEE传输。Inf.Theory,52,12,5406-5425(2006),网址http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4016283〉 ·Zbl 1309.94033号
[8] 陈,Y。;陈,C.F。;莱利·D·J。;Allred,D.C。;Chen,P.L。;霍夫,D.V。;奥斯本,C.K。;Lee,W.H.,BRCA1在乳腺癌中的异常亚细胞定位,科学,270789-791(1995)
[9] Chen,W。;冯,P.-M。;林,H。;Chou,K.-C.,iRSpot-PseDNC用伪二核苷酸成分识别重组点,核酸研究,41,6,e68(2013)
[11] Chen,W。;Lei,T.-Y。;金博士。;林,H。;Chou,K.-C.,PseKNCa生成伪K元组核苷酸组成的灵活web服务器,Ana。生物化学。,456, 53-60 (2014)
[12] Chi,S.-M。;Nam,D.,Wegoloca使用加权基因本体术语准确预测蛋白质亚细胞定位,生物信息学,28,7,1028-1030(2012),URL〈http://bioinformatics.oxfordjournals.org/content/28/7/1028.简短
[13] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,功能。遗传学:结构。,43, 246-255 (2001)
[14] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论(50周年回顾),J.Theoret。生物学,273236-247(2011)·Zbl 1405.92212号
[15] Chou,K.C.,关于预测分子生物系统中多标签属性的一些评论,分子生物系统。,9, 1092-1100 (2013)
[16] Chou,K.C。;Cai,Y.D.,《使用功能域组成和支持向量机预测蛋白质亚细胞位置》,J.Biol。化学。,277, 45765-45769 (2002)
[17] Chou,K.C。;Cai,Y.D.,通过GO FunD PseAA预测因子预测蛋白质亚细胞位置,生物化学。生物物理学。Res.Commun.公司。,320, 1236-1239 (2004)
[18] Chou,K.C。;蔡永德,预测芽殖酵母中的蛋白质定位,生物信息学,21944-950(2005)
[19] Chou,K.C。;Elord,D.W.,《使用判别函数预测原核蛋白的亚细胞位置》,《生物化学》。生物物理学。Res.Commun.公司。,252, 63-68 (1998)
[20] Chou,K.C。;Elord,D.W.,蛋白质亚细胞位置预测,蛋白质工程,12,107-118(1999)
[21] Chou,K.C。;Shen,H.B.,通过融合优化的证据理论K最近邻分类器预测真核蛋白亚细胞位置,《蛋白质组研究杂志》,51888-1897(2006)
[22] 周,K.-C。;Shen,H.-B.,预测信号肽的Signal-CFa亚基偶联和窗函数方法,生物化学。生物物理学。Res.Commun.公司。,357, 3, 633-640 (2007)
[23] Chou,K.C。;沈海斌,蛋白质亚细胞定位预测的最新进展,分析。生物化学。,1, 370, 1-16 (2007)
[24] Chou,K.C。;Shen,H.B.,用于预测各种生物体中蛋白质亚细胞定位的网络服务器的Cell-PLoca包,《国家协议》。,3153-162(2008年)
[25] Chou,K.C。;Shen,H.B.,综述开发用于预测蛋白质属性的网络服务器的最新进展,国家科学院。,2, 63-92 (2009)
[26] Chou,K.C。;Shen,H.B.,Plant-mPLoca自顶向下策略,以增强预测植物蛋白质亚细胞定位的能力,《公共科学图书馆·综合》,5,e11335(2010)
[27] Chou,K.C。;Shen,H.B.,预测单位点和多位点真核蛋白亚细胞定位的新方法Euk-mPLoc 2.0,PLoS ONE,5,e9931(2010)
[28] Chou,K.C。;Zhang,C.T.,《蛋白质结构类预测综述》,《生物化学评论》。分子生物学。,30, 4, 275-349 (1995)
[29] Chou,K.C。;吴振聪。;Xiao,X.,iLoc-Euka多标签分类器用于预测单复合体和多复合体真核蛋白的亚细胞定位,PLoS ONE,6,3,e18258(2011)
[30] Chou,K.C。;吴振聪。;Xiao,X.,iLoc-Humusing the accumulation-label scale to predicate the亚细胞位置of human proteins with single and multiple sites,Mol.BioSyst。,8, 629-641 (2012)
[31] Dembczynski,K。;Waegeman,W。;Cheng,W。;Hullermeier,E.,多标签分类中的标签相关性和损失最小化,马赫。学习。,88, 1-2, 5-45 (2012) ·Zbl 1243.68237号
[33] 埃马努埃松,O。;尼尔森,H。;布鲁纳克,S。;von Heijne,G.,基于蛋白质N端氨基酸序列预测蛋白质的亚细胞定位,分子生物学杂志。,300, 4, 1005-1016 (2000)
[34] Esmaeili,M。;Mohabatkar,H。;Mohsenzadeh,S.,使用Chou的伪氨基酸组成概念预测人类乳头瘤病毒的风险类型,J.Theoret。生物学,263203-209(2010)·Zbl 1406.92455号
[35] 风扇,G.-L。;Li,Q.-Z.,通过将伪平均化学位移纳入Chou伪氨基酸组成的一般形式,预测分枝杆菌蛋白质的亚细胞位置,J.Theoret。生物,304,88-95(2012)·Zbl 1397.92186号
[36] 风扇,Y.-N。;Xiao,X。;Min,J.-L。;Chou,K.-C,iNR Drug预测细胞网络中药物与核受体的相互作用,Int.J.Mol.Sci。,15, 3, 4915-4937 (2014)
[37] 福斯特·L·J。;胡格,C.L.D。;Zhang,Y。;Zhang,Y。;谢,X。;Mootha,V.K。;Mann,M.,《通过蛋白质相关分析绘制的哺乳动物细胞器图》,《细胞》,125,187-199(2006)
[38] 弗兰克尔,P。;Maehara,H.,Johnson-Lindenstraus引理和一些图的球形,J.Combinat。理论Ser。B、 44、355-362(1988)·Zbl 0675.05049号
[39] Fyshe,A。;刘,Y。;Szafron,D。;格雷纳,R。;Lu,P.,使用文本分类和基因本体改进亚细胞定位预测,生物信息学,242512-2517(2008)
[41] 郭,S.-H。;邓永中。;徐立清。;丁,H。;林,H。;Chen,W。;Chou,K.-C.,iNuc-PseKNCa基于序列的预测因子,用于预测具有伪K元组核苷酸组成的基因组中的核小体定位,生物信息学,20,btu083(2014)
[42] Hadgu,A.,岭回归分析在梅毒数据研究中的应用,Stat.Medi。,3, 3, 293-299 (1984)
[43] Hayama,A。;Rai,T。;Sasaki,S。;内田,S.,由BSND基因突变引起的Bartter综合征的分子机制,组织化学。细胞生物学。,119, 10, 485-493 (2003)
[44] He,J。;顾,H。;Liu,W.,《利用非平衡多模式多标记学习预测单位点和多位点人类蛋白质的亚细胞定位》,《公共科学图书馆·综合》,7,6,e37155(2011)
[45] Huang,W.L。;东,C.W。;Ho,S.W。;黄,S.F。;Ho,S.Y.,ProLoc-GOutilizing informative gene ontology terms for sequence-based prediction of protein亚细胞定位,BMC Bioinf。,9, 80 (2008)
[46] 洪,M.C。;Link,W.,疾病和治疗中的蛋白质定位,细胞科学杂志。,124,第20部分,3381-3392(2011)
[48] 医学博士Kaytor。;Warren,S.T.,《异常蛋白质沉积与神经疾病》,J.Biol。化学。,274, 37507-37510 (1999)
[49] Khosravian,M。;Kazemi Faramarzi,F。;穆罕默德·贝吉,M。;贝巴哈尼,M。;Mohabatkar,H.,通过Chou的伪氨基酸组成和机器学习方法预测抗菌肽,Protein Pept。莱特。,20, 2, 180-186 (2013)
[50] Krutovskikh,V.公司。;Mazzoleni,G。;北卡罗来纳州米罗诺夫。;Omori,Y。;Aguelon,A.M。;梅斯尼尔,M。;伯杰,F。;Partensky,C。;Yamasaki,H.,与异常蛋白定位相关但与连接蛋白32基因突变无关的原发性人类肝癌中同源和异源间隙连接细胞间通讯的改变,国际癌症杂志,56,87-94(1994)
[51] 李,X。;基思,J.C.J。;北Stumm。;穆萨索斯,I。;麦考伊,J.M。;Crum,C.P。;Genest,D。;Chin,D。;埃伦菲尔斯,C。;Pijnenborg,R。;F.A.V.助理。;Mi,S.,子痫前期胎盘合胞蛋白表达下调和异常蛋白定位,胎盘,22808-812(2001)
[52] 李立清。;Zhang,Y。;邹,L.Y。;李春秋。;Yu,B。;郑晓强。;Zhou,Y.,利用基因本体类别和氨基酸疏水性预测真核蛋白质亚细胞位置的集成分类器,PLoS ONE,7,1,e31057(2012)
[53] 林,W.-Z。;方,J.-A。;Xiao,X。;Chou,K.-C.,用于预测动物蛋白质亚细胞定位的iLoc-Animala多标记学习分类器,分子生物学系统。,9, 4, 634-644 (2013)
[54] 刘,B。;张,D。;Xu,R。;徐,J。;王,X。;陈,Q。;Dong,Q。;Chou,K.-C.,将从频率剖面提取的进化信息与基于序列的内核相结合,用于蛋白质远程同源性检测,生物信息学,472-479(2014)
[56] Lubec,G。;Afjehi-Sadat,L。;Yang,J.W。;John,J.P.,《基于原始数据和文献的假设蛋白质理论和实践探索》,Prog。神经生物学。,77, 90-127 (2005)
[57] 卢,Z。;Szafron,D。;格雷纳,R。;卢,P。;Wishart,D.S。;Poulin,B。;安维克,J。;麦克唐奈尔,C。;Eisner,R.,使用机器学习分类器预测蛋白质的亚细胞定位,生物信息学,20,4,547-556(2004)
[58] 卢,Z。;Szafron,D。;格雷纳,R。;卢,P。;Wishart,D.S。;Poulin,B。;Anvik,J。;麦克唐奈尔,C。;Eisner,R.,使用机器学习分类器预测蛋白质的亚细胞定位,生物信息学,20,4,547-556(2004)
[59] Mak,M.W。;郭杰。;Kung,S.Y.,基于局部成对剖面对齐和SVM的PairProSVM蛋白质亚细胞定位,IEEE/ACM Trans。计算。生物信息学。,5, 3, 416-422 (2008)
[60] 马夸特,D.W。;Snee,R.D.,《实际中的岭回归》,《美国统计》,29,1,3-20(1975)·Zbl 0361.62060号
[61] Mei,S.,人类蛋白质亚细胞定位的多标签多核转移学习,《公共科学图书馆·综合》,7,6,e37716(2012)
[62] Mei,S.,通过Chou的基于多标签同源知识转移学习的PseAAC公式预测植物蛋白质亚细胞多定位,J.Theoret。生物学,310,80-87(2012)·兹比尔1337.92065
[63] Millar,A.H。;Carrie,C。;波格森,B。;Whelan,J.,探索在定义植物蛋白质亚细胞位置时使用多个证据线的功能定位,《植物细胞》,21,6,1625-1631(2009)
[65] Mohabatkar,H.,利用Chous伪氨基酸组成预测细胞周期蛋白,蛋白质Pept。莱特。,17, 10, 1207-1214 (2010)
[66] Mohabatkar,H。;穆罕默德·贝吉,M。;阿卜杜拉希,K。;Mohsenzadeh,S.,利用Chou的伪氨基酸组成概念和机器学习方法预测过敏性蛋白质,医学化学。,9, 1, 133-137 (2013)
[67] 莫特,R。;舒尔茨,J。;博克,P。;Ponting,C.,使用区域投影方法预测蛋白质细胞定位,《基因组研究》,12,8,1168-1174(2002)
[68] 穆勒,J.C。;安德烈奥利,C。;Prokisch,H。;Meitinger,T.,人类线粒体蛋白质的多胞内定位机制,线粒体,3315-325(2004)
[69] Murphy,R.F.,《沟通亚细胞分布》,细胞计量学,77,7,686-692(2010)
[70] 奈尔(Nair,R.)。;Rost,B.,亚细胞定位保守序列,蛋白质科学。,11, 2836-2847 (2002)
[71] Nakai,K.,蛋白质分类信号和亚细胞定位预测,高级蛋白质化学。,54, 1, 277-344 (2000)
[72] Nakai,K。;Kanehisa,M.,预测革兰氏阴性菌蛋白质定位位点的专家系统,Funct。遗传学:结构。,11, 2, 95-110 (1991)
[73] Nakashima,H。;Nishikawa,K.,《利用氨基酸组成和残对频率区分细胞内和细胞外蛋白质》,《分子生物学杂志》。,238,54-61(1994年)
[74] 尼尔森,H。;Engelbrecht,J。;布鲁纳克,S。;von Heijne,G.,一种识别原核和真核信号肽并预测其裂解位点的神经网络方法,国际神经系统杂志。,8, 581-599 (1997)
[75] 帕夏,G.R。;Shah,M.A.A.,岭回归在多重共线性数据中的应用,《科学研究杂志》,15,1,97-106(2004)
[76] 邱伟荣。;Xiao,X。;Chou,K.-C.,iRSpot-TNCPseAAC用三核苷酸成分和伪氨基酸成分识别重组点,国际分子科学杂志。,15, 2, 1746-1766 (2014)
[78] Sahu,S.S。;Panda,G.,一种基于Chou伪氨基酸组成的新特征表示方法,用于蛋白质结构类预测,Computat。生物化学。,34, 5, 320-327 (2010) ·Zbl 1403.92221号
[79] 沈海波。;Chou,K.-C.,预测信号肽的信号-3La三层方法,生物化学。生物物理学。Res.Commun.公司。,363, 2, 297-303 (2007)
[81] Wan,S。;Mak,M.W。;Kung,S.Y.,基于基因本体和支持向量机的mGOASVM多标签蛋白质亚细胞定位,BMC Bioinf。,13290(2012年)
[83] Wan,S。;Mak,M.W。;Kung,S.Y.,GOASVMA通过将术语频率基因本体纳入Chou伪氨基酸组成的一般形式来预测亚细胞位置,J.Theoret。生物学,323,40-48(2013)·Zbl 1314.92060号
[85] Wan,S。;Mak,M.W。;Kung,S.Y.,多标签蛋白质亚细胞定位基因本体的语义相似性,工程,568-72(2013)
[87] Wan,S。;Mak,M.W。;Kung,S.Y.,HybridGO-基于基因本体论的杂交特征挖掘,用于预测多位置蛋白质的亚细胞定位,PLoS ONE,9,3,e89545(2014)
[88] 王,X。;Li,G.Z.,识别单复合体和多复合体真核蛋白亚细胞位置的多标记预测因子,《公共科学图书馆·综合》,7,5,e36317(2012)
[89] 吴振聪。;Xiao,X。;Chou,K.C.,iLoc-Planta多标记分类器,用于预测具有单位点和多位点的植物蛋白质的亚细胞定位,Mol.BioSyst。,7, 3287-3297 (2011)
[90] Xiao,X。;吴振聪。;Chou,K.C.,iLoc-Virusa多标记学习分类器,用于识别单位点和多位点病毒蛋白的亚细胞定位,J.Theoret。《生物学》,284,42-51(2011)·Zbl 1397.92238号
[91] Xiao,X。;Min,J.-L。;王,P。;Chou,K.-C.,iCDI-PseFp利用PseAAC和分子指纹识别细胞网络中的通道-药物相互作用,J.Theoret。《生物学》,337,71-79(2013)·Zbl 1411.92115号
[92] Xu,Y。;丁,J。;Wu,L.-Y。;Chou,K.-C.,iSNO-PseAAC通过将位置特异性氨基酸倾向纳入伪氨基酸组成来预测蛋白质中的半胱氨酸S-亚硝基化位点,PLoS ONE,8,2,e55844(2013)
[93] Xu,Y。;邵晓杰。;Wu,L.-Y。;邓,N.-Y。;Chou,K.-C.,iSNO-AAPir将氨基酸成对偶联到PseAAC中以预测蛋白质中半胱氨酸S-亚硝基化位点,PeerJ,1,e171(2013)
[94] Xu,Y。;文,X。;邵晓杰。;邓,N.-Y。;Chou,K.-C.,iHyd-PseAAC通过将二肽位置特异性倾向纳入伪氨基酸组成预测蛋白质中的羟脯氨酸和羟赖氨酸,国际分子科学杂志。,15, 5, 7594-7610 (2014)
[95] 张,S。;Xia,X.F。;沈建中。;周,Y。;Sun,Z.,DBMLoca多亚细胞定位蛋白质数据库,BMC Bioinf。,9, 127 (2008)
[96] 周国平。;K博士,凋亡蛋白的亚细胞定位预测,功能。遗传学:结构。,50, 44-48 (2003)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。