×

从蛋白质相互作用预测的角度质疑蛋白质序列中的噪声。 (英语) Zbl 1397.92544号

摘要:在过去的几十年中,人们对蛋白质之间的关系进行了广泛的研究。特别是,基于序列的蛋白质相互作用(PPI)预测对于加快绘制生物体相互作用体的过程至关重要。高通量实验方法使许多模型生物的PPI已知,这使我们能够应用机器学习方法从可用的PPI中学习可理解的规则。在机器学习框架下,合成向量通常用于将蛋白质编码为实值向量。然而,组成向量值可能与氨基酸的分布高度相关,即自然界中经常观察到的氨基酸往往具有较大的组成向量值。因此,在表示过程中可能需要估计由氨基酸的背景分布引起的噪声的公式。在这里,我们介绍了两种去噪合成向量,它们成功地用于构建系统发育树,以消除噪声。在上验证这两个去噪合成向量时大肠杆菌(大肠杆菌),酿酒酵母(酿酒酵母)和人类PPI数据集相比,令人惊讶的是,预测性能没有提高,甚至比非去噪预测更差。这些结果表明,系统发育树构建中的噪声可能是PPI预测的有用信息。

MSC公司:

92D20型 蛋白质序列,DNA序列
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arango-Argoty,G.A.,Jaramillo-Garzón,J.A.,Röthlisberger S.,Castellanos-Dominguez,C.G.,2011年。基于可变长度基序检测和差异分类的蛋白质亚细胞定位预测。在:《会议论文集:IEEE医学与生物学会工程》,第945-948页。;Arango-Argoty,G.A.,Jaramillo-Garzón,J.A.,Röthlisberger S.,Castellanos-Dominguez,C.G.,2011年。基于可变长度基序检测和差异分类的蛋白质亚细胞定位预测。摘自:会议记录:IEEE医学和生物学会工程,第945-948页。
[2] Ben Hur,A.,预测蛋白质-蛋白质相互作用的核心方法,生物信息学,21,i38-i46,(2005)
[3] Ben-Hur,A。;Noble,W.S.,为预测蛋白质-蛋白质相互作用选择负面示例,BMC生物信息。,7,补遗1,S2,(2006)
[4] Bock,J.R。;Gough,D.A.,从一级结构预测蛋白质-蛋白质相互作用,生物信息学,17,455-460,(2001)
[5] Chan,R.H.F.,Wang,R.W.,Wong,J.C.F.,2010年。合成向量法的最大熵方法。在线发布:2010年12月23日http://dx.doi.org/10.1002/9780470892107.ch27; Chan,R.H.F.,Wang,R.W.,Wong,J.C.F.,2010年。合成向量法的最大熵方法。在线发布:2010年12月23日http://dx.doi.org/10.1002/9780470892107.ch27
[6] Chang,C.-C。;Lin,C.-J.,支持向量机的Libsvma库,ACM trans。英特尔。系统。技术。,2:27, 1-27, (2011)
[7] 周,K.C。;Zhang,C.T.,《蛋白质结构类预测综述》,《生物化学评论》。微生物。,30275-349,(1995年)
[8] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质结构。功能。基因。,43, 246-255, (2001)
[9] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论(50周年回顾),J.theoret。生物学,273236-247,(2011)·Zbl 1405.92212号
[10] 周,K.C。;Cai,Y.D.,《使用功能域组成和支持向量机预测蛋白质亚细胞位置》,J.biol。化学。,277, 45765-45769, (2002)
[11] 周,K.C。;Cai,Y.D.,利用gocfundcpsea预测因子预测蛋白质亚细胞位置,生物化学。生物物理。公共资源。,320, 1236-1239, (2004)
[12] 周,K.C。;Cai,Y.D.,从杂交空间中的序列预测蛋白质-蛋白质相互作用,J.prot。第5316-322号决议(2006年)
[13] 周,K.C。;Shen,H.B.,通过融合优化证据预测真核蛋白亚细胞位置:理论K-最近邻分类器,J.prot。第5号决议,1888-1897,(2006)
[14] 周,K.C。;Shen,H.B.,用于预测各种生物体蛋白质亚细胞定位的网络服务器Cell-ploca包(更新版本:Cell-ploc 2.0:用于预测各种有机体蛋白质亚细胞位置的网络服务器改进包,自然科学,2010,2,1090-1103),Nature prot。,3153-1622(2008年)
[15] 周,K.C。;Shen,H.B.,《回顾用于预测蛋白质属性的Web服务器开发的最新进展》,《自然科学》。,2,63-92,(2009),(可在(语言)上公开访问)http://www.scirp.org/journal/NS/
[16] 周,K.C。;Shen,H.B.,预测单位点和多位点真核蛋白亚细胞定位的新方法-mploc 2.0,Plos one,5,e9931,(2010)
[17] 周,K.C。;Shen,H.B.,Plant-mploca top-down strategy to enhance power for predicating Plant protein subcellulary localization,Plos one,5,e11335,(2010),《植物-植物自上而下策略增强植物蛋白质亚细胞定位预测能力》
[18] 周,K.C。;吴振聪。;Xiao,X.,Iloc-euka多标记分类器预测单复合体和复合真核蛋白的亚细胞定位,Plos one,6,e18258,(2011)
[19] 周,K.C。;吴振聪。;Xiao,X.,Iloc-hum:使用累加-标签尺度预测人类蛋白质的亚细胞位置,单位点和多位点,分子生物学。,8, 2, 629-641, (2012)
[20] 邓,L。;关,J.H。;东,Q.W。;Zhou,S.G.,Semihsan预测蛋白质-蛋白质相互作用热点的迭代半监督方法,protein pept。利特。,18, 896-905, (2011)
[21] 邓,纽约。;田永杰。;Zhang,C.H.,支持向量机理论、算法和扩展,(2012),北京科学出版社
[22] Dijk,A。;博世,D。;布拉克,C。;克罗尔,A。;Ham,R.,预测II型膜蛋白的球下定位,生物信息学,24,16,(2008)
[23] Esmaeili,M。;Mohabatkar,H。;Mohsenzadeh,S.,使用周的伪氨基酸组成概念预测人类乳头状瘤病毒的风险类型,J.theoret。生物学,263203-209,(2010)·Zbl 1406.92455号
[24] 菲尔兹,S。;Song,O.,检测蛋白质-蛋白质相互作用的新遗传系统,Nature,340245-246,(1989)
[25] 加文,A.C。;Boche,M。;克劳斯,R。;格兰迪,P。;Marzioch,M。;Bauer,A。;舒尔茨,J。;瑞克·J。;A.Michon。;Cruciat,C.,《通过蛋白质复合物的系统分析实现酵母蛋白质组的功能组织》,《自然》,415141-147,(2002)
[26] 乔治奥,D.N。;卡拉卡西迪斯,T.E。;尼托,J.J。;Torres,A.,《使用模糊聚类技术和矩阵对氨基酸进行分类及其对周氏伪氨基酸组成的影响》,J.theoret。生物学,257,17-26,(2009)·Zbl 1400.92393号
[27] 戈麦斯,S.M。;诺布尔,W.S。;Rzhetsky,A.,《学习从蛋白质序列预测蛋白质-蛋白质相互作用》,生物信息学,1875-1881年,(2003)
[28] 格里布斯科夫,M。;Robinson,N.L.,《使用接收机工作特性(ROC)分析评估序列匹配》,计算。化学。,20, 25-33, (1996)
[29] Hao,B.L。;齐,J。;Wang,B.,基于无序列比对的完整基因组的原核生物系统发育,Mod。物理。利特。B、 2003年2月1日至4日·Zbl 1114.92309号
[30] Ho,Y。;Gruhler,A。;海尔布特,A。;巴德,G.D。;摩尔,L。;亚当斯。;Millar,A。;泰勒,P。;Bennett,K。;Boutiler,K。;Yang,L。;沃尔廷,C。;I.唐纳森。;Schandorff,S。;Shewnarane,J。;Vo,M。;Taggart,J。;Goudreault,M。;马斯卡特,B。;阿法拉诺,C。;杜瓦,D。;林,Z。;Michalickova,K。;威廉姆斯,A.R。;萨西,H。;尼尔森,P.A。;拉斯穆森,K.J。;Andersen,J.R。;Johansen,L.E。;Hansen,L.H。;Jespersen,H。;Podtelejnikov,A。;尼尔森,E。;克劳福德,J。;鲍尔森,V。;瑟伦森,B.D。;马蒂森,J。;亨德里克森,R.C。;Gleeson,F。;Pawson,T。;莫兰,M.F。;Durocher,D。;曼恩,M。;霍格,C.W。;菲吉斯,D。;Tyers,M.,蛋白质复合物的系统鉴定酿酒酵母通过质谱法,《自然》,415180-183,(2002)
[31] Hoglund,A。;多恩斯,P。;Blum,T。;阿道夫,H。;Kohlbacher,O.,《使用N末端靶向序列、序列基序和氨基酸组成对蛋白质亚细胞定位的多相预测》,生物信息学,22,10,1158-1165,(2006)
[32] 胡,L。;黄,T。;施,X。;卢,W.C。;蔡,Y.D。;Chou,K.C.,基于加权蛋白质-蛋白质相互作用网络和蛋白质杂交特性预测小鼠蛋白质功能,Plos one,6,e14556,(2011)
[33] 伊藤,T。;千叶,T。;小泽一郎。;吉田,M。;服务端,M。;Sakaki,Y.,探索酵母蛋白相互作用组的综合双杂交分析,Proc。国家。学院。科学。,98, 4569-4574, (2001)
[34] 江,M。;安德森,J。;Gillespie,J。;Mayne,M.,Ushufflea,一种有用的工具,用于在保留k-let计数的同时改变生物序列,BMC bioinf。,9, 192, (2008)
[35] Leslie,C.,Eskin,E.,Noble,W.S.,2002年。光谱核:用于支持向量机蛋白质分类的字符串核。收录:太平洋生物计算研讨会。太平洋生物计算研讨会,第564-575页。;Leslie,C.,Eskin,E.,Noble,W.S.,2002年。光谱核:用于SVM蛋白质分类的字符串核。收录:太平洋生物计算研讨会。太平洋生物计算研讨会,第564-575页。
[36] Ma,哥伦比亚特区。;Diao,Y.B。;郭义忠。;李毅中。;Zhang,Y.Q。;吴杰。;Li,M.L.,一种基于蛋白质相互作用网络和蛋白质序列信息预测蛋白质相互作用的新方法,protein pept。利特。,18, 906-911, (2011)
[37] Mak,M。;郭杰。;Kung,S.,基于局部成对剖面对齐和SVM的成对蛋白亚细胞定位,IEEE/ACM反式。计算。生物生物信息。,5, 3, 416-422, (2008)
[38] 梅,S。;Wang,Fei,基于氨基酸分类的蛋白质亚核定位谱核融合,BMC生物信息。,11,补遗1,S17,(2010)
[39] Mohabatkar,H.,利用周氏伪氨基酸组成预测细胞周期蛋白,蛋白质肽。利特。,17, 1207-1214, (2010)
[40] 莫哈巴特卡尔,H。;穆罕默德·贝吉,M。;Esmaeili,A.,使用Chou的伪氨基酸组成和支持向量机概念预测GABA(A)受体蛋白,J.theoret。生物学,281,18-23,(2011)·Zbl 1397.92215号
[41] Najafabadi,H。;Salavati,R.,通过密码子使用对蛋白质-蛋白质相互作用的基于序列的预测,基因组生物学。,9,R87,(2008)
[42] Noble,W.S.,支持向量机在计算生物学中的应用,(),71-92
[43] Pierreoni,A。;Luigi,P。;Fariselli,P。;Casadio,R.,Bacelloa平衡定位预测因子,生物信息学,22,14,e408-e416,(2006)
[44] 邱,Z。;Wang,X.,使用基于补丁的残基特征预测蛋白质-蛋白质相互作用位点,J.theoret。生物学,293C,143-150,(2012)·Zbl 1307.92088号
[45] Ren,L.H。;沈义忠。;丁,Y.S。;Chou,K.C.,蛋白质-蛋白质相互作用网络分析的生物工程网络,亚洲期刊控制,13,726-737,(2011)·Zbl 1303.93030号
[46] 任,X.W。;王,Y.C。;Wang,Y。;张,X.S。;Deng,N.Y.,通过考虑序列表示的逆向问题提高蛋白质-蛋白质相互作用预测的准确性,BMC bioinf。,12, 409, (2011)
[47] 沈J.W。;张杰。;罗,X.M。;Zhu,W.L。;Yu,K.Q。;陈,K.X。;李,Y.X。;Jiang,H.L.,仅基于序列信息预测蛋白质-蛋白质相互作用,Proc。国家。学院。科学。,104, 4337-4341, (2007)
[48] Vapnik,V.,《统计学习理论的本质》(1995),纽约斯普林格出版社·Zbl 0833.62008号
[49] Vapnik,V.,《统计学习理论》(1998),威利·Zbl 0935.62007号
[50] 王,P。;Xiao,X。;Chou,K.C.,NR-2la两级预测因子,基于序列衍生特征识别核受体亚家族,Plos one,6,e23505,(2011)
[51] Wu,G.,Chang,E.Y.,2003年。用于不平衡数据集学习的类边界对齐。In:ICML 2003学习不平衡数据集研讨会。;Wu,G.,Chang,E.Y.,2003年。用于不平衡数据集学习的类边界对齐。摘自:ICML 2003年学习不平衡数据集研讨会。
[52] 吴振聪。;Xiao,X。;Chou,K.C.,Iloc-gposa多层分类器,用于预测单复合体和多复合体革兰氏阳性细菌蛋白的亚细胞定位,Protein pept。利特。,19,(2011),内政部:BSP/PPL/E pub/0380[pii]
[53] 夏J.F。;Han,K。;Huang,D.S.,通过旋转森林和自相关描述符对蛋白质-蛋白质相互作用进行基于序列的预测,protein pept。利特。,17, 137-145, (2010)
[54] Xiao,X。;吴振聪。;Chou,K.C.,一种预测革兰氏阴性细菌蛋白质亚细胞定位的单位点和多位点多标签分类器,Plos one,6,e20592,(2011)
[55] 杨,J。;Jiang,X.F.,基于复杂网络预测阿尔茨海默病相关蛋白-蛋白质相互作用的新方法,protein pept。利特。,17, 356-366, (2010)
[56] Yu,C.Y。;周,L.C。;Chang,D.T.H.,研究文章,使用蛋白质的一级结构预测不平衡数据中的蛋白质-蛋白质相互作用,BMC bioinf。,11, 167, (2010)
[57] Yu,Z.G。;周,L.Q。;Anh,V。;Chu,K.H。;Long,S.C.公司。;Deng,J.Q.,通过简单合成方法揭示的原核生物和叶绿体的系统发育,未经序列比对的全基因组所有蛋白质序列,J.mol.evol。,60, 538-545, (2005)
[58] Park,Yungki,不需要同源蛋白质序列的基于序列的蛋白质-蛋白质相互作用预测方法的关键评估,BMC bioinf。,10, 419, (2009)
[59] 张,Y.N。;潘,X.Y。;黄,Y。;Shen,H.B.,预测初级序列中蛋白质-蛋白质相互作用的自适应压缩学习,J.theoret。生物学,283,44-52,(2011)·Zbl 1397.92243号
[60] 周,G.P.,《文祥图中LZCC蛋白残基的分布为蛋白质-蛋白质相互作用机制提供了新的见解》,J.theoret。生物学,284142-148,(2011)·Zbl 1397.92245号
[61] 朱,H。;比尔金,M。;R.班加姆。;霍尔,D。;Casamayor,A。;伯顿,P。;Lan,N。;Jansen,R。;Bidlingmaier,S。;Houfek,T。;米切尔,T。;米勒,P。;院长,R.A。;Gerstein,M。;Snyder,M.,使用蛋白质组芯片进行蛋白质活性的全球分析,《科学》,1932101-2105,(2001)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。