×

基于初级序列预测蛋白质相互作用的自适应压缩学习。 (英语) Zbl 1397.92243号

摘要:蛋白质相互作用(PPI)在生物过程中发挥着重要作用。尽管通过整合实验生物学知识,人们在识别新型PPI方面付出了大量努力,但由于缺乏足够的蛋白质结构和功能信息,仍然存在许多困难。人们迫切希望开发仅基于氨基酸序列的方法来预测PPI。然而,基于序列的预测器往往难以解决高维性导致的过拟合和高计算复杂度问题,以及序列特征向量的冗余问题。本文提出了一种基于压缩感知理论的酵母预测新方法酿酒酵母PPI来自初级序列,并取得了良好的结果。该压缩感知算法的主要优点是,考虑到原始信号的稀疏性,可以将原始高维蛋白质序列特征向量压缩到一个更低但更紧凑的空间。压缩传感在蛋白质序列分析中更具吸引力的是,它的压缩信号可以从比传统奈奎斯特采样理论中通常认为必要的测量少得多的测量中重建。实验结果表明,该压缩感知方法能够有效地分析含噪生物数据,减少特征向量中的冗余。该方法代表了一种处理高维蛋白质离散模型的新策略,在处理许多其他复杂生物系统方面具有很大的潜力。

MSC公司:

92C40型 生物化学、分子生物学
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agrafiotis,D.K.,《随机邻近嵌入》,J.comput。化学。,24, 1215-1221, (2003)
[2] Alonso,C.,《旋转森林:一种新的分类器集成方法》,IEEE trans。肛门模式。,28, 1619-1630, (2006)
[3] 阿洛伊,P。;Russell,R.B.,《通过结构生物学查询蛋白质相互作用网络》,Proc。国家。学院。科学。美国,99,5896-5901,(2002)
[4] 阿洛伊,P。;Russell,R.B.,解释:通过三级结构预测蛋白质相互作用,生物信息学,19,161-162,(2003)
[5] Baraniuk,R。;达文波特,M。;DeVore,R。;Wakin,M.,随机矩阵限制等距性的简单证明,Constr。约28253-263(2008)·Zbl 1177.15015号
[6] Ben-Hur,A。;Noble,W.S.,预测蛋白质-蛋白质相互作用的核心方法,生物信息学,21,Suppl.1,i38-i46,(2005)
[7] Bock,J.R。;Gough,D.A.,从一级结构预测蛋白质-蛋白质相互作用,生物信息学,17,455-460,(2001)
[8] Brand,M.,绘制一个流形,高级神经信息过程。系统。,985-992, (2003)
[9] Calderbank,R.、Jafarpour,S.、Schapire,R.,2009年。压缩学习:测量领域的通用稀疏维数约简和学习,〈http://dsp.rice.edu/files/cs/cl.pdf; Calderbank,R.、Jafarpour,S.、Schapire,R.,2009年。压缩学习:测量领域的通用稀疏维数约简和学习,〈http://dsp.rice.edu/files/cs/cl.pdf
[10] Candes,E.J.,《受限等距特性及其对压缩传感的影响》,C.R.数学。,346, 589-592, (2008) ·Zbl 1153.94002号
[11] 坎迪斯,E.J。;Tao,T.,从随机投影中恢复近最优信号:通用编码策略?,IEEE传输。通知。理论,525406-5425,(2006)·Zbl 1309.94033号
[12] 坎德斯,E.J。;Romberg,J.K。;Tao,T.,从不完整和不准确的测量中恢复稳定信号,Commun。采购。应用。数学,591207-1223,(2006)·邮编1098.94009
[13] Chang,C.C.,Lin,C.J.,2001年。LIBSVM:支持向量机库。软件可从以下网址获得:〈http://www.csie.ntu.edu.tw/cjlin/libsvm; Chang,C.C.,Lin,C.J.,2001年。LIBSVM:支持向量机库。软件可从以下网址获得:〈http://www.csie.ntu.edu.tw/cjlin/libsvm
[14] Chartrand,R。;R.G.巴拉纽克。;埃尔达,Y.C。;菲格雷多,M.A.T。;Tanner,J.,压缩传感问题简介,Ieee J-stsp,4,241-243,(2010)
[15] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质,43,246-255,(2001)
[16] 周,K.C。;Shen,H.B.,通过融合多个分类器预测蛋白质亚细胞位置,J.cell。生物化学。,99, 517-527, (2006)
[17] 周,K.C。;Shen,H.B.,Hum-ploc:预测人类蛋白质亚细胞定位的新型集成分类器,生物化学。生物物理。公共资源。,347,150-157,(2006年)
[18] 周,K.C。;Shen,H.B.,蛋白质亚细胞定位预测的最新进展,Ana。生物化学。,370, 1-16, (2007)
[19] 周,K.C。;Shen,H.B.,Euk-mploc:通过合并多个位点进行大规模真核蛋白质亚细胞定位预测的融合分类器,J.蛋白质组研究,61728-1734,(2007)
[20] 邓,L。;关,J。;Dong,Q。;周,S.,使用集成方法预测蛋白质-蛋白质相互作用位点,BMC bioinf。,10, 426, (2009)
[21] 东,Q.W。;周,S.G。;Liu,X.,从一级序列预测蛋白质-蛋白质相互作用,国际期刊数据MIN.bioinf。,4, 211-227, (2010)
[22] Donoho,D.L.,压缩传感,IEEE传输。通知。理论,521289-1306,(2006)·兹比尔1288.94016
[23] 菲尔兹,S。;Song,O.,检测蛋白质-蛋白质相互作用的新遗传系统,Nature,340245-246,(1989)
[24] Goodman,S.N.,走向循证医学统计。1:该P(P)价值谬论,Ann.实习生。医学,130,995-1004,(1999)
[25] Gorshu,R.L.,因子分析,(1983),L.Erlbaum Associates Hillsdale,N.J。
[26] 郭毅。;Yu,L。;温,Z。;Li,M.,使用支持向量机结合自协方差预测蛋白质序列中的蛋白质相互作用,Nucl。酸类研究,36,3025-3030,(2008)
[27] Han,J.-D.J。;Dupuy,D。;Bertin,N。;M.E.库西克。;Vidal,M.,采样对蛋白质-蛋白质相互作用网络拓扑预测的影响,自然生物技术。,23, 839-844, (2005)
[28] He,X.F。;Niyogi,P.,局部保持投影,高级神经信息。处理系统。,16, 153-160, (2004)
[29] Ho,Y。;Gruhler,A。;海尔布特,A。;巴德,G.D。;摩尔,L。;亚当斯,S.L。;Millar,A。;泰勒,P。;Bennett,K。;Boutiler,K。;Yang,L。;沃尔廷,C。;I.唐纳森。;Schandorff,S。;Shewnarane,J。;Vo,M。;Taggart,J。;Goudreault,M。;马斯卡特,B。;阿法拉诺,C。;杜瓦,D。;林,Z。;Michalickova,K。;威廉姆斯,A.R。;萨西,H。;尼尔森,P.A。;拉斯穆森,K.J。;Andersen,J.R。;Johansen,L.E。;Hansen,L.H。;Jespersen,H。;Podtelejnikov,A。;尼尔森,E。;克劳福德,J。;鲍尔森,V。;索伦森,B.D。;马蒂森,J。;亨德里克森,R.C。;Gleeson,F。;Pawson,T。;莫兰,M.F。;Durocher,D。;曼恩,M。;霍格,C.W。;菲吉斯,D。;Tyers,M.,蛋白质复合物的系统鉴定酿酒酵母通过质谱法,《自然》,415180-183,(2002)
[30] 胡,J.J。;Zhang,F.,使用基于氨基酸基团的物理化学编码改进蛋白质定位预测,Bioinf。计算。生物程序。,5462, 248-258, (2009)
[31] 黄,C.B。;Morcos,F。;卡南,S.P。;Wuchty,S。;陈德智。;Izaguirre,J.A.,使用集合覆盖方法预测蛋白质域中的蛋白质相互作用,IEEE ACM trans。计算。生物学,478-87,(2007)
[32] 黄,S。;儿子,S.W。;Kim,S.C。;Kim,Y.J。;Jeong,H。;Lee,D.,与哮喘相关的蛋白质相互作用网络,J.theor。生物学,252722-731,(2008)
[33] Jansen,R。;Yu,H。;格林鲍姆博士。;Kluger,Y。;新泽西州科罗根。;Chung,S。;Emili,A。;斯奈德,M。;格林布拉特,J.F。;Gerstein,M.,《从基因组数据预测蛋白质-蛋白质相互作用的贝叶斯网络方法》,《科学》,302,449-453,(2003)
[34] Kohavi,R。;John,G.H.,特征子集选择包装器,Artif。英特尔。,97, 273-324, (1997) ·Zbl 0904.68143号
[35] 库马尔,M。;维玛,R。;Raghava,G.P.,使用支持向量机和隐马尔可夫模型预测线粒体蛋白质,J.biol。化学。,2815357-5363,(2006年)
[36] 库马尔,M。;格罗米哈,M.M。;Raghava,G.P.,使用支持向量机和进化图谱鉴定DNA结合蛋白,BMC生物信息学。,8, 463, (2007)
[37] 库根,L。;Razib,A.A。;Aghakhani,S。;Dick,S。;Mizianty,M。;Jahandeh,S.,CRYSTALP2:基于序列的蛋白质结晶倾向预测,BMC结构。生物学,9,50,(2009)
[38] 李伟(Li,W.)。;Godzik,A.,Cd hit:一个用于聚类和比较大量蛋白质或核苷酸序列的快速程序,生物信息学,221658-1659,(2006)
[39] Lin,N。;吴,B。;Jansen,R。;Gerstein,M。;Zhao,H.,预测蛋白质-蛋白质相互作用的信息评估,BMC生物信息。,5, 154, (2004)
[40] 刘,L。;蔡,Y。;卢·W。;Feng,K。;彭,C。;Niu,B.,基于pseaa组成和杂交特征选择的蛋白质-蛋白质相互作用预测,生物化学。生物物理。公共资源。,380, 318-322, (2009)
[41] 马丁·S。;罗伊,D。;Faulon,J.L.,使用特征产品预测蛋白质-蛋白质相互作用,生物信息学,21,218-226,(2005)
[42] Nanni,L.,预测蛋白质-蛋白质相互作用的超平面,神经计算,69,257-263,(2005)
[43] Nanni,L.,用于在线签名验证的一类分类器的实验比较,神经计算,69,869-873,(2006)
[44] Nanni,L。;Lumini,A.,Mpps:基于氨基酸多种物理化学性质的支持向量机集成,神经计算,69,1688-1690,(2006)
[45] Nanni,L。;Lumini,A.,预测蛋白质-蛋白质相互作用的K-局部超平面集合,生物信息学,221207-1210,(2006)
[46] 纳尼。;布拉南,S。;Lumini,A.,蛋白质分类的高性能伪码和基于序列的描述符集,J.theor。生物学,2661-10,(2010)·Zbl 1407.92103号
[47] 美国奥格曼。;Keskin,O。;阿伊图纳群岛。;Nussinov,R。;Gursoy,A.,PRISM:通过结构匹配的蛋白质相互作用,Nucl。酸类研究,33,W331-W336,(2005)
[48] 欧,Y.Y。;陈,S.A。;Gromiha,M.M.,使用具有位置特异性评分矩阵和生物化学特性的有效径向基函数网络对转运蛋白进行分类,蛋白质,781789-1797,(2010)
[49] Overbeek,R。;Fonstein,M。;D’Souza,M。;Pusch,G.D。;Maltsev,N.,利用染色体上的邻接性预测功能耦合,《硅生物学》。,1, 93-108, (1999)
[50] 佩格尔,P。;Mewes,H.W。;Frishman,D.,子囊菌属蛋白质-蛋白质相互作用缺失的保护,遗传学趋势。,20, 72-76, (2004)
[51] 佩格尔,P。;Wong,P。;Frishman,D.,基于系统发育分析的域相互作用图,J.mol.biol。,344, 1331-1346, (2004)
[52] 佩格尔,P。;奥斯特霍尔德,M。;Stumpflen,V。;Frishman,D.,《DIMA网络资源揭示蛋白质域网络》,生物信息学,22997-998,(2006)
[53] 佩格尔,P。;奥斯特霍尔德,M。;托夫斯图基纳,O。;斯特拉克,N。;Stumpflen,V。;Frishman,D.,DIMA 2.0-预期和已知域交互,Nucl。酸类研究,36,D651-D655,(2008)
[54] 潘,X.Y。;张,Y.N。;Shen,H.B.,基于潜在主题特征的氨基酸序列对人类蛋白质-蛋白质相互作用的大规模预测,蛋白质组研究杂志,94992-5001,(2010)
[55] Park,Y.,不需要同源蛋白质序列的基于序列的蛋白质-蛋白质相互作用预测方法的关键评估,BMC bioinf。,10, 419, (2009)
[56] Pitre,S。;北卡罗来纳州。;Alamgir,M。;杰苏拉特,M。;Chan,A。;罗,X。;Green,J.R。;杜蒙蒂尔,M。;Dehne,F。;Golshani,A.,酵母中蛋白质-蛋白质相互作用的全球研究酿酒酵母使用重复出现的短多肽序列Nucl。酸类研究,36,4286-4294,(2008)
[57] Pitre,S。;Dehne,F。;Chan,A。;Cheetham,J。;Duong,A。;Emili,A。;Gebbia,M。;格林布拉特,J。;杰苏拉特,M。;科罗根,N。;罗,X。;Golshani,A.,PIPE:基于已知相互作用蛋白对之间重复出现的短多肽序列的蛋白质-蛋白质相互作用预测引擎,BMC bioinf。,7365年(2006年)
[58] Rao,R。;Tun,K。;Lakshminarayanan,S。;Dhar,P.K.,用于大规模蛋白质-蛋白质相互作用预测的氨基酸残基关联模型,电子生物学。,9, 179-194, (2009)
[59] Schwikowski,B。;Uetz,P。;Fields,S.,《酵母中蛋白质-蛋白质相互作用网络》,《国家生物技术》。,18, 1257-1261, (2000)
[60] Shen,H.B。;Chou,K.C.,Hum-mploc:一种集成分类器,用于通过合并多个位点的样本进行大规模人类蛋白质亚细胞位置预测,Biochem。生物物理。公共资源。,355, 1006-1011, (2007)
[61] Shen,H.B。;Chou,K.C.,Pseaac:用于生成各种蛋白质伪氨基酸组成的灵活web服务器,Ana。生物化学。,373, 386-388, (2008)
[62] 沈杰。;张杰。;罗,X。;朱伟。;Yu,K。;Chen,K。;李毅。;Jiang,H.,仅基于序列信息预测蛋白质-蛋白质相互作用,Proc。国家。学院。科学。美国,104,4337-4341,(2007)
[63] 斯米亚洛夫斯基,P。;弗里希曼,D。;Kramer,S.,《监督特征选择的陷阱》,生物信息学,26,440-443,(2010)
[64] Smialowski,P。;施密特,T。;考克斯,J。;Kirschner,A。;弗里希曼博士,我的蛋白质会结晶吗?基于序列的预测,蛋白质,62343-355,(2006)
[65] Smialowski,P。;马丁·加里亚诺,A.J。;Mikolajka,A。;吉尔西克,T。;T.A.霍拉克。;Frishman,D.,《蛋白质溶解度:基于序列的预测和实验验证》,生物信息学,232536-2542,(2007)
[66] Smialowski,P。;佩格尔,P。;Wong,P。;Brauner,B。;Dunger,I。;Fobo,G。;弗里希曼,G。;蒙特罗内,C。;Rattei,T。;弗里斯曼博士。;Ruepp,A.,《阴性组数据库:非相互作用蛋白对的参考集》,Nucl。酸类研究,38,D540-D544,(2010)
[67] 宋,J。;Tan,H。;Takemoto,K。;Akutsu,T.,Hsepred:根据蛋白质序列预测半球暴露,生物信息学,241489-1497,(2008)
[68] Ta、H.X。;Holm,L.,《蛋白质相互作用预测中不同基于结构域方法的评估》,《生物化学》。生物物理。公共资源。,390, 357-362, (2009)
[69] Tropp,J.A。;Gilbert,A.C.,通过正交匹配追踪从随机测量中恢复信号,IEEE trans。通知。理论,53,4655-4666,(2007)·Zbl 1288.94022号
[70] 塞纳里奥斯,I。;Salwinski,L。;段晓杰。;Higney,P。;Kim,S.M。;Eisenberg,D.,DIP,相互作用蛋白质数据库:研究蛋白质相互作用细胞网络的研究工具,Nucl。酸类研究,30,303-305,(2002)
[71] 夏J.F。;Wang,S.L。;Lei,Y.K.,蛋白质-蛋白质相互作用预测的计算方法,蛋白质pept。利特。,17, 1069-1078, (2010)
[72] 张,H。;张,T。;Chen,K。;沈,S。;阮,J。;Kurgan,L.,利用进化信息和预测的二级结构进行基于序列的残留深度预测,BMC bioinf。,9, 388, (2008)
[73] 朱,H。;比尔金,M。;R.班加姆。;霍尔,D。;Casamayor,A。;伯顿,P。;Lan,N。;Jansen,R。;Bidlingmaier,S。;Houfek,T。;米切尔,T。;米勒,P。;院长,R.A。;Gerstein,M。;Snyder,M.,使用蛋白质组芯片进行蛋白质活性的全球分析,《科学》,293,2101-2105,(2001)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。