×

从许多同源氨基酸序列直接耦合分析蛋白质结构的快速伪似然最大化。 (英语) Zbl 1349.92108号

摘要:直接耦合分析是一组通过从数据中学习指数族中的生成模型来获取蛋白质家族中共同进化残基信息的方法。在实际大小的蛋白质家族中,这种学习只能近似完成,并且在推理精度和计算速度之间存在权衡。我们在这里证明了一种早先引入的(l_2)正则化伪似然最大化方法plmDCA可以被修改为易于并行化,并且在单处理器上固有地更快,精度差异可以忽略不计。我们在蛋白质家族数据库(PFAM)中的143个蛋白质家族/结构样本上测试了该方法的新体现,这是迄今为止这类算法的较大测试之一。

MSC公司:

92D20型 蛋白质序列,DNA序列
82B20型 格系统(伊辛、二聚体、波茨等)和平衡统计力学中出现的图上系统
92-08 生物学问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 莫尔特,J。;Pedersen,J.T。;Judson,R。;Fidelis,K.,《评估蛋白质结构预测方法的大规模实验》,《蛋白质,结构》。功能。生物信息。,23、3、R2-R4(1995)
[2] Clarke,N.D.,同源域序列家族中残基的协同变异,蛋白质科学。,4, 11, 2269-2278 (1995)
[3] 哥贝尔,美国。;桑德,C。;施耐德,R。;Valencia,A.,蛋白质中的相关突变和残基接触,蛋白质,结构。功能。遗传学。,18309(1994年)
[4] Neher,E.,蛋白质序列家族的相关变化频率如何?,程序。国家。阿卡德。科学。美国,91,1,98-102(1994)
[5] Marks,D.S。;Hopf,T.A。;Sander,C.,从序列变化预测蛋白质结构,国家生物技术。,30, 11, 1072-1080 (2012)
[6] 埃克伯格,M。;Lövkvist,C。;兰,Y。;韦格特,M。;Aurell,E.,《改进蛋白质接触预测:使用伪似然推断Potts模型》,Phys。版本E,87,1,012707(2013)
[7] 访问时间:2013-10-24
[8] M.蓬塔。;科吉尔,P.C。;Eberhardt,R.Y。;Mistry,J。;Tate,J.G。;Boursnell,C。;Pang,N。;Forslund,K。;Ceric,G。;克莱门茨,J。;Heger,A。;霍尔姆,L。;Sonnhammer,E.L.L。;Eddy,S.R。;贝特曼,A。;Finn,R.D.,Pfam蛋白质家族数据库,核酸研究,40,D1,D290(2012)
[9] Wainwright,M.J。;Jordan,M.I.,《图形模型、指数族和变分推理》,Found。趋势马赫数。学习。,1, 1-2, 1-305 (2008) ·Zbl 1193.62107号
[10] 皮特曼,E。;Wishart,J.,《充分统计和内在准确性》,数学。程序。外倾角。菲洛斯。《社会学杂志》,32,567-579(1936)
[11] Darmois,G.,《概率估计的详尽性》,C.R.Acad。科学。巴黎,2001265-1266(1935),(法语)
[12] Koopman,B.,《关于承认充分统计的分布》,Trans。美国数学。《社会学杂志》,39,3,399-409(1936)
[13] Morcos,F。;Pagnani,A。;肺,B。;Bertolino,A。;Marks,D.S。;桑德,C。;西葫芦。;Onuchic,J.N。;Hwa,T。;Weigt,M.,残留物共同进化的直接耦合分析捕获了许多蛋白质家族的天然接触,Proc。国家。阿卡德。科学。美国,108,49,E1293(2011)
[14] 韦格特,M。;怀特,R.A。;Szurmant,H。;Hoch,J.A.(霍奇,J.A.)。;Hwa,T.,通过信息传递识别蛋白质相互作用中的直接残基接触,Proc。国家。阿卡德。科学。美国,106,1,67(2009)
[15] 塞萨克,V。;Monasson,R.,逆伊辛问题的小相关展开,J.Phys。A、 数学。理论。,42, 5, 055001 (2009) ·Zbl 1159.82005年
[16] 科科,S。;Monasson,R.,《利用噪声数据推断Boltzmann机器的自适应集群扩展》,Phys。修订稿。,106, 9, 090601 (2011)
[17] 科科,S。;Monasson,R.,《逆伊辛问题的自适应集群扩展:收敛、算法和测试》,J.Stat.Phys。,147, 2, 252-314 (2012) ·Zbl 1243.82018年
[18] Ricci-Tersenghi,F.,求解逆伊辛问题的Bethe近似:与其他推理方法的比较,J.Stat.Mech。,2012年,P08015(2012)
[19] Lapedes,A.S。;Giraud,B.G。;刘,L。;Stormo,G.D.,蛋白质序列模型中的相关突变:系统发育和结构效应,(分子生物学和遗传学统计,分子生物学和遗传统计,Lect.Notes Monogr.Ser.,第33卷(1999年)),236-256
[20] Russ,W.P。;洛厄里,医学博士。;米什拉,P。;亚菲,M.B。;Ranganathan,R.,人工WW域中的类自然功能,《自然》,437,7058,579-583(2005)
[21] 汉堡,L。;van Nimwegen,E.,蛋白质比对中残基间接协同进化的直接脱缠绕,PLoS Compute。生物,6,1,E1000633(2010)
[22] Balakrishnan,S。;Kamisetty,H。;Carbonell,J.G.(卡博尼尔,J.G.)。;李,S.-I。;Langmead,C.J.,《蛋白质折叠家族的生成模型学习》,《蛋白质,结构》。功能。生物信息。,79, 4, 1061 (2011)
[23] Marks,D.S。;Colwell,L.J。;谢里丹,T.A。;罗伯特·P。;Pagnani,A。;西葫芦。;Sander,C.,进化序列变异计算的蛋白质3D结构,PLoS ONE,6,12,e28766(2011)
[24] Hopf,T.A。;Colwell,L.J。;Sheridan,R。;Rost,B。;桑德,C。;Marks,D.S.,基因组测序中膜蛋白的三维结构,细胞,149,7,1607-1621(2012)
[25] 琼斯·D·T。;Buchan,D.W.A。;科泽托,D。;Pontil,M.,PSICOV:使用大型多序列比对的稀疏逆协方差估计进行精确的结构接触预测,生物信息学,28,2,184(2012)
[26] 科科,S。;莫纳森,R。;Weigt,M.,《从蛋白质共同进化的主成分到直接耦合分析:结构预测需要低特征值模式》,PLoS Compute。生物,9,8(2013)
[27] 科科,S。;莫纳森,R。;Weigt,M.,《从蛋白质家族中的共变推断霍普菲尔德-波茨模式:计算和统计误差栏》,J.Phys。Conf.序列号。,473, 1 (2013)
[28] Kamisetty,H。;奥夫钦尼科夫,S。;Baker,D.,评估基于共同进化的残余接触预测在层序和结构富集时代的效用,Proc。国家。阿卡德。科学。美国,110,39,15674-15679(2013)
[29] 斯克瓦克,M.J。;Abdel-Rehim,A。;Elofsson,A.,PconsC:直接信息方法和比对的结合提高了接触预测,生物信息学,29,14,1815-1816(2013)
[30] Hopf,T。;Schärfe,C。;罗德里格斯,J。;格林,A。;桑德,C。;Bonvin,A。;Marks,D.,序列共同进化提供了蛋白质复合物bioRxiv的3D接触和结构
[31] 北卡罗来纳州伯科夫。;瓦尔奈,C。;Wild,D.L.,使用基于最大熵的相关突变测量预测蛋白质(β)-表接触,生物信息学,29,5,580-587(2013)
[32] 萨沃哈多,C。;Fariselli,P。;Martelli,P.L。;Casadio,R.,BCov:使用稀疏逆协方差估计和整数规划预测β-片拓扑的方法,生物信息学,29,24,3151-3157(2013)
[33] Lui,S。;Tiana,G.,通过共同进化数据研究的蛋白质稳定接触网络,J.Chem。物理。,139, 15, 155103 (2013)
[34] Rivoire,O.,《生物序列中的共同进化要素》,Phys。修订稿。,110, 17, 178102 (2013)
[35] 安德烈亚塔,M。;拉普拉涅,S。;李S.C。;Smale,S.,使用相似核和最小二乘正则化预测蛋白质家族的残余接触
[36] 王,Z。;Xu,J.,通过整数规划使用进化和物理约束预测蛋白质接触图,生物信息学,29,13,i266-i273(2013)
[37] Miyazawa,S.,基于蛋白质结构中位点之间的共替换预测接触残基对,PLoS ONE,8,1,e54252(2013)
[38] 马,J。;王,S。;Xu,J.,通过跨多个家族的联合进化耦合分析预测蛋白质接触
[39] Feizi,S。;马尔巴赫,D。;Medard,M。;Kellis,M.,《网络反卷积作为区分网络中直接依赖性的通用方法》,《国家生物技术》。,31, 8, 726-733 (2013)
[40] 巴尔达西,C。;赞帕罗,M。;费诺尔,C。;普罗卡西尼,A。;西葫芦。;韦格特,M。;Pagnani,A.,《蛋白质家族的快速准确多元高斯建模:预测残留接触和蛋白质相互作用伙伴》,《公共科学图书馆·综合》,9,3,e92721(2014)
[41] 费诺尔,C。;斯科瓦克,M.J。;帕格纳尼,A。;Aurell,E.,改进三维接触预测
[42] Besag,J.,《非晶格数据的统计分析》,统计学家,24,3,179-195(1975)
[43] 奥雷尔,E。;Ekeberg,M.,《使用所有数据的反向伊辛推理》,Phys。修订稿。,108, 9, 090201 (2012)
[44] 邓恩,S.D。;Wahl,L.M。;Gloor,G.B.,《不受系统发育或熵影响的相互信息显著提高了残留接触预测》,生物信息学,24,3,333-340(2008)
[45] 访问时间:2013-10-24
[46] 佩茨科,G。;Ringe,D.,《蛋白质结构与功能》,《生物学入门》(2004),新科学出版社
[47] 访问时间:2013-10-24
[48] Velankar,S。;麦克尼尔,P。;米塔尔·伦特,V。;A.苏亚雷斯。;巴雷尔,D。;阿普韦勒,R。;Henrick,K.,《E-MSD:生物信息学的综合数据资源》,《核酸研究》,33,补充1,D262-D265(2005)
[49] 肺,B。;Szurmant,H。;普罗卡西尼,A。;Hoch,J.A。;Hwa,T。;Weigt,M.,第二章:双组分信号传导中直接残基接触的推断,酶学方法。,471, 17-41 (2010)
[50] Murzin,A。;Brenner,S。;哈伯德,T。;Chothia,C.,SCOP:用于序列和结构研究的蛋白质结构分类数据库,《分子生物学杂志》。,247, 4, 536-540 (1995)
[51] 潘迪特,S。;巴德拉,R。;戈瑞,V。;Balaji,S。;阿南德,B。;Srinivasan,N.,SUPFAM:蛋白质结构域序列超家族数据库,BMC Bioninform。,5, 28 (2004)
[52] 高夫,J。;Karplus,K。;Hughey,R。;Chothia,C.,使用隐马尔可夫模型库将同源性分配给基因组序列,隐马尔可夫模型库表示已知结构的所有蛋白质,J.Mol.Biol。,313, 4, 903-919 (2001)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。