×

蛋白质结构域层次吉布斯采样策略。 (英文) Zbl 1296.92058号

摘要:分层排列的多序列比对图谱有助于建模功能分化为进化相关亚组的蛋白质域。目前,这种对齐层次结构主要是通过手动管理构建的,如NCBI保护域数据库(CDD)。然而,最近我开发了一种吉布斯采样器,它使用一种称为统计进化动力学分析以自动完成此任务,同时识别蛋白质功能的序列决定因素。在这里,我描述了该采样器的统计模型和采样策略。当实现并应用于模拟蛋白质序列(精确符合基础统计模型)时,这些采样策略有效地收敛于用于生成序列的层次结构。然而,对于真实的蛋白质序列,采样器会为许多域找到替代的、接近最佳的层次结构,这表明存在很大程度的模糊性。我举例说明了如何从同一领域独立生成的层次结构集合中确定这种模糊性的性质和层次结构的最健壮(“一致”)特征。这种共识层次结构可以提供可靠稳定的蛋白质结构域功能差异模型。

MSC公司:

92B15号机组 普通生物统计学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altschul,S.F.,T.L.Madden,A.A.Schaffer,J.Zhang,W.Miller和D.J.Lipman(1997):“缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序”,核酸研究,25,3389-3402。;
[2] Altschul,S.F.,E.M.Gertz,R.Agarwala,A.A.Schaffer和Y.K.Yu(2009):“PSI-BLAST伪计数和最小描述长度原则”,《核酸研究》,第37期,第815-824页。;
[3] Bouckaert,R.、J.Heled、D.Kuhnert、T.Vaughan、C.H.Wu、D.Xie、M.A.Suchard、A.Rambaut和A.J.Drummond(2014):“BEAST 2:贝叶斯进化分析的软件平台”,公共科学图书馆计算。生物,10,e1003537。;
[4] Dayhoff,M.O.,R.M.Schwartz和B.C.Orcutt(1978):“蛋白质进化变化模型”,蛋白质序列和结构图谱,5345-352。;
[5] Felsenstein,J.(1985):“系统发育的置信极限:一种使用bootstrap的方法”,《进化》,39,783-791。;
[6] Finn,R.D.,J.Tate,J.Mistry,P.C.Coggill,S.J.Sammut,H.R.Hotz,G.Ceric,K.Forslund,S.R.Eddy,E.L.Sonnhammer和A.Bateman(2008):“Pfam蛋白家族数据库”,《核酸研究》,36,D281-D288。;
[7] Grunwald,P.D.(2007):最小描述长度原则,麻省理工学院出版社:波士顿。;
[8] Henikoff,S.和J.G.Henikof(1992):“蛋白质块的氨基酸替代矩阵”,Proc。国家。美国科学院。美国,8910915-10919。;
[9] Henikoff,J.G.和S.Henikof(1996):“使用替代概率改进位置特定的评分矩阵”,计算。申请。生物科学。,12, 135-143.;
[10] Holder,M.和P.O.Lewis(2003):“系统发育评估:传统和贝叶斯方法”,《自然评论遗传学》。,4, 275-284.;
[11] Huelsenbeck,J.P.和F.Ronquist(2001):“MRBAYES:系统发育树的贝叶斯推断”,生物信息学,17754-755。;
[12] Huelsenbeck,J.P.,B.Larget,R.E.Miller和F.Ronquist(2002):“贝叶斯进化推理的潜在应用和陷阱”,系统。生物学,51,673-688。;
[13] Lin,M.,R.Chen和J.S.Liu(2013):“序贯蒙特卡罗的前瞻策略”,《统计科学》。,28, 69-94.; ·Zbl 1332.62144号
[14] Liu,J.S.(1994):“坍塌吉布斯采样器及其在基因调控问题中的应用”,美国统计协会,89,958-966·Zbl 0804.62033号
[15] Liu,J.S.(2008),《科学计算中的蒙特卡罗策略》,《统计学中的斯普林格系列》,斯普林格-弗拉格出版社:纽约·兹比尔1132.65003
[16] Liu,J.S.,W.H.Wong和A.Kong(1994):“吉布斯采样器的协方差结构及其在估计器和增强方案比较中的应用”,《生物统计学》,81,27-40·Zbl 0811.62080号
[17] Marchler-Bauer,A.,A.R.Panchenko,B.A.Shoemaker,P.A.Thiessen,L.Y.Geer和S.H.Bryant(2002):“CDD:一个与结构域三维结构相关的保守结构域比对数据库,”核酸研究,30228-283。;
[18] Marchler-Bauer,A.,S.Lu,J.B.Anderson,F.Chitsaz,M.K.Derbyshire,C.DeWeese-Scott,J.H.Fong,L.Y.Geer,R.C.Geer,N.R.Gonzales,M.Gwadz,D.I.Hurwitz,J.D.Jackson,Z.Ke,C.J.Lanczycki,F.Lu。Zheng和S.H.Bryant(2011):“CDD:蛋白质功能注释的保守域数据库”,《核酸研究》,39,D225-D229。;
[19] Neuwald,A.F.(2006年):“分子机制的贝叶斯阴影投射在进化论中”,《生物化学科学趋势》,第31期,第374-382页。;
[20] Neuwald,A.F.(2009):“多达一百万或更多相关蛋白质序列的快速检测、分类和精确比对”,《生物信息学》,第25期,1869-1875页。;
[21] Neuwald,A.F.(2011):“调查整个蛋白质类别的多样性差异,寻找潜在生化机制的统计线索”,《遗传学和分子生物学的统计应用》,第10、36页·Zbl 1296.92190号
[22] Neuwald,A.F.(2014a):“用于优化蛋白质结构域层次结构的贝叶斯采样器”,J.Compute。生物学,21,269-286。;
[23] Neuwald,A.F.(2014b):“评估、比较和解释蛋白质结构域层次”,《计算杂志》。生物学,21,287-302。;
[24] Neuwald,A.F.和J.S.Liu(2004年):“通过蒙特卡罗优化隐藏马尔可夫模型实现蛋白质序列基序的间隙对齐”,BMC生物信息学,第5期,第157页。;
[25] Nguyen,V.A.、J.Boyd-Graber和S.F.Altschul(2013):“Dirichlet混合物、Dirichle过程和蛋白质空间结构”,J.Compute。生物学,20,1-18。;
[26] Suchard,M.A.和B.D.Redelings(2006):“BAli-Phy:排列和系统发育的同步贝叶斯推断”,生物信息学,222047-2048。;
[27] Walker,S.G.(2009):“可逆跳跃MCMC的吉布斯取样替代方案”,技术报告arXiv:0902.4117。;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。