1.简介
分子替换(MR;罗斯曼,2001
)与实验相位技术相比,它具有优势,因为它只需要一组从天然蛋白质晶体获得的反射数据,而天然蛋白质晶体的资源密集度远低于用替代蛋白质晶体进行的多波长实验。
由于结构生物学的进步,越来越多的结构可以通过蛋白质数据库(PDB;Berman等。, 2000
). 随着已知蛋白质结构数量的迅速增长,主要兴趣从研究单个结构转移到研究蛋白质复合物,这对于我们理解蛋白质在代谢、细胞周期或凋亡等生物机制中的相互作用至关重要。MR是解决蛋白质复合物结构的首选方法,因为单个蛋白质的结构通常是已知的。因此,MR测定的蛋白质结构数量每年都在增加,因此对该方法的任何改进都可以节省大量的时间和资源。
Hoppe(1957)开创的MR相位算法
)和Rossmann&Blow(1962年
)需要识别结构模型在不对称单元一种新的水晶。目前,一些用于解决此问题的自动计算算法在流行程序中可用,例如相位器(斯托罗尼等。, 2004
),AMoRe公司(纳瓦扎,2001年
),X-脉冲/中枢神经系统(布伦格尔等。, 1998
),MOLREP公司(Vagin&Teplyakov,2000年
),EPMR公司(基辛格等。, 1999
)和黑桃皇后(Glykos&Kokkindis,2000年
). 这些MR方法的成功与否关键取决于所用模型的质量,不同的模型制备方法仍在探索中。MR是用只覆盖分子的一小部分(<30%)的模型完成的(Bernstein等。, 1997
),但经验表明,为了使该过程成功,需要分子的很大一部分(>60%),并且模型和分子的坐标之间的差异必须很小[通常具有C的平方根距离α原子(CαRMSD)低于2.5º]。MR最佳搜索模型的要求仍在探索中。一些关于搜索模型的有趣想法已经在个别案例或小组结构上提出或测试(Kleywegt,1998)
). 这些想法包括使用复合搜索模型去除或减少残留物或具有高温因子的区域,省略序列保守性低的区域(Chen,2001
)以及基于次优路线建立替代模型(Jones,2001
). 最近,我们中心对几个疑难MR问题的分析表明,对齐精度和侧链建模对MR成功率有显著影响(Schwarzenbacher等。, 2004
). 模型准备的一些方法已在CHAINSAW公司该程序由Norman Stein编写,包含在中央对手方清算所4套(协作计算项目,第4期,1994年
).CHAINSAW公司为MR准备修剪(混合)搜索模型的不同变体。
蛋白质结构预测的最有效方法是建立感兴趣的蛋白质和已经表征的蛋白质之间的同源性。然而,标准序列比较方法在“曙光区”迅速失去敏感性,在那里感兴趣的蛋白质和最接近的已知结构(Holm等。, 1992
). 利用进化信息可以提高折叠识别的灵敏度,进化信息可以从大家族蛋白质序列中提取。不是比较两个序列,而是将一个蛋白质序列与由序列配置文件表示的整个蛋白质家族的序列进行比较,如PSI-爆炸(阿尔特舒尔等。, 1997
)或通过隐马尔可夫模型(HMM;Eddy,1998
). 此策略的下一个逻辑步骤是比较中介绍的两个序列配置文件金融流量账户(莱奇勒夫斯基等。, 2000
)或中实现的两个隐马尔可夫模型HHSEARCH公司(草皮,2005年
).
层序剖面的应用对一组已知构造的褶皱预测数量有重大影响。测试同源预测方法的一种广为接受的方法是将其应用于已知结构的代表集合,并计算对应于不同错误水平的不同得分阈值的正确预测和假阳性数。使用此程序,我们使用三种不同的方法重新评估了远程同源检测的灵敏度。我们使用了ASTRAL公司资源(Chandonia等。, 2004
)基于SCOP数据库(Murzin等。, 1995
)以构建5868个彼此序列同一性小于25%的蛋白质结构域结构的基准集合。通过以下方式获得的预测爆炸,PSI-爆炸和金融流量账户对于这个基准,清楚地说明了使用序列图谱检测远距离同源物的优势(见图1
). 在5%误差水平下,剖面-序列比较法PSI-爆炸(阿尔特舒尔等。, 1997
)给出的正确预测几乎是序列比较算法的两倍爆炸(阿尔特舒尔等。, 1990
). 剖面-剖面比较方法金融流量账户灵敏度再提高20%。
| 图1 正确和错误结构预测的百分比爆炸, PSI-爆炸和金融流量账户用于基于SCOP数据库的序列一致性小于25%的同源蛋白对的代表性基准集。5%的假阳性,爆炸正确检测35%的此类对PSI-爆炸找到60%,而金融流量账户可以预测高达72%。 |
其他基于序列轮廓或使用进化信息的类似方法的高级折叠识别方法包括3种D-PSSM公司(凯利等。, 2000
),FUGUE公司(史等。, 2001
),BIOINBGU公司(费舍尔,2000年
),前景(徐和徐,2000
)和SAMT公司98(卡尔普斯等。, 1998
). 这些方法比序列比对方法更敏感,例如爆炸通常比剖面-序列比对方法更敏感,例如PSI-爆炸.
除了模型的准确性之外,对于更困难的MR问题,成功与否可能关键取决于定相算法的某些设置,例如应用于晶体学数据的低分辨率和高分辨率限制。MR相位算法对分辨率极限和截止值的强烈依赖性尤其明显,因为它们不是基于最大似然原则。很难提出任何有用的经验法则来选择最佳的低分辨率和高分辨率截止值,正如MR程序的作者所建议的那样,测试这些截止值的几种组合是有益的。通常,在困难的MR病例中,使用不同的模型和输入参数手动执行多阶段试验,这对测试组合的数量造成了实际限制。
我们证明,通过在并行化和自动化的MR管道中使用基于轮廓-轮廓折叠识别和穷举MR搜索的几种专门设计的蛋白质模型,可以扩展MR方法的局限性(Schwarzenbacher等。, 2004
)建造于结构基因组学联合中心(莱斯利等。, 2002
).
至少还有三个其他小组也参与了先进和公开可用的MR管道的开发,包括CaspR公司(克劳德等。, 2004
),BUMP先生(基根和温恩,2008年
)和棒球(长等。, 2008
). 此外,还进行了一些有趣的尝试,以超越“刚性搜索模型”,并使用正态模式分析生成搜索模型(Suhre&Sanejouand,2004)
; Jeong(郑)等。2006
).
在本文中,我们简要介绍了JCSG MR流水线,讨论了使用敏感折叠识别算法的优点,并展示了将参数空间筛选应用于MR搜索的好处。我们还对流水线结果的统计数据进行了更新,并进一步探索了生成MR替代模型的方法。
2.方法和结果
2.3. 搜索模型的组合裁剪
对于穷举参数空间筛选与基于不同模板的多个模型相结合的应用无法产生解决方案的困难情况,可以通过使用可能不可靠区域的不同修剪组合的模型来增加管道中使用的模型的可变性。
人们普遍认为,MR相位的最佳模型应包含所有能够准确预测的原子,并且不应包含任何具有高坐标误差的原子。模型的不可靠区域通常包括模型和模板之间序列相似性低的循环、间隙和片段。此类区域更有可能包含重大错误。因此,通过从模型中删除这些区域,可以显著提高其整体精度,但也可以删除一些准确预测的区域,因为在求解结构之前,不准确区域的准确位置是未知的。MR模型所需的精度水平也不明显,并且可能因不同的数据集而异。这个问题的强力解决方案是使用并行化MR管道的能力,并测试模型的所有可能微调组合。该程序允许对NADH脱氢酶亚基C的结构进行MR分期fusca热裂菌(GenBank登录代码YP_290749)。根据金融流量账户,与该蛋白同源的唯一结构是来自嗜热菌(PDB代码2英尺).金融流量账户YP_290749序列的66%与2英尺得分为−79,序列一致性为27%。目标序列的残基213-249与2英尺亚单位5,从球状结构域延伸并与复合体中的另一亚单位结合。然而,由于目前的晶体只包含孤立的结构域,我们预计这个特定区域可能具有不同的构象,并将其从模型中删除。这导致序列一致性下降到22%,模型的序列覆盖率下降到50%(见图4
一). 自从不对称单元属于2英尺包含四个稍有不同的亚单位5拷贝(链5、E、N、W),每个拷贝用于构建目标模型。基于序列比对提出了模型裁剪,其中识别了模型的六个潜在不可靠区域。我们在每个区域中应用了多达四种替代装饰(见图4
一). 通过应用这些修剪的所有组合,我们从亚单位5的每个副本中生产了540个修剪模型,总共生产了2160个模型。所有搜索模型都提交给MR管道。MR搜索在一个50 CPU的Linux集群上大约5小时内完成。由于时间限制,未使用参数空间筛选,默认情况下获得MR解决方案MOLREP公司参数直接进入30个循环约束细化在里面REFMAC公司5
| 图4 (一)基于PDB结构的目标YP_290749.1建模对准2英尺。线形可靠性较低的区域标记在线形和模型上。下表显示了这些区域中应用的装饰。(b条)最终R(右)自由的值来自约束细化在管道中测试的修剪模型获得。2000年的所有结果都是根据最终结果进行排名的R(右)自由的.已排序R(右)自由的1000个最佳排名模型的值以图表形式显示。 |
有趣的是,只有一小部分经过修剪的模型成功地实现了阶段化,这表现为显著降低R(右)自由的值来自REFMAC公司5(见图4
b条).
3.讨论
JCSG MR流水线通过使用精确的建模方法、大量替代模型以及将参数空间筛选应用于相位算法,提高了MR的成功率。我们观察到,当靶点和模板的序列一致性超过35%时,MR相对简单。根据我们的结果,我们倾向于接受35%作为直接MR的极限,因为这个范围内的几乎所有情况都可以使用标准方法解决。
当序列一致性下降到35%以下时,这种情况会发生变化:标准比对方法开始变得不准确,Cα相关蛋白质结构之间的RMSD值显著增加(Chothia&Lesk,1986
). 尽管成对蛋白质结构的序列同一性与其CαRMSD值得到了很好的确定,这种关系的特征在蛋白质家族之间有很大的差异,当计算和分析大家族的结构比对时,这种关系变得明显(Reeves等。, 2006
). 因此,可以预计,对于不同的蛋白质家族,精确同源建模的极限(这也是可行MR的极限)可能不同。在某些情况下,可以根据从感兴趣的蛋白质家族的已知结构中观察到的结构变异性来估计MR定相成功的可能性。如果一个家族的已知结构在蛋白核心上只显示出微小的差异,那么这个家族的未知结构也可能有一个非常保守的核心。这种蛋白质家族的成员可能适合MR,即使与最接近的已知结构的序列同源性很低。因此,作为实验设计的一部分,可以使用敏感的折叠识别方法(如金融流量账户服务器(Jaroszewski等。, 2005
; 可在获取https://ffas.burnham.org). 然后,如果发现同源结构,可以使用多重结构比对方法评估它们之间的结构相似性,例如邮政总局(Ye&Godzik,2005)
; 可在获取https://fatcat.burnham.org/POSA网站). 这个邮政总局服务器提供了提交结构之间结构相似性的定量测量以及图形界面,我们发现这对确定家族中保守结构核心的程度非常有帮助。目前,基于此类分析很难提供MR适用性的一般定量限值,但在许多情况下,可以判断MR定相是否值得考虑。
低于35%的序列识别模型基于爆炸比对的成功率较低,因为在大多数情况下,比对比PSI-爆炸和金融流量账户此外,在两种情况下(目标17134165和TM0603)爆炸根本无法检测到同源结构,而使用金融流量账户导致MR阶段化成功。这一观察结果表明,一些困难的MR问题可以通过使用公开可用的折叠识别服务器来解决。
由于计算成本高,组合模型修剪方法仅适用于少数未解决的MR问题。使用这种方法对NADH脱氢酶亚基C进行定相的例子很有趣,因为R(右)自由的修剪模型的值有一个非常窄的最小值。根据一个例子不可能得出一般性结论,但这一观察结果表明,MR和精炼对搜索模型中正确预测和错误预测的原子的比率非常敏感。这意味着组合修剪可以在某些模型中最大化该比率,它可以为基于一个最优对齐的模型无法解决的问题提供解决方案。需要注意的是,组合修剪方法目前仅部分自动化,需要人工干预。例如,根据对路线的目视检查,提出了要修剪的模型区域。原则上,人们可以通过使用已知的评估模型局部准确性的方法来想象这样一个过程的完全自动化。该方法需要在更多示例上进行测试,然后才能完全自动化。
47个数据集的结果仍然不允许对MR的可行性进行彻底的统计分析,这取决于数据和模型的太多特征。然而,我们可以粗略估计,对于具有金融流量账户得分高于(低于)-15,序列一致性在15-35%之间,模型至少覆盖序列的三分之二。
我们测试的主要结论是,基于敏感折叠识别算法比对的搜索模型,结合最新的MR定相技术和参数空间筛选,确实提高了MR定相的成功率。这种改进对于解决蛋白质复合物至关重要,并可能节省大量时间和资源,特别是对于结构基因组学项目。
需要注意的是,上述过程对CPU的要求很高,在大多数情况下,如果没有计算机集群,这些过程是不切实际的。在JCSG,我们使用Linux集群的25–50个CPU进行大多数计算。大多数搜索仍需数小时才能完成。
这个金融流量账户程序可以作为web服务器在https://ffas.burnham.org并链接到建模服务器,该服务器可以基于金融流量账户路线。作者正在准备JCSG MR管道脚本的分发版本,并将根据要求提供给学术界。
鸣谢
由于整个JCSG团队的努力,本出版物中呈现的结果是可能的。作者特别感谢JCSG的同事结构确定斯坦福同步辐射实验室(Stanford Synchrotron Radiation Laboratory)的核心,他获得了这项工作中使用的所有数据集,并帮助他们掌握了晶体学专业知识。JCSG由美国国家普通医学科学研究所(National Institute of General Medical Sciences)的NIH蛋白质结构倡议(NIH Protein Structure Initiative)资助U54 GM074898(网址:https://www.nigmas.nih.gov). RS由欧盟拨款MEXT-CT-2006-033534支持。
工具书类
Altschul,S.F.、Gish,W.、Miller,W.、Myers,E.W.和Lipman,D.J.(1990年)。分子生物学杂志。 215, 403–410. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Altschul,S.F.,Madden,T.L.,Schaffer,A.A.,Zhang,J.,Z.,Miller,W.&Lipman,D.J.(1997)。核酸研究。 25, 3389–3402. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000)。核酸研究。 28, 235–242. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Bernstein,B.E.,Michels,P.A.&Hol,W.G.(1997)。自然(伦敦),385, 275–278. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Brünger,A.T.,Adams,P.D.,Clore,G.M.,DeLano,W.L.,Gros,P.,Grosse-Kunstleve,R.W.,Jiang,J.-S.,Kuszewski,J.,Nilges,M.,Pannu,N.S.,Read,R.J.,Rice,L.M.,Simonson,T.&Warren,G.L.(1998)。《水晶学报》。D类54, 905–921. 科学网 交叉参考 IUCr日记账 谷歌学者
Chandonia,J.M.,Hon,G.,Walker,N.S.,Lo Conte,L.,Koehl,P.,Levitt,M.&Brenner,S.E.(2004年)。核酸研究。 32,D189–D192科学网 交叉参考 公共医学 中国科学院 谷歌学者
陈永伟(2001)。《水晶学报》。D类57, 1457–1461. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Chothia,C.&Lesk,A.M.(1986年)。EMBO J。 4, 823–826. 谷歌学者
Claude,J.B.、Suhre,K.、Notredame,C.、Claverie,J.M.和Abergel,C.(2004)。核酸研究。 32,W606–W609科学网 交叉参考 公共医学 中国科学院 谷歌学者
协作计算项目,第4期(1994年)。《水晶学报》。D类50, 760–763. 交叉参考 IUCr日记账 谷歌学者
Eddy,S.R.(1998)。生物信息学,14, 755–763. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Fischer,D.(2000)。派克靴。交响乐团。生物计算机。 5, 119–130. 谷歌学者
Glykos,N.M.和Kokkindis,M.(2000年)。《水晶学报》。D类56, 169–174. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Holm,L.、Ouzounis,C.、Sander,C.、Tuparev,G.和Vriend,G.(1992年)。蛋白质科学。 12, 1691–1698. 交叉参考 谷歌学者
Hoppe,W.(1957)。《水晶学报》。 10, 750–751. 谷歌学者
Jaroszewski,L.、Rychlewski,L.,Li,Z.、Li,W.和Godzik,A.(2005)。核酸研究。 33,W284–W288科学网 交叉参考 公共医学 中国科学院 谷歌学者
Jeong,J.I.、Lattman,E.E.和Chirikjian,G.S.(2006年)。《水晶学报》。D类62, 398–409. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Jones,D.T.(2001年)。《水晶学报》。D类57, 1428–1434. 交叉参考 中国科学院 IUCr日记账 谷歌学者
Karplus,K.、Barrett,C.和Hughey,R.(1998)。生物信息学,14, 846–856. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Keegan,R.M.和Winn,M.D.(2008年)。《水晶学报》。D类64, 119–124. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Kelley,L.A.、MacCallum,R.M.和Sternberg,M.J.E.(2000)。分子生物学杂志。 299, 501–522. 交叉参考 谷歌学者
Kissinger,C.R.、Gehlhaar,D.K.和Fogel,D.B.(1999)。《水晶学报》。D类55, 484–491. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Kleywegt,G.J.(1998)。来自乌普萨拉软件工厂的消息。 https://xray.bmc.uu.se/usf/factory_6.html 谷歌学者
莱斯利,S.A。等。(2002).程序。美国国家科学院。科学。美国,99, 11664–11669. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Liu,Z.-J.,Lin,D.,Tempel,W.,Praissman,J.L.,Rose,J.P.&Wang,B.-C.(2005)。《水晶学报》。D类61, 520–527. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Long,F.、Vagin,A.A.、Young,P.和Murshudov,G.N.(2008年)。《水晶学报》。D类64, 125–132. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Murshudov,G.N.、Vagin,A.A.和Dodson,E.J.(1997)。《水晶学报》。D类53, 240–255. 交叉参考 中国科学院 科学网 IUCr日记账 谷歌学者
Murzin,A.G.、Brenner,S.E.、Hubbard,T.和Chothia,C.(1995年)。分子生物学杂志。 247, 536–540. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Navaza,J.(2001)。《水晶学报》。D类57, 1367–1372. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Reeves,G.A.、Dallman,T.J.、Redfern,O.C.、Akpor,A.和Orengo,C.A.(2006)。分子生物学杂志。 360, 725–741. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Rossmann,M.G.(2001)。《水晶学报》。D类57, 1360–1366. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Rossmann,M.G.和Blow,D.M.(1962)。《水晶学报》。 15, 24–31. 交叉参考 中国科学院 IUCr日记账 科学网 谷歌学者
Rychlewski,L.、Jaroszewski,L.,Li,W.和Godzik,A.(2000)。蛋白质科学。 9, 232–241. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Shi,J.、Blundell,T.L.和Mizuguchi,K.(2001)。分子生物学杂志。 310, 243–257. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004)。《水晶学报》。D类60, 1229–1236. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Soding,J.(2005)。生物信息学,21, 951–960. 科学网 交叉参考 公共医学 谷歌学者
Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004)。《水晶学报》。D类60, 432–438. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Suhre,K.和Sanejouand,Y.-H(2004年)。《水晶学报》。D类60, 796–799. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Vagin,A.和Teplyakov,A.(2000年)。《水晶学报》。D类56, 1622–1624. 科学网 交叉参考 中国科学院 IUCr日记账 谷歌学者
Vogt,G.、Etzold,T.和Argos,P.(1995)。分子生物学杂志。 249, 816–831. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Vriend,G.J.(1990年)。J.摩尔图。 8, 52–56. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Xu,Y.和Xu,D.(2000)。蛋白质,40, 343–354. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Ye,Y.和Godzik,A.(2005)。生物信息学,21, 2362–2369. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
©国际结晶学联合会。如果引用了原文作者和来源,则无需事先获得许可即可复制本文中的简短引文、表格和数字。有关详细信息,请单击在这里.
![期刊徽标](//journals.iucr.org/logos/jicons/d_96x112.png) | 生物 结晶学 |
国际标准编号:1399-0047