研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
编号:2059-7983

由单个遥远同源物的晶体结构生成的集成解决了具有挑战性的充足的

十字标记_颜色_方形_文本.svg

英国利物浦大学综合生物学研究所,利物浦皇冠街L69 7ZB,b条英国沃灵顿WA4 4AD达累斯伯里实验室科学技术设施委员会,c(c)德国康斯坦茨大学Fachbereich Biologie,邮编78457d日英国Didcot OX11 0FA,STFC Rutherford Appleton实验室Harwell研究中心
*通信电子邮件:drigden@liverpool.ac.uk

(2017年10月11日收到; 2018年2月7日接受; 2018年3月2日在线)

分子替换(MR)是解决相位问题在大分子晶体学中。虽然在许多情况下是常规的,但当可用的实验结构(通常用作搜索模型)与目标仅在远处同源时,这就变得更加容易,而且往往是不可能的。然而,使用当前功能强大的MR软件,目标和已知结构之间共享的相对较小的核心结构(例如,占整个结构的20-40%)可以成功地作为搜索模型进行隔离。很少尝试人工雕刻这种小结构核心,这取决于晶体学家的专业知识和对所讨论蛋白质家族的理解。自动搜索模型编辑以前是在序列对齐的基础上执行的,以便消除,例如,目标中不存在的侧链或环,或基于结构特征(例如溶剂可及性)或结晶参数(例如 B类因素)。这里,基于最近证明进化保守性和蛋白质刚性/包装之间相关性的工作,提出了一种新的自动方法,用于从给定的远距离同源物在一系列大小上推导编辑的搜索模型。可以向MR管道提供各种基于结构的度量,其中许多很容易从在线Web服务器获得充足的用一组测试用例生成成功的搜索模型,在这些测试用例中,熟练地手动编辑比较器,并用不同的方法进一步处理BUMP先生,失败。当采用基于结构的距离几何方法时,会进一步显著提高性能CONCOORD公司用于从遥远的同系物生成系综。据我们所知,这是第一种这样的方法,为了MR的目的,将单个结构有意义地转换为集成。其他案例进一步证明了该方法的优点。CONCOORD公司免费提供且计算成本低廉,因此这些新方法为解决疑难MR病例提供了现成的新途径。

1.简介

分子替换(MR)仍然是解决相位问题在高分子晶体中。它要求将搜索模型放置在非对称单元以这种方式提供有用的相位信息,并允许计算初始电子密度图(Rossmann&Blow,1962【Rossmann,M.G.和Blow,D.M.(1962),《水晶学报》,第15期,第24-31页。】). 搜索模型仍然主要是从实验结构中获得的,这些实验结构与目标具有可识别的同源性,因此可能与目标具有某种程度的结构相似性。通常对特征化的同源物进行一定程度的处理以去除(部分)序列比较显示不同的侧链或表面环,或可能在目标中采用不同构象的侧链和表面环。非传统MR使用不同类型的搜索模型,包括理想的二级结构元素或其他规则基序(Rodríguez等。, 2012【罗德里格斯·D、桑米托·M、迈恩德·K、德伊拉杜亚·I·M、波特拉茨·M、谢尔德里克·G·M和乌森·I(2012),《水晶学报》,D68,336-343。】)、循环三级填料布置(Sammito等。,2013年【Sammito,M.、Milán,C.、Rodríguez,D.D.、de Ilarduya,I.M.、Meindl,K.、de Marino,I.、Petrillo,G.、Buey,R.M.、de Pereda,J.M.、Zeth,K.,Sheldrick,G.M.和Usón,I.(2013)。《自然方法》,第10期,第1099-1101页。】),从头算结构预测(Bibby等。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】; 基冈等。, 2015【Keegan,R.M.、Bibby,J.、Thomas,J.,Xu,D.、Zhang,Y.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2015),《结晶学报》第71期,第338-343页。】; 辛科维奇等。, 2016[Simkovic,F.,Thomas,J.M.H.,Keegan,R.M.,Winn,M.D.,Mayans,O.&Rigden,D.J.(2016),国际癌症研究联合会,3,259-270。])甚至对于非常高分辨率的情况,单原子(麦考伊等。, 2017【McCoy,A.J.,Oeffner,R.D.,Wrobel,A.G.,Ojala,J.R.,Tryggvason,K.,Lohkamp,B.&Read,R.J.(2017),美国国家科学院院刊,114,3637-3641.】).

随着实验结构与未知目标之间结构差异的增加,使用实验结构的传统MR变得越来越困难(https://www.phenix-online.org/documentation/reference/mr_overview.html; 阿贝格尔,2013年【Abergel,C.(2013),《水晶学报》,D69,2167-2173。】). 这种结构差异通常遵循序列差异,因此随着进化时间的推移和伴随的突变积累而增加。因此,如果靶基因与具有结构特征的亲缘基因只有遥远的同源性,那么这种情况将非常具有挑战性,并且针对这种情况的新方法有可能显著扩展MR的范围和易用性。

最好地利用MR的远距离同源物可以被视为最好地识别它们与目标物之间共享的结构,同时消除只会阻碍结构解算的结构分歧较大的部分。Schwarzenbacher及其同事表明,基于序列比对,仔细准备用于MR的远程同源物对成功放置搜索模型(Schwarzennacher等。, 2004【Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004),《结晶学报》,第60期,第1229-1236页。】). 已经开发了几个应用程序(Stein,2008[Stein,N.(2008),《应用结晶杂志》,第41期,第641-643页。]; Bunkóczi&Read,2011年【Bunkóczi,G.&Read,R.J.(2011),《水晶学报》,D67,303-312。】; 列别杰夫等。, 2008[Lebedev,A.A.、Vagin,A.和Murshudov,G.N.(2008),《水晶学报》,D64,33-39。])通过(作为输入或创建)目标和同源物之间的序列比对来执行此任务,并使用此信息截断同源物的相应原子坐标以生成MR搜索模型。这些应用程序的主要目标是确定同源物和目标物之间的保守,并消除差异。一旦MR在晶胞目标和实验数据。使用高级对齐方法,例如PSI-爆炸(阿尔特舒尔等。, 1997【Altschul,S.F.,Madden,T.L.,Schäffer,A.A.,Zhang,J.,Zhang-,Miller,W.&Lipman,D.J.(1997).核酸研究25,3389-3402.】; Schäffer公司等。, 2001【Schäffer,A.A.、Aravind,L.、Madden,T.L.、Shavirin,S.、Spouge,J.L.,Wolf,Y.I.、Koonin,E.V.和Altschul,S.F.(2001)。核酸研究29,2994-2005。】)和金融流量账户(Jaroszewski)等。, 2005【Jaroszewski,L.、Rychlewski,L.,Li,Z.、Li,W.和Godzik,A.(2005)。核酸研究33,W284-W288。】)除了截断表面可触及的侧链和其他具有高精度的侧链外,还要确保对齐的准确性B类研究发现,在同源序列同源性低于35%的情况下,因子对成功至关重要(Bunkóczi&Read,2011【Bunkóczi,G.&Read,R.J.(2011),《水晶学报》,D67,303-312。】). 由于没有单一的策略适用于所有情况,因此有几个自动管道,例如BUMP先生(Keegan&Winn,2007年[Keegan,R.M.和Winn,M.D.(2007),《水晶学报》,D63,447-457.], 2008[Keegan,R.M.和Winn,M.D.(2008),《水晶学报》,D64,119-124。]; 基冈等。, 2011【Keegan,R.M.,Long,F.,Fazio,V.J.,Winn,M.D.,Murshudov,G.N.&Vagin,A.A.(2011),《结晶学报》,D67,313-323。】),棒球(基冈等。, 2011【Keegan,R.M.,Long,F.,Fazio,V.J.,Winn,M.D.,Murshudov,G.N.&Vagin,A.A.(2011),《结晶学报》,D67,313-323。】; 等。, 2008【Long,F.,Vagin,A.A.,Young,P.&Murshudov,G.N.(2008),《结晶学报》D64,125-132。】),MR年龄(本科奇等。,2013年[Bunkóczi,G.,Echols,N.,McCoy,A.J.,Oeffner,R.D.,Adams,P.D.&Read,R.J.(2013),《结晶学报》,D69,2276-2286。])以及最近MoRDa公司(Vagin&Lebedev,2015年【Vagin,A.和Lebedev,A.(2015),《水晶学报》A71,s19。】),已开发。他们将根据一系列协议找到并准备许多搜索模型,然后在MR中试用它们。

其他发展,如雕刻_镶嵌菲尼克斯(亚当斯等。, 2010【Adams,P.D.等人(2010),《水晶学报》,D66,213-221。】)将截断几个同系物和对齐它们的过程结合起来,生成一个集合搜索模型。集成或复合搜索模型可以在最大似然使用的评分方法相位器(麦考伊,2004年【McCoy,A.J.(2004),《晶体学报》,D60,2169-2183。】). 这里,组成集合的对齐搜索模型中的方差可以指导实验数据的加权,也有助于填充函数(McCoy等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】). 正如使用充足的(比比等。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】,2013年【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2013年),《水晶学报》第D69期,第2194-2201页。】; 基冈等。, 2015【Keegan,R.M.、Bibby,J.、Thomas,J.,Xu,D.、Zhang,Y.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2015),《结晶学报》第71期,第338-343页。】)在不同的结构方差阈值下对集合搜索模型进行截断,有助于获得代表对齐搜索模型核心区域的集合,这些集合可能在结构上与目标中的对应区域相匹配。在一种可比较的方法中,ARCIMBOLDO_螺纹(桑米托等。, 2014【Sammito,M.,Meindl,K.,de Ilarduya,I.M.,Millán,C.,Artola-Recolons,C.,Hermoso,J.A.&Usón,I.(2014年)。联邦公报281,4029-4045。】)通过省略残基集系统地获得的“碎片”的旋转函数评分,确定要使用或丢弃的远同源结构的区域。

这个最大似然得分(斯托罗尼等。, 2004【Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004),《结晶学报》,D60,432-438。】; 麦考伊等。, 2005【McCoy,A.J.,Grosse-Kunstleve,R.W.,Storoni,L.C.&Read,R.J.(2005),《结晶学报》D61,458-464.】; Read&McCoy,2016年[Read,R.J.&McCoy,A.J.(2016),《水晶学报》第72期,第375-387页。])在中使用相位器(麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】)与以前现有的MR程序相比,允许对搜索模型和目标结构之间的差异有更大的容忍度。该方法解释了由于搜索模型的不精确性和实验强度的测量导致的结构因子计算值的错误,有助于更好地确定搜索模型的正确位置。最近对的改进相位器(欧夫纳等。,2013年【Oeffner,R.D.,Bunkóczi,G.,McCoy,A.J.&Read,R.J.(2013),《水晶学报》,D69,2209-2215。】)例如,使用方差-r.m.s.计算来更好地估计搜索模型和目标之间的r.m.s.d.,这进一步提高了将远距离同源物用作搜索模型时其成功的可能性。成功放置与目标在结构构象上明显不同的搜索模型可能会给精细化。 罗塞塔先生(特威利格等。, 2012【Terwilliger,T.C.,DiMaio,F.,Read,R.J.,Baker,D.,Bunkóczi,G.,Adams,P.D.,Grosse-Kunstleve,R.W.,Afonine,P.V.&Echols,N.(2012),《结构功能基因组学杂志》,13,81-90。】)可以通过使用从头算建模功能罗塞塔(矮子等。, 1998[肖特·D、西蒙斯·K·T和贝克·D(1998)。美国国家科学院院刊,95,11158-11162。]; Leaver-Fay公司等。, 2011【Leaver-Fay,A.等人(2011),《酶学方法》487,545-574。】)与菲尼克斯汽车(特威利格等。, 2008[Tewilliger,T.C.,Grosse Kunstleve,R.W.,Afonine,P.V.,Moriarty,N.W.,Zwart,P.H.,Hung,L.-W,Read,R.J.&Adams,P.D.(2008)。晶体学报D64,61-69.])重建由定位的搜索模型相位器.

当同系物的几个实验结构可用时,保守结构核心的鉴定就更简单了。在这种情况下,可以使用诸如GESAMT公司(克里斯内尔,2012年【Krissinel,E.(2012),《分子生物化学杂志》,第1期,第76-85页。】). 然后可以直接识别和删除被认为是发散的区域。对的扩展中央对手方清算所4毫克(麦克尼古拉斯等。, 2011[McNicholas,S.,Potterton,E.,Wilson,K.S.和Noble,M.E.M.(2011)。晶体学报,D67386-394。])可视化叠加,并使用滑块确定要删除的发散结构的大小在别处描述(基冈等。, 2018【Keegan,R.M.,McNicholas,S.J.,Thomas,J.M.H.,Simpkin,A.J.,Simkovic,F.,Uski,V.,Ballard,C.C,Winn,M.D.,Wilson,K.S.&Rigden,D.J.(2018),《结晶学报》第74期,第167-182页。】). 同一篇论文还描述了如何BUMP先生现在可以进行分级充足的-用户提供的结构的叠加样式截断。这允许用户轻松试用从一组不同大小的远距离同源物中派生的集合搜索模型。预测目标和单个远程同源结构之间的共享结构更具挑战性。目前,这可能需要构建包含同源序列和其他可用序列的序列比对,然后将该保守性映射到已知结构以指导其编辑。然而,这假设有大量有用的序列信息可用,但情况并非总是如此,而且将是劳动密集型的:准备任何超过少数搜索模型的东西都会考验最坚定的晶体学家的耐心。

在这项工作中,我们探索了将单个远距离同源物处理成搜索模型集的自动化方法,既可以作为单个修剪模型,也可以作为计算生成的集合。后者可以使用应用于同源结构的距离几何方法生成。这项工作在很大程度上受到了最近生物信息学研究的推动,该研究证明了进化保守性和蛋白质刚性(Shih等。, 2012【Shih,C.-H.,Chang,C.-M.,Lin,Y.-S.,Lo,W.-C.&Hwang,J.-K.(2012)。蛋白质,80,1647-1657。】; Yeh是的等。, 2014【Yeh,S.-W.,Liu,J.-W.、Yu,S.-H.、Shih,C.-H.、Hwang,J.-K.和Echave,J.(2014)。分子生物学进化。31,135-139。】). 紧密堆积的区域既更加刚性,又因为它们不太适应序列变化,所以在进化上更加保守。这为将包装或刚性作为进化保守性代理的度量方法的使用开辟了道路,这可能很耗时,也可能无法直接从序列比对和分析中进行计算。此类代理指标的计算可能与加权接触数或溶剂可及性一样简单。事实上,我们在基于这些指标编辑单个结构和解决非平凡案例方面取得了一些成功。然而,我们发现,基于初始结构中确定的几何约束构建反映固有灵活性的结构集成的方法要有效得多。这种方法,使用软件CONCOORD公司(德格罗等。, 1997【Groot,B.L.de,van Aalten,D.M.F.,Scheek,R.M.,Amadei,A.,Vriend,G.&Berendsen,H.J.C.(1997)。蛋白质,29,240-251。】)显示了在当前方法难以或不可能实现的远距离同源性情况下,MR有望促进和实现解决方案。

2.方法

2.1. 测试集选择

一组跨越组氨酸磷酸酶超家族分支1的7个远距离同源物(Rigden,2008[Rigden,D.J.(2008).生物化学杂志409,333-348.])用于探索以下新型MR方法。分支1成员的PDB代码是从Pfam(Finn等。, 2016【Finn,R.D.、Coggill,P.、Eberhardt,R.Y.、Eddy,S.R.、Mistry,J.、Mitchell,A.L.、Potter,S.C.、Punta,M.、Qureshi,M.,Sangrador-Vegas,A.、Salazar,G.A.、Tate,J.和Bateman,A.(2016)。核酸研究44,D279-D285。】; 条目PF00300),以及CD-HIT光盘(傅等。, 2012[Fu,L.,Niu,B.,Z.,Wu,S.&Li,W.(2012).生物信息学,28,3150-3152.])将其应用于它们的序列以获得最大多样性集合。随后,从超家族(PF00328)极度分歧的分支2中添加了两个结构。两两序列恒等式与Cαr.m.s.d.比较见补充表S1。目标的其他特征如表1所示[链接]以及与PDB条目目标的定量结构比较3c7吨使用制造GESAMT公司(克里斯内尔,2012年[Crissinel,E.(2012).J.Mol.Biochem.1,76-85.])和TM-对齐(Zhang&Skolnick,2005)【Zhang,Y.和Skolnick,J.(2005)。核酸研究33,2302-2309。】). 在与MAFFT公司使用L-INS-i型面向精度的算法(Katoh&Standley,2013【Katoh,K.和Standley,D.M.(2013),《分子生物学进化》,第30期,第772-780页。】). 测试集中蛋白质的结构是从含有41–63%溶剂的晶体中获得的,其衍射分辨率为1.3至2.45º。目标蛋白大小涵盖了从156个残基(PDB条目)到几乎三倍大小的范围10亿美元)至434个残留物(PDB入口1qwo个). 纳入了两个序列同源性约为50%的磷酸甘油酯突变酶,以评估自一个突变酶(PDB)进入后分辨率对成功的影响第1页59)以非常高的分辨率(1.3°)测定,而另一个(PDB条目第四季度)只有中等分辨率(2.45Ω)。从这组数据中,蜕皮激素磷酸酶(PDB条目)的结构3c7吨,259个残基;等。, 2008【Chen,Y.、Jakoncic,J.、Wang,J.,Zheng,X.、Carpino,N.和Nassar,N.(2008)。生物化学,47,12135-12145。】)被随机选择作为搜索模型的来源,用以尝试求解其远亲。

表1
蛋白质测试集的特征

His磷酸酶超家族的分支 PDB代码 晶体结构长度 分辨率(Ω) 溶剂含量(%) 姓名 GESAMT公司 3c7吨,-分数 TM-对齐与对齐3c7吨,TM-芯
1 3c7吨 259 1.8 49 家蚕蜕皮激素磷酸酶
1个ujb 156 2.1 44 大肠杆菌六个A 0.35 (139, 1.85, 20.9) 0.51 (151, 2.63, 21.2)
2个qni 194 1.8 63 未特征化蚕豆农杆菌蛋白质Atu02999 0.30 (148, 2.08, 13.5) 0.53(162、2.94、12.3)
第1页59 239 1.3 51 大肠杆菌磷酸甘油酸变位酶 0.30 (174, 2.37, 17.8) 0.60 (190, 3.51, 17.9)
第四季度 240 2.45 62 麻风分枝杆菌磷酸甘油酸变位酶 0.30 (173, 2.34, 18.5) 0.61 (190, 3.48, 17.4)
1个 202 2.3 54 嗜热脂肪芽孢杆菌PhoE手机 0.31 (156, 2.18, 21.2) 0.56 (168, 2.94, 21.4)
3dcy公司 269 1.75 41 人类TIGAR 0.24 (150, 2.20, 20.7) 0.54 (168, 3.44, 19.6)
2 1qwo个 434 1.5 48 烟曲霉植酸酶 0.10(153、3.05、14.4) 0.51 (176, 4.48, 11.9)
1dkm 410 2.25 53 大肠杆菌植酸酶 0.12 (151, 2.71, 17.2) 0.51 (177, 4.30, 14.7)
†括号中的值是匹配的长度、以Au表示的r.m.s.d.和匹配区域中的百分比序列恒等式。

2.2。搜索模型生成

在这项工作中,使用了三种类型的搜索模型,详见下文。第一个来源于CONCOORD公司(德格罗等。, 1997【Groot,B.L.de,van Aalten,D.M.F.,Scheek,R.M.,Amadei,A.,Vriend,G.和Berendsen,H.J.C.(1997)。蛋白质,29240-251。】)第二个是使用各种per-residue分数截断的单个结构,这些分数被视为潜在反映刚性,作为进化保守性或直接保守性的代表(另见补充表S2)。第三个是一组手动编辑的晶体结构衍生产品。

2.3.CONCOORD公司-生成的信号群

单个结构被转换为具有CONCOORD公司(德格罗等。, 1997【Groot,B.L.de,van Aalten,D.M.F.,Scheek,R.M.,Amadei,A.,Vriend,G.&Berendsen,H.J.C.(1997)。蛋白质,29,240-251。】)尝试解遥远的同源物。CONCOORD公司运行包括程序执行的两个步骤距离迪斯科舞厅分别是。第一个程序距离基于输入结构定义几何约束。这些约束首先包括已确定的共价和非共价相互作用,其次是相互作用原子之间可接受的距离间隔,这在以后生成的结构中是必需的:需要更强的相互作用才能满足更严格的分离标准。此步骤可以使用不同的范德华和键/角参数集。这里,默认的OPLS-UA(Jorgensen等。, 1996[Jorgensen,W.L.,Maxwell,D.S.和Tirado Rives,J.(1996)。美国化学会杂志,11811225-11236.])和CONCOORD公司使用了参数。它还需要免费提供决策支持计划软件(Kabsch&Sander,1983【Kabsch,W.和Sander,C.(1983)。生物聚合物,222577-2637。】)用于二级结构分配。这个距离步骤生成名为距离.dat分布式数据库以下步骤所需的。第二个程序,迪斯科舞厅,使用距离几何方法从几何约束集合中导出多个结构。对初始随机坐标进行修正,直到满足所有约束条件。放弃并重新启动未覆盖的运行。使用默认参数生成了500个输出结构。运行前CONCOORD公司,存在的任何硒代蛋氨酸残基必须还原为常规蛋氨酸,并消除替代构象。在以下情况下,只需要后者3c7吨。的命令行示例康科德将是

【方案一】

并会生成文件3c7tA_disco1.pdb3c7tA_迪斯科500.pdb.

使用处理500个结构的结果集充足的(比比等。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】)以与相同的方式从头算结构预测。简言之,基于从防喷器(Zhang&Skolnick,2004)【Zhang,Y.和Skolnick,J.(2004),《计算化学杂志》,第25期,第865-871页。】)因此,对于一个100个残基的蛋白质,将采用完整的结构集合,以及包含95、90、85…5个残基重叠的搜索模型。最初,只使用最大的聚类通过截断和三种不同的侧链处理来导出搜索模型集合。其中两种是完全保留或完全清除,留下多胺。第三个要求只保留那些被认为更可靠可预测的SCWRL公司(克里夫夫等。, 2009【Krivov,G.G.、Shapovalov,M.V.和Dunbark,R.L.Jr(2009)。蛋白质,77,778-795。】):这一组广泛包含那些占据较少的轮状异构体,因此那些更有可能保持相同构象的轮状异构体。使用三个子簇半径(Bibby)构建信号群等。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】). 该过程导致每个簇总共生成180个搜索模型集合(20个截断步骤×三个子簇半径×三个侧链处理)。对于这种方法无法求解结构的情况,还对从集群2和集群3派生的搜索模型进行了额外的测试,总共测试了540个搜索模型。

2.4. 使用刚性和包装指标的单结构编辑

单一的结构家蚕蜕皮激素磷酸磷酸酶(PDB条目3c7吨)使用新引入的充足的模式。此新模式的运行方式如下。

【方案二】

PDB输入(由-单一模型(_M)flag)在相同的大小间隔上被截断,并使用与上面相同的副链处理,但首先删除的残留物是在附带的per-residue分数文件中具有最高值的那些残留物(由-截断_核心伊利标志)。该文件至少包含两列,第一列是残留物编号,第二列是指导逐步消除残留物的值。此文件的第一行,即标题,包含由-截断_核心文件页眉标志。记分文件中可能会有更多的列,每个列的标题都有一个列标题,表示将进行模型编辑的其他值。这些将根据指定的列值触发对输入PDB文件的独立处理。根据第2列中的值进行处理的结果–n个形成一个单一的搜索模型池,然后通过BUMP先生作为整体的一部分充足的方案。

分数文件也可被视为轮廓,通过以下方法获得(详见补充表S2),并针对目标小组单独测试成功的MR。使用各向异性网络模型webserver计算反映灵活性的第一组per-reside分数ANM公司(埃亚尔语等。, 2015[Eyal,E.,Lum,G.和Bahar,I.(2015)。生物信息学,311487-1489。])粗粒度动力学方法CABS-柔性(贾姆罗兹等。,2013年【Jamroz,M.、Kolinski,A.和Kmiecik,S.(2013)。核酸研究41,W427-W431。】),CONCOORD公司(德格罗等。, 1997【Groot,B.L.de,van Aalten,D.M.F.,Scheek,R.M.,Amadei,A.,Vriend,G.&Berendsen,H.J.C.(1997)。蛋白质,29,240-251。】)如上所述,以及正常模式服务器WEBnm公司@(蒂瓦里语等。, 2014【Tiwari,S.P.、Fugleback,E.、Hollup,S.M.、Skjaerven,L.、Cragnolini,T.、Grindhaug,S.H.、Tekle,K.M.和Reuter,N.(2014)。BMC生物信息学,15,427。】). 更具体地说B类预测因子ANM公司使用了。发件人CABS-柔性,取每个残留物的轨迹波动。通过分析得出的每个残基的结构方差CONCOORD公司具有的结构塞西乌斯(Theobald和Wuttke,2006年【Theobald,D.L.和Wuttke,D.S.(2006)。生物信息学,222171-2172。】)使用了。发件人WEBnm公司@,再次进行残差波动评分。

使用加权接触数(WCN)直接测量基于包装的剩余分数,使用(PS)2服务器(Huang等。, 2015【Huang,T.-T.,Hwang,J.-K.,Chen,C.-H.,Chu,C.-S.,Lee,C.-W.&Chen,C.-C.(2015).核酸研究43,W338-W342.】). 序列保持得分使用ConSurf公司服务器(Ashkenazy等。, 2016【Ashkenazy,H.、Abadi,S.、Martz,E.、Chay,O.、Mayrose,I.、Pupko,T.和Ben-Tal,N.(2016)。核酸研究44,W344-W350。】),其中五次迭代CS-BLAST公司(安格尔米勒等。, 2012【Angermüller,C.,Biegert,A.&Söding,J.(2012)。生物信息学,28,3240-3247。】)计算中考虑的同系物数量最多为500个。SMRF指标(Jeong&Kim,2016【Jeong,C.-S.&Kim,D.(2016)。BMC生物信息学,17,99。】)使用以下公式计算基于结构的反射协方差SMRF公司带有默认参数的v.0.4。罗塞塔(Leaver Fay等。, 2011【Leaver-Fay,A.等人(2011),《酶学方法》487,545-574。】)精炼使用放松协议与-放松:快速该标志也进行了测试,因为在反复改进后,较不密集的区域预计会显示出更多的结构变化(Park等。, 2015【Park,H.,DiMaio,F.&Baker,D.(2015),结构,231123-1128。】). 与相同CONCOORD公司,计算得到的100个松弛结构的残余结构方差得分塞西乌斯(Theobald和Wuttke,2006年【Theobald,D.L.和Wuttke,D.S.(2006)。生物信息学,222171-2172。】). 残余平均结晶B类还对编辑的因素进行了试验3c7吨,以及溶剂可及表面积(ASA)值(单位:2计算单个3c7吨使用国际学生成绩评估服务器(Krissinel&Henrick,2007)【Krissinel,E.&Henrick,K.(2007),《分子生物学杂志》372774-797。】). 最后ResQ公司服务器(Yang等。, 2016【Yang,J.,Wang,Y.和Zhang,Y.(2016),《分子生物学杂志》428,693-701.】)还用于得出预测残渣质量分数和预测B类因素。根据PDB中通过线程和结构对齐确定的一组模板,使用支持向量回归计算这些值。

2.5。手动编辑的搜索模型

为了与这些度量驱动的搜索模型进行比较,PDB结构3c7吨根据结构检查进行手动处理。四种不同的衍生物(补充图S1)含有88、95、138和159个残基,其中的环区或多或少严格地应用了MR中普遍采用的相同编辑方法进行了删除。

2.6. 分子替换

搜索模型集合集和PDB条目的自动处理版本3c7吨被试用充足的1.01(或1.2.0,仅适用于ASA搜索模型)中央对手方清算所4次分配7.02–7.04(优胜者等。, 2011【Winn,M.D.等人(2011),《结晶学报》,D67,235-242。】),成功被定义为相位器-2.6.1(Read&McCoy,2016年[Read,R.J.&McCoy,A.J.(2016)。晶体学报D72,375-387。]; 麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】)导致使用进行主链跟踪的位置SHELXE公司2016(Thorn&Sheldrick,2013)【Thorn,A.和Sheldrick,G.M.(2013),《晶体学报》,D692251-2256。】)给出一个相关系数(CC)>25%,平均链长(ACL)>10。默认值充足的-估计的r.m.s.d.误差为0.1Ω。所有这些解决方案都可以细化为R(右)自由的<0.45,通常使用ARP协议/弯曲(兰格等。, 2008[Langer,G.,Cohen,S.X.,Lamzin,V.S.&Perrakis,A.(2008),《自然协议》31171-1179。])或海盗(Cowtan,2006年【Cowtan,K.(2006),《水晶学报》,D621002-1011。】)内置于充足的管道,但在最困难的情况下,还有更多的SHELXE公司和/或手动迭代ARP协议/弯曲海盗用于手动重建。四个手动生成的搜索模型由BUMP先生(基根和温恩,2008年[Keegan,R.M.和Winn,M.D.(2008),《水晶学报》,D64,119-124。])使用默认参数,用侧链单独测试,要么将侧链全部拆下,要么用三种不同的方法处理(CHAINSAW公司,MOLREP公司雕塑家模式)。这个BUMP先生使用运行其他尝试的结构解决方案MOLREP公司(Vagin&Teplyakov,2010年【Vagin,A.和Teplyakov,A.(2010),《水晶学报》,D66,22-25。】),尽管这没有导致任何成功。成功MR的标准同上。的软件版本BUMP先生手工导出的处理3c7吨-基于搜索模型中央对手方清算所4 6.5.001/7.0.017,相位器-2.5.6/2.6.1,MOLREP公司11.2.08/11.4.06和SHELXE公司2014/4或SHELXE公司2016/3.

2.7. 其他示例

通过合作CONCOORD公司该方法在另外两个病例上进行了试验:来自产碱菌sp.(存入PDB作为入账4个9克; 基冈等。, 2014【Keegan,R.,Lebedev,A.,Erskine,P.,Guo,J.,Wood,S.P.,Hopper,D.J.,Rigby,S.E.J.&Cooper,J.B.(2014),《水晶学报》第70期,第2444-2454页。】)以及两人之间未公开的情结肠道沙门菌蛋白质(PDB入口5小时x克; B.Li、Y.Yu、Z.Yuan、F.Zhang、Y.Liu、P.Li、N.Song、Z、Li、L.Gu和L.Qin,未出版作品)。中央对手方清算所分别使用了4个分布7.0.35和7.0.32。相位器2.7.17和SHELXE公司这两种情况都使用了2016/3。

3.结果和讨论

3.1. 手动和自动编辑相结合的传统MR

我们的目标组代表了真正具有挑战性的远距离同源病例(表1[链接]):只有一个与晶体结构带有PDB代码3c7吨,用于导出搜索模型,在MAFFT公司(加藤和斯坦德利,2013年【Katoh,K.和Standley,D.M.(2013),《分子生物学进化》,第30期,第772-780页。】)多序列对齐。因此,我们制作了一组四个手动编辑的衍生产品3c7吨要获得对传统MR表现的真实印象,当然,应该承认模型准备中存在主观性因素。这四次编辑都是通过不断增加的截断程度来准备的,以尝试捕捉3c7吨在这三个靶点中的每一个都被保存。BUMP先生使用模型准备的协议集从这些输入中派生出其他模型。这些方便且自动地复制了晶体学家可能尝试的方法,例如剥离所有侧链。这导致为每个输入增加了四个搜索模型,三个基于目标和输入模型之间序列比对的“混合模型”(CHAINSAW公司,MOLREP公司雕塑家),以及输入模型的多胺版本。

在整个20个(四个原始手动编辑和16个衍生)模型集合中,只有两个模型成功地解决了其中一个目标案例:PDB条目2个qni。这些是第二大截断模型的聚丙氨酸衍生物(它给出了一个相位器TFZ为7.1,LLG为45,aSHELXE公司CC为51.13%)和aMOLREP公司-来自第三多截断模型的模式搜索模型(TFZ=6.6、LLG=25;SHELXE公司CC=51.32%)。使用了两个成功相位器定位模型和SHELXE公司用于密度修改和主链追踪。值得注意的是,没有手动处理的原始版本3c7吨提供解决方案;一些附加修改BUMP先生这表明在困难情况下,MR对搜索模型准备有多敏感。

对四个手动编辑和目标之间的结构相似性进行比较(补充表S1),可以解释2个qni。这表明尽管第2季度与低序列一致3c7吨,结构相似性由-分数来自GESAMT公司(克里斯内尔,2012年[Crissinel,E.(2012).J.Mol.Biochem.1,76-85.])显示它是最相似的。这个-score是一种结构相似性度量,它考虑了匹配残基的数量、匹配的r.m.s.d.和两种匹配蛋白质中的残基数量。例如,关于138-残留衍生物,110个残基叠加在PDB条目上2个qni带有Cα1.63℃的有效值。涉及106–123个残基的其他靶点的叠加产生的r.m.s.d.值高于1.9º。众所周知,这表明结构相似性(事先不知道)而不是序列相似性(预先知道)是MR成功的关键,而序列相似性可能是前者的不完美替代品。

3.2.CONCOORD公司合奏

尝试使用CONCOORD公司-基于PDB条目的派生结构3c7吨如表2所示[链接]。很明显CONCOORD公司-派生的搜索模型集成明显优于手动编辑。与手工编辑的单一成功相比,八个目标中的六个可以解决。使用来自最大输入结构簇的搜索模型取得了一些成功。工作时,充足的的默认操作是对从输入模型派生的最大集群进行大量采样。[此模式当前可通过指定-classic_mode真在命令行或通过GUI。]组氨酸磷酸酶超家族分支1中的六个靶点中有三个是用这种方法解决的,但分支2中的两个靶点都不是。在没有取得成功的地方,对集群2和集群3进行采样,将测试的搜索模型数量从180个增加到540个。这样,分支1的两个额外目标,第四季度1退潮,以及1qwo个来自分支2。

表2
使用源于的搜索模型求解远距离同源目标康科德合奏

His磷酸酶超家族的分支 PDB代码 整体序列标识3c7吨在里面MAFFT公司序列比对(%) GESAMT公司结构线形:叠加残留物数量,Cα均方根标准偏差。 晶体结构长度 分辨率(Ω) 成功搜索模型的数量 成功搜索模型中的残留物(具有该残留物数量的解决方案数量) 成功搜索模型中的边链处理(每个边链处理的解决方案数量) SHELXE公司科科斯群岛 搁架国际计算语言学协会 最终R(右)自由的 解决者BUMP先生使用3c7吨晶体结构还是人工衍生的衍生物?
1 1个ujb 24 139, 1.85 156 2.1 14/180 51 (7), 64 (2), 77 (3), 103 (2) PolyAla(10),可靠(3),全原子(1) 48.66–52.28 36–155 0.235–0.259
2个qni 12 148, 2.08 194 1.8 61/180 25(9)、38(9)、51(9)、64(9)、77(6)、90(6)、103(6)、116(3)、129(3)、142(1) PolyAla(27),可靠(21),全原子(13) 45.89–49.21 29–62 0.215–0.320 是的
第1页59 17 174, 2.37 239 1.3 0/540
第四季度 18 173, 2.34 240 2.45 第1页,共540页 90 可靠 39.45 38 0.230
  19 156, 2.18 202 2.3 1/540 77 PolyAla公司 24.72 16 0.232††
3dcy公司 18 150, 2.20 269 1.75 5/180 38, 51 (3), 64 聚丙氨酸(5) 46.13–46.99 37–79 0.302–0.317
2 1qwo个 11 153, 3.05 434 1.5 1/540 90 PolyAla公司 43.61 83 0.216
1dkm 16 151, 2.71 410 2.25 0/540
†分母为180意味着从第一组康科德的输出3c7吨。分母为540表示第一个集群没有产生成功的搜索模型,因此对集群2和集群3的搜索模型进行了试验。
¶显示了多个解决方案的范围。
††所需的额外轮数ARP协议/弯曲海盗以获取此值。

PDB入口解决方案第四季度,来自麻风分枝杆菌(鲍等。, 2015【Baugh,L.等人(2015)。结核病,95,142-148。】),有两个原因让人有些惊讶。第一个原因是其分辨率超出了通常认为可用于相位修改和主链跟踪的范围SHELXE公司但它产生了SHELXE公司a的统计信息相关系数为39,平均链长为38。这些统计数字表明了成功的解决方案,实际上,它可以自动细化为R(右)自由的在五个建筑周期后为0.2303ARP协议/弯曲其次,来自大肠杆菌,确定为1.3°分辨率作为PDB条目第1页59,无法解决。然而,使用较高的0.5°r.m.s.d.误差估计相位器与默认的0.1º估计值相反,确实解决了这个结构(未显示数据),并指出了进一步的方法精炼这种方法。相对而言2个qni已解决(表2[链接])通过确定不同大小的成功搜索模型和目标本身的叠加r.m.s.d.值进行了探索(补充图S2)。最大的搜索模型可以在很大程度上叠加到C中αr.m.s.d.为2.0º,而在更为截断的版本中,散射物质的损失似乎被约0.75º的低r.m.s.d值所抵消,从而确保了在较大尺寸范围内的成功。

最引人注目的是以同样的目标方式解决了问题1个/两个家族分支2(图1[链接]). 这两个分支有着极其遥远的联系(里格登,2008[Rigden,D.J.(2008).生物化学杂志409,333-348.]). 例如,1qwo个3c7吨只共享11%的序列标识,不到目标的三分之一1qwo个可以在结构上叠加3c7吨通过GESAMT公司1.85℃αr.m.s.d.通过90个残基的多胺系综搜索模型获得成功,该模型很好地捕获了两个结构之间的共享催化核心(图1[链接]). 按残差计算,搜索模型只包含35%的原始结构3c7吨目标的21%。由于搜索模型被剥离为多胺,原子比较更加引人注目:搜索模型包含438个非氢原子(CNOS),仅占目标中3364个原子的13%。在最困难的情况下,成功的搜索模型在大小和副链处理方面的零星成功和不可预测性再次说明了充足的的许多变体搜索模型的自动采样。

[图1]
图1
结构上有分歧的同系物()蜕皮激素磷酸酶(PDB条目3c7吨)和(b条)植酸酶(PDB条目1qwo)的光谱颜色从蓝色(N端)到红色(C端),共有73个残核,如所示(c(c))和(d日)分别含有特征性催化His和Arg残留物,如棒状物所示。CONCOORD公司处理3c7吨(e(电子))可以解决1qwo个包含一个包含催化His和Arg位置(粉红色棒)的结构核心。

3.3. 编辑3c7吨使用包装和刚度指标

鉴于CONCOORD公司-导出的集合搜索模型,我们想知道是否可以使用一种更简单的方法来编辑PDB结构,即包装和刚性指标,作为进化保护的代理3c7吨.使用观察到的结构方差CONCOORD公司集成,但将其应用于截断单个结构也可以提供有关生成搜索模型集成的价值或其他方面的有趣视图。如§所述[链接]2,我们研究了各种指标,有些指标需要额外的软件,但其他指标可以从网上资源简单下载(见补充表S2)。为了进行比较,我们还使用了晶体学B类因子和溶剂可及表面积(ASA;Bunkóczi&Read,2011【Bunkóczi,G.&Read,R.J.(2011),《水晶学报》,D67,303-312。】)沉积构造的3c7吨该程序如图2所示[链接]解决了四个测试用例(表3[链接])

表3
使用单个结构的编辑版本求解远程同源目标3c7吨

编辑工作受到了与过残留包装、刚性、顺序保持和B类因素(详见补充表S2)。显示了由20个截断级别和三个侧链处理产生的成功搜索模型的数量。破折号表示无法解决目标。

        推动编辑单个结构的指标3c7吨对于MR in充足的
        结构衍生预测属性 序列派生属性 结晶性能
        刚性 包装 其他   序列保守性 序列协方差  
His磷酸酶超家族的分支 PDB代码 解决者MR碰撞手动编辑? 已用解决CONCOORD公司合奏? AMN公司 CABS-柔性 CONCOORD公司 WEBnm公司@ 罗塞塔 WCN公司 相对溶剂可及性 ResQ公司预测B类系数(Ω2) ResQ公司预测结构质量 ConSurf公司 SMRF(触点) 晶体学的B类因素
1 1个ujb 是的 12 6 10 8 23 17 11 4 6
2个qni 是的 是的 19 14 18 23 17 22 15 8
第1页59
2009年第4季度 是的
  是的
3dcy公司 是的 1 7 6 6 10 1 5
2 1qwo个 是的 5 2 4 2
1dkm
†该指标也适用于具有B类因素统一设置为20,对成功几乎没有影响。
[图2]
图2
单同源截断模式概述充足的.远程同源,在本例中为PDB条目3c7吨,显示在左侧,颜色从蓝色(N端)到红色(C端),带有催化的His和Arg残基,这些残基在整个超家族中都是保守的,呈洋红色,显示为棒状,并在插图中进行了标记。根据所示的指标,选择了15%的剩余残差截断,生成了中心所示的搜索模型。除了ConSurf公司,截断产生了包含三个或四个催化残基的清晰的核心,以洋红显示并标记,解决了右侧显示的远距离同源目标。

总的来说,使用编辑过的单个结构而不是上述使用的信号群的MR的成功率明显较低(表3[链接]). 我们首先研究了一些以前用于此目的的熟悉分数(Bunkóczi&Read,2011)[Bunkóczi,G.和Read,R.J.(2011)。晶体学报,D67,303-312。])发现他们表现很差。ASA驱动编辑的搜索模型没有解决任何结构问题。使用晶体学B类因子作为指导,修剪具有高值的第一个区域只解决测试集的一个成员,1个ujb.直接使用序列守恒,如从ConSurf公司更糟糕的是,不解决任何结构。这可能是因为保守性评分给出了一个非常参差不齐的轮廓评分,因此使用该评分产生的搜索模型非常零散(例如,见图2[链接]). 分数的平滑版本可能会表现得更好。据我们所知,序列协方差是已知的用于包装的信息,并可用于预测功能位点(例如,参见Hopf等。, 2012【Hopf,T.A.,Colwell,L.J.,Sheridan,R.,Rost,B.,Sander,C.&Marks,D.S.(2012)。细胞,149,1607-1621。】)这可能在同系物之间保存得更好。然而,至少在SMRF配方中(Jeong&Kim,2016【Jeong,C.-S.&Kim,D.(2016)。BMC生物信息学,17,99。】)在这里,这种方法并没有产生成功的搜索模型。

基于刚性或包装作为进化保护代理的新指标表现更好,始终解决了相同的四个目标:1个ujb,第2季度,3dcy公司1qwo个然而,在整个测试的60个搜索模型集合中,就成功搜索模型的数量而言,结构解决方案的易用性存在差异。例如,只有一个CABS-柔性-引导搜索模型成功3dcy公司,而十个WCN引导的搜索模型是成功的。在实践中,这可能对应于一种速度更快的结构解决方案,在后一种情况下,第一次成功的时间更短。值得注意的是,四个指标产生了搜索模型,可以解决非常遥远的分支2同源1qwo个,尽管总体上成功的搜索模型少于解决分支1目标的搜索模型(表3[链接]). 例如,根据加权联系号码(WCN)度量编辑的搜索模型解决了分支1目标1个ujb,第2季度3dcy公司分别是17次、22次和10次,但只有两次成功1qwo个.

重要的是要记住3c7吨,以多种方式进一步处理BUMP先生,只解决了其中一个结构:2个qni因此,可以自动处理单个结构,使用此处探索的新度量标准搜索一系列大小的模型,并轻松解决另外两个问题,这是一个真正的进步。然而康科德-导出的系综解决了另外两个问题,尽管只有在试验了相对大量的搜索模型(540)时(表2[链接]). 这表明计算生成的集成相对于编辑的单个结构具有明显的优势。CONCOORD公司是一种计算成本较低的方法,259次保留需要在16个核上花费3分钟3c7吨例如。它和决策支持计划它所需要的,是免费的,所以晶体学家可以很容易地探索这种可能性。

3.4. 其他示例

这个CONCOORD公司该方法在两个困难的案例中进行了试验,其中一位作者(RK)合作了这两个案例,这些结构现在作为PDB条目保存4个9克5小时x克在每种情况下,自动管道的运行BUMP先生(Keegan和Winn,2008年[Keegan,R.M.和Winn,M.D.(2008),《水晶学报》,D64,119-124。]; 基冈等。, 2018【Keegan,R.M.,McNicholas,S.J.,Thomas,J.M.H.,Simpkin,A.J.,Simkovic,F.,Uski,V.,Ballard,C.C,Winn,M.D.,Wilson,K.S.&Rigden,D.J.(2018),《结晶学报》第74期,第167-182页。】)和棒球(长等。, 2008【Long,F.,Vagin,A.A.,Young,P.&Murshudov,G.N.(2008),《结晶学报》D64,125-132。】)两者都未能解决结构问题。前一种结构,4个9克最终,专家使用常规MR和搜索模型(由四个编辑过的同源晶体结构叠加而成)很难解决。后者无法使用现有的搜索模型进行常规求解。

果冻卷曲酶2,4′-二羟基-苯乙酮双加氧酶的结构产碱杆菌属sp.(PDB条目4个9克; 基冈等。, 2014【Keegan,R.,Lebedev,A.,Erskine,P.,Guo,J.,Wood,S.P.,Hopper,D.J.,Rigby,S.E.J.&Cooper,J.B.(2014),《水晶学报》第70期,第2444-2454页。】)以2.0º的分辨率测定,用CONCOORD公司-由最接近的同源物产生的集合:来自富养拉尔夫氏菌(PDB条目3年2月; 结构基因组学联合中心,未发表的工作)与靶基因的序列同源性仅为28%左右。在所有搜索模型的完整试验中,大约60%的搜索模型成功,并且包含29到157个残基。失败的搜索模型包含5到157个残基。这两个集合都包含从三种不同的副链处理模式中派生出来的搜索模型。两组之间的总体相似性证实了充足的的跨各种不同搜索模型的自动采样是有利的。当将同一作业运行到第一个解决方案时,更典型的情况是,第一次成功是在工作站的14个处理器上运行40分钟。

2º分辨率复合体晶体结构现在与PDB代码一起存放5小时x克特别具有挑战性,因为它含有两个异二聚体的拷贝非对称单元。未鉴定的EAL结构域蛋白含有235个残基,而其相互作用伴侣,一种转录调节因子,含有116个残基。使用另一个带有PDB代码的EAL域蛋白解决了这个问题4小时/小时(中西部结构基因组学中心,未出版作品)。这是最接近结构特征的同源物,与目标序列只有22%的同源性,结构比较后解表明,虽然中心β-桶体相对保守,环和末端的长度和方向的差异阻碍了常规结构解(图3[链接]). 在这个相对苛刻的案例中,并不是所有的搜索模型都经过了测试。在工作站的14个处理器上,使用包含81或94个多胺残基的自动衍生系统集,大约36小时后取得成功,这些系统集捕获了结构相对保守的β-筒体结构(图3[链接]). 当时,处理了30个包含51到94个残基的搜索模型,但没有得到解决方案。

[图3]
图3
()两种EAL结构域蛋白的交叉染色立体比较。4小时/小时显示为从N端到C端从蓝色到红色的卡通。链条A类目标,现在存放在PDB代码中5小时x克,显示为灰色卡通:两个异二聚体中的其他链非对称单元显示为不同颜色的丝带。(b条)比较一个成功的搜索模型,一个81-残存系综,该系综是通过处理一组由处理派生的结构而得到的4小时/小时具有CONCOORD公司(左)在同一比例尺上,用链条A类已解决目标的5小时x克(右),从N端到C端,每种颜色从蓝色到红色。

4.结论

相对常见的是,发现一个新的靶点与其在PDB中的最接近的亲属只有遥远的同源性。在这种情况下,传统MR可能耗时,取决于当地专业知识的可用性,最终会失败,已经测试了多种方法,试图自动扩展可以成功解决的蛋白质范围(Keegan&Winn,2007)[Keegan,R.M.和Winn,M.D.(2007),《水晶学报》,D63,447-457.], 2008[Keegan,R.M.和Winn,M.D.(2008),《水晶学报》,D64,119-124。]; 基冈等。, 2011【Keegan,R.M.,Long,F.,Fazio,V.J.,Winn,M.D.,Murshudov,G.N.&Vagin,A.A.(2011),《结晶学报》,D67,313-323。】; 等。, 2008【Long,F.,Vagin,A.A.,Young,P.&Murshudov,G.N.(2008),《结晶学报》D64,125-132。】; 班科奇等。,2013年[Bunkóczi,G.,Echols,N.,McCoy,A.J.,Oeffner,R.D.,Adams,P.D.&Read,R.J.(2013),《结晶学报》,D69,2276-2286。]; Vagin&Lebedev,2015年【Vagin,A.和Lebedev,A.(2015),《水晶学报》A71,s19。】). 基于最近阐明的蛋白质结构堆积和灵活性之间的相关性以及局部进化保护率(Shih等。, 2012【Shih,C.-H.,Chang,C.-M.,Lin,Y.-S.,Lo,W.-C.&Hwang,J.-K.(2012)。蛋白质,80,1647-1657。】; Yeh是的等。, 2014【Yeh,S.-W.,Liu,J.-W.、Yu,S.-H.、Shih,C.-H.、Hwang,J.-K.和Echave,J.(2014)。分子生物学进化。31,135-139。】). 首先,我们在中使用距离几何方法,探索基于远同源物的结构集合的构建CONCOORD公司据我们所知,这是第一种这样的方法,即为了MR的目的,将单个结构有意义地转换为集合,尽管作为构象采样手段的正常模式预测在MR中有着悠久的应用历史(McCoy等。,2013年【McCoy,A.J.、Nicholls,R.A.和Schneider,T.R.(2013),《水晶学报》D69,2216-2225。】; Suhre&Sanejouand,2004年[Suhre,K.和Sanejouand,Y.-H.(2004a).核酸研究32,W610-W614.],b条[Suhre,K.和Sanejouand,Y.-H.(2004b),《结晶学报》,D60,796-799。]). 这些的处理CONCOORD公司-派生结构充足的以同样的方式从头算对模型进行处理后,产生了能够解决一些极为遥远的同源情况的集合搜索模型。未来可以探索所涉及的两个步骤中每一步的替代算法(集成生成和结构多样性的过残留测量)。其次,我们提出了一个新的充足的单一结构模式,该模式提供了一种自动化的方式来对单个远距离同源物的多个基于知识的衍生物进行采样。采样由用户获得的剩余分数文件驱动(补充表S2),为了获得最佳性能,该文件包含反映包装或预测的链条柔性的数字。虽然性能不如CONCOORD公司-导出的系综,我们表明,这可以解决那些难以处理的目标,而这些目标是通过专业的手动导出结构以各种方式进一步编辑的BUMP先生.存在若干进一步发展的途径。例如,可以使用目标同源对齐来实现更复杂的侧链编辑处理。提供可变r.m.s.d.误差估计相位器这取决于用于生成搜索模型的截断程度,也值得探索。最后,我们注意到,在单结构编辑模式下,可能提供改进性能的新指标仍在开发中(刘等。, 2017[刘、J.-W.、程、C.-W.,林、Y.-F.、陈、S.-Y.、黄、J.-K.和严、S.-C.(2017).生物化学与生物物理学学报,1866,379-386.]).

支持信息


资金筹措信息

这项工作得到了BBSRC拨款BB/L009544/1“CCP4拨款续期2014-2019:问题驱动的晶体数据收集和高级结构解决方案”的支持。FS得到了BBSRC DTP博士奖学金的支持,JT在工作时也是如此。

工具书类

第一次引用Abergel,C.(2013)。《水晶学报》。69, 2167–2173. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用P.D.亚当斯。等。(2010).《水晶学报》。66, 213–221. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Altschul,S.F.、Madden,T.L.、Schäffer,A.A.、Zhang,J.、Zhan、Miller,W.和Lipman,D.J.(1997)。核酸研究。 25, 3389–3402. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Angermüller,C.,Biegert,A.&Söding,J.(2012)。生物信息学,28, 3240–3247. 谷歌学者
第一次引用Ashkenazy,H.、Abadi,S.、Martz,E.、Chay,O.、Mayrose,I.、Pupko,T.和Ben-Tal,N.(2016)。核酸研究。 44,W344–W350科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用鲍,L。等。(2015).肺结核,95, 142–148. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012)。《水晶学报》。68, 1622–1631. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2013)。《水晶学报》。69, 2194–2201. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Bunkóczi,G.,Echols,N.,McCoy,A.J.,Oeffner,R.D.,Adams,P.D.&Read,R.J.(2013)。《水晶学报》。69, 2276–2286. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Bunkóczi,G.&Read,R.J.(2011)。《水晶学报》。67, 303–312. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Chen,Y.、Jakoncic,J.、Wang,J.,Zheng,X.、Carpino,N.和Nassar,N.(2008)。生物化学,47, 12135–12145. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Cowtan,K.(2006)。《水晶学报》。62,1002–1011科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Eyal,E.、Lum,G.和Bahar,I.(2015)。生物信息学,31, 1487–1489. 交叉参考 中国科学院 谷歌学者
第一次引用Finn,R.D.、Coggill,P.、Eberhardt,R.Y.、Eddy,S.R.、Mistry,J.、Mitchell,A.L.、Potter,S.C.、Punta,M.、Qureshi,M.,Sangrador-Vegas,A.、Salazar,G.A.、Tate,J.和Bateman,A.(2016)。核酸研究。 44,D279–D285科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Fu,L.,Niu,B.,Z.,Wu,S.&Li,W.(2012年)。生物信息学,28, 3150–3152. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Groot,B.L.de,van Aalten,D.M.F.,Scheek,R.M.,Amadei,A.,Vriend,G.&Berendsen,H.J.C.(1997)。蛋白质,29, 240–251. 谷歌学者
第一次引用Hopf,T.A.、Colwell,L.J.、Sheridan,R.、Rost,B.、Sander,C.和Marks,D.S.(2012年)。单元格,149, 1607–1621. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Huang,T.-T.,Hwang,J.-K.,Chen,C.-H.,Chu,C.-S.,Lee,C.-W.和Chen,C.-C.(2015)。核酸研究。 43,W338–W342交叉参考 中国科学院 谷歌学者
第一次引用Jamroz,M.、Kolinski,A.和Kmiecik,S.(2013年)。核酸研究。 41,W427–W431交叉参考 谷歌学者
第一次引用Jaroszewski,L.、Rychlewski,L.、Li,Z.、Li,W.和Godzik,A.(2005年)。核酸研究。 33,W284–W288科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Jeong,C.-S.和Kim,D.(2016年)。BMC生物信息学,17, 99. 谷歌学者
第一次引用Jorgensen,W.L.、Maxwell,D.S.和Tirado-Rives,J.(1996)。美国化学杂志。Soc公司。 118, 11225–11236. 交叉参考 中国科学院 科学网 谷歌学者
第一次引用Kabsch,W.&Sander,C.(1983年)。生物聚合物,22, 2577–2637. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Katoh,K.和Standley,D.M.(2013年)。分子生物学。进化。 30, 772–780. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Keegan,R.M.、Bibby,J.、Thomas,J.和Xu,D.、Zhang,Y.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2015)。《水晶学报》。71, 338–343. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Keegan,R.、Lebedev,A.、Erskine,P.、Guo,J.、Wood,S.P.、Hopper,D.J.、Rigby,S.E.J.和Cooper,J.B.(2014)。《水晶学报》。70, 2444–2454. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Keegan,R.M.、Long,F.、Fazio,V.J.、Winn,M.D.、Murshudov,G.N.和Vagin,A.A.(2011)。《水晶学报》。67, 313–323. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Keegan,R.M.、McNicholas,S.J.、Thomas,J.M.H.、Simpkin,A.J.、Simkovic,F.、Uski,V.、Ballard,C.C.、Winn,M.D.、Wilson,K.S.和Rigden,D.J.(2018年)。《水晶学报》。74, 167–182. 交叉参考 IUCr日志 谷歌学者
第一次引用Keegan,R.M.和Winn,M.D.(2007年)。《水晶学报》。63, 447–457. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Keegan,R.M.和Winn,M.D.(2008年)。《水晶学报》。64,119–124科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Krissinel,E.(2012)。分子生物化学杂志。 1, 76–85. 中国科学院 公共医学 谷歌学者
第一次引用Krissinel,E.和Henrick,K.(2007年)。分子生物学杂志。 372, 774–797. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Krivov,G.G.、Shapovalov,M.V.和Dunbark,R.L.Jr(2009年)。蛋白质,77, 778–795. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Langer,G.、Cohen,S.X.、Lamzin,V.S.和Perrakis,A.(2008年)。自然协议。 , 1171–1179. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Leaver-Fay,A。等。(2011).方法酶制剂。 487, 545–574. 科学网 中国科学院 公共医学 谷歌学者
第一次引用Lebedev,A.A.、Vagin,A.和Murshudov,G.N.(2008)。《水晶学报》。64, 33–39. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Liu,J.-W.,Cheng,C.-W.、Lin,Y.-F.、Chen,S.-Y.、Hwang,J.-K.和Yen,S.-C.(2017)。生物化学。生物物理学。学报,1866,第379页至第386页交叉参考 谷歌学者
第一次引用Long,F.、Vagin,A.A.、Young,P.和Murshudov,G.N.(2008年)。《水晶学报》。64, 125–132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.(2004)。《水晶学报》。60, 2169–2183. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Grosse-Kunstleve,R.W.、Storoni,L.C.和Read,R.J.(2005)。《水晶学报》。61, 458–464. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Nicholls,R.A.和Schneider,T.R.(2013)。《水晶学报》。69, 2216–2225. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Oeffner,R.D.、Wrobel,A.G.、Ojala,J.R.、Tryggvason,K.、Lohkamp,B.和Read,R.J.(2017)。程序。美国国家科学院。科学。美国,114, 3637–3641. 交叉参考 中国科学院 谷歌学者
第一次引用McNicholas,S.、Potterton,E.、Wilson,K.S.和Noble,M.E.M.(2011年)。《水晶学报》。67, 386–394. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oeffner,R.D.、Bunkóczi,G.、McCoy,A.J.和Read,R.J.(2013)。《水晶学报》。69,2209–2215科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Park,H.、DiMaio,F.和Baker,D.(2015)。结构,23, 1123–1128. 交叉参考 中国科学院 谷歌学者
第一次引用Read,R.J.和McCoy,A.J.(2016)。《水晶学报》。72, 375–387. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Rigden,D.J.(2008)。生物化学。J。 409, 333–348. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用罗德里格斯(Rodríguez,D.)、桑米托(Sammito,M.)、迈恩德(Meindl,K.)、德伊拉杜亚(de Ilarduya,I.M.)和波特拉茨(Potratz,M.,Sheldrick,G.M.&Usón,I.)(2012年)。《水晶学报》。68, 336–343. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Rossmann,M.G.和Blow,D.M.(1962)。《水晶学报》。 15, 24–31. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Sammito,M.、Meindl,K.、de Ilarduya,I.M.、Millán,C.、Artola-Recolons,C.、Hermoso,J.A.和Usón,I.(2014)。FEBS J公司。 281, 4029–4045. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Sammito,M.、Millán,C.、Rodríguez,D.D.、de Ilarduya,I.M.、Meindl,K.、de Marino,I.、Petrillo,G.、Buey,R.M.、de Pereda,J.M.、Zeth,K.、Sheldrick,G.M.和Usón,I.(2013)。自然方法,10, 1099–1101. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Schäffer,A.A.、Aravind,L.、Madden,T.L.、Shavirin,S.、Spouge,J.L.、Wolf,Y.I.、Koonin,E.V.和Altschul,S.F.(2001)。核酸研究。 29, 2994–3005. 科学网 公共医学 谷歌学者
第一次引用Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004)。《水晶学报》。60, 1229–1236. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Shih,C.-H.,Chang,C.-M.,Lin,Y.-S.,Lo,W.-C.&Hwang,J.-K.(2012)。蛋白质,80, 1647–1657. 交叉参考 中国科学院 谷歌学者
第一次引用肖特·D、西蒙斯·K·T和贝克·D(1998)。程序。美国国家科学院。科学。美国,95, 11158–11162. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Simkovic,F.、Thomas,J.M.H.、Keegan,R.M.、Winn,M.D.、Mayans,O.和Rigden,D.J.(2016)。IUCrJ大学,, 259–270. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
第一次引用Stein,N.(2008)。J.应用。克里斯特。 41, 641–643. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004)。《水晶学报》。60,432–438科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Suhre,K.和Sanejouand,Y.-H.(2004年).核酸研究。 32,W610–W614科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Suhre,K.和Sanejouand,Y.-H.(2004年b条).《水晶学报》。60, 796–799. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.,DiMaio,F.,Read,R.J.,Baker,D.,Bunkóczi,G.,Adams,P.D.,Grosse-Kunstleve,R.W.,Afonine,P.V.&Echols,N.(2012)。J.结构。功能。基因组学,13, 81–90. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Terwilliger,T.C.、Grosse-Kunstleve,R.W.、Afonine,P.V.、Moriarty,N.W.,Zwart,P.H.、Hung,L.-W.、Read,R.J.和Adams,P.D.(2008)。《水晶学报》。64, 61–69. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Theobald,D.L.和Wuttke,D.S.(2006年)。生物信息学,22,2171–2172科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Thorn,A.和Sheldrick,G.M.(2013)。《水晶学报》。69, 2251–2256. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Tiwari,S.P.、Fugleback,E.、Hollup,S.M.、Skjaerven,L.、Cragnolini,T.、Grindhaug,S.H.、Tekle,K.M.和Reuter,N.(2014年)。BMC生物信息学,15, 427. 谷歌学者
第一次引用Vagin,A.和Lebedev,A.(2015)。《水晶学报》。A类71第19节交叉参考 IUCr日志 谷歌学者
第一次引用Vagin,A.和Teplyakov,A.(2010年)。《水晶学报》。66, 22–25. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用医学博士温恩。等。(2011).《水晶学报》。67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Yang,J.,Wang,Y.和Zhang,Y.(2016)。分子生物学杂志。 428, 693–701. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Yeh,S.-W.、Liu,J.-W.,Yu,S.-H.、Shih,C.-H.、Hwang,J.-K.和Echave,J.(2014)。分子生物学。进化。 31, 135–139. 交叉参考 中国科学院 谷歌学者
第一次引用Zhang,Y.和Skolnick,J.(2004)。J.计算。化学。 25,865–871页科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zhang,Y.和Skolnick,J.(2005)。核酸研究。 33, 2302–2309. 科学网 交叉参考 公共医学 中国科学院 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
编号:2059-7983