研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
国际标准编号:1399-0047

用于细化低分辨率X射线结构的可变形复杂网络

十字标记_颜色_方形_文本.svg

美国德克萨斯州休斯顿莱斯大学应用物理项目,邮编77005,b条美国德克萨斯州休斯顿贝勒广场一号贝勒医学院生物化学和分子生物学系Verna和Marrs McLean,以及c(c)美国德克萨斯州休斯顿莱斯大学生物工程系,邮编77005
*通信电子邮件:jpma@bcm.edu公司

美国阿贡国家实验室Z.Dauter编辑(2015年7月29日收到; 2015年8月16日接受; 在线2015年10月27日)

在大分子X射线晶体学中,基于低分辨率实验衍射数据建立更精确的原子模型仍然是一个巨大的挑战。以前的研究使用可变形弹性网络(DEN)模型来辅助低分辨率结构精细化。在本研究中精炼报道了一种称为可变形复合网络(DCN)的算法,该算法将基于角度网络的约束与目标函数中的DEN模型相结合。在广泛的低分辨率结构上对DCN进行的测试表明,根据多个精炼标准,从而代表新的有效精炼用于低分辨率结构确定的工具。

1.简介

由于大分子组装体的X射线衍射较弱,因此对其原子结构进行精细化常常是一个挑战。为了基于有限分辨率实验数据建立更好的结构模型,需要引入其他约束,例如传统的立体化学势(Engh&Huber,1991【Engh,R.A.&Huber,R.(1991),《结晶学报》A47,392-400。】). 在最近的研究中,随着弹性网络模型的发展(ENM;Tirion,1996)[蒂里昂·M·M·M.(1996),《物理评论稿》,第77期,1905-1908年。]; Hinsen,1998年【Hinsen,K.(1998)。蛋白质,33,417-429。】; 阿提尔根等。, 2001[Atilgan,A.R.,Durell,S.R.,Jernigan,R.L.,Demirel,M.C.,Keskin,O.和Bahar,I.(2001),《生物物理杂志》80505-515。]; Stember&Wriggers,2009年【Stember,J.N.和Wriggers,W.(2009),《化学物理杂志》131,074112。】),Schröder及其同事提出了一种可变形弹性网络(DEN)方法等。, 2007[Schröder,G.F.,Brunger,A.T.&Levitt,M.(2007),《结构》,第15期,1630-1641页。], 2010[Schröder,G.F.,Levitt,M.&Brunger,A.T.(2010),《自然》(伦敦),464,1218-1222.])用于更好的结构精细化。DEN方法利用同源模型中的“参考结构”(Qian等。, 2007[钱,B.,拉曼,S.,达斯,R.,布拉德利,P.,麦考伊,A.J.,里德,R.J.&贝克,D.(2007)。《自然》(伦敦),450,259-264。]; 萨利和布伦德尔,1993年[萨利·A.和布伦德尔·T.L.(1993),《分子生物学杂志》,第234期,第779-815页。])以及在随机选择的具有可变平衡长度的原子对之间的一系列虚拟“弹簧”,以指导精炼过程。原则上,任何质量合理且与目标模型(待改进的模型)具有某种相似性的结构都可以用作参考结构。与传统相比精细化,DEN方法为广泛的低分辨率结构带来了实质性的改进。然而,DEN方法只包含了原子对之间距离的一维信息,忽略了来自更高维的潜在有用信息以及由于两个以上原子的相互作用而导致的原子对之间的相互依赖性,从而限制了精细化的性能。

为了解决DEN方法在精炼大分子结构方面的不足,本文介绍了一种可变形复杂网络(DCN)方法,该方法将DEN与从可变形角度网络(DAN)获得的附加信息相结合。而DEN定义了参考模型中选定原子对之间的虚拟“弹簧”(Schröder等。, 2007[Schröder,G.F.,Brunger,A.T.&Levitt,M.(2007),《结构》,第15期,1630-1641页。])DAN定义了由随机选择的原子三重态形成的谐波角。三重态中的每个原子都受到角弯曲势的影响。生成的目标函数用于精炼包括实验X射线衍射数据、常规立体化学势和结合DAN和DEN的DCN能量。

由于角度部分(DAN)和距离部分(DEN)的可变形性,DCN是可变形的。某一变形方向精炼步骤是基于目标结构的当前配置和参考结构来确定的。三个参数γ,μw个DCN公司,其中γμ控制变形速度和w个DCN公司是DCN约束的重量,由三维网格搜索确定,最小值为R(右)自由的将最终结构的因素作为最佳选择的指标。

两组测试用于评估DCN方法的性能。第一套是精炼烟草PR-5d蛋白的高分辨率结构(PDB条目1安; 科瓦等。, 1999【Koiwa,H.、Kato,H.、Nakatsu,T.、Oda,J.、Yamada,Y.和Sato,F.(1999)。,《所需)使用植物抗真菌蛋白渗透素(PDB条目)的同源模型在三个较低分辨率下1个百分点值; 分钟等。, 2004【Min,K.,Ha,S.C.,Hasegawa,P.M.,Bressan,R.A.,Yun,D.-J.&Kim,K.K.(2004)。蛋白质,54,170-173。】)作为参考结构。被存款人1安结构是“真正的答案”,能够根据除R(右)自由的价值(Brünger,1992【Brünger,A.T.(1992),《自然》(伦敦),355,472-475。】)例如全原子根平方偏差(r.m.s.d.)、全局距离测试(GDT)(<1欧)分数(Zemla,2003[Zemla,A.(2003),《核酸研究》第31期,第3370-3374页。])和模板建模得分(TMscore;Zhang&Skolnick,2004【Zhang,Y.和Skolnick,J.(2004)。蛋白质,57,702-710。】). 第二组是重新定义16个随机选择的低分辨率结构的更广泛测试,以证明其通用性。这组测试的结果表明,通过使用DCN,它合并了从DEN和DAN独立获取的信息,我们比现有的DEN方法(Schröder等。, 2010[Schröder,G.F.,Levitt,M.&Brunger,A.T.(2010),《自然》(伦敦),464,1218-1222.]),减少了R(右)自由的0.15–1.95%(与传统精炼相比为0.41–6.75%)。此外,我们在减轻过拟合效应、更好的Ramachandran统计和更高质量的电子密度图方面取得了不断的改进。

2.方法

2.1、。总结

对于一种被称为目标结构的待测大分子结构,我们首先进行了美国金融服务贸易协会搜索(Pearson&Lipman,1988【Pearson,W.R.&Lipman,D.J.(1988),美国国家科学院院刊,85,2444-2448。】)对于每个多肽链建模师(Šali和Blundell,1993年[萨利·A.和布伦德尔·T.L.(1993),《分子生物学杂志》,第234期,第779-815页。]). 与目标结构具有较高序列一致性、长度较长且分辨率较高的模板更可取(补充表S2)。在此选择的模板上构建了五个候选同源结构,其中离散优化蛋白质能量(DOPE)得分最低的模板(Shen&Sali,2006【Shen,M.&Sali,A.(2006),《蛋白质科学》,第15期,第2507-2524页。】)被选为该链的参考模型。不同链的参考模型可以从不同来源生成,并采用任何相对位置和方向,包括重叠。在目标结构中的所有或大多数链(对于多链系统)都构建了参考模型后,每个参考模型的位置和方向由以下公式确定分子置换使用相位器(麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】),并将生成的坐标合并到PDB格式的单个坐标文件中,作为整个分子的唯一参考结构。DCN在定义可变形角网络和弹性网络时排除了链间相互作用。DCN模型和相应的约束是根据角网络三元组和弹性网络对的预设标准自动生成的。这些约束促成了下文所述总目标函数中的术语。

这个精炼目标函数采用以下形式

[E_{\rm目标}=E_{\rma立体}+w_aE_{\rm-exp}+w_{\rm-DCN}E_{\orm-DCN}.\eqno(1)]

在这里,E类立体声是通常的立体化学能E类经验是实验衍射数据的贡献w个是重量。通常,基于振幅最大似然函数(MLF)用于E类经验在实验阶段信息可用的情况下精炼使用最大似然Hendrickson–Lattman(MLHL)目标函数,其中实验阶段的贡献以Hendricgson–Latt man系数的形式并入(Hendriccson&Lattman,1970[Hendrickson,W.A.&Lattman,E.(1970),《结晶学报》B26136-143。]).w个DCN公司,的重量E类DCN公司,由特定的三维网格搜索方法确定(图1[链接]). 上学期,E类DCN公司,是由于目标结构中选定的原子对和三元组偏离其相应的平衡值而产生的谐波能量。这些值是从当前目标结构和参考结构中得出的。模拟退火被用作精炼协议,起始温度为3000K,冷却速度为50K/步。扭转角度分子动力学用于动力学仿真。精炼对于每个参数组,使用不同的随机种子重复十次,以进行初始速度分配和DCN约束选择。

[图1]
图1
优化参数组的三维网格搜索(γ,w个DCN公司,μ). 搜索超过180个网格点:(0,0.2,0.4,0.6,0.8,1)γ,(3、10、30、100、300)用于w个DCN公司和(0,0.2,0.4,0.6,0.8,1)μ。提供最低服务的特定集合R(右)自由的因为最终的结构是最优的,并保留相应的结构以供后续分析。

2.2. DEN模型简介

可变形弹性网络(DEN;Schröder等。, 2007[Schröder,G.F.,Brunger,A.T.&Levitt,M.(2007),《结构》,第15期,1630-1641页。], 2010[Schröder,G.F.,Levitt,M.&Brunger,A.T.(2010),《自然》(伦敦),464,1218-1222.])是一组随机选择的原子对,受到谐波势的影响

[E_{\rm DEN}=\textstyle\sum\limits_i[d_i-d-i^0(\gamma,n)]^2,\eqno(2)]

求和覆盖约束列表中的所有原子对。术语d日是瞬时距离目标结构中的第对。这个平衡距离 d日0(γ,n个)与参考结构和目标结构都相关。在这里,n个表示精炼步骤和γ是在三维网格搜索过程中确定的常数(图1[链接]).

2.3. DAN和DCN模型简介

为了定义DCN精炼方法中,我们首先引入了可变形角度网络(DAN)模型。DAN模型由一系列角度组成,每个角度由原子三重态中的两个键跨越。三个原子,其中一个被指定为顶点,另两个被指定为尾原子,必须存在于参考结构和目标结构中。它们还需要满足以下附加标准:(i)所有三个原子都应位于同一多肽链内,(ii)三联体中的第一个和最后一个原子应位于与中间顶点原子的截止距离内,通常设置为15与DEN中相同,(iii)顶点原子和尾部原子之间的距离不应超过10个残基,(iv)跨越的顶点角应在60°到120°之间。最终角度限制精炼从候选名单中随机选择,限制数量设置为目标结构中原子总数的倍数(在我们的研究中为1)。所有这些参数,包括截止值、残留物分离、角度范围和限制数倍数,都设计为可定制并允许微调。我们还提供了两种模式(定向模式和任意模式)来构建约束列表(图2[链接]).

[图2]
图2
DAN/DCN的两种模式的图示。()定向模式(D模式)。顶点原子的原子序列号的值总是小于两个尾部原子的值。例如,对于三元组3–4–5,在定向模式下,唯一可以选择的角度是∠435,其中原子3是顶点。因此,对于给定的原子三重态,可以限制的角度不超过一个,而定向模式往往会“扩散”到整个结构上,导致最终的DAN限制列表中包含更多的原子。(b条)任意模式(A模式)。拾取原子三重态后,对角度选择没有限制。对于三元组3–4–5,除了方向模式可以瞄准的∠435外,任意模式还允许角,例如∠354,其中原子5是顶点,∠345,其中原子4是顶点。任意模式包括结构中存在的所有可能角度。如果DAN的截止标准足够灵活,则同一三元组内的两个或三个角度可能是选择最终约束的合格候选。因此,在任意模式下,可以首先瞄准定向模式排除的角度,但可能会产生较少的原子多样性。生成的DAN约束文件按顶点-第一个尾巴-第二个尾巴的顺序列出了三元组。对于这两种模式,第一个尾部的原子序列号根据定义低于第二个,以避免重复。

DAN中的谐波弯曲能量定义为

[E_{\rm DAN}=\textstyle\sum\limits_j[\theta_j-\theta_ j^0(\mu,n)]^2\semi\eqno(3)]

这里,求和取所有角度三元组,θj个是瞬时角度j个目标结构中的第三个三元组和θj个0(μ,n个)是特定情况下对应的平衡角(n个第个)精炼步骤。

结合DEN和DAN建立DCN。应该注意的是,DEN和DAN的参考结构可以独立建立,例如从不同的同源模型。这些约束被视为用于总计的统一DCN约束精炼目标函数。

DCN电位是DEN的谐波拉伸能与DAN的谐波弯曲能之和,

[E_{\rm DCN}=E_{\rm DEN}+k\cdot E_{\rm DAN}.\eqno(4)]

我们设置系数k个至0.01,角度单位为度。

我们更新了d日0θj个0模拟退火中每六个扭角分子动力学(MD)步骤(当温度也下降50K) 根据以下方程式:

[\eqalinno{d_i^0(\gamma,n+1)&=(1-\kappa)\cdot d_i^0(\gamma,n是的一个被时间到将份新,地,,,就&(5)}]

下一步中距离和角度的平衡值,d日0(γ,n个+1)和θj个0(μ,n个+1)是其当前平衡值的函数,d日0(γ,n个)和θj个0(μ,n个),它们的实际瞬时值,d日θj个,以及参考模型中等效三元组和对的值,d日裁判θj个裁判通常,原子对的初始平衡值d日0(γ,0)和三联体θj个0(μ,0)在起始结构中设置为这些值。系数κφ是控制连续平衡之间变化速率的权重。对于初始松弛,κφ在前三个宏循环期间设置为0(细化协议)。之后,κφ设置为固定值0.1。的值γμ与DCN电位的权重一起优化w个DCN公司(1),[链接] 通过三维网格搜索(图1[链接]). 的值w个DCN公司在最后两个宏循环中重置为0,以减少目标函数最小值的偏差。

2.4. 一种优化参数集的三维网格搜索方案(γ,w个DCN公司,μ)

参数集(γ,w个DCN公司,μ)已优化通过通过180个网格点进行三维网格搜索:(0,0.2,0.4,0.6,0.8,1)forγ,(3、10、30、100、300)用于w个DCN公司和(0,0.2,0.4,0.6,0.8,1)μ(图1[链接])在每一点上,用不同的随机种子进行十次精炼,结果最低R(右)自由的表示该网格点的最终优化结构。种子控制了原子动力学模拟中初始速度的分配,以及从成对和三重态池中选择DCN约束。应该注意的是,最终精炼结果取决于随机数种子的选择;因此,为了确保一致性,我们在整个工作中使用了从1到10的精确整数作为十个随机种子。

2.5.精炼协议

扭转角度分子动力学(TAMD;Rice&Brünger,1994年【Rice,L.&Brünger,A.T.(1994)。蛋白质,19,277-290。】)结合传统模拟退火(柯克帕特里克等。, 1983【Kirkpatrick,S.、Gelatt,C.D.和Vecchi,M.P.(1983),《科学》,第220、671-680页。】)被用作主要精炼协议(Schröder等。, 2010[Schröder,G.F.,Levitt,M.&Brunger,A.T.(2010),《自然》(伦敦),464,1218-1222.]). 动力学仿真的时间步长为4财政司司长。对于退火过程,初始温度设置为3000K、 下降速度为50每六个TAMD步骤K。每六个TAMD步骤可以定义为一个“微循环”,它决定了退火温度和DCN约束平衡值的更新频率。温度从3000降至0的时期K形成了一个“大循环”。每个精炼这项工作中的任务,包括常规精细化,兽穴精炼和DCN精细化,使用了八个宏循环。在它们的前三个期间,φκ设置为零而不是0.1以允许初始松弛。在几个初始宏循环期间,范德瓦尔斯半径减小至原始值的75%,同时减小范德瓦尔力常数以便于取样,随后在最后两个宏循环中完全恢复。此外,在最后两个宏循环中,DCN约束权重被设置为零,以减少目标函数全局最小值的偏差。

总体各向异性B类-因子修正和体积-固体修正(Jiang&Brünger,1994)[Jiang,J.-S.&Brünger,A.T.(1994),《分子生物学杂志》,第243期,第100-115页。]; 布伦格尔等。, 1998[Brünger,A.T.、Adams,P.D.、Clore,G.M.、DeLano,W.L.、Gros,P.、Grosse Ku月为一个一种,,在新的情况,也的其他的一、反对的都力的个个,的的系列的好国)应用于所有优化,没有使用位置最小化。对于16个重新定义任务,50个步骤B类-因子最小化,目标增加10倍σ的值B类-进行因子主链/侧链键/角度约束,初始值为B类因子重置为50Å2。默认情况下无法识别的配体中枢神经系统(布伦格尔等。, 1998【Brünger,A.T.、Adams,P.D.、Clore,G.M.、DeLano,W.L.、Gros,P.、Grosse-Kunstleve,R.W.、Jiang,J.-S.、Kuszewski,J.、Nilges,M.、Pannu,N.S.、Read,R.J.、Rice,L.M.,Simonson,T.和Warren,G.L.(1998),《晶体学报》D54,905-921。】; Brunger,2007年【Brunger,A.T.(2007),《自然协议》,第2期,2728-2733页。】)被明确定义为组的组B类-因素最小化。为了进行适当的比较精炼所有测试系统的参数设置保持一致。需要注意的是,某些参数,例如初始退火温度、冷却速度或目标的倍数σ组的值B类因素,也可能进一步优化精细化。完成后精细化,所有精细结构都根据它们的值进行排序R(右)自由的并且选择具有最低值的进行后续分析。

2.6. 计算

此方法的源代码(DCN_参考)是在结晶和核磁共振系统(中枢神经系统; v.1.3;Brunger,2007年【Brunger,A.T.(2007),《自然协议》,第2期,2728-2733页。】; 布伦格尔等。, 1998【Brünger,A.T.、Adams,P.D.、Clore,G.M.、DeLano,W.L.、Gros,P.、Grosse-Kunstleve,R.W.、Jiang,J.-S.、Kuszewski,J.、Nilges,M.、Pannu,N.S.、Read,R.J.、Rice,L.M.,Simonson,T.和Warren,G.L.(1998),《晶体学报》D54,905-921。】). 计算在莱斯的共享大学网格上进行(SUG@R(右))共享计算资源(ShareCoRe)的集群平台。

3.结果

3.1.精炼烟草PR-5d蛋白(PDB条目1安)以三个较低的分辨率

在这个测试中,我们使用了晶体结构烟草PR-5d蛋白(PDB条目1安, 1.8分辨率;科瓦等。, 1999【Koiwa,H.、Kato,H.,Nakatsu,T.、Oda,J.、Yamada,Y.和Sato,F.(1999),《分子生物学杂志》2861137-1145。】)以便对DCN方法进行系统评估。它的完整衍射数据是从PDB获得的,然后使用中央处理器4(优胜者等。2011年[Winn,M.D.等人(2011),《晶体学报》,第67卷,第235-242页。])给出三个分辨率较低的集,分别为3.5、4.0和4.5Å. 这三组数据被视为独立的原始低分辨率实验数据,用于后续研究精细化。同源模型(PDB条目1立方英尺; 2.3分辨率;分钟等。, 2004【Min,K.,Ha,S.C.,Hasegawa,P.M.,Bressan,R.A.,Yun,D.-J.&Kim,K.K.(2004)。蛋白质,54,170-173。】)用作起始结构,其位置和方向由分子置换使用相位器(麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】)针对三个低分辨率数据集中的每一个。来自分子置换作为DCN细化的参考结构。

为了评估DCN方法的性能,我们还对这三个低分辨率数据集进行了另外两个改进。其中一个使用了结合立体化学势的传统靶函数(Engh&Huber,1991【Engh,R.A.&Huber,R.(1991),《结晶学报》A47,392-400。】)实验数据项(形式为最大似然能量;Bricogne&Gilmore,1990年【布里科涅·G·和吉尔摩·C·J·(1990),《水晶学报》A46284-297。】). 另一种方法除了使用DEN势外,还使用了传统的目标函数。

依据R(右)自由的值,用于测量结构模型和X射线衍射数据之间的一致性(图3[链接])与DEN方法相比,DCN方法取得了实质性改进:DCN改进的结构模型分别降低了0.94和1.12%R(右)自由的比DEN在3.5和4.0时精炼的分别为?分辨率。4.5时分辨率,DCN和DEN细化的结构模型具有相似性R(右)自由的值(DCN精细结构的值比DEN结构的值高0.24%)。与传统方法细化的结构相比,DCN细化的结构在R(右)自由的在3.5、4.0和4.5时分别减少2.21、6.85和13.16%分别为?分辨率(表1[链接],图3[链接]).

表1
中三种方法的比较精炼烟草PR-5d蛋白

烟草PR-5d蛋白的精制(PDB条目1安)基于植物抗真菌蛋白渗透蛋白的同源性模型(PDB条目1个百分点值)序列同源性为79.51%,初始全原子相对标准偏差为3.156转到“true structure”。在每组中,最有利的结果[最低的R(右)自由的和全原子r.m.s.d.和最高GDT(<1?)和TMscore]用粗体表示,最差结果用斜体表示。总的来说,DCN获得了12个最佳结果中的10个,没有一个最差的结果。DEN提供了两个最有利的结果(其中一个与DCN共享)和两个最不利的结果。常规精炼产生了十个最差结果,只有一个最佳结果(最小r.m.s.d.为3.5分辨率)。

分辨率(Ω) 精炼方法 R(右)自由的(%) 全原子r.m.s.d.(Au) GDT(<1奥)分数 TM评分
3.5 常规 32.67 2.968 0.9567 0.9887
兽穴 31.40 2.987 0.9615 0.9885
DCN公司 30.46 2.981 0.9615 0.9888
4 常规 36.79 3.031 0.8413 0.9774
兽穴 31.06 3.026 0.8990 0.9818
DCN公司 29.94 3.010 0.9183 0.9826
4.5 常规 47.24 3.372 0.3269 0.9241
兽穴 33.84 3.201 0.6250 0.9565
DCN公司 34.08 3.113 0.7067 0.9662
[图3]
图3
烟草PR-5d蛋白在三种不同的低分辨率下的精制。比较R(右)自由的(),r.m.s.d(b条),GDT(<1Å) (c(c))和TMscore(d日)使用传统的精炼(绿色)、DEN方法(蓝色)和DCN方法(红色)。

除了R(右)自由的值,使用1.8奥数分辨率晶体结构 1安作为“真正的答案”,可以使用其他标准来评估精细结构的质量,包括全原子r.m.s.d.、GDT(<1欧)分数(Zemla,2003[Zemla,A.(2003),《核酸研究》第31期,第3370-3374页。])和TMscore(Zhang&Skolnick,2004)【Zhang,Y.和Skolnick,J.(2004)。蛋白质,57,702-710。】). 根据r.m.s.d.(图3[链接]b条,表1[链接])在所有三种分辨率下,DCN始终优于DEN。对于GDT(<1?)得分(图3[链接]c(c),表1[链接])和TMscore(图3[链接]d日,表1[链接]),DCN在所有三家公司中始终提供了最有利的价值精炼方法。需要注意的是,一般来说,DCN提供的最大改进是在最低分辨率(4.5Å); 因此,DCN有望在以下方面表现最佳精炼分辨率极限为4.0的X射线数据?或更低(表1[链接]).

3.2. 16个随机选择的低分辨率结构的重新定义

我们还随机选择了16种低分辨率全原子结构(4.0–4.51?分辨率,1–14条多肽链,304–10941个观察到的残留物;补充表S1和S2)并进行了重新定义。对于某些结构,非标准配体、离子和修饰残基的拓扑和参数文件来自瑞典乌普萨拉异化合物信息中心(HIC-Up;Kleywegt&Jones,1998)【Kleywegt,G.J.&Jones,T.A.(1998),《结晶学报》,D54,1119-1131。】). 为了测试DCN的性能,我们在没有任何手动调整的情况下进行了自动重定义。为了最小化偏差,我们在总共八个DCN电位中的最后两个将其重置为零精炼大环(参见§[链接]2). 作为对照,在DEN和16次重新定义的每一次常规改进中使用了相同的协议和设置。与之前的工作相比,它们通常会在本工作中产生更好的结构模型(补充表S3)。这些重新定义是评估新DCN方法性能的基础。

3.2.1. 这个R(右)自由的

R(右)自由的(布伦格,1992年【Brünger,A.T.(1992),《自然》(伦敦),355,472-475。】)作为实验数据与精细结构之间拟合的交叉验证参数,被广泛用作大分子晶体学中结构质量的主要衡量指标。在我们对16个随机选择的低分辨率结构进行的测试中R(右)自由的DCN获得的数值大大低于使用独立DEN方法获得的数值(范围在0.15–1.95%之间),高于使用传统方法获得的值(0.41–6.75%)(表2[链接],图4[链接]).

表2
三种方法重新定义16个低分辨率结构的比较

精炼16个低分辨率结构的结果。R(右)自由的及其改进,R(右)自由的负极R(右)工作,以及Ramachandran的统计数据。据统计,在总共16个测试系统中,DCN在以下方面的16个案例(100%)优于DENR(右)自由的,16(100%)关于R(右)自由的负极R(右)工作拉马钱德兰统计数字为13(81.25%)。与常规精炼相比,这些比率分别为100、87.5和93.75%。补充表S1和S2中列出了每个测试系统的结构特性、实验数据和参考模型。

    R(右)自由的(%) DCN改善(%) R(右)自由的负极R(右)工作(%) Ramachandran统计
PDB代码 分辨率(Ω) 常规 兽穴 DCN公司 ΔR(右)自由的超过常规 ΔR(右)自由的超过DEN 常规 兽穴 DCN公司 常规 兽穴 分布式控制网络 DCN–传统 DCN−DEN公司
1个isr 4 22.37 21.64 21.10 1.27 0.54 6.6 6.4 6.1 0.833 0.863 0.878 0.045 0.015
1jl4公司 4.30 37 36.39 35.25 1.75 1.14 10.9 11.5 11.1 0.567 0.712 0.718 0.151 0.006
1r5单位 4.50 31.65 30.48 29.83 1.82 0.65 5.6 5.2 4.8 0.646 0.730 0.748 0.102 0.018
1xxi个 4.10 38.21 32.24 31.46 6.75 0.78 11.2 9.9 9.4 0.631 0.806 0.800 0.169 −0.006
1是1 4.50 33.77 30.24 29.36 4.41 0.88 13.8 13.1 12.5 0.781 0.853 0.905 0.124 0.052
1个月7 4.50 27.64 27.39 27.23 0.41 0.16 3 3.4 3.3 0.703 0.781 0.751 0.048 −0.030
2a62页 4.50 36.22 35.48 33.53 2.69 1.95 9.6 8.6 6.9 0.568 0.651 0.670 0.102 0.019
2bf1型 4 48.66 44.31 42.66 6 1.65 8.6 5 4 0.383 0.453 0.523 0.140 0.070
第二章37 4.15 36.46 33.20 32.57 3.89 0.63 3.7 1.2 0.3 0.737 0.851 0.848 0.111 −0.003
第2季度第7季度 4 26.49 26.21 26.06 0.43 0.15 2.1 1.9 1.8 0.774 0.768 0.770 −0.004 0.002
2qag型 4 40.52 38.81 38.52 2 0.29 3 2.2 2 0.483 0.551 0.573 0.090 0.022
2伏赫兹 4 31.17 29.88 29.64 1.53 0.24 8.1 8.1 8 0.723 0.822 0.830 0.107 0.008
2年 4 37.34 35.73 34.42 2.92 1.31 9.5 8.6 8.2 0.728 0.746 0.836 0.108 0.090
3alz公司 4.51 25.01 24.61 23.67 1.34 0.94 1.9 1.6 0.9 0.667 0.712 0.721 0.054 0.009
3个保险丝 4 41.87 40.57 40.07 1.80 0.50 5.9 4.4 3.9 0.537 0.563 0.576 0.039 0.013
3我们2 4.20 45.97 43.11 42.39 3.58 0.72 12.9 10.9 9.8 0.399 0.543 0.555 0.156 0.012
平均 4.20 35.02 33.14 32.36 2.66 0.78 7.3 6.4 5.8 0.635 0.713 0.731 0.096 0.019
最小值 4 22.37 21.64 21.10 0.41 0.15 1.9 1.2 0.3 0.383 0.453 0.523 −0.004 −0.030
最大值 4.51 48.66 44.31 42.66 6.75 1.95 13.8 13.1 12.5 0.833 0.863 0.905 0.169 0.090
[图4]
图4
16个随机选择的低分辨率结构的优化。的绘图R(右)自由的(),R(右)自由的负极R(右)工作(b条)和拉马钱德兰统计(c(c))显示了16个由传统测试系统改进的测试系统精炼(绿色)、DEN方法(蓝色)和DCN方法(红色)。
3.2.2. 过度拟合

过拟合程度可以通过以下绝对值之间的差异来评估R(右)自由的R(右)工作。后者是使用精炼过程,因此通常小于R(右)自由的在我们的大多数测试用例中(16个中的14个),DCN始终提供最小的R(右)自由的负极R(右)工作在所有三种方法中(表2[链接],图4[链接]). 如表2所示[链接],具有最有利价值的案例R(右)自由的负极R(右)工作DCN为0.3%(PDB条目第二章37)而对于DEN和传统方法,最佳情况是1.2%(PDB进入第二章37)和1.9%(PDB进入3alz公司)分别是。此外,平均R(右)自由的负极R(右)工作来自DCN精炼所有16个测试用例的测试结果为5.8%,比DEN和常规测试结果分别低0.6%和1.5%精细化,分别(表2[链接]).

3.2.3. Ramachandran统计

为了进一步评估精制结构的质量,我们使用摩尔概率(陈)等。, 2010【Chen,V.B.、Arendall,W.B.、Headd,J.J.、Keedy,D.A.、Immormino,R.M.、Kapral,G.J.,Murray,L.W.、Richardson,J.S.和Richardsson,D.C.(2010),《晶体学报》,D66,12-21。】). 与传统方法精制的结构相比,16个DCN精制结构中有15个结构的残留物百分比较高,落在Ramachandran图的有利区域,最大增幅为16.9%,所有16个案例的平均增幅为9.6%。与用DEN方法精制的结构相比,16个DCN精制结构中有13个在有利区域显示出较大的残留百分比,最大增加9.0%,平均增加1.9%(表2[链接],图4[链接]c(c)). 这些数据共同表明,与传统方法或DEN方法细化的结构相比,Ramachandran统计数据大大增强。

3.2.4. 电子密度图

DCN方法的重新定义也导致了电子密度图的改进(图5[链接]). 相结合的σ-加权2F类o个负极F类c(c)根据实验振幅和模型相位计算的电子密度图如图5所示[链接]两个示例:PDB条目1jl4公司(图5[链接], 5[链接]b条和5[链接]c(c))和2bf1型(图5[链接]d日, 5[链接]e(电子)和5[链接](f)). 在PDB条目示例中1jl4公司,的σ-加权2F类o个负极F类c(c)由传统方法改进的结构模型得到的电子密度图(图5[链接])或DEN方法(图5[链接]b条)两者在Thr23的主链原子周围都显示出断裂密度。与此形成鲜明对比的是,通过DCN方法细化的结构模型图在Thr23附近具有清晰的密度(图5[链接]c(c)). 在第二个示例中,PDB条目2bf1型,书房精炼导致了R(右)自由的该值比传统方法的值低4.35%,并且DEN重新定义的结构相对于传统方法优化的结构在主链原子上的几个位置显示出较大的位置偏移。然而,有些区域的大结构位移不受电子密度图的支持(比较图5[链接]d日和图5[链接]e(电子)). 与此形成鲜明对比的是,DCN改进了结构R(右)自由的与DEN方法相比(1.65%),显示出更好的地图坐标一致性(图5[链接](f)).

[图5]
图5
不同方法细化的结构及其相应相组合的比较σ-加权2F类o个负极F类c(c)电子密度图。(,b条,c(c))PDB条目1jl4公司, (d日,e(电子),(f))PDB条目2bf1型.精细结构(棒模型)和相应的相结合σ-加权2F类o个负极F类c(c)电子密度图(网格)轮廓为1.5σ显示为传统精炼(绿色)、DEN方法(蓝色)和DCN方法(红色)。

4.讨论

在大分子X射线晶体学中,结构精炼基于低分辨率实验衍射数据仍然是一个主要挑战精炼迫切需要算法。以前的研究使用DEN模型来辅助低分辨率结构精炼(施罗德等。, 2007[Schröder,G.F.,Brunger,A.T.&Levitt,M.(2007),《结构》,第15期,1630-1641页。], 2010[Schröder,G.F.,Levitt,M.&Brunger,A.T.(2010),《自然》(伦敦),464,1218-1222.]). 在这项研究中,我们开发了一种新的精炼该算法将DEN模型与基于角度网络的新型DAN约束相结合,利用原子间的高维交互网络。在广泛的低分辨率结构上对DCN进行的测试表明,这种新方法通过多种措施实现了显著改进,从而代表了一种新的有效方法精炼用于低分辨率结构确定的工具。

一般来说,我们的目的是将许多参数固定为默认值,而不在本工作中进行任何调整。我们希望更好地调整DCN设置将进一步提高此方法的性能和鲁棒性。例如,只能对具有足够可靠参考结构的分子的某些区域建立约束;DCN模型的几个角度标准可以更精细地定制,以解释单个大分子系统的特性。作为一个例子,选择DAN序列分离极限分别为5和8,可以产生R(右)自由的PDB入场费为20.75%1个isrPDB入场占28.97%1是1,比使用默认值10低约0.4%,如表2所示[链接]该方法还可以扩展:在数据库中找到的最佳同源模型不具有令人满意的序列一致性或分辨率的情况下,可以从不同同源源中导出单链的DAN和DEN信息。此外,角度网络和距离网络的变形不需要同步。A更有利精炼对于给定的系统,当两个网络交替变形或频率不均匀时,可能会出现。此外,DCN可以通过在线GUI在网格计算服务器中轻松实现(O'Donovan等。, 2012【O’Donovan,D.J.、Stokes Rees,I.、Nam,Y.、Blacklow,S.C.、Schröder,G.F.、Brunger,A.T.和Sliz,P.(2012)。晶体学报,D68,261-267。】),允许感兴趣的用户使用通过轻松创建门户网站。

支持信息


致谢

JM感谢美国国立卫生研究院(R01-GM067801)、美国国家科学基金会(MCB-0818353)以及墨西哥湾海岸联盟和韦尔奇基金会(Q-1512)颁发的西蒙斯合作研究基金奖。QW感谢美国国立卫生研究院(R01-AI067839)、Gillson–Longenbaugh基金会、墨西哥湾海岸联盟和韦尔奇基金会颁发的西蒙斯合作研究基金奖(Q-1826)的支持。

工具书类

第一次引用Atilgan,A.R.、Durell,S.R.、Jernigan,R.L.、Demirel,M.C.、Keskin,O.和Bahar,I.(2001)。生物物理学。J。 80, 505–515. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Bricogne,G.&Gilmore,C.J.(1990年)。阿克塔·克里斯特。A类46, 284–297. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Brünger,A.T.(1992)。自然(伦敦),355, 472–475. 公共医学 科学网 谷歌学者
第一次引用Brunger,A.T.(2007)。自然协议。 2, 2728–2733. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Brünger,A.T.,Adams,P.D.,Clore,G.M.,DeLano,W.L.,Gros,P.,Grosse-Kunstleve,R.W.,Jiang,J.-S.,Kuszewski,J.,Nilges,M.,Pannu,N.S.,Read,R.J.,Rice,L.M.,Simonson,T.&Warren,G.L.(1998)。阿克塔·克里斯特。D类54, 905–921. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Chen,V.B.、Arendall,W.B.、Headd,J.J.、Keedy,D.A.、Immormino,R.M.、Kapral,G.J.,Murray,L.W.、Richardson,J.S.和Richardsson,D.C.(2010)。阿克塔·克里斯特。D类66, 12–21. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Engh,R.A.和Huber,R.(1991)。阿克塔·克里斯特。A类47, 392–400. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Hendrickson,W.A.和Lattman,E.E.(1970年)。阿克塔·克里斯特。B类26, 136–143. 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Hinsen,K.(1998)。蛋白质,33, 417–429. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Jiang,J.-S.&Brünger,A.T.(1994)。分子生物学杂志。 243,100–115交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Kirkpatrick,S.、Gelatt,C.D.和Vecchi,M.P.(1983年)。科学类,220, 671–680. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Kleywegt,G.J.&Jones,T.A.(1998年)。阿克塔·克里斯特。D类54, 1119–1131. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Koiwa,H.、Kato,H.,Nakatsu,T.、Oda,J.、Yamada,Y.和Sato,F.(1999)。分子生物学杂志。 286, 1137–1145. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用McCoy,A.J.、Grosse Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Min,K.、Ha,S.C.、Hasegawa,P.M.、Bressan,R.A.、Yun,D.-J.和Kim,K.K.(2004)。蛋白质,54, 170–173. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用O'Donovan,D.J.,Stokes-Rees,I.,Nam,Y.,Blacklow,S.C.,Schröder,G.F.,Brunger,A.T.&Sliz,P.(2012)。阿克塔·克里斯特。D类68, 261–267. 交叉参考 IUCr日志 谷歌学者
第一次引用Pearson,W.R.和Lipman,D.J.(1988年)。程序。国家科学院。科学。美国,85, 2444–2448. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Qian,B.、Raman,S.、Das,R.、Bradley,P.、McCoy,A.J.、Read,R.J.和Baker,D.(2007)。自然(伦敦),450, 259–264. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Rice,L.&Brünger,A.T.(1994)。蛋白质,19, 277–290. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Šali,A.和Blundell,T.L.(1993)。分子生物学杂志。 234, 779–815. 公共医学 科学网 谷歌学者
第一次引用Schröder,G.F.、Brunger,A.T.和Levit,M.(2007)。结构,15, 1630–1641. 科学网 公共医学 谷歌学者
第一次引用Schröder,G.F.,Levitt,M.&Brunger,A.T.(2010年)。自然(伦敦),464, 1218–1222. 科学网 公共医学 谷歌学者
第一次引用Shen,M.&Sali,A.(2006年)。蛋白质科学。 15, 2507–2524. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Stember,J.N.和Wriggers,W.(2009年)。化学杂志。物理。 131, 074112. 交叉参考 公共医学 谷歌学者
第一次引用Tirion,M.M.(1996年)。物理学。修订稿。 77, 1905–1908. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Winn医学博士。等。(2011).阿克塔·克里斯特。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Zemla,A.(2003)。核酸研究。 31, 3370–3374. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zhang,Y.和Skolnick,J.(2004)。蛋白质,57, 702–710. 交叉参考 公共医学 中国科学院 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标生物
结晶学
国际标准编号:1399-0047