研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
编号:2059-7983

交互式模型重建中的自适应笛卡尔和扭转约束

十字标记_颜色_方形_文本.svg

剑桥医学研究院,英国剑桥CB2 0XY Keith Peters Building
*通信电子邮件:tic20@cam.ac.uk

编辑:R.Joosten,荷兰癌症研究所,荷兰(收到日期:2020年9月29日; 2021年2月1日接受; 在线2021年3月30日)

当将原子模型构建为弱和/或低分辨率密度时,一种常见的策略是将其构象限制为相同或相似序列的高分辨率模型的构象。在这样做时,重要的是避免在与实验数据不一致的情况下对参考模型进行过度约束。最常见的策略是使用“自上而下”的潜力。这些作用类似于定义范围内的简谐约束,但当模型和参考之间的偏差超过该范围时,会逐渐减弱。在每个当前实现中,电位在较大偏差下平缓的速率遵循一个固定的形式,尽管所选择的形式因实现而异。具有可调平坦率的约束电位将提供更大的灵活性来编码任何给定约束的置信度。这里,描述了两个新的此类势:一个是从公共损失函数的最近推广中导出的笛卡尔距离约束,另一个是基于von Mises分布的重整化的周期扭转约束。此外,它们作为用户可调节/可切换约束的实现隔离物描述了它们,并演示了它们在一些真实世界的例子中的使用。

1.简介

精炼低分辨率大分子模型的研究往往是一个尚未确定的问题:也就是说,即使考虑到对键合立体化学的限制和对原子碰撞的惩罚(这在大多数情况下都是标准的精炼与实验观测相比,仍有更多可调参数。因此,在不施加进一步限制的情况下,精炼随着分辨率降低到2.5–3º以上,结果变得越来越差,这是一个具有可再融资的典型模型的观测值与参数之比的近似范围x个,,z(z)和各向同性B因子降至1以下。在限制自由度通过将所有键的长度和角度限制为理想值(Rice&Brünger,1994【Rice,L.M.&Brünger,A.T.(1994)。蛋白质,19,277-290。】)或包括明确的范德瓦尔斯和静电术语(Croll,2018【Croll,T.I.(2018),《水晶学报》,D74,519-530。】; 莫里亚蒂等。, 2020【Moriarty,N.W.,Janowski,P.A.,Swails,J.M.,Nguyen,H.,Richardson,J.S.,Case,D.A.&Adams,P.D.(2020),《结晶学报》D76,51-62。】)可以将(给定合理的起始模型)可以获得良好结果的分辨率扩展到高3Å或低4Å范围,在较低分辨率下,最明智的方法通常是利用类似大分子的高分辨率结构中的可用信息。这可以采取对匹配扭转的约束形式,如凤凰(标题等。, 2012【Headd,J.J.、Echols,N.、Afonine,P.V.、Grosse-Kunstleve,R.W.、Chen,V.B.、Moriarty,N.W.,Richardson,D.C.、Richardsson,J.S.和Adams,P.D.(2012),《结晶学报》D68、381-390。】)或原子间距离,如中所用REFMAC公司5和库特(尼科尔斯等。, 2012【Nicholls,R.A.、Long,F.和Murshudov,G.N.(2012),《结晶学报》D68、404-417。】)通过智能项目(尼科尔斯等。2014年【Nicholls,R.A.、Fischer,M.、McNicholas,S.和Murshudov,G.N.(2014),《结晶学报》第70期,第2487-2499页。】),SHELX公司(谢尔德里克,2015年[Sheldrick,G.M.(2015),《晶体学报》,C71,3-8。])或巴斯特/TNT公司(智能等。, 2012[Smart,O.S.,Womack,T.O.,Flensburg,C.,Keller,P.,Paciorek,W.,Sharff,A.,Vonrhein,C.&Bricogne,G.(2012),《晶体学报》,D68,368-380。])(请注意,这并不是一个详尽的列表)。这些约束被实施为所谓的“自上而下”潜力:即一旦模型和模板之间的偏差变得太大,它们的惩罚功能就会开始趋于平缓(从而对模板施加逐渐减弱的偏见),目的是允许数据支持的实际偏差,同时限制模型、模板和数据一致的区域。

上述方法的一个例外是可变形弹性网络(DEN)方法(Schröder等。, 2007[Schröder,G.F.,Brunger,A.T.&Levitt,M.(2007),《结构》,第15期,1630-1641页。]),它使用标准谐波距离抑制方案(使用从一组可能的约束中随机选择),但基于当前原子间距离和参考原子间距离的组合定期更新每个约束的目标距离。另一个值得注意的例外是同源衍生约束(HODER(发动机罩))使用的方法PDB-重做(范博塞科姆等。, 2018【Beusekom,B.van,Touw,W.G.,Tatineni,M.,Somani,S.,Rajagopal,G.,Luo,J.,Gilliland,G.L.,Perrakis,A.&Joosten,R.P.(2018),蛋白质科学27,798-808.】)其不是限制一般的距离和/或扭转,而是特别关注限制相关结构中的氢键。

到目前为止,顶出约束方案通常在大偏差下的衰减形式方面受到限制:虽然接近目标的电势通常与偏差平方成比例,智能项目使用Geman–McClure函数,其中长程电势与偏差的平方根成正比,而凤凰巴斯特/TNT公司使用Welsch稳健估计函数,该函数将变平为常数。为了清楚起见,这些形式对应于与偏差成反比的长程偏压(智能项目)或零(凤凰).

当前距离抑制方案的第二个限制是缺乏对接近目标距离的平底“公差”区域(即没有施加偏差的区域)的支持。在各种情况下,这些可能是有价值的。一个例子是使用来自交联/质谱研究的限制:交联的存在通常定义了两个原子之间距离的松散上限,但提供的下限信息相对较少(Orbán-németh等。, 2018[Orbán-németh,Z.,Beveridge,R.,Hollenstein,D.M.,Rampler,E.,Stranzl,T.,Hudecz,O.,Doblmann,J.,Schlögelhofer,P.&Mechtler,K.(2018),《国家协议》第13卷,第478-494页。]). 另一个例子可能是由进化协方差得出的距离信息:虽然这可以用来预测两个残基彼此“接近”,但原子间线性距离的估计必然不精确。最后,在参考约束的情况下,除了相同工作和参考模型的特殊情况外,预计参考距离是不完美的;理想情况下,应该可以在约束函数中反映这种不确定性。具体来说,如果核心约束库或分子动力学力场提供了对基础物理的足够高保真的描述,则最好消除靠近目标的所有偏差,以使模型达到最有利的局部状态。

最近,人们描述了一种更一般的惩罚函数(Barron,2019[Barron,J.T.(2019)。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第4326-4334页。皮斯卡塔韦:IEEE。])这允许下降率(概念上与给定约束中的置信水平相关)本身成为可调谐的参数。这似乎在高分子材料中有很大的应用前景精炼空间,其中最佳参考模型在不同构象中可能只有适度的同源性,或其本身包含建模错误。在这里,我们描述了此函数的扩展,以包括目标周围的平底公差区域,以及它在施加距离约束方面的应用,类似于智能项目,并进一步导出具有类似性质的周期扭转约束势。此外,我们在ISOLDE公司(克罗尔,2018[Coll,T.I.(2018),《晶体学报》D74519-530。])以及它们在一些示例中的应用。

2.约束推导

2.1、。自适应距离约束

根据Barron(2019)中所述的广义损失函数导出了距离-应变电位[Barron,J.T.(2019)。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第4326-4334页。皮斯卡塔韦:IEEE。]),修改为包括平底。约束电位(图1[链接])定义为

[E=\cases{0&if$|r-r0|\,\lt\,\tau$,\cr\显示样式{k\ over 2}\ left({{rho}\ over{c}}\ right)-{1\超过2}\左({{\rho}\超过{c}}\右)^2\右]\right\}&如果$\alpha=-\infty,则$\cr\显示样式k{{|2-\alpha|}\ over{\alpha}}\left\{\left[{{(\rho/c)^2}\ over{|2-\ alpha|{}}+1\right]^{\ alpha/2}-1\right\}&否则。}\等式(1)]

哪里

[\rho=\cases{|r-r0|-\tau&if$|r-r0 |\,\gt\,\tau,$\cr 0&否则。}\eqno(2)]

在这里,k个是一个缩放常数,单位取决于具体应用(为了ISOLDE公司,它是弹簧常数,单位为kJ mol−1),第页第页0分别是两个受约束原子之间的电流距离和目标距离,c(c)控制电位保持近似平方的区域宽度,α定义电位在二次区域外平坦的速率,以及τ是否允许偏离第页0不受处罚。忽略平底组件,当α=−2该函数形式相当于REFMAC公司5/智能项目α=-∞对应于使用的Welsch损失巴斯特/TNT公司.值α=2再现标准谐波约束。如Barron(2019)所述[Barron,J.T.(2019).2019 IEEE/CFF计算机视觉和模式识别会议(CVPR),第4326-4334页。皮斯卡塔韦:IEEE。]),α=0和α=2对应于必须特殊处理的一般形式的奇点。

[图1]
图1
带参数的自适应距离抑制电位第页0= 4,τ= 0.1,c(c) = 0.5,k个= 1.

2.2. 自适应扭转约束

由于两个角度值之间的差异θ负极θ0是一个固有的周期函数,约束势本身具有周期形式是合理的。而非周期约束势通常在下列情况下表现良好,即当其梯度接近零时θ负极θ0=±180°(即,当目标周围“井”的宽度很小时),此处的任何非零梯度都会在一阶和二阶导数中产生尖锐的不连续性,并可能导致数值不稳定。据我们所知,用于大分子的周期惩罚函数精炼之前没有描述过。

为了开发合适的潜力,我们从von Mises分布开始(Mardia&Zemroch,1975【Mardia,K.V.&Zemroch,P.J.(1975),《应用统计》第24卷第268页。】; 图2[链接]),正态分布的周期性模拟,

[f(θ|\theta_0,\kappa)={{\exp[\kappa\cos(θ-\theta_0)]}\在{2\pi I_0\kappa/}}上,\eqno(3)]

哪里κ是一个形状参数,类似于正态分布方差的倒数0是0阶修正贝塞尔函数。我们注意到,von Mises分布过去曾用于结构生物学背景中,例如根据剑桥结构数据库(Cole)的数据生成旋转构象等。, 2018【科尔,J.C.,科尔布,O.,麦卡贝,P.,里德,M.G.&泰勒,R.(2018),《化学信息模型》58,615-629。】).

[图2]
图2
冯·米塞斯分布。虽然这具有周期性顶出电势所需的一般形式,但它被归一化,使得曲线下的面积总是等于1。这样做的不良结果是,井的陡度取决于其宽度,并趋向于一条平坦的直线κ接近零。

虽然这种分布遵循周期性自上而下电位所需的一般形式,但它有一个不可取的特征,即其强度(最大梯度)是κ变得无限脆弱κ接近零(相当于将井宽扩大到最大±180°)。可以说,自上而下的潜力更理想的形式是力量约束独立于宽度它的有效井。为了实现这一点,我们对von Mises分布进行了重整化,使其最大梯度的绝对值始终为1。

假设惩罚函数在与目标的偏差为零时应该达到其最小值,我们将起点作为von Mises分布的分子的负值,

[g=-\exp[\kappa\cos(\theta-\theta_0)]。\等式(4)]

然后,

[{{\partial g}\ over{\partical\theta}}=\kappa\sin(\theta-\theta_0)\exp[\kappa \cos(\theta-\theta _0)],\eqno(5)]

[{{\partial^2g}\ over{\partical\theta^2}}=-\kappa\exp[\kappa\cos(\theta-\theta_0)][\kappa\sin(\theta-\theta _0)^2-\cos。\等式(6)]

求解(ψ2/∂θ2)=0表示(ψ/∂θ)达到最大值时

[\Delta\theta_{F\max}=\theta_0+2\tan^{-1}\{[(4\kappa^2+1)^{1/2}-2\kappa]^{1/2}\}。\等式(7)]

将其替换为(5)[链接]并简化产量

[\eqaligno{&{{\partialg}\over{\partical\theta}}\biggr/{\partitalg}\ver{\paratil\theta{}}_{\max}=\cr&{{2^{1/2}\kappa\exp\left\{1\over2}-\kappa-{1\ver2}(4\kappa.2+1)^{1/2}+\kappa[1+\cos(\theta-\theta_0)]\right\}\sin(\theta-\theta_0)}在{[(4\kappa^2+1)^{1/2}-1]^{1/2}}}上。\cr&&(8)}]

在以下方面进行整合θ产量

[E_{rm范数}=-{{2^{1/2}\exp\left[{1\over 2}-{1\ over 2{(4\kappa^2+1)^{1/2]+\kappa \cos(\theta-\theta_0)\right]}\over{[(4\kappa^2+1)^{1/2}-1]^{1/2{}}+C,\eqno(9)]

哪里C是一个积分常数。虽然这有点武断,因为施加的偏差仅取决于电势的导数,但将其值设置为[1-E{{rm范数}|C=0,\theta-\theta_{0}=\pi}],得出图3所示的形式[链接](包括弹簧常数后k个),

[E_{\theta}=\cases{\displaystyle k\left\{1-{{2^{1/2}\exp(-A)[exp(B)-1]}\over{[(4\kappa^2+1)^{1/2]^{1/2%}}\right\}&if$\kappa,\gt\,0$,\cr-k\cos(\theta-\theta_0)&if$\kappa-0$,}\eqno(10)]

哪里

[A={1\over 2}(4\kappa^2+1)^{1/2}-\kappa+{1\ over 2{,\eqno(11)]

[B=\kappa[\cos(\theta-\theta_0)+1]。\等式(12)]

更自然的定义κ因为能量阱的宽度是θ负极θ0作用力降至接近零的位置,此处定义为2ΔθF类最大值(相当于以下较小值的两个标准偏差θ负极θ0). 如果我们将其定义为Δθ0,然后

[\kappa={\displaystyle1-\tan^4\left({δ\teta_0}\over 4}\right)}\over{\displaystyle4\tan^2 \left({δ\teta_0}\over 4}\right)}。\eqno(13)]

虽然此势函数显示出实际效用(如下所示),但它还有一个缺点,即在井区外,势基本上是平的。这不如基于距离的潜力灵活(1)[链接]井外下降速度本身就是一个可调参数。如果我们采取E类θ如(10)所定义[链接],具有可调衰减参数的潜力α(图4[链接])可以定义为

[E_{θ,{\rm adaptive}}=E_θ+k\alpha\exp[\alpha^{1/2}(E_θ-1)][1-\cos(θ-\theta_0].\eqno(14)]

原则上α是无界的,实际上,0到0.5之间的值似乎最有用。负值会导致井外电位变得排斥;大于1的值会导致比简单余弦更陡峭的约束。什么时候?α=0,电势等于(10)[链接]需要注意的是,与(10)相比。[链接]最大梯度不再严格独立于κ对于非零值α,但对于0≤α≤ 0.5.

[图3]
图3
(10)中定义的顶出扭转-应变电位[链接],使用k个=1
[图4]
图4
自适应扭转-应变电位(14)[链接]具有k个=1用于()Δθ0= 60° (κ=3.46)或(b条)Δθ0= 120° (κ= 0.67).

3.实施

自适应距离和扭转约束在ISOLDE公司(克罗尔,2018【Croll,T.I.(2018),《水晶学报》,D74,519-530。】)使用CustomBondForce公司自定义扭力中的类开放式多媒体(伊士曼等。, 2017【Eastman,P.、Swails,J.、Chodera,J.D.、McGibbon,R.T.、Zhao,Y.、Beauchamp,K.A.、Wang,L.P.、Simmonett,A.C.、Harrigan,M.P.,Stern,C.D.、Wiewiora,R.P.和Brooks,B.R.&Pande,V.S.(2017),《公共科学图书馆计算生物学》第13卷,第1005659页。】)并通过奇美拉(ChimeraX)命令行(Pettersen等。, 2021[Petersen,E.F.,Goddard,T.D.,Huang,C.C.,Meng,E.C.,Couch,G.S.,Croll,T.I.,Morris,J.H.和Ferrin,T.E.(2021)。蛋白质科学30,70-82.])作为命令隔离约束距离隔离约束扭转分别是。在每种情况下,都可以选择将模型限制为其当前几何体或同源模板的几何体。中提供了描述这些命令使用的完整文档ISOLDE公司可以通过输入命令访问使用isolde约束以下是每一项的简要总结。

3.1.Isolde约束距离命令

提供了各种选项,用于将模型约束到其自身坐标或同源模板。在最常见的情况下,链(或其片段)的选择被限制为来自模板的匹配选择。如果选择涉及多个链,用户可以决定是否限制链之间的接口。请注意,模板选择不必来自不同的模型:也支持对同一模型内其他链条的几何结构进行约束(这与中使用的NCS约束类似巴斯特; 聪明等。, 2012[Smart,O.S.,Womack,T.O.,Flensburg,C.,Keller,P.,Paciorek,W.,Sharff,A.,Vonrhein,C.&Bricogne,G.(2012),《晶体学报》,D68,368-380。]). 使用以下协议进行约束。

  • (1) 由第一选择定义的所有蛋白质和核酸残基连接成单个超序列,对模板选择也执行相同的操作。

  • (2) 然后使用二级结构匹配算法(作为奇美拉(ChimeraX) 月老工具)给出成对原子的列表,其中每个原子是其残基的“主要”原子(CA表示蛋白质,C4′表示核酸)。在此步骤中无法匹配的残留物将不会受到抑制。

  • (3) 然后对成对的原子集进行排列,以找到最大的伪刚体,其中所有原子的位置差异小于用户定义的公差(默认为5Å)。

  • (4) 在步骤(3)中,主要原子落在对齐范围内的残留物受到如下限制。

    • ()生成一个成对原子的列表(具有表1中名称的原子[链接]出现在两个成对残基中)。如果需要,用户可以指定额外的原子名称,但应考虑这样做会快速增加创建的约束数量。

    • (b条)对于每个原子对,将找到列表中位于当前模板原子的指定截止距离(默认为8º)内的所有其他模板原子(不包括来自相同残基的原子)。

    • (c(c))对于每个找到的模板原子,根据方程(1)在模型中设置相应的约束[链接]与目标距离第页0等于模板中看到的距离。每个约束的行为由四个用户可调整的术语设置。强度术语k个,由参数设置卡帕,的默认值为5。剩下的三个术语集τ,αc(c)作为的功能第页0基于这样一种推理,即距离越大,必然越不确定。平底术语τ设置为容忍×第页0,其中容忍默认值为0.025。压扁参数α设置为−2−下降×ln(第页0),具有默认值下降值4(导致函数形式介于Geman–McClure和Welsch损失函数之间)。谐波井的半宽,c(c),设置为c(c)=井半宽×第页0,具有默认值井半宽值为0.05。

  • (5) 重复步骤(3)-(4),以获取之前刚体对齐未捕获的任何残留物,并迭代,直到无法对齐至少三个残留物。当模型和模板之间的域相对方向不同时,这允许仍然应用合理的约束。

表1
中使用自适应距离约束约束的默认原子ISOLDE公司

由于约束的数量随着包含的不同原子类型的数量以几何形式增加,因此该列表保持较小,依赖于分子动力学力场来保持其余原子的几何结构。也可以使用自定义原子名称的参数隔离约束距离如有必要,可将其与下文所述的扭转约束装置结合使用。当约束到参考模型时,非聚合物残留物在对齐过程中被过滤掉,但当约束到当前模型几何结构时,如果需要,可以包括在内。

残留物类型 受约束的原子
蛋白质 CA、CB、CG、CG1、OG、OG1
核酸 OP1、OP2、C4′、C2′、O2、O4、N4、N2、O6、N1、N6、N9

如图5所示[链接],表1中的蛋白质原子列表[链接]不包括参与肽键的任何原子。这是一个深思熟虑的选择,基于以下许多方面的哲学ISOLDE公司:在任何可能的情况下,模型的细节都应该来自原子在分子动力学力场中的行为,而不是人为的约束。一个类似的基本原理是包含一个适度的平底项:给定一个足够精确的力场,通常只需要距离约束来设置近似任意给定原子对之间的距离。将肽键原子排除在距离约束之外的另一个理由是,肽键原子的重排主要涉及围绕φψ扭转而非直线运动,因此更自然地由扭转约束控制。默认情况下,将侧链原子排除在伽马位置以外的选择也基于类似的原理,而在这一点之外,侧链原子与靠近主干的原子相比,通常表现出更多的位置差异,这使得基于距离的约束不可靠或适得其反。当然,如果需要,可以将基于距离的参考约束和基于扭矩的参考约束结合起来。

[图5]
图5
中用于生成距离约束的默认原子ISOLDE公司的()蛋白质和(b条)核酸。受约束的原子被涂成绿色,并以填充空间的形式显示。选择这些原子是为了生成合理稀疏的约束网络,依靠MD力场来管理详细的几何结构。这些约束对概述参考几何图形的充分性的证明可参见补充电影S1第2页.

选择核酸原子来控制关键位点的相对位置:代表性的碱基发射原子、碱基和核糖之间的连接点、核糖环上的两个原子以及悬垂的磷酸氧原子。

上述参数的默认值是根据交互仿真中的经验选择的,在一系列情况下似乎都能很好地工作。然而,如果默认值导致不满意的结果,则鼓励进行实验:可以通过isolde调整距离命令。在大多数情况下,只有卡帕期限应该需要调整。在涉及较大构象变化的情况下,增加下降; 另一种策略是简单地释放那些明显错误的限制。这个isolde调整距离命令还可以用于设置全局截止值,该全局截止值将显示器限制为仅显示未满足的约束。

虽然如上所述支持对单独的模板模型进行限制,但在实践中,我们发现这在ISOLDE公司仅在有限的情况下:主要是快速改进“遗留”模型精炼在非常低的分辨率和/或噪声密度下,构象会产生较大的漂移,或者在局部分辨率太低以至于二级结构信息丢失的情况下。我们认为,这些约束最常见的用途可能是在刚体放置后和/或进行大规模批量重组之前,将工作模型的某些部分约束到其自身的起始坐标;例如,当将一个现有的模型重新装配成一个新的冷冻电子显微镜图时,相同的复合体以不同的构象出现。中提供了一个示例ISOLDE公司作为教程(可通过隔离tut命令),并涉及重新装配大肠杆菌LptB2FG运输机(PDB入口6兆赫)与ATP-free状态(PDB条目)相关联的映射6m公顷; EMDB代码EMD-9118公司)(李等。, 2019[Li,Y.,Orlando,B.J.&Liao,M.(2019),《自然》,567486-490。]). 图6[链接]显示了改装后与ATP绑定位置相邻的一对螺旋线之间的接口。该接口在无ATP状态下基本打开;由于map和局部原子相互作用的协同影响,紫色显示的约束已经超出了谐阱。在这种情况下,当约束子集与地图明显不一致时,有选择地释放它们是明智的[在巴斯特(智能等。, 2012[Smart,O.S.,Womack,T.O.,Flensburg,C.,Keller,P.,Paciorek,W.,Sharff,A.,Vonrhein,C.&Bricogne,G.(2012),《晶体学报》,D68,368-380。])距离限制实施];这可以通过使用隔离释放距离命令。

[图6]
图6
自适应距离约束ISOLDE公司PDB入口的ATP绑定位置周围6兆赫重新安装到与ATP-free状态(PDN条目)相对应的地图后6m公顷). 每个约束都表示为一个圆柱体,其厚度对应于施加的力。将约束延伸到谐波区域之外,使其颜色从绿色变为紫色;过度压缩的约束装置会变黄(未显示)。中提供了此场景的演示补充电影S3.

3.2.Isolde约束扭转命令

对于自适应距离约束,此命令可用于将工作模型中的扭转约束为其自身的当前值,或约束为来自相同或单独模型的另一个链中的扭转。这些限制目前仅支持蛋白质残留物。可以使用可选参数修改每个应用约束的参数角度范围(相当于Δθ0在方程式13中[链接]; 默认60°)以调整井宽,弹簧常数(k个在方程式14中[链接]; 默认250千焦摩尔−1)设置约束强度,以及阿尔法(默认值0.3)设置衰减率。默认情况下,主干和侧链扭转受到限制,但如果需要,可以使用可选参数禁用这两种扭转。

为了分配约束,首先使用与自适应距离约束相同的算法对齐模型和参考序列。不对齐的残留物不受限制。默认情况下,侧链扭转仅对相同的残留物进行限制。肽键ω二面体不受自适应约束;相反,具有±30°平底的余弦势(添加到现有的AMBER参数化ω二面体能量)用于约束它们顺式反式根据参考模型,除了顺式-模板中的脯氨酸,而模型中的非脯氨酸将保持其原始构象。

这些约束装置的描述示例如图7所示[链接].

[图7]
图7
如图所示,将角度范围为120°的自适应扭转约束装置应用于精氨酸残留ISOLDE公司环境。符合要求的约束(用三角形标记)为青色;对于约束装置内未满足的约束装置,颜色从橙色变为红色(标记为“*”);当前扭力在井外的约束(标记为“!”)为紫色。两个“支柱”之间的角度表示扭力和约束目标之间的当前偏差。青色线框和透明表面是标准和锐化晶体2的用户调整轮廓毫发o个 − DF公司c(c)地图。红色线框是−3σ的轮廓毫发o个 − DF公司c(c)差异图(此视图中没有可见的正差异密度)。

4.扭转-应变参数的影响

虽然我们最终计划在ISOLDE公司通过参数的每次扭转分配,目前每个参数都被分配了整个模型的单个全局值。这种全球违约的分配必然是一个有点模糊的问题,但我们已经努力为弹簧常数,角度范围阿尔法使用PDB条目的参数3财年(安德森等。, 2009[Anderson,D.R.,Meyers,M.J.,Kurumbail,R.G.,Caspers,N.,Poda,G.I.,Long,S.A.,Pierce,B.S.,Mahoney,M.W.,Mourey,R.J.&Parikh,M.D.(2009),生物组织医学化学快报19,4882-4884.])作为试验台。MAPKAP激酶-2的3.8μl分辨率,282残基结构似乎只得到初步的精炼在沉积之前,这似乎是现代早期模型的合理复制品。虽然存在相同蛋白质的高分辨率晶体,但为了生成更真实的场景,我们选择了MAPKAP激酶-3、PDB入口的74%相同、1.8°分辨率模型作为我们的参考模型3小时(成等。, 2010【Cheng,R.,Felicetti,B.,Palan,S.,Toogood-Johnson,I.,Scheich,C.,Barker,J.,Whittaker,M.&Hesterkamp,T.(2010),《蛋白质科学》19,168-173。】). 为了获得尽可能最好的高分辨率参考模型,我们首先进行了一轮重建和精炼PDB条目的3小时.通常建议手动检查和(必要时)重建参考模型,尤其是旧模型;在许多情况下,自动重建和重新定义的输出PDB-重做(乔斯顿等。2014年【Joosten,R.P.,Long,F.,Murshudov,G.N.&Perrakis,A.(2014年),IUCrJ,1,213-220。】)可能是一个比直接从wwPDB下载更好的起点(伯曼等。, 2003【Berman,H.、Henrick,K.和Nakamura,H.(2003),《自然结构分子生物学》,第10期,第980页。】). 此外,作为额外的比较点,我们对PDB条目进行了彻底的重建和重新定义3财年,在ISOLDE公司穿插着约束细化在里面凤凰(黄嘌呤等。, 2012[Afonine,P.V.、Grosse Kunstleve,R.W.、Echols,N.、Headd,J.J.、Moriarty,N.W.、Mustyakimov,M.、Terwilliger,T.C.、Urzhumtsev,A.、Zwart,P.H.和Adams,P.D.(2012)。晶体学报,D68,352-367。])从解决的模型开始角度范围= 120°,阿尔法= 0. 两种晶体的前后验证统计数据如表2所示[链接].

表2
此工作中重建的模型的验证统计信息

  PDB条目3财年 重建 PDB条目3小时 重建
分辨率(Ω) 3.8 3.8 1.8 1.8
R(右)工作 0.328 (0.265) 0.234 0.226 0.212
R(右)自由的 0.388 (0.317) 0.275 0.267 0.236
Ramachandran异常值(%) 14.86 0 0 0
有利(%) 56.52 96.39 95.85 97.36
拉马钱德兰Z轴-分数 −6.81 −0.4 −2.05 −0.37
Rotamer异常值 20.31 0 8.13 0
冲撞得分 69.56 2.35 7.87 3.82
CaBLAM异常值(%) 13.3 1.1 0.8 0.4
摩尔概率分数 4.24 1.26 2.41 1.29
†PDB条目3财年最初采用单一整体B因素,导致非常高R(右)因素。之后的结果B-只考虑因素精炼在里面菲尼克斯定义括号中显示。
Prisant公司等。(2020【Prisant,M.G.,Williams,C.J.,Chen,V.B.,Richardson,J.S.&Richardsson,D.C.(2020),《蛋白质科学》29,315-329。】).

我们对以下合理值进行了三维网格搜索弹簧常数,角度范围阿尔法使用以下协议,每个参数组合有三个技术副本。简而言之,原始PDB条目3财年模型受到重建PDB入口的扭转限制3小时使用所需参数,并在ISOLDE公司随着温度逐渐从100 K降至0 K,增量为10 K,每增量5000个模拟时间步长。示例如所示补充电影S4。然后在菲尼克斯定义(六精炼倒数空间的圆xyz公司和个人B-因子精细化,使用起始坐标作为参考模型)。为了定义“不正确的”残留物,我们使用我们为评估CASP13(Kryshtafovych等。, 2019【Kryshtafovych,A.、Schwede,T.、Topf,M.、Fidelis,K.和Moult,J.(2019)。蛋白质,87,1011-1020。】)模型预测(Croll等。, 2019[Coll,T.I.,Sammito,M.D.,Kryshtafovich,A.&Read,R.J.(2019)。蛋白质,8711113-1127。]; 对于主干,单位弦长的平均值由Δφ,ΔψΔω; 对于侧链,加权平均值为Δχ1Δχ2根据侧链的埋设程度调整弦长)。在每种情况下,“不正确”残留物被定义为得分高于0.15的残留物(大约相当于与样本±45°的平均偏差)。R(右)自由的仅与低分辨率模型中的模型质量相关性较差(Croll,2018【Croll,T.I.(2018),《水晶学报》,D74,519-530。】; 莫里亚蒂等。, 2020【Moriarty,N.W.,Janowski,P.A.,Swails,J.M.,Nguyen,H.,Richardson,J.S.,Case,D.A.&Adams,P.D.(2020),《结晶学报》D76,51-62。】),仅对该参数进行优化是不可取的。相反,我们考虑了四个单独的模型质量读数:R(右)自由的(适合数据),摩尔概率(Prisant等。, 2020【Prisant,M.G.,Williams,C.J.,Chen,V.B.,Richardson,J.S.&Richardsson,D.C.(2020),《蛋白质科学》29,315-329。】)得分(一般立体化学质量),并在骨架和侧链水平与样本匹配,如上所述。如所示补充图S1,之间没有明显的相关性R(右)自由的以及该数据集的后三个度量。图8显示了包围每个测量值最小值的轮廓[链接](). 标记为红色的点表示我们选择的默认值(弹簧常数= 250,角度范围= 60,阿尔法=0.3),代表最低值(每个参数的最保守值,为每个读数产生接近最佳结果。

[图8]
图8
自上而下的效果(方程式10)[链接]或自适应(等式14)[链接]上的扭转约束精炼PDB条目的3财年使用优化的PDB条目3小时作为角度范围(30、60、90、120、150或180°)、α(0、0.1、0.2、0.3、0.4或0.5)和弹簧常数(0、50、100、150、200、250或300 kJ mol)网格搜索的参考−1). 所有车型均已入驻ISOLDE公司50 000个时间步长,逐渐降低温度,然后在凤凰如正文所述。()搜索空间概述。显示的曲面是轮廓最小化R(右)自由的(绿色),摩尔概率分数(透明橙色)、与样本的较大主干偏差(紫色线框)和与样本的大侧链偏差(蓝色)。这些参数的近似最佳平衡如红色球体所示。(b条,c(c),d日)弹簧常数固定为250 kJ mol时,角度范围为30°(黑色)、60°(橙色)或90°(绿色)的结果−1. (b条)精致R(右)自由的(实线)和R(右)工作(虚线)。(c(c))摩尔概率得分(样本模型=1.29)。(d日)示例模型中剩余的较大侧链(实线)或主干(虚线)偏差数。误差线为±1标准偏差。灰色阴影框表示近似最佳区域。

5.讨论

在考虑应用自顶向下的约束时,重要的是要注意交互式建模环境的要求与非交互式环境的要求略有不同精细化。在后一种情况下,由于通常直到(通常是长时间运行的)精炼过程是完整的,目的一般是首先做到无害。也就是说,通常最好是偏向于具有较小谐波区域的约束,以避免以牺牲数据为代价将模型过度强制到模板构造。因此菲尼克斯定义仅对模型扭转施加强有力的限制,限制范围为模板中对应扭转的±30°左右;在中智能项目/REFMAC公司基于5洛雷斯特管道输入中央控制点42(波特顿等。, 2018【Potterton,L.、Agirer,J.、Ballard,C.、Cowtan,K.、Dodson,E.、Evans,P.R.、Jenkins,H.T.、Keegan,R.、Krissinel,E.、Stevenson,K.,Lebedev,A.、McNicholas,S.J.、Nicholls,R.A.、Noble,M.、Pannu,N.、Roth,C.、Sheldrick,G.、Skubak,P.、Turkenburg,J.,Uski,V.、von Delft,F.、Waterman,D.、Wilson,K、Winn,M.和Wojdyr,M.(2018)《水晶学报》。D74、68-84。])这些限制仅适用于间距小于4.2º的原子。

另一方面,在交互式环境中,“过度”约束的影响可以说不那么严重,因为用户能够立即观察到其在实验密度下的局部效应,然后可以选择(有选择地)调整或释放它们,或者将模型重置为预约束状态,然后重试。在这种情况下,为了给从业者提供尽可能多的灵活性,更重要的是要强调大范围参数值的稳定性和与目标的初始偏差。鉴于我们设想的这些约束在ISOLDE公司为了快速改进一个初步模型(例如,一个从自动建造程序中派生出来的模型),我们将默认参数设置为比它们的类似参数宽一些凤凰REFMAC公司5:扭转-应变井为±60°,超过该点的非零梯度;距离限制适用于小于8°的原子间距离(尽管与REFMAC公司5 Geman–McClure约束)。我们注意到,在ISOLDE公司在许多方面与智能项目-基于Geman–McClure约束最近添加到库特(卡萨纳尔等。, 2020【Casañal,A.,Lohkamp,B.&Emsley,P.(2020),《蛋白质科学》,第29期,第1069-1078页。】). 然而,直接比较隔离物库特(或任何非交互式精炼包)超出了本手稿的范围,因为很难从这些包之间的其他实现差异引起的许多混淆因素中提取约束形式的效果。

必须强调的是,这些约束装置(以及一般参考模型约束装置)应被视为手动检查和重建的辅助装置,而非替代装置。如图8所示[链接]经过优化的扭转约束沉降和精制后,282个残渣中约有30个残渣与大规模重建得到的模型存在显著差异;虽然其中许多是由于模型和模板之间的身份不同(因此侧链不受约束)而产生的,但其他则是由于基本的局部构象差异,其中起始构象仍然足够接近,可以很好地落入约束中,或模型和模板所在的站点应该匹配,但在构造上差异太大,限制无法生效。在这种情况下,直接人工干预仍然是最安全的方法。中的可视化隔离物旨在使不满意的约束立即通过眼睛显现出来;未来的工具还将列出这些内容,以支持系统检查。

在考虑这些约束的适用性时,区分两个主要用例是很重要的:(i)壮观的某种几何形状(当初始模型远远不正确时)和(ii)维护几何(当模型基本正确,但数据不足以保持稳定性时)。虽然(i)是许多建模情况下的常见任务,但(ii)适用的情况范围更为多变,这取决于数据的分辨率和各种具体实施细节(最重要的是,使用的特定几何库或MD力场)。考虑到一个大体上非常适合和完善的模型ISOLDE公司(使用琥珀ff14sb MD力场;迈尔等。, 2015【Maier,J.A.,Martinez,C.,Kasavajhala,K.,Wickstrom,L.,Hauser,K.E.&Simmerling,C.(2015),《化学理论计算杂志》,第11期,第3696-3713页。】)我们发现,在局部分辨率高于3.3–3.5°的情况下,继续使用基于参考的扭转约束在很大程度上是不必要的;由于次级结构元素之间的边界变得模糊,依赖于距离约束的近似分辨率截止值出现在4–4.5°左右。

最后,我们注意到,在将大分子模型构建到实验密度(包括此处所述的大分子模型)的背景下,目前大多数自顶向下或自适应约束的实现并没有充分利用其潜力。一般来说,控制约束形状和强度的参数对所有约束都是全局的,或者(在我们的距离-约束实现的情况下)是简单的距离函数。一个例外是HODER(发动机罩)使用的方法PDB-重做,它根据与多个同源结构(如果可用)的比较来调整单个约束的强度。理想情况下,每个单独约束的精确形式应通过贝叶斯策略进行设置:基于我们对该特定站点的先前信息的信心。这种方法的非穷尽输入列表可能包括多序列比对中的守恒、多结构比对中的一致性、保守取代残基的相关构象、局部构象灵活性(通过结构比对和/或局部构象估计B溶剂暴露程度。从萨利和布伦德尔(1993)开始,这种方法在比较建模方面有着悠久的历史[萨利·A.和布伦德尔·T.L.(1993),《分子生物学杂志》,第234期,第779-815页。]),但似乎在实验结构中使用较少精细化。这将是进一步研究的途径。

支持信息


致谢

我们非常感谢艾莉·麦考伊博士在起草这份手稿时提出的有益意见和建议。

资金筹措信息

这项工作得到了威康信托209407/Z/17/Z拨款的支持。

工具书类

第一次引用Afonine,P.V.、Grosse-Kunstleve,R.W.、Echols,N.、Headd,J.J.、Moriarty,N.W.、Mustakimov,M.、Terwilliger,T.C.、Urzhumtsev,A.、Zwart,P.H.和Adams,P.D.(2012)。《水晶学报》。D类68, 352–367. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Anderson,D.R.,Meyers,M.J.,Kurumbail,R.G.,Caspers,N.,Poda,G.I.,Long,S.A.,Pierce,B.S.,Mahoney,M.W.,Mourey,R.J.&Parikh,M.D.(2009)。生物有机医药化学。莱特。 19, 4882–4884. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Barron,J.T.(2019)。2019 IEEE/CVF计算机视觉和模式识别会议(CVPR)第4326–4334页。皮斯卡塔韦:IEEE。 谷歌学者
第一次引用Berman,H.、Henrick,K.和Nakamura,H.(2003)。自然结构。分子生物学。 10, 980. 科学网 交叉参考 谷歌学者
第一次引用Beusekom,B.van,Touw,W.G.,Tatineni,M.,Somani,S.,Rajagopal,G.,Luo,J.,Gilliland,G.L.,Perrakis,A.&Joosten,R.P.(2018年)。蛋白质科学。 27, 798–808. 科学网 公共医学 谷歌学者
第一次引用Casañal,A.、Lohkamp,B.和Emsley,P.(2020年)。蛋白质科学。 29, 1069–1078. 科学网 公共医学 谷歌学者
第一次引用Cheng,R.、Felicetti,B.、Palan,S.、Toogood Johnson,I.、Scheich,C.、Barker,J.、Whittaker,M.和Hesterkamp,T.(2010)。蛋白质科学。 19, 168–173. 公共医学 中国科学院 谷歌学者
第一次引用科尔,J.C.、科尔布,O.、麦卡贝,P.、里德,M.G.和泰勒,R.(2018)。化学杂志。信息模型。 58, 615–629. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Croll,T.I.(2018)。《水晶学报》。D类74, 519–530. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Croll,T.I.、Sammito,M.D.、Kryshtafovych,A.和Read,R.J.(2019年)。蛋白质,87, 1113–1127. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Eastman,P.、Swails,J.、Chodera,J.D.、McGibbon,R.T.、Zhao,Y.、Beauchamp,K.A.、Wang,L.P.、Simmonet,A.C.、Harrigan,M.P.、Stern,C.D.、Wiewiora,R.P.、Brooks,B.R.和Pande,V.S.(2017)。公共科学图书馆计算。生物。 13,e1005659交叉参考 公共医学 谷歌学者
第一次引用Headd,J.J.、Echols,N.、Afonine,P.V.、Grosse-Kunstleve,R.W.、Chen,V.B.、Moriarty,N.W.,Richardson,D.C.、Richardsan,J.S.和Adams,P.D.(2012)。《水晶学报》。D类68, 381–390. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Joosten,R.P.、Long,F.、Murshudov,G.N.和Perrakis,A.(2014)。IUCrJ大学,1, 213–220. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
第一次引用Kryshtafovych,A.、Schwede,T.、Topf,M.、Fidelis,K.和Moult,J.(2019年)。蛋白质,87, 1011–1020. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Li,Y.、Orlando,B.J.和Liao,M.(2019)。自然,567, 486–490. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Maier,J.A.、Martinez,C.、Kasavajhala,K.、Wickstrom,L.、Hauser,K.E.和Simmerling,C.(2015)。化学杂志。理论计算。 11, 3696–3713. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Mardia,K.V.和Zemroch,P.J.(1975年)。申请。斯达。 24,268交叉参考 谷歌学者
第一次引用Moriarty,N.W.、Janowski,P.A.、Swails,J.M.、Nguyen,H.、Richardson,J.S.、Case,D.A.和Adams,P.D.(2020)。《水晶学报》。D类76, 51–62. 交叉参考 IUCr日志 谷歌学者
第一次引用Nicholls,R.A.、Fischer,M.、McNicholas,S.和Murshudov,G.N.(2014)。《水晶学报》。D类70, 2487–2499. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Nicholls,R.A.、Long,F.和Murshudov,G.N.(2012年)。《水晶学报》。D类68, 404–417. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Orbán-németh,Z.,Beveridge,R.,Hollenstein,D.M.,Rampler,E.,Stranzl,T.,Hudecz,O.,Doblmann,J.,Schlögelhofer,P.&Mechtler,K.(2018)。《国家协议》。 13, 478–494. 公共医学 谷歌学者
第一次引用Pettersen,E.F.、Goddard,T.D.、Huang,C.C.、Meng,E.C.、Couch,G.S.、Croll,T.I.、Morris,J.H.和Ferrin,T.E.(2021)。蛋白质科学。 30, 70–82. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Potterton,L.、Agirer,J.、Ballard,C.、Cowtan,K.、Dodson,E.、Evans,P.R.、Jenkins,H.T.、Keegan,R.、Krissinel,E.、Stevenson,K.,Lebedev,A.、McNicholas,S.J.、Nicholls,R.A.、Noble,M.、Pannu,N.S.、Roth,C.、Sheldrick,G.、Skubak,P.、Turkenburg,J.,Uski,V.、von Delft,F.、Waterman,D.、Wilson,K、Winn,M.和Wojdyr,M.(2018)。《水晶学报》。D类74, 68–84. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Prisant,M.G.、Williams,C.J.、Chen,V.B.、Richardson,J.S.和Richardsson,D.C.(2020年)。蛋白质科学。 29, 315–329. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Rice,L.M.&Brünger,A.T.(1994)。蛋白质,19,277–290交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Šali,A.和Blundell,T.L.(1993)。分子生物学杂志。 234, 779–815. 公共医学 科学网 谷歌学者
第一次引用Schröder,G.F.、Brunger,A.T.和Levit,M.(2007)。结构,15, 1630–1641. 科学网 公共医学 谷歌学者
第一次引用Sheldrick,G.M.(2015)。《水晶学报》。C71, 3–8. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Smart,O.S.、Womack,T.O.、Flensburg,C.、Keller,P.、Paciorek,W.、Sharff,A.、Vonrhein,C.和Bricogne,G.(2012)。《水晶学报》。D类68, 368–380. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇开放获取的文章,根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
编号:2059-7983