研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
编号:2059-7983

最大可能性异常子结构的确定

十字标记_颜色_方形_文本.svg

剑桥大学血液学系,英国剑桥CB2 0XY Hills Road
*通信电子邮件:邮箱:rjr27@cam.ac.uk

(2017年6月2日收到; 2017年9月20日接受; 2018年2月1日在线)

描述了一种快速傅里叶变换(FFT)方法,用于确定下部结构大分子晶体中原子的异常散射结构测定X射线单波长反常衍射(SAD)。此方法基于最大似然SAD定相功能,用于解释测量误差以及观测和计算Bijvoet匹配之间的相关性。原理证明表明,该方法可以改进反常散射的测定下部结构在具有挑战性的情况下反常散射来自下部结构很弱,但下部结构也构成了真实散射的重要部分。该方法具有确定性,与现有的SAD多试验双空间方法相比,速度更快下部结构决心。

1.简介

当分子置换方法不可行或不充分时,单波长反常衍射(SAD)定相已成为解决新结构的主要方法(Hendrickson,2014[Hendrickson,W.A.(2014),《生物物理学评论》第47期,第49-93页。]). 随着实验相位选择方法的改进,优化多晶体数据的选择和缩放的方法对SAD的兴起起到了推动作用(Liu等。, 2012[刘,Q.,Dahmane,T.,Zhang,Z.,Assur,Z,Brasch,J.,Shapiro,L.,Mancia,F.&Hendrickson,W.A.(2012).科学,336,1033-1037.]; 福亚迪等。, 2013【Foadi,J.,Aller,P.,Alguel,Y.,Cameron,A.,Axford,D.,Owen,R.L.,Armour,W.,Waterman,D.G.,Iwata,S.&Evans,G.(2013),《结晶学报》D69,1617-1632。】; 阿基等。, 2016【Akey,D.L.,Terwilliger,T.C.&Smith,J.L.(2016),《结晶学报》第72期,第296-302页。】; 特威利格等。, 2016【Terwilliger,T.C.,Bunkóczi,G.,Hung,L.-W.,Zwart,P.H.,Smith,J.L.,Akey,D.L.&Adams,P.D.(2016a),《结晶学报》D72,346-358。】,b条【Terwilliger,T.C.,Bunkóczi,G.,Hung,L.-W.,Zwart,P.H.,Smith,J.L.,Akey,D.L.&Adams,P.D.(2016b),《结晶学报》第72期,第359-374页。】),以及纠正辐射损伤的有效方法(Borek等。, 2013[Borek,D.,Dauter,Z.&Otwinowski,Z.(2013).同步辐射杂志,20,37-48.]).

给定具有足够异常信号的数据,SAD定相是从一个假设中引导出来的,该假设涉及到结构中只有一个原子的位置,原子是逐步添加到结构中的。完整的下部结构通常被认为是所有具有重要意义的原子反常散射,但是下部结构也可以包括不重要的原子反常散射,例如由定位的部分蛋白质或核酸模型分子替换。下部结构足够完整,从下部结构变得足够好,可以进行密度调整、建模和精炼可用于向结构中添加原子,而无需参考异常差异,按照惯例,此时结构不再称为下部结构(McCoy&Read,2010年【McCoy,A.J.和Read,R.J.(2010),《水晶学报》,D66,458-469。】).

定位异常中的初始一个或多个原子下部结构是SAD阶段化引导的关键。目前,初始化下部结构使用改编自小分子晶体学的方法生成,通常将异常差异视为原始衍射观察结果。这个解决方案项目(Terwilliger和Berendzen,1999年【Terwilliger,T.C.和Berendzen,J.(1999),《晶体学报》,D55,849-861。】)根据反常差Patterson的矢量最小函数对前一个或两个原子的网格位置进行排序(Buerger,1970【Buerger,M.J.(1970),《当代晶体学》,纽约:麦格劳-希尔出版社。】; 特威利格等。, 1987【Terwilliger,T.C.,Kim,S.H.&Eisenberg,D.(1987),《结晶学报》A43,1-5。】); 通过对异常差傅立叶图的分析,增加了更多的站点,使用各种度量和自动决策来识别和追求良好的子结构。

在由穆尔坦(德国等。, 1970[Germain,G.,Main,P.和Woolfson,M.(1970),《晶体学报》B26274-285。])和RANTAN公司(姚明,1983[姚,J.-X.(1983),《水晶学报》,A39,35-37。]),反射子集被指定相位,这些相位用于启动反常差异的直接法相位。然而,互惠空间直接法独自一人往往会失败对映体歧视,导致错误的“U原子”解决方案的问题,特别是对于较大的结构。这可以通过在实空间和双空间算法中增强原子性来改善。第一个要开发的双空间算法,摇晃和烘焙(米勒等。, 1993【Miller,R.、DeTitta,G.T.、Jones,R.和Langs,D.A.,Weeks,C.M.和Hauptman,H.A.(1993),《科学》,第259期,第1430-1433页。】),从随机生成的初始原子坐标中导出初始相位,然后在倒数空间之间交替循环细化这些相位直接法(优化最小函数)和具有最小峰(原子)分离距离的傅里叶映射的实际空间峰值拾取。SHELXD公司随后开发的(Schneider&Sheldrick,2002【Schneider,T.R.和Sheldrick,G.M.(2002),《水晶学报》D581772-1779。】),采用了类似的双空间方法,但为该过程注入了优于随机阶段的种子。锐化反常差Patterson的峰值被视为两原子分离矢量,定向原子对被放置在晶胞具有矢量记分功能(Nordman,1966【Nordman,C.E.(1966),《美国晶体学家协会Trans.Am.Crystallogr.Assoc.2》,第29-38页。】). 这个下部结构然后,通过更反常的差分Patterson分析、双空间循环(使用正切公式细化倒数空间中的相位)和随机省略程序,将其扩展到预期的站点数。海斯(Grosse Kunstleve和Adams,2003年[Grosse-Kunstleve,R.W.&Adams,P.D.(2003),《结晶学报》D591966-1973。])修改SHELXD公司算法,以便将Patterson分析中的初始定向双原子子结构放置在晶胞具有快速平移功能,通过固定两个原子实现三个位置的扩展下部结构以及使用第二快速平移函数来搜索单个原子;阶段精炼使用中的切线公式互易空间被实空间中密度平方的相关过程所取代。双空间算法的多试验性质对于具有挑战性的案例来说是计算密集型的,在数千次试验中仅获得一个解决方案并不罕见(Sheldrick,2010[Sheldrick,G.M.(2010),《水晶学报》,D66479-485.]). 如果数据有微弱的异常信号和/或有许多异常散射点,下部结构确定SAD阶段仍然是一个瓶颈,即使有足够的信号表明在正确的子结构下阶段化会成功。

传统的有趣替代品直接法并且相关联的双空间算法将电荷翻转算法应用于异常差异。杜马和范德利(2008[杜马·C·和范德利·A·(2008),《水晶学报》,D64,864-873。])证明了超级翻转(Palatinus&Chapuis,2007年【Palatinus,L.和Chapuis,G.(2007),《应用结晶杂志》,第40期,第786-790页。】)甚至在求解大型子结构时也是有效的。

如果一个足够完整的异常下部结构通常意味着下部结构占大多数反常散射,它可以用于将结构与最大似然SAD(MLSAD)功能(McCoy等。, 2004【McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004),《结晶学报》,D60,1220-1228。】; Pannu&Read,2004年[Pannu,N.S.和Read,R.J.(2004)。晶体学报D60,22-27。]). MLSAD基于Bijvoet对衍射观测的条件是根据下部结构模型。由于MLSAD包括了真实散射的贡献,因此仅考虑散射的反常分量而产生的相位模糊部分被打破。MLSAD成功的一个重要组成部分是使用了对数-似然梯度图(McCoy&Read,2010)【McCoy,A.J.和Read,R.J.(2010),《水晶学报》,D66,458-469。】; Read&McCoy,2011年[Read,R.J.&McCoy,A.J.(2011),《水晶学报》,D67,338-344。]),而不是异常差异傅里叶,编辑和完成子结构夏普(de La Fortelle&Bricogne,1997)[La Fortelle,E.de&Bricogne,G.(1997)。酶法。276,472-494。]). 最近,据显示下部结构通过在整个过程中发挥MLSAD的突出作用,而不仅仅是在大部分下部结构(本科奇等。, 2015【Bunkóczi,G.,McCoy,A.J.,Echols,N.,Grosse-Kunstleve,R.W.,Adams,P.D.,Holton,J.M.,Read,R.J.&Terwilliger,T.C.(2015),《自然方法》,第12期,第127-130页。】);海斯修改为MLSAD log-likelihood梯度下部结构在确定了至少两个场地后,工程竣工了。

尽管在下部结构建筑和SAD阶段最大似然方法中,SAD定相仍然依赖于随机或基于Patterson的方法来确定定相引导中第一个原子的位置。初始化原子的方法库中缺少下部结构是一个最大似然方法。自确定下部结构仍然是结构测定SAD,自最大似然方法在改进大分子晶体学其他方面的方法方面有着既定的记录,我们期望最大似然这些方法应该能够提高下部结构决心。

我们在这里描述了MLSAD目标的近似值,称为法萨德(用于酸碱度激光 正常的ub公司结构判定元件终端),可通过快速傅里叶变换(FFT)计算,以从零开始生成一组试验位置下部结构。有效地,此方法同时测试覆盖网格上异常散射体的所有潜在位置的假设单位单元格。可以使用精确的MLSAD目标细化试验位置,然后使用对数似然梯度图来完成种子结构。这个法萨德搜索目标在自动组合来自实散射贡献和虚散射贡献的信息时保持了MLSAD目标的强度,并因此在异常信号较低但对散射的实际贡献较高时改进了当前方法,例如,当反常散射体是金属离子且波长远离吸收边缘时。

2.启动基于lilihood的下部结构决心

现有的MLSAD对数似然梯度完成函数需要一个起点。对于空的下部结构,MLSAD的(复数)导数都为零,因为计算出的结构因子的变化对相反方向的位移的影响是相同的。下部结构不是空的,计算出的结构系数的变化对复杂平面中不同方向的位移的影响将不同,因为这些变化对振幅的影响不同。

的成功分子置换使用小到单个原子的碎片(麦考伊等。, 2017【McCoy,A.J.、Oeffner,R.D.、Wrobel,A.G.、Ojala,J.R.M.、Tryggvason,K.、Lohkamp,B.和Read,R.J.(2017)。美国国家科学院学报,114,3637-3641。】)启发了一种新的方法来思考SAD定位第一个原子的问题。单原子分子置换使用基于likelihood的快速翻译功能(McCoy等。, 2005【McCoy,A.J.,Grosse-Kunstleve,R.W.,Storoni,L.C.&Read,R.J.(2005),《结晶学报》D61,458-464.】)用单个FFT为原子标记可能的位置。这种快速翻译搜索基于分子重定位可能性目标的线性近似值,以计算的强度表示为翻译函数。我们推断,如果SAD似然函数以计算的强度表示,那么即使没有起始结构,也可以使用相同的方法来搜索异常散射体的位置。

2.1、。非阶段SAD可能性目标

所需目标的准确版本可以通过调整用于计算对数似然梯度MLSAD图的方法来计算。MLSAD目标是观测到的结构因子振幅的函数Bijvoet对,以及相应的计算结构系数,H(H)+H(H)−*(复共轭结构系数对于负数)和方差项。如果下部结构由一种具有散射因子的异常散射体组成(f)+如果''(其中(f)=(f)0+(f)′),H(H)+H(H)−*可以用单个结构因素, U型,由单位重量的点原子计算得出。如果我们假设所有原子都有单位占有率B根据威尔逊分布估计的因子,一个简单的公式U型应用,

[{\bf U}({\bf-h})=\textstyle\sum\limits_j\exp(2\pii{\bfh}\cdot{\bv-x}_j),\eqno(1)]

其中和是在单位单元格。可以对其进行修改,以考虑不同的占用率和B与平均值不同的因素,

[{\bf U}({\bf-h})={\textstyle\sum\limits_j o_{j}}\exp\left(-{{\Delta B_{j{|{\bfs}|^{2}}\ over{4}}\ right)\exp(2\pii{\bfh}\cdot{\bf2}_{jneneneep).\eqno(2)]

然后,通过考虑两个Friedel配对的散射因子和总体Wilson散射因子,得到一对计算出的结构因子B因素,

[\eqaligno{{\bf H}^+({\bf-H})&={\bv U}{{B_{\rm Wilson}|{\bfs}|^2}\over 4}\right).&(3b)}]

请注意U型导致的相位发生相同的变化H(H)+H(H)负极*但是,由于MLSAD似然函数的评估涉及到对相应真实结构因子的所有可能阶段进行积分,因此似然目标值不变。(根据Harker相位结构可视化H(H)+H(H)−*与圆的重叠程度相同,但整个结构是旋转的。)因此,MLSAD似然函数可以定义为U型2= |U型|2。分配给的阶段U型因此,它是任意的,为了方便起见,它可以被视为纯粹真实的。图1[链接]说明了对数似然MLSAD目标随U型2以及哈克纯真实建筑U型对应于曲线上的几个点。

[图1]
图1
锥虫毒素测试用例中(8,15,21)反射的SAD似然函数,作为|U型|2.灰色箭头对图,说明了哈克特殊值的构造|U型|2曲线上对应的点。在每个Harker构造中,黑色箭头表示H(H)+H(H)−*,而蓝色和红色箭头表示它们各自的假想分量。蓝色和红色圆圈,半径对应于F类+F类负极分别表示F类+F类负极.

2.2. 计算非相位SAD似然目标的快速近似值

类似于分子置换增强的快速翻译功能(McCoy等。, 2005【McCoy,A.J.,Grosse-Kunstleve,R.W.,Storoni,L.C.&Read,R.J.(2005),《结晶学报》D61,458-464.】)基于作为计算强度函数的分子置换可能性目标的线性近似值,该函数是以计算强度的预期值为中心的一阶泰勒级数近似值。类似地Phassade公司快速SAD转换函数可以从以预期值为中心的MLSAD似然目标的泰勒级数近似导出U型2如果表示MLSAD似然目标的对数L(左),然后

[L(语言U^2\rangle)\simeq L(U^2)+{{部分L(语言U ^2\ rangle

如上所述,U型可以被视为纯实数U型,简化了线性近似所需导数的表达式,

[\eqalinno{\bf H}^+&=U(f+if'')\exp\left(-{{B_{\rm Wilson}| ^2}\over 4}\right)\cr&=A^++iB^+,&(5a)}]

哪里

[\eqalign{A^+&=Uf\exp(-B_{\rm Wilson}|{\bf s}|^2/4),\cr B^+&=Uf''\exp

[\eqaligno{{\bf H}^{-*}&=U(f-if'')\exp\left(-{{B_{\rm Wilson}|{\bf-s}|^2}\over 4}\right)\cr&=A^-+iB^-,&(5b)}]

哪里

[\eqalign{A^-&=Uf\exp(-B_{\rm Wilson}|{\bf s}|^2/4)\cr B^-&=-Uf''\exp

线性近似斜率的导数是使用链式法则求得的,用已经需要的偏导数表示精炼下部结构针对MLSAD的可能性目标(McCoy等。, 2004【McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004),《结晶学报》,D60,1220-1228。】)或用于计算对数似然梯度图(McCoy&Read,2010【McCoy,A.J.和Read,R.J.(2010),《水晶学报》,D66,458-469。】),

[\eqaligno{&{{\部分L}\ over{\部分U^2}}={1\over{2U}}\ left{\部分U}}+{{\部分L}\over{\部分B^-}}{\部分B ^-}\ over{\partial U}}\right)\cr&={1\over{2U}}\ left(f{\partical L}\over{\ partial A^+}}+f“”{\partital L}\ over}+f{\ partical L}\ over{\partial A^-}}-f“”{\ partital L}\over{partial B^-}\ right)\ exp\left(-{B_{\rm Wilson}|{\bf s}|^2}\超过4}\右)。\cr&&(6)}]

方程式(6)[链接]这与McCoy&Read(2010)的方程式(6)密切相关【McCoy,A.J.和Read,R.J.(2010),《水晶学报》,D66,458-469。】)当用纯实数表示时U型.将线性近似集中于预期值U型2确保翻译搜索中遇到的值最准确。预期值可以包括现有局部结构,下部结构。平移搜索对原子期望值的贡献,加上它的对称副本,简单地等于对称操作符的数量乘以期望强度因子(统计因子这通常是1)对于反射,由被放置原子的占有率加权,

[\langle U^2\rangle=U_{\rm part}^2+\varepsilon N_{\rma sym}o^2。\等式(7)]

图2[链接]图1显示了相同情况下的线性近似值[链接],专注于U型2可能会遇到下部结构具有单个完全占据的唯一原子,并以相应的预期值为中心U型2,对称操作符的数量。

[图2]
图2
图1所示的似然函数的展开图[链接],强调了搜索一个完全占据的硒原子时可能遇到的区域。黑色的线性近似值以|U型|2,等于中对称运算符的数量空间组 P(P)212121,四个。

利用Navaza&Vernoslova(1995[Navaza,J.和Vernoslova,E.(1995),《结晶学报》A51,445-449。]). 在此框架中局部结构搜索原子的每个对称相关副本的因子只是一个与原子的搜索占用相对应的实数。一旦从FFT中的峰值中选择了原子的试验位置,就可以使用MLSAD目标来细化所得到的异常散射体模型,B因子和方差项。

2.3. 搜索中使用的差异术语

计算MLSAD目标需要估计与模型计算的实散射和虚散射分数相关的方差项。与分子置换不同的是,在这种情况下,人们通常对总有序散射的先验估计有合理的信心非对称单元对于晶体(只有对应于整数分子数的离散选项),关于散射量的先验知识存在相当大的不确定性反常散射。这对于浸泡实验来说尤其是一个问题,但即使是硒代蛋氨酸阶段化,一个或多个蛋氨酸残留物也很可能排列不良。对于空模型或在下部结构,但很难准确预测当原子处于下部结构正确放置。

在分子置换搜索中相位器(斯托罗尼等。, 2004【Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004),《结晶学报》,D60,432-438。】; 麦考伊等。, 2005【McCoy,A.J.,Grosse-Kunstleve,R.W.,Storoni,L.C.&Read,R.J.(2005),《结晶学报》D61,458-464.】),方差项减少为预期解释的散射分数。然而,在这项工作中,我们还没有尝试调整精细方差,以获得在子结构中放置额外原子的效果。

2.4. 搜索原子的占用

下部结构决心,可以有相当大的先验的放置的反常散射体占用率的不确定性,特别是对于浸泡实验或结合卤化物。根据哈克结构进行可视化,改变所放置原子的占有率,缩放与两个衍射观测相对应的圆的相对位移;尽管如此,将最佳入住选择的可能性目标最大化的方向上的微小转变将增加可能性得分,而过大的转变甚至可能导致可能性得分降低。这些考虑表明,进行搜索时,最好使用比预期中原子占用更少的空间下部结构。在无限小占用的限制下,这种搜索对应于对数似然梯度计算。对搜索原子使用低初始占用率的一个优点是,不必担心原子正确放置时会出现方差项的减少。在当前版本的法萨德算法。

3.完成部分下部结构

因为法萨德目标是基于线性近似的,可以包括固定背景的贡献下部结构,可以完成部分下部结构通过使用法萨德一次选择一个或多个新原子。或者,对数似然梯度完成算法(Read&McCoy,2011[Read,R.J.&McCoy,A.J.(2011),《水晶学报》,D67,338-344。])可以使用,从下部结构只包含一个唯一的原子。这两种方法应该会产生类似的结果,但它们的不同之处在于法萨德target评估在特定位置包含具有定义占用率的原子的效果,而log-likelihood梯度图评估在每个位置异常散射占用率无限小增加时对似然目标的影响。作为法萨德接近零时,这两种方法应该会收敛。这些考虑为探索测试计算中假设占用率的不同选择提供了第二个理由。

对于非对映空间群,对第一个原子的搜索将产生与反转相关的位置对,对应于下部结构并指定原产地选择。根据对称性以及该原子是否位于特殊位置下部结构可能是中心对称的,在这种情况下,对下一个原子的搜索也会产生通过反转相关的位置对。为了打破中心对称性并避免混合对应于不同手选择的溶液,有必要向下部结构一个接一个直到中心对称性被打破。此时,如果搜索中存在多个有效峰值,则可以同时添加多个原子。

4.试验计算

在开发过程中使用了几个测试用例来建立合理的默认值并衡量新算法的性能,该算法是根据当前的海斯算法,包括相位器对数似然梯度完井(Bunkóczi等。, 2015【Bunkóczi,G.,McCoy,A.J.,Echols,N.,Grosse-Kunstleve,R.W.,Adams,P.D.,Holton,J.M.,Read,R.J.&Terwilliger,T.C.(2015),《自然方法》,第12期,第127-130页。】). 选择这些案例来采样具有不同反常信号水平的子结构,并评估反常散射体实际散射贡献的解释效果。这些测试证明了该方法的原理,但尚未针对培训中未使用的大型测试集进行详尽的表征。

4.1、。色氨酸中的硒代蛋氨酸

来自束状Critidia fasculata(PDB条目1平方公里8; 阿尔菲等。, 1999【Alphey,M.S.,Leonard,G.A.,Gourley,D.G.,Tetaud,E.,Fairlamb,A.H.&Hunter,W.N.(1999),《生物化学杂志》274,25613-25622。】)最初使用硒代蛋氨酸衍生物通过多波长反常衍射测定,但仅使用峰值波长(0.9790º;Bunkóczi公司等。, 2015【Bunkóczi,G.,McCoy,A.J.,Echols,N.,Grosse-Kunstleve,R.W.,Adams,P.D.,Holton,J.M.,Read,R.J.&Terwilliger,T.C.(2015),《自然方法》,第12期,第127-130页。】). 只有一个硒位点,对应于结构中的单有序蛋氨酸。这个法萨德搜索完全占据的硒原子会产生一个唯一的峰Z轴-得分20.6分;该站点最终的对数似然增益(LLG)为575。在配备3.5 GHz Xeon处理器的Mac Pro上,整个计算(包括最终阶段化)总共需要1.9秒。这个下部结构也可以通过默认运行海斯,在不进行最终相位计算的情况下,总计13.6s。

要获得清晰的信号,不需要将硒原子完全占据。事实上,使用0.05到1.0的占用率进行搜索,在信噪比和运行时间方面都会得到非常相似的结果。

4.2. 蛋清溶菌酶碘化物浸泡液

这项测试使用了在铜旋转阳极源上收集的数据,这些数据来自于浸泡在0.5中的鸡蛋白溶菌酶的四方晶体M(M)碘化钾;这些数据是为了中央处理器4和菲尼克斯分阶段实验教程相位器(https://www.phaser.cimr.cam.ac.uk/index.php/Tutorials网站). 正确的14个原子的精细碘占据率下部结构溶液范围从0.11到0.73。当搜索占用率设置得太高时,搜索的信噪比会大大降低,至少部分是因为噪声堆积在特殊位置。例如,当搜索占用率设置为1时,地图中最大的特征是洞,最深的洞(在双轴上)具有Z轴-28.3分。这张图中的峰表明第一个原子有六种可能的解决方案。其中,列表中的第二个(Z轴-得分6.8)对应于在决赛中占有率最高的碘化物位点下部结构;最终LLG为127.5。第一个峰值(Z轴-得分7.0)也是正确的,尽管这是一个较弱的站点,其LLG为76.3,但其余四个站点是不正确的。相比之下,0.6或更低的搜索占用率会产生一个单一的优势位点,这对应于在完整的下部结构。随着搜索占用率的降低,快速SAD转换搜索图中最深的洞变得更浅,信噪比提高,占用率越低Z轴-8.8分。

“空间”组P(P)4212是对映异构的,因此在下部结构搜索。一旦放置了第一个站点,就可以定义源站,并且可以添加多个新站点,这些站点是新搜索中的重要峰值。下部结构可以使用法萨德搜索或log-likelihood梯度补全,这两种方法都能找到与噪声有非常明显区别的额外站点。log-likelihood梯度补全算法已经过高度优化,因此在当前实现中可以更快地生成完整的解。

使用查找第一个站点法萨德使用0.05的搜索占用率,搜索需要2.3秒,而放置剩余13个具有log-likelihood梯度完成的站点需要额外9.1秒,总计11.4秒。相比之下,默认运行时间为海斯需要58.7秒才能确定下部结构共有14个场地,其中4个场地在分阶段和对数似然梯度完成计算期间被丢弃相位器,以获得相同的下部结构用新方法发现。

4.3.酸尿梭菌铁氧还蛋白

的结构酸尿梭菌 铁氧还蛋白根据收集到的数据进行了优化,分辨率达到0.94º(PDB条目2英尺/分钟; 多泰等。, 1997【Dauter,Z.,Wilson,K.S.,Sieker,L.C.,Meyer,J.&Moulis,J.-M.(1997).生物化学,36,16065-16073.】),从之前以1.84Å分辨率确定的结构开始(PDB条目1个fdn; 杜埃等。, 1994[Duée,e.D.,Fanchon,e.,Vicat,J.,Sieker,L.C.,Meyer,J.&Moulis,J.-M.(1994),《分子生物学杂志》,243,683-695。]). 收集的数据波长为0.883Å,没有试图优化来自两个Fe中Fe原子的异常信号4S公司4这个蛋白质中的簇。因此,异常信号很弱,尽管可以检测到,但很难确定下部结构使用基于使用异常差异的常规方法。请注意,在大约2º分辨率之外几乎没有异常信号,而每个铁原子在大约1º分辨率下约占总实际散射的4%,接近数据的极限。

海斯只有在解决下部结构当新算法采用相位器采用log-likelihood梯度完井,因此考虑了完井阶段散射的真实分量。一次成功的运行需要1105s才能找到结构中的所有8个Fe原子和所有16个s原子,以及对应于有序C、N和O原子的19个低占有率位点。

单原子分子置换方法的初步测试(McCoy等。, 2017【McCoy,A.J.、Oeffner,R.D.、Wrobel,A.G.、Ojala,J.R.M.、Tryggvason,K.、Lohkamp,B.和Read,R.J.(2017)。美国国家科学院学报,114,3637-3641。】)结果表明,在铁原子对原子分辨率的实际散射贡献中有足够的信号来可靠地放置它们。使用法萨德搜索时,没有必要选择只关注散射的实部或虚部。事实上,使用快速SAD平移搜索搜索第一个铁原子可以得到一个占主导地位的单解Z轴-在8.0秒内,得分为17.5,LLG为106.4。对于溶菌酶测试用例,将单个原子放入空间组 P(P)4212定义手和原点。

log-likelihood梯度补全可以搜索其他Fe原子或原子类型的组合,当使用原子类型组合时,可以使用似然分数来区分正确的手。完成了两项测试。第一次测试寻找了额外的铁或硫原子,测试了这两种原子P(P)4212及其对映体 P(P)41212,并被限制为两个完成周期。中的搜索P(P)4212发现共有27个位点,其中6个标记为Fe,21个标记为S,最终LLG得分为6094。相反,在P(P)41212发现共有33个位点,其中17个标记为Fe,16个标记为S,但即使有更多的位点,最终LLG得分也只有5299分。这次运行,测试空间组及其对映体,耗时172.3秒,总耗时180.3秒,而海斯计算发现了相似数量的站点,但没有解决手的选择问题。第二项测试寻找额外的Fe、S或N原子(N原子作为C、N或O的替代物),并一直进行,直到下部结构,用1115.9秒在两个空间组中搜索。中的搜索P(P)4212共发现388个位点,其中8个标记为Fe,40个标记为S,340个标记为N,最终LLG得分为32 304,而搜索结果为P(P)41212共发现395个位点,其中15个被标记为Fe,367个被标记为S,13个被标记为N,最终LLG得分为25116。在沉积的PDB文件中,共有564个非H原子的记录,包括所有溶剂原子和替代构象。注意,微弱的异常信号足以清楚区分手的选择,并有助于正确识别元素类型。然而,在这种情况下,实际散射信号占主导地位,以至于基本上可以用错误的手获得正确的原子位置。

4.4. 氨甲酰磷酸合成酶大亚基出口杆菌物种255-15

氨甲酰磷酸合成酶(PDB条目2个pn1)是由结构基因组学联合中心使用双波长硒代蛋氨酸确定的未发表结构MAD阶段。使用任一波长的数据,通过SAD定相可以解决此结构,但使用此处报告的测试中使用的高能远程数据集(波长0.91837º)要困难得多。A类下部结构包含所有七个硒位点,可以用海斯在1171秒内,当相位器使用log-likelihood梯度补全算法,但当海斯仅限于早期的直接方法(Bunkóczi等。, 2015【Bunkóczi,G.,McCoy,A.J.,Echols,N.,Grosse-Kunstleve,R.W.,Adams,P.D.,Holton,J.M.,Read,R.J.&Terwilliger,T.C.(2015),《自然方法》,第12期,第127-130页。】).

使用当前默认协议法萨德搜索无法解决此问题下部结构。中第一个原子的默认搜索下部结构从晶体二重态中得到一个约1°原子的单一主溶液。通过降低阈值以保留更长的潜在解决方案列表,可以在10.1s内获得五个单站点解决方案的列表,其中包括正确的解决方案(列表中的第4个)空间组 C2单原子子结构始终是中心对称的,因此有必要逐个添加原子,以避免添加保持对称中心的对,直到这种对称性被破坏。从第一个原子的更详尽搜索中找到的正确的单个站点开始,使用默认搜索法萨德在216.5秒内找到三个可能的解决方案;其中第一个是正确的,LLG得分为170.0,而其他两个溶液(LLG值为165.7和156.1)都有一个错误的位置,未能将硒原子放置在最高的位置B精细结构中的因素。一个更公平的测试是从第一个原子的所有五个潜在解开始分支搜索,在这种情况下,在2569秒内找到了相同的三个潜在解。

5.讨论

5.1. 与依赖估算的方法的比较F类A类

当前的方法下部结构决定建立在对F类A类反常散射原子的结构因子,通过系数平方计算出的Patterson和/或直接法使用F类A类直接估算。绝大多数异常下部结构测定使用罗斯曼近似(罗斯曼,1961[Rossmann,M.G.(1961),《结晶学报》,第14期,第383-388页。]; 亨德里克森,2014【Hendrickson,W.A.(2014),Q.Rev.生物物理学,47,49-93。】),

[F_{\rm A}(h)\simeq{{F^{o}}\在{2f''}}}\增量F_{rm ano}(h).\eqno(8)]

此近似值仅在反常散射影响相对较小,可以假设法向散射模量可以取Bijvoet对强度平方根的平均值。近似值过高估计F类A类对于其中的结构系数F类酸碱度F类A类处于同一阶段,因为(8)[链接]近似包含相位差正弦的表达式,

[F{\rm A}(h)\simeq{{F^{o}}\在{2f''}}{{\Delta F_{\rmano}(h)}\over{\sin(\varphi_{\rma PH}-\varphi_{\rmA})}}.\eqno(9)]

正弦项引入了噪声,反常差值中的峰值Patterson将是半重(Rossmann,1961[Rossmann,M.G.(1961),《结晶学报》,第14期,第383-388页。]). 此外,如果只有SAD数据可用,则此近似不会反映异常散射体的实际散射的任何贡献。

如果同构差异也是已知的,例如从MAD实验中,那么它们提供的信息是互补的,可以将它们结合起来,以便更好地估计F类A类.F类A类可以通过求解一组联立方程来估计(Hendrickson,1985【Hendrickson,W.A.(1985),《美国晶体学会学报》第21期,第11-21页。】). 尽管估计F类A类当MAD数据可用时,它们更加稳健,实际上它们可能会受到辐射损伤的影响,当存在异常散射的原子并吸收能量时,辐射损伤往往会很严重,还可能受到其他系统误差的影响,例如缩放误差。特威利格(1994)【Terwilliger,T.C.(1994),《结晶学报》,D50,11-16。】)显示了对MAD数据的贝叶斯分析,将先验概率应用于F类A类基于预期散射的估计F类A类在存在重大错误的情况下。

这个Phassade公司搜索避免了任何估算要求F类A类,因为SAD似然目标直接基于Bijvoet对结构因素。该目标会自动考虑由原子组成的实散射和虚散射的影响下部结构,因此,没有必要提前确定对信号的哪些贡献是重要的。因此,对于大部分信号来自真实散射贡献的子结构,如铁氧还蛋白这里讨论的案例,以及反常散射捐款数额很大。

5.2. 与直接法的比较

也许令人惊讶的是,一种完全忽略反射三元组之间的相关性的方法可以取得如此成功,而反射三元类被认为是最强大的子结构确定方法的关键。尽管当前的算法是完全确定的,建立在系统(尽管是分支的)基础上搜索。这意味着,忽略这些相关性所放弃的东西,至少在很大程度上,通过更加严格地考虑统计效应,特别是测量误差和模型不完整性误差的传播,已经得到了恢复。

5.3. 未来的方向

目前法萨德SAD似然目标的搜索和log-likelihood梯度补全方法对于信号相当清晰且站点数量相对较少的数据集来说,与现有方法相比已经具有竞争力。然而,当然还有从一些增强了双空间方法威力的方法中获得灵感的空间。不必局限于搜索单个原子;在两者中SHELXD公司(Schneider&Sheldrick,2002年【Schneider,T.R.和Sheldrick,G.M.(2002),《水晶学报》D581772-1779。】)和海斯(格罗斯·昆斯特里夫和亚当斯,2003年)[Grosse-Kunstleve,R.W.&Adams,P.D.(2003),《结晶学报》D591966-1973。])从异常中选择的峰值差分Patterson图用于搜索由相应矢量分隔的原子对。

对于特别困难的情况,如双空间方法所发现的那样,在搜索中添加随机元素可能会有所帮助。例如,随机删除站点子集,然后重新扩展,扩展了下部结构中的确定SHELXD公司(Schneider&Sheldrick,2002年【Schneider,T.R.和Sheldrick,G.M.(2002),《水晶学报》D581772-1779。】).

通过将法萨德在单个任务中搜索具有log-likelihood梯度完成的第一个原子(或原子对)。为了保持健壮性,必须避免一次添加多个站点,只要下部结构是中心对称的,但在中心对称被破坏后,允许同时添加多个站点可以提高效率。

我们预计最大似然接近下部结构测定将进一步增强该方法的鲁棒性、威力和方便性。当算法通过对更广泛数据的测试进行验证后,它们将被纳入相位器软件。

资金筹措信息

本研究得到了Wellcome信托基金(RJR首席研究员,授予082961/Z/07/Z)和生物技术和生物科学研究委员会授予CCP4的奖项(BBSRC授予BB/L006014/1)的支持。这项研究由剑桥医学研究院的威康信托战略奖100140推动。

工具书类

第一次引用Akey,D.L.、Terwilliger,T.C.和Smith,J.L.(2016)。《水晶学报》。D类72, 296–302. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Alphey,M.S.、Leonard,G.A.、Gourley,D.G.、Tetaud,E.、Fairlamb,A.H.和Hunter,W.N.(1999)。生物学杂志。化学。 274, 25613–25622. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Borek,D.、Dauter,Z.和Otwinowski,Z.(2013)。J.同步辐射。 20, 37–48. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Buerger,M.J.(1970年)。当代晶体学纽约:McGraw–Hill。 谷歌学者
第一次引用Bunkóczi,G.,McCoy,A.J.,Echols,N.,Grosse-Kunstleve,R.W.,Adams,P.D.,Holton,J.M.,Read,R.J.&Terwilliger,T.C.(2015)。自然方法,12, 127–130. 科学网 公共医学 谷歌学者
第一次引用Dauter,Z.、Wilson,K.S.、Sieker,L.C.、Meyer,J.和Moulis,J.-M.(1997)。生物化学,36, 16065–16073. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Duée,e.D.、Fanchon,e.、Vicat,J.、Sieker,L.C.、Meyer,J.&Moulis,J.-M.(1994)。分子生物学杂志。 243, 683–695. 公共医学 科学网 谷歌学者
第一次引用Dumas,C.和van der Lee,A.(2008)。《水晶学报》。D类64, 864–873. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Foadi,J.、Aller,P.、Alguel,Y.、Cameron,A.、Axford,D.、Owen,R.L.、Armour,W.、Waterman,D.G.、Iwata,S.和Evans,G.(2013年)。《水晶学报》。D类69, 1617–1632. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Germain,G.,Main,P.&Woolfson,M.M.(1970年)。《水晶学报》。B26, 274–285. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Grosse-Kunstleve,R.W.和Adams,P.D.(2003)。《水晶学报》。D类59,1966年至1973年科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Hendrickson,W.A.(1985年)。事务处理。Am.水晶师。协会。 21, 11–21. 中国科学院 谷歌学者
第一次引用Hendrickson,W.A.(2014年)。Q.生物物理学评论。 47, 49–93. 科学网 交叉参考 公共医学 谷歌学者
第一次引用La Fortelle,E.de&Bricogne,G.(1997)。方法酶制剂。 276, 472–494. 公共医学 科学网 谷歌学者
第一次引用Liu,Q.、Dahmane,T.、Z.、Assur,Z.、Brasch,J.、Shapiro,L.、Mancia,F.和Hendrickson,W.A.(2012)。科学类,336,1033–1037科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用McCoy,A.J.、Grosse-Kunstleve,R.W.、Storoni,L.C.和Read,R.J.(2005)。《水晶学报》。D类61, 458–464. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Oeffner,R.D.、Wrobel,A.G.、Ojala,J.R.M.、Tryggvason,K.、Lohkamp,B.和Read,R.J.(2017)。程序。美国国家科学院。科学。美国,114, 3637–3641. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用McCoy,A.J.和Read,R.J.(2010年)。《水晶学报》。D类66, 458–469. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004)。《水晶学报》。D类60, 1220–1228. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Miller,R.、DeTitta,G.T.、Jones,R.和Langs,D.A.、Weeks,C.M.和Hauptman,H.A.(1993)。科学类,259, 1430–1433. CSD公司 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Navaza,J.和Vernoslova,E.(1995年)。《水晶学报》。A类51, 445–449. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Nordman,C.E.(1966年)。事务处理。Am.Crystallogr公司。协会。 2, 29–38. 中国科学院 谷歌学者
第一次引用Palatinus,L.和Chapuis,G.(2007年)。J.应用。克里斯特。 40, 786–790. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Pannu,N.S.和Read,R.J.(2004)。《水晶学报》。D类60, 22–27. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Read,R.J.和McCoy,A.J.(2011)。《水晶学报》。D类67, 338–344. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Rossmann,M.G.(1961年)。《水晶学报》。 14, 383–388. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Schneider,T.R.和Sheldrick,G.M.(2002)。《水晶学报》。D类58, 1772–1779. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Sheldrick,G.M.(2010年)。《水晶学报》。D类66, 479–485. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004)。《水晶学报》。D类60, 432–438. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.(1994)。《水晶学报》。D类50, 11–16. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.和Berendzen,J.(1999)。《水晶学报》。D类55, 849–861. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.、Bunkóczi,G.、Hung,L.-W.、Zwart,P.H.、Smith,J.L.、Akey,D.L.和Adams,P.D.(2016)).《水晶学报》。D类72,346-358科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.、Bunkóczi,G.、Hung,L.-W.、Zwart,P.H.、Smith,J.L.、Akey,D.L.和Adams,P.D.(2016)b条).《水晶学报》。D类72, 359–374. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.、Kim,S.-H.和Eisenberg,D.(1987年)。《水晶学报》。A类43, 1–5. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用姚,J.-X.(1983)。《水晶学报》。A类39,35-37交叉参考 科学网 IUCr日志 谷歌学者

这是一篇开放获取的文章,根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
编号:2059-7983