使X射线自由电子激光晶体学能够从有限数量的晶体挑战生物系统

  1. 莫纳林·乌尔维罗金科恩
  2. 奥利弗·B·泽尔丁
  3. 阿特姆·柳比莫夫
  4. 约翰·哈特尼
  5. 亚伦·S·布鲁斯特
  6. 尼古拉斯·K·沙特
  7. Axel T Brunger公司  是通讯作者
  8. 威廉·魏斯  是通讯作者
  1. 美国斯坦福大学
  2. Janelia研究院,美国
  3. 美国劳伦斯伯克利国家实验室
  4. 美国斯坦福大学霍华德·休斯医学院

摘要

X射线自由电子激光器(XFEL)具有很大的潜力,可以用来测定使用当前同步辐射源难以解决的大分子晶体结构。之前的XFEL研究通常涉及数千到数百万衍射图像的收集,部分原因是数据处理方法的局限性。我们实现了一个基于经典后细化技术的数据处理系统,适用于XFEL衍射数据的特定特性。当应用于使用不同样品输送系统和XFEL束参数收集的三种不同蛋白质的XFEL数据时,我们的方法提高了衍射数据的质量以及由此产生的精细原子模型和电子密度图。此外,可以将收集准确数据集所需的反射观测次数减少为几个观测值。这些发展将有助于将XFEL结晶学的适用性扩展到具有挑战性的生物系统,包括样本有限的情况。

https://doi.org/10.7554/eLife.05421.001

eLife摘要

大型生物分子(或大分子)具有复杂的三维结构。X射线结晶学是一种常用于确定这些结构的技术,它涉及将X射线束指向从感兴趣的大分子中生长出来的晶体。晶体中的大分子散射X射线以产生衍射图案,晶体旋转以提供进一步的衍射图像。然后,可以从这些图像中反向工作,并阐明三维大分子的结构。

X射线束的威力足以破坏晶体,科学家们正在开发新的方法来解决这个问题。最近的一项发展使用“X射线自由电子激光器”来规避对晶体造成的损坏。然而,这种方法的早期应用需要大量收集许多晶体和数千到数百万衍射图案,因为处理衍射数据的方法远不是最佳的。

Uervirojnangkoorn等人现在开发了一种新的数据处理程序,专门用于使用X射线自由电子激光器获得的衍射数据。该方法用于从三种不同大分子(在本例中为三种不同蛋白质)的晶体中收集的衍射数据。对于这三种方法,新方法需要更少的衍射图像来确定结构,并且在一种情况下,比现有方法揭示了更多关于结构的细节。

现在,这种新方法有望使用X射线自由电子激光器的结晶学研究更广泛的大分子,包括可用晶体很少的情况。

https://doi.org/10.7554/eLife.05421.002

介绍

辐射损伤常常限制高分子晶体结构的分辨率和准确性(Garman,2010年;Zeldin等人,2013年). 飞秒X射线自由电子激光(XFEL)脉冲使人们能够在辐射损伤开始之前观察分子结构,并捕获化学过程的动力学(索莱姆,1986年;Neutze等人,2000年). 因此,自2009年Linac相干光源(LCLS)的第一次XFEL操作以来,人们一直致力于开发利用这种快速连续的明亮脉冲进行大分子晶体学的方法,以获得无损伤、化学精确的结构。迄今为止,XFEL报告的大多数结构都使用液体喷射将小晶体注入光束(DePonte等人,2008年;Sierra等人,2012年;Weierstall等人,2014年),但衍射数据也已通过标准测角仪装置从放置在光束中的晶体中测量(Cohen等人,2014年;Hirata等人,2014年). 在这两种情况下,被照明的体积在受到单个XFEL脉冲的损坏之前会发生衍射。由于晶体在10–50 fs曝光期间是有效固定的,与标准衍射数据采集相比,获得了“静止”衍射图案,其中样品在曝光期间旋转了一个小角度。

从XFEL衍射数据中提取准确的布拉格峰值强度是一个巨大的挑战。XFEL数据集包含“静止”衍射图案,通常只包含部分记录的反射,通常来自随机取向的晶体。然后,必须根据观察到的局部强度观测值来估计全部强度。迄今为止报告的大多数XFEL衍射数据处理方法都通过所谓的“蒙特卡罗”方法来近似全强度,其中给定反射的数千个部分强度观测值被总和并通过观测值的数量进行标准化,其中假设这些观测值对全3D布拉格体积进行采样。因为单个衍射图像中,每个观察到的反射仅采样每个反射强度的一部分,其包含的信息比一个小的连续楔形衍射数据(如传统晶体学中使用的那样)少得多,这种方法需要大量晶体,以确保平均部分反射强度收敛到全部强度值(Kirian等人,2010年). 此外,自增强受激发射(SASE)过程中产生的脉冲强度和能量谱的瞬间差异(Kondratenko和Saldin,1979年;Bonifacio等人,1984年)再加上照明晶体体积、镶嵌性和单位-细胞尺寸的差异,导致在不同图像上观察到的等效反射的强度变化。假设这些差异通过蒙特卡罗方法进行平均(Hattne等人,2014年). 因此,准确测定每个衍射图像的这些参数,原则上应提供更准确的积分强度,并以更少的测量值收敛。此外,最好从尽可能少的衍射图像中收集数据集,因为蒙特卡罗方法所需的大量样本限制了XFEL的潜力,再加上波束时间可用性的严重限制。

20世纪70年代,哈里森和罗斯曼小组开发了“后细化”方法(Rossmann等人,1979年;Winkler等人,1979年)其中,确定布拉格峰位置和体积的参数是“后处理”的,即在初始索引和旋转数据集成后,根据完全记录反射的参考集进行优化。对这些参数的准确估计,包括单位细胞的长度和角度、晶体方向、马赛克扩散和光束发散,可以准确计算图像上记录的反射强度的哪一部分,即其“偏度”,然后将其用于将测量值校正为完全记录的等效值。应用于病毒晶体,在辐射损伤变得显著之前,通常只能收集到少数图像,后细化使从许多晶体中收集到的高质量衍射数据集成为可能(Rossmann等人,1979年;Winkler等人,1979年).

XFEL衍射数据的后细化实现带来了独特的挑战。首先,由于XFEL衍射数据通常不包含完全记录的反射,因此图像的初始缩放和合并很困难。其次,由于XFEL衍射图像是静止数据而不是旋转数据,因此需要不同的方法来校正测量值,以确定全光斑当量。之前已经描述了实现XFEL衍射数据后细化的其他方案,但到目前为止,它们仅适用于模拟XFEL数据(怀特,2014年),以及使用单色同步辐射采集的伪静态图像(卡布施,2014).

我们开发了一种新的后细化程序,专门针对从随机取向的晶体中收集的静态图像中的衍射数据而设计。我们在一个新的计算机程序中实现了我们的方法,首要的(第页成本-第页参考电压nement和rging),后细化计算记录在每个静止图像上的反射的偏度所需的参数。我们在这里描述了我们的方法,并证明后精细化大大提高了三种不同蛋白质晶体的XFEL衍射实验的衍射数据质量。我们表明,与使用蒙特卡罗方法时所需的衍射图像相比,我们的后细化过程允许从数量少得多的衍射图像中提取完整的数据集。因此,这一发展将有助于使XFEL结晶学能够解决生物学中许多具有挑战性的问题,包括样本量是主要限制因素的问题。

结果

符号

除非在括号中指定,否则单位是任意的。

光突发事件,观察到的强度。

裁判,参考强度。

,加权项(观测强度的方差倒数)。

G公司,线性刻度函数(G公司0)和解决方案相关(B类)将不同衍射图像缩放到参考集的因子。

欧洲奥委会,Ewald-偏移校正功能。

第页小时,偏移从反射中心到Ewald球体的倒数空间距离−1).

第页第页,倒数晶格点和Ewald球体之间的交叉盘半径(−1).

第页,倒格子点的半径(Ω−1).

θx个,θ,θz(z),晶体旋转角度(参见图1A; °).

衍射实验的几何学和Ewald-偏移距离的计算,第页小时.

(A类)倒数晶格点与Ewald球体相交。插图显示了中使用的坐标系cctbx.xfel公司首要的.矢量S公司0表示入射光束的方向(–z(z)-轴)并形成长度为1的Ewald球体的半径/λ.倒格子点用倒数实验室坐标表示方程式5由向量表示x个.Ewald-偏移距离,第页小时,是Ewald-球体中心到倒格子点之间的距离差(长度S公司)和1/λ插图显示了晶体旋转轴的定义;它们按以下顺序应用:θz(z),θ,θx个(B类)所示为具有半径的倒格子点的体积第页.偏移第页小时定义Ewald-偏移校正欧洲奥委会地区,即与Ewald球体相交的面积之比,A类第页以及体积中心的区域,A类.

https://doi.org/10.7554/eLife.05421.003

γ0,的参数方程式3−1).

γe(电子),能量扩散和晶胞变化(参见方程式3; Å−1).

γx个γ,光束发散(参见方程式4; Å−1).

{加州大学},单位-细胞尺寸(,b条,c(c)(Å),α,β、和γ(°)).

c(c),倒数晶格体积校正函数(Å−3).

x个光突发事件x个计算,探测器上观察和预测的光斑位置(mm)。

x个,倒数晶格点的位置(−1).

S公司,从Ewald球体中心到x个−1).

S公司0,长度为1/波长的入射光束矢量−1).

O(运行),正交化矩阵。

R(右),旋转矩阵。

(f)L(左)(f)洛伦兹函数及其规范化对应项。

Γ,洛伦兹函数半最大值(FWHM)时的全宽。

重新定义后概述

通过将全反射描述为球体,可以对偏倚进行建模(图1A). 在静止衍射图案中,假设为单色光子源,则观察到的强度obs,小时对于Miller索引小时是通过三维反射的薄片。为了计算偏好,我们假设测量值是一个面积(即.,无限薄)体积样本(图1B). 当给定反射的中心正好位于Ewald球体上时,将出现可记录的最大部分强度。根据定义,反射中心将从Ewald球体偏移第页小时,相应的圆盘将具有半径第页第页.偏移量第页小时由各种实验参数决定,包括晶体取向、单位胞尺寸和X射线光子能量。偏移距离用于计算Ewald偏移校正,欧洲奥委会地区,定义为第页第页第页(作为平滑校正函数实现Eoc公司小时定义见“材料和方法”)。然后,通过应用体积校正因子,将Ewald-offset校正后的强度转换为3D中的完整强度,c(c).

我们定义目标T型公共关系通过以下方式对偏好和缩放模型进行后细化:

(1) T型第页第页=小时小时(o个b条,小时负极G公司(G公司0,B类)Eo公司c(c)小时(θx个,θ,γ0,γe(电子),γx个,γ,{u个c(c)})c(c),小时负极1×第页e(电子)(f),小时)2,

将观测到的反射之间的差异降至最低光突发事件以及缩放和Ewald-coffset校正的全强度“参考集”裁判使用最小二乘法。总和是所有观测到的米勒指数反射的总和小时.

在交替的细化循环中,我们还最小化了预测值之间的偏差(x个计算)并观察到(x个光突发事件)如前所述,使用强光斑子集在探测器上定位光斑(Hattne等人,2014年;Kabsch,2014年):

(2) T型x个=小时(x个光突发事件负极x个计算)2.

与每个衍射图像相关的参数集,即。,G公司0,B类,θx个,θ,γ0,γe(电子),γx个,γ以及单位-细胞常数,在一系列“微循环”中根据当前参考集进行迭代细化(图2).

再定义后协议。

流程图说明了迭代后细化协议,该协议被分解为“微循环”,以迭代方式细化参数组(蓝色方框)和“宏循环”。在第一个宏观循环开始时,生成一个参考衍射数据集。在每个宏观周期结束时,更新参考衍射数据集。当优化收敛或达到用户指定的最大循环数时,微循环和宏循环都会终止。

https://doi.org/10.7554/eLife.05421.004

生成初始参考集的过程裁判(首字母)如下所述。在微循环会聚后,根据观测到的部分强度计算标度全强度光突发事件通过Ewald-offset校正的逆运算与比例因子的乘积G公司,以及体积修正系数c(c)考虑到观测强度的估计误差,然后将这些按比例的全反射合并为每个唯一的Miller指数,σ(I光突发事件)以及精确参数的误差估计的传播。然后,在下一轮使用目标函数进行后细化时,将此合并和缩放的全反射集用作新的参考集(方程式12,有关详细信息,请参阅“材料和方法”)。重复这些“宏循环”,直到达到收敛,然后向用户提供合并和缩放的全强度集。

这个首要的程序控制特定微循环中指定参数的后细化(图2). 可以一起细化所有参数,或者从(1)线性比例因子和B类-因子,(2)晶体取向,(3)晶体镶嵌性、光束发散性和光谱色散,以及(4)晶胞尺寸。特定于空间组的约束用于限制单元-单元细化的自由参数数量。当目标函数收敛或达到指定的迭代次数时,完成特定的微循环;然后,程序生成新的参考强度集,以替换下一个宏循环的当前参考集。最后,当宏循环收敛或达到用户指定的最大循环数时,程序退出并输出最新的合并反射集。

观测强度的准备

我们的后细化方法的起点是从静止图像中获得的一组索引和积分部分强度及其估计误差。对于这项研究,衍射数据及其估计误差是从cctbx.xfel公司包装(Sauter等人,2013年;Hattne等人,2014年)虽然原则上可以使用任何其他程序的综合衍射数据。衍射图像上观察到的强度被Spotfinder程序分类为“斑点”(Zhang等人,2006年)它通过考虑面积和信号高度大于用户定义阈值的连接像素来识别布拉格点。通过反复试验,我们接受了肌红蛋白和氢化酶背景上大于25像素、单个像素强度大于5σ的反射(在像素尺寸为0.08 mm、光束直径[FWHM]为50μm的Rayonix MX325HE探测器上采集)。对于嗜热菌蛋白酶(收集在Cornell-SLAC像素阵列检测器上,像素尺寸为0.1 mm,光束尺寸为2.25μm2)反射通常较小时,这些值为1像素和5σ。参数的完整列表可在cctbx.xfel公司维基(http://cci.lbl.gov/xfel). 每个图像的单独分辨率截止值由应用cctbx.xfel公司,在平均/σ()降至0.5以下(Hattne等人,2014年).

在后细化之前,需要使用极化因子对实验观测到的部分强度进行校正。LCLS处的主XFEL光束在水平面上具有强极化,我们计算了作为布拉格角函数的校正因子(θ)和角度ϕ样品反射和实验室水平面之间(Kahn等人,1982年; 参见“材料和方法”)。对于静止晶体和单色光束,洛伦兹因子校正不适用;SASE光束的光谱色散(δE/E~3×10−3对于此处研究的数据集)由γ计算e(电子)术语(参见“材料和方法”)。

生成初始参考集和初始参数

启动后精化的一个重要步骤是生成初始参考集裁判 (首字母)。在应用偏振校正后,必须根据可用的未合并和未标度的部分反射强度来估计该参考集。对于这里给出的结果,为每个衍射图像选择线性比例因子,以使每个衍射图像的平均强度相等。由于此过程可能会受到观测强度中异常值的影响,因此我们选择具有用户特定分辨率范围和信噪比的反射子集(I/σ(I))切断。根据这个选择,我们计算每个衍射图像上的平均强度,然后缩放每个图像,使所有图像的平均强度相等。我们使用起始参数将缩放的观测反射校正为Ewald-offset校正后的等效值,然后合并观测,同时考虑到实验σ(I光突发事件),以生成初始参考集。

晶体取向、单位细胞尺寸、晶体到探测器的距离和探测器上的光斑位置的初始值是通过对这些参数的细化得到的cctbx.xfel公司光子能量是由LCLS端站系统提供的,并且没有被细化。反射宽度模型参数的初始值在“材料和方法”部分中进行了描述。

数据处理方案的定义和比较

为了单独评估缩放的影响,Ewald偏移校正(方程式1)和后精化,我们参考了三种处理衍射数据集的替代方案:(1)“平均合并”,其中强度是通过对等效反射的所有观察到的部分强度进行平均而产生的,无需Ewald-偏移校正和缩放;(2) “平均强度偏倚校正”,其中强度是通过将反射缩放到平均强度并应用从索引和积分程序获得的初始参数确定的Ewald-偏移校正,然后合并而生成的;(3)“后重定义”,其中强度来自于后细化收敛后的最终缩放和合并全反射集。我们注意到,尽管“平均合并”过程与原始蒙特卡罗方法类似(Kirian等人,2010年),我们测试中使用的综合未融合部分强度是从程序中获得的cctbx.xfel公司(Hattne等人,2014年)它还基于逐个图像细化各种参数(Sauter等人,2014年).

改进后数据的质量评估

我们在已知结构的三种不同结晶蛋白质(肌红蛋白、氢化酶和嗜热蛋白)的实验XFEL衍射数据集上测试了我们的后细化方法(表1). 为了进行质量评估,我们使用Phaser进行了分子替换(MR)(McCoy等人,2007年)使用省略了已知结构的选定部分的模型,然后使用菲尼克斯定义(Afonine等人,2012年)和检查(毫发o个-DF公司c(c))省略地图。我们进一步使用了三种不同的指标:立方厘米1/2和晶体学R(右)工作R(右)自由的完全细化的原子模型。然后,我们比较了合并的XFEL衍射数据集在缩放、偏度校正和后细化后三个质量指标的变化。我们还研究了通过从全套衍射图像中随机选择一个子集并使用该子集重复整个后细化、合并、MR和细化过程来减少所用图像数量的效果。

表1

本研究中使用的XFEL衍射数据集

https://doi.org/10.7554/eLife.05421.005(网址:https://doi.org/10.7554/eLife.05421.005)
肌红蛋白巴氏梭菌氢化酶嗜热菌蛋白酶
“空间”组第6页第4页2212第6页122
使用的分辨率(Ω)20.0–1.3545.0–1.6050.0–2.10
单元尺寸(Ω)=b条= 90.8,c(c)= 45.6=b条= 111.2,c(c)= 103.8=b条= 92.7,c(c)= 130.5
独特反射次数46,55585,27319,995
图像数量*编入索引的75717712,692
使用的具有分辨率斑点的图像数量307751957
图像上的平均斑点数(达到使用的分辨率)16283640352
能量谱SASE公司SASE公司SASE公司
探测器Rayonix MX325HE公司Rayonix MX325HE公司CSPAD公司
样品递送方法固定目标固定目标静电纺丝喷射
  1. *

    这是使用索引的图像数cctbx.xfel公司程序,在嗜热菌蛋白酶的情况下,它是两个波长之一索引的图像数量。

  2. SASE:自放大自发发射。

  3. CSPAD:Cornell-SLAC像素阵列探测器。

肌红蛋白和氢化酶的衍射数据均来自安装在标准测角仪装置上的冷冻晶体(Cohen等人,2014年),而嗜热菌蛋白酶数据是使用静电纺丝液体喷射器将纳米晶体注入真空室收集的(Sierra等人,2012年;2013年,博根). 在我们测试中使用的极限分辨率下,每个数据集的完整性都优于90%(表2、3、4). 由于晶体的衍射质量不同,每个衍射数据集涉及不同数量的图像。

表2

肌红蛋白的后求精和原子模型求精统计

https://doi.org/10.7554/eLife.05421.006
图像数量100757
分辨率(Å)20.0–1.35 (1.40–1.35)20.0–1.35 (1.40–1.35)
完整性(%)80.0 (22.2)97.7 (79.8)
每个独特hkl的平均观察次数4.0 (1.2)25.7 (2.0)
平均-目标修正的平均标度偏差重新定义后平均合并修正的平均标度偏差重新定义后
重定义后参数b条
线性比例因子G公司01.00 (0.00)2.79 (5.02)1.00 (1.04)1.00(0.00)2.19 (3.83)0.89 (1.07)
B类0.0 (0.0)0.0 (0.0)3.2 (7.8)0.0 (0.0)0.0(0.0)6.2 (8.3)
γ0(Å−1)不适用0.00135 (0.00028)0.00128 (0.00022)不适用0.00147 (0.00042)0.00132(0.00034)
γ(Å−1)不适用0.00 (0.00)0.00007 (0.00080)不适用0.00 (0.00)0.00007 (0.00009)
γx个(Å−1)不适用0.00 (0.00)0.00010 (0.00011)不适用0.00 (0.00)0.00008 (0.00010)
γe(电子)(Å−1)不适用0.00200 (0.00)0.00344 (0.00266)不适用0.00200 (0.00)0.00423 (0.00323)
单位单元格
  (Å):90.4 (0.4)90.4 (0.4)90.5 (0.4)90.4 (0.4)90.4 (0.4)90.5 (0.3)
  c(c)(Å)45.3(0.4)45.3 (0.4)45.3 (0.3)45.3 (0.3)45.3 (0.3)45.3 (0.3)
平均T型公共关系开始/结束不适用不适用19.39(7.68)/7.17(3.38)不适用不适用19.83 (7.54)/6.02 (2.59)
平均T型xy公司(毫米2)开始/结束不适用不适用169.74 (132.56)/132.02 (104.08)不适用不适用170.66 (144.52)/133.42 (109.58)
立方厘米1/2(%)81.379.686.591.895.798.2
分子替换分数c(c)
大型货车283750435291826483649320
TFZ公司10.51313.413.713.814
结构优化参数
R(右)(%)39.42823.521.120.317.8
R(右)自由的(%)42.129.424.823.122.519.7
债券有效期。0.0060.0060.0040.0060.0060.006
角度r.m.s.d。1.140.980.791.031.350.86
拉马钱德兰统计
  支持(%)989898989898
  异常值(%)000000
  1. 括号中的值对应最高分辨率外壳。

  2. b条

    后细化参数显示为平均值,括号中有标准偏差。

  3. c(c)

    分子替换分数报告人相位器(McCoy等人,2007年):对数似然增益(LLG)和平移函数(TFZ)。

表3

氢化酶的后求精和原子模型求精统计

https://doi.org/10.7554/eLife.05421.007
图片数量100177
分辨率(Å)45.0–1.60 (1.66–1.60)45.0–1.60 (1.66–1.60)
完整性(%)83.0 (47.7)91.2 (63.5)
每个独特hkl的平均观察次数4.4 (1.7)7.13 (2.3)
平均-目标重新定义后平均-目标重新定义后
重定义后参数b条
线性比例因子G公司01.00 (0.00)0.56 (1.27)1.00 (0.00)0.53 (1.22)
B类0.0 (0.0)10.0 (7.0)0.0 (0.0)10.5 (6.9)
γ0(Å−1)不适用0.00132 (0.00042)不适用0.00126(0.00041)
γ(Å−1)不适用0.00002 (0.00004)不适用0.00002 (0.00004)
γx个(Å−1)不适用0.00008 (0.00009)不适用0.00008 (0.00011)
γe(电子)(Å−1)不适用0.00269 (0.00138)不适用0.00288 (0.00160)
单位单元格
  (Å):110.1 (0.4)110.4(0.3)110.1 (0.4)110.3 (0.4)
  c(c)(Å)103.1 (0.4)103.1 (0.2)103.0 (0.4)103.0 (0.2)
平均T型公共关系开始/结束不适用28.20 (10.86)/5.92 (2.35)不适用26.47 (12.70)/5.22 (2.72)
平均T型xy公司(毫米2)开始/结束不适用623.36 (314.57)/381.23 (198.44)不适用564.30 (267.45)/
372.28 (202.28)
立方厘米1/2(%)6277.371.784.8
分子替换分数c(c)
大型货车53,352.9612722911774
TFZ公司69.275.97579
结构优化参数
R(右)(%)33.425.329.122
R(右)自由的(%)36.728.931.325
债券有效期。0.0060.0070.0070.007
角度r.m.s.d。1.431.501.681.97
拉马钱德兰统计
  支持(%)96.3979796.7
  异常值(%)0000
  1. 括号中的值对应最高分辨率外壳。

  2. b条

    重定义后的参数显示为平均值,括号中为标准偏差。

  3. c(c)

    分子替换分数报告人相位器(McCoy等人,2007年):对数似然增益(LLG)和平移函数(TFZ)。

表4

嗜热菌蛋白酶的后求精和原子模型求精统计

https://doi.org/10.7554/eLife.05421.008
图像数量200012,692
分辨率(Å)50.0–2.10 (2.18–2.10)50.0–2.10 (2.18–2.10)
完整性(%)81.3 (24.3)96.5 (74.8)
每个独特hkl的平均观察次数32.8 (1.2)176.6 (2.4)
平均-目标后精制平均-目标重新定义后
重定义后参数b条
线性比例因子G公司01.00 (0.00)1.65 (1.66)1.00(0.00)2.26 (75.12)
B类0.0 (0.0)23.0 (33.8)0.0 (0.0)30.1 (59.8)
γ0(Å−1)不适用0.00052 (0.00040)不适用0.00051 (0.00039)
γ(Å−1)不适用0.00001 (0.00003)不适用0.00001 (0.00003)
γx个(Å−1)不适用0.00002 (0.00004)不适用0.00002 (0.00004)
γe(电子)(Å−1)不适用0.00110 (0.00129)不适用0.00103 (0.00128)
单位单元格
  (Å):92.9 (0.3)92.9 (0.2)92.9 (0.3)92.9 (0.3)
  c(c)(Å)130.5 (0.5)130.4 (0.4)130.5 (0.5)130.4 (0.4)
平均T型公共关系开始/结束不适用1.15 (0.49)/0.55 (0.23)不适用1.15(0.52)/0.28(0.13)
平均T型xy公司(毫米2)开始/结束不适用168.13 (117.29)/167.72 (106.14)不适用169.01 (122.20)/170.00 (122.57)
立方厘米1/2(%)77.793.594.398.8
分子替换分数c(c)
大型货车3590449154776022
TFZ公司8.99.724.124.6
结构优化参数
R(右)(%)25.219.520.718.4
R(右)自由的(%)29.12423.921.1
债券有效期。0.0040.0020.0020.002
角度r.m.s.d。0.750.580.590.62
拉马钱德兰统计
  支持(%)95.994.695.294.9
  异常值(%)0000
锌峰高
  锌(1)(σ)141614.320.9
  锌(2)(σ)3.65.17.77.1
钙离子平均峰高(σ)9.711.314.216.1
  1. 括号中的值对应最高分辨率外壳。

  2. b条

    后细化参数显示为平均值,括号中有标准偏差。

  3. c(c)

    分子替换分数报告人相位器(McCoy等人,2007年):对数似然增益(LLG)和平移函数(TFZ)。

肌红蛋白

对于肌红蛋白,我们使用了由757个衍射图像组成的XFEL衍射数据集(表1)由SSRL-SMB小组使用测角仪安装的固定目标网格收集(Cohen等人,2014年)和随机选择的100个衍射图像的子集。衍射图像来自随机取向的晶体,每个晶体都采集到一个静止图像。

后求精的收敛性

肌红蛋白后细化方法的收敛特性如所示图3和图4,中提供了所选衍射图像的第一宏循环的代表性示例图3三个微周期后细化迭代的顺序为:比例因子(SF方程式17),晶体取向(CO方程式5),倒数光斑大小(RR方程式34)和单位-细胞尺寸(UC方程式5). 偏好模型目标函数T型公共关系(方程式1)在第一个微周期显著下降,在最后一个微周期完全收敛。点位置残差T型xy公司(方程式2)在晶体取向和单元-细胞参数的后细化过程中,也降低了。

肌红蛋白后精制第一个大循环期间的后精制。

所示为肌红蛋白XFEL衍射数据集的代表性衍射图像在后细化的第一个宏观循环期间的细化参数和目标函数值。迭代后细化包括三个微循环的SF(比例因子)、CO(晶体取向)、RR(反射半径参数)和UC(单位-细胞尺寸)。

https://doi.org/10.7554/eLife.05421.009
肌红蛋白五个大环后精制的收敛性。

这些图说明了在五个宏观周期的后细化过程中,后细化参数、目标函数和质量指标的收敛性。使用了从肌红蛋白XFEL衍射数据中随机选择的100个衍射图像的子集。对于每个指定的目标函数和优化参数,相对于前一个宏观周期绘制变化图,而质量度量立方厘米1/2显示为绝对数。后优化参数和目标函数的变化显示为“方框图”。蓝色方框的底部和顶部是第一个(Q1)和第三个(Q3)四分位数。方框内的红线是第二个四分位数(Q2;中位数)。从方框垂直延伸的黑色水平线表示特定数量在1.5个四分位范围内的范围(Q3–Q1)。加号表示超出此范围的任何项目。

https://doi.org/10.7554/eLife.05421.010

图5显示了使用肌红蛋白XFEL衍射数据集的100个随机选择的静态图像子集进行后细化的五个大环的结果。偏好模型目标函数T型公共关系(方程式1)在前三个大环中持续减少。平均点位置残差T型xy公司(方程式2)在第一个循环中减少,在下一个循环中收敛。质量指标立方厘米1/2也在前三个大旋回内收敛。

肌红蛋白的合并统计。

(A类)完整性百分比和(B类)由所有757张衍射图像组成的myoblogin XFEL衍射数据集的平均观察数作为分辨率的函数绘制(表1)以及随机选择的100个衍射图像子集。(C类)立方厘米1/2对于合并后的平均值、平均密度和偏度校正,以及由100和757个衍射图像组成的后精炼肌红蛋白衍射数据集。

https://doi.org/10.7554/eLife.05421.011

从静态图像索引和整合中获得的起始参数不准确可能会限制收敛半径和后细化参数的准确性。这些错误的来源将是未来改进索引和集成的主题cctbx.xfel。然而,对于这里研究的系统,后细化在3-5个周期内收敛。

由于后期优化而带来的改进

对于使用所有757张图像的肌红蛋白衍射数据集(表2,图6A、B),的立方厘米1/2后细化后的值有所提高,特别是对于低分辨率壳中的反射(图5C; 表2).

后细化和图像数量对肌红蛋白电子密度和模型质量的影响。

(A类)差分傅里叶(毫发o个-DF公司c(c))对于平均合并、平均标度部分校正合并以及由所有757个衍射图像组成的精制后肌红蛋白XFEL衍射数据集,省略血红素基团周围的图(从分子替换和原子模型细化中省略)(表1)以及随机选择的100个衍射图像的子集。地图的等高线为2.5σ。(B类)结晶学绘图R(右)工作R(右)自由的使用包含血红素基团SO的特定肌红蛋白衍射数据集对原子模型进行细化后的值与分辨率4和水分子。

https://doi.org/10.7554/eLife.05421.012

省略图用于比较不同方法处理的衍射数据的质量。具体来说,我们从分子置换搜索模型(PDB ID:3U3E)和随后的原子模型精化中省略了血红素基团,并计算毫发o个-DF公司c(c)差异映射(图6). 血红素基团与从后精炼衍射数据集计算的差异图的实际空间相关系数高于使用相同衍射图像集的相应平均合并衍射数据集的相关系数(图6A).

在省略血红素基团的初始模型精化之后,我们包括血红素基团和定义明确的水分子,并完成了原子模型精化。经过改进的衍射数据集产生了最好的R(右)自由的R(右)工作值,然后是校正的平均标度偏倚,平均合并衍射数据集产生最差的细化统计。

总体而言立方厘米1/2(图5),忽略贴图质量,以及R(右)值(图6B)表明,相对于平均标度的粒子校正衍射数据集,后细化大大改进了衍射数据的标度和校正。因此,对迭代改进的参考集进行后细化比只单独考虑每个衍射图像的方法要好,即使在对反射进行缩放和校正偏倚时也是如此。

100个衍射图像足以细化肌红蛋白结构

鉴于通过对所有可用图像进行后处理而获得的显著改进,我们测试了通过对随机选择的100个肌红蛋白衍射图像子集进行后处理,是否可以使用较少的衍射图像获得准确的衍射数据和精炼的原子模型。由于该子集只完成了80%立方厘米1/2比由757幅图像组成的全衍射数据集差,但与相应的非后定义衍射数据集相比,它仍有很大改进(图5). 此外,血红素组的真实空间相关系数与用后精炼100衍射图像获得的差分图相比,优于用所有757衍射图像的平均合并衍射数据集计算的相关系数(图6A),尽管更高的完整性和立方厘米1/2后一个数据集的值(图5C). 因此,后细化既可以提高给定图像集的衍射数据质量,又可以减少结构确定和序列衍射数据细化所需的衍射图像数量。

与同步加速器数据集的比较

我们还将后细化XFEL差分图(使用所有757个衍射图像)与同晶同步加速器数据集和模型(PDB ID:1JW8,不包括分辨率超过1.35°的反射,以使衍射数据集的分辨率相等)计算的差分图进行了比较。血红素组的省略图和实际空间相关系数具有可比性(图7).

肌红蛋白同步加速器与后精炼XFEL衍射数据集的质量。

差分傅里叶(毫发o个-DF公司o个)根据(A类)同步辐射衍射数据和PDB ID为1JW8的相应模型(为了进行比较,排除了分辨率超过1.35°的所有反射)以及(B类)使用所有757个衍射图像的后精制肌红蛋白XFEL衍射数据集(表1). 地图的等高线为2.5σ。

https://doi.org/10.7554/eLife.05421.013

氢化酶

XFEL衍射数据巴氏梭菌Peters(蒙大拿大学)和SSRL-SMB小组使用安装在角度计上的固定靶栅测量了八种晶体中的氢化酶(Cohen等人,2014年). 该实验生成了177张衍射图像,可以合并到91%的完整性,其中一半以上的衍射图像包含1.6°的反射(每个衍射图像通常有大约3000个点)。我们还使用随机选择的100个衍射图像子集来评估后细化对少量图像的影响。

这个立方厘米1/2后细化显著提高了价值(表3). 为了进行质量评估,在分子替换搜索模型(PDB ID 3C8Y)和随后的原子模型改进中都省略了Fe-S簇。使用177个完整衍射图像集和100个随机选择的衍射图像子集(83%完成)的后细化衍射数据集的省略图密度清楚地显示了整个Fe-S簇,而使用平均合并数据集的密度要差得多(图8A). 在包含Fe-S团簇和水分子的原子模型细化后R(右)R(右)自由的两个经过改进的数据集的值都明显好于合并后的平均值(图8B).

后精炼对氢化酶衍射数据集的影响。

(A类)差分傅里叶(毫发o个-DF公司c(c))省略四个Fe-S团簇中的一个(在分子替换和原子模型精细化中被省略)的平均合并和后精细氢化酶XFEL衍射数据集的映射,这些数据集由所有177个衍射图像组成(表1)以及随机选择的100个衍射图像子集。地图的等高线为3σ(B类)晶体学的R(右)R(右)自由的使用包含三个Fe-S团簇和水分子的指定衍射数据集对原子模型进行细化后的值与分辨率。

https://doi.org/10.7554/eLife.05421.014

嗜热菌蛋白酶

对于嗜热菌蛋白酶,我们测试了由12692个衍射图像组成的整个沉积XFEL衍射数据集(表1) (Hattne等人,2014年; 衍射数据在相干X射线成像数据库中公开存档,登录ID 23,网址:http://cxidb.org)以及随机选择的2000张衍射图像子集。在这个实验中,晶体到探测器的距离在探测器边缘提供了2.6º的最大分辨率,在探测器的角落提供了2.1º的最高分辨率。因此,需要大量衍射图像来实现2.1-2.6°分辨率范围内反射合并数据集的合理完整性。

与其他两种情况一样,后细化显著改善了立方厘米1/2价值(表4). 为了进行质量评估,从嗜热菌素分子置换搜索模型(PDB ID:2TLI)和随后的原子模型精化中省略了锌和钙离子。后处理提高了锌离子和钙离子的峰高(表4).

异常差异傅里叶峰高

热溶蛋白衍射数据是在刚好位于锌吸收边缘上方的光子能量下收集的,因此我们比较了经过和未经过后处理的异常信号。我们使用了相同的四个衍射数据集(即分别使用2000和12692个衍射图像进行平均合并、后细化),但对它们进行了处理,使Friedel-mates保持分离。我们改进了缺乏锌和钙离子的嗜热菌素的原子模型,并计算了反常差异傅里叶图谱(图9). 我们使用后细化数据集在3σ以上的活性位点附近观察到两个异常差异峰。相反,使用2000张图像的“平均合并”数据集在异常差异图中看不到第二个较小的峰值,并且在之前对嗜热菌素XFEL数据集(PDB ID:4OW3;Hattne等人,2014年). 先前的嗜热蛋白结构(PDB ID:1LND;Holland等人,1995年)报道了活性位点中的两个锌位点,对应于用我们改进后的数据集观察到的两个异常差异峰。尽管我们案例中使用的结晶条件没有Holland等人研究中使用的高浓度锌(10 mM),但第二个异常差异峰表明存在第二个锌位点。

后细化对嗜热菌素衍射数据集中异常信号的影响。

平均合并的异常差分傅里叶映射(A类,C类)或后精炼(B类,D类)嗜热菌蛋白酶XFEL衍射数据集包括所有12692衍射图像(A类,B类表1)和随机选择的2000张衍射图像子集(C类,D类). 使用嗜热菌素原子模型的相位(但不包括锌离子和钙离子)计算反常差异傅里叶图,并根据每个衍射数据集分别进行细化。所有贴图的等高线均为3σ; 指出了这两种锌离子的峰高。

https://doi.org/10.7554/eLife.05421.015

差异图揭示了一个结合二肽

当根据改进后的数据改进嗜热蛋白的分子替换模型时,我们在毫发o个-DF公司c(c)在活动地点附近绘制地图。相反,在存放的模型中,根据原始XFEL数据进行了改进(Hattne等人,2014年; PDB ID:4OW3),该区域的弱密度特征被解释为水分子。我们发现了在该区域具有二肽的沉积嗜热蛋白结构的几个示例(例如,带有Tyr–Ile的PDB条目2WHZ,带有Leu–Trp的PDB条目的2WI0,以及带有Val–Lys的PDB入口8TLN)。我们将差异密度的形状解释为Leu–Lys二肽,叠加其结构并计算实际空间相关系数。二肽与从后精炼衍射数据计算的图谱的实际空间相关系数(CC)高于从合并衍射数据平均值计算的图谱。两个后精炼衍射数据集的电子密度也比平均合并衍射数据集连接得更好(图10A). 这个R(右)工作R(右)自由的在整个分辨率范围内,使用后精衍射数据的精整模型的值低于使用平均合并数据的值(图10B).

后精制对嗜热蛋白电子密度图和模型质量的影响。

(A类)差分傅里叶(毫发o个-数据流c(c))显示锌位点附近Leu–Lys二肽的地图,用于平均合并和后精制嗜热菌蛋白酶XFEL衍射数据集,包括所有12692衍射图像(表1)以及随机选择的2000个衍射图像子集。地图的等高线为3σ(B类)晶体学的R(右)R(右)自由的使用指定的衍射数据集并包含两种锌、钙离子和Leu–Lys二肽后,原子模型细化后的值与分辨率。

https://doi.org/10.7554/eLife.05421.016

完整性的影响

合并数据集的完整性直接影响衍射数据集的整体质量(立方厘米1/2)电子密度图的质量和精细结构(表2-4、和图6). 当完整性较高时,添加更多图像以增加观察的多样性,对使用后细化衍射数据的最终细化结构的质量只有适度的影响。例如,当对2000至12000个嗜热菌蛋白酶衍射图像子集(所有子集在2.6℃时100%完成)进行后处理时,两个异常位点中较大的位点的省略图中的峰高(图11C),的立方厘米1/2值,以及R(右)当使用8000多幅图像时,精细结构的值并没有显著改善。

使用越来越多的衍射图像,以2.6º分辨率对后精制嗜热蛋白XFEL数据集进行结构细化的收敛性。

(A类)每个独特hkl的平均观察次数。(B类)立方厘米1/2对于使用2000–12000个图像的合并子集(所有子集100%完整)。(C类)最大峰值省略图中的峰值高度(σ)。(D类)R(右)工作R(右)自由的在相对于相应的后精炼衍射数据集精炼不含锌和钙离子的嗜热菌蛋白酶模型之后。

https://doi.org/10.7554/eLife.05421.017

讨论

使用传统x射线源的衍射数据采集通常采用旋转方法,其中单晶通过一组连续的角度旋转,衍射图案记录在二维探测器上。如果可以从单晶中收集到完整的数据集,而不会产生令人望而却步的辐射损伤,那么衍射数据处理是一个成熟可靠的过程。相反,处理XFEL衍射数据需要新的方法和实现,如本文所述,这些数据是从随机方向的晶体中收集的“静止”衍射图像。改进的数据收集和处理方法,尤其是那些可以显著减少组装完整准确衍射数据集所需的样本量的方法,对于使XFEL在结构生物学的某些具有挑战性的研究中有用非常重要。

我们开发了一种静态衍射图像的后细化方法,例如在XFEL获得的衍射图像,并在新的计算机程序中实现了该方法,首要的,它应用最小二乘最小化方法来细化我们的偏性模型中定义的参数。最近描述了XFEL衍射数据的其他后细化方法(卡布施,2014;怀特,2014年),但我们的实现与这些报告不同。Kabsch使用偏好模型,其中Ewald偏移校正被定义为距Ewald球体角距离的高斯函数。White使用由能谱定义的反射和极限能量Ewald球体之间的相交体积进行偏度计算,并通过在不缩放的情况下对所有观测值进行平均来计算初始参考数据集。这两份报告都没有描述实验XFEL衍射数据的应用,因此我们无法将这些方法与这里给出的结果进行比较。

我们在这里已经证明,我们对三个不同的XFEL实验的衍射数据进行后细化,可以显著提高衍射数据的质量。此外,生成的结构可以细化到显著更低R(右)自由的R(右)值,与使用非后定义XFEL数据集的值相比,电子密度图更清楚地揭示了新的特征。我们的方法的一个关键特征是,定义衍射光斑的参数是根据参考集迭代细化的。这种方法优于仅单独考虑每个衍射图像的方法。此外,我们的后细化过程允许从比不进行后细化所需的更少数量的图像(平均观察次数)中提取准确的衍射数据集。因此,这一发展将使XFEL结晶学能够解决生物学中许多具有挑战性的问题,而样本数量是这些问题的主要限制因素。

目前,很难用在同步加速器上测量的常规旋转数据来评估本文研究的后精炼XFEL数据的相对质量。肌红蛋白省略图的比较(图7)表明SR数据可能稍好一些,但需要进行更系统的研究,以了解不同数据集的相对优点。我们怀疑旋转数据会更好,因为它能够直接测量全反射(至少通过部分总和),而不需要对部分进行建模,这仍然是一个相对粗糙的过程(见下文)。然而,需要对同步加速器和XFEL测量的静态数据集进行比较,以反褶积旋转效应与这些源之间的其他差异。

我们的后细化公式采用了简化的假设,即反射是球形体积。更复杂的模型认为晶体镶嵌有三个成分,每个成分对倒格子点都有不同的影响(Juers等人,2007年;中堂,1998年,2014). 首先,磁畴尺寸(相干散射镶嵌块的平均尺寸)产生恒定、有限尺寸的倒格子点:小磁畴产生大斑点,而大磁畴生成小斑点,因为斑点尺寸和磁畴大小之间存在逆(傅里叶)关系。其次,域之间的单位-细胞变化产生的反射是球体,其半径随距离原点的距离而增加。在cctbx.xfel中在积分之前预测哪些反射位于衍射位置时,考虑了镶嵌性(建模为各向同性参数)和有效畴尺寸(Sauter等人,2014年;绍特,2015). 第三,镶嵌结构域之间的定向扩散产生球形帽状斑点。每个帽对一个立体角,该立体角取决于排列的大小。此外,未考虑晶体镶嵌的各向异性;这需要沿着每个晶格方向细化单独的参数。最后,我们当前的模型中还没有考虑XFEL的SASE过程产生的崎岖能量谱。这些问题需要进一步调查。

材料和方法

偏好模型

请求详细协议

观测到的强度小时(i)用于观察米勒指数小时是通过三维反射的薄片。为了计算偏心,我们假设测量是一个无限薄的球形体积的圆形样品(图1B). 我们假设以单色光束为起点来定义Ewald偏移校正Eoc公司地区. The欧洲奥委会地区以Ewald球体为中心的任何反射的定义为1;这个位置对应于反射可以测量的最大部分强度。这个欧洲奥委会地区对于任何其他位置,定义为从Ewald球体到倒易晶格点中心的法向距离的函数(偏移距离,第页小时)点的倒数点阵半径第页,它是晶体镶嵌性和光谱色散的函数(图1B). 这个欧洲奥委会地区可以用观测面积的比值来描述(A类第页)具有半径第页第页至Ewald-偏移校正区域(A类)具有半径第页(图1B).

XFEL发射的SASE光谱很宽,并且随拍摄时间的不同而不同(朱等人,2012). 为了计算Ewald球体,我们将波长设置为每次放炮记录的SASE光谱的质心。对于用种子束测量的XFEL数据(Amann等人,2012年),光谱很窄,从拍摄到拍摄都是恒定的,在这种情况下可以使用这个单一值。

为了模拟光谱色散和不对称光束发散的可能影响,我们采用了中描述的摇摆曲线模型Winkler等人(1979).用于摇摆曲线的四参数函数为第页(γ0,γe(电子),γx个,γ)=第页(θ)+第页(α),其中,第一项包括光谱色散的贡献,第二项模拟光束各向异性。明确地,

(3) 第页(θ)=γ0+γe(电子)棕褐色的θ,

哪里γ0是一个参数,最初设置为给定图像上所有反射计算的Ewald偏移的r.m.s.d,γe(电子)表示能量扩散的宽度和单位间变化(初始值γe(电子)根据平均能量扩散计算),以及θ是布拉格角。第二项由以下机构提供:

(4) 第页(α)=[(γ余弦α)2+(γx个α)2]1/2,

哪里α方位角是从子午线来的吗(α=0)至赤道(α=π/2) . 的值γγx个初始设置为0。

The distribution of第页小时肌红蛋白病例的757张图像经过后处理后的值如所示图12.参数γe(电子),γ,γx个,γ0在一个微周期内进行精炼(图2).

Ewald球体偏移的分布第页小时.

直方图显示了第页小时使用757衍射图像对肌红蛋白进行后细化后计算。应用反射选择标准对1.35°数据集进行合并和剔除离群值后的观察次数为1136447次(约占观察到的总反射的96%)。标准偏差为0.0016 1/Ω或约0.12°(当用能量分布平均值计算时)。

https://doi.org/10.7554/eLife.05421.018

计算倒格子点偏移

请求详细协议

晶体取向在右手坐标系中用z(z)-指向入射光束源的轴和y轴垂直(图1A). 我们通过以下顺序的旋转来定义晶体方向θz(z),θ,θx个关于这些轴。对于每个Miller索引小时(),倒易格点向量x个()通过应用正交化和旋转矩阵获得O(运行)R(右):

(5) x个()=R(右)O(运行)小时(),

哪里

x个()=(x个(),(),z(z)()),
小时()=(小时(),k个(),()),
O(运行)=(b条余弦γc(c)余弦β0b条γc(c)(余弦α负极余弦γ)/γ00c(c)余弦(c(c),c(c))),
R(右)=R(右)θx个R(右)θR(右)θz(z),

哪里R(右)θ是绕i轴旋转的旋转矩阵,,b条,c(c),α,β,γ是倒数单位-细胞参数,以及余弦(c(c),c(c))=(1+2科斯α余弦β余弦γ负极余弦2α负极余弦2β负极余弦2γ)1/2/γ.

如所示图1A,位移为x个()从埃瓦尔德球体中心的距离由下式给出:

(6) S公司()=x个()+S公司0,

哪里S公司0= (0, 0, −1/λ). 因此,偏移距离是S公司()以及Ewald-sphere半径,

(7) 第页小时=|S公司()|负极1/λ.

Ewald-偏移校正函数Eoc

请求详细协议

我们引入了面积比的平滑近似欧洲奥委会地区(见“结果”),以便在比率为零时绕过未定义的一阶导数。我们使用洛伦兹函数((f)L(左))将半径建模为与Ewald球体距离的函数:

(8) (f)L(左)=1π12Γ(第页小时)2+(12Γ)2.

函数被规范化,以便(f)L(左)(第页小时=0)=1.0,当倒置点阵点位于Ewald球体中心时,因此

(9) (f)L(左)n个=πΓ2(f)L(左).

然后我们使用观察面积的比率(A类第页)具有半径第页第页至Ewald-偏移校正区域(A类)具有半径第页(图1B)对应于最大半宽(FWHM)时的全宽,Γ,在洛伦兹函数中。当我们离开Ewald球体时,使用洛伦兹函数描述半径衰减,使得欧洲奥委会函数可微于第页小时=第页.对于由半径球体约束的倒易晶格体积第页以倒格子点为中心,体积的相交面积为:

(10) A类第页=π第页第页2,

哪里

第页第页=(第页2负极第页小时2)1/2.

这个欧洲奥委会然后由该相交面积与该反射以Ewald球体为中心时的面积之比得出(A类),

(11) Eo公司c(c)第页e(电子)=A类第页A类=π第页第页2π第页2=1负极第页小时2第页2.

通过设置的半高宽Γ与半径成比例,第页,一半欧洲奥委会地区,

(12) Eo公司c(c)第页e(电子)=1负极第页小时2第页2=0.5,
(13) Γ=第页t吨0.5Eo公司c(c)第页e(电子)=2第页小时,

我们得到了Ewald-offset校正函数(图13A)

(14) 欧洲奥委会=第页22第页小时2+第页2.
Ewald-偏移校正功能。

(A类)Ewald-偏移校正欧洲奥委会(式14)视为晶格半径倒数的函数(第页)和偏移距离(第页小时). (B类)一个切片欧洲奥委会第页=0.003,比较欧洲奥委会(式14)和Eoc公司地区(方程式11).

https://doi.org/10.7554/eLife.05421.019

使用洛伦兹近似推导欧洲奥委会函数与实际球面函数,欧洲奥委会,如所示图13B.

全强度校正

请求详细协议

为了将观测到的静止强度调整到零偏移的等效值,我们对观测到的强度应用Ewald-offset校正,

(15) 欧洲奥委会,小时()=小时()Eo公司c(c)小时()G公司,

哪里小时()是观测到的局部强度米勒指数小时在图像上米, 欧洲奥委会小时()是Ewald-偏移校正,以及G公司是图像的缩放函数然后,我们通过修正光斑的体积,将该最大局部强度转换为完整强度估计值,该系数为4π第页π第页2=4第页:

(16) (f)u个,小时()=c(c),小时()E类o个c(c),小时(),

哪里

c(c),小时()=4第页,小时().

请注意满的,小时()将在任意尺度上进行,并且可以应用适当的缩放方法,在结构确定和细化之前将数据放置在准绝对尺度上,就像对传统旋转数据所做的那样。

细化晶体取向、反射宽度和单位-细胞参数

请求详细协议

我们细化图像首先最小化目标函数:

(17) T型第页第页=小时W公司小时()(小时()负极G公司Eo公司c(c)小时()c(c),小时负极1()小时)2,

哪里

1/W公司小时()=σ小时2(),

和比例函数G公司包含线性比例因子G公司0和aB类-因素:

(18) G公司=G公司0,e(电子)负极2B类(θ小时()/λ)2.

在微循环的后续步骤中,我们使用x、 年由数据处理的点定位步骤确定的位置(Hattne等人,2014年;卡布施,2014).

(19) T型x个=小时(x个小时o个b条()负极x个小时c(c)c(c)())2,

哪里x个小时o个b条()x个小时c(c)c(c)()分别是观测到的和计算得到的点质心。

Levenberg–Marquardt(LM)算法松软的python库(奥列芬特,2007年)它是梯度下降和高斯-牛顿迭代的组合,用于最小化目标函数残差。单元-单元参数的细化(a、b、c、α、β、γ)考虑到晶体对称性约束,使程序更加稳健。

在这些迭代细化循环完成后,我们将细化参数应用于每个静止物的反射强度,然后合并相同的简化Miller指数(来自所有静止物),以获得用于新参考强度集的零点静止强度(参见下一节)。

反射选择标准

请求详细协议

在微周期的每个步骤中,用户可以使用以下标准选择用于参数组后细化的反射:分辨率范围、信号强度(/σ())和Ewald偏移校正值。除了这些选择标准外,还可以在合并步骤中使用与目标单位-细胞尺寸的偏差(指定为每个尺寸的分数),以便只有具有可接受单位-细胞维度值的衍射图案才包含在合并反射集中。每个后细化参数组都可以有自己独立的反射选择标准集。

合并程序

请求详细协议

从观察到的强度出发,我们得到了全体积强度,满的,小时(),来自欧洲奥委会,小时()首先应用Ewald偏移校正(方程式15)然后进行全强度校正(方程式16). 在合并等效观测值之前,我们使用迭代拒绝方案检测异常值,丢弃强度大于或小于用户指定截止值的反射(3σ默认值,其中σ定义为全反射分布的标准偏差满的,小时). 最后,为了获得合并的反射集,我们计算了〈小时〉使用σ加权平均值,从具有相同简化米勒指数的反射强度得出:

(20) 小时=W公司小时()(f)u个,小时()W公司小时(),

哪里

W公司小时()=1σ2()[(f)u个,小时()],

σ()[(f)u个,小时()]由误差计算得出:

(21) (Δ(f)u个,小时()(f)u个,小时())2=(Δ小时()小时())2+(ΔG公司G公司)2+(Δ欧洲奥委会E类o个c(c))2.

G公司是的函数G公司0B类、和欧洲奥委会是晶体取向、镶嵌性和晶胞参数的函数G公司可进一步计算为:

(22) ΔG公司2=(⏴=============================================================================G公司⏴=============================================================================G公司0)2ΔG公司02+(⏴=============================================================================G公司⏴=============================================================================B类)2ΔB类2,

和Δ欧洲奥委会2可以通过将偏导数的所有乘积和中每个参数的估计误差相加来进行类似的计算欧洲奥委会函数(协方差矩阵对角元素的平方根)。

我们使用立方厘米1/2作为衍射数据集的质量指标(Diederichs和Karplus,2013年). 我们计算立方厘米1/2通过将给定反射的所有(部分)强度观测值随机分为两组。我们拒绝任何少于四次观察的反射;对于所有其他反射,我们使用公式20.立方厘米1/2然后计算这两个独立合并的衍射数据集之间的相关性。

衍射参数的偏导数

(23) =1σ(负极G公司0e(电子)负极2B类(θ/λ)2欧洲奥委会c(c)负极1),

观察到的局部强度米勒指数小时.

比例因子,G公司0B。

请求详细协议

函数的导数关于G公司0:

(24) ⏴=============================================================================⏴=============================================================================G公司0=负极e(电子)负极2B类(θ/λ)2欧洲奥委会σc(c).

函数的导数关于B类:

(25) ⏴=============================================================================⏴=============================================================================B类=负极G公司0欧洲奥委会σc(c)[2(θλ)2e(电子)负极2B类(θ/λ)2].

晶体旋转角度(θx个,θ,θz(z)).

请求详细协议

尽管有三个旋转角度θx个, θ, θz(z)可以细化,围绕光束方向(z轴)的旋转在往复晶格偏移上没有分量(第页小时)从Ewald球体出发,因此,关于θz(z)为0。关于其余参数的偏导数可以用类似的方法导出,其中,只有关于的导数是θ鉴于。

(26) ⏴=============================================================================⏴=============================================================================θ=⏴=============================================================================⏴=============================================================================E类o个c(c)⏴=============================================================================欧洲奥委会⏴=============================================================================第页小时⏴=============================================================================第页小时⏴=============================================================================x个⏴=============================================================================x个⏴=============================================================================R(右)⏴=============================================================================R(右)⏴=============================================================================θ,

哪里

⏴=============================================================================⏴=============================================================================欧洲奥委会=负极G公司0e(电子)负极2B类(θ/λ)2σc(c),
⏴=============================================================================欧洲奥委会⏴=============================================================================第页小时=负极4第页小时第页2(2第页小时2+第页2)2,
⏴=============================================================================第页小时⏴=============================================================================x个=S公司|S公司|,
⏴=============================================================================x个⏴=============================================================================R(右)=⏴=============================================================================R(右)⏴=============================================================================θ,

R(右)是静止图像的旋转矩阵。的导数功能(式24)关于θx个单位-细胞参数可以通过替换最后的偏导数来计算R(右)用适当的方法。

单位-细胞参数(,b条,c(c),α,β,γ)

请求详细协议

对于单位-细胞参数,在细化过程中应用了晶体学空间群施加的约束,例如,四方体系只有两个自由参数(c(c))自=b条α=β=γ= 90. 其他约束条件,例如单位-细胞尺寸的允许细化极限,也可以作为最小二乘细化中的“惩罚项”应用。以倒数单位表示的每个单位间参数的偏导数(这里,给出了,并且=1/):

(27) ⏴=============================================================================⏴==============================================================================⏴=============================================================================⏴=============================================================================E类o个c(c)⏴=============================================================================欧洲奥委会⏴=============================================================================第页小时⏴=============================================================================第页小时⏴=============================================================================x个⏴=============================================================================x个⏴=============================================================================O(运行)⏴=============================================================================O(运行)⏴=============================================================================,

哪里⏴=============================================================================⏴=============================================================================E类o个c(c),⏴=============================================================================Eoc公司⏴=============================================================================第页小时、和⏴=============================================================================第页小时⏴=============================================================================x个如(2)和

⏴=============================================================================x个⏴=============================================================================O(运行)=R(右)⏴=============================================================================O(运行)⏴=============================================================================小时.

反射半径,第页

请求详细协议

反射半径适应晶体镶嵌和光谱色散的影响,由四个参数描述,γ0,γ,γx个、和γe(电子),具有以下衍生物:

对于γ,

(28) ⏴=============================================================================⏴=============================================================================γ=⏴=============================================================================⏴=============================================================================E类o个c(c)⏴=============================================================================欧洲奥委会c(c)负极1⏴=============================================================================第页⏴=============================================================================第页⏴=============================================================================γ,

哪里⏴=============================================================================⏴=============================================================================E类o个c(c)派生于(式27)和

⏴=============================================================================欧洲奥委会c(c)负极1⏴=============================================================================第页=负极(第页2+2第页小时2)4(第页2+2第页小时2)2,
⏴=============================================================================第页⏴=============================================================================γ=γ余弦2α[(γ余弦α)2+(γx个α)2]1/2.

对于γx个γe(电子),的⏴=============================================================================⏴=============================================================================第页⏴=============================================================================第页⏴=============================================================================第页与导出的相同γ

⏴=============================================================================第页⏴=============================================================================γx个=γx个2α[(γ余弦α)2+(γx个α)2]1/2,
⏴=============================================================================第页⏴=============================================================================γ0=1,
⏴=============================================================================第页⏴=============================================================================γe(电子)=棕褐色的θ.

极化校正

请求详细协议

XFEL光束在水平方向几乎100%偏振。LCLS XPP和CXI站的光学器件不会引入额外的偏振。为了解释主光束的偏振,对于给定的反射,我们考虑角度ϕ在由小时向量和-z(z)-轴和实验室水平(图14).

偏振校正用入射和衍射光束的几何形状。

该图显示了由其倒数空间矢量和-z(z)-角度轴ϕ该反射受水平方向入射主光束偏振的影响(x个)和垂直()指示。

https://doi.org/10.7554/eLife.05421.020

如中所述Kahn等人(1982年),横梁0入射到样品晶体上可以用两个分量来描述,一个分量平行(σ)另一个垂直(π)到反射平面:

(29) 0=σ+π.

这些组件中的每一个都受到水平方向上主光束偏振的影响(x个)和垂直()指示。使用(f)x个(f)作为实验室框架中水平和垂直的分数((f)x个+(f)= 1),

(30) σ=((f)x个余弦2ϕ+(f)2ϕ)0,

(31) π=((f)x个2ϕ+(f)余弦2ϕ)0,

哪里(f)x个(f)x个指示。

经过反思,只有σ衰减:

(32) =π+σ=|如果|2(π+σ余弦22θ).

通过替换σπ方程式3031在里面式32,我们到达

(33) =|如果|2[(f)x个(2ϕ+余弦2ϕ余弦22θ)+(f)(余弦2ϕ+2ϕ余弦22θ)]0,

其中括号内的表达式为P(Kahn等人,1982年).

分子替换和原子模型精化协议

请求详细协议

为了确保针对各种衍射数据集的原子模型细化尽可能具有可比性,我们使用了标准的半自动化解决方案和细化协议。首先,我们用已知结构作为搜索模型(肌红蛋白的PDB ID 3U3E、氢化酶的3C8Y和嗜热菌素的2TLI)进行分子替换相位调整,去除所有杂原子、水分子和配体。用Phaser进行分子替换(McCoy等人,2007年)使用默认设置,r.m.s.d.设置为0.8。然后使用菲尼克斯定义(Afonine等人,2012年)两个周期。在第一个循环中,我们进行了刚体细化、位置(xyz)细化以及Asn、Gln和His侧链方向的自动校正,以及原子位移参数(ADP)细化。然后,我们使用从这个循环中获得的缺失配体和杂原子的差密度图来计算实际空间相关系数,使用phenix.get_cc_mtz_pdb公司来自菲尼克斯软件套件(Adams等人,2010年)肌红蛋白和嗜热蛋白,以及来自CCP4软件的“地图相关性”程序(Winn等人,2011年)氢化酶。这些省略的差异密度图如所示图6,7,8,10在第二个循环中,所有配体和杂原子被放置在不同的密度图中,并使用Coot与第一个循环中的精细结构结合(Emsley等人,2010年). 第二个循环使用位置和ADP细化,并使用这些完整模型进行目标权重优化和水更新。结构经MolProbity验证(Chen等人,2010年). 最终细化统计(表2、3、4)被分析为菲尼克斯聚四氟乙烯(Urzhumtseva等人,2009年)并发现在其他类似分辨率结构的可接受范围内。对于从反常衍射数据中获得的嗜热蛋白结构(处理时保持Friedel对分离),只进行了一个原子模型细化周期。所有图形都是在PyMOL(PyMOL-Molecular Graphics System,1.5.0.4 Schrödinger,LLC版)中制作的。

计算机程序

请求详细协议

计算机程序,首要的,作为cctbx公司计算结晶学工具箱(Grosse-Kunstleve等人,2002年). 下载和安装说明可在cctbx公司网站(http://cctbx.sourceforge.net).

在证明中添加注释

请求详细协议

在接受这篇文章之后,一篇论文由Ginn等人(2015)描述了与Sauter等人(2014),并对每个图像进行偏好估计,但不进行后期细化。

数据可用性

使用了以下先前发布的数据集

工具书类

    1. Kondratenko AM公司
    2. 萨尔丁EL
    (1979年)
    波荡器中相对论电子束产生相干辐射
    苏联物理学杜克拉迪 24:986.
    1. 中堂C
    (1998) 蛋白质晶体缺陷的描述
    晶体学学报D辑生物晶体学 54:848–853.
    https://doi.org/10.107/S090744998001875

文章和作者信息

作者详细信息

  1. 莫纳林·乌尔维罗金科恩

    美国斯坦福大学分子和细胞生理学系
    贡献
    MU,概念和设计,数据分析和解释,起草或修改文章
    竞争性利益
    没有宣布竞争利益。
  2. 奥利弗·B·泽尔丁

    美国斯坦福大学分子和细胞生理学系
    贡献
    OBZ,概念和设计,数据分析和解释,起草或修改文章
    竞争性利益
    没有宣布竞争利益。
  3. 阿尔特姆·柳比莫夫

    美国斯坦福大学分子和细胞生理学系
    贡献
    AYL,概念与设计,数据分析与解释,起草或修改文章
    竞争性利益
    没有宣布竞争利益。
  4. 约翰·哈特尼

    美国阿什本Janelia Research Campus
    贡献
    JH,概念和设计,数据分析和解释
    竞争性利益
    没有宣布竞争利益。
    ORCID图标 “此ORCID iD标识了本文的作者:”0000-0002-8936-0912
  5. 亚伦·S·布鲁斯特

    美国伯克利劳伦斯伯克利国家实验室物理生物科学部
    贡献
    ASB、概念和设计、数据分析和解释
    竞争性利益
    没有宣布竞争利益。
  6. 尼古拉斯·K·绍特

    美国伯克利劳伦斯伯克利国家实验室物理生物科学部
    贡献
    NKS,概念和设计,数据分析和解释
    竞争性利益
    没有宣布竞争利益。
  7. 阿克塞尔·布伦格

    1. 美国斯坦福大学分子和细胞生理学系
    2. 美国斯坦福大学霍华德·休斯医学院神经病学和神经科学系
    3. 美国斯坦福大学光子科学系
    贡献
    ATB,概念和设计,数据分析和解释,起草或修改文章
    用于通信
    brunger@stanford.edu
    竞争性利益
    ATB:审阅编辑器,电子生活。
    ORCID图标 “此ORCID iD标识了本文的作者:”0000-0001-5121-2036
  8. 威廉·魏斯

    1. 美国斯坦福大学分子和细胞生理学系
    2. 美国斯坦福大学光子科学系
    3. 美国斯坦福大学结构生物学系
    贡献
    WIW,概念和设计,数据分析和解释,起草或修改文章
    用于通信
    bill.weis@stanford.edu
    竞争性利益
    没有宣布竞争利益。
    ORCID图标 “此ORCID iD标识了本文的作者:”0000-0002-5583-6150

基金

国家普通医学科学研究所(NIGMS)(GM103393)

  • 威廉·魏斯

国家普通医学科学研究所(NIGMS)(GM095887)

  • 亚伦·S·布鲁斯特
  • 尼古拉斯·K·绍特

霍华德·休斯医学院(HHMI)(合作创新奖)

  • Axel T Brunger公司
  • 威廉·魏斯

美国能源部(能源部)(DE-AC02-05CH11231)

  • 亚伦·S·布鲁斯特
  • 尼古拉斯·K·沙特

国家普通医学科学研究所(NIGMS)(GM102520)

  • 亚伦·S·布鲁斯特
  • 尼古拉斯·K·绍特

资助者不参与研究设计、数据收集和解释,也不参与将研究成果提交出版的决定。

致谢

我们感谢Henrik Lemke、Sebastien Boutet和Ralf Grosse-Kunstleve的讨论。我们感谢S Michael Soltis、Aina E Cohen、Ana González、Yingssu Tsai、Winnie Brehmer、Laura Aguila、Jinhu Song、Scott McPhillips和Henrik Lemke提供肌红蛋白XFEL衍射数据集。我们感谢John W Peters、Stephen Keable、Oleg A Zadvornyy、Aina E Cohen、S Michael Soltis、Jinhu Song、Scott McPhillips、Clyde Smith和Henrik Lemke提供Cpl氢化酶XFEL衍射数据集。这项研究的一部分是在SLAC国家加速器实验室的直线加速器相干光源(LCLS)进行的。LCLS是斯坦福大学为美国能源部科学办公室运营的科学办公室用户设施。ASB和NKS由美国国立卫生研究院拨款GM095887和GM102520以及能源部科学办公室主任根据合同DE-AC02-05CH11231提供支持。威斯康星州卫生研究所部分获得了美国国立卫生研究院(National Institutes of Health)拨款P41 GM103393的支持。这项工作得到了ATB和WIW的HHMI合作创新奖(HCIA)的支持。

版本历史记录

  1. 收到日期:2014年10月31日
  2. 验收日期:2015年3月16日
  3. 已出版的接受手稿:2015年3月17日(第1版)
  4. 发布的记录版本:2015年4月15日(第2版)

版权

这是一篇开放存取的文章,没有任何版权,任何人都可以出于任何合法目的自由复制、分发、传播、修改、构建或以其他方式使用。该作品在知识共享CC0公共领域奉献.

韵律学

  • 3,960
    意见
  • 890
    下载
  • 101
    引用

eLife发表的这篇论文的所有版本的浏览量、下载量和引用量都汇总在一起。

下载链接

一个由两部分组成的链接列表,用于以各种格式下载文章或文章的部分。

下载(链接以PDF格式下载文章)

公开引用(在各种在线参考咨询管理服务中打开本文引文的链接)

引用这篇文章(以与各种reference manager工具兼容的格式下载本文引文的链接)

  1. 莫纳林·乌尔维罗金科恩
  2. 奥利弗·B·泽尔丁
  3. 阿特姆·柳比莫夫
  4. 约翰·哈特尼
  5. 亚伦·S·布鲁斯特
  6. 尼古拉斯·K·绍特
  7. Axel T Brunger公司
  8. 威廉·魏斯
(2015)
使X射线自由电子激光晶体学能够从有限数量的晶体挑战生物系统
电子生活 4:e05421。
https://doi.org/10.7554/eLife.05421

分享这篇文章

https://doi.org/10.7554/eLife.05421

进一步阅读

    1. 结构生物学和分子生物物理学
    Deborah H Brotherton,Sarbjit Nijjar。。。亚历山大·大卫·卡梅隆
    研究文章

    连接蛋白通过在并列细胞之间形成缝隙连接通道(GJCs)实现细胞间通讯。连接蛋白26(Cx26)可由一氧化碳直接调节2这可能是通过K125的氨甲酰化作用介导的。我们表明,将K125突变为谷氨酸,模拟氨甲酰化的负电荷,导致Cx26 GJCs组成性闭合。通过低温电子显微镜,我们观察到K125E突变将构象平衡推向具有收缩孔入口的通道,类似于提高CO分压的效果2在以往的连接蛋白结构中,细胞质环是紊乱的,它在调节中起着重要作用,也是K125的位置。通过进一步的冷冻电镜研究,我们捕获了Cx26的不同状态,并观察了细胞质环的密度。这个环的位置、跨膜螺旋的构象和控制孔孔径的N末端螺旋的位置之间的相互作用提供了一种调节机制。

    1. 微生物学与传染病
    2. 结构生物学和分子生物物理学
    锡耶纳·J·格伦(Siena J Glenn),《狂热的绅士》(Zealon Gentry-Lear)。。。雅顿Baylink
    研究文章

    肠杆菌科细菌与胃肠道出血和菌血症有关,是炎症性肠病患者败血症死亡的主要原因。这些细菌易于进入血液的细菌行为和机制目前尚不清楚。在此,我们报告非梅毒临床分离株肠道沙门菌血清型,大肠杆菌、和柯氏柠檬酸杆菌被迅速吸引到人类血清来源。为了模拟胃肠道出血,我们使用了一种基于注射的微流体装置,发现人体血清的股骨体积足以诱导细菌对血清来源的吸引力。这种反应是通过趋化性和趋化剂L-丝氨酸(一种血清中丰富的氨基酸,通过化学受体Tsr的直接结合识别)来协调的。我们报告了第一个晶体结构沙门氏菌Tshimurium Tsr与L-丝氨酸的复合物,并鉴定Tsr同源物中共享的L-丝氨酸保守氨基酸识别基序。我们发现Tsr在肠杆菌科和许多与血流感染相关的世界卫生组织优先病原体中广泛保守。最后,我们发现肠杆菌科使用人类血清作为生长的营养来源,趋化性和化学受体Tsr为迁移到肠出血性病变中提供了竞争优势。我们将这种细菌对血清的趋化行为、出血性病变的定植和血清营养素的消耗定义为“细菌吸血”,这可能与肠杆菌科的血流感染倾向有关。