1.简介
系列晶体学方法正在拓宽结构生物学的范围,允许使用短辐射脉冲对大分子结构进行检测,该脉冲可从几乎没有辐射损伤的样品中产生衍射。室温实验保存了蛋白质的生理相关动态运动,低温保存可猝灭蛋白质,并沿酶途径跨越多个时间点。当今的发展始于X射线自由电子激光(XFEL)源的引入(伯格曼等。, 2017);然而,最新一代同步辐射源引入了脉冲持续时间和焦距大小,带来了一些相同的好处。
虽然串行晶体学在其承诺方面具有开创性,但它提出了许多技术挑战,包括涉及数据分析的挑战。使用短X射线脉冲,从同步加速器的微秒到XFEL的飞秒,晶体样品在一次激发期间基本上保持静止,之后晶体被替换。这与传统方法不同,传统方法是在测角仪上连续旋转单晶。这两种方法的数据处理工作流程大致相似,包括通过点定位算法定位布拉格点,确定晶格通过索引程序,在预测的布拉格光斑位置对衍射强度进行积分,最后对重复的布拉格测量进行缩放和合并。此外,在这两种情况下,该方法都涉及反向建模,其中实验的计算机表示用于预测衍射图像的特性,包括布拉格光斑位置,然后迭代调整模型的参数,以最佳匹配观测图像。
然而,尽管几十年来旋转射波的治疗已经很成熟,但串行晶体学的实验创新需要新的模型。特别是,XFEL设施引入了像素阵列探测器,其独特设计用于在飞秒周期内集成X射线信号。这些装置在性能上进行了权衡,即被构造为多面板单元,同时还增加了一个问题,即各个面板之间的几何关系(“计量学”)必须包含在计算模型中。我们的团队(Hattne等。, 2014)和其他人(叶凡诺夫等。, 2015; Ginn&Stuart,2017年)已经表明,最初确定得很差的单个探测器面板的位置和方向,可以通过迭代非线性最小二乘法确定到亚像素精度精细化,这样可以最大限度地减小观测到的和预测到的布拉格点位置之间的残余差异。
尽管Ha14(Hattne)取得了成功等。, 2014)我们程序中包含的计量代码cctbx.xfel公司据了解,由于几个原因,最终需要重新设计实现。Ha14将所有探测器面板的图像数据嵌入到一个表示整个探测器的方形数据阵列中,面板处于近似几何位置,背景是设置为特殊值的像素,以表示面板之间的非活动区域。从表面上看,这会招致批评,即非活动区域会浪费内存和磁盘空间。然而,由于必须对面板的数量及其尺寸进行编码,以及需要使用特殊代码来忽略图像处理中的非活动像素,这一缺点已被证明更加严重。因此,虽然代码支持64屏CSPAD(图1; 雄鹿等。, 2012)在Ha14出版时安装在Linac相干光源(LCLS)上,它不容易与后续的探测器型号配合使用,包括SACLA(Kameshima)的八面MPCCD探测器等。, 2014)以及欧洲XFEL(Henrich)的128屏AGIPD探测器等。2011年). 即使CSPAD探测器上的单个传感器暂时丢失,也需要对减少的传感器补码进行硬编码。
| 图1 CSPAD(康奈尔-SLAC像素阵列探测器)概述。(一)仪器照片(来源:Philip Hart)。(b条)分级组织。每个级别都将可以一起优化的对象分组。3级中的粉红色ASIC与粉末图案一起用于象限对齐(§3.2)。蓝色和红色矢量是d日x个和d日年用于确定组方向的方向。这个d日n个完成坐标系的向量与二者正交,在页面上指出0–2级。在3级,a年-轴符号翻转用于对齐快速(蓝色)和慢速(红色)方向,用于从原始数据中读取像素,这也会翻转d日n个指向页面(注意倒置的“A0”和“A1”标签)。(c(c))原点向量d日n个用于CSPAD层次结构的每个级别。从实验室空间的原点开始,探测器被探测器原点矢量移动。更深层次的层次结构从父对象原点指向子对象原点,或者在ASIC的情况下指向(0,0)像素的位置。请注意,可以预计象限1-3将分别顺时针旋转90、180和270°,S6和S7将旋转180°,所有这些都将保持探测器的四倍对称性。然而,计量学如何从光学测量转换为矢量是任意的,并且每次重新组装CSPAD时都会发生变化,有时会产生没有四重对称性的象限图案。这就是这里所示的L785实验的情况。DIALS(刻度盘)处理任意配置,因此这不是问题。 |
其他一些考虑因素导致我们放弃了数据表示的单数组方法。首先,Ha14设计不必要地融合了测量和模型的概念。例如,如果我们在数据收集后确定模型应将其中一个传感器向右移动两个像素,则必须创建数据阵列的新副本以反映更新的传感器位置。此外,单阵列方法不允许传感器之间的距离采用分数像素值,也不允许传感器相互轻微旋转。因此,Ha14代码被迫维护一个单独的数据结构,该结构对单位像素计量学的修正进行编码。这里采用的一个更好的软件设计是维护两个数据结构,一个简单地包含未更改形式的原始探测器面板测量值(作为像素矩形传感器阵列的列表),另一个表示每个面板的完整矢量描述,包括原点矢量d日0相对于晶体和两个矢量定位面板d日x个和d日年定义快速和慢速读出方向(Parkhurst等。, 2014). 这种方法还消除了Ha14中所有探测器面板共面以及探测器平面垂直于光束的不良要求。
也有充分的理由重新组织我们对多屏探测器的几何描述(以下简称为“探测器模型”),采用反映设备物理结构的分层设计(布鲁斯特等。, 2014). 特别是CSPAD探测器(图1)我们分配了四个组织级别,整个探测器由四个单独构建的象限组成,每个象限又由八个硅片传感器组成。硅传感器与两个194×185像素ASIC(专用集成电路)阵列(Hart等。, 2012). 每个级别的模型元素包含d日0相对于下一个最高水平的向量(图1). LCLS设施能够使用光学显微镜方法,在组装时确定每个象限内的传感器位置,以达到像素级的精度。将探测器模型表示为一个层次结构允许我们在适当的水平插入LCLS象限水平校准,用作最小二乘的起始值精细化,因此主要的不确定性是四个象限的相互关系和检测器的整体位置。此外,对于CSPAD,定义明确的读出方向(d日x个和d日年)正确解释了设备的销轮结构,其中象限彼此之间的关系约为90°,围绕一个共同原点旋转。在每个象限内,两组传感器也有大约90°的关系(图1). 因此,与Ha14单片阵列相比,本设计实现了与每个传感器相对应的单独数据阵列,这些传感器在内存中有一个共同的布局,代表空间中的四个不同方向。
为了替代Ha14,我们采用了DIALS(刻度盘)软件框架(先进光源的衍射积分; 冬季等。, 2018)它以前用于基于同步电子的旋转晶体学实验的反向建模(Waterman等。, 2016). 一个相关的区别是,虽然旋转实验通常一次处理一个晶体,但精炼多平板探测器的几何结构要求我们结合数千颗晶体的布拉格位置数据。因此,参数设置问题是高度相互依赖的,所有探测器面板位置都输入到精炼每个晶体的取向和单元胞参数,同时每个晶体模型确定所有探测器面板的位置。迭代最小二乘参数的标准方法精细化,如Levenberg–Marquardt算法(§4) ,包括构造一组具有尽可能多未知数的线性方程n个作为自由参数;因此n个×n个正规矩阵必须分解(Bevington&Robinson,2003). 天真地说,这是一个很大的矩阵;例如,32个传感器平铺xy公司每个平移和一个旋转,加上3000个具有三个方位角的六边形晶体一和c(c)参数,将产生总计n个= 15 096.作为捷径,Ha14中的工作采用了以下交替循环精细化,在探测器面板和单个晶体模型之间交替,这样就永远不会构建完整的矩阵。然而,对于下面介绍的工作,我们希望作为一项一般原则,尽量减少武断的构建精炼路径(例如首先是探测器面板,然后是晶体模型),并尽可能依赖全球精炼所有自由参数的。为此,我们利用了许多参数是独立的这一事实(例如,所有涉及两个不同探测器面板或两个不同晶体的交叉项都会将零值系数贡献给正规方程)。由于法线方程的稀疏相关结构是提前已知的,因此我们证明(§4) 如何使用稀疏线性代数技术来大幅减少解决问题所需的计算资源。
此外,我们在下面展示了DIALS(刻度盘)该框架可用于描述连续晶体学实验,包括两个成像探测器在不同的晶体到探测器距离(§5) 以及如何同时精炼对于取向几乎平行于X射线束的晶胞轴(§6). 最后,考虑到其他小组最近的报告,这些报告描述了晶体到探测器距离的微小变化如何影响实验结果(Nass等。, 2016),我们开发了一种程序来发现距离中随时间变化的微小变化,从而改进了积分布拉格点信号(§7).
3.CSPAD检测器计量精细化
我们使用定制的串行晶体学代码改进了CSPAD探测器计量学刻度盘.refine. §3.1描述了CSPAD的层级组织,以及§3.2描述了使用粉末图案自动确定初始象限位置。考虑到这种初始对齐,我们可以索引数据(§3.3),执行接头精炼关于探测器和晶体模型(§§3.4和3.5)并评估结果的准确性(§3.6).
3.1. CSPAD层次结构
我们的探测器模型以四级层次表示CSPAD的面板(图1):探测器、象限、传感器和ASIC。在标高之间切换本地参照系涉及坐标变换F类起源→小孩,定义为基准从父坐标系更改为子坐标系或再次更改(即 F类−1起源→小孩=F类小孩→起源). 转变F类可以用从父帧原点转换到子帧原点的原点向量和描述旋转的酉矩阵来表示。第一帧移位,F类实验室→d日,从实验室原点移动(即晶体位置)到整个检测器的中心。接下来,我们描述四个探测器到象限的帧移位,F类d日→问题0通过F类d日→问题3。然后有32个象限到传感器帧移位,F类q个我→第0集通过F类q个我→第7节,其中我范围从0到3。最后,由于所有成对ASIC之间的三像素间距都相同,因此正好有两个传感器到ASIC的帧移位,F类秒→a0和F类秒→a1级,适用于所有ASIC。
位置的完全转换第页从实验室框架到ASIC框架将表示为
为了方便起见,我们快递F类实验室→d日作为由旋转矩阵的分量组成的齐次变换矩阵(d日x个,d日年,d日n个)(其中d日n个是法向量,d日x个×d日年),和平移向量d日0:
其他帧偏移以相同的形式表示,但由不同的d日0,d日x个和d日年向量。4×4齐次变换矩阵允许用单个矩阵乘法表示旋转和平移。全球累计d日0,d日x个和d日年用于计算像素位置的矢量(Parkhurst等。, 2014)然后可以很容易地从(1)导出给定累积帧偏移F类:
在(3)中,相乘后F类通过四元素向量,我们将最后一个元素放入生成的同质向量中,以构造d日向量。像素在ASIC芯片平面中的位置使用像素到毫米的转换函数确定,该转换函数考虑了像素大小(包括矩形像素和可选的视差效应;Parkhurst等。, 2014; 沃特曼等。, 2016).1
反向操作(确定第页实验室鉴于第页一)可以使用来自(1)的反向和反向矩阵乘法来执行:
这些转换将64个ASIC分组为分层集合。有了这个组织,就可以在不修改子组件的框架的情况下将检测器作为一个整体进行优化,或者在不修改其父组件或子组件的帧的情况下,将象限作为一个总体进行优化,等等。关于如何记录这些转换的详细规范已经在前面介绍过了(布鲁斯特等。, 2014).
3.2. 基于旋转自相关的CSPAD象限自动对准
在每个CSPAD象限内,使用光学显微镜在LCLS设施中确定初始面板位置。因此,当组装和安装CSPAD时,象限相对于彼此和梁的位置未知。
我们开发了一种自动推导象限位置的方法;更具体地说,我们计算xy公司最靠近直射光束的四个传感器的位置(在探测器平面上)(图1,粉红色阴影)。首先,我们生成一个“合成最大值”图像,在数据集运行中获取所有图像中的最大像素值。以这种方式覆盖跑步中的所有Bragg点,会生成虚拟粉末图案,因为单个晶体具有随机方向。如果象限位置正确,在围绕光束中心旋转强大粉末图案45°后,重叠像素值将高度相关。因此,我们可以在上面执行网格搜索xy公司每个象限的偏移(将我们的检查限制在距离光束中心最近的传感器),搜索旋转自相关系数(CC)最高的位置。这产生了一个热图(图2)其中每个像素[例如(3,4)]代表象限平移该量时的CC(三个像素x个,四像素英寸年). 热图最大值的坐标给出了该象限的最佳位置校正(表2).
| | 单角度法 | 多角度法 | 运行 | 象限 | CC(%) | 四边形偏移(像素) | CC(%) | 四边形偏移(像素) | 22 | 0 | 6.1 | (3, 2) | 16.4 | (20, −20) | 1 | 8 | (5, 2) | 12.5 | (−8, −13) | 2 | 6.3 | (2, 1) | 11.9 | (−19,6) | 3 | 6.5 | (1, −5) | 11.1 | (11, 15) | 14 | 0 | 21.5 | (3, 2) | 24.6 | (3, 2) | 1 | 23 | (5, 3) | 27 | (5, 3) | 2 | 25.8 | (4, 0) | 27.7 | (4, 0) | 3 | 23.6 | (0,−6) | 26.5 | (1, −5) | 13–22 | 0 | 28.4 | (3, 2) | 32.5 | (3, 2) | 1 | 32.6 | (5, 3) | 37.7 | (5, 4) | 2 | 36.6 | (4, 0) | 41.5 | (3,0) | 3 | 33.9 | (0, −6) | 37.8 | (0, −7) | | |
| 图2 通过热溶蛋白数据的旋转自相关进行自动象限对齐。(一)运行22、运行14和运行13–22的最大合成图像数。红色弧线和虚线延伸部分的位置表明虚拟粉末环不是圆形的。(b条)象限2的旋转自相关。这个x个和年轴表示用于计算自相关的象限位置的增量偏移,中心坐标(0,0)表示无偏移。热图由象限自身的旋转自相关着色,围绕光束中心旋转45°。热图都以相同的比例着色(请参见颜色栏)。最大值用绿点标记。(c(c))使用多个旋转角度的自相关映射。每个点都是以2.5°增量从20°逐步旋转面板至70°时发现的最大CC值。(d日)旋转自相关图示。象限旋转45°,并在重叠区域的像素值之间计算CC。平移象限后,对每个栅格点重复此操作。(e(电子))应用x个和年使旋转自相关最大化的每个象限的偏移。 |
我们测试了三种虚拟粉末模式,以使用嗜热菌素数据估计前CSPAD探测器的象限位置(图2一). 第一次是从弱运行(运行22),很少击中,导致薄粉环。第二个是来自一次多次命中的强力跑(跑14次)。第三个是在单个探测器距离(运行13-22)收集的多个运行的组合。在所有三种模式中,粉末环中的不连续性表明象限未对齐。
图2(b条)显示了这三种虚拟粉末图案的旋转自相关热图。对于最弱的运行22,热图的最大值尚不清楚。对于第14次运行,它的分辨率更好,对于复合模式(第13-22次运行),它的分辨率最强。由于粉末图案中的强弱交替带,出现了低相关性和高相关性交替带。当平移象限后,45°旋转中的带与未旋转图案中类似明亮的带重叠时,CC较高。同样,平移会导致旋转图案中的条带系统地重叠未旋转图案的间隙,并产生低CC。
对于较弱的模式或稀疏的数据,尝试多次旋转可能很有用。我们以2.5°的增量,以20至70°的不同角度,对每个虚拟粉末图案重复了旋转测试。对于每个xy公司偏移,我们选择了从所有测试角度观察到的最大CC,以生成新的热图。这消除了单角度热图中局部最大值的“节拍模式”,通常会产生具有清晰全局最大值的更平滑热图(图2c(c)). 然而,对于弱数据(例如运行22),全局最大值可能仍然离最佳象限位置很远。在这种情况下,谨慎的做法是通过手动检查覆盖有从光束中心发出的圆的虚拟粉末图案进行交叉检查。
一旦象限位置得到优化,通常可以通过将校正后的合成图像与根据产生虚拟粉末图案的蛋白质的已知单位-细胞参数计算出的预测环叠加,将样本到检测器的距离估计到~1 mm以内(数据未显示)。
3.4。精炼目标函数
静态拍摄实验的计算模型被纳入参数重新定义框架(Waterman等。, 2016)在DIALS(刻度盘)通过最小化非线性最小二乘目标函数,确定探测器、晶体和光束的最佳拟合模型
其中索引我遍历所有米整个数据集中的布拉格点测量,x个和年指布拉格光斑质心在各自探测器面板上的快速和慢速坐标,下标“obs”指观测位置,下标‘calc’指计算模型预测的位置。数量ψ计算是在布拉格定律描述的反射条件下准确放置倒置晶格点所需的最小晶体旋转角。如前所述(Sauter等。, 2014),有必要包括该约束,以防止晶体定向模型围绕垂直于光束矢量的轴旋转,因为这些旋转不会直接改变布拉格光斑位置。加权方案(w个我,x个,w个我,年和w个我,ψ对于我th观测值)使用统计权重对于w个我,x个和w个我,年等于观测点位置的逆方差和ψ计算角度。默认值w个我,ψ值为106通常会将ψ计算术语与x个和年条款。
3.5.精炼探测器型号的
为了确定CSPAD探测器面板的正确位置以达到亚像素精度,我们进行了迭代非线性最小二乘参数优化,旨在联合优化探测器几何和晶体模型。我们使用从130个样品中选取的嗜热菌素衍射图像上测量的布拉格斑点位置 mm运行组(表1)并限制了我们的精炼到3000张反射最多的图像的角落的探测器。除了几何图形自由度对于探测器,如下所述,我们将两个六边形晶胞长度和三个晶体取向角作为自由参数进行处理,并对每个镜头进行独立细化。束流方向被认为是静态的,由于每个X射线脉冲的平均能量略有不同(由束线仪器测量),因此在这里使用测量的能量,而不进行细化。
开发了两种不同的协议,“分层模式”(表3)和“扩展模式”(表4),分别由三个或九个优化序列组成,序列中的每个步骤都包含描述检测器的更广泛的自由几何参数列表。这样做的一般动机是避免将探测器几何结构限制在局部最小值(5)内而是首先细化最可靠的参数。特别是,“扩展模式”协议细化了四个传感器(每个象限一个)最靠近直射光束的位置,然后依次以较大衍射角添加传感器组,如图3所示.
水平 | 传感器 | 修复 | 优化 | 约束条件 | 探测器 | 全部 | τ1,τ2,τ3 | 距离,档位1,档位2 | 无 | 象限 | 全部 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面 | 传感器 | 全部 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面 | | |
水平 | 传感器 | 修复 | 优化 | 约束条件 | 探测器 | 1 | τ1,τ2,τ3 | 距离,档位1,档位2 | 无 | 象限 | 1 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面 | 传感器 | 1, 0 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面的 | 传感器 | 1, 0, 7 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面 | 传感器 | 1, 0, 7, 3 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面 | 传感器 | 1, 0, 7, 3, 2 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面 | 传感器 | 1, 0, 7, 3, 2, 6 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面 | 传感器 | 1, 0, 7, 3, 2, 6, 4 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面的 | 传感器 | 1, 0, 7, 3, 2, 6, 4, 5 | τ1组1,τ2,τ3 | 距离,τ1,档位1,档位2 | 共面 | | |
| 图3 迭代CSPAD细化。(一)使用面板位置光学测量提供的初始位置,使用粉末图案对齐象限,然后索引所有图案。将最好的3000张图像组合成一个初始数据集(最左边的图像)。CSPAD的布局显示,每个索引反射都绘制为一个点。这些点的颜色是Δxy公司,观测(obs)和预测(calc)点位置之间的差异大小[参见(b条);蓝色表示预测与观测结果接近,而绿色到黄色表示预测不佳的反射]。循环1显示Δxy公司在第一轮精细化。随后的周期(2–4)显示了使用新计量学重新编制索引的迭代以及该计量学的重新定义。(b条)扩展模式下循环1的详细信息精细化。在内部四个传感器上选择初始反射集后,将探测器细化为一组,然后分别细化象限。然后添加接下来的四个传感器,并单独优化八个传感器。这一过程一直持续到整个检测器被优化为止。 |
探测器面板或面板组的可再细化参数包括距离(沿d日n个)、Shift1和Shift2(d日x个和d日年)和τ1,τ2和τ3(周围的旋转d日n个,d日x个和d日年)。表3和4列出了这两个协议的详细信息,总结了优化过程中,从整个检测器到每个象限,最后到单个传感器,哪些几何参数被细化。每行代表一个单独的精炼操作多达3000个晶体模型和一个探测器模型。每行的输出模型用作下一行的输入。由于晶体绕光束轴的旋转与探测器绕该轴的旋转直接相关,因此我们确定τ1这与旋转结晶学不同,因为围绕测角仪旋转打破了探测器和晶体围绕光束轴旋转之间的简并性。然而,我们确实在细化τ1在各个象限和传感器的级别。此外,我们还修复了探测器τ2和τ3。这并不是绝对必要的,因为DIALS(刻度盘)能够为所有探测器元件细化三个平移和旋转。精炼对于同步加速器数据,通常进行倾斜。然而,对于这个特殊的实验,我们发现精炼探测器的τ2和τ3结果相差不大(数据未显示)。对于我们修复的象限和传感器τ2和τ3以及距离偏移,以约束所有探测器面板共面,因为我们考虑了精炼独立面板的倾斜和距离超出了本研究的范围。
详见表3和4,我们的优化顺序从优化整个探测器距离和xy公司移位并在单个传感器的水平上结束xy公司轮班和τ1旋转:我们不单独细化2×1对ASIC的相对位置。这样做没有任何物理意义,因为每对ASIC都是绑定到单个芯片上的,通过光刻定向,彼此之间均匀地相隔三个像素,任何偏离都被认为是吸收模型中其他地方的误差的结果。最后,当精炼τ1在单个象限或传感器水平上的角度,我们小心地锁定其中一个(每组中的第一个,τ1组1),因为只有N个−1个角度是独立的,其中N个是要优化的探测器面板数量。换句话说,在表3中第2行的四个象限中的一个是固定的,第3行的32个传感器之一是固定的。
在整个优化协议结束后,我们将整个循环重复四次,以评估收敛到稳定解的能力(图3一和表5和6). 我们将收敛定义为(i)观测到的和计算出的光斑位置之间的平方根差(r.m.s.d.s)不再减小,以及(ii)探测器位置不再明显移动。在随后的每个周期之前,3000张图像被重新索引,具有较差r.m.s.d的晶体被作为异常值丢弃(布鲁斯特等。, 2016). 因此,后续循环中有不到3000个晶体对接头起作用精炼(表5).
| 分层的 | 扩大 | | | | 相对标准偏差(µm) | | | 相对标准偏差(µm) | 步骤 | 图像数量 | 反射次数 | 总体 | 公用集合 | 图像数量 | 反射次数 | 总体 | 公共集合 | 首字母 | 3000 | 700222 | 221 | 157.9 | 3000 | 700222 | 221 | 157.9 | 循环1 | 2999 | 621516 | 138.6 | 62.9 | 3000 | 580093 | 129.4 | 60.1 | 循环2 | 2727 | 383446 | 81.5 | 56.5 | 2701 | 328309 | 62.3 | 50.1 | 循环3 | 2705 | 361339 | 76 | 55.4 | 2684 | 302271 | 54.4 | 47.9 | 循环4 | 2712 | 355910 | 73.6 | 54.8 | 2709 | 298874 | 51.6 | 48 | | |
| 水平 | 位移(µm) | z(z)偏移量(µm) | τ1(°) | 循环1 | 探测器 | 56.3±0.0 | 99.3 | 0.0 ± 0.0 | 象限 | 138.3 ± 110.7 | −118.1 | 0.2 ± 0.2 | 传感器 | 53.7 ± 53.5 | 37.2 | 0.2 ± 0.1 | 循环2 | 探测器 | 0.4 ± 0.0 | −42.8 | 0.0 ± 0.0 | 象限 | 3.8 ± 1.5 | −18.0 | 0.0 ± 0.0 | 传感器 | 9.8 ± 6.3 | 71 | 0.0 ± 0.0 | 循环3 | 探测器 | 0.1 ± 0.0 | −84.0 | 0.0 ± 0.0 | 象限 | 1.6 ± 0.5 | 3.6 | 0.0 ± 0.0 | 传感器 | 11.1 ± 6.1 | 86 | 0.0 ± 0.0 | 循环4 | 探测器 | 0.2±0.0 | −92.2 | 0.0 ± 0.0 | 象限 | 1.5 ± 0.7 | 3.3 | 0.0 ± 0.0 | 传感器 | 9.0 ± 6.3 | 90.9 | 0.0 ± 0.0 | | |
3.7、。使用精细计量重新编制索引
膨胀的第4个循环精炼展示了最好的r.m.s.d.s,我们用这个计量学重复了所有照片的索引和整合,包括从每张照片上可能的第二个晶体中搜索第二个晶格。我们还考虑了探测器距离与最终优化模型的微小变化(减少约36 µm),我们将其用作目标单位电池平均值单位电池精细晶体模型(一=b条=93.28,c(c)= 130.81 Å). 这产生了119个 774个初级晶格(从未定义的计量学改进了近1500个晶格)和46个 476个次级晶格,总共166个 250格。
8.合并和误差模型
表9显示了最初发布的嗜热蛋白结构(PDB条目4万亿)以及本工作中重新处理的数据,使用§3.6. 使用四种不同的后细化使用的替代方案对数据进行缩放和合并(Sauter,2015),时间相关系综的使用精炼探测器距离(§7) 以及选择误差模型来调整综合、合并强度的估计误差。补充表S2–S5给出了四个结果数据集的详细统计数据。
数据集 | 科恩等。(2014) | 1 | 2 | 3 | 4 | 后期再定义 | 不 | 是的 | 不 | 是的 | 是的 | 依赖时间的集成优化 | 不 | 是的 | 是的 | 不 | 是的 | 错误模型 | 哈14 | 第11版 | 第11版 | 第11版 | 哈14 | 测量时间(min) | 107 | 107 | 107 | 107 | 107 | 镜头 | 757546 | 757546 | 757546 | 757546 | 757546 | 索引和集成的格 | 125800 | 166250 | 166250 | 166250 | 166250 | 合并的晶格 | 120408 | 164585 | 164612 | 165954 | 164556 | 分辨率范围(Ω) | 34.27–1.80 (1.86–1.80) | 34.27–1.80 (1.86–1.80) | 34.27–1.80 (1.86–1.80) | 34.27–1.80 (1.86–1.80) | 34.27–1.80 (1.86–1.80) | “空间”组 | P(P)6122 | P(P)6122 | P(P)6122 | P(P)6122 | P(P)6122 | 一,b条,c(c)(Å) | 93.0, 93.0, 130.4 | 93.2, 93.2, 130.8 | 93.2、93.2、130.8 | 93.2, 93.2, 130.6 | 93.2, 93.2, 130.8 | 多重性 | 1468 (15) | 1178 (500) | 1548(783) | 1132 (449) | 1178 (500) | 完整性(%) | 99.7 (98.6) | 100.0 (100.0) | 100.0 (100.0) | 100.0 (100.0) | 100.0(100.0) | 〈我/σ(我)〉† | 71.7 (4.1) | 32.4 (10.3) | 32.3 (8.0) | 28.1 (8.6) | 311.3 (30.2) | 科科斯群岛1/2(%) | 97.8 (21.2) | 100.0 (85.6) | 99.6 (81.9) | 99.9 (81.1) | 99.8 (69.1) | 异常差异图峰值高度‡(σ) | 锌2+ | 18.1 | 74 | 42.6 | 69.3 | 44.6 | 钙2+1 | 4.7 | 17.1 | 10.7 | 15.9 | 9.7 | 钙2+2 | 4 | 12 | 7.2 | 12.3 | 7.4 | 钙2+3 | 3.3 | 15.3 | 9.9 | 13.3 | 9.8 | 钙2+4 | 2.4 | 16.1 | 10.6 | 14.8 | 10.5 | 平均Ca2+ | 3.6 | 15.1 | 9.6 | 14.1 | 9.4 | | †这是两种情况下的平均强度σ哈14(我)或σ第11版(我)(详见正文)。 第二个锌矿,如Uervirojnangkoorn所示等。(2015),在我们的数据中也可以观察到,但在本工作中没有建模。 |
至关重要的是,解释信号质量高度依赖于误差模型,即如何处理测量反射强度中的不确定性。在积分过程中,我们根据光子计数统计数据确定了误差的基线估计值(Leslie,2006),如上所述σc(c)(我)这是唯一容易量化的不确定性来源。探测器校准、偏倚校正、晶体取向和细胞尺寸等其他误差源更难以估计,因此难以传播。然而,由于从积分中得出的计数统计的误差仅代表整个实验不确定度的一小部分,因此必须放大从计数统计确定的误差,以更好地表示样本中的误差。
Hattne提出了一种这样的治疗方法,Ha14等。(2014). 在这项工作中,我们考虑了在一张仍在拍摄的序列晶体照片上产生的所有强度测量值的分布。熟悉的原理会让我们相信,正如威尔逊(1949)最初讨论的那样,测量值将形成指数递减分布). 然而,由于静止镜头上的大多数(如果不是全部)斑点都是局部的,并且不知道其偏爱程度先验的,对静热点的预测使我们陷入了困境。为了预测所有衍射布拉格点,我们需要稍微高估马赛克参数(Sauter等。, 2014). 因此,许多预测的反射将不包含任何光子,积分过程只会产生噪声,噪声具有高斯分布而非指数分布。最近的一篇论文(Sharma等。, 2017)明确显示了这一点。在Ha14方法中,我们查看数量的分布我/σc(c)(我)图像上的所有测量值。的负值我/σc(c)(我)假设形成高斯分布的下半部分(平均值为零),我们确定其标准偏差σ否定。假设负测量值代表背景噪声水平,因此我们使用σ否定作为一个常数、无量纲乘法因子,放大光子计数不确定度,为每次测量提供一个新的不确定度估计,
另外,我们采用了标量(埃文斯,2006年2011年),第11页。该模型表示了三个精炼参数的不确定性:SdFac(乘法因子)、SdB(与反射强度成比例的因子)和SdAdd(与强度平方成比例的因数),公式如下:
哪里我hl公司是单个反射测量值米勒指数 小时,σc(c)2(我hl公司)是积分求和的测量误差,〈我小时\9002;是所有测量值的平均值小时和σ第11版(我hl公司)是Evans(2011)处理的单个反射测量中的校正误差).
比较Ha14和Ev11,这两个模型在传播到合并强度时产生了非常不同的误差估计。Ha14很可能大大低估了数据中的错误,产生了总体我/σ哈14(我)估计为~300。总体我/σ第11版(我)根据晶体实验中已知的误差,对~30的估计更为合理(Diederichs,2010). Ha14从未打算作为错误模型的最终描述;然而,Ev11虽然给出了合理的数值误差范围,但并没有考虑到串行晶体学蒸馏器固有需要的偏度修正引起的误差传播。
9.讨论
DIALS(刻度盘)提供了一个复杂实验几何的一般表示,我们在这里已经证明了它适用于串行晶体学。我们通过使用嗜热蛋白数据集改进LCLS处CSPAD检测器的计量学来证明这一点。首先,我们使用旋转自相关方法,使用虚拟粉末图案定位象限位置。然后,我们使用扩展的计量方法将所有32个CSPAD传感器作为独立面板进行处理精细化,首先细化内部平铺,然后逐步添加平铺以增加分辨率壳。在改进计量学之后,我们发现观测值的r.m.s.d.有了很大提高与预测的点位置(从157.9到60.1 µm或约半个像素,CSPAD像素大小为110 µm)。在使用新计量学对图像重新编制索引,并在收敛之前循环重新定义后,我们观察到进一步的改进(最终的r.m.s.d.为50.1 µm)。
为了获得关节参数精炼为了实际使用带有多面板检测器的数千个晶体模型,我们使用稀疏矩阵算法实现了一种非线性最小二乘方法,以有效地求解计算步长所需的正规方程。这使得我们可以使用单一的联合目标函数,而不是像以前那样在晶体和探测器模型之间交替使用。
我们还能够使用在一个CSPAD上观察到的晶格中的晶体取向矩阵来完善位于2.5 m,演示了几何的一般方法精炼由使用DIALS(刻度盘)。我们可以组合探测器,同时优化总体探测器距离和面板位置,并处理任意方向上具有任意数量段的探测器。
当连接时精炼应用于用于数据集的所有晶体的集合,它还有一个额外的好处,那就是提高了与光束紧密对齐的轴的单位间距估计的准确性,这些轴很难从静止图像中测量。串行晶体学数据集通常显示了从索引中导出的单元-细胞参数的广泛分布,可能反映了几个因素,包括无法准确建模探测器位置、晶体参数和光束参数,以及晶体之间的真正非同构。合奏精炼提供了一种消除几种建模不确定性的方法,可以更清楚地描述晶体的固有非同构性,在我们的嗜热蛋白数据非常低的情况下。我们注意到,对连续晶体学中非同构现象的担忧已得到广泛表达,我们的结果似乎减轻了一些担忧。
确保正确的探测器位置对于最大化集成模式的数量和校正单元-细胞分布中的不对称性至关重要(Hattne等。, 2014; Nass公司等。,2016年). 随着科学家更换样品、重新校准设备位置或只是撞击仪器,预计在数据采集过程中,样品位置会随时间发生轻微变化,甚至会偏离其原始位置。为此,我们试图通过应用与时间相关的系综来校正探测器位置随时间的系统变化精炼改进整个实验的集成数据质量的方法。我们将数据分为粒度时间间隔,并在每个批次中重新定义探测器位置、晶体模型和镶嵌估计,使用新模型预测和整合布拉格斑点。这使得在收集探测器计量校准数据(130 mm探测器距离)。当探测器移动到105时 mm,重新定义了每批探测器的位置,进一步提高了集成信号强度。
计量后精细化,在以后的数据收集过程中,可以通过直接在DIALS(刻度盘)或将其转换为LCLS几何格式,供非-DIALS(刻度盘)软件(布鲁斯特等。, 2016). 然而,探测器位置的变化可能需要重新定义瓷砖位置。现场预测中的小的、取决于分辨率的系统误差(§3.6)可被局部瓷砖移动吸收,因此潜在用户在移动探测器时应始终重新定义探测器计量。
我们使用四种不同的协议合并了数据。最佳实践方法,通过74.0锌原子的反常峰高测量σ,包括后求精、时间相关系综精炼和Ev11错误模型。删除后细化,删除与时间相关的集成精炼或使用Ha14误差模型均导致异常峰高较低(42.6、69.4和44.6σ)。我们建议软件用户在分析未来的XFEL数据集时尝试这些算法选择。这样做的脚本已经可用(参见§10).