研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
国际标准编号:2059-7983

用提高串行晶体学中的信号强度DIALS(刻度盘)几何体细化

十字标记_颜色_方形_文本.svg

劳伦斯伯克利国家实验室,伯克利,加利福尼亚州94720,美国,b条STFC Rutherford Appleton实验室,英国Didcot OX11 0QX,c(c)英国Didcot OX11 0FA卢瑟福阿普尔顿实验室哈维尔研究中心CCP4,d日英国Didcot OX11 0DE哈维尔科技创新园区钻石光源有限公司e(电子)英国剑桥CB2 0QH Francis Crick大道MRC分子生物学实验室
*通信电子邮件:nksauter@lbl.gov

美国橡树岭国家实验室P.Langan编辑(2018年3月12日收到; 2018年6月25日接受; 在线2018年9月3日)

这个DIALS(刻度盘)衍射建模软件包已应用于连续晶体学数据。衍射建模是确定实验参数的练习,例如入射光束波长、晶体单位电池和方向,以及探测器的几何形状,这与布拉格点的观测位置最为一致。这些参数可以通过非线性最小二乘拟合进行细化。在之前的工作中,完善传感器(计量)在多面板成像探测器(如CSPAD)上的位置和所研究的所有晶体的方向一直是一项挑战。由于计量学和晶体取向的最佳模型是相互依赖的,面板的交替循环精炼和水晶精炼已被要求。为了简化过程,实现了一种用于求解法方程的稀疏线性代数技术,允许针对数千个晶体的衍射同时对探测器面板进行优化,并具有出色的计算性能。另外,还显示了如何改进第二个CSPAD检测器的计量,该检测器位于2.5的距离处m,用于记录低角度反射。能够根据用于结构测定,它显示出合奏精炼极大地减少了在静态连续晶体学的单位-细胞分布中经常观察到的明显的非同构现象。此外,通过时间戳对图像进行批处理并重新定义探测器位置,可以真实地模拟探测器位置相对于样品的随时间变化的微小变化,从而改善集成结构因子强度信号和重原子异常峰高。

1.简介

系列晶体学方法正在拓宽结构生物学的范围,允许使用短辐射脉冲对大分子结构进行检测,该脉冲可从几乎没有辐射损伤的样品中产生衍射。室温实验保存了蛋白质的生理相关动态运动,低温保存可猝灭蛋白质,并沿酶途径跨越多个时间点。当今的发展始于X射线自由电子激光(XFEL)源的引入(伯格曼等。, 2017[Bergmann,U.、Yachandra,V.和Yano,J.(2017)。《X射线自由电子激光器》。伦敦:皇家化学学会。]);然而,最新一代同步辐射源引入了脉冲持续时间和焦距大小,带来了一些相同的好处。

虽然串行晶体学在其承诺方面具有开创性,但它提出了许多技术挑战,包括涉及数据分析的挑战。使用短X射线脉冲,从同步加速器的微秒到XFEL的飞秒,晶体样品在一次激发期间基本上保持静止,之后晶体被替换。这与传统方法不同,传统方法是在测角仪上连续旋转单晶。这两种方法的数据处理工作流程大致相似,包括通过点定位算法定位布拉格点,确定晶格通过索引程序,在预测的布拉格光斑位置对衍射强度进行积分,最后对重复的布拉格测量进行缩放和合并。此外,在这两种情况下,该方法都涉及反向建模,其中实验的计算机表示用于预测衍射图像的特性,包括布拉格光斑位置,然后迭代调整模型的参数,以最佳匹配观测图像。

然而,尽管几十年来旋转射波的治疗已经很成熟,但串行晶体学的实验创新需要新的模型。特别是,XFEL设施引入了像素阵列探测器,其独特设计用于在飞秒周期内集成X射线信号。这些装置在性能上进行了权衡,即被构造为多面板单元,同时还增加了一个问题,即各个面板之间的几何关系(“计量学”)必须包含在计算模型中。我们的团队(Hattne等。, 2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。])和其他人(叶凡诺夫等。, 2015【Yefanov,O.、Mariani,V.、Gati,C.、White,T.A.、Chapman,H.N.和Barty,A.(2015)。Opt.Express,23,28459-28470。】; Ginn&Stuart,2017年【Ginn,H.M.和Stuart,D.I.(2017),J.Synchrotron Rad.24,1152-1162。】)已经表明,最初确定得很差的单个探测器面板的位置和方向,可以通过迭代非线性最小二乘法确定到亚像素精度精细化,这样可以最大限度地减小观测到的和预测到的布拉格点位置之间的残余差异。

尽管Ha14(Hattne)取得了成功等。, 2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。])我们程序中包含的计量代码cctbx.xfel公司据了解,由于几个原因,最终需要重新设计实现。Ha14将所有探测器面板的图像数据嵌入到一个表示整个探测器的方形数据阵列中,面板处于近似几何位置,背景是设置为特殊值的像素,以表示面板之间的非活动区域。从表面上看,这会招致批评,即非活动区域会浪费内存和磁盘空间。然而,由于必须对面板的数量及其尺寸进行编码,以及需要使用特殊代码来忽略图像处理中的非活动像素,这一缺点已被证明更加严重。因此,虽然代码支持64屏CSPAD(图1[链接]; 雄鹿等。, 2012【Hart,P.等人(2012),《SPIE程序》,8504,85040C。】)在Ha14出版时安装在Linac相干光源(LCLS)上,它不容易与后续的探测器型号配合使用,包括SACLA(Kameshima)的八面MPCCD探测器等。, 2014【Kameshima,T.、Ono,S.、Kudo,T.和Ozaki,K.、Kirihara,Y.、Kobayashi,K.和Inubushi,Y.,Yabashi,M.、Horigme,T.,Holland,A.、Holland、K.、Burt,D.、Murao,H.和Hatsui,T.(2014),《科学仪器评论》,85,033110。】)以及欧洲XFEL(Henrich)的128屏AGIPD探测器等。2011年[Henrich,B.等人(2011年)。《Nucl.Instrum.Methods Phys.Res.A,633,S11-S14》。]). 即使CSPAD探测器上的单个传感器暂时丢失,也需要对减少的传感器补码进行硬编码。

[图1]
图1
CSPAD(康奈尔-SLAC像素阵列探测器)概述。()仪器照片(来源:Philip Hart)。(b条)分级组织。每个级别都将可以一起优化的对象分组。3级中的粉红色ASIC与粉末图案一起用于象限对齐(§[链接]3.2)。蓝色和红色矢量是d日x个d日用于确定组方向的方向。这个d日n个完成坐标系的向量与二者正交,在页面上指出0–2级。在3级,a-轴符号翻转用于对齐快速(蓝色)和慢速(红色)方向,用于从原始数据中读取像素,这也会翻转d日n个指向页面(注意倒置的“A0”和“A1”标签)。(c(c))原点向量d日n个用于CSPAD层次结构的每个级别。从实验室空间的原点开始,探测器被探测器原点矢量移动。更深层次的层次结构从父对象原点指向子对象原点,或者在ASIC的情况下指向(0,0)像素的位置。请注意,可以预计象限1-3将分别顺时针旋转90、180和270°,S6和S7将旋转180°,所有这些都将保持探测器的四倍对称性。然而,计量学如何从光学测量转换为矢量是任意的,并且每次重新组装CSPAD时都会发生变化,有时会产生没有四重对称性的象限图案。这就是这里所示的L785实验的情况。DIALS(刻度盘)处理任意配置,因此这不是问题。

其他一些考虑因素导致我们放弃了数据表示的单数组方法。首先,Ha14设计不必要地融合了测量和模型的概念。例如,如果我们在数据收集后确定模型应将其中一个传感器向右移动两个像素,则必须创建数据阵列的新副本以反映更新的传感器位置。此外,单阵列方法不允许传感器之间的距离采用分数像素值,也不允许传感器相互轻微旋转。因此,Ha14代码被迫维护一个单独的数据结构,该结构对单位像素计量学的修正进行编码。这里采用的一个更好的软件设计是维护两个数据结构,一个简单地包含未更改形式的原始探测器面板测量值(作为像素矩形传感器阵列的列表),另一个表示每个面板的完整矢量描述,包括原点矢量d日0相对于晶体和两个矢量定位面板d日x个d日定义快速和慢速读出方向(Parkhurst等。, 2014【Parkhurst,J.M.、Brewster,A.S.、Fuentes-Montero,L.、Waterman,D.G.、Hattne,J.、Ashton,A.W.、Echols,N.、Evans,G.、Sauter,N.K.和Winter,G.(2014)。《应用结晶杂志》第47期,第1459-1465页。】). 这种方法还消除了Ha14中所有探测器面板共面以及探测器平面垂直于光束的不良要求。

也有充分的理由重新组织我们对多屏探测器的几何描述(以下简称为“探测器模型”),采用反映设备物理结构的分层设计(布鲁斯特等。, 2014【Brewster,A.S.,Hattne,J.,Parkhurst,J.M.,Waterman,D.G.,Bernstein,H.J.,Winter,G.&Sauter,N.K.(2014),《计算结晶器》,新闻5,19-24。https://www.phenix-online.org/newsletter/CCN_2014_01.pdf。]). 特别是CSPAD探测器(图1[链接])我们分配了四个组织级别,整个探测器由四个单独构建的象限组成,每个象限又由八个硅片传感器组成。硅传感器与两个194×185像素ASIC(专用集成电路)阵列(Hart等。, 2012【Hart,P.等人(2012),《SPIE程序》,8504,85040C。】). 每个级别的模型元素包含d日0相对于下一个最高水平的向量(图1[链接]). LCLS设施能够使用光学显微镜方法,在组装时确定每个象限内的传感器位置,以达到像素级的精度。将探测器模型表示为一个层次结构允许我们在适当的水平插入LCLS象限水平校准,用作最小二乘的起始值精细化,因此主要的不确定性是四个象限的相互关系和检测器的整体位置。此外,对于CSPAD,定义明确的读出方向(d日x个d日)正确解释了设备的销轮结构,其中象限彼此之间的关系约为90°,围绕一个共同原点旋转。在每个象限内,两组传感器也有大约90°的关系(图1[链接]). 因此,与Ha14单片阵列相比,本设计实现了与每个传感器相对应的单独数据阵列,这些传感器在内存中有一个共同的布局,代表空间中的四个不同方向。

为了替代Ha14,我们采用了DIALS(刻度盘)软件框架(先进光源的衍射积分; 冬季等。, 2018【Winter,G.、Waterman,D.G.、Parkhurst,J.M.、Brewster,A.S.、Gildea,R.J.、Gerstel,M.、Fuentes-Montero,L.、Vollmar,M.,Michels-Clark,T.、Young,I.D.、Sauter,N.K.和Evans,G.(2018),《结晶学报》D74、85-97。】)它以前用于基于同步电子的旋转晶体学实验的反向建模(Waterman等。, 2016【Waterman,D.G.、Winter,G.、Gildea,R.J.、Parkhurst,J.M.、Brewster,A.S.、Sauter,N.K.和Evans,G.(2016),《结晶学报》第72期,第558-575页。】). 一个相关的区别是,虽然旋转实验通常一次处理一个晶体,但精炼多平板探测器的几何结构要求我们结合数千颗晶体的布拉格位置数据。因此,参数设置问题是高度相互依赖的,所有探测器面板位置都输入到精炼每个晶体的取向和单元胞参数,同时每个晶体模型确定所有探测器面板的位置。迭代最小二乘参数的标准方法精细化,如Levenberg–Marquardt算法(§[链接]4) ,包括构造一组具有尽可能多未知数的线性方程n个作为自由参数;因此n个×n个正规矩阵必须分解(Bevington&Robinson,2003【Bevington,P.R.&Robinson,D.K.(2003),《物理科学的数据简化和误差分析》,第三版,波士顿:麦格劳-希尔出版社。】). 天真地说,这是一个很大的矩阵;例如,32个传感器平铺xy公司每个平移和一个旋转,加上3000个具有三个方位角的六边形晶体c(c)参数,将产生总计n个= 15096.作为捷径,Ha14中的工作采用了以下交替循环精细化,在探测器面板和单个晶体模型之间交替,这样就永远不会构建完整的矩阵。然而,对于下面介绍的工作,我们希望作为一项一般原则,尽量减少武断的构建精炼路径(例如首先是探测器面板,然后是晶体模型),并尽可能依赖全球精炼所有自由参数的。为此,我们利用了许多参数是独立的这一事实(例如,所有涉及两个不同探测器面板或两个不同晶体的交叉项都会将零值系数贡献给正规方程)。由于法线方程的稀疏相关结构是提前已知的,因此我们证明(§[链接]4) 如何使用稀疏线性代数技术来大幅减少解决问题所需的计算资源。

此外,我们在下面展示了DIALS(刻度盘)该框架可用于描述连续晶体学实验,包括两个成像探测器在不同的晶体到探测器距离(§[链接]5) 以及如何同时精炼对于取向几乎平行于X射线束的晶胞轴(§[链接]6). 最后,考虑到其他小组最近的报告,这些报告描述了晶体到探测器距离的微小变化如何影响实验结果(Nass等。, 2016【Nass,K.,Meinhart,A.,Barends,T.R.M.,Foucar,L.,Gorel,A.,Aquila,A.,Botha,S.,Doak,R.B.,Koglin,J.,Liang,M.,Shoeman,R.L.,Williams,G.,Boutet,S.&Schlichting,I.(2016)。国际癌症研究联合会,3,180-191年。】),我们开发了一种程序来发现距离中随时间变化的微小变化,从而改进了积分布拉格点信号(§[链接]7).

2.数据集

我们重新处理了在LCLS的CXI端站收集的嗜热蛋白衍射图案(表1[链接]). 样品制备和注入、光束线参数和数据采集方法在Kern中进行了描述等。(2014[Kern,J.等人(2014),《自然通讯》,第5期,第4371页。]). 760共收集110发子弹,超过107发min,入射光子能量设定值约为9.75千伏。前CSPAD位于距离样品插入位置130或105 mm处,而后检测器位于~2.5 mm处距离样品插入位置m,以便通过前CSPAD中心孔透射的低角度衍射被收集在后检测器上。数据收集在“运行”中进行,表示连续的时间间隔(通常为5-10min),在此期间,实验参数保持不变。表1中列出的运行[链接]按前部探测器距离分组。

表1
数据集

给出了本工作中使用的两个数据集的样本名称和LCLS建议编号,以及采集的总放炮次数、采集数据的探测器距离和入射光子能量。

样品 LCLS建议书编号。 发布的PDB代码 运行编号。 收集时间(min) 放炮次数 前探测器距离(mm) 背面探测器距离(m) 光子能量(keV)
嗜热菌蛋白酶 L785型 4万亿 11–22 71 503605 130 2.5 9.75
26–29 36 256505 105 2.5 9.75
Cry3A毒素 LS02型 4个x 0 2–4 7 49453 111 2.5 8.50
5 5 38808 181 2.5 8.50
6–7, 10–12 41 292479 166 2.5 8.50

我们还重新处理了大约一周后在CXI的同一个CSPAD检测器上收集的Cry3A毒素数据。380共收集了740张照片,超过53张最小入射光子能量设定值8.5千伏。样品制备和注入、光束线参数和数据采集方法在Sawaya中进行了描述等。(2014【Sawaya,M.R.等人(2014)。美国国家科学院院刊,111,12769-12774。】).

3.CSPAD检测器计量精细化

我们使用定制的串行晶体学代码改进了CSPAD探测器计量学刻度盘.refine. §[链接]3.1描述了CSPAD的层级组织,以及§[链接]3.2描述了使用粉末图案自动确定初始象限位置。考虑到这种初始对齐,我们可以索引数据(§[链接]3.3),执行接头精炼关于探测器和晶体模型(§§[链接]3.4和[链接]3.5)并评估结果的准确性(§[链接]3.6).

3.1. CSPAD层次结构

我们的探测器模型以四级层次表示CSPAD的面板(图1[链接]):探测器、象限、传感器和ASIC。在标高之间切换本地参照系涉及坐标变换F类起源小孩,定义为基准从父坐标系更改为子坐标系或再次更改( F类−1起源小孩=F类小孩起源). 转变F类可以用从父帧原点转换到子帧原点的原点向量和描述旋转的酉矩阵来表示。第一帧移位,F类实验室d日,从实验室原点移动(晶体位置)到整个检测器的中心。接下来,我们描述四个探测器到象限的帧移位,F类d日问题0通过F类d日问题3。然后有32个象限到传感器帧移位,F类q个第0集通过F类q个第7节,其中范围从0到3。最后,由于所有成对ASIC之间的三像素间距都相同,因此正好有两个传感器到ASIC的帧移位,F类a0F类a1级,适用于所有ASIC。

位置的完全转换第页从实验室框架到ASIC框架将表示为

[{\bf p}_{\rm a}=({\bf-F}_{{\rms s}\rightarrow{\rma}}{\bfF}_{{\rmq}\right arrow}\rms}}{\ bf F}_}{\rmd}\rirtarrow{\rmq}}{\ff F}_{\rmlab}\riftarrow\rmd{}}){\bv p}{\rma lab}.\eqno(1)]

为了方便起见,我们快递F类实验室d日作为由旋转矩阵的分量组成的齐次变换矩阵(d日x个,d日,d日n个)(其中d日n个是法向量,d日x个×d日),和平移向量d日0:

[{\bf F}_{\rm lab}\rightarrow{\rmd}}=\左(矩阵{d_{x1}和d_{y1}&d_{n1}&d{01}\cr d_{x2}&d_{y2}和d{n2}&d_{02}\cr d_{x3}&d{y3}和e_{n3}与d_{03}\cr 0&0&0~1}右)。\eqno(2)]

其他帧偏移以相同的形式表示,但由不同的d日0,d日x个d日向量。4×4齐次变换矩阵允许用单个矩阵乘法表示旋转和平移。全球累计d日0,d日x个d日用于计算像素位置的矢量(Parkhurst等。, 2014【Parkhurst,J.M.、Brewster,A.S.、Fuentes-Montero,L.、Waterman,D.G.、Hattne,J.、Ashton,A.W.、Echols,N.、Evans,G.、Sauter,N.K.和Winter,G.(2014)。《应用结晶杂志》第47期,第1459-1465页。】)然后可以很容易地从(1)导出[链接]给定累积帧偏移F类:

[\left(\trix{\bf d}_{0}\cr 1}\right)={\bf F}\left(\trix{0\cr 0\cr 1}\right),\quad\left(\trix{\bf d}_{x}\cr 1}\right)={\bf F}\left(\trix{1\cr 0\cr 0}\right),\quad\left(\trix{\bf d}_{y}\cr 1}\right)={\bf}\left(\trix{0\cr 1\cr 0}\右).\eqno(3)]

在(3)中[链接],相乘后F类通过四元素向量,我们将最后一个元素放入生成的同质向量中,以构造d日向量。像素在ASIC芯片平面中的位置使用像素到毫米的转换函数确定,该转换函数考虑了像素大小(包括矩形像素和可选的视差效应;Parkhurst等。, 2014【Parkhurst,J.M.、Brewster,A.S.、Fuentes-Montero,L.、Waterman,D.G.、Hattne,J.、Ashton,A.W.、Echols,N.、Evans,G.、Sauter,N.K.和Winter,G.(2014)。《应用结晶杂志》第47期,第1459-1465页。】; 沃特曼等。, 2016【Waterman,D.G.、Winter,G.、Gildea,R.J.、Parkhurst,J.M.、Brewster,A.S.、Sauter,N.K.和Evans,G.(2016),《结晶学报》第72期,第558-575页。】).1

反向操作(确定第页实验室鉴于第页)可以使用来自(1)的反向和反向矩阵乘法来执行[链接]:

[{\bf p}_{\rm lab}=p}{\rma}.\eqno(4)]

这些转换将64个ASIC分组为分层集合。有了这个组织,就可以在不修改子组件的框架的情况下将检测器作为一个整体进行优化,或者在不修改其父组件或子组件的帧的情况下,将象限作为一个总体进行优化,等等。关于如何记录这些转换的详细规范已经在前面介绍过了(布鲁斯特等。, 2014【Brewster,A.S.,Hattne,J.,Parkhurst,J.M.,Waterman,D.G.,Bernstein,H.J.,Winter,G.&Sauter,N.K.(2014),《计算结晶器》,新闻5,19-24。https://www.phenix-online.org/newsletter/CCN_2014_01.pdf。]).

3.2. 基于旋转自相关的CSPAD象限自动对准

在每个CSPAD象限内,使用光学显微镜在LCLS设施中确定初始面板位置。因此,当组装和安装CSPAD时,象限相对于彼此和梁的位置未知。

我们开发了一种自动推导象限位置的方法;更具体地说,我们计算xy公司最靠近直射光束的四个传感器的位置(在探测器平面上)(图1[链接],粉红色阴影)。首先,我们生成一个“合成最大值”图像,在数据集运行中获取所有图像中的最大像素值。以这种方式覆盖跑步中的所有Bragg点,会生成虚拟粉末图案,因为单个晶体具有随机方向。如果象限位置正确,在围绕光束中心旋转强大粉末图案45°后,重叠像素值将高度相关。因此,我们可以在上面执行网格搜索xy公司每个象限的偏移(将我们的检查限制在距离光束中心最近的传感器),搜索旋转自相关系数(CC)最高的位置。这产生了一个热图(图2[链接])其中每个像素[例如(3,4)]代表象限平移该量时的CC(三个像素x个,四像素英寸). 热图最大值的坐标给出了该象限的最佳位置校正(表2[链接]).

表2
旋转自相关对准结果

跑步:弱跑(22)、强跑(14)和多跑合成图像(13–22)。对于单角度方法和多角度方法,列出了每个象限移动象限以最大化旋转自相关CC和该位置CC所需的像素偏移。

    单角度法 多角度法
运行 象限 CC(%) 四边形偏移(像素) CC(%) 四边形偏移(像素)
22 0 6.1 (3, 2) 16.4 (20, −20)
1 8 (5, 2) 12.5 (−8, −13)
2 6.3 (2, 1) 11.9 (−19,6)
3 6.5 (1, −5) 11.1 (11, 15)
14 0 21.5 (3, 2) 24.6 (3, 2)
1 23 (5, 3) 27 (5, 3)
2 25.8 (4, 0) 27.7 (4, 0)
3 23.6 (0,−6) 26.5 (1, −5)
13–22 0 28.4 (3, 2) 32.5 (3, 2)
1 32.6 (5, 3) 37.7 (5, 4)
2 36.6 (4, 0) 41.5 (3,0)
3 33.9 (0, −6) 37.8 (0, −7)
[图2]
图2
通过热溶蛋白数据的旋转自相关进行自动象限对齐。()运行22、运行14和运行13–22的最大合成图像数。红色弧线和虚线延伸部分的位置表明虚拟粉末环不是圆形的。(b条)象限2的旋转自相关。这个x个轴表示用于计算自相关的象限位置的增量偏移,中心坐标(0,0)表示无偏移。热图由象限自身的旋转自相关着色,围绕光束中心旋转45°。热图都以相同的比例着色(请参见颜色栏)。最大值用绿点标记。(c(c))使用多个旋转角度的自相关映射。每个点都是以2.5°增量从20°逐步旋转面板至70°时发现的最大CC值。(d日)旋转自相关图示。象限旋转45°,并在重叠区域的像素值之间计算CC。平移象限后,对每个栅格点重复此操作。(e(电子))应用x个使旋转自相关最大化的每个象限的偏移。

我们测试了三种虚拟粉末模式,以使用嗜热菌素数据估计前CSPAD探测器的象限位置(图2[链接]). 第一次是从弱运行(运行22),很少击中,导致薄粉环。第二个是来自一次多次命中的强力跑(跑14次)。第三个是在单个探测器距离(运行13-22)收集的多个运行的组合。在所有三种模式中,粉末环中的不连续性表明象限未对齐。

图2[链接](b条)显示了这三种虚拟粉末图案的旋转自相关热图。对于最弱的运行22,热图的最大值尚不清楚。对于第14次运行,它的分辨率更好,对于复合模式(第13-22次运行),它的分辨率最强。由于粉末图案中的强弱交替带,出现了低相关性和高相关性交替带。当平移象限后,45°旋转中的带与未旋转图案中类似明亮的带重叠时,CC较高。同样,平移会导致旋转图案中的条带系统地重叠未旋转图案的间隙,并产生低CC。

对于较弱的模式或稀疏的数据,尝试多次旋转可能很有用。我们以2.5°的增量,以20至70°的不同角度,对每个虚拟粉末图案重复了旋转测试。对于每个xy公司偏移,我们选择了从所有测试角度观察到的最大CC,以生成新的热图。这消除了单角度热图中局部最大值的“节拍模式”,通常会产生具有清晰全局最大值的更平滑热图(图2[链接]c(c)). 然而,对于弱数据(例如运行22),全局最大值可能仍然离最佳象限位置很远。在这种情况下,谨慎的做法是通过手动检查覆盖有从光束中心发出的圆的虚拟粉末图案进行交叉检查。

一旦象限位置得到优化,通常可以通过将校正后的合成图像与根据产生虚拟粉末图案的蛋白质的已知单位-细胞参数计算出的预测环叠加,将样本到检测器的距离估计到~1 mm以内(数据未显示)。

3.3. 初始索引

之后精炼通过旋转自相关确定象限位置,我们对前端CSPAD上的嗜热菌蛋白酶数据进行初始索引,以生成一个数据集,从中我们可以完善完整的检测器计量学。如前所述,我们通过在不断增加的距离上进行几轮索引并选择产生最高数量索引图像的距离来确定起始探测器距离(Hattne等。, 2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。]). 然后我们对所有图像进行索引,使用一维傅里叶方法确定初始基向量(Steller等。, 1997【Steller,I.,Bolotovsky,R.&Rossmann,M.G.(1997),《应用结晶学杂志》,第30期,第1036-1040页。】),同时使用目标指导候选基向量的选择单位电池(=b条= 92.9,c(c)= 130.4Å,α=β= 90,γ= 120°; 哈特尼等。, 2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。]). 对于每个图像,我们独立地细化了晶体取向矩阵和单位-细胞参数,同时保持波长和检测器位置不变。这产生了118个从两个探测器距离(~130和105)的318个索引格毫米)。在随后的章节中,我们使用初始索引(§§[链接]3.5和[链接]3.6),然后使用改进的计量方法重新索引数据,生成之前未索引的成功索引模式(§[链接]3.7)。

3.4。精炼目标函数

静态拍摄实验的计算模型被纳入参数重新定义框架(Waterman等。, 2016【Waterman,D.G.、Winter,G.、Gildea,R.J.、Parkhurst,J.M.、Brewster,A.S.、Sauter,N.K.和Evans,G.(2016)。晶体学报D72,558-575。】)在DIALS(刻度盘)通过最小化非线性最小二乘目标函数,确定探测器、晶体和光束的最佳拟合模型

[L={{1}\超过{2}}\textstyle\sum\limits^{米}_{i=1}w{i,x}(x{rm计算}-x{rmobs})

其中索引遍历所有整个数据集中的布拉格点测量,x个指布拉格光斑质心在各自探测器面板上的快速和慢速坐标,下标“obs”指观测位置,下标‘calc’指计算模型预测的位置。数量ψ计算是在布拉格定律描述的反射条件下准确放置倒置晶格点所需的最小晶体旋转角。如前所述(Sauter等。, 2014【Sauter,N.K.,Hattne,J.,Brewster,A.S.,Echols,N.,Zwart,P.H.&Adams,P.D.(2014),《结晶学报》第70期,第3299-3309页。】),有必要包括该约束,以防止晶体定向模型围绕垂直于光束矢量的轴旋转,因为这些旋转不会直接改变布拉格光斑位置。加权方案(w个,x个,w个,w个,ψ对于th观测值)使用统计权重对于w个,x个w个,等于观测点位置的逆方差和ψ计算角度。默认值w个,ψ值为106通常会将ψ计算术语与x个条款。

3.5.精炼探测器型号的

为了确定CSPAD探测器面板的正确位置以达到亚像素精度,我们进行了迭代非线性最小二乘参数优化,旨在联合优化探测器几何和晶体模型。我们使用从130个样品中选取的嗜热菌素衍射图像上测量的布拉格斑点位置mm运行组(表1[链接])并限制了我们的精炼到3000张反射最多的图像的角落的探测器。除了几何图形自由度对于探测器,如下所述,我们将两个六边形晶胞长度和三个晶体取向角作为自由参数进行处理,并对每个镜头进行独立细化。束流方向被认为是静态的,由于每个X射线脉冲的平均能量略有不同(由束线仪器测量),因此在这里使用测量的能量,而不进行细化。

开发了两种不同的协议,“分层模式”(表3[链接])和“扩展模式”(表4[链接]),分别由三个或九个优化序列组成,序列中的每个步骤都包含描述检测器的更广泛的自由几何参数列表。这样做的一般动机是避免将探测器几何结构限制在局部最小值(5)内[链接]而是首先细化最可靠的参数。特别是,“扩展模式”协议细化了四个传感器(每个象限一个)最靠近直射光束的位置,然后依次以较大衍射角添加传感器组,如图3所示[链接].

表3
细化程序(分层模式)

级别:正在优化的层次结构级别。在检测器级别,整个检测器的基础框架被细化为一个块。在象限级别,四个象限帧被独立地细化。在传感器级别,32个单独的传感器是独立优化的。传感器:每个象限的八个传感器中哪一个经过了细化(见图1[链接]). 修复:不允许优化的参数。细化:细化的参数(请注意,数千个晶体单元和方向始终与探测器模型同时细化)。约束:如何约束参数以一致更改。第一次之后精炼步骤中,被优化的子帧的距离参数都被约束为更改相同的量。这在每一步细化检测器距离的同时保留了共面检测器。

水平 传感器 修复 优化 约束条件
探测器 全部 τ1,τ2,τ3 距离,档位1,档位2
象限 全部 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面
传感器 全部 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面

表4
细化程序(扩展模式)

如表3所示[链接],但并非所有传感器都在每个级别进行了优化。相反,为了增加与探测器中心的径向距离,增加了传感器。例如,在第一个精炼每个象限的传感器1的阶跃反射用于整体优化检测器。在第二次精炼步骤中,使用相同的反射来单独细化象限。在第三个步骤中,四个象限中的传感器0和1分别进行细化,以此类推,直到最后一步中对所有32个传感器进行细化。

水平 传感器 修复 优化 约束条件
探测器 1 τ1,τ2,τ3 距离,档位1,档位2
象限 1 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面
传感器 1, 0 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面的
传感器 1, 0, 7 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面
传感器 1, 0, 7, 3 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面
传感器 1, 0, 7, 3, 2 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面
传感器 1, 0, 7, 3, 2, 6 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面
传感器 1, 0, 7, 3, 2, 6, 4 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面的
传感器 1, 0, 7, 3, 2, 6, 4, 5 τ1组1,τ2,τ3 距离,τ1,档位1,档位2 共面
[图3]
图3
迭代CSPAD细化。()使用面板位置光学测量提供的初始位置,使用粉末图案对齐象限,然后索引所有图案。将最好的3000张图像组合成一个初始数据集(最左边的图像)。CSPAD的布局显示,每个索引反射都绘制为一个点。这些点的颜色是Δxy公司,观测(obs)和预测(calc)点位置之间的差异大小[参见(b条);蓝色表示预测与观测结果接近,而绿色到黄色表示预测不佳的反射]。循环1显示Δxy公司在第一轮精细化。随后的周期(2–4)显示了使用新计量学重新编制索引的迭代以及该计量学的重新定义。(b条)扩展模式下循环1的详细信息精细化。在内部四个传感器上选择初始反射集后,将探测器细化为一组,然后分别细化象限。然后添加接下来的四个传感器,并单独优化八个传感器。这一过程一直持续到整个检测器被优化为止。

探测器面板或面板组的可再细化参数包括距离(沿d日n个)、Shift1和Shift2(d日x个d日)和τ1,τ2τ3(周围的旋转d日n个,d日x个d日)。表3[链接]和4[链接]列出了这两个协议的详细信息,总结了优化过程中,从整个检测器到每个象限,最后到单个传感器,哪些几何参数被细化。每行代表一个单独的精炼操作多达3000个晶体模型和一个探测器模型。每行的输出模型用作下一行的输入。由于晶体绕光束轴的旋转与探测器绕该轴的旋转直接相关,因此我们确定τ1这与旋转结晶学不同,因为围绕测角仪旋转打破了探测器和晶体围绕光束轴旋转之间的简并性。然而,我们确实在细化τ1在各个象限和传感器的级别。此外,我们还修复了探测器τ2τ3。这并不是绝对必要的,因为DIALS(刻度盘)能够为所有探测器元件细化三个平移和旋转。精炼对于同步加速器数据,通常进行倾斜。然而,对于这个特殊的实验,我们发现精炼探测器的τ2τ3结果相差不大(数据未显示)。对于我们修复的象限和传感器τ2τ3以及距离偏移,以约束所有探测器面板共面,因为我们考虑了精炼独立面板的倾斜和距离超出了本研究的范围。

详见表3[链接]和4[链接],我们的优化顺序从优化整个探测器距离和xy公司移位并在单个传感器的水平上结束xy公司轮班和τ1旋转:我们不单独细化2×1对ASIC的相对位置。这样做没有任何物理意义,因为每对ASIC都是绑定到单个芯片上的,通过光刻定向,彼此之间均匀地相隔三个像素,任何偏离都被认为是吸收模型中其他地方的误差的结果。最后,当精炼τ1在单个象限或传感器水平上的角度,我们小心地锁定其中一个(每组中的第一个,τ1组1),因为只有N个−1个角度是独立的,其中N个是要优化的探测器面板数量。换句话说,在表3中[链接]第2行的四个象限中的一个是固定的,第3行的32个传感器之一是固定的。

在整个优化协议结束后,我们将整个循环重复四次,以评估收敛到稳定解的能力(图3[链接]和表5[链接]和6[链接]). 我们将收敛定义为(i)观测到的和计算出的光斑位置之间的平方根差(r.m.s.d.s)不再减小,以及(ii)探测器位置不再明显移动。在随后的每个周期之前,3000张图像被重新索引,具有较差r.m.s.d的晶体被作为异常值丢弃(布鲁斯特等。, 2016【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Michels-Clark,T.、Young,I.D.、Bernstein,H.J.,Winter,G.、Evans,G.&Sauter,N.K.(2016),《计算结晶器》,《新闻》第7期,第32-53页。https://www.phenix-online.org/newsletter/CCN_2016_07.pdf。]). 因此,后续循环中有不到3000个晶体对接头起作用精炼(表5[链接]).

表5
前探测器反射的R.m.s.d

观测值的R.m.s.d.s预测将在每个模式、层次结构和扩展的索引和细化周期中列出。步骤:细化过程中的阶段。初始:细化前折射率反射的r.m.s.d。循环1:细化后反射的r.m.s.d。循环2-4:r.m.s.d.s,使用前一个循环的计量学重新编制索引,并重新定义相同的图像集。列出了总r.m.s.d.,它是循环数据集中所有反射的r.m.s.d。还列出了“公共集”r.m.s.d.,即在两种模式(218)之间的每个数据集中索引的反射的r.m.s.d954次反射)。

  分层的 扩大
      相对标准偏差(µm)     相对标准偏差(µm)
步骤 图像数量 反射次数 总体 公用集合 图像数量 反射次数 总体 公共集合
首字母 3000 700222 221 157.9 3000 700222 221 157.9
循环1 2999 621516 138.6 62.9 3000 580093 129.4 60.1
循环2 2727 383446 81.5 56.5 2701 328309 62.3 50.1
循环3 2705 361339 76 55.4 2684 302271 54.4 47.9
循环4 2712 355910 73.6 54.8 2709 298874 51.6 48

表6
计量变化幅度

显示了使用扩展方法进行索引和细化的每个周期后的更改。循环1:优化初始索引解决方案后的结果。周期2-4:使用前一周期的计量学重新编制索引并使用扩展方法重新定义后的结果。偏移:xy公司平面(与波束矢量正交)。例如,在循环1期间,四个象限移动了138±111平均厚度为µm。z(z)偏移:沿z(z)轴(相当于探测器距离)。由于探测器被限制为共面,所有组的移动量相同。τ1:旋转的平均±标准偏差z(z)轴。所有值都相对于父帧。

  水平 位移(µm) z(z)偏移量(µm) τ1(°)
循环1 探测器 56.3±0.0 99.3 0.0 ± 0.0
象限 138.3 ± 110.7 −118.1 0.2 ± 0.2
传感器 53.7 ± 53.5 37.2 0.2 ± 0.1
循环2 探测器 0.4 ± 0.0 −42.8 0.0 ± 0.0
象限 3.8 ± 1.5 −18.0 0.0 ± 0.0
传感器 9.8 ± 6.3 71 0.0 ± 0.0
循环3 探测器 0.1 ± 0.0 −84.0 0.0 ± 0.0
象限 1.6 ± 0.5 3.6 0.0 ± 0.0
传感器 11.1 ± 6.1 86 0.0 ± 0.0
循环4 探测器 0.2±0.0 −92.2 0.0 ± 0.0
象限 1.5 ± 0.7 3.3 0.0 ± 0.0
传感器 9.0 ± 6.3 90.9 0.0 ± 0.0

3.6.精炼准确性和精密度

在第1次循环后发现r.m.s.d.的最大改善(图3[链接]和表5[链接],扩展协议),但重新索引图像和重新定义会带来额外的改进(第2周期)。预计计量学应迅速收敛,我们发现随后的周期不会显著改善现场预测,因此我们将周期3和4视为控制。

同样,每个循环(1-4)包括索引和精细化。初始数据集包括~700000次反射,3000张图像的r.m.s.d.为221微米。期间精细化,异常值拒绝(Sauter&Poon,2010【Sauter,N.K.&Poon,B.K.(2010),《应用结晶杂志》,第43期,第611-616页。】)将该数据集减少至~580000次反射。在重新编制索引和重新定义后(再次包括异常值拒绝),周期2生成的数据集只有~330000个索引反射。在这项工作中,我们没有调查这种下降的原因;然而,我们注意到它与高分辨率反射的径向条纹有关(Hattne等。, 2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。])产生测量不佳的高反射光斑质心Δψ角度。精炼移动瓷砖,使这些反射不再接近其预测值,无法用我们的单色光束模型进行索引,因为当拉长反射的质心移动到互易空间他们的非一体化米勒指数不再接近整数(默认截止值为整数的0.3)。因此,由于r.m.s.d.对样本大小敏感,我们仅使用所有周期和两种模式中索引的反射来计算r.m.s.d。由观察到的像素点质心(反射的不变特性)确定的反射的“公共集”由218个组成954次反射。仅测定该组的r.m.s.d.可确保循环和模式具有可比性。我们可以看到,大多数改进都发生在单轮索引和精炼(第1周期,157.9至60.1在扩展情况下为µm,或者对于这些110大约为半个像素µm CSPAD像素)。另一轮重新索引和精炼(循环2)将膨胀情况略微改善至50.1微米。循环3和4不会明显改变r.m.s.d.或瓷砖位置(表6[链接]). 请注意,传感器位置的平均变化(Δxy公司)为9.8、11.1和9.0在周期2、3和4中分别为µm,而整体探测器和象限偏移要低得多(<2µm)。这表明重新编制索引和重新优化赋予了随机性xy公司在传感器水平上移动,但没有明显提高精度,因此大致估计精度约为10微米。这与我们之前报告的Ha14方法的精度类似。

在循环3和4中可以看到一个有趣的趋势,在该趋势中精炼可以看到。层次级别0(整个检测器)仅使用最内部的反射进行优化。在循环3和4期间,探测器整体上偏离晶体近100微米。然后,在添加了所有传感器并在层次结构级别2进行优化后,探测器距离将移回其开始的位置。这表明反射的微小、分辨率相关的错误预测。

3.7、。使用精细计量重新编制索引

膨胀的第4个循环精炼展示了最好的r.m.s.d.s,我们用这个计量学重复了所有照片的索引和整合,包括从每张照片上可能的第二个晶体中搜索第二个晶格。我们还考虑了探测器距离与最终优化模型的微小变化(减少约36µm),我们将其用作目标单位电池平均值单位电池精细晶体模型(=b条=93.28,c(c)= 130.81Å). 这产生了119个774个初级晶格(从未定义的计量学改进了近1500个晶格)和46个476个次级晶格,总共166个250格。

4精炼引擎和稀疏矩阵

参数优化引擎需要最小化目标函数、一组参数和一组观察值。给定引擎将在“步骤”中修改参数,并在目标函数减少时接受增量更改。阶跃的方向通常由一阶导数的梯度向量决定L(左)/∂第页目标函数的L(左)关于每个参数第页,指示每个参数需要如何更改以降低目标函数。对目标函数有最大影响的参数可以使用曲率、二阶导数ψ来确定2L(左)/∂第页2目标相对于每个参数的步长,这决定了(在相反的意义上)每个参数的步长。引擎继续采取步骤,直到达到某些收敛标准。我们的优化问题的总体规模非常大,有成千上万个自由参数(§[链接]1) ,因此在最近的大分子晶体衍射建模文献中没有得到充分的处理。因此,我们简要地调查了可用的方法,调查了常用晶体学中的三种潜在方法,最后选择了稀疏代数社区中采用的第四种方法。

首先,有限记忆Broyden–Fletcher–Goldfarb–Shanno(LBFGS)算法是一种准Newton方法,它使用二阶导数矩阵(Hessian矩阵)的低记忆近似来计算迭代之间的步长,因此适用于具有大量参数的优化问题(Liu&Nocedal,1989[Liu,D.C.&Nocedal,J.(1989)。数学课程。45,503-528。]). 它不依赖于难以推导的分析二阶导数,因此给编程带来了障碍。然而,对于大量参数,LBFGS的收敛速度较差,因为可能需要数百到数千个步骤才能找到最小值。

通过提供表示Hessian矩阵对角元素的曲率向量,可以构建近似Hessian。提供曲率可以显著提高LBFGS的性能,从而构成我们的第二种优化方法。实施于DIALS(刻度盘),二阶偏导数不进行解析计算。2然而,我们可以使用以下假设:L(左)以最小二乘形式计算二阶导数的近似值,

[{{\部分^{2} L(左)}\ over{\partial p^{2}}}\simeq\left({{\partical L}\over{\ partial p}}\right)^{2neneneep。\等式(6)]

这是高斯-牛顿算法中使用的近似值,是牛顿方法的修正(见Nocedal&Wright,2006年§10.3中的等式10.24【Nocedal,J.&Wright,S.(2006)。数值优化,第二版,纽约:Springer-Verlag。】). 近似值具有令人愉快的特性,可以作为精炼接近收敛。在许多情况下,我们发现用近似曲率补充LBFGS算法对于减少收敛到可接受水平之前的步骤数至关重要。

LBFGS,即使有曲率,仍可能对我们的关节采取太多步骤精炼探测器和晶体。我们之前注意到(Waterman等。, 2016【Waterman,D.G.、Winter,G.、Gildea,R.J.、Parkhurst,J.M.、Brewster,A.S.、Sauter,N.K.和Evans,G.(2016),《结晶学报》第72期,第558-575页。】)第三种算法基于高斯-牛顿方法,但经过Levenberg–Marquardt(LevMar)方法的修改,以在存在协方差的情况下保持鲁棒性,这是理想的,因为它明确考虑了目标函数的非线性最小二乘形式,因此所需的步骤要少得多,同时避免了对二阶导数的任何需要。简单地说,高斯-牛顿法导出了向量δ利用雅可比矩阵对当前参数估计的增量J型,定义为每个剩余项的偏导数矩阵第页关于每个参数。在此矩阵中,行表示的导数第个残差。请注意,有观察结果,但3残差,自(5)[链接]给出三个残差(x个计算负极x个光突发事件,计算负极光突发事件ψ计算)每次测量。此外,柱j个表示关于j个th自由细化参数,带有n个总参数:

[{\bf J}=\左(\matrix{\displaystyle{{\partial r_{1}}\ over{\partical p_{1{}}}&\ldots&\displastyle{{\partital r_{1}}\ over{\paratil p_{n}}\cr\vdots&\ ddots&\vdots\cr\displaytyle{\parial r_{3m}}over{partial p_1}}}\ over{\ partial p_{n}}}\ right).\eqno(7)]

矩阵J型用于构造一组法线方程A类δ=b条,其中A类=J型T型J型是大小对称的矩阵n个×n个,b条= −J型T型第页第页是所有残差的矢量(Nocedal&Wright,2006【Nocedal,J.&Wright,S.(2006)。数值优化,第二版,纽约:Springer-Verlag。】). LevMar修改A类,增加了影响步长的阻尼系数(Bevington&Robinson,2003【Bevington,P.R.&Robinson,D.K.(2003),《物理科学的数据简化和误差分析》,第三版,波士顿:麦格劳-希尔出版社。】; Nocedal&Wright,2006年【Nocedal,J.&Wright,S.(2006)。数值优化,第二版,纽约:Springer-Verlag。】). 考虑到这里矩阵的大尺寸,显式计算逆矩阵的成本太高了A类−1为了解决δ然而,可以执行Cholesky分解,将矩阵表示为下三角矩阵的乘积L(左)和它的转位,A类=L(左)T型L(左),然后导出δ通过反向替代。虽然此算法为旋转晶体学(Waterman)典型的优化尺寸提供了最佳收敛行为等。, 2016【Waterman,D.G.、Winter,G.、Gildea,R.J.、Parkhurst,J.M.、Brewster,A.S.、Sauter,N.K.和Evans,G.(2016)。晶体学报D72,558-575。】),Cholesky分解的性能将问题大小限制为n个<5000(图4[链接]).

[图4]
图4
四种不同细化引擎的比较:LBFGS、带曲率的LBFGS,LevMar和稀疏LevMar。50–5000个晶体模型和32个传感器中的每一个同时进行了优化。()的总运行时间精细化,十次试验的平均值。(b条)每个发动机在精炼(LevMar和稀疏LevMar完全重叠)。(c(c))每个数据集r.m.s.d.s(obs−calc)精炼发动机。除LBFGS外,发动机的轨迹重叠。(d日)Levenberg–Marquardt的阵列大小。用于细化的正规矩阵n个参数包含n个(n个+1)/2上三角中的元素,其中只有一个子集是非零的。因此,法线矩阵中元素的数量增长速度比n个比正规矩阵中非零元素的数量更快(e(电子))扩展精炼使用LBFGS和具有曲率的LBFGS的500张图像。10删除过程中的r.m.s.d.收敛检查后显示000个步骤精细化。相对标准偏差。步骤号显示在左侧。右侧有两个放大图。顶部扩大:早期精炼步骤。底部放大:全部精炼台阶,但在r.m.s.d.中紧密放大,以显示随时间的微小变化。

为了克服这个性能限制,我们利用了这样一个事实,即我们问题的雅可比矩阵和正规矩阵都是稀疏的,这意味着我们事先知道大多数元素都是零。当法线矩阵的元素表示独立自由参数之间的交叉项时,它们在结构上为零。例如,给定晶体的单位胞参数和取向角与描述所有其他晶体的参数无关。只有与探测器板参数和晶体相关的交叉项通常为非零。了解的哪些元素A类是零导致我们使用图论推断出Cholesky因子的哪些元素也是结构零(Liu,1990[刘,J.W.H.(1990).SIAM J.Matrix Anal.Appl.11,134-172。]; Mehta&Sahni,2004年[Mehta,D.P.&Sahni,S.(2004),《数据结构和应用手册》,博卡拉顿:查普曼和霍尔/CRC。]; 雷尼奇等。, 2014[Rennich,S.C.,Stosic,D.&Davis,T.A.(2014),《第四届非规则应用研讨会论文集:体系结构和算法》,第9-16页。皮斯卡塔韦:IEEE。])从而大大减少了计算Cholesky因子非零元素的计算工作量。稀疏矩阵Cholesky分解方法在数学中很有名,但在结晶学中不为人所知,因此为我们提供了第四种算法方法,也是唯一适用于3000-晶体问题的方法。我们合并了开源Eigen线性代数库(Guennebaud&Jacob,2010)【Guennebaud,G.和Jacob,B.(2010)。Eigen v.3。https://eigen.tuxfamily.org/。])到我们的软件发行版中。

为了评估四个引擎的性能和内存需求,我们同时从32个传感器位置的单次运行中优化了50到5000个随机图像(图4[链接]). 对于每个问题大小和每个引擎,我们进行了十次独立的测试,以获得平均运行时间,考虑到计算环境中的局部变化。时间测试在12核64位Intel Xeon X5675处理器(3.07)上运行单进程GHz),12MB缓存和24运行Red Hat Enterprise Linux Server 7.3的GB RAM。C++代码是在GCC 4.8.5下编译的。最初的探测器模型使用粉末图案的旋转自相关将象限对齐,但在其他方面未定义,这意味着精炼相当于表3的第三步[链接],跳过前两步。从最大的数据集开始,每个较小的数据集都是下一个最大数据集的随机子集。我们禁用了异常值拒绝,以便关注精炼步履蹒跚。我们平均了十个运行时间,但由于输入的r.m.s.d.s、收敛前的步骤数和内存使用量相同(图4[链接]b条, 4[链接]c(c)和4[链接]d日)在每组10个试验中是恒定的。稀疏矩阵LevMar的运行时间是四种算法中最短的(图4[链接]),而LBFGS的实现速度明显较慢,这是因为收敛所需的步骤很多。一旦参数数量超过5000,LevMar在运行时就变得完全不可接受。事实上,使用3000和5000张图像的最终数据点在48后终止LCLS队列中的h。在这四个中,没有曲率的LBFGS收敛的步骤最多(图4[链接]b条)与其他三个相比,其r.m.s.d.值稍差(图4[链接]c(c); 见下文)。

图4[链接](d日)显示了与LevMar相比,使用稀疏矩阵LevMar节省的内存。正常矩阵大小(参数数量的平方n个)以对数刻度显示。同样,法线矩阵中的非零值数量和Cholesky因子中的非零值数量也会显示出来(这些几乎重叠)。正规矩阵的大小按k个1.89,其中k个是图像的数量,而非零值的数量按以下顺序增加k个0.95k个1.01(表7[链接]). 使用稀疏矩阵节省内存的同时,运行时间也随着图像数量的减少而减少k个2.45LevMar至k个1.13用于稀疏矩阵LevMar。

表7
LevMar内存和运行时间

作为图像数量函数的LevMar和稀疏LevMar技术的内存需求和运行时间的增长顺序。决定指数和系数(R(右)2)图4显示了LevMar和稀疏LevMar运行时间的功率函数拟合数据[链接]()以及图4中的每个图[链接](d日). 这个R(右)2值给出了幂函数拟合指数的度量。

  指数 R(右)2(%)
正常矩阵正方形大小 1.89 99.9
正规矩阵非零 1.01 100
Cholesky因子非零 0.95 100
LevMar时间 2.45 98.5
稀疏LevMar时间 1.13 98.6

为了清楚地显示LBFGS的收敛行为,我们删除了终止条件,其中精炼如果r.m.s.d.s在某个阈值内停止变化并运行10的细化,则停止000步(图4[链接]e(电子)). 由于LBFGS最小化装置的全面检查,弯曲LBFGS仍提前终止,但两台LBFGS发动机都达到了相同的最终r.m.s.d。LBFGS花了6000多步达到了LBFGS曲率小于500步的r.m.s.d。

5.高级精细化:第二个探测器

这个DIALS(刻度盘) 精炼该平台具有高度的灵活性和可配置性,能够从许多晶体和探测器中提炼实验几何结构,即使衍射图案同时分布在多个探测器上。例如,我们使用嗜热菌素模式改进了背面CSPAD的计量学(表1[链接])在前后探测器上都有记录。前检测器,位于130或105距离晶体位置mm,有一个中心孔径,该孔径虽然设计用于传输非衍射光束,但也允许低角度布拉格反射被记录在后检测器上,大约2.5距离样品m(图5[链接],顶部)。在XFEL实验中通常不使用处于该位置的检测器,但我们可以列举两种可能的作用。首先,可以记录低分辨率反射的精细细节。由于大的晶体到探测器的距离将反射波分散到多个像素上,我们可以潜在地分析晶体的斑点形状和镶嵌特征。其次,我们使用了Duyvesteyn的CSPAD背面等。(2018【Duyvesteyn,H.M.E.,Ginn,H..M.,Pietilä,M.K.,Wagner,A.,Hattne,J.,Grimes,J.M.,Hirvonen,E.,Evans,G.,Parsy,M.L.,Sauter,N.K)检测噬菌体phiX174,一种结晶病毒浓缩物单位电池(∼500?)衍射到较差分辨率(~50奥),到只能在背面探测器上看到衍射的程度。对布拉格斑点的分析显示空间组以及近似的单位-细胞维数,给出了倒数空间反射距离的直方图。这两种用例都可以从准确的探测器计量中受益;因此,以嗜热菌蛋白酶为标准,我们使用前探测器上记录的晶格的晶体方向来指示同一晶体在后探测器上的反射,然后使用这些折射的反射细化后探测器面板。

[图5]
图5
后检测器改进。()上图:实验装置。高角度衍射X射线记录在前CSPAD上,而低角度布拉格反射记录在后探测器上,约为2.5距离晶体m。底部:Δxy公司分层模式图精炼背面探测器,显示Δxy公司最初和精炼探测器、象限和传感器后,按图3所示着色[链接].无衍射区域被光束路径中的设备遮蔽。(b条)运行11–22的最大组合,显示精确的传感器位置。从光束中心径向延伸的光线来自液体射流的衍射。戒指按其编号米勒指数。环001、002和003为象称为系统消光在里面空间组 P(P)6122; 对001进行了564次反射索引,但对于002和003,发现每个反射少于10次(虚线)。仅观察到113的一次反射(实线红色)。001和003的放大视图显示在右下方。反射及其分辨率和观察的多样性列在右侧的表格中。(c(c))PDB入口计算强度的相关性第4页,共3页背面CSPAD上的反射平均强度。CSPAD背部的强度未被校准,其他方面也未被校正。显示了至少有20个观测值的非系统无反射,它们的CC为65.7%,强度由参考结构计算。

为了实现这一点,我们手动将象限定位为最适合后检测器上记录的粉末图案,因为衍射太稀疏,无法通过旋转自相关获得良好的拟合。然后,我们对运行11~22的所有X射线事件的后探测器图像进行了点对准,这些X射线事件已在前探测器上成功索引,然后使用前探测器晶格导出的晶体模型索引这些后探测器反射。这产生了12个313张图像,其中可以在背面探测器上索引至少一个反射。然后,我们执行了全图像r.m.s.d.滤波,删除了r.m.s.d超过四分位范围1.5倍的图像(Tukey的经验法则;Tukey,1977年【Tukey,J.W.(1977)。探索性数据分析。阅读:Addison-Wesley。】),留下9893张图像。全图像r.m.s.d.滤波主要去除沿喷射衍射产生的条纹发现的假斑点图像,这些假斑点在不同的径向轴上可见为长尖峰。

接下来,我们使用层次协议针对该数据集改进了后检测器的几何结构。我们修正了晶体模型,该模型根据前探测器数据进行了改进,因为后探测器上的每张图像只有几次反射。表8[链接]显示了r.m.s.d.,它随着计量学的每个连续层次水平而提高精细化。仅关注公共数据集,有效值从740.5降至361.3计量过程中的µm精细化,或略高于三个像素。由于采样到检测器的距离较大,这些反射覆盖了后检测器上更多的像素(对于这9893张图像,前检测器上每次反射的平均像素数为3.5,而在后检测器上为22.8),从而产生了与前检测器相同精度分数阶的r.m.s.d精炼(大约半个像素)。

表8
背面探测器反射的R.m.s.d

每行显示在列出的层次结构级别上进行细化后的总体和公共设置r.m.s.d.s。

步骤 反射次数 总相对标准偏差(µm) R.m.s.d.,普通设置(µm)
首字母 11381 926.4 740.5
0级(探测器) 10820 797.9 683
级别1(象限) 10546 630.1 496.4
2级(传感器) 9896 361.3 361.3

图5[链接](b条)显示了计量后从运行11~22采集的图像的合成最大值精细化,指示米勒指数这些反射的平均信号与PDB入口的计算强度密切相关第4页,共3页来自Hattne等。(2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。])(图5[链接]c(c)). 这表明,精确的计量将足够准确,可以整合这些图像中的数据。值得注意的是,存在001环,即使001在空间组 P(P)6122.我们推测,这是由于具有高比表面积体积比的小微晶中的表面效应引起的。在任何情况下,都有某种类型的障碍打破了完美的61晶体的螺旋对称性。

6.合奏精炼和晶体同构

优化了检测器模型(§[链接]3) 现在,我们将重点放在改进晶体模型上,该模型由晶体取向和单元胞参数组成。在连续晶体学中已广泛观察到,在合并为单一数据集的晶体系综中,单位-细胞参数表现出异常广泛的分布,远远超出单晶工作中的分布。图6[链接](),举例说明Cry3a轴in空间组 C2221显然在116到120之间变化奥(蓝色轨迹)。该结果是通过评估运行4中的1000个Cry3a模式计算得出的。从先前根据我们的嗜热菌蛋白酶数据确定的精细前端探测器模型开始,我们对每个Cry3a进行了索引晶格并使用传统的非线性最小二乘法对晶体参数(晶胞和取向)进行细化精炼以便最适合每个图像上的反射。之后精细化,删除了33个高r.m.s.d.的图像,得到了包含967个图案的最终数据集。

[图6]
图6
()967个Cry3a晶格的单位-细胞直方图。分布,b条c(c)显示了轴长度。蓝色:晶格被分别索引和细化,没有精炼探测器模型。绿色:相同的晶体精炼967个晶体模型和967个独立探测器模型。红色:相同,只是967个晶体模型相对于单个探测器模型进行了细化。(b条)细胞轴长度()根据轴与光束矢量的夹角进行分格。选择料仓宽度时,应确保每个料仓内对向的立体角相同(构成角度的基本矢量ρ梁将放在箱子里满足条件cos−1[1 − (/6) ]≤ρ<成本−1{1 − [(+ 1)/6]}, 0 ≤≤5)。的平均基向量长度,b条c(c)轴绘制为一条线,每个箱子的一个点位于箱子中心。数值之间的标准偏差在该线的上方和下方用阴影表示。颜色如所示(). 晶体在精炼分别使用多个或单个探测器模型。多探测器和单探测器模型的最终模型之间的差异为0.04°。

了解单位-细胞参数的明显扩散是否代表真实的物理变化,或者仅仅是无法准确测量细胞,这一点至关重要。事实上,如果晶胞长度确实在3%左右变化,例如由于不同的水合条件(俄罗斯等。2011年【Russi,S.,Juers,D.H.,Sanchez-Weatherby,J.,Pellegrini,E.,Mossou,E.、Forsyth,V.T.、Huet,J.、Gobbo,A.、Felisaz,F.、Moya,R.、McSweeney,S.M.、Cusack,S.、Cipriani,F.和Bowler,M.W.(2011),《结构生物学杂志》175、236-243。】),这将挑战我们合并衍射图案的能力,因为这种塑料系综的结构因子强度变化太大,无法有效地合并(克里克和马格多夫,1956[克里克·F·H·C·和马格多夫·B·S·(1956),《水晶学报》第9期,第901-908页。]). 相反,我们假设我们广泛分布的单位-细胞测量是在静止镜头中收集数据的结果。与基于测角仪的旋转实验相比倒易点阵在各个方向都进行了很好的采样,仍然只进行了采样倒数空间沿入射光束方向的有限深度。因此,如果正交晶体的轴沿光束定向参数的不确定性应大于b条c(c)参数。我们选择了一种正交晶型(Cry3a)来清楚地测试这个假设。图6[链接](b条)支持这一假设,表明与光束对准的细胞轴的测量值比与光束正交的细胞轴(蓝色分布)具有更大的变化。

接下来,我们询问是否可以使用两种方案中的任何一种来纠正单位细胞的偏差分布。在没有提供解决方案的第一个协议中,我们重新定义了单位间距和方向参数,并允许探测器位置(样本到探测器的距离和xy公司探测器平面中的平移)对每个图像独立变化。所得分布以绿色绘制(图6[链接]和补充表S1)。单位细胞长度通常较短,这表明改进的探测器距离提供了更好的模型(样品到探测器的距离从111.00减小毫米至平均109.70±0.64毫米)。然而,单位细胞长度的人工宽变异并没有改善;相反,对于与光束正交的细胞轴,情况稍有恶化。不幸的是,我们认为这是迄今为止大多数连续晶体学工作历史上使用的方法;至少,这是我们项目采取的方法cctbx.xfel公司直到这次调查。

在第二个协议中,我们寻求允许检测器细化到其最佳位置,但不允许检测器模型对每个图像完全独立。为此,我们进行了联合精炼其中,针对数据集中所有晶体模型的集合,同时对单个探测器模型进行细化。没有明确限制单位-细胞参数。结果(图6[链接],红色模型)显示出单位细胞长度的类似减少(同时探测器距离缩短到109.82mm),但现在单位-单位标准偏差比初始模型中的标准偏差要严格得多。至少在这一系列晶体学案例中,晶体的明显非同构性似乎是一个精度问题,可以通过接头加以纠正精炼基于单探测器模型的晶体集成,这是一种由上述稀疏代数LevMar技术支持的新协议。

7.与时间相关的集成精炼整个实验的

来自§[链接]6,很明显,连续晶体学数据集对实验几何学非常敏感,以至于晶体到探测器距离的非物理标准偏差仅为0.64mm对晶格参数产生明显的有害影响。其他文献结果也强调了精确距离测定的必要性,包括Nass的一篇论文等。(2016【Nass,K.,Meinhart,A.,Barends,T.R.M.,Foucar,L.,Gorel,A.,Aquila,A.,Botha,S.,Doak,R.B.,Koglin,J.,Liang,M.,Shoeman,R.L.,Williams,G.,Boutet,S.&Schlichting,I.(2016)。国际癌症研究联合会,3,180-191年。】)它提供的数据表明,只有通过计算跨越0.62的一系列距离偏移才能获得最佳单元间分布和数据质量指标超过3 mm天。事实上,数据建模软件在无法通过实验测量精确样本到探测器距离的情况下起着决定性的作用。我们的L785嗜热菌蛋白酶研究提供了一个这样的例子:从电机编码器中可以知道检测器的位置,但样品位置可以根据电动方式随时改变样品注射器(塞拉等。, 2012【Sierra,R.G.等人(2012),《水晶学报》,D68,1584-1587。】)插入和液体喷射在任何给定时间点的流动特性。

为了研究我们实验中样本到检测器距离参数的时间依赖性的可能性,我们将数据按时间顺序分为多段。然后,我们将每次跑步进一步细分为一系列按时间顺序排列的批次,每个批次包含约3000–4500张图像。对于每一批,我们都进行了联合精炼单个探测器模型(自由细化总距离和xy公司探测器平面中的偏移)与批次中所有晶体模型的集合相对应。然后我们重新计算了每个晶体的马赛克估计值(Sauter等。, 2014【Sauter,N.K.,Hattne,J.,Brewster,A.S.,Echols,N.,Zwart,P.H.&Adams,P.D.(2014),《结晶学报》第70期,第3299-3309页。】),使用这些模型预测布拉格反射,并集成布拉格强度。

图7[链接]()显示了分批距离测定结果。还显示了基线距离值。对于第一组(运行11-22),基线是计量学的直接结果精炼从扩展模式精炼(§[链接]3.6), 129.97mm,基于3000幅最佳衍射图像。我们看到了时间相关系综精炼产生稍大的距离估计值,平均值为130.00±0.01mm。这种增加的原因尚不清楚,但我们推测可能是由于与§[链接]3.6使用角落反射最多的图像子样本。(如前所述,反射的轻微系统径向预测失误可能会导致几何形状精炼略依赖于分辨率。)对于26–29次跑步,基线距离为104.97减去电机编码器偏移量(25mm)从§[链接]3.6. 很明显,26–29次跑步的距离值相差很大(0.1–0.3mm),并且有0.236毫米的可变性分钟周期,即使在一次运行的持续时间内也会发生变化。3我们假设根本原因是电动注射器液体喷射的流动方向随时间不断变化。

[图7]
图7
依赖于时间的集成细化和集成结果。前检测器上两组数据的所有晶格(在130和105距离处收集mm)按时间顺序分为多个序列,然后按时间顺序细分为3000–4500个图像批次。分别为每个批次细化检测器位置和晶体模型,然后整合数据。()绘制的每个批次的精细探测器距离运行编号。黑线:开始探测器之前的距离精细化。对于2.2的反射,实现一个像素径向偏移所需的探测器距离的变化“奥”显示为垂直灰色条。(b条)信号强度变化百分比/σc(c)()〉 [σc(c)()指每轮集合后的计数误差或积分求和未修正的误差精细化。之后的平均分辨率箱信号精炼每个批次的平均分辨率除以之前的信号精炼用于该批次。每行代表一个批次。信号的百分比变化报告为分辨率的函数。中的编号圆圈()将具有相似细化距离的批次分组。这些组号也用于标记中的批次(b条).

我们预计,正确计算我们时变的样本到探测器的距离将导致布拉格点预测的改进,以及与Nass观测到的数据质量类似的数据质量的改进等。(2016【Nass,K.,Meinhart,A.,Barends,T.R.M.,Foucar,L.,Gorel,A.,Aquila,A.,Botha,S.,Doak,R.B.,Koglin,J.,Liang,M.,Shoeman,R.L.,Williams,G.,Boutet,S.&Schlichting,I.(2016)。国际癌症研究联合会,3,180-191年。】). 作为数据质量指标(图7[链接]b条)我们选择了信号强度/σc(c)()〉,其中是测量的综合强度,σc(c)()是由光子计数统计引起的测量不确定度(Leslie,2006【Leslie,A.G.W.(2006),《晶体学报》D62,48-57.】)代表所有测量值的平均值米勒指数。对于每批产品,我们比较了分辨率箱〈/σc(c)()〉根据批次或基线距离值预测布拉格点的平均值。每行表示单个批次信号强度的分辨率相关百分比变化。跑步11–22次(距离130mm)信号适度增加约2–3%。然而,跑26-29(距离105mm),尤其是运行28-29时,信号强度明显增加,最后两批的中分辨率高达25%,其中样品位置移动了55µm中径。因此,与时间相关的批处理系综精炼似乎提供了检测和纠正实验模型中的时间尺度变化的可能性,而这些时间尺度以前并没有被理解为对数据质量提出挑战。

8.合并和误差模型

表9[链接]显示了最初发布的嗜热蛋白结构(PDB条目4万亿)以及本工作中重新处理的数据,使用§[链接]3.6. 使用四种不同的后细化使用的替代方案对数据进行缩放和合并(Sauter,2015【Sauter,N.K.(2015),J.同步加速器辐射22,239-248。】),时间相关系综的使用精炼探测器距离(§[链接]7) 以及选择误差模型来调整综合、合并强度的估计误差。补充表S2–S5给出了四个结果数据集的详细统计数据。

表9
嗜热菌蛋白酶数据的后精炼和合并统计摘要

Kern的原始处理结果等。(2014[Kern,J.等人(2014),《自然通讯》,第5期,第4371页。])给出了四种合并协议,它们在是否应用后求精、是否依赖时间集成方面有所不同精炼并在误差模型中使用。括号中的值表示最高分辨率箱。

数据集 科恩等。(2014[Kern,J.等人(2014),《自然通讯》,第5期,第4371页。]) 1 2 3 4
后期再定义 是的 是的 是的
依赖时间的集成优化 是的 是的 是的
错误模型 哈14 第11版 第11版 第11版 哈14
测量时间(min) 107 107 107 107 107
镜头 757546 757546 757546 757546 757546
索引和集成的格 125800 166250 166250 166250 166250
合并的晶格 120408 164585 164612 165954 164556
分辨率范围(Ω) 34.27–1.80 (1.86–1.80) 34.27–1.80 (1.86–1.80) 34.27–1.80 (1.86–1.80) 34.27–1.80 (1.86–1.80) 34.27–1.80 (1.86–1.80)
“空间”组 P(P)6122 P(P)6122 P(P)6122 P(P)6122 P(P)6122
,b条,c(c)(Å) 93.0, 93.0, 130.4 93.2, 93.2, 130.8 93.2、93.2、130.8 93.2, 93.2, 130.6 93.2, 93.2, 130.8
多重性 1468 (15) 1178 (500) 1548(783) 1132 (449) 1178 (500)
完整性(%) 99.7 (98.6) 100.0 (100.0) 100.0 (100.0) 100.0 (100.0) 100.0(100.0)
/σ()〉 71.7 (4.1) 32.4 (10.3) 32.3 (8.0) 28.1 (8.6) 311.3 (30.2)
科科斯群岛1/2(%) 97.8 (21.2) 100.0 (85.6) 99.6 (81.9) 99.9 (81.1) 99.8 (69.1)
异常差异图峰值高度(σ)
2+ 18.1 74 42.6 69.3 44.6
2+1 4.7 17.1 10.7 15.9 9.7
2+2 4 12 7.2 12.3 7.4
2+3 3.3 15.3 9.9 13.3 9.8
2+4 2.4 16.1 10.6 14.8 10.5
平均Ca2+ 3.6 15.1 9.6 14.1 9.4
†这是两种情况下的平均强度σ哈14()或σ第11版()(详见正文)。
第二个锌矿,如Uervirojnangkoorn所示等。(2015【Uervirojnangkoorn,M.,Zeldin,O.B.,Lyubimov,A.Y.,Hattne,J.,Brewster,A.S.,Sauter,N.K.,Brunger,A.T.&Weis,W.I.(2015)。Elife,4,e05421.】),在我们的数据中也可以观察到,但在本工作中没有建模。

至关重要的是,解释信号质量高度依赖于误差模型,如何处理测量反射强度中的不确定性。在积分过程中,我们根据光子计数统计数据确定了误差的基线估计值(Leslie,2006【Leslie,A.G.W.(2006),《水晶学报》,D62,48-57。】),如上所述σc(c)()这是唯一容易量化的不确定性来源。探测器校准、偏倚校正、晶体取向和细胞尺寸等其他误差源更难以估计,因此难以传播。然而,由于从积分中得出的计数统计的误差仅代表整个实验不确定度的一小部分,因此必须放大从计数统计确定的误差,以更好地表示样本中的误差。

Hattne提出了一种这样的治疗方法,Ha14等。(2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。]). 在这项工作中,我们考虑了在一张仍在拍摄的序列晶体照片上产生的所有强度测量值的分布。熟悉的原理会让我们相信,正如威尔逊(1949)最初讨论的那样,测量值将形成指数递减分布【Wilson,A.J.C.(1949),《结晶学报》,第2期,第318-321页。】). 然而,由于静止镜头上的大多数(如果不是全部)斑点都是局部的,并且不知道其偏爱程度先验的,对静热点的预测使我们陷入了困境。为了预测所有衍射布拉格点,我们需要稍微高估马赛克参数(Sauter等。, 2014【Sauter,N.K.,Hattne,J.,Brewster,A.S.,Echols,N.,Zwart,P.H.&Adams,P.D.(2014),《结晶学报》第70期,第3299-3309页。】). 因此,许多预测的反射将不包含任何光子,积分过程只会产生噪声,噪声具有高斯分布而非指数分布。最近的一篇论文(Sharma等。, 2017【Sharma,A.、Johansson,L.、Dunevall,E.、Wahlgren,W.Y.、Neutze,R.和Katona,G.(2017),《水晶学报》A73、93-101。】)明确显示了这一点。在Ha14方法中,我们查看数量的分布/σc(c)()图像上的所有测量值。的负值/σc(c)()假设形成高斯分布的下半部分(平均值为零),我们确定其标准偏差σ否定。假设负测量值代表背景噪声水平,因此我们使用σ否定作为一个常数、无量纲乘法因子,放大光子计数不确定度,为每次测量提供一个新的不确定度估计,

[\sigma_{\rm Ha14}(I)=\sigma-{\rm-neg}\times\sigma{\rm-c}(I).\eqno(8)]

另外,我们采用了标量(埃文斯,2006年【Evans,P.(2006),《水晶学报》,D62,72-82。】2011年【Evans,P.R.(2011),《水晶学报》,D67,282-292。】),第11页。该模型表示了三个精炼参数的不确定性:SdFac(乘法因子)、SdB(与反射强度成比例的因子)和SdAdd(与强度平方成比例的因数),公式如下:

[\sigma_{\rm Ev11}(I_{hl})={\rm-SdFac}[\simma_{\rma-c}^{2}

哪里hl公司是单个反射测量值米勒指数 小时,σc(c)2(hl公司)是积分求和的测量误差,〈小时\9002;是所有测量值的平均值小时σ第11版(hl公司)是Evans(2011)处理的单个反射测量中的校正误差【Evans,P.R.(2011),《水晶学报》,D67,282-292。】).

比较Ha14和Ev11,这两个模型在传播到合并强度时产生了非常不同的误差估计。Ha14很可能大大低估了数据中的错误,产生了总体/σ哈14()估计为~300。总体/σ第11版()根据晶体实验中已知的误差,对~30的估计更为合理(Diederichs,2010[Diederichs,K.(2010),《晶体学报》D66,733-740。]). Ha14从未打算作为错误模型的最终描述;然而,Ev11虽然给出了合理的数值误差范围,但并没有考虑到串行晶体学蒸馏器固有需要的偏度修正引起的误差传播。

9.讨论

DIALS(刻度盘)提供了一个复杂实验几何的一般表示,我们在这里已经证明了它适用于串行晶体学。我们通过使用嗜热蛋白数据集改进LCLS处CSPAD检测器的计量学来证明这一点。首先,我们使用旋转自相关方法,使用虚拟粉末图案定位象限位置。然后,我们使用扩展的计量方法将所有32个CSPAD传感器作为独立面板进行处理精细化,首先细化内部平铺,然后逐步添加平铺以增加分辨率壳。在改进计量学之后,我们发现观测值的r.m.s.d.有了很大提高预测的点位置(从157.9到60.1µm或约半个像素,CSPAD像素大小为110µm)。在使用新计量学对图像重新编制索引,并在收敛之前循环重新定义后,我们观察到进一步的改进(最终的r.m.s.d.为50.1µm)。

为了获得关节参数精炼为了实际使用带有多面板检测器的数千个晶体模型,我们使用稀疏矩阵算法实现了一种非线性最小二乘方法,以有效地求解计算步长所需的正规方程。这使得我们可以使用单一的联合目标函数,而不是像以前那样在晶体和探测器模型之间交替使用。

我们还能够使用在一个CSPAD上观察到的晶格中的晶体取向矩阵来完善位于2.5m,演示了几何的一般方法精炼由使用DIALS(刻度盘)。我们可以组合探测器,同时优化总体探测器距离和面板位置,并处理任意方向上具有任意数量段的探测器。

当连接时精炼应用于用于数据集的所有晶体的集合,它还有一个额外的好处,那就是提高了与光束紧密对齐的轴的单位间距估计的准确性,这些轴很难从静止图像中测量。串行晶体学数据集通常显示了从索引中导出的单元-细胞参数的广泛分布,可能反映了几个因素,包括无法准确建模探测器位置、晶体参数和光束参数,以及晶体之间的真正非同构。合奏精炼提供了一种消除几种建模不确定性的方法,可以更清楚地描述晶体的固有非同构性,在我们的嗜热蛋白数据非常低的情况下。我们注意到,对连续晶体学中非同构现象的担忧已得到广泛表达,我们的结果似乎减轻了一些担忧。

确保正确的探测器位置对于最大化集成模式的数量和校正单元-细胞分布中的不对称性至关重要(Hattne等。, 2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。]; Nass公司等。,2016年【Nass,K.,Meinhart,A.,Barends,T.R.M.,Foucar,L.,Gorel,A.,Aquila,A.,Botha,S.,Doak,R.B.,Koglin,J.,Liang,M.,Shoeman,R.L.,Williams,G.,Boutet,S.&Schlichting,I.(2016)。国际癌症研究联合会,3,180-191年。】). 随着科学家更换样品、重新校准设备位置或只是撞击仪器,预计在数据采集过程中,样品位置会随时间发生轻微变化,甚至会偏离其原始位置。为此,我们试图通过应用与时间相关的系综来校正探测器位置随时间的系统变化精炼改进整个实验的集成数据质量的方法。我们将数据分为粒度时间间隔,并在每个批次中重新定义探测器位置、晶体模型和镶嵌估计,使用新模型预测和整合布拉格斑点。这使得在收集探测器计量校准数据(130mm探测器距离)。当探测器移动到105时mm,重新定义了每批探测器的位置,进一步提高了集成信号强度。

计量后精细化,在以后的数据收集过程中,可以通过直接在DIALS(刻度盘)或将其转换为LCLS几何格式,供非-DIALS(刻度盘)软件(布鲁斯特等。, 2016【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Michels-Clark,T.、Young,I.D.、Bernstein,H.J.,Winter,G.、Evans,G.&Sauter,N.K.(2016),《计算结晶器》,《新闻》第7期,第32-53页。https://www.phenix-online.org/newsletter/CCN_2016_07.pdf。]). 然而,探测器位置的变化可能需要重新定义瓷砖位置。现场预测中的小的、取决于分辨率的系统误差(§[链接]3.6)可被局部瓷砖移动吸收,因此潜在用户在移动探测器时应始终重新定义探测器计量。

我们使用四种不同的协议合并了数据。最佳实践方法,通过74.0锌原子的反常峰高测量σ,包括后求精、时间相关系综精炼和Ev11错误模型。删除后细化,删除与时间相关的集成精炼或使用Ha14误差模型均导致异常峰高较低(42.6、69.4和44.6σ)。我们建议软件用户在分析未来的XFEL数据集时尝试这些算法选择。这样做的脚本已经可用(参见§[链接]10).

10.数据和软件可用性

实验L785的原始嗜热菌蛋白酶数据文件可从相干X射线成像数据库获得,如沉积81(https://www.cxidb.org/id-81.html). 复制了这部作品中所有七个数字的Jupyter笔记本可在https://github.com/phyy-nx/dials_refinement_brewster2018.所有计量精细化,这里概述的集成和合并方法在软件包中实现DIALS(刻度盘),可在以下网址公开获取:https://dials.github.io.有关计量的文件精炼和中的XFEL处理DIALS(刻度盘)布鲁斯特也有等。(2016【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Michels-Clark,T.、Young,I.D.、Bernstein,H.J.,Winter,G.、Evans,G.&Sauter,N.K.(2016),《计算结晶器》,《新闻》第7期,第32-53页。https://www.phenix-online.org/newsletter/CCN_2016_07.pdf。])和上的cctbx.xfel公司wiki页面位于https://cci.lbl.gov/xfel.

支持信息


脚注

1更复杂的面板,如弯曲或非矩形芯片,可以表示为DIALS(刻度盘)给出了适当的像素到毫米的实现。目前,像素需要使用二维寻址,但如果需要,该软件可以扩展到三角形或六角形像素形状。在CSPAD的情况下,所有面板都具有相同的像素大小,但对于由中的模型表示的其他探测器来说,这不一定是真的DIALS(刻度盘).

2我们使用显式二阶导数开发了一个原型,但发现这是一个耗时的过程,不利于快速软件开发和算法改进。

3对于运行11–22,集合后所有批次的平均r.m.s.d精炼为40.5微米。26-29次跑步时,得分为73.6微米。为什么跑步26-29的r.m.s.d.更大尚不清楚。我们尝试合奏精炼每个批次的检测距离,而不仅仅是精确的检测距离和xy公司我们还改进了所有传感器位置(见表4[链接],最后一行)。这个合奏精炼没有进一步提高运行26-29的r.m.s.d.s(数据未显示)。

致谢

我们感谢Vittal Yachandra和Jan Kern在XFEL数据收集方面的持续合作。我们感谢Johan Hattne和Helen Ginn就计量问题进行了富有成效的交谈精炼和Petrus Zwart,深入了解XFEL错误建模。

资金筹措信息

本研究得到了NIH向NKS拨款GM117126用于数据处理方法的支持,NIH向JY拨款GM110501用于金属酶系列晶体学,金刚石光源,STFC通过CCP4和威康信托[202933/Z/16/Z]。这项研究的一部分是在SLAC国家加速器实验室的LCLS进行的,由美国DOE科学办公室OBES根据合同号DE-AC02-76SF00515提供支持。数据处理部分在美国能源部科学办公室的支持下,在国家能源研究科学计算中心进行,合同号为DE-AC02-05CH111231。

工具书类

第一次引用Bergmann,U.、Yachandra,V.和Yano,J.(2017年)。X射线自由电子激光器伦敦:皇家化学学会。 谷歌学者
第一次引用Bevington,P.R.和Robinson,D.K.(2003)。物理科学中的数据简化和误差分析第三版,波士顿:麦格劳-希尔。 谷歌学者
第一次引用Brewster,A.S.、Hattne,J.、Parkhurst,J.M.、Waterman,D.G.、Bernstein,H.J.、Winter,G.&Sauter,N.K.(2014)。计算。结晶器。新闻。 5, 19–24.https://www.phenix-online.org/newsletter/CCN_2014_01.pdf谷歌学者
第一次引用Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Michels-Clark,T.、Young,I.D.、Bernstein,H.J.,Winter,G.、Evans,G.和Sauter,N.K.(2016)。计算。结晶器。新闻。 7, 32–53.https://www.phenix-online.org/newsletter/CCN_2016_07.pdf谷歌学者
第一次引用Crick,F.H.C.和Magdoff,B.S.(1956年)。阿克塔·克里斯特。 9, 901–908. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Diederichs,K.(2010年)。阿克塔·克里斯特。D类66, 733–740. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Duyvesteyn,H.M.E.,Ginn,H.M.,Pietilä,M.K.,Wagner,A.,Hattne,J.,Grimes,J.M.,Hirvonen,E.,Evans,G.,Parsy,M.L.,Sauter,N.K.、Brewster,A.S.,Huiskonen,J.T.,Stuart,D.I.,Sutton,G.&Bamford,D.H.(2018年)。科学。代表。 8, 3771. 交叉参考 谷歌学者
第一次引用Evans,P.(2006)。阿克塔·克里斯特。D类62, 72–82. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Evans,P.R.(2011)。阿克塔·克里斯特。D类67, 282–292. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Ginn,H.M.和Stuart,D.I.(2017年)。J.同步辐射。 24, 1152–1162. 交叉参考 IUCr日志 谷歌学者
第一次引用Guennebaud,G.和Jacob,B.(2010年)。艾根第3版。https://eigen.tuxfamily.org网站/谷歌学者
第一次引用P.哈特。等。(2012).程序。SPIE公司,850485040摄氏度。 交叉参考 谷歌学者
第一次引用哈滕,J。等。(2014).自然方法,11, 545–548. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用亨利克,B。等。(2011).编号。仪器。方法物理学。决议A,633,S11–S14科学网 交叉参考 中国科学院 谷歌学者
第一次引用Kameshima,T.、Ono,S.、Kudo,T.和Ozaki,K.、Kirihara,Y.、Kobayashi,K.和Inubushi,Y.,Yabashi,M.、Horigme,T.,Holland,A.、Holland、K.、Burt,D.、Murao,H.和Hatsui,T.(2014)。科学评论。仪器。 85,033110科学网 交叉参考 公共医学 谷歌学者
第一次引用科恩,J。等。(2014).自然社区。 5, 4371. 科学网 交叉参考 谷歌学者
第一次引用Leslie,A.G.W.(2006年)。阿克塔·克里斯特。D类62, 48–57. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Liu,J.W.H.(1990)。SIAM J.矩阵分析。应用。 11, 134–172. 交叉参考 谷歌学者
第一次引用Liu,D.C.和Nocedal,J.(1989年)。数学。程序。 45, 503–528. 交叉参考 科学网 谷歌学者
第一次引用Mehta,D.P.和Sahni,S.(2004)。数据结构和应用手册博卡拉顿:查普曼和霍尔/CRC。 谷歌学者
第一次引用Nass,K.,Meinhart,A.,Barends,T.R.M.,Foucar,L.,Gorel,A.,Aquila,A.,Botha,S.,Doak,R.B.,Koglin,J.,Liang,M.,Shoeman,R.L.,Williams,G.,Boutet,S.&Schlichting,I.(2016)。国际癌症研究所,3, 180–191. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
第一次引用Nocedal,J.和Wright,S.(2006年)。数值优化第二版,纽约:Springer-Verlag。 谷歌学者
第一次引用Parkhurst,J.M.、Brewster,A.S.、Fuentes-Montero,L.、Waterman,D.G.、Hattne,J.、Ashton,A.W.、Echols,N.、Evans,G.、Sauter,N.K.和Winter,G.(2014)。J.应用。克里斯特。 47, 1459–1465. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Rennich,S.C.,Stosic,D.&Davis,T.A.(2014)。第四届不规则应用研讨会论文集:架构和算法第9-16页。皮斯卡塔韦:IEEE。 谷歌学者
第一次引用Russi,S.,Juers,D.H.,Sanchez-Weatherby,J.,Pellegrini,E.,Mossou,E.、Forsyth,V.T.、Huet,J.、Gobbo,A.、Felisaz,F.、Moya,R.、McSweeney,S.M.、Cusack,S.、Cipriani,F.和Bowler,M.W.(2011年)。J.结构。生物学。 175, 236–243. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Sauter,N.K.(2015)。J.同步辐射。 22, 239–248. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Sauter,N.K.、Hattne,J.、Brewster,A.S.、Echols,N.、Zwart,P.H.和Adams,P.D.(2014)。阿克塔·克里斯特。D类70, 3299–3309. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Sauter,N.K.和Poon,B.K.(2010年)。J.应用。克里斯特。 43,611–616科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用萨瓦亚,M.R。等。(2014).程序。国家科学院。科学。美国,111, 12769–12774. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Sharma,A.、Johansson,L.、Dunevall,E.、Wahlgren,W.Y.、Neutze,R.和Katona,G.(2017)。阿克塔·克里斯特。A类73, 93–101. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用塞拉·R·G·。等。(2012).阿克塔·克里斯特。D类68,1584年至1587年科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Steller,I.、Bolotovsky,R.和Rossmann,M.G.(1997年)。J.应用。克里斯特。 30, 1036–1040. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Tukey,J.W.(1977年)。探索性数据分析阅读:艾迪生-卫斯理。 谷歌学者
第一次引用Uervirojnangkoorn,M.,Zeldin,O.B.,Lyubimov,A.Y.,Hattne,J.,Brewster,A.S.,Sauter,N.K.,Brunger,A.T.&Weis,W.I.(2015)。埃利夫,4,e05421科学网 交叉参考 谷歌学者
第一次引用Waterman,D.G.、Winter,G.、Gildea,R.J.、Parkhurst,J.M.、Brewster,A.S.、Sauter,N.K.和Evans,G.(2016)。阿克塔·克里斯特。D类72, 558–575. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Wilson,A.J.C.(1949年)。阿克塔·克里斯特。 2, 318–321. 交叉参考 IUCr日志 科学网 谷歌学者
第一次引用Winter,G.、Waterman,D.G.、Parkhurst,J.M.、Brewster,A.S.、Gildea,R.J.、Gerstel,M.、Fuentes-Montero,L.、Vollmar,M.,Michels-Clark,T.、Young,I.D.、Sauter,N.K.和Evans,G.(2018年)。阿克塔·克里斯特。D类74, 85–97. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Yefanov,O.、Mariani,V.、Gati,C.、White,T.A.、Chapman,H.N.和Barty,A.(2015)。选择。快递,23, 28459–28470. 科学网 交叉参考 公共医学 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
国际标准编号:2059-7983