研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
国际标准编号:2059-7983

数据探索工具包用于连续衍射实验

十字标记_颜色_方形_文本.svg

美国斯坦福大学分子和细胞生理学系,b条美国霍华德·休斯医学院,c(c)美国加州伯克利市劳伦斯伯克利国家实验室物理生物科学部,邮编:94720,d日Janelia Research Campus,19700 Helix Drive,Ashburn,VA 20147,美国,e(电子)美国斯坦福大学结构生物学系(f)美国加利福尼亚州门罗公园SLAC国家实验室光子科学系
*通信电子邮件:brunger@stanford.edu

(2014年10月14日收到; 2014年11月26日接受; 在线2015年1月23日)

X射线自由电子激光器(XFEL)的超快衍射有可能对产生辐射敏感晶体的重要生物系统产生新的见解。这些实验的“破坏前衍射”性质的一个不可避免的特征是,图像是从许多不同的晶体和/或同一晶体的不同区域获得的。结合XFEL射距变化的其他来源,这给衍射数据带来了显著的非均质性,使处理和解释变得复杂。为了使研究人员能够从收集的数据中获得最大的信息,我们提供了一个工具包,该工具包可以深入了解串行晶体学数据集的质量和变化。这些工具对来自许多单个晶体的未融合的部分强度积分结果进行操作,可以在两个层面上使用:第一,在数据收集期间指导实验策略,第二,在数据处理期间帮助用户做出明智的选择。

1.简介

第三代同步加速器光源在解决结构生物学中的挑战性问题方面取得了巨大成功。即使使用现代同步加速器,也能提供~1012光子−1,每个样本的数据收集仍然需要几秒到几分钟的时间。这些照射过程中的辐射损伤是X射线失败的主要原因结构测定(泽尔丁等。, 2013【Zeldin,O.B.、Brockhauser,S.、Bremridge,J.、Holton,J.M.和Garman,E.F.(2013)。美国国家科学院院刊,110,20551-20556。】). X射线自由电子激光器(XFEL)实现了一种“先衍射后破坏”的方法,可以绕过这个问题,并有效地提供无损伤衍射数据集(查普曼等。, 2011[Chapman,H.N.等人(2011年),《自然》(伦敦),47073-77。]; 科恩等。, 2013[Kern,J.等人(2013),《科学》,340,491-495。]; 线路接口单元等。, 2013[Liu,W.等人(2013).科学,342,1521-1524.]; 平田等。, 2014【Hirata,K.等人(2014),《自然方法》,第11734-736页。】). 此外,新的样本传送和数据采集硬件使得在XFEL和现代同步加速器束线(Gati等。, 2014【Gati,C.、Bourenkov,G.、Klinge,M.、Rehders,D.、Stellato,F.、Oberthür,D.、Yefanov,O.、Sommer,B.P.、Mogk,S.、Duszenko,M.,Betzel,C.、Schneider,T.r.、Chapman,H.N.和Redecke,L.(2014)。国际癌症杂志,1,87-94。】). 了解这些越来越多使用的数据源中系统变化的原因对生物结晶学具有普遍的重要性。

分析XFEL晶体衍射实验数据的最大挑战之一是数据处理。到目前为止,XFEL数据处理工作的重点是处理单个图像的基本任务,并且在这一领域已经取得了相当大的进展(怀特等。, 2012【怀特,T.A.,基里安,R.A.,马丁,A.V.,阿奎拉,A.,纳斯,K.,巴蒂,A.&查普曼,H.N.(2012),《应用结晶杂志》第45期,第335-341页。】; 哈特尼等。, 2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。]). 然后,将所有这些单独图像的积分强度合并到一个步骤中,但到目前为止,还没有考虑晶体之间或单晶不同区域之间的变化,这构成了一个完整的衍射数据集。变异的来源可能包括侧链和主链的具有生物学意义的交替构象、多组分大分子复合物的不同构型/构象,以及衍射质量中的单位间变异、镶嵌性和样品间变异等挑战性问题。我们开发了一套工具数据探索工具包,以一种对具有同步加速器晶体成像经验的用户直接有意义的形式,为实验者提供对原始未合并数据的即时洞察。

2.方法

2.1. 晶胞变异

使用单链接层次聚类程序分析单位-细胞差异,并使用用户定义的阈值选择树的分支被切割的位置。在层次聚类中,单个衍射图案显示为沿水平轴的树叶,图案或其簇之间的有效距离显示为沿垂直轴。两个分支合并的点显示了每个分支的成员之间的差异。默认距离度量是安德鲁斯-伯恩斯坦NCDist度量(安德鲁斯和伯恩斯坦,2014[Andrews,L.C.&Bernstein,H.J.(2014),《应用结晶杂志》,第47期,第346-359页。]; 麦吉尔等。, 2014【McGill,K.J.,Asadi,M.,Karakasheva,M.T.,Andrews,L.C.&Bernstein,H.J.(2014),《应用结晶杂志》第47卷,第360-364页。】)它使用流形嵌入来考虑对称性,从而在Niggli锥内找到两组单位-细胞参数之间的最短路径。可以选择使用欧几里得距离,从而得到不太稳定但更快的结果。聚类是使用SciPy Python包执行的(Oliphant,2007[Oliphant,T.E.(2007),《计算科学与工程》第9期,第10-20页。]).

2.2. 晶体取向

每个实际空间轴的方向都投影到一个球体上,使用Matplotlib基本图包装(https://matplotlib.org/basemap网站/). 真实空间轴的平均密度也显示为彩色地图,以帮助可视化方向分布。

2.3。强度统计

强度统计数据直接根据原始部分记录的积分强度进行计算。刻度(截距)和梯度(−2B类)通过对日志进行线性回归计算(部分)[罪(θ)/λ]2地块。的价值B类用这种方法得到的统计量称为“伪威尔逊”统计量,因为强度是偏态和非正规的。

2.4. 示例数据

使用LCLS(科恩)XPP光束线上的测角仪装置收集示例数据等。, 2014【Cohen,A.E.等人(2014)。美国国家科学院院刊,111,17122-17127】)来自Brunger小组正在研究的高分子复合物的晶体(手稿正在准备中),安装在回路中并冷冻。使用从XTC流添加Beam-energy元数据cctbx.xfel公司并且使用cxi指数程序来自cctbx.xfel公司(哈特纳等。, 2014[Hattne,J.等人(2014)。《自然方法》,第11期,第545-548页。]).

3.工具包概述

The intended use of the数据探索工具包旨在为实验人员提供关于其未合并衍射数据的异质性和质量的反馈。在合并之前执行这些分析是关键。例如,一个穷人相关系数R(右)合并统计数据中的因素并没有对这些低分数的来源提供任何指导:是所有的晶体都同样糟糕,还是晶体是由个别群体组成的,这些群体的衍射图案可能会很好地分开合并,但当合并在一起时,内部一致性较差?

该工具包由四个命令行程序组成,用户可以通过cctbx.xfel公司(见表1[链接]). 单元-单元聚类工具,集群.unit_cell使用对称软件Andrews–Bernstein距离(Andrews&Bernsteim,2014[Andrews,L.C.&Bernstein,H.J.(2014),《应用结晶杂志》,第47期,第346-359页。]; 麦吉尔等。, 2014【McGill,K.J.,Asadi,M.,Karakasheva,M.T.,Andrews,L.C.&Bernstein,H.J.(2014),《应用结晶杂志》第47卷,第360-364页。】)或简单的欧几里德距离度量。定向偏差工具,群集.visualize_orients,允许直接、实验室框架可视化晶体的方向;这使得可视化任何晶体的系统排列变得简单。由于该工具允许实验人员快速识别偏差(通常在几分钟内),因此,如果存在明显偏差,可以决定跳过样本,从而更有效地使用宝贵的XFEL波束时间。整体强度工具,集群强度统计,显示所有图像的部分强度相对于分辨率的伪威尔逊图,以及帧间强度工具,集群.individual_frame_intensity,显示了部分强度在逐帧基础上的分布。强度工具有助于在合并之前识别图像子集的衍射强度异常。异常值可能是由诱导错误或衍射不良引起的;区分这些原因的一个简单测试是对使用单位细胞聚类工具识别的衍射图像的高度同晶子集重复强度分析。最后,这四个工具的输出可以显示在一个图形中,以便使用命令快速概述衍射数据的当前状态集群.42,提供单位-细胞分布、晶体取向和部分强度反射的分布分辨率。每个程序都作用于cctbx.xfel公司可以指定图像文件和其他参数通过命令行。

表1
中的五个命令行应用程序数据探索工具包

集群.unit_cell 使用层次聚类来可视化和聚类集成步骤输出的单元单元。
群集.visualize_orients 可视化真实空间晶体轴的定向分布,揭示可能存在的任何偏差。实验室框架方向,b条c(c)轴被投影到地球仪上,并添加了彩色地图以使分布更加清晰。
集群强度统计 聚合所有图像上部分强度的数据。生成所有图像的斜率和截距散点图,以及拟合上梯度和标准误差的直方图。还创建了所有部分对数强度的超级绘图2(θ)/λ2.
集群.individual_frame_intensity 生成日志图(部分)2(θ)/λ2对于每个图像。还绘制了滚动平均值和数据的线性拟合:“伪威尔逊”图。
集群.42 方便实用程序,通过单个命令在单个帧中提供单位单元、方向和强度直方图的集合。

例如数据探索工具包用于最近收集的基于测角仪的789张图像数据集,其中可以使用飞秒XFEL脉冲从大多数晶体中获得多个衍射图案,详见§2.4[链接]。在初始集成运行后,对367个图像进行了索引。将单元-细胞聚类工具应用于这些图像显示了两组重要的索引解决方案(图1[链接])分别包含249个和69个成员。这些晶体与两种不同的已知晶体形式有关,分别称为“长”和“短”晶胞。两个单位细胞都是正交的(222)格子,长格的中央单位-细胞边缘为(69,169,288)Au,短格的中央单元-细胞边缘是(69,146,170)Au单位电池(支持信息中显示了完整的集群日志文件)。然后使用长单元作为目标对衍射数据进行重新整合,得到443帧索引。对这些新整合结果进行的第二轮聚类显示,其中427个位于单个集群中(补充图S1),然后将其用于合并步骤。使用short单位电池作为一个目标,导致97张图像被索引,其中93张在一个紧密的集群中(补充图S1b条). 当使用以这种方式确定的最佳目标细胞时,有效索引图像的增加通常为50-100%。检查整个数据集的晶体方向(图2[链接]),我们观察到与数据收集期间分析传入衍射图案时所观察到的结果一致的显著偏差,这表明测角仪装置上的大晶体倾向于具有首选定向在循环中。最后,检查伪威尔逊图(图3[链接])结果表明,衍射数据中没有严重异常(例如,在高分辨率下强度增加),这可能表明存在次优积分参数。帧间温度因子和标准误差的分布(来自帧间局部强度分析;补充图S2中所示的示例)也没有显示许多离群值或多模态分布。

[图1]
图1
测试数据的分层聚类,具有线性(顶部)和对数(底部)轴。树的每个分支低于阈值(5000Ω2)定义为簇并单独着色。单元素簇用蓝色标记。这两种晶体形式以绿色和黑色显示,分别代表长细胞和短细胞形式。然后,可以将每个聚类的中值用作目标,以获得显著更高的索引率。
[图2]
图2
实际空间轴的定向分布(轴,顶部;b条,中间;c(c),底部),显示出明显的偏差,可能是由于回路中晶体的首选方向。描述晶体轴方向的单位矢量投影到单位球体上,其相对于光束的方向以经纬度表示,以便于解释。因此(0,0)沿梁,北/南表示上/下,东/西表示右/左。此工具是对菲尼克斯反射查看器(菲尼克斯数据查看器; 亚当斯等。, 2010【Adams,P.D.等人(2010),《水晶学报》,D66,213-221。】),它可以可视化任何缺少的楔子倒易空间,因为它提供了对实验室框架的直接参考,允许在可能的情况下进行实验调整。对于每个晶体,三个实际空间轴的实验室框架方向显示为黄色点。增加了实际空间轴的平均密度,以帮助解释趋势。
[图3]
图3
在没有目标单元格的情况下集成的部分未合并数据的强度统计。主图显示了强度随散射角增加而单调下降的趋势。从每帧伪威尔逊图(示例如补充图S2所示)聚合而来的左侧图显示了一些离群值,与图1中存在的离群值一致[链接]类似的图,但当长细胞用作晶体靶时,显示的异常值较少,如补充图S3所示。两者的极值G公司(比例因子;主图中的截距)或−2B类(右侧图中的斜率)可能是由诱导错误引起的,可以通过在cctbx.xfel公司环境。

4.结论

使用数据探索工具包为了识别特定晶体学实验中存在的多种晶体形式,并指导目标晶胞的选择,增加了成功索引的图像数量。该套件中的其他工具使我们能够理解实验设置中的方向偏差,并在合并前对积分强度进行“健全性检查”。综上所述,这些工具为实验人员在处理未知的具有挑战性的串行数据集时提供了快速、简单和有价值的方法。

这项工作中提供的工具使实验人员能够对其串行数据的异质性获得有价值的见解,并在数据收集期间获得关于点定位和集成参数的快速反馈。我们的工具扩展了CrystFEL公司一套单元格浏览器(_E)可视化单个单元-单元参数直方图的工具(白色等。, 2012【怀特,T.A.,基里安,R.A.,马丁,A.V.,阿奎拉,A.,纳斯,K.,巴蒂,A.&查普曼,H.N.(2012),《应用结晶杂志》第45期,第335-341页。】). 当将此信息与更传统的合并统计数据一起考虑时,与单独使用这两种工具相比,可以更清楚地了解数据质量。因此,这些方法适用于两个层面。首先,在实验中,它们可以用来帮助识别诸如方向偏差或误导性命中率之类的病态。考虑到目前XFEL波束时间的极度匮乏,这种方法也将有助于指导关于何时继续使用另一个样本或何时继续使用的决策。其次,在数据处理过程中,这些工具对未合并数据的质量提供了快速而有价值的反馈。命令行工具提供的功能也可以从应用程序编程界面访问,因此具有高度的可扩展性和可定制性,可供高级用户在数据处理期间使用。该接口允许使用简短的Python脚本应用过滤器或选择单个集群进行进一步处理。我们希望这些快速、简单易用的数据勘探工具能够有效测量高质量的连续晶体学衍射数据。

支持信息


鸣谢

作者感谢劳伦斯·安德鲁斯(Lawrence C.Andrews)和赫伯特·伯恩斯坦(Herbert J.Bernstein)就实施NCDist指标提出的宝贵建议。我们感谢SSRL/LCLS科学家Aina E.Cohen、S.Michael Soltis、Henrik T.Lemke、Roberto Alonso-Mori、Elizabeth L.Baxter、Matthieu Cholet、Paul Ehrensberger、Thomas I.Eriksson、Feng Yiping、Michael Hollenbeck、Elena G.Kovaleva、Scott E.McPhillips、Silke Nelson、Jinhu Song、Yingssu Tsai、,Vladimir Vinetsky和Diling Zhu在LCLS XPP设施的数据收集方面提供了宝贵的帮助。SLAC国家加速器实验室斯坦福同步辐射光源(SSRL)和Linac相干光源(LCLS)的使用由美国能源部科学办公室基础能源科学办公室支持,合同号DE-AC02-76SF00515。SSRL结构分子生物学项目由DOE生物与环境研究办公室和国家卫生研究院、国家普通医学科学研究所(包括P41GM103393)支持。ASB和NKS得到了NIH拨款GM095887和GM102520以及能源部(DOE)科学办公室主任根据合同DE-AC02-05CH11231提供的数据处理方法支持。这项工作得到了ATB和WIW的HHMI合作创新奖(HCIA)的支持。

工具书类

第一次引用P.D.亚当斯。等。(2010).《水晶学报》。D类66, 213–221. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Andrews,L.C.和Bernstein,H.J.(2014)。J.应用。克里斯特。 47, 346–359. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用查普曼,H.N。等。(2011).自然(伦敦),470, 73–77. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用科恩,A.E。等。(2014).程序。美国国家科学院。科学。美国,111, 17122–17127 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Gati,C.、Bourenkov,G.、Klinge,M.、Rehders,D.、Stellato,F.、Oberthür,D.、Yefanov,O.、Sommer,B.P.、Mogk,S.、Duszenko,M.,Betzel,C.、Schneider,T.r.、Chapman,H.N.和Redecke,L.(2014)。IUCrJ大学,1, 87–94. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
第一次引用J.哈特尼。等。(2014).自然方法,11, 545–548. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用K.平田。等。(2014).自然方法,11, 734–736. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用科恩,J。等。(2013).科学类,340, 491–495. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用刘伟(Liu,W.)。等。(2013).科学类,342, 1521–1524. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用McGill,K.J.、Asadi,M.、Karakasheva,M.T.、Andrews,L.C.和Bernstein,H.J.(2014)。J.应用。克里斯特。 47, 360–364. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oliphant,T.E.(2007)。计算。科学。工程师。 9, 10–20. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用White,T.A.、Kirian,R.A.、Martin,A.V.、Aquila,A.、Nass,K.、Barty,A.和Chapman,H.N.(2012年)。J.应用。克里斯特。 45, 335–341. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Zeldin,O.B.、Brockhauser,S.、Bremridge,J.、Holton,J.M.和Garman,E.F.(2013)。程序。美国国家科学院。科学。美国,110, 20551–20556. 科学网 交叉参考 中国科学院 公共医学 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
国际标准编号:2059-7983