1.简介
第三代同步辐射源晶体数据的完整性和准确性的主要限制通常是样品寿命,即辐射损伤。对于CCD探测器,这提出了一个特殊的挑战:获取足够强大的数据以克服探测器读出噪声,同时获得完整的数据集,理想情况下达到尽可能高的分辨率。战略计划,如最佳(波波夫和布伦科夫,2003年)正是在考虑到这一挑战的情况下开发的。然而,随着光子计数探测器的出现,出现了一种可能性,即记录微弱得多的数据,而不是依靠多重测量来提高数据质量,而不是增加单个观测的光子计数。因此,这就提出了一个问题,即如何最好地使用可能在样本寿命内散射的光子。
虽然存在软件,可以根据光束线和样品组成的详细信息估计样品的寿命(Murray等。, 2004; 泽尔丁等。, 2013)以及利用该信息的策略程序,这些程序对初始输入很敏感,需要详细了解光束轮廓、强度和样品组成。这里的目的是达成一个协议,该协议可以在没有这种准备的情况下使用,但仍应获得高质量的数据集,即总体战略,而非具体样本战略。
在制定这样一项战略时,必须回答四个具体问题。
(i) 在相同的光子总数下,较大数量的弱观测值是否等于较小数量的强观测值? (ii)如果记录了非常微弱的数据,它们有用吗? (三)鉴于观测结果的合理多样性,如何检测辐射损伤的存在,以及“截断”数据集的最佳点在哪里? (iv)给定来自多个样本的数据,组合弱完整集还是强部分集更好?
|
将依次考虑这些问题,并使用示例数据集考虑每一点。将广泛使用合并统计数据,读者将被引导到https://strucbio.biologie.uni-konstanz.de/ccp4wiki/index.php/R-因素如果需要,可以进行复习。
2.强度与多样性
任何依赖测量多重性的数据收集策略都必须首先询问,在没有严重辐射损伤的情况下,高多重性低剂量实验的结果是否等于相同数量的光子通过较少的反射从同一晶体散射出来。如果(i)样本寿命众所周知,(ii)数据大小(磁盘存储)是一个因素,(iii)采集时间是一个主要考虑因素,则记录更少、更强的反射(同时仍然是一个完整的反射集)可能是一种有效的策略。如果样品寿命未知,例如,一种新的蛋白质,其样品行为之前未被描述,则有强烈的理由支持保守的数据收集方法,即用低强度光束记录更多数据,这样一旦发现辐射损伤,数据可能会减少验尸后,减少了多重性,但理想情况下不是完整性。
为了解决这个问题,在钻石光源光束线I24上记录了三个立方体胰岛素样品的数据,这些样品的大小与光束大小相当(详见附录D类支持信息)。总剂量(即全光束秒数),并尽可能保持恒定,同时保持较低的数值以减少损坏影响,从而产生相对较弱但可比较的数据集-数据收集参数如表1所示所有数据均以20的暴露时间记录 0.9686时每帧毫秒 ?,调整总旋转和传输,使总剂量大致相同,约为0.16 MGy,由估算放射性-3D(泽尔丁等。, 2013). 对于每个样本,以随机选择的顺序记录多个具有不同总旋转和传输的数据集,并在最后重复第一次扫描以进行直接比较。在所有情况下,均未检测到明显的辐射损伤迹象,结构的结果精炼具有可比性。
| A1类 | A2类 | A3号 | A4 | 数据收集 | | | | | 暴露时间(s) | 0.02 | 0.02 | 0.02 | 0.02 | Ω宽度(°) | 0.15 | 0.15 | 0.15 | 0.15 | 传输(%) | 0.42 | 0.80 | 0.22 | 0.42 | 图像数量 | 4800 | 2400 | 9600 | 4800 | 数据处理 | | | | | 晶体参数 | | | | | “空间”组 | 我213 | 我213 | 我213 | 我213 | 单位-细胞参数(Ω) | 一=b条=c(c)= 77.56 | 一=b条=c(c)= 77.58 | 一=b条=c(c)= 77.56 | 一=b条=c(c)= 77.58 | 数据统计 | | | | | 分辨率范围(Ω) | 38.78–1.60 (1.63–1.60) | 54.86–1.60 (1.63–1.60) | 54.85–1.60 (1.63–1.60) | 38.79–1.60(1.63–1.60) | 独特反射次数 | 10428 (528) | 10429 (528) | 10429(528) | 10431 (529) | 多重性 | 77.0 (76.9) | 38.4 (38.4) | 154.3 (154.5) | 77.0 (76.9) | R(右)合并 | 0.191 (3.082) | 0.139 (2.225) | 0.258 (4.157) | 0.201 (3.568) | R(右)测量 | 0.192 (3.102) | 0.141 (2.255) | 0.258 (4.170) | 0.202 (3.591) | R(右)下午。 | 0.022 (0.353) | 0.023 (0.363) | 0.021 (0.335) | 0.023 (0.409) | 完整性(%) | 100.0 (100.0) | 100.0 (100.0) | 100.0 (100.0) | 100.0 (100.0) | 〈我/σ(我)〉 | 18.9 (1.3) | 18.0 (1.9) | 19.5 (1.1) | 17.3 (1.5) | 科科斯群岛1/2 | 1.000(0.732) | 1.000 (0.782) | 1.000 (0.739) | 1.000 (0.745) | d日最小值对于CC1/2≃ 0.5 (Å) | 1.45 | 1.46 | 1.46 | 1.47 | | | 地下一层 | 地下二层 | 地下三层 | B4类 | 数据收集 | | | | | 暴露时间(s) | 0.02 | 0.02 | 0.02 | 0.02 | Ω宽度(°) | 0.15 | 0.15 | 0.15 | 0.15 | 传输(%) | 1.52 | 2.90 | 0.80 | 1.52 | 图像数量 | 1200 | 600 | 2400 | 1200 | 数据处理 | | | | | 晶体参数 | | | | | “空间”组 | 我213 | 我213 | 我213 | I2类13 | 单位-细胞参数(Ω) | 一=b条=c(c)= 77.47 | 一=b条=c(c)= 77.47 | 一=b条=c(c)= 77.50 | 一=b条=c(c)= 77.51 | 数据统计 | | | | | 分辨率范围(Ω) | 38.74–1.60 (1.63–1.60) | 38.74–1.60 (1.63–1.60) | 38.75–1.60 (1.63–1.60) | 54.81–1.60 (1.63–1.60) | 独特反射次数 | 10379 (526) | 10379 (526) | 10389 (521) | 10390 (521) | 多重性 | 19.4 (19.5) | 9.7 (9.8) | 38.8 (39.0) | 19.4 (19.5) | R(右)合并 | 0.142 (1.582) | 0.104(1.186) | 0.220 (2.663) | 0.142 (1.732) | R(右)测量 | 0.146 (1.624) | 0.110 (1.252) | 0.223 (2.698) | 0.146 (1.778) | R(右)下午。 | 0.033 (0.366) | 0.035 (0.399) | 0.036 (0.430) | 0.033 (0.401) | 完整性(%) | 100.0 (100.0) | 100.0 (100.0) | 100.0 (100.0) | 100.0 (100.0) | 〈我/σ(我)〉 | 12.2 (1.7) | 11.2 (1.7) | 11.4(1.1) | 12.5 (1.6) | 科科斯群岛1/2 | 0.999 (0.767) | 0.999(0.691) | 0.999 (0.701) | 0.999 (0.748) | d日最小值对于CC1/2≃ 0.5 (Å) | 1.45 | 1.47 | 1.47 | 1.48 | | | C1 | 指挥与控制 | C3类 | 补体第四成份 | 数据收集 | | | | | 暴露时间(s) | 0.02 | 0.02 | 0.02 | 0.02 | Ω宽度(°) | 0.15 | 0.15 | 0.15 | 0.15 | 传输(%) | 2.90 | 0.80 | 1.52 | 2.90 | 图像数量 | 600 | 2400 | 1200 | 600 | 数据处理 | | | | | 晶体参数 | | | | | “空间”组 | 我213 | 我213 | 我213 | 我213 | 单位-细胞参数(Ω) | 一=b条=c(c)= 77.45 | 一=b条=c(c)= 77.42 | 一=b条=c(c)= 77.46 | 一=b条=c(c)=77.47 | 数据统计 | | | | | 分辨率范围(Ω) | 38.72–1.60 (1.63–1.60) | 54.74–1.60 (1.63–1.60) | 38.73–1.60 (1.63–1.60) | 54.78–1.60 (1.63–1.60) | 独特反射次数 | 10379 (526) | 10359 (517) | 10389 (521) | 10380 (526) | 多重性 | 9.4 (9.5) | 38.3 (38.5) | 19.1 (19.0) | 9.5(9.6) | R(右)合并 | 0.098 (2.400) | 0.191 (4.833) | 0.129(3.081) | 0.099 (2.511) | R(右)测量 | 0.103 (2.539) | 0.194 (4.897) | 0.132 (3.166) | 0.105 (2.654) | R(右)下午。 | 0.033 (0.823) | 0.031 (0.787) | 0.030 (0.724) | 0.034 (0.855) | 完整性(%) | 100.0 (100.0) | 100.0 (100.0) | 100.0 (100.0) | 100.0 (100.0) | 〈我/σ(我)〉 | 12.4 (1.0) | 13.6 (0.8) | 14.0 (0.9) | 12.5 (0.8) | 科科斯群岛1/2 | 0.999 (0.450) | 1.000 (0.474) | 1.000 (0.459) | 0.999 (0.379) | d日最小值对于CC1/2≃ 0.5 (Å) | 1.58 | 1.56 | 1.56 | 1.59 | | |
所有人都收集了约0.4秒的全光束数据,约1.2×1012 光子。而R(右)合并值会按预期变化R(右)下午。值相对一致(图1). 在总剂量大约高出8倍的情况下,采集了额外的样本,相应地R(右)下午。表明影响测量精度的主要因素是总散射光子。因此,没有证据表明记录较高的多重性较弱的测量值对整体数据质量或最终分辨率极限有任何不利影响。特别是CC估计的最终分辨率限制1/2对于三个晶体上记录的每个数据集,≃0.5是可比较的。重要的是要注意到,这方面存在实际限制,因为数据必须足够强大,以使现场查找和索引保持成功。
| 图1 合并来自三个样本(A,左;B,中;C,右)的12个可比较数据集的统计数据,其中散射光子总数保持近似恒定,而传输和总旋转范围发生变化,以评估对总数据质量的影响。 |
3.传动梯
在许多情况下,样品的预期寿命未知先验的然而,通常会有相当众所周知的极值,例如最小和最大典型寿命,可能相差一个或多个数量级。在这种情况下,数据收集的保守策略可能是首先获取极弱的全旋转,即远低于样品的预期寿命剂量,然后以4倍、16倍甚至64倍的剂量进行相同的旋转,原则上使泊松推导值加倍我/σ(我)每个循环。之后的运行极有可能会有实质性的辐射损伤,但如果观察到这一点,则前一次运行应始终提供完整的数据,或在几何约束条件下尽可能完整。早期的低剂量数据也可能适用于分子置换或下部结构确定,其中后续(可能有些损坏)数据可能更适合结构精炼因为可能已经实现了更高的分辨率。相反,较强但受到辐射破坏的数据可能有助于确定初始样本方向,然后可用于处理较弱的数据。
3.1. 配体结合的差异图
用于药物发现的配体结合研究通常用于同步加速器源的数据收集。在这种情况下,大多数原子位置都是众所周知的,因此即使是不精确的数据也足以观察研究样品与现有模型之间的差异,从而显示出任何配体。这可以通过从带有配体的样品中获取一系列数据集,并进行一系列传输,然后计算每个数据集的差异图来证明。
数据是在钻石光源光束线I03处收集的,来自按照标准协议在结晶条件下用酒石酸盐制备的索姆丁晶体。每个数据集记录为3600×0.1°图像,其中40个 毫秒曝光时间,传输尽可能接近,, 1, 4, 16, 64% (即∼1 × 109至~1×1012 光子 秒−1)总共六次跑步。选择传输步骤以使我/σ(我)由于计数统计(图2和表2).
传输(%) | | | 1 | 总光子(× 109) | 150 | 610 | 2440 | 总剂量(全束秒数) | 0.09 | 0.36 | 1.44 | 剂量(MGy) | 0.012 | 0.047 | 0.186 | 晶体参数 | | | | “空间”组 | P(P)41212 | P(P)41212 | P(P)41212 | 晶胞参数(Å) | 一=b条= 57.82, c(c)= 150.13 | 一=b条= 57.82, c(c)= 150.16 | 一=b条=57.84, c(c)= 150.21 | 数据统计 | | | | 分辨率范围(Ω) | 53.96–1.60 (1.63–1.60) | 50.05–1.60 (1.63–1.60) | 150.21–1.60 (1.63–1.60) | 独特反射次数 | 34720 (1677) | 34696 (1670) | 34726 (1662) | 多重性 | 24.2 (23.8) | 24.1 (23.6) | 24.0 (23.5) | R(右)合并 | 0.411 (4.412) | 0.223 (1.840) | 0.142 (0.839) | R(右)测量 | 0.420 (4.509) | 0.228 (1.880) | 0.145(0.858) | R(右)下午。 | 0.085 (0.921) | 0.046 (0.385) | 0.029 (0.176) | 完整性(%) | 100.0 (99.8) | 100.0 (99.6) | 100.0 (99.1) | 〈我/σ(我)〉 | 5.8 (0.8) | 9.9 (1.8) | 14.4 (3.4) | 科科斯群岛1/2 | 0.996 (0.493) | 0.998 (0.837) | 0.999 (0.954) | R(右)工作 | 0.1777 | 0.1650 | 0.1605 | R(右)自由的 | 0.2108 | 0.1983 | 0.1916 | 传输(%) | 4 | 16 | 64 | 总光子(× 1012) | 9.84 | 39.1 | 157 | 总剂量(全束秒数) | 5.79 | 23 | 92.33 | 剂量(MGy) | 0.748 | 2.971 | 11.926 | 晶体参数 | | | | “空间”组 | P(P)41212 | P(P)41212 | P(P)41212 | 单位-细胞参数(Ω) | 一=b条= 57.87, c(c)= 150.27 | 一=b条= 57.92, c(c)= 150.41 | 一=b条= 57.97, c(c)= 150.53 | 数据统计 | | | | 分辨率范围(Ω) | 150.27–1.60(1.63–1.60) | 75.20–1.60 (1.63–1.60) | 57.97–1.60 (1.63–1.60) | 独特反射次数 | 34761 (1668) | 34850 (1674) | 34971 (1662) | 多重性 | 23.9 (23.5) | 23.8 (23.2) | 23.6 (22.6) | R(右)合并 | 0.118 (0.495) | 0.117 (0.435) | 0.181 (1.345) | R(右)测量 | 0.121 (0.506) | 0.119(0.445) | 0.185 (1.377) | R(右)下午。 | 0.024 (0.104) | 0.024(0.092) | 0.038 (0.291) | 完整性(%) | 100.0 (99.7) | 100.0 (100.0) | 100.0 (97.4) | 〈我/σ(我)〉 | 16.8 (4.6) | 16.6 (3.7) | 11.4 (1.6) | 科科斯群岛1/2 | 0.999 (0.981) | 0.999 (0.985) | 0.998 (0.912) | R(右)工作 | 0.1608 | 0.1676 | 0.1815 | R(右)自由的 | 0.1920 | 0.2010 | 0.2208 | | |
| 图2 合并使用来自的传输记录的thaumatin数据集的统计信息到64%,处理到1.6的固定分辨率 Å. 很明显,这些数据中最弱的数据受到了强度测量精度差的影响,随着剂量的增加,测量精度迅速提高。然而,在1%到16%的回报率之间存在一个递减点,辐射损伤在数据质量中成为比统计数据更重要的因素。 |
每个数据集都是独立处理的下2/DIALS(刻度盘)(2010年冬季; 冬季等。, 2018)固定分辨率为1.6 奥,和酒窝(https://ccp4.github.io/dimple网站/)使用不含酒石酸盐的thaumatin模型运行以计算差异图。如图3所示尽管来自最弱数据集的合并统计数据很差,但该图显示出明显的差异密度,这是由后续数据集重现的。结构精炼也显示出模型和数据之间的良好一致性,尽管在辐射损伤变得明显之前更强的数据集提供了略微改进的统计数据。
| 图3 差异贴图(渲染为3σ)从thaumatin数据中导出,显示了酒石酸盐分子的结晶条件,用于传输记录的数据至64%。辐射损伤的迹象在最后一组数据中的电子密度中清晰可见。特别有趣的是地图中的相似性(b条)–(e(电子)):尽管使用了64倍的传输差异,但从视觉上看,地图上的差异很小。 |
这清楚地表明,尽管数据非常微弱,并且显示出相当高的合并残差,但平均数据对于配体识别仍然有用,并且只需十分之一的全束秒曝光即可获得。虽然众所周知,索姆丁晶体在光束中很坚固,但在16%和64%的数据集中可以看到清晰的辐射损伤迹象,例如分辨率显著下降。辐射损伤问题将在第5节中重新讨论.
3.3. 胰岛素参数空间的探索
数据采集自钻石光源光束线I03上的四个立方胰岛素晶体。每个数据集由4800张图像组成,每0.04张图像的角度为0.15° s、 波长为1.2 ?,6.25%传输(~3.1 × 1011 光子 秒−1)距离探测器上的内切圆为1.4 Å. 尽管传输率很低,但每个数据集都显示出非常轻微的辐射损伤迹象(见附录D类支持信息)。然而,每个数据集还包含足够的异常信号以允许相位调整通过S-SAD与保质期/保质期(谢尔德里克,2010年)使它们对于探索参数空间很有用。
对于给定的总剂量,将在强度和多重性之间进行选择,如第2节前面所述然而,在这里,可以通过获取数据子集或应用后记通过数字衰减进行传输调整。
3.3.1. 数字衰减
在单色同步加速器束线中光子通量由吸收主光束的可预测部分的衰减器箔或楔控制(对于给定的源配置)。显然,被吸收的光子可能会导致背景、布拉格衍射或只是通过样品,因此滤波器传输具有近似缩放图像的整体效果。需要注意的是,这不是一个简单的缩放,因为涉及的所有过程都是随机的。
重现这一过程生物信息学,必须注意确保再现随机过程。图4中的方案,源自Waterman第10节等。(2016),旨在重现这一点:对于每个图像的每个像素上记录的每个计数,从[0.0,1.0)中提取一个随机值。1如果该随机值小于所需的传输因子T型,计数保留在数据中,否则将被拒绝。因此,这将保持数据的统计结构,同时等效地降低背景和反射的强度。如图4所示对于一个图像上的一个反射。显然,原始数据中存在的任何辐射损伤将继续存在于衰减数据中。
| 图4 传输1至4的数字衰减衍射点示例−5,以及一个显示就地数字衰减数据机制的方案传输系数 T型。用于运行的命令行DIALS(刻度盘)附录中包含的实施D类在支持信息中。 |
因此,使用这种衰减方案可以更公平地比较传输效果与数据集大小,但不考虑辐射损伤。该方案仅适用于光子计数像素阵列探测器的数据,因为事件必须单独记录并且彼此不相关。
5.辐射损伤
现代第三代和第四代同步辐射源的辐射损伤是收集数据的最大限制。最明显的是,随着数据集中后期图像的衍射变差,损伤问题将变得明显。到目前为止,显然无法对实验进行纠正,但如果采用了高多重性策略,则可能从数据中恢复某些内容。或者,这一结果可用于深入了解后续数据收集的样本寿命,即所谓的“牺牲晶体”(Leal等。, 2011). 无论哪种情况,都应适当分析数据,以估计有用的样本寿命。
6.多晶体
从多晶体收集数据的传统方法侧重于从高辐射敏感性样品中构建一整套数据。然而,正如文献中所述(参见例如。线路接口单元等。, 2011)组合多个完整的数据集可以帮助进行阶段化实验。出于同样的原因,从多个样本中收集数据还允许在下游分析的基础上选择要采用的数据。最后。其目的是确定对生物分子或复合物的结构洞察力,而不是对特定样品的结构洞察,因此多个样品的平均值应提高平均强度的准确性,因为样品之间的变化例如。平均出晶体形状和取向。
6.3.现场室温下的数据采集
本节中迄今为止给出的示例结合了来自多个晶体的数据集,以提高整体数据质量。在某些情况下,根本不可能从任何一个单独的晶体中收集完整的数据集,特别是对于小型弱衍射晶体或室温晶体就地实验(Axford等。, 2012). 在这种情况下,为了获得一个完整的数据集,有必要将来自许多晶体的许多严重不完整的数据集合组合起来。每个单独的数据集覆盖的区域有限互易空间由于晶体尺寸小、辐射损伤或实验装置的限制(例如。 就地数据收集)。
处理此类数据集会带来一些额外的挑战,包括对称性确定(Gildea&Winter,2018)、定标、辐射损伤和非同构分析(阿斯曼等。, 2016),以及为下游阶段化和精细化。在本节中,我们使用以下示例描述了一些涉及的挑战就地蛋白酶K重原子衍生物的实验定相。
6.3.1。现场蛋白酶K重原子衍生物的实验阶段化
现场对蛋白酶K微晶的天然和重原子衍生物进行了数据收集。使用Dectris PILATUS3在钻石光源的光束线I24上收集数据 6M探测器,使用9×6 µm光束通量约2×1012 光子 秒−1.在0.1°振荡范围和0.01暴露时间下收集数据 每幅图像的秒数。数据采集是在两次束线访问中进行的,在两次访问中采集了63和82个Au衍生数据集,共获得145个Au数据集。首次访问Au数据时,每个晶体收集50个图像(5°)数据,第二次访问时,根据第一次访问的经验,每个晶体采集25个图像(2.5°)数据。此外,在一次访问中收集了83个本地数据集,每个数据集有25张图像。
6.3.2. 数据处理
成功处理了136个单独的金数据集下2/DIALS(刻度盘),带有初始索引,精炼和在原始三斜晶系中进行的整合(P(P)1) 设置。基于单位-细胞参数的聚类(Zeldin等。, 2015)确定了一个包含133个数据集的集群P(P)4/毫米对称,具有中间单位-细胞参数一=b条= 68.47,c(c)=103.88 Å,α=β=γ= 90°. 使用进行分析拨号.cosym和表盘.对称,实施Gildea&Winter(2018)的算法)和无意义(埃文斯,2006年)分别确定劳厄组为422。接头精炼使用拨号.two_theta_refine给出了的整体晶胞参数一=b条= 68.48,c(c)= 103.95 Å,α=β=γ=90°。缩放比例刻度盘刻度表10给出了合并统计数据此外,两次就诊的金数据集是独立处理的。
| 本地 | Au(访视1) | Au(第2次就诊) | 数据集数量 | 75 | 58 | 75 | 晶体参数 | | | | “空间”组 | P(P)43212 | P(P)43212 | P(P)43212 | 单位-细胞参数(Ω) | 一=b条= 68.26, c(c)= 103.49 | 一=b条= 68.45, c(c)= 103.83 | 一=b条= 68.50, c(c)= 104.08 | 数据统计 | | | | 分辨率范围(Ω) | 68.33–1.58 (1.64–1.58) | 68.53–1.44(1.49–1.44) | 68.55–1.69 (1.75–1.69) | 反射次数 | 317754(354) | 528243 (5083) | 518792 (2261) | 多重性 | 10.3 (1.7) | 12.7 (5.8) | 19.7 (3.3) | R(右)合并 | 0.281 (1.694) | 0.559 (3.772) | 1.407 (1.918) | R(右)测量 | 0.295 (2.091) | 0.583 (4.061) | 1.443 (2.137) | R(右)下午。 | 0.085 (1.190) | 0.161(1.371) | 0.314 (0.843) | 完整性(%) | 89.8 (6.3) | 92.0(19.6) | 92.5 (24.7) | 〈我/σ(我)〉 | 9.4 (0.4) | 6.7 (0.3) | 5.5 (0.5) | 科科斯群岛1/2 | 0.983 (0.358) | 0.970 (0.117) | 0.918 (0.043) | | 金(全部) | 金(1-25) | | 数据集数量 | 133 | 133 | | 晶体参数 | | | | “空间”组 | P(P)43212 | P(P)43212 | | 单位-细胞参数(Ω) | 一=b条= 68.45, c(c)= 103.83 | 一=b条= 68.45, c(c)= 103.83 | | 数据统计 | | | | 分辨率范围(Ω) | 68.53–1.49 (1.55–1.49) | 68.54–1.40 (1.45–1.40) | | 反射次数 | 1200900(1329) | 1012029 (2437) | | 多重性 | 31.9(1.6) | 22.3 (2.7) | | R(右)合并 | 0.922 (1.269) | 0.583 (13.525) | | R(右)测量 | 0.937 (1.631) | 0.597 (15.893) | | R(右)下午。 | 0.163 (1.007) | 0.126 (7.640) | | 完整性(%) | 92.1 (20.5) | 92.0 (18.5) | | 〈我/σ(我)〉 | 7.0 (0.3) | 7.6 (0.1) | | 科科斯群岛1/2 | 0.969 (-0.036) | 0.971(-0.029) | | | |
辐射损伤分析通过计算R(右)内容提供商第5.2节中给出的统计数据,假设每个晶体在每个图像中接收到等效剂量(图16). 从图16(一)可以看出,在达到25到30张图像之间的最小值后,R(右)内容提供商开始稳步攀升,这表明在25张图像后剪切数据可能会减少辐射损伤的影响。因此,如上所述重复缩放所有136个数据集,但这次仅使用每个数据集的前25个图像。
| 图16 R(右)内容提供商与蛋白酶K的金衍生物的剂量(图像数)的关系,假设每个图像的剂量在所有晶体中都是恒定的。(一)第一次光束线访问的数据显示,在大约25-30张图像后,有辐射损伤的迹象。(b条)第二次光束线访问的数据显示R(右)内容提供商与剂量(图像编号)的关系。(c(c))两次光束线访问的综合数据。一个情节R(右)内容提供商与剂量的关系(图像编号)表明大约25张图像后可能出现辐射损伤。(d日)组合来自两个波束线访问的数据,仅使用每个数据集的前25幅图像。的情节R(右)内容提供商与剂量(图像编号)相比,没有明显的辐射损伤迹象。 |
类似地,76个本地数据集被成功处理,其中75个数据集在使用单元间参数对单元间参数进行聚类后剩余一=b条= 68.43,c(c)= 103.87 Å,α=β=γ=接合后90°精炼具有拨号.two_theta_refine所有数据集的合并统计数据如表10所示.
7.讨论和实际建议
考虑前面提出的四个问题。
(i) 是否存在这样的情况,即在相同的光子总数下,较大数量的弱观测值等于较小数量的强观测值?收集速度重要吗? (ii)如果记录了非常微弱的数据,它们有用吗? (iii)考虑到合理的多重观测,如何检测辐射损伤,以及我们如何决定在何处削减数据集? (iv)给定来自多个样本的数据,如何最好地组合数据,即组合弱完备集还是强部分集更好?
|
总的来说,如何在没有辐射损伤的情况下使用光子的问题似乎是模棱两可的——总的来说,通过合并统计评估的数据的“质量”主要由散射光子的总数决定,至少在低剂量情况下是这样。当然,辐射损伤很少不存在,因此,如果使用光子计数探测器,高多重性/低剂量策略是一种更为保守的数据收集计划。一般来说,如果有多轴测角仪,并且要记录多次低剂量扫描,扫描之间的方向变化(即中的更改κ或χ)将有助于提高数据的平均准确性。在对样品寿命缺乏任何了解的情况下,记录低通量,说O(运行)(1010)每度光子数,然后传输四倍[在没有辐射损伤的情况下,仅通过统计数据,这将使从单个样本中获取有用数据集的有效策略是:在无限极限下,“有用”数据集之前存储的剂量大约是最终数据集剂量的三分之一。如果使用最后两组(即“有用的”剂量和之前剂量的四分之一)“浪费的”剂量(即样品暴露在X射线下,X射线对最终数据集没有贡献)下降到约十二分之一。如前所示,这些较弱的数据集也有助于确认样本的对称性分子置换或计算配体识别的差异图。在辐射损伤检测方面R(右)d日统计数据(Diederichs,2006)可以有效地确定存在然而,对于这种损伤变得明显的点,我们几乎没有深入了解。这个R(右)内容提供商第5.2节中给出的统计数据克服了这一限制,因此当与高多重性/低剂量数据采集相结合时,以及当采集数据时,它可能是一个有用的工具就地而且,在缩减数据集方面要探索的配置空间是巨大的。最后,将来自多个样本的数据与要使用的最佳数据相结合的问题仍然悬而未决。显然,从有效完整的数据集评估同构比狭义扫描更简单,但数据的形式最终可能取决于数据收集模式即 就地该系列带来了几何限制。然而,值得注意的是,将来自多个同晶样品的数据结合起来几乎肯定会提高最终测量的质量。
因此,实际建议可概括如下。
小心收集!如果无法了解样本的使用寿命,请使用低传输(针对例如。1011 光子 秒−1变成30 µm梁),然后从那里开始建造。应特别注意微焦点光束线。 给出合理的寿命估算,记录大量数据,以便稍后截断数据集,如果可能的话,最好在数据集之间改变样本方向。 在选择无遮板数据采集的曝光时间时,应考虑到任何探测器的死区时间-使用一些探测器,如Dectris EIGER2 X这可以忽略不计,而其他(例如。Dectris PILATUS3公司 X(X) 2M),这可以是总帧曝光时间的24%。 考虑合并来自多个(同晶)样品的数据:如果样品确实代表了正在研究的分子,并且实验可重复,那么合并的数据应该更好。 如果组合来自多个样本的数据,则在收集数据时对其进行分析,以评估组合数据的完整性、同构性和有用性。对于分阶段实验,这应包括确定子结构的尝试。 使用不同的数据处理软件包进行实验,并检查所有可用的自动处理–“最好的”软件可能取决于具体情况,对于样品、实验硬件和数据采集模式的组合,某些程序可能比其他程序工作得更好。
|
遵循这些准则可能会增加数据分析的计算费用和存档的数据存储要求。然而值得注意的是,低剂量像素阵列数据压缩得很好(使用gzip公司数据集的总存储量与图像中的总计数大致成比例),仔细收集数据可能会消除在将来访问时从类似样本中收集数据的需要。当然,这里介绍的方法的主要优点是通过限制辐射损伤的影响来提高X射线衍射实验的成功率,从而尽可能充分地利用样品,并最终最佳地利用光子。
致谢
作者要感谢钻石光源的光束线工作人员提供光束时间和样本来进行这些研究,以及Pierre Aller、James Foadi和Joshua Lawrence提供的就地蛋白酶K数据。特别感谢阿诺·巴塞尔(纽卡斯尔大学)提供CDK2和BRD4样品。最后,我们要感谢评论和编辑在准备这份手稿时提供的有益意见。该分析的计算成本也很高,在Diamond Light Source上维护计算机集群和存储系统是一项非平凡的操作,因此,我们感谢科学计算团队以及以下作者下2,DIALS(刻度盘),中央处理器4和SHELX公司它们在这里被广泛使用。
工具书类
Adams,P.D.、Afonine,P.V.、Bunkóczi,G.、Chen,V.B.、Davis,I.W.、Echols,N.、Headd,J.J.、Hung,L.-W.、Kapral,G.J.、Grosse-Kunstleve,R.W.、McCoy,A.J.、Moriarty,N.W.、Oeffner,R.、Read,R.J.、Richardson,D.C.、Richards,J.S.、Terwilliger,T.C.和Zwart,P.H.(2010)。阿克塔·克里斯特。D类66, 213–221. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Assmann,G.、Brehm,W.和Diederichs,K.(2016)。J.应用。克里斯特。 49, 1021–1028. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Axford,D.、Owen,R.L.、Aishima,J.、Foadi,J.,Morgan,A.W.、Robinson,J.I.、Nettleship,J.E.、Owens,R.J.、Moraes,I.、Fry,E.E.、Grimes,J.M.、Harlos,K.、Kotecha,A.、Ren,J.和Sutton,G.、Walter,T.S.、Stuart,D.I.和Evans,G.(2012)。阿克塔·克里斯特。D类68, 592–600. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Barty,A.、Kirian,R.A.、Maia,F.R.N.C.、Hantke,M.、Yoon,C.H.、White,T.A.和Chapman,H.(2014)。J.应用。克里斯特。 47, 1118–1131. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Diederichs,K.(2006年)。阿克塔·克里斯特。D类62, 96–101. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Evans,P.(2006)。阿克塔·克里斯特。D类62, 72–82. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Evans,P.&McCoy,A.(2008年)。阿克塔·克里斯特。D类64, 1–10. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Evans,P.R.(2011)。阿克塔·克里斯特。D类67, 282–292. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Evans,P.R.和Murshudov,G.N.(2013)。阿克塔·克里斯特。D类69, 1204–1214. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Filippakopoulos,P.、Picaud,S.、Mangos,M.、Keates,T.、Lambert,J.-P.、Barsyte-Lovejoy,D.、Felletar,I.、Volkmer,R.、Müller,S.,Pawson,T.,Gingras,A.-C.、Arrowsmith,C.和Knapp,S..(2012年)。单元格,149, 214–231. 交叉参考 中国科学院 谷歌学者
Gildea,R.J.和Winter,G.(2018年)。阿克塔·克里斯特。D类74, 405–410. 交叉参考 IUCr日志 谷歌学者
Incardona,M.-F.、Bourenkov,G.P.、Levik,K.、Pieritz,R.A.、Popov,A.N.和Svensson,O.(2009年)。J.同步辐射。 16, 872–879. 科学网 交叉参考 IUCr日志 谷歌学者
Leal,R.M.F.、Bourenkov,G.P.、Svensson,O.、Spruce,D.、Guijarro,M.和Popov,A.N.(2011年)。J.同步辐射。 18, 381–386. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Liu,Q.,Zhang,Z.和Hendrickson,W.A.(2011)。阿克塔·克里斯特。D类67, 45–59. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
McCoy,A.J.、Grosse Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Murray,J.W.、Garman,E.F.和Ravelli,R.B.G.(2004)。J.应用。克里斯特。 37, 513–522. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Popov,A.N.和Bourenkov,G.P.(2003)。阿克塔·克里斯特。D类59, 1145–1153. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Schulze-Gahmen,U.,De Bondt,H.L.和Kim,S.-H.(1996)。医学化学杂志。 39, 4540–4546. 中国科学院 公共医学 科学网 谷歌学者
Sheldrick,G.M.(2010年)。阿克塔·克里斯特。D类66, 479–485. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Thorn,A.和Sheldrick,G.M.(2011)。J.应用。克里斯特。 44, 1285–1287. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Waterman,D.G.、Winter,G.、Gildea,R.J.、Parkhurst,J.M.、Brewster,A.S.、Sauter,N.K.和Evans,G.(2016)。阿克塔·克里斯特。D类72, 558–575. 科学网 交叉参考 IUCr日志 谷歌学者
Winter,G.(2009)。大分子晶体学数据约简专家系统的开发曼彻斯特大学博士论文。 谷歌学者
Winter,G.(2010)。J.应用。克里斯特。 43,186–190科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Winter,G.、Waterman,D.G.、Parkhurst,J.M.、Brewster,A.S.、Gildea,R.J.、Gerstel,M.、Fuentes-Montero,L.、Vollmar,M.,Michels-Clark,T.、Young,I.D.、Sauter,N.K.和Evans,G.(2018年)。阿克塔·克里斯特。D类74, 85–97. 科学网 交叉参考 IUCr日志 谷歌学者
Yamamoto,M.、Hirata,K.、Yamashita,K.和Hasegawa,K.,Ueno,G.、Ago,H.和Kumasaka,T.(2017年)。国际癌症研究所,4, 529–539. 交叉参考 中国科学院 IUCr日志 谷歌学者
Zeldin,O.B.、Brewster,A.S.、Hattne,J.、Uervirojnangkoorn,M.、Lyubimov,A.Y.、Zhou,Q.、Zhao,M.,Weis,W.I.、Sauter,N.K.和Brunger,A.T.(2015)。阿克塔·克里斯特。D类71, 352–356. 科学网 交叉参考 IUCr日志 谷歌学者
Zeldin,O.B.、Gerstel,M.和Garman,E.F.(2013年)。J.应用。克里斯特。 46, 1225–1230. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Z.Zhang、N.K.Sauter、H.van den Bedem、G.Snell和A.M.Deacon(2006年)。J.应用。克里斯特。 39, 112–119. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
| 结构 生物学 |
国际标准编号:2059-7983
打开访问