How best to use photons

Winter, G.; Gildea, R.J.; Paterson, N.G.; Beale, J.; Gerstel, M.; Axford, D.; Vollmar, M.; McAuley, K.E.; Owen, R.L.; Flaig, R.; Ashton, A.W.; Hall, D.R.

doi:10.1107/S2059798319003528

研究论文

结构
生物学

国际标准编号：2059-7983

第75卷| 第3部分| 2019年3月| 第242-261页

https://doi.org/10.107/S2059798319003528

打开

访问

如何最好地使用光子

^一英国牛津郡OX11 0DE迪德科特哈维尔科学与创新校园钻石光源
^*通信电子邮件：graeme.winter@diamond.ac.uk

(2018年10月12日收到； 2019年3月13日接受； 2019年3月19日在线)

收集X射线衍射数据的策略随着光束线硬件和探测器的发展而发展。衍射数据收集的传统方法强调从有噪声的积分探测器中收集数据(即胶片、图像板和CCD探测器）。由于快速像素阵列探测器位于稳定的光束线上，限制因素成为样本寿命，问题变成了如何扩展样本可以衍射的光子，即作为较小数量的较强测量或较大数量的较弱数据。探索此参数空间通过就如何在现代波束线上最佳使用该设备，导出了实验和合成数据处理及建议。如果对样本寿命知之甚少，还建议如何以保守的方式获取数据。

关键词：辐射损伤;数据收集;数据处理;数据分析.

类似文章

1.简介

第三代同步辐射源晶体数据的完整性和准确性的主要限制通常是样品寿命，即辐射损伤。对于CCD探测器，这提出了一个特殊的挑战：获取足够强大的数据以克服探测器读出噪声，同时获得完整的数据集，理想情况下达到尽可能高的分辨率。战略计划，如最佳（波波夫和布伦科夫，2003年 )正是在考虑到这一挑战的情况下开发的。然而，随着光子计数探测器的出现，出现了一种可能性，即记录微弱得多的数据，而不是依靠多重测量来提高数据质量，而不是增加单个观测的光子计数。因此，这就提出了一个问题，即如何最好地使用可能在样本寿命内散射的光子。

虽然存在软件，可以根据光束线和样品组成的详细信息估计样品的寿命（Murray等。, 2004 ; 泽尔丁等。, 2013 )以及利用该信息的策略程序，这些程序对初始输入很敏感，需要详细了解光束轮廓、强度和样品组成。这里的目的是达成一个协议，该协议可以在没有这种准备的情况下使用，但仍应获得高质量的数据集，即总体战略，而非具体样本战略。

在制定这样一项战略时，必须回答四个具体问题。

（i）在相同的光子总数下，较大数量的弱观测值是否等于较小数量的强观测值？
（ii）如果记录了非常微弱的数据，它们有用吗？
（三）鉴于观测结果的合理多样性，如何检测辐射损伤的存在，以及“截断”数据集的最佳点在哪里？
（iv）给定来自多个样本的数据，组合弱完整集还是强部分集更好？

将依次考虑这些问题，并使用示例数据集考虑每一点。将广泛使用合并统计数据，读者将被引导到https://strucbio.biologie.uni-konstanz.de/ccp4wiki/index.php/R-因素如果需要，可以进行复习。

2.强度与多样性

任何依赖测量多重性的数据收集策略都必须首先询问，在没有严重辐射损伤的情况下，高多重性低剂量实验的结果是否等于相同数量的光子通过较少的反射从同一晶体散射出来。如果（i）样本寿命众所周知，（ii）数据大小（磁盘存储）是一个因素，（iii）采集时间是一个主要考虑因素，则记录更少、更强的反射（同时仍然是一个完整的反射集）可能是一种有效的策略。如果样品寿命未知，例如，一种新的蛋白质，其样品行为之前未被描述，则有强烈的理由支持保守的数据收集方法，即用低强度光束记录更多数据，这样一旦发现辐射损伤，数据可能会减少验尸后，减少了多重性，但理想情况下不是完整性。

为了解决这个问题，在钻石光源光束线I24上记录了三个立方体胰岛素样品的数据，这些样品的大小与光束大小相当（详见附录D类支持信息）。总剂量(即全光束秒数），并尽可能保持恒定，同时保持较低的数值以减少损坏影响，从而产生相对较弱但可比较的数据集-数据收集参数如表1所示所有数据均以20的暴露时间记录 0.9686时每帧毫秒？，调整总旋转和传输，使总剂量大致相同，约为0.16 MGy，由估算放射性-3D（泽尔丁等。, 2013). 对于每个样本，以随机选择的顺序记录多个具有不同总旋转和传输的数据集，并在最后重复第一次扫描以进行直接比较。在所有情况下，均未检测到明显的辐射损伤迹象，结构的结果精炼具有可比性。

表1
合并来自三个样本（A、B、C）的12个可比较数据集的统计数据，其中散射光子总数保持近似恒定，而传输和总旋转范围发生变化，以评估对总数据质量的影响

对于每个数据集，衍射加权剂量约为0.16 MGy公司。

	A1类	A2类	A3号	A4
数据收集
暴露时间（s）	0.02	0.02	0.02	0.02
Ω宽度（°）	0.15	0.15	0.15	0.15
传输（%）	0.42	0.80	0.22	0.42
图像数量	4800	2400	9600	4800
数据处理
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 77.56	一=b条=c（c）= 77.58	一=b条=c（c）= 77.56	一=b条=c（c）= 77.58
数据统计
分辨率范围（Ω）	38.78–1.60 (1.63–1.60)	54.86–1.60 (1.63–1.60)	54.85–1.60 (1.63–1.60)	38.79–1.60（1.63–1.60）
独特反射次数	10428 (528)	10429 (528)	10429（528）	10431 (529)
多重性	77.0 (76.9)	38.4 (38.4)	154.3 (154.5)	77.0 (76.9)
R（右）_合并	0.191 (3.082)	0.139 (2.225)	0.258 (4.157)	0.201 (3.568)
R（右）_测量	0.192 (3.102)	0.141 (2.255)	0.258 (4.170)	0.202 (3.591)
R（右）_下午。	0.022 (0.353)	0.023 (0.363)	0.021 (0.335)	0.023 (0.409)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	18.9 (1.3)	18.0 (1.9)	19.5 (1.1)	17.3 (1.5)
科科斯群岛_1/2	1.000（0.732）	1.000 (0.782)	1.000 (0.739)	1.000 (0.745)
d日_最小值对于CC_1/2≃ 0.5 (Å)	1.45	1.46	1.46	1.47

	地下一层	地下二层	地下三层	B4类
数据收集
暴露时间（s）	0.02	0.02	0.02	0.02
Ω宽度（°）	0.15	0.15	0.15	0.15
传输（%）	1.52	2.90	0.80	1.52
图像数量	1200	600	2400	1200
数据处理
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3	I2类₁3
单位-细胞参数（Ω）	一=b条=c（c）= 77.47	一=b条=c（c）= 77.47	一=b条=c（c）= 77.50	一=b条=c（c）= 77.51
数据统计
分辨率范围（Ω）	38.74–1.60 (1.63–1.60)	38.74–1.60 (1.63–1.60)	38.75–1.60 (1.63–1.60)	54.81–1.60 (1.63–1.60)
独特反射次数	10379 (526)	10379 (526)	10389 (521)	10390 (521)
多重性	19.4 (19.5)	9.7 (9.8)	38.8 (39.0)	19.4 (19.5)
R（右）_合并	0.142 (1.582)	0.104（1.186）	0.220 (2.663)	0.142 (1.732)
R（右）_测量	0.146 (1.624)	0.110 (1.252)	0.223 (2.698)	0.146 (1.778)
R（右）_下午。	0.033 (0.366)	0.035 (0.399)	0.036 (0.430)	0.033 (0.401)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	12.2 (1.7)	11.2 (1.7)	11.4（1.1）	12.5 (1.6)
科科斯群岛_1/2	0.999 (0.767)	0.999（0.691）	0.999 (0.701)	0.999 (0.748)
d日_最小值对于CC_1/2≃ 0.5 (Å)	1.45	1.47	1.47	1.48

	C1	指挥与控制	C3类	补体第四成份
数据收集
暴露时间（s）	0.02	0.02	0.02	0.02
Ω宽度（°）	0.15	0.15	0.15	0.15
传输（%）	2.90	0.80	1.52	2.90
图像数量	600	2400	1200	600
数据处理
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 77.45	一=b条=c（c）= 77.42	一=b条=c（c）= 77.46	一=b条=c（c）=77.47
数据统计
分辨率范围（Ω）	38.72–1.60 (1.63–1.60)	54.74–1.60 (1.63–1.60)	38.73–1.60 (1.63–1.60)	54.78–1.60 (1.63–1.60)
独特反射次数	10379 (526)	10359 (517)	10389 (521)	10380 (526)
多重性	9.4 (9.5)	38.3 (38.5)	19.1 (19.0)	9.5（9.6）
R（右）_合并	0.098 (2.400)	0.191 (4.833)	0.129（3.081）	0.099 (2.511)
R（右）_测量	0.103 (2.539)	0.194 (4.897)	0.132 (3.166)	0.105 (2.654)
R（右）_下午。	0.033 (0.823)	0.031 (0.787)	0.030 (0.724)	0.034 (0.855)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	12.4 (1.0)	13.6 (0.8)	14.0 (0.9)	12.5 (0.8)
科科斯群岛_1/2	0.999 (0.450)	1.000 (0.474)	1.000 (0.459)	0.999 (0.379)
d日_最小值对于CC_1/2≃ 0.5 (Å)	1.58	1.56	1.56	1.59

所有人都收集了约0.4秒的全光束数据，约1.2×10¹² 光子。而R（右）_合并值会按预期变化R（右）_下午。值相对一致（图1). 在总剂量大约高出8倍的情况下，采集了额外的样本，相应地R（右）_下午。表明影响测量精度的主要因素是总散射光子。因此，没有证据表明记录较高的多重性较弱的测量值对整体数据质量或最终分辨率极限有任何不利影响。特别是CC估计的最终分辨率限制_1/2对于三个晶体上记录的每个数据集，≃0.5是可比较的。重要的是要注意到，这方面存在实际限制，因为数据必须足够强大，以使现场查找和索引保持成功。

图1
合并来自三个样本（A，左；B，中；C，右）的12个可比较数据集的统计数据，其中散射光子总数保持近似恒定，而传输和总旋转范围发生变化，以评估对总数据质量的影响。

3.传动梯

在许多情况下，样品的预期寿命未知先验的然而，通常会有相当众所周知的极值，例如最小和最大典型寿命，可能相差一个或多个数量级。在这种情况下，数据收集的保守策略可能是首先获取极弱的全旋转，即远低于样品的预期寿命剂量，然后以4倍、16倍甚至64倍的剂量进行相同的旋转，原则上使泊松推导值加倍我/σ(我)每个循环。之后的运行极有可能会有实质性的辐射损伤，但如果观察到这一点，则前一次运行应始终提供完整的数据，或在几何约束条件下尽可能完整。早期的低剂量数据也可能适用于分子置换或下部结构确定，其中后续（可能有些损坏）数据可能更适合结构精炼因为可能已经实现了更高的分辨率。相反，较强但受到辐射破坏的数据可能有助于确定初始样本方向，然后可用于处理较弱的数据。

3.1. 配体结合的差异图

用于药物发现的配体结合研究通常用于同步加速器源的数据收集。在这种情况下，大多数原子位置都是众所周知的，因此即使是不精确的数据也足以观察研究样品与现有模型之间的差异，从而显示出任何配体。这可以通过从带有配体的样品中获取一系列数据集，并进行一系列传输，然后计算每个数据集的差异图来证明。

数据是在钻石光源光束线I03处收集的，来自按照标准协议在结晶条件下用酒石酸盐制备的索姆丁晶体。每个数据集记录为3600×0.1°图像，其中40个毫秒曝光时间，传输尽可能接近 $[{{1}\在{16}}]$ , $[{{1}\在{4}}]$ , 1, 4, 16, 64% (即∼1 × 10⁹至～1×10¹² 光子秒⁻¹)总共六次跑步。选择传输步骤以使我/σ(我)由于计数统计（图2和表2).

表2
合并和细化统计用于与来自的传输一起记录的thaumatin数据集 $[{{1}\在{16}}]$ %到64%，处理到1.6的固定分辨率 Å

很明显，这些数据中最弱的数据受到了强度测量精度差的影响，随着剂量的增加，测量精度迅速提高。然而，在1到16%之间有一个收益递减点，辐射损伤在数据质量中成为比统计数据更重要的因素，根据以下判断，优化数据约为1%R（右）_自由的.

传输（%）	$[{{1}\在{16}}]$	$[{{1}\在{4}}]$	1
总光子（× 10⁹)	150	610	2440
总剂量（全束秒数）	0.09	0.36	1.44
剂量（MGy）	0.012	0.047	0.186
晶体参数
“空间”组	P（P）4₁2₁2	P（P）4₁2₁2	P（P）4₁2₁2
晶胞参数（Å）	一=b条= 57.82, c（c）= 150.13	一=b条= 57.82, c（c）= 150.16	一=b条=57.84， c（c）= 150.21
数据统计
分辨率范围（Ω）	53.96–1.60 (1.63–1.60)	50.05–1.60 (1.63–1.60)	150.21–1.60 (1.63–1.60)
独特反射次数	34720 (1677)	34696 (1670)	34726 (1662)
多重性	24.2 (23.8)	24.1 (23.6)	24.0 (23.5)
R（右）_合并	0.411 (4.412)	0.223 (1.840)	0.142 (0.839)
R（右）_测量	0.420 (4.509)	0.228 (1.880)	0.145（0.858）
R（右）_下午。	0.085 (0.921)	0.046 (0.385)	0.029 (0.176)
完整性（%）	100.0 (99.8)	100.0 (99.6)	100.0 (99.1)
〈我/σ(我)〉	5.8 (0.8)	9.9 (1.8)	14.4 (3.4)
科科斯群岛_1/2	0.996 (0.493)	0.998 (0.837)	0.999 (0.954)
R（右）_工作	0.1777	0.1650	0.1605
R（右）_自由的	0.2108	0.1983	0.1916
传输（%）	4	16	64
总光子（× 10¹²)	9.84	39.1	157
总剂量（全束秒数）	5.79	23	92.33
剂量（MGy）	0.748	2.971	11.926
晶体参数
“空间”组	P（P）4₁2₁2	P（P）4₁2₁2	P（P）4₁2₁2
单位-细胞参数（Ω）	一=b条= 57.87, c（c）= 150.27	一=b条= 57.92, c（c）= 150.41	一=b条= 57.97, c（c）= 150.53
数据统计
分辨率范围（Ω）	150.27–1.60（1.63–1.60）	75.20–1.60 (1.63–1.60)	57.97–1.60 (1.63–1.60)
独特反射次数	34761 (1668)	34850 (1674)	34971 (1662)
多重性	23.9 (23.5)	23.8 (23.2)	23.6 (22.6)
R（右）_合并	0.118 (0.495)	0.117 (0.435)	0.181 (1.345)
R（右）_测量	0.121 (0.506)	0.119（0.445）	0.185 (1.377)
R（右）_下午。	0.024 (0.104)	0.024（0.092）	0.038 (0.291)
完整性（%）	100.0 (99.7)	100.0 (100.0)	100.0 (97.4)
〈我/σ(我)〉	16.8 (4.6)	16.6 (3.7)	11.4 (1.6)
科科斯群岛_1/2	0.999 (0.981)	0.999 (0.985)	0.998 (0.912)
R（右）_工作	0.1608	0.1676	0.1815
R（右）_自由的	0.1920	0.2010	0.2208

图2
合并使用来自的传输记录的thaumatin数据集的统计信息 $[{{1}\超过{16}}%]$ 到64%，处理到1.6的固定分辨率 Å. 很明显，这些数据中最弱的数据受到了强度测量精度差的影响，随着剂量的增加，测量精度迅速提高。然而，在1%到16%的回报率之间存在一个递减点，辐射损伤在数据质量中成为比统计数据更重要的因素。

每个数据集都是独立处理的下2/DIALS（刻度盘）（2010年冬季 ; 冬季等。, 2018 )固定分辨率为1.6 奥，和酒窝(https://ccp4.github.io/dimple网站/)使用不含酒石酸盐的thaumatin模型运行以计算差异图。如图3所示尽管来自最弱数据集的合并统计数据很差，但该图显示出明显的差异密度，这是由后续数据集重现的。结构精炼也显示出模型和数据之间的良好一致性，尽管在辐射损伤变得明显之前更强的数据集提供了略微改进的统计数据。

图3
差异贴图（渲染为3σ)从thaumatin数据中导出，显示了酒石酸盐分子的结晶条件，用于传输记录的数据 $[｛｛1｝\超过｛16｝｝]$ 至64%。辐射损伤的迹象在最后一组数据中的电子密度中清晰可见。特别有趣的是地图中的相似性(b条)–(e（电子）)：尽管使用了64倍的传输差异，但从视觉上看，地图上的差异很小。

这清楚地表明，尽管数据非常微弱，并且显示出相当高的合并残差，但平均数据对于配体识别仍然有用，并且只需十分之一的全束秒曝光即可获得。虽然众所周知，索姆丁晶体在光束中很坚固，但在16%和64%的数据集中可以看到清晰的辐射损伤迹象，例如分辨率显著下降。辐射损伤问题将在第5节中重新讨论.

3.2. 对称性测定和分子替换

来自的传统数据收集策略例如。 EDNA公司（因卡多纳等。, 2009 )依赖于获取少量的“屏蔽”图像，从中导出晶格对称性通过索引。然而，在大多数情况下，这将导致正确的晶格，但在某些情况下，单位-细胞参数偶然对称(例如。正交本原晶格一=b条)可能会产生误导性的结果。只有在收集了完整的数据集并分析了综合强度后，才能发现这一点。然而，这样的分析可以用非常低的剂量数据集成功地执行。同样，分子置换主要取决于低分辨率（从∞到～4–2.5 欧）数据（Evans&McCoy，2008）)，因此低剂量扫描产生的强度可能有助于评估分子置换模型。

为了证明这一点，从英国纽卡斯尔大学的Arnaud Basle善意提供的四种细胞周期蛋白依赖性激酶2（CDK2）晶体中收集数据，以及针对上述thaumatin收集的阶梯传输数据。虽然晶体具有正交结构P（P）2₁2₁2₁对称，单位-细胞b条和c（c）轴的长度非常相似，形成了伪四方晶格。强度分析无意义（Evans，2011年 )即使是最薄弱的数据集，也清楚地显示出存在三个双重轴，而没有四个（表3). 因此，即使不使用步进传输方法进行数据采集，收集相对完整的低剂量数据集，而不是在ω用于筛选。所有晶体的所有组的完整处理结果如支持信息中的表S9所示。

表3
CDK2低剂量数据集个体旋转对称操作的点群对称分析得分

可能性	Z轴_{复写的副本}	科科斯群岛	N个	R（右）_测量	分数	对称操作
0.900	8.23	0.82	85649	0.231		身份
0.857	7.17	0.72	84564	0.303	**	两倍我
0.909	7.91	0.79	76905	0.266	***	两倍k个
0.908	7.70	0.77	77473	0.277	***	两倍小时
0.057	0.66	0.07	85634	0.884		两倍
0.058	1.13	0.11	83185	0.851		两倍
0.057	0.83	0.08	152231	0.818		四倍我

处理后，将数据转发给分子置换具有相位器（麦考伊等。, 2007 )使用作为搜索模型PDB条目1小时（Schulze-Gahmen等。, 1996 ). 尽管总体水平较低我/σ(我)最弱数据（～5）分子置换根据判断，在所有情况下都是成功的TFZ公司得分在46.7–59.6之间。因此，即使是非常微弱或低剂量的数据也可能有助于评估晶体对称性和测试分子置换获取最终完整数据集之前的解决方案结构测定和精细化，尽管在这种情况下，即使是最弱的数据集也提供了良好的精细结构。

3.3. 胰岛素参数空间的探索

数据采集自钻石光源光束线I03上的四个立方胰岛素晶体。每个数据集由4800张图像组成，每0.04张图像的角度为0.15° s、波长为1.2 ？，6.25%传输（～3.1 × 10¹¹ 光子秒⁻¹)距离探测器上的内切圆为1.4 Å. 尽管传输率很低，但每个数据集都显示出非常轻微的辐射损伤迹象（见附录D类支持信息）。然而，每个数据集还包含足够的异常信号以允许相位调整通过S-SAD与保质期/保质期（谢尔德里克，2010年 )使它们对于探索参数空间很有用。

对于给定的总剂量，将在强度和多重性之间进行选择，如第2节前面所述然而，在这里，可以通过获取数据子集或应用后记通过数字衰减进行传输调整。

3.3.1. 数字衰减

在单色同步加速器束线中光子通量由吸收主光束的可预测部分的衰减器箔或楔控制（对于给定的源配置）。显然，被吸收的光子可能会导致背景、布拉格衍射或只是通过样品，因此滤波器传输具有近似缩放图像的整体效果。需要注意的是，这不是一个简单的缩放，因为涉及的所有过程都是随机的。

重现这一过程生物信息学，必须注意确保再现随机过程。图4中的方案，源自Waterman第10节等。(2016 )，旨在重现这一点：对于每个图像的每个像素上记录的每个计数，从[0.0，1.0）中提取一个随机值。¹如果该随机值小于所需的传输因子T型，计数保留在数据中，否则将被拒绝。因此，这将保持数据的统计结构，同时等效地降低背景和反射的强度。如图4所示对于一个图像上的一个反射。显然，原始数据中存在的任何辐射损伤将继续存在于衰减数据中。

图4
传输1至4的数字衰减衍射点示例⁻⁵，以及一个显示就地数字衰减数据机制的方案传输系数 T型。用于运行的命令行DIALS（刻度盘）附录中包含的实施D类在支持信息中。

因此，使用这种衰减方案可以更公平地比较传输效果与数据集大小，但不考虑辐射损伤。该方案仅适用于光子计数像素阵列探测器的数据，因为事件必须单独记录并且彼此不相关。

3.3.2. 结果

表4显示了第一个胰岛素晶体的每个传输组合和数据子集的合并统计数据和（图5). 支持信息中包含了所有晶体的数据。表中的每一行原则上对应于可比较的数据集，即尽管旋转范围更广的数据集将包含更多原始数据中存在的少量辐射损伤，但光子总数相同。正如预期的那样R（右）_测量每个传输值的值保持近似恒定，然而，在传输之间，值的变化比仅统计统计值的变化要小。每个处理过的数据集的总总和-积分计数表现出预期的行为，与期望的总数仅相差几个百分点，这应该是预期的，因为晶体的发光体积将随着晶体的旋转而变化。

表4
合并来自第一个胰岛素晶体的数据统计，并应用数字传输

数据由传输因子索引，从1到 $[{{1}\在{8}}]$ 总旋转包括(即数据的所有720°、第一个360°、180°和90°）。每行中的数据集原则上是可比较的，作为旋转和传输系数是常量。

	$[｛｛1｝\超过｛8｝｝]$ − 720°	$[{{1}\在{4}}]$ −360°	$[{{1}\在{2}}]$ − 180°	1 − 90°
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 78.13	一=b条=c（c）= 78.12	一=b条=c（c）= 78.12	一=b条=c（c）= 78.12
数据统计
分辨率范围（Ω）	39.07–1.40 (1.42–1.40)	55.24–1.40 (1.42–1.40)	39.06–1.40 (1.42–1.40)	39.06–1.40 (1.42–1.40)
独特反射次数	15814 (803)	15789 (777)	15788 (777)	15788 (777)
多重性	75.2 (64.1)	37.6 (32.3)	18.8 (16.1)	9.4（8.0）
R（右）_合并	0.095 (2.555)	0.074 (1.672)	0.059 (1.105)	0.049 (0.777)
R（右）_测量	0.096 (2.576)	0.075 (1.699)	0.060 (1.141)	0.052 (0.830)
R（右）_下午。	0.011 (0.321)	0.012 (0.298)	0.014 (0.283)	0.017 (0.290)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	27.7（1.8）	25.7 (2.0)	23.4 (2.1)	20.2（2.1）
科科斯群岛_1/2	1.000 (0.790)	1.000 (0.797)	0.999 (0.818)	0.998 (0.813)
	$[{{1}\在{4}}]$ − 720°	$[{{1}\在{2}}]$ − 360°	1 − 180°
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 78.13	一=b条=c（c）= 78.12	一=b条=c（c）= 78.11
数据统计
分辨率范围（Ω）	39.07–1.40 (1.42–1.40)	55.24–1.40 (1.42–1.40)	55.23–1.40 (1.42–1.40)
独特反射次数	15814 (803)	15789 (777)	15781 (799)
多重性	75.2（64.0）	37.6 (32.3)	18.8 (16.2)
R（右）_合并	0.077 (1.790)	0.061 (1.176)	0.051 (0.777)
R（右）_测量	0.077 (1.804)	0.062 (1.195)	0.052 (0.802)
R（右）_下午。	0.009 (0.225)	0.010 (0.210)	0.012 (0.199)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	35.2 (2.7)	32.2（2.9）	28.7 (3.1)
科科斯群岛_1/2	1.000 (0.876)	1.000（0.880）	0.999 (0.898)
	$[{{1}\在{2}}]$ − 720°	1 − 360°
晶体参数
“空间”组	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 78.13	一=b条=c（c）= 78.12
数据统计
分辨率范围（Ω）	55.25–1.40 (1.42–1.40)	55.24–1.40 (1.42–1.40)
独特反射次数	15815 (803)	15789 (777)
多重性	75.1 (63.8)	37.5 (32.2)
R（右）_合并	0.064 (1.264)	0.053 (0.834)
R（右）_测量	0.064 (1.274)	0.054 (0.847)
R（右）_下午。	0.007 (0.159)	0.009 (0.149)
完整性（%）	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	43.6（4.0）	39.3 (4.2)
科科斯群岛_1/2	1.000 (0.928)	0.999 (0.943)
	1 − 720°
晶体参数
“空间”组	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 78.13
数据统计
分辨率范围（Ω）	39.06–1.40 (1.42–1.40)
独特反射次数	15814 (803)
多重性	75.0 (63.4)
R（右）_合并	0.055 (0.896)
R（右）_测量	0.056（0.903）
R（右）_下午。	0.006 (0.113)
完整性（%）	100.0 (100.0)
〈我/σ(我)〉	53.2 (5.6)
科科斯群岛_1/2	1.000（0.968）

图5
合并来自第一个胰岛素晶体的数据统计，并应用数字传输。数据由传输因子索引，从1到 $[{{1}\在{8}}]$ (即相等的光子通量从3.1开始 × 10¹¹至3.9 × 10¹⁰光子秒⁻¹)总旋转包括(即数据的所有720°、第一个360°、180°和90°）。作为旋转和传输系数是常量。

仅根据合并统计数据，对于给定的总剂量，总体上最佳R（右）_下午。来自更高的多重性较弱的数据，考虑到辐射损伤，这有点违反直觉。外壳R（右）_下午。然而，对于更强、更低的多重性测量，值通常更好。这可能反映出高分辨率数据对辐射损伤的敏感性增加，但也可能反映出弱、，系统效应的高分辨率数据：通过晶体的更多独特路径将增加采样吸收路径的传播，因此传播与吸收建模中保真度不足有关，如大样本（约100 µm）和波长1.2 根据线性衰减系数从放射性-3D共5.83页 × 10⁻⁴ 微米⁻¹虽然这可能会对精度在高分辨率强度中，尚不清楚这是否会影响精确平均强度。因此，在决定高多样性或高剂量策略时，合并统计数据可能无法得出结论。根据支持信息中显示的结果，可以得出所有四种晶体的类似结论。

3.3.3.下部结构决心

对于大多数用户来说，衡量数据质量最有用的指标是数据是否回答了实验问题。对于配体结合研究来说，这是一个相对较低的门槛，因为许多结构信息都是已知的先验的然而，对于实验阶段，几乎所有的结构信息都来自实验数据。用于与分阶段SHELXC/D/E公司，的SHELXE公司如果数据是高分辨率的并且溶剂分数大，则定相步骤特别有效：这两者都适用于溶剂分数约为64%的这些胰岛素数据。因此下部结构在这里，确定将用作数据比较的度量。

对于下部结构确定一个相当标准SHELXC/D公司脚本已运行，有10个 000次试验²使用数据到1.9 ω，求三个二硫化物，并求组合优值的直方图（CFOM=CC_全部的+抄送_虚弱的)用于评估成功。从图6(一)，很明显下部结构对于具有以下特征的数据集，确定通常不成功 $[{{1}\在{8}}]$ 原始光子计数的百分比。手动验证后续阶段SHELXE公司确认整个阶段化过程不成功。对于具有 $[{{1}\在{4}}]$ 原始光子计数的[ $[{{1}\在{4}}-720^{{\circ}}]$ , $[{{1}\在{2}}-360^{{\circ}}]$ 和1−180°；图6(b条)]一些试验为 $〔｛｛1｝\超过｛4｝｝-720 ^｛\circ｝｝〕$ 和 $[{{1}\在{2}}-360^{{\circ}}]$ 套。后续阶段SHELXE公司显示了手和两组可判读地图之间的显著差异，仅进行了1000次试验。对于原始光子数的一半的最后一个比较集[图6(c（c）)]毫无疑问，这两组都给出了很好的解决方案。对直方图的检查表明，有用的解决方案数量大致相同，表明这两组解决方案在以下方面是等效的下部结构决心。

图6
综合绩效指标直方图（CFOM=CC_全部的+立方厘米_虚弱的)来自SHELXD公司用于10 000个试验用于比较数据集 $[｛｛1｝\超过｛8｝｝]$ 原始光子总数(一) $[｛｛1｝\超过｛4｝｝]$ (b条)和 $[｛｛1｝\超过｛2｝｝]$ (c（c）).

3.4. 弱数据的分辨率限制

使用更高总剂量的一个明显优点是，数据通常是显著的[由CC测量_1/2或我/σ(我)]随着随机误差的影响降低，分辨率也会提高。数字衰减可以用来表明，即使非常微弱的数据也可以被合理地解释，并得到正确的对称性，尽管合并统计数据要差得多。360°的数据取自立方胰岛素晶体3，衰减因子为4^负极n个对于的值n个在0–6范围内(即从100%的光子到 $[{{1}\在{4096}}]$ %). 图7使用显示数据集中的总计数和处理的分辨率下2/DIALS（刻度盘）（支持信息中显示了全部统计数据）。所示的趋势是显著的线性，因为分辨率极限在威尔逊图的线性范围内，所以将我/σ(我)的数据将相应增加1/d日²_最小值.该线的坡度取决于整体B类晶体的因素。由此得出的结论是，为了将分辨率极限提高0.5，需要增加大约256个传输 Å. 很明显，这种行为依赖于样本，大多数样本的衍射效果不如胰岛素好，其固有频率更高B类因素。然而，这强调了使用较低传输的价值：一般来说，使用四分之一剂量的分辨率降低幅度要小得多，同时损害也会大大减少。记录来自多个同晶样品的数据可能是提高分辨率的一种实用方法，因为散射光子的总数可以增加，而不会增加对单个样品的损伤。山本也有类似的结果等。(2017 )尽管重点是实现解决方案通过高通量光束线，而这里我们强调了光子数的大量增加，这是实现适度提高分辨率所必需的。

图7
分辨率（源自CC_1/2≃0.5）与数字衰减立方胰岛素数据的总计数，衰减范围为0.0244%至100%。相应的分辨率极限从2.15增加到1.29 Å.

4.收益递减

在没有辐射损伤的情况下，增加观测的多重性将始终提高平均强度测量的精度，所有其他条件都相同。事实上，从一个或多个晶体中收集高多样性数据是一种完善的提高数据质量的机制（见例如。线路接口单元等。, 2011 ). 然而，如果重复测量是通过相同的路径通过晶体并在相同的探测器位置上进行的，则它们可能会遭受相同的系统误差，因此对提高平均测量的准确性几乎没有帮助。此外，在现实中，对于非常高的多重性数据集，辐射损伤很少无法检测到，如下所示。

数据收集自标准嗜热菌蛋白酶测试晶体，透射率极低（0.05%，约2.5 × 10⁹ 光子秒⁻¹)钻石光源光束线I03上。八个数据集，每个数据集包含7200个 × 记录了0.1°的图像，并根据第一组（冬季等。, 2018)并根据由第一个、两个、四个和全部八个数据集组成的数据重新定义（表5). 虽然R（右）_合并是非常高的，对应于非常弱的个别观测，多重性极高（从70到600倍左右）。如图8所示，的R（右）_下午。和CC_1/2每个数据集的值都会提高，大致与测量的多样性一致。然而，有适度辐射损伤的迹象（图9). 的结果精炼没有显示出这种实质性的改进，这表明测量的精度(即散射光子的数量）在最终模型的整体质量中不是一个重要因素（在这种情况下），与第3.1节中的结果相比.

表5
一、二、四和八个双旋转弱嗜热蛋白数据集的合并统计(即720°数据集）在极低传输时

数据集数量	1	2
晶体参数
“空间”组	P（P）6₁22	P（P）6₁22
单位-细胞参数（Ω）	一=b条= 92.36,c（c）= 127.72	一=b条=92.36，c（c）= 127.72
数据统计
分辨率范围（Ω）	67.79–1.55 (1.58–1.55)	67.79–1.55 (1.58–1.55)
独特反射次数	46567 (2200)	46572 (2195)
多重性	74.9 (66.8)	149.7 (133.4)
R（右）_合并	0.214 (4.511)	0.216 (4.520)
R（右）_测量	0.216 (4.545)	0.217 (4.537)
R（右）_下午。	0.024（0.547）	0.017 (0.387)
完整性（%）	98.6 (95.2)	98.6（95.3）
〈我/σ(我)〉	15.3 (0.9)	21.5 (1.3)
科科斯群岛_1/2	1.000 (0.529)	1.000 (0.687)
分辨率范围（Ω）	60.01–1.55 (1.59–1.55)	60.01–1.55 (1.59–1.55)
反射次数
总计	46461 (3276)	46486 (3272)
工作集	44168 (3083)	44195 (3079)
自由设置	2293 (193)	2291 (193)
R（右）_工作	0.142 (0.308)	0.139 (0.254)
R（右）_自由的	0.176 (0.353)	0.172 (0.283)
非H原子数量	2801	2801
R.m.s.与理想值的偏差
键长（Å）	0.008	0.008
粘结角度（°）	1.261	1.234

数据集数量	4	8
晶体参数
“空间”组	P（P）6₁22	P（P）6₁22
单位-细胞参数（Ω）	一=b条= 92.37,c（c）= 127.73	一=b条= 92.38,c（c）= 127.74
数据统计
分辨率范围（Ω）	127.73–1.55 (1.58–1.55)	80.00–1.55 (1.58–1.55)
独特反射次数	46586 (2198)	46612 (2205)
多重性	299.5 (266.5)	598.8 (530.9)
R（右）_合并	0.220（4.665）	0.229 (4.929)
R（右）_测量	0.221 (4.673)	0.229（4.934）
R（右）_下午。	0.013 (0.282)	0.009 (0.211)
完整性（%）	98.6 (95.2)	98.6 (95.3)
〈我/σ(我)〉	30.2 (1.8)	41.2 (2.4)
科科斯群岛_1/2	1.000 (0.812)	1.000 (0.896)
分辨率范围（Ω）	60.01–1.55 (1.59–1.55)	60.01–1.55 (1.59–1.55)
反射次数
总计	46499 (3274)	46520 (3280)
工作集	44205 (3083)	44224 (3089)
自由设置	2294 (191)	2296 (191)
R（右）_工作	0.137 (0.215)	0.138 (0.218)
R（右）_自由的	0.169 (0.246)	0.170 (0.275)
非H原子数量	2801	2801
R.m.s.与理想值的偏差
键长（Å）	0.007	0.008
粘结角度（°）	1.229	1.232

图8
一、二、四和八个双旋转弱嗜热蛋白数据集的合并统计(即720°数据集）。

图9
R（右）_合并与8帧编号相比 × 720°数据集，显示统计数据稳步增加，同时由于照明量的周期性变化。

5.辐射损伤

现代第三代和第四代同步辐射源的辐射损伤是收集数据的最大限制。最明显的是，随着数据集中后期图像的衍射变差，损伤问题将变得明显。到目前为止，显然无法对实验进行纠正，但如果采用了高多重性策略，则可能从数据中恢复某些内容。或者，这一结果可用于深入了解后续数据收集的样本寿命，即所谓的“牺牲晶体”（Leal等。, 2011 ). 无论哪种情况，都应适当分析数据，以估计有用的样本寿命。

5.1. 分析统计

衍射实验中辐射损伤最明显的影响是数据集的分辨率下降。这可以通过肉眼、检查衍射图像或使用数据处理软件中的点定位工具来确定。在大多数设施中，使用某种在线分析进行现场查找例如。 DIALS（刻度盘）（冬季等。, 2018),DISTL公司（张）等。，2006年 )或猎豹（巴蒂等。, 2014 )将提供关于强点数量的反馈，并估计在整个数据集中的点采样的分辨率。虽然这种反馈的解释可能会因衍射各向异性、样品对中不良、单位细胞长度不同以及“新鲜”晶体旋转到光束中的影响而变得复杂，但实验结束时的样品与开始时的样品同晶的想法可以得到验证。图10(一)显示了无明显辐射损伤的情况，第4节中的第一次嗜热菌蛋白酶数据图由所有图像上的斑点得出，并在十个图像间隔内求平均值(即1°). 虽然一定程度的点对点变化是明显的，但总体趋势如预期的那样是平坦的，有适度的周期性变化。值得注意的是，与最终的高多重性缩放和合并数据集相比，这里的分辨率值大大低估了。

图10
每张图像中的强点数量（红色）和估计分辨率（蓝色），针对具有不同程度辐射损伤的多个不同样本。(一)弱嗜热蛋白数据的第一次扫描；尽管有一些细节是由单元尺寸和照明体积的变化引起的，但总体趋势是水平的。(b条)BRD4样品，故意受到辐射损伤，以显示分辨率下降（蓝色）和强点数量下降（红色）。正弦图形是由照明体积的变化引起的。(c（c）)CDK2样品的衍射强度下降不太严重。强斑点曲线的“形状”再次取决于样品的形态和单位细胞。

在辐射损伤更明显的情况下，衍射分辨率可能会急剧下降。图10(b条)显示了从含溴代多巴胺蛋白4（BRD4；Filippakopoulos）晶体中收集的数据等。, 2012 )也由Arnaud Basle提供用于金刚石光源光束线I03的辐射损伤研究。收集数据9600 40 0.9762毫秒曝光？50%光束（～3.8 × 10¹¹ 光子秒⁻¹)每个对应0.15°旋转(即总共四个完整的旋转）。当样品旋转时，衍射明显有一些有趣的特征，但在数据集的前八分之一之后，总体趋势明显下降。在这种情况下，建议尝试从数据开始处恢复完整的数据集，或从传输率低得多的新样本中采集数据。

在某些情况下，可能存在辐射损伤，但不太严重。第三个示例（图10c（c）)作为同一寿命研究的一部分，从CDK2晶体中收集。使用BRD4使用的相同参数收集数据，扫描期间衍射下降幅度较小，这表明下游可以使用大部分或整个数据集。

然而，在集成和扩展之后R（右）_合并与批次图无AIMLESS（图11一)显示出明显的辐射损伤迹象，暴露中间的数据比极值更符合（Evans&Murshudov，2013 ). 这个R（右）_d日图11b条)（Diederichs，2006年 )显示出明显的正梯度，表明存在辐射损伤，但没有表明这种损伤会出现问题。为了应对这一挑战，开发了一种新的统计数据，R（右）_{内容提供商}，它在整个数据集中累积成对差异。

图11
R（右）_合并与批次（顶部）和R（右）_d日（底部），CDK2样品显示出明显的辐射损伤迹象，尽管数据集中没有显示出这一点变得重要。

5.2.R（右）_{内容提供商}

统计数据R（右）_{内容提供商}是从背后的一些原则中衍生出来的R（右）_d日不久前（2009年冬季 )但从未正式出版，尽管有引用（Evans，2011). 推导从原理开始，类似于R（右）_d日，以成对的方式比较测量结果稳定了测量结果多样性方面的统计数据，避免了两者之间的差异R（右）_合并和R（右）_测量然而，其中

$[R{d}={{sum{{bf{h}}}\sum{{|b_{j} -b_{i} |=d}}|i_{{bf{h}}j}-i_{{h}{i}|}\over{sum_{{f{h{}}}\sum_{{|b_{j} -b个_{i} |=d}}{{1}\over{2}}|i_{{\bf{h}}j}+i_{\bf{h}{i}|}}\eqno（1）]$

累积测量强度之间的差异 $[I_{\下划线{h} j个}}]$ 剂量（或图像数）差异基线，R（右）_{内容提供商}累积所有差异高达此剂量或图像编号，如

$[R{{rm-cp}}（d）={{sum_{{lambda}}\sum_{{bf{h}}\sum _{i\neq-j}，i:d_{i}\leq-d，j:d_{j}\leq d}}|i_{bf}h}i}-i{{{bf{h}j}|}{h}}\sum_{i\neqj，i:d_{i}\leqd，j:d_}j}\leq d}}{1}\over{2}}|i_{bf{h}i}+i_{{bf}h}j}|}}.\eqno（2）]$

在制定统计数据时（2000年代末），交错MAD实验风尚合唱团对于结构基因组学来说，其目的是在收集数据后，在多个波长上累积统计数据。对于最简单的数据收集模式，即如本节所讨论的高多重性实验，对统计数据的解释相对简单：一旦你有了一组完整的观察数据，统计数据就会保持不变常数如果您引入数据集中的新测量值与现有测量值一致增加如果他们同意，平均来说，不如迄今为止两两观察所同意的那样好。与所有这种性质的统计数据一样，除非测量到大于360°的数据，否则实际上不可能从照明体积和衍射各向异性的变化中分离出辐射损伤。但是，如果测量的次数足够多，则趋势应该很清楚。

图12显示了为先前使用的嗜热蛋白数据计算的统计信息。从完整性曲线可以清楚地看出，在大约400张图像之后，已经获得了几乎完整的数据集，然而，在旋转180°之后，获得了更多的异常数据。除此之外，没有进行新的测量，但重复的观察结果与到此点的测量结果一致。在最早的阶段，统计数据的抽样非常差，因此不应被视为可靠（这与R（右）_d日在情节的最右端）。在这种情况下，包括额外的测量将提高平均强度的精度，如R（右）_下午。因为新的观察结果来自相同的人群。

图12
R（右）_{内容提供商}第4节中第一次扫描弱嗜热菌蛋白酶数据的完整性与批次

，显示在大约1800张图像后，基本上完整的数据出现，并且没有增加R（右）_{内容提供商}整个数据集。

对于CDK2数据（图13)在大约1200张图像（180°）和R（右）_{内容提供商}在收集到360°左右的数据之前，统计数据保持在大致水平，然后以单调的方式增加。同时包括新的测量可以改进R（右）_下午。这将是一种误导，因为新的测量结果来自可测量但略有不同的人群。的确，如表6所示，包括数据集中的所有测量值并不能给出预期的改进R（右）_下午。，当观测数量增加四倍时，外壳中的温度从0.103降至0.084。在这种情况下，实验者应该选择在下游分析中包含多少数据，这可能又取决于实验目标。作为参考，2400张图像（360°）样本的总剂量估计为3.5 MGy，尽管这是复杂的，因为样品比光束大得多。

表6
将CDK2的统计数据合并为完整数据集（四次完整旋转）的一半和四分之一，最后一次是根据R（右）_{内容提供商}

所有数据均按固定分辨率限制1.3进行处理以启用直接比较。尽管R（右）_下午。在外部分辨率方面，shell在整个数据集中略有改进，与多重性增加四倍所预期的改进相比，还有很长一段路要走。

子集	1-9600	1-4800	1-2400
晶体参数
“空间”组	P（P）2₁2₁2₁	P（P）2₁2₁2₁	P（P）2₁2₁2₁
单位-细胞一(Å)	53.43	53.42	53.40
单位-细胞b条(Å)	72.11	72.08	72.06
单位单元格c（c）(Å)	72.60	72.60	72.59
数据统计
分辨率范围（Ω）	72.11–1.30 (1.32–1.30)	72.60–1.30 (1.32–1.30)	72.59–1.30 (1.32–1.30)
独特反射次数	69717 (3410)	69657 (3412)	69610 (3395)
多重性	49.3 (48.4)	24.6 (24.3)	12.3（12.1）
R（右）_合并	0.056 (0.581)	0.045 (0.416)	0.040（0.347）
R（右）_测量	0.057 (0.588)	0.046 (0.425)	0.041 (0.362)
R（右）_下午。	0.008 (0.084)	0.009 (0.085)	0.012 (0.103)
完整性（%）	100.0 (99.4)	100.0 (99.9)	100.0 (99.4)
〈我/σ(我)〉	39.2 (5.6)	34.3 (5.0)	26.1 (3.9)
科科斯群岛_1/2	1.000 (0.984)	1.000 (0.978)	1.000 (0.965)

图13
R（右）_{内容提供商}CDK2的完整性与批处理相比，显示了大约1200张图像后的完整数据，但R（右）_{内容提供商}2400张图像（360°）后进行统计。

6.多晶体

从多晶体收集数据的传统方法侧重于从高辐射敏感性样品中构建一整套数据。然而，正如文献中所述（参见例如。线路接口单元等。, 2011)组合多个完整的数据集可以帮助进行阶段化实验。出于同样的原因，从多个样本中收集数据还允许在下游分析的基础上选择要采用的数据。最后。其目的是确定对生物分子或复合物的结构洞察力，而不是对特定样品的结构洞察，因此多个样品的平均值应提高平均强度的准确性，因为样品之间的变化例如。平均出晶体形状和取向。

6.1. 样品选择

在光子计数像素阵列探测器问世之前，通常会先筛选一些样本，然后再选择最佳数据收集方案，因为获取完整的数据集可能需要几分钟的时间。使用第三代震源上的像素阵列探测器，可以在一分钟内仔细记录完整的180°或360°，从而提高了从每个样本记录完整数据集的前景，并决定以后如何最好地使用测量结果。最简单的选择是在给定的分辨率限制下选择精度最高的数据集(即总体最低R（右）_下午。)或最强大的高分辨率数据。表7显示了第3.3节中使用的每个原始立方胰岛素数据集的前360°的合并统计数据。虽然它们总体上是相似的，但可能会选择第一个，因为它具有最高的总体我/σ(我)，或第二个或第四个，因为它们具有最高我/σ(我)在外壳中。下部结构用第四种方法测定（图14)事实上，在1000次试验中均未成功，第三次试验的成功总数最多：因此，将数据并行处理有助于做出明智的选择。

表7
合并来自立方胰岛素的四个360°数据集的统计数据。每个数据集都以低传输率进行记录，以减少辐射损伤的影响

固定分辨率限制为1.4 奥数用于并列比较。

晶体（×360°）	1	2	3	4
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 78.12	一=b条=c（c）= 78.07	一=b条=c（c）= 78.11	一=b条=c（c）= 78.04
数据统计
分辨率范围（Ω）	55.24–1.40 (1.42–1.40)	39.03–1.40 (1.42–1.40)	39.05–1.40 (1.42–1.40)	39.02–1.40 (1.42–1.40)
独特反射次数	15789 (777)	15748（767）	15788 (777)	15740 (787)
多重性	37.5 (32.2)	37.6 (32.4)	37.6 (31.9)	37.6 (32.4)
R（右）_合并	0.053 (0.834)	0.055 (0.782)	0.055 (0.855)	0.061 (0.782)
R（右）_测量	0.054 (0.847)	0.056 (0.794)	0.056（0.869）	0.062 (0.794)
R（右）_下午。	0.009 (0.149)	0.009（0.139）	0.009 (0.153)	0.010 (0.139)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	39.3 (4.2)	38.3 (4.7)	37.0 (4.1)	35.6 (4.7)
科科斯群岛_1/2	0.999 (0.943)	1.000 (0.943)	0.999 (0.938)	0.999 (0.939)

图14
综合绩效指标直方图（CFOM=CC_全部的+抄送_虚弱的)来自SHELXD公司用于10 对四种胰岛素晶体中的每一种进行了1000次首次360°试验。尽管有类似的合并统计数据，但晶体3的试验要比晶体4成功得多。

6.2. 组合晶体

一种改进数据集质量的成熟技术（刘等。, 2011)是将来自多个样本的数据进行组合。一个显而易见的问题是，在没有辐射损伤的情况下，从多个样本中收集给定数量的数据是否等同于从单个样本中收集相同的总剂量。当然，在一般情况下，辐射损伤随着剂量的增加而更加严重，但可以仔细收集数据，以将损伤降至最低，并给出可用于检验该假设的数据，表8显示了七个“等效”数据集的合并统计数据：与四个胰岛素晶体中的每一个都成360°，与1+2和3+4成180°，以及与1+2+3+4成90°。在所有情况下R（右）_下午。和R（右）_测量具有可比性，表明组合的数据集是等效的即样品确实是同晶的。显然，如果辐射损伤不严重，并且样品同构，那么组合每组的完整360°是明智的，因为这将改进整个数据集。表9显示了示例1的合并统计信息，然后是1+2、1+2+3和1+2+3+4的组合，以及我/σ(我)和R（右）_下午。至关重要的是下部结构阶段化试验（图15)随着每个样本中数据的添加而改进，这表明组合的数据集比预期的任何单个数据都更有用。

表8
表7中的重复统计数据，样本1+2和3+4的组合半数据集以及1+2+3+4的季度数据集，显示了所有情况下的可比统计数据，分辨率极限为1.4 Å

水晶	1, 360°	2、360°	1 + 2, 180°	1 + 2 + 3 + 4, 90°
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 78.12	一=b条=c（c）= 78.07	一=b条=c（c）= 78.09	一=b条=c（c）= 78.08
数据统计
分辨率范围（Ω）	55.24–1.40 (1.42–1.40)	39.03–1.40 (1.42–1.40)	39.04–1.40 (1.42–1.40)	55.21–1.40 (1.42–1.40)
独特反射次数	15789 (777)	15748 (767)	15780 (799)	15781 (799)
多重性	37.5 (32.2)	37.6 (32.4)	37.5 (31.7)	37.4 (31.4)
R（右）_合并	0.053（0.834）	0.055 (0.782)	0.053 (0.774)	0.056 (0.804)
R（右）_测量	0.054 (0.847)	0.056 (0.794)	0.053 (0.787)	0.056 (0.817)
R（右）_下午。	0.009 (0.149)	0.009 (0.139)	0.009 (0.139)	0.009 (0.145)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	39.3 (4.2)	38.3（4.7）	39.9 (4.5)	37.3 (4.4)
科科斯群岛_1/2	0.999（0.943）	1.000 (0.943)	0.999 (0.945)	0.999 (0.943)
水晶	3, 360°	4, 360°	3 + 4, 180°
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）=78.11	一=b条=c（c）= 78.04	一=b条=c（c）= 78.07
数据统计
分辨率范围（Ω）	39.05–1.40 (1.42–1.40)	39.02–1.40 (1.42–1.40)	55.21–1.40 (1.42–1.40)
独特反射次数	15788 (777)	15740 (787)	15749 (767)
多重性	37.6 (31.9)	37.6 (32.4)	37.5 (32.0)
R（右）_合并	0.055（0.855）	0.061 (0.782)	0.059 (0.801)
R（右）_测量	0.056 (0.869)	0.062 (0.794)	0.059 (0.813)
R（右）_下午。	0.009 (0.153)	0.010 (0.139)	0.010 (0.143)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	37.0 (4.1)	35.6 (4.7)	35.5 (4.6)
科科斯群岛_1/2	0.999 (0.938)	0.999（0.939）	1.000 (0.938)

表9
合并来自360°样本1、1+2、1+2+3和1+2+3+4的累积数据的统计

正如预期的那样，包括来自多个样本的仔细测量数据，可以明显改善我/σ(我)〉和分阶段成功（图15).

晶体（×360°）	1	1 + 2	1 + 2 + 3	1 + 2 + 3 + 4
晶体参数
“空间”组	我2₁3	我2₁3	我2₁3	我2₁3
单位-细胞参数（Ω）	一=b条=c（c）= 78.12	一=b条=c（c）= 78.09	一=b条=c（c）= 78.10	一=b条=c（c）= 78.08
数据统计
分辨率范围（Ω）	55.24–1.40 (1.42–1.40)	55.22–1.40 (1.42–1.40)	39.05–1.40 (1.42–1.40)	55.21–1.40 (1.42–1.40)
独特反射次数	15789 (777)	15781 (799)	15780 (799)	15781 (799)
多重性	37.5 (32.2)	75.1（63.7）	112.6 (95.9)	150.1（126.7）
R（右）_合并	0.053 (0.834)	0.054 (0.811)	0.055 (0.828)	0.058 (0.820)
R（右）_测量	0.054 (0.847)	0.055 (0.817)	0.055 (0.832)	0.058 (0.823)
R（右）_下午。	0.009 (0.149)	0.006 (0.102)	0.005（0.085）	0.005 (0.073)
完整性（%）	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)	100.0 (100.0)
〈我/σ(我)〉	39.3 (4.2)	54.8（6.2）	65.9 (7.5)	72.9 (8.9)
科科斯群岛_1/2	0.999 (0.943)	1.000 (0.969)	0.999 (0.979)	1.000 (0.983)

图15
综合绩效指标直方图（CFOM=CC_全部的+抄送_虚弱的)来自SHELXD公司用于10 1000次试验，用于晶体1、1+2、1+2+3和1+2+3+4的第一个360°。正如合并统计数据所预期的那样，来自两个、三个和四个晶体的数据越来越成功下部结构决心。

6.3.现场室温下的数据采集

本节中迄今为止给出的示例结合了来自多个晶体的数据集，以提高整体数据质量。在某些情况下，根本不可能从任何一个单独的晶体中收集完整的数据集，特别是对于小型弱衍射晶体或室温晶体就地实验（Axford等。, 2012 ). 在这种情况下，为了获得一个完整的数据集，有必要将来自许多晶体的许多严重不完整的数据集合组合起来。每个单独的数据集覆盖的区域有限互易空间由于晶体尺寸小、辐射损伤或实验装置的限制(例如。 就地数据收集）。

处理此类数据集会带来一些额外的挑战，包括对称性确定（Gildea&Winter，2018 )、定标、辐射损伤和非同构分析（阿斯曼等。, 2016 )，以及为下游阶段化和精细化。在本节中，我们使用以下示例描述了一些涉及的挑战就地蛋白酶K重原子衍生物的实验定相。

6.3.1。现场蛋白酶K重原子衍生物的实验阶段化

现场对蛋白酶K微晶的天然和重原子衍生物进行了数据收集。使用Dectris PILATUS3在钻石光源的光束线I24上收集数据 6M探测器，使用9×6 µm光束通量约2×10¹² 光子秒⁻¹.在0.1°振荡范围和0.01暴露时间下收集数据每幅图像的秒数。数据采集是在两次束线访问中进行的，在两次访问中采集了63和82个Au衍生数据集，共获得145个Au数据集。首次访问Au数据时，每个晶体收集50个图像（5°）数据，第二次访问时，根据第一次访问的经验，每个晶体采集25个图像（2.5°）数据。此外，在一次访问中收集了83个本地数据集，每个数据集有25张图像。

6.3.2. 数据处理

成功处理了136个单独的金数据集下2/DIALS（刻度盘），带有初始索引，精炼和在原始三斜晶系中进行的整合(P（P）1）设置。基于单位-细胞参数的聚类（Zeldin等。, 2015 )确定了一个包含133个数据集的集群P（P）4/毫米对称，具有中间单位-细胞参数一=b条= 68.47,c（c）=103.88 Å,α=β=γ= 90°. 使用进行分析拨号.cosym和表盘.对称，实施Gildea&Winter（2018）的算法)和无意义（埃文斯，2006年 )分别确定劳厄组为422。接头精炼使用拨号.two_theta_refine给出了的整体晶胞参数一=b条= 68.48,c（c）= 103.95 Å,α=β=γ=90°。缩放比例刻度盘刻度表10给出了合并统计数据此外，两次就诊的金数据集是独立处理的。

表10
融合蛋白酶K的原生和衍生数据集的统计数据。

报告在两次波束线访问期间分别收集的Au-derivative数据集的统计数据，合并所有数据，并仅使用每个数据集的前25幅图像。

	本地	Au（访视1）	Au（第2次就诊）
数据集数量	75	58	75
晶体参数
“空间”组	P（P）4₃2₁2	P（P）4₃2₁2	P（P）4₃2₁2
单位-细胞参数（Ω）	一=b条= 68.26, c（c）= 103.49	一=b条= 68.45, c（c）= 103.83	一=b条= 68.50, c（c）= 104.08
数据统计
分辨率范围（Ω）	68.33–1.58 (1.64–1.58)	68.53–1.44（1.49–1.44）	68.55–1.69 (1.75–1.69)
反射次数	317754（354）	528243 (5083)	518792 (2261)
多重性	10.3 (1.7)	12.7 (5.8)	19.7 (3.3)
R（右）_合并	0.281 (1.694)	0.559 (3.772)	1.407 (1.918)
R（右）_测量	0.295 (2.091)	0.583 (4.061)	1.443 (2.137)
R（右）_下午。	0.085 (1.190)	0.161（1.371）	0.314 (0.843)
完整性（%）	89.8 (6.3)	92.0（19.6）	92.5 (24.7)
〈我/σ(我)〉	9.4 (0.4)	6.7 (0.3)	5.5 (0.5)
科科斯群岛_1/2	0.983 (0.358)	0.970 (0.117)	0.918 (0.043)
	金（全部）	金（1-25）
数据集数量	133	133
晶体参数
“空间”组	P（P）4₃2₁2	P（P）4₃2₁2
单位-细胞参数（Ω）	一=b条= 68.45, c（c）= 103.83	一=b条= 68.45, c（c）= 103.83
数据统计
分辨率范围（Ω）	68.53–1.49 (1.55–1.49)	68.54–1.40 (1.45–1.40)
反射次数	1200900（1329）	1012029 (2437)
多重性	31.9（1.6）	22.3 (2.7)
R（右）_合并	0.922 (1.269)	0.583 (13.525)
R（右）_测量	0.937 (1.631)	0.597 (15.893)
R（右）_下午。	0.163 (1.007)	0.126 (7.640)
完整性（%）	92.1 (20.5)	92.0 (18.5)
〈我/σ(我)〉	7.0 (0.3)	7.6 (0.1)
科科斯群岛_1/2	0.969 (-0.036)	0.971（-0.029）

辐射损伤分析通过计算R（右）_{内容提供商}第5.2节中给出的统计数据，假设每个晶体在每个图像中接收到等效剂量（图16). 从图16(一)可以看出，在达到25到30张图像之间的最小值后，R（右）_{内容提供商}开始稳步攀升，这表明在25张图像后剪切数据可能会减少辐射损伤的影响。因此，如上所述重复缩放所有136个数据集，但这次仅使用每个数据集的前25个图像。

图16
R（右）_{内容提供商}与蛋白酶K的金衍生物的剂量（图像数）的关系，假设每个图像的剂量在所有晶体中都是恒定的。(一)第一次光束线访问的数据显示，在大约25-30张图像后，有辐射损伤的迹象。(b条)第二次光束线访问的数据显示R（右）_{内容提供商}与剂量（图像编号）的关系。(c（c）)两次光束线访问的综合数据。一个情节R（右）_{内容提供商}与剂量的关系（图像编号）表明大约25张图像后可能出现辐射损伤。(d日)组合来自两个波束线访问的数据，仅使用每个数据集的前25幅图像。的情节R（右）_{内容提供商}与剂量（图像编号）相比，没有明显的辐射损伤迹象。

类似地，76个本地数据集被成功处理，其中75个数据集在使用单元间参数对单元间参数进行聚类后剩余一=b条= 68.43,c（c）= 103.87 Å,α=β=γ=接合后90°精炼具有拨号.two_theta_refine所有数据集的合并统计数据如表10所示.

6.3.3. 阶段化

下部结构单次测定同晶置换具有反常散射（SIRAS）是可能的SHELXD公司（图17一). 重原子导数数据集是通过两次单独的光束线访问收集的。为了测试多重性对分阶段成功的影响，下部结构分别对单次就诊的数据集和两次就诊的组合数据进行测定。图17(b条)显示了密度修改后的地图对比度与循环数SHELXE公司。鉴于上述一些数据集中存在辐射损伤的可能性，也尝试仅使用每个数据集前25幅图像中的数据进行定相。仅使用前25张图像，两个重原子的相位都得到了改善下部结构和密度修正，根据搁架综合绩效指标（CFOM=CC_全部的+抄送_虚弱的)和SHELXE公司映射对比度。由此产生的密度改性相和重原子相与SHELXE公司图17中的聚丙氨酸轨迹(e（电子）).

图17
蛋白酶K金衍生物的分阶段实验结果(一)综合绩效指标直方图（CFOM=CC_全部的+抄送_虚弱的)来自SIRAS下部结构用确定SHELXD公司用于10 000例试验，数据来自两次单独访问和合并访问。(b条)使用SHELXE公司实线表示最好的手，虚线表示倒手。(c（c）)综合绩效指标直方图（CFOM=CC_全部的+抄送_虚弱的)来自SAD下部结构用确定SHELXD公司用于10 000例试验，数据来自两次单独访问和合并访问。(d日)异常峰高计算公式阳极. (e（电子）)密度改性（蓝色）和重原子下部结构（橙色）相位，轮廓为3σ和poly-Ala跟踪模型输出SHELXE公司之后下部结构SIRAS解决方案。

下部结构单波长反常衍射法（SAD）的测定不成功，无论是单独使用访视数据，还是将所有数据结合使用。然而，当仅使用每个数据集的前25个图像中的数据时下部结构获得溶液（图17c（c）). 不幸的是，相的质量不足以进行随后的密度调整SHELXE公司尽管如此，这表明仔细选择数据，尤其是避免包含辐射损伤数据，对于确定实验阶段的成功至关重要。的正确性下部结构通过与SIRAS的比较验证了SAD的阶段化下部结构使用程序菲尼克斯埃玛（亚当斯等。, 2010 ).

异常差异图的计算阳极（Thorn&Sheldrick，2011年 )，使用通过运行酒窝在每个数据集上。对于所有金数据集，发现了两个显著的异常峰。与仅使用单个光束线访问的数据相比，组合使用所有数据集会产生更强的异常峰值。然而，当仅使用每个数据集中的前25幅图像时，获得了最强的异常峰值（图17d日).

虽然很难证明所有样本都以相同的速率受到辐射影响的假设是合理的，但在100多个样本的人群中，个体差异的影响可能不大。因此，从总体上看人口既合理又实用，因为整个搜索空间由大约10个组成¹⁴⁵排列。值得注意的是，大约90%的完整性是一些就地数据集，因为样品相对于结晶板具有优先取向。

7.讨论和实际建议

考虑前面提出的四个问题。

（i）是否存在这样的情况，即在相同的光子总数下，较大数量的弱观测值等于较小数量的强观测值？收集速度重要吗？
（ii）如果记录了非常微弱的数据，它们有用吗？
（iii）考虑到合理的多重观测，如何检测辐射损伤，以及我们如何决定在何处削减数据集？
（iv）给定来自多个样本的数据，如何最好地组合数据，即组合弱完备集还是强部分集更好？

总的来说，如何在没有辐射损伤的情况下使用光子的问题似乎是模棱两可的——总的来说，通过合并统计评估的数据的“质量”主要由散射光子的总数决定，至少在低剂量情况下是这样。当然，辐射损伤很少不存在，因此，如果使用光子计数探测器，高多重性/低剂量策略是一种更为保守的数据收集计划。一般来说，如果有多轴测角仪，并且要记录多次低剂量扫描，扫描之间的方向变化(即中的更改κ或χ)将有助于提高数据的平均准确性。在对样品寿命缺乏任何了解的情况下，记录低通量，说O（运行）(10¹⁰)每度光子数，然后传输四倍[在没有辐射损伤的情况下，仅通过统计数据，这将使 $[{{I}/{\西格玛（I）}}]$ 从单个样本中获取有用数据集的有效策略是：在无限极限下，“有用”数据集之前存储的剂量大约是最终数据集剂量的三分之一。如果使用最后两组(即“有用的”剂量和之前剂量的四分之一）“浪费的”剂量(即样品暴露在X射线下，X射线对最终数据集没有贡献）下降到约十二分之一。如前所示，这些较弱的数据集也有助于确认样本的对称性分子置换或计算配体识别的差异图。在辐射损伤检测方面R（右）_d日统计数据（Diederichs，2006)可以有效地确定存在然而，对于这种损伤变得明显的点，我们几乎没有深入了解。这个R（右）_{内容提供商}第5.2节中给出的统计数据克服了这一限制，因此当与高多重性/低剂量数据采集相结合时，以及当采集数据时，它可能是一个有用的工具就地而且，在缩减数据集方面要探索的配置空间是巨大的。最后，将来自多个样本的数据与要使用的最佳数据相结合的问题仍然悬而未决。显然，从有效完整的数据集评估同构比狭义扫描更简单，但数据的形式最终可能取决于数据收集模式即就地该系列带来了几何限制。然而，值得注意的是，将来自多个同晶样品的数据结合起来几乎肯定会提高最终测量的质量。

因此，实际建议可概括如下。

小心收集！如果无法了解样本的使用寿命，请使用低传输（针对例如。10¹¹ 光子秒⁻¹变成30 µm梁），然后从那里开始建造。应特别注意微焦点光束线。
给出合理的寿命估算，记录大量数据，以便稍后截断数据集，如果可能的话，最好在数据集之间改变样本方向。
在选择无遮板数据采集的曝光时间时，应考虑到任何探测器的死区时间-使用一些探测器，如Dectris EIGER2 X这可以忽略不计，而其他(例如。Dectris PILATUS3公司 X（X） 2M），这可以是总帧曝光时间的24%。
考虑合并来自多个（同晶）样品的数据：如果样品确实代表了正在研究的分子，并且实验可重复，那么合并的数据应该更好。
如果组合来自多个样本的数据，则在收集数据时对其进行分析，以评估组合数据的完整性、同构性和有用性。对于分阶段实验，这应包括确定子结构的尝试。
使用不同的数据处理软件包进行实验，并检查所有可用的自动处理–“最好的”软件可能取决于具体情况，对于样品、实验硬件和数据采集模式的组合，某些程序可能比其他程序工作得更好。

遵循这些准则可能会增加数据分析的计算费用和存档的数据存储要求。然而值得注意的是，低剂量像素阵列数据压缩得很好（使用gzip公司数据集的总存储量与图像中的总计数大致成比例），仔细收集数据可能会消除在将来访问时从类似样本中收集数据的需要。当然，这里介绍的方法的主要优点是通过限制辐射损伤的影响来提高X射线衍射实验的成功率，从而尽可能充分地利用样品，并最终最佳地利用光子。

支持信息

支持信息文件。内政部：https://doi.org/10.107/S2059798319003528/ba5301sup1.pdf

脚注

¹这是大于或等于0但严格小于1的实数。

²使用的试验数量是为了提高直方图的分辨率，而不是增加成功的可能性。

致谢

作者要感谢钻石光源的光束线工作人员提供光束时间和样本来进行这些研究，以及Pierre Aller、James Foadi和Joshua Lawrence提供的就地蛋白酶K数据。特别感谢阿诺·巴塞尔（纽卡斯尔大学）提供CDK2和BRD4样品。最后，我们要感谢评论和编辑在准备这份手稿时提供的有益意见。该分析的计算成本也很高，在Diamond Light Source上维护计算机集群和存储系统是一项非平凡的操作，因此，我们感谢科学计算团队以及以下作者下2,DIALS（刻度盘）,中央处理器4和SHELX公司它们在这里被广泛使用。

工具书类

Adams，P.D.、Afonine，P.V.、Bunkóczi，G.、Chen，V.B.、Davis，I.W.、Echols，N.、Headd，J.J.、Hung，L.-W.、Kapral，G.J.、Grosse-Kunstleve，R.W.、McCoy，A.J.、Moriarty，N.W.、Oeffner，R.、Read，R.J.、Richardson，D.C.、Richards，J.S.、Terwilliger，T.C.和Zwart，P.H.（2010）。阿克塔·克里斯特。D类66, 213–221. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Assmann，G.、Brehm，W.和Diederichs，K.（2016）。J.应用。克里斯特。 49, 1021–1028. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Axford，D.、Owen，R.L.、Aishima，J.、Foadi，J.，Morgan，A.W.、Robinson，J.I.、Nettleship，J.E.、Owens，R.J.、Moraes，I.、Fry，E.E.、Grimes，J.M.、Harlos，K.、Kotecha，A.、Ren，J.和Sutton，G.、Walter，T.S.、Stuart，D.I.和Evans，G.（2012）。阿克塔·克里斯特。D类68, 592–600. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Barty，A.、Kirian，R.A.、Maia，F.R.N.C.、Hantke，M.、Yoon，C.H.、White，T.A.和Chapman，H.（2014）。J.应用。克里斯特。 47, 1118–1131. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Diederichs，K.（2006年）。阿克塔·克里斯特。D类62, 96–101. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Evans，P.（2006）。阿克塔·克里斯特。D类62, 72–82. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Evans，P.&McCoy，A.（2008年）。阿克塔·克里斯特。D类64, 1–10. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Evans，P.R.（2011）。阿克塔·克里斯特。D类67, 282–292. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Evans，P.R.和Murshudov，G.N.（2013）。阿克塔·克里斯特。D类69, 1204–1214. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Filippakopoulos，P.、Picaud，S.、Mangos，M.、Keates，T.、Lambert，J.-P.、Barsyte-Lovejoy，D.、Felletar，I.、Volkmer，R.、Müller，S.，Pawson，T.，Gingras，A.-C.、Arrowsmith，C.和Knapp，S..（2012年）。单元格,149, 214–231. 交叉参考中国科学院谷歌学者
 Gildea，R.J.和Winter，G.（2018年）。阿克塔·克里斯特。D类74, 405–410. 交叉参考 IUCr日志谷歌学者
 Incardona，M.-F.、Bourenkov，G.P.、Levik，K.、Pieritz，R.A.、Popov，A.N.和Svensson，O.（2009年）。J.同步辐射。 16, 872–879. 科学网交叉参考 IUCr日志谷歌学者
 Leal，R.M.F.、Bourenkov，G.P.、Svensson，O.、Spruce，D.、Guijarro，M.和Popov，A.N.（2011年）。J.同步辐射。 18, 381–386. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Liu，Q.，Zhang，Z.和Hendrickson，W.A.（2011）。阿克塔·克里斯特。D类67, 45–59. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 McCoy，A.J.、Grosse Kunstleve，R.W.、Adams，P.D.、Winn，M.D.、Storoni，L.C.和Read，R.J.（2007年）。J.应用。克里斯特。 40, 658–674. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Murray，J.W.、Garman，E.F.和Ravelli，R.B.G.（2004）。J.应用。克里斯特。 37, 513–522. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Popov，A.N.和Bourenkov，G.P.（2003）。阿克塔·克里斯特。D类59, 1145–1153. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Schulze-Gahmen，U.，De Bondt，H.L.和Kim，S.-H.（1996）。医学化学杂志。 39, 4540–4546. 中国科学院公共医学科学网谷歌学者
 Sheldrick，G.M.（2010年）。阿克塔·克里斯特。D类66, 479–485. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Thorn，A.和Sheldrick，G.M.（2011）。J.应用。克里斯特。 44, 1285–1287. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Waterman，D.G.、Winter，G.、Gildea，R.J.、Parkhurst，J.M.、Brewster，A.S.、Sauter，N.K.和Evans，G.（2016）。阿克塔·克里斯特。D类72, 558–575. 科学网交叉参考 IUCr日志谷歌学者
 Winter，G.（2009）。大分子晶体学数据约简专家系统的开发曼彻斯特大学博士论文。谷歌学者
 Winter，G.（2010）。J.应用。克里斯特。 43，186–190科学网交叉参考中国科学院 IUCr日志谷歌学者
 Winter，G.、Waterman，D.G.、Parkhurst，J.M.、Brewster，A.S.、Gildea，R.J.、Gerstel，M.、Fuentes-Montero，L.、Vollmar，M.，Michels-Clark，T.、Young，I.D.、Sauter，N.K.和Evans，G.（2018年）。阿克塔·克里斯特。D类74, 85–97. 科学网交叉参考 IUCr日志谷歌学者
 Yamamoto，M.、Hirata，K.、Yamashita，K.和Hasegawa，K.，Ueno，G.、Ago，H.和Kumasaka，T.（2017年）。国际癌症研究所,4, 529–539. 交叉参考中国科学院 IUCr日志谷歌学者
 Zeldin，O.B.、Brewster，A.S.、Hattne，J.、Uervirojnangkoorn，M.、Lyubimov，A.Y.、Zhou，Q.、Zhao，M.，Weis，W.I.、Sauter，N.K.和Brunger，A.T.（2015）。阿克塔·克里斯特。D类71, 352–356. 科学网交叉参考 IUCr日志谷歌学者
 Zeldin，O.B.、Gerstel，M.和Garman，E.F.（2013年）。J.应用。克里斯特。 46, 1225–1230. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Z.Zhang、N.K.Sauter、H.van den Bedem、G.Snell和A.M.Deacon（2006年）。J.应用。克里斯特。 39, 112–119. 科学网交叉参考中国科学院 IUCr日志谷歌学者

这是一篇根据知识共享署名（CC-BY）许可证它允许在任何介质中不受限制地使用、分发和复制，前提是引用了原始作者和来源。