SPINE workshop on automated X-ray analysis: a progress report

Bahar, M.; Ballard, C.; Cohen, S.X.; Cowtan, K.D.; Dodson, E.J.; Emsley, P.; Esnouf, R.M.; Keegan, R.; Lamzin, V.; Langer, G.; Levdikov, V.; Long, F.; Meier, C.; Muller, A.; Murshudov, G.N.; Perrakis, A.; Siebold, C.; Stein, N.; Turkenburg, M.G.W.; Vagin, A.A.; Winn, M.; Winter, G.; Wilson, K.S.

doi:10.1107/S0907444906032197

研究论文\（第5em段）

生物学的
结晶学

国际标准编号：1399-0047

第62卷| 第10部分| 2006年10月| 第1170-1183页

doi:10.1107/S0907444906032197

脊柱自动X射线分析研讨会：进展报告

^一英国牛津OX3 7BN罗斯福大道威康信托人类遗传学中心结构生物学和牛津蛋白质生产设施部，^b条CCLRC，Daresbury实验室，英国沃灵顿WA4 4AD，^c（c）荷兰癌症研究所分子致癌部，荷兰阿姆斯特丹Plesmanlaan 121，1066 CX，^天约克大学化学系约克结构生物学实验室，英国约克YO10 5YW，Heslington，和^{e（电子）}德国汉堡，22603，Notkestrasse 85，DESY，25A号楼，EMBL Hamburg
^*通信电子邮件：keith@ysbl.york.ac.uk

(收到日期：2006年2月22日； 2006年8月14日接受)

欧洲结构蛋白质组学（SPINE）联盟包含一个工作包，用于解决大分子的自动X射线分析。该工作包的目的是提高三维结构的吞吐量，同时保持传统分析的高质量。SPINE能够将软件开发人员与合作实验室的用户聚集在一起。本文描述了该联盟组织的一次研讨会的结果，该研讨会针对一组细菌目标评估成员实验室开发的软件。主要重点放在自动化最先进的分子置换套件上。数据处理和分析、实验阶段的使用和模型构建也得到了解决，尽管处于较低的水平。

关键词：自动化;分子置换;数据质量;建模工具.

1.简介

2002年启动的欧洲结构蛋白质组学（SPINE）项目旨在为确定生物医学相关蛋白质的三维结构所需的整套过程引入新技术和方法。据设想，这些结构中的大多数将使用X射线晶体学来确定，该计划的一个独特部分专门用于这种方法。该工作包的明确目标是

解决大分子自动X射线分析的问题。为了实现与基因组测序项目相一致的生产量，必须简化大分子晶体学（MX）程序，欧洲许多实验室的工作，包括几个SPINE合作伙伴，正在直接解决这一问题。脚本将链接各个阶段，并将在关键领域制定更好的算法，如分子置换（MR）、实验阶段化、原子模型的自动生成、分子图形和质量评估。该软件将确保高质量伴随着高吞吐量。

（摘自脊柱合同QLG2-CT-2002-00988）。

在SPINE项目中，大部分资源用于结构生物学的主要瓶颈，即蛋白质克隆、过度表达和结晶。因此，SPINE只有有限的资源来为高通量晶体计算的发展做出贡献，但通过将主要用户和代码提供者聚集在一起，它能够很好地获得访问权限并为开发提供一些输入。这个问题正在全世界范围内得到解决。显然，联系和协调对于优化开发人员的输出至关重要，必须保持这种联系。在项目早期，SPINE举办了两次研讨会，讨论自动化问题，项目内部和相关团体的人员都参加了研讨会。本报告总结了第三次研讨会上的活动，在该研讨会上，针对从牛津和约克的SPINE合作实验室选择的目标测试了当前方法。本报告没有详细描述正在开发的软件或单个目标的结构，因为这些将在别处发布。

SPINE项目试图遵循传统的CCP4（协作计算项目，1994年第4期 )将来自多个来源（例如ARP协议/弯曲（佩拉基斯等。, 1999 )和SHELX公司（Schneider&Sheldrick，2002年 )]形成一套模块化工具。这需要就交换协议达成协议，这可能很难建立，但将产生更健壮和灵活的软件，可以在未来几年内轻松升级。研讨会的目的是评估SPINE团队及其同事在这方面的进展。

2.目标数据集

从一组细菌（主要是炭疽杆菌和空肠弯曲菌; 阿尔扎里等。, 2006 )牛津和约克正在研究的目标（表1). 合并的结构因子和氨基酸序列数据是大多数活性的基础；然而，对于目标子集，可以使用原始图像来评估自动处理协议。在该事件中，这项工作基本上仅限于一个问题数据集（OPPF1314）。

表1
研讨会期间使用的目标

N个_雷斯是每个分子的残基数。N个_摩尔是不对称单元中的预期分子数。MR，分子置换。SAD，单波长反常色散。MAD，多波长反常色散。

身份证	N个_雷斯	N个_摩尔	“空间”组	分辨率（Ω）	方法	PDB代码
约克
BA0288型	161	8	C类2	1.80	先生	1亿像素
BA0296型	346	2	对4₁	2.31	先生
BA0592型	377	6	C类2	2.84	先生
BA1071型	311	1	对2₁2₁2₁	2.60	先生
BA1483型	235	8	对2₁2₁2₁	2.24	先生	1个e3
BA1563型	282	2	对2₁	2.20	先生
BA3935_1型	292	4	对2₁2₁2₁	1.94	先生
BA3935_2型	292	4	对2₁2₁2₁	2.23	先生
BA4499型	203	2	对2₁	1.80	先生
BA4508型	298	1	C类2	2.57	先生
BA5696型	208	2	对2₁	1.80	先生
BA5705型	327	2	对4	1.80	先生
英国标准应用程序	543	1	对2₁2₁2₁	2.28	先生	1个月
BSYloQ公司	298	1	对4_三2₁2	2.51	先生	1t9小时
CJ0982型	292	2	C类2	2	先生
卵石3	230	2	对2₁2₁2₁	1.65	先生
SiaP公司	306	2	对2₁2₁2	2.60	摩洛哥迪拉姆
牛津
OPPF651型	294	2	对2	2.40	先生
OPPF1294型	193	2	对4₁2₁2	2.70	摩洛哥迪拉姆
OPPF1311型	255	4	对6₁22	2.72	SAD公司
OPPF1314型	200	2	对1	1.50	先生
OPPF2088型	139	1	对三₁21	2.20	摩洛哥迪拉姆
OPPF2153公司	222	4	对2₁	2.70	摩洛哥迪拉姆
OPPF2245型	229	2	对2₁	3.30	先生

基本的选择参数是靶蛋白应小于50kDa，不属于复合物，不含信号肽类并且没有跨膜区域。大多数是MR的候选对象，是后续应用的直接目标ARP协议/弯曲电子密度自动判读包。

在研讨会期间，对两个结构进行了更详细的检查，以查明结构自动化管道中的问题。这些是OPPF1314（牛津）和SiaP（约克）。

2.1. OPPF1314型

OPPF1314数据用于测试数据处理和分析管道以及自动建模程序。OPPF1314是一种5-甲酰四氢叶酸环连接酶（BA4489），分子量为22.3 kDa（292个残基）。该蛋白催化5-甲酰基四氢叶酸盐（亚叶酸；Huennekens等。, 1984 ).

The full details of the结构测定将在别处描述（梅耶等。, 2006 ). 简单地说，OPPF1314与底物ATP和5-甲酰四氢叶酸共结晶得到晶体，并在ESRF的ID14EH1上测量了一个属于空间组对1在晶体学中包含两个分子非对称单元。数据是在高分辨率通道（其中许多低分辨率反射超载）中采集的，然后是低分辨率通道。衍射显示出高度的镶嵌性。数据缩减DENZO公司/电子秤组件（Otwinowski和Minor，1997年 )在研讨会之前，给出了一个明显合理的合并数据集，但事实证明，通过MR使用之前在不同的空间组或相关结构（PDB代码1码)序列同源性为47%。

2.2. SiaP公司

SiaP蛋白MAD阶段（表1)在车间中使用，通过实验阶段化对kick-start自动建模进行测试。PDB中的一个结构，1千7千，具有一些（25%）序列一致性，但仅超过分子的三分之一。在ESRF的英国MAD光束线BM14上收集了三种波长（0.97907、0.90778和0.97920 Au）的SeMet标记蛋白的MAD数据集。SeMet晶体衍射至2.6º分辨率，并具有高合并度R（右）在外部范围和属于空间组对2₁2₁2，晶体中有两个分子非对称单元。虽然2.9至2.6º之间的数据分辨率特别弱[我/σ(我)=1.5在外壳中]，证明它们对结构解决方案至关重要。

预计有16个硒原子非对称单元和SHELXC公司和SHELXD公司（Schneider和Sheldrick，2002年)发现了14个站点。相位计算采用SHELXE公司而是使用REFMAC公司-ARP协议/弯曲这些阶段都失败了：程序构建了许多短断连接肽类没有侧链停靠。同样的重原子溶液在RESOLVE（解决）（特威利格，2003年 )，在~44个链中构建了468个残基，但只有75个侧链对接。该模型依次被输入REFMAC公司-ARP协议/弯曲使用“默认”选项，但该过程分解了模型，而没有添加其他功能。通过使用RESOLVE（解决）期间施加相位约束的模型REFMAC公司 精炼循环。为此，参考相位集基于原始相位SHELXE公司硒的相下部结构，通过溶剂压平法进行改进，以给出具有相关优值的单一“最佳”相估计。这给出了更好的结果R（右）汇聚在30.4%左右(R（右）_自由的未使用），用于在27条链和65条侧链中有260个主链残基的模型。这再次反映了RESOLVE（解决）模型。所有这些工作都是在研讨会之前进行的。

3.涉及的软件套件和开发人员

广泛使用中央对手方清算所4个模块和实用程序。这个XIA-DPA公司该系统用于X射线图像的处理及其后续分析和质量评估。XIA-DPA公司为软件包提供包装器，包括标签（绍特等。2004年 ),MOSFLM公司（莱斯利，1999年 ),XDS公司和XSCALE公司（卡布施，1993年 ),SCALA公司（埃文斯，1993年 ),截断（French&Wilson，1978）)和SFCHECK（SF检查）（迷茫等。, 1999 ).

序列分析和假定的MR模型识别使用了网络上可用的成熟软件包，特别是MSD目标和MSFold（MSFold）来自EBI(https://www.ebi.ac.uk/msd网址)和爆炸(https://www.ncbi.nlm.nih.gov/BLAST/).

MR由三个团队进行。所有这些都使用了既定的核心软件，但使用了不同的脚本协议。一组（RK和MW）已开发BUMP先生，它使用现有的web服务器（如下所述）来选择多个模型，使用CHAINSAW公司（斯坦，未发表作品），摩尔代表（Vagin和Teplyakov，1997年 )或PDBCLIP公司（当地公用事业），然后应用摩尔代表或相位器（麦考伊等。, 2005 )用于MR搜索。模型评估使用REFMAC公司（穆尔舒多夫等。, 1997 ). 第二组（NS和CB）已经发展AutoAMoRe公司，合并CHAINSAW公司和AMoRe公司（纳瓦扎，1994年 ). 第三组（GNM、FL和AAV）开发了一个包棒球利用预先构建的数据库进行模型选择，SFCHECK（SF检查）用于数据质量分析，摩尔代表用于模型准备和分子替换，和REFMAC公司用于初始精炼和最终质量评估。序列分析和模型识别使用作者正在开发的程序和程序（Murshudov，私人通信）。

除SiaP外，由于自动化管道处于早期开发阶段，因此很少有实验阶段的工作。然而，在车间使用之前，已经解决了几个需要进行试验阶段调整的牛津结构SHELXD公司和SHELXE公司（Schneider和Sheldrick，2002年).

MR和实验相位图的模型构建和重建主要基于REFMAC公司–ARP协议/弯曲管道（SC、GL；Perrakis等。1999年). 地图使用可视化库特（埃姆斯利和考坦，2004年 )和的开发版本海盗（考坦，2000年 )和海盗（Cowtan，2001年 )进行了测试。尝试使用两者进行配体装配ARP协议/弯曲和库特.

4.数据处理

4.1. 数据集成

XIA-DPA公司应用于图像可用的目标。下一个DPA是现有数据处理和分析软件的自动包装器。它旨在以模块化的方式组合独立开发的功能，以便直接替换单个功能。XIA-DPA公司将这些集成到一个专家系统中，该系统能够在无需用户干预的情况下就如何处理数据做出决策。

XIA-DPA的用户界面很简单：图像的文件名足以启动二维或三维集成的数据处理任务：xia-autoprocess-2d/path/to/data/set/foo_1_001.img或xia-autoprocess-3d/path/to/data/set/foo_1_001.img.

当前软件分发使用贴标签的执行自动索引，然后与进行二维集成MOSFLM公司或三维集成使用XDS公司.毫无意义的（埃文斯，2006年 )用于选择最可能的点组。可以使用执行缩放和合并SCALA公司和截断或通过XSCALE公司对图像进行处理，以提供常用格式（MTZ和我⁺,我⁻,我,F类⁺,F类⁻,F类和电子秤组件)以及根据对系统性缺勤。目标是提供“数据到结构”管道的初始阶段，以生成机器可读信息，用于结构解决的后续步骤。

4.2. 数据分析和质量评估

很早在研讨会上就意识到，所提供的实验数据往往没有以用户或计算机可以访问的形式携带所有必要的晶体信息。一些信息（如波长）应记录在反射文件标题中。我们建议一个简单的解决方案是定义一个可接受的交换格式，并在交换文件中记录符合该格式的标记信息。

在自动程序中作出的决定分为四类。

（i）样本参数，例如.重原子的序列、分子量和预期数量。
（ii）X射线实验细节：直接参数，如波长、光束线和温度，导出的参数，包括晶胞、点群、晶体学非对称单元中可能的分子数，以及任何非晶体学平移算子和质量指标的存在，包括标称分辨率，估计的B类因子和各向异性以及低分辨率和高分辨率下的完整性（前者对MR很重要）、多重性、，我/σ(我)和合并R（右）因子，所有这些都是分辨率的函数。
（iii）根据预期值测试强度统计数据，包括累积强度分布和力矩。这些是实验中问题的敏感指标，例如孪生或处理中的局部错误，例如大量低分辨率项的饱和（图1).
（iv）识别晶体的特殊特征，例如伪对称性或潜在的替代索引。

这份清单当然不完整，需要社区就需求的正式定义达成一致。

图1
使用不同数据处理包对OPPF1314图像进行数据缩减的结果（见表3

)用…分析截断(一)第二时刻我在分辨率外壳中。(b条)的最初时刻E类在分辨率外壳中。(c（c）)的三阶矩E类在分辨率外壳中。在所有面板中，组合的数据集用实线（蓝色，DENZO公司/电子秤组件; 绿色，MOSFLM公司/SCALA公司; 红色，XDS公司/XSCALE公司)，而使用处理低分辨率过程的结果DENZO公司/电子秤组件以蓝色虚线显示。

大多数必要信息已经在各种程序的输出中可用，但尚未编码到可接受的交换文件中。车间使用的数据集通过以下方法进行了回顾性评估：截断和SFCHECK（SF检查）（表2).

表2
基于输出的数据质量评估截断和SFCHECK（SF检查）程序

N个(我)是累积强度分布截断，标记为“OK”、“sig”（S形，表示孪生）或“奇数”。B类_{美国东部时间}是整体B类-每个项目的因子估计(截断和SFCHECK（SF检查））。Aniso表示合并数据中的各向异性程度：如所述SFCHECK（SF检查）由整体各向异性标度椭球的三个特征值。原生Patterson合成中的偏离原点的峰值表明存在伪平移对称性（PseudoT）和SFCHECK（SF检查）标记此。孪生的可能性估计为安全检查在考虑了伪平移和各向异性之后。威尔逊曲线线性度的实质性偏差由截断.

身份证	N个(我)	B类_{美国东部时间}(Å²)	阿尼索	伪T	双胞胎	威尔逊	评论
约克
BA0288型	好啊	18/27	N个				低相对较弱
BA0296型	Sig公司	58/66	N个		T型		高分辨率不完整
BA0592型	奇数	71/69	Y（Y）				95%完成
BA1071型	好啊	54/55	Y（Y）				95%完成，低分辨率弱
BA1483型	好啊	27/35	是吗？				低-弱，高-不完整
BA1563型	好啊	35/44	Y（Y）	Y（Y）			低-弱，高-不完整
BA3935_1型	好啊	20/29	N个			非线性	低相对较弱
BA3935_2型	好啊	42/49	Y（Y）				低-弱，比以前好
BA4499型	Sig公司	25/34	Y（Y）
BA4508型	奇数	第53页，共56页	Y（Y）				94%完成，战略不佳？
BA5696型	好啊	27/36	Y（Y）
BA5705型	Sig公司	24/32	Y（Y）		T？
英国标准应用程序	好啊	32/39	Y（Y）				低相对较弱
BSYloQ公司	好啊	44/66	Y（Y）
CJ0982型	Sig公司	2738	Y（Y）			非线性	不完整且各向异性很强
卵石3	好啊	17/24	Y（Y）			奇数	低雷诺数，可能还可以
SiaP公司	好啊	34/42	Y（Y）				低相对较弱
牛津
OPPF651型	野生	41/47	Y（Y）	Y（Y）			低相对较弱
OPPF1294型	Sig公司	105/105	N个		T？		整体表现非常弱
OPPF1311型	奇数	72/70	Y（Y）	Y（Y）			奇数分布
OPPF1314型	好啊	37/47	Y（Y）				见正文；不完整，合并时出现问题
OPPF2088型	Sig公司	42/51	Y（Y）		T？
OPPF2153公司	野生	49/50	Y（Y）	Y（Y）	?	非线性	数据非常弱
OPPF2245型	好啊	76/54	Y（Y）		T？	非线性	低分辨率
XIA-DPA公司处理
OPPF1314-2D型	奇数	24/19	Y（Y）			好啊	5%的反射被拒绝
OPPF1314-3D	好啊	22/19	Y（Y）			好啊	拒绝的反射更少，数据质量更好
BA0296型	Sig公司	49/53	N个	N个	T型		缺少楔形数据，不完整
BA0592型	好啊	69/58	Y（Y）	N个			非常各向异性
BA1071型	Sig公司	34/44	Y（Y）	N个	T？		孪生迹象
BA2236型	Sig公司	26/39	Y（Y）	N个	T？		Wilson因高分辨率而较差。
BA4525型	好啊	21/33	Y（Y）	N个			2.7Ω数据缺失
BA5505型	好啊	57/66	N个	N个			冰环

4.3. 测试应用程序

4.3.1. OPPF1314型

对合并的OPPF1314数据的分析表明，反射强度分布异常，特别是在低分辨率范围内（图1). 在研讨会期间，对原始图像进行了重新处理XIA-DPA公司，尝试二维和三维选项。二维管道(即使用MOSFLM公司和SCALA公司)产生了与DENZO公司/电子秤组件; 强度统计数据再次异常。然而，三维管道(XDS公司和XSCALE公司)给出了一个合并良好的数据集，以直观的方式成功地解决了结构问题。更详细的分析和仔细的再处理MOSFLM公司/SCALA公司随后的研讨会表明，第一次失败是由于低分辨率和高分辨率焊道的相对缩放不好造成的，而高马赛克扩散证明很难用当前的二维软件处理。缩放R（右）系数介于XDS公司并重新加工MOSFLM公司振幅为～4%至2.3º，在1.5º时上升至16%。质量评估（表2和3)建议将二维积分与MOSFLM公司在较高的分辨率范围内不令人满意。SFCHECK（SF检查）结果表明，高镶嵌性降低了某些区域二维数据集的完整性。

表3
通过处理从OPPF1314共晶体（空间组）获得的ESRF ID14EH1图像获得的数据集对1）使用不同的数据处理包

收集高分辨率和低分辨率（low）通道的图像，并将其合并为组合（CMB）数据集。数据处理使用DENZO公司/电子秤组件（DEN），MOSFLM公司/SCALA公司（MOS）和XDS公司/XSCALE公司（XDS）。括号中的值用于外部（最高分辨率）数据外壳，即低分辨率焊道为2.38–2.30º（注意，低完整性是由于处理到方形探测器的角部而导致的），低分辨率和高分辨率焊道组合为1.55–1.50º。

	登洛	MOS-低	XDS-低	DEN-CMB公司	MOS-CMB（MOS-CMB）	XDS-CMB公司
分辨率极限（Ω）	2.30	2.30	2.30	1.50	1.50	1.50
独特的反射	11585	10987	11455	59140	56913	60271
完整性（%）	63.5 (11.4)	62.1 (13.8)	64.2（14.4）	93.0 (90.2)	90.5 (89.1)	95.2 (93.7)
多重性	2.4 (2.2)	2.4 (2.3)	2.4 (2.3)	2.1 (1.7)	2.4 (1.9)	2.4 (2.0)
我/σ(我)	20.6 (5.5)	18.3 (4.0)	17.2	20.9 (1.1)	8.7 (1.3)	11.1 (2.1)
R（右）_合并†(%)	4.0 (17.5)	3.9 (17.7)	3.2 (15.5)	5.3 (83.5)	5.7 (63.9)	4.3 (46.7)

†R（右）_合并= $[\textstyle\sum I-\langle I\rangle/]$ $[\textstyle\sum\langle一级]$ .

4.3.2. 其他目标

另外六个目标的衍射图像在车间使用XIA-DPA公司使用二维选项（表4). 与为BA0592车间提供的数据的一致性似乎令人满意，其他数据集的质量评估也可以接受（表2). BA0296说明了一种情况，即应在数据采集期间执行快速自动数据处理，以选择最佳策略。立方体满足自动索引水晶类。然而，随后的分析表明点编组是四方的。不幸的是，这导致了数据集相当不完整。这次研讨会极大地促进了下一个DPA管道。

表4
处理的其他数据集摘要XIA-DPA公司

对于BA0592，还向车间提供了之前处理过的数据集（表1)和R（右）_fac公司给出了缩放比例R（右）此数据集与XIA-DPA公司处理。建议的空间组是系统缺失分析预测的结果。

蛋白质	分辨率（Ω）	“空间”组	R（右）_合并	完整性（%）	多重性	我/σ(我)	R（右）_fac公司
BA0296型	2.5	对4₁/4_三	11.3	81.7 (70.9)	2.5	7.7 (2.3)
BA0592型	3	C类2	20.1	99.5 (99.3)	4	8.4 (1.9)	0.087
BA1071型	2	对2₁2₁2₁	14	96.7 (81.5)	4.1	6.6 (1.7)
BA2236型	2.1	对2₁2₁2₁	15.1	88.1 (56.8)	6	7.6 (1.8)
BA4525型	2	C类2	7.8	69.1 (17.4)	3.5	13.0 (3.0)
BA5055型	2.4	对三_n个21	14.8	96.0 (84.6)	7.3	10.2 (1.0)

4.4. 讨论；自动化数据处理的经验教训

数据处理和分析步骤对于结构求解管道至关重要。这个XIA-DPA公司管道对于许多数据集来说性能良好，但在更具挑战性的情况下，如OPPF1314，它必须标记异常情况并向晶体学家发出警报。在BA0296的情况下，从初始索引中获得的信息后来被发现是不正确的，这突出表明需要简单可靠地确定点编组在数据收集期间从有限的数据中获取。

在自动化程序结束时对数据质量进行最终评估是一种良好的做法，应始终进行。自动化程序有两个特点，即再现性和标准化，这应允许更客观的汇总统计。它们还可以在不同的包之间执行繁琐的转换，使所有统计数据都可以由同一个程序计算，从而具有更大的可比性。

最后，在任何自动化工作中，管道的成功取决于各个步骤的累积成功。随着数据处理程序变得更加可靠和复杂，管道的总体成功率应该会提高。

5.分子置换管道

在所有自动化结构求解管线中，处理MR的管线是目前最先进的，也是车间的核心活动。每个管道都有五个基本任务要处理。

（i） PDB中是否有合适的模型结构？这需要使用序列匹配工具，例如爆炸和美国金融服务贸易协会（布伦纳等。1998年 )可以扫描PDB（伯恩斯坦等。, 1977 ; 伯曼等。, 2000 )同源结构用作模板。必须严格审查这些比对的结果。例如，短片段上的序列相似性可能价值有限；需要的是对序列的整个长度进行拟合，或者至少对一个广泛的分数（例如域）进行拟合。必须根据生物学知识决定最佳搜索单元：这包括识别搜索可能的低聚物，以及将单链分解为各个域。模型通常可以根据序列比对进行有效修改，例如.删除间隙和修剪侧链。这种修剪的一个实际优点是将“正确的”残留物编号和命名引入到模型中，这在重建过程中很有用。
（ii）X射线数据的信息内容是什么？X射线图像的还原和分析应提供一组基本信息，并提供给用户/程序/管道（参见§4.2).
（iii）MR搜索是否表明有令人满意的解决方案？每个程序都提供了潜在解决方案的评分功能，需要将最佳方案与其他方案进行对比。在某些情况下，晶体空间组不明确；然后，自动翻译搜索必须涵盖所有可能性，其中一个结果的明确性也是可能成功的标志。
（iv）解决方案可能正确吗？首先，为了获得正确的解决方案，模型分子不得与单位单元格。其次，初步自动化精炼应该减少这两者R（右）和R（右）_自由的更复杂的测试可以解决解决方案是否具有良好生物意义的问题(例如残留物在合适的静电环境中，敏感的晶格接触），但这些很难自动化。
（v）结果模型能否令人满意地重建？合适的MR溶液的最佳标准仍然是产生的电子密度的质量。如果新的正确特征在地图中可见，而模型的错误特征不可见，则可以将其视为解决方案。这在§中进行了讨论7

5.1. 单个管道

在本节中，我们将报告三个团队获得的结果。所有团队在执行各种任务时都使用了一些相同的工具。CHAINSAW公司（下一版本的中央对手方清算所4套件）是一个新的实用程序，用于操作模型。它检查以标准格式提供的靶标和模板之间的序列比对，并通过将非保守侧链修剪回γ保持保守残基不变。原子和残留物的名称和编号与目标中的名称和数量相匹配。结果就是施瓦岑巴赫等。(2004 )被称为“混合模型”，因为与多胺模型相比，保留了更多的原子，但模型中不太可能存在的部分晶体结构，因此可能会降低信号的质量。

摩尔代表还包含许多模型准备工具。它将给定的序列与模型对齐，并准备截断的模型。它还可以使用给定的非晶体学对称性转型。AMoRe公司是一个完善的软件包，将旋转、平移和刚体分离开来精炼模块，允许在针对问题定制协议方面具有很大的灵活性。相位器有一个复杂的评分方案，并考虑到之前定位的任何模型的贡献，重新计算多个分子的定向搜索。REFMAC公司5精炼用于评估解决方案的质量；如果两者都是R（右）和R（右）_自由的然后，一个解决方案被判断为基本正确。

5.1.1. 这个BUMP先生包裹

这个BUMP先生该包已作为eHTPX的一部分开发(网址：https://www.e-htpx.ac.uk/)和CCP4项目：eHTPX以访问18-CPU集群的形式提供了广泛的计算资源通过eHTPX web服务。这种模式对于序列同源性较低的边缘病例特别有用，在这些病例中，可以使用平行方法，同时研究一系列假定的试验模型和方法。或者BUMP先生软件包可以定制为在桌面上运行，并在研讨会期间在两种模式下进行了测试。它旨在利用序列和结构的网络可访问数据库，而不是依赖于本地数据库。这可以确保信息是最新的，但有一个缺点，即查询是通过公共网络提交的，速度可能会较慢。自研讨会以来，BUMP先生已扩展为允许在本地执行此搜索。

简言之BUMP先生流水线包括以下步骤：目标的属性由提供的反射和序列文件生成（例如，非对称单元中的预期分子数），然后生成美国金融服务贸易协会搜索当前PDB以生成可能的同源结构列表，然后下载。对于每个，PQS服务器(https://pqs.ebi.ac.uk网址/)查询以确定模型是否作为多聚体存在。如果是这样的话，多聚体是否能适应目标单位电池，它被添加到模板列表中。最近添加了一个不适用于此处描述的测试的域，该域由SCOP公司（穆尔津等。, 1995 )到模板列表。

下一步是根据模板生成试用模型。目前使用三种方法。首先，在PDBCLIP公司方法使用原始模板坐标，经过各种整理步骤，如去除水、去除替代构象等第二，对齐和模型改进方法摩尔代表使用。第三中央对手方清算所4程序CHAINSAW公司上述用于提供混合模型。

顶级模型传递给摩尔代表第一次尝试MR.If摩尔代表生成解决方案（与分数无关），定位模型传递给REFMAC公司30个循环有节制的精致。免费的R（右）因素被用作成功的标准。如果R（右）_自由的显著下降时，脚本停止并报告解决方案的详细信息。在不停止脚本的情况下确定边缘解决方案。除非获得明确的解决方案，否则BUMP先生脚本继续处理所有试用模型摩尔代表，之后使用相位器作为MR引擎。对于群集实现BUMP先生测试模型是并行处理的，在任何集群节点上都会成功地停止所有节点上的脚本。

以下内容的摘要BUMP先生结果见表5除非另有明确说明，否则这些结果是在研讨会期间获得的，之前不了解结构，也没有任何特别的自定义默认脚本。唯一的例外是，如果存放了实际的目标结构，则运行脚本时会排除此结构。很明显，良好解决方案的标准过于严格，在许多情况下，脚本在找到良好解决方案后继续处理试验模型。在这些情况下，表5显示了一个或多个被确定为“边际”而非“成功”的解决方案。为了进行比较，在某些情况下相位器循环与来自摩尔代表循环。MR步骤的结果是一个定位但不准确且不完整的模型。循环约束细化通常表明该模型将被细化，并且可能实现最终模型（例如，参见BA4499）。在其他情况下，没有这种明确的迹象（例如BA1563），关于程序成功的结论必须等待模型重建。

表5
来自的结果摘要BUMP先生

斜体显示的结果是在研讨会之后获得的，否则结果是从研讨会的“实时”运行中获得的。这些列如下所示。表1中使用的蛋白质ID、识别标签;N个_摩尔，中预期的分子数非对称单元；模板结构的模型、PDB代码和链ID；%ID，百分比序列标识；删减，使用试验模型生成方法，见正文；MR程序，用于分子置换；初始R/Rf，R（右）因素和R（右）_自由的报告的周期0为REFMAC公司; 最终R/Rf，R（右）因素和R（右）_自由的报告的最后一个周期为REFMAC公司; 成功，无论是可能解（Y）、可能解（P）还是无解（N）；重建，是否在中尝试重建ARP协议/弯曲如果是，是否成功。

身份证	N个_摩尔	型号	%ID编号	修剪过的	MR程序	初始R/Rf	最终R/Rf	成功	重建
BA0288型	8	1个u11_A类	66	摩尔代表	摩尔代表	0.45/0.45	0.30/0.33	Y（Y）	Y（Y）
BA0288型	8	1个u11_0个	66	万用表	摩尔代表	0.46/0.45	0.32/0.36	Y（Y）	—
BA0592型	6	1个pjb_A类	54	PDBCLIP公司	摩尔代表	0.44/0.43	0.32/0.39	Y（Y）	N个
BA1071型	1	1c9e公司_A类	73	CHAINSAW公司	摩尔代表	0.43/0.44	0.29/0.36	Y（Y）	Y（Y）
BA1483型	6	第1季度_A类	57	CHAINSAW公司	摩尔代表	0.51/0.52	0.35/0.41	Y（Y）	Y（Y）
BA1563型	2	1个ufv_B类	49	CHAINSAW公司	摩尔代表	0.51/0.50	0.40/0.47	对	对
BA3935_1型	4	1马力_A类	42	摩尔代表	摩尔代表	0.52/0.52	0.37/0.41	Y（Y）	Y（Y）
BA3935_2型	4	1s5吨_B类	42	摩尔代表	摩尔代表	0.49/0.49	0.33/0.39	Y（Y）	Y（Y）
BA4499型	2	1月9日_0个	71	万用表	摩尔代表	0.44/0.46	0.28/0.33	Y（Y）	Y（Y）
BA4508型	1	1夸脱_A类	32	CHAINSAW公司	摩尔代表	0.52个/0.53个	0.40/0.48	对	N个
BA4508型	1	1夸脱_A类	32	CHAINSAW公司	相位器	0.52/0.51	0.40/0.48	对	—
BA5696型	2	1月9日_0个	56	万用表	摩尔代表	0.46/0.47	0.29/0.33	Y（Y）	Y（Y）
BA5705型	2	1伏_B类	35	CHAINSAW公司	摩尔代表	0.55/0.56	0.43/0.49	对	—
BA5705型	2	1伏_B类	35	CHAINSAW公司	相位器	0.54/0.55	0.42/0.45	Y（Y）	Y（Y）
BSAppa公司	1	1dpe（每日一次）	28	CHAINSAW公司	摩尔代表	0.57/0.57	0.56/0.55	对	—
BSYloQ公司	1	1微升_A类	40	CHAINSAW公司	摩尔代表	0.55/0.52	0.41/0.48	对	—
BSYloQ公司	1	1微升_A类	40	CHAINSAW公司	相位器	0.54/0.50	0.42/0.49	对	—
CJ0982	2	1个合格_A类	44	—	—	—	—	N个	—
OPPF651型	2	1对6_A类	51	摩尔代表	摩尔代表	0.66/0.65	0.42/0.50	Y（Y）	N个
OPPF651型	2	1个php	77	摩尔代表	摩尔代表	0.65/0.64	0.33/0.39	Y（Y）	Y（Y）
OPPF1314型	2	1码_C类	47	CHAINSAW公司	摩尔代表	0.53/0.52	0.47/0.48	对	对
OPPF2245型	2	1磅_A类	37	CHAINSAW公司	摩尔代表	0.54/0.55	0.45/0.52	对	N个

表5第二列显示了非对称单元。在三种情况下，自动脚本高估了正确的数字：BA1483、BA3935_2和BA0592。对于最后两个，这并不重要，因为摩尔代表未能找到预测的最后一个分子精炼继续进行正确数量的分子。在第一种情况下，摩尔代表发现了七个分子，所以最终的模型有一个虚假的额外分子。目前BUMP先生流水线并没有明确地处理平移NCS，例如在OPPF651中就出现了这种情况。在大多数情况下，有几种模型和方法可用于解决结构问题，脚本（在确定“成功”后）或作者（在审查“边际”解决方案后）所选择的选择基本上是任意的。通常，该结构既可以用单体搜索模型求解，也可以用多聚体求解。例如，BA0288可以用链求解A类属于1个ul1或使用从PQS服务器下载的八倍频程。两者都能迅速完善到足够R（右）值，尽管八分音阶的约束几何体会导致稍差的结果。多元搜索的优势在于速度和潜在的信噪比，通常会先尝试。

在尝试的17个结构中（忽略表5中的重复条目)，10个基本解决，6个可能解决，但需要进一步调查，1个明显未解决。应该强调的是，这些结论是基于MR和精炼程序和在某些情况下重建ARP协议/弯曲和临时待定结构竣工。在CJ0982的情况下，它被认为是未解决的，初始同源性搜索只产生一个命中，其序列一致性为44%，但对齐长度仅为70个残基。如其他地方所述，OPPF1314的数据处理存在问题，结果如表5所示是针对原始问题数据截断为2.3º分辨率的。

这个BUMP先生该软件包仍在开发中。当前版本有望自动化结构解决方案通过简单示例中的MR。对于当前的测试用例，它确定了大多数用例中的解决方案或可能的解决方案。其中许多病例在PDB中具有良好的同源物，可以通过任何合理的方法解决。对于这些BUMP先生这只是一种方便，特别是当需要尝试和比较几个同源物时。

BUMP先生需要中央对手方清算所4软件包加上少量助手应用程序，它在约克安装时没有出现问题。目前它是从一个简单的shell脚本运行的，研讨会上的用户发现自己运行这个包很容易。BUMP先生提供了一个框架，在此框架内可以进一步发展，以处理更困难的案件。正在进行的工作解决了每个步骤中应用的算法和连接的工作流程。自研讨会以来，BUMP先生已于提供https://www.ccp4.ac.uk/martyn/BPM/mrbump.php并鼓励反馈。

5.1.2. 自动化分子置换具有AutoAMoRe公司

的优势AMoRe公司速度和灵活性。AutoAMoRe公司是作为中央对手方清算所4自动化项目，通过MR使用AMoRe公司. TheAutoAMoRe公司脚本调用各种中央对手方清算所4个实用程序。它检查原生Patterson是否存在翻译NCS，如果合适的话，将分子成对定位。最终坐标是使用PDBSET（PDBSET）并检查与的冲突距离.AutoAMoRe公司生成重要参数的简明摘要文件。采用的方法是将目标序列输入爆炸服务器并选择同源性最高的求解结构作为模板，排除所有具有100%身份的结构。坐标从EBI下载(https://www.ebi.ac.uk网站/)并通过CHAINSAW公司。此选择和操作是手动执行的，只有随后的MR计算AMoRe公司都是自动化的。然而自动AMoRe脚本已作为模块并入BUMP先生管道。AutoAMoRe公司在每种情况下都使用单体模型在18个目标数据集上运行。通过检查决赛对解决方案进行评分相关系数对于所有分子非对称单元任何冲突超过20次的解决方案都被拒绝。得分最高的溶液经过十个循环精炼使用REFMAC公司使用的默认参数中央对手方清算所4我图形用户界面。如果R（右）_自由的期间下跌了5%以上精细化，这个解决方案被认为是成功的。使用版本的自动AMoRe车间提供的软件。随后对软件进行了多项改进，最终解决了另外四个案例，总体成功率为55%。结果总结见表6.

表6
运行获得的结果摘要AutoAMoRe公司关于18个目标结构

列标签对应于表5中的标签如果R/Rf柱为空白，则溶液因过度碰撞而被拒绝。斜体字信息是在研讨会之后获得的。

目标	N个_摩尔	型号	%ID编号	初始R/Rf	最终R/Rf	成功	重建
BA0288型	8	1个u11	65	0.41/0.42	0.32/0.35	Y（Y）	Y（Y）
BA0296型	2	1cli个	53	0.46/0.47	0.35/0.48
BA0592型	6	1个pjc	55
BA1071型	1	1个1	73	0.42/0.41	0.26/0.41	Y（Y）	Y（Y）
BA1483型	6	1个中央处理器	56	0.51/0.51	0.39/0.46	Y（Y）
BA1563型	2	1v8f版	48	0.52/0.54	0.43/0.52	对	Y（Y）
BA3935_1型	4	1迪拉姆	43	0.51/0.50	0.41/0.46	Y（Y）	Y（Y）
BA3935_2型	4	1迪拉姆	43	0.48/0.47	0.36/0.43	Y（Y）	Y（Y）
BA4499型	1	1月9日	70	0.43/0.49	0.30/0.34	Y（Y）	Y（Y）
BA4508型	1	1立方米	31	0.52/0.51	0.39/0.52
BA5696型	2	1月9日	55	0.44/0.44	0.30/0.34	Y（Y）	Y（Y）
BA5705型	2	1伏	41
BSAppa公司	1	1个百分点	26
BSYloQ公司	1	1个uol	40	0.56/0.56	0.39/0.60
CJ0982型	2	1美元	27
OPPF 651型	2	1马力	77	0.49/0.51	0.34/0.48	Y（Y）
OPPF1314型	2	1码	47	0.49/0.46	0.37年/0.46年	Y（Y）	Y（Y）
OPPF 2245型	2	1000万	36

5.1.3.棒球

棒球是由FL、AAV和GNM开发的自动MR系统。它有三个主要组成部分：PDB（伯恩斯坦等。, 1977; 伯曼等。, 2000)这是一个Python脚本，用于控制工作流，并制定决策和科学程序来执行实际计算。该脚本使用以下程序：SFCHECK（SF检查）用于结构因素分析，摩尔代表对于分子置换和REFMAC公司对于精细化。已经开发了几个其他程序，用于重组PDB中的对齐和搜索。

PDB中的～30000个结构已根据序列和三维结构进行了重组和分类。如果两个蛋白质的序列一致性超过90%，或者叠加后匹配原子对之间的根平方偏差小于1º，则删除冗余条目。这将条目的数量减少到约10 000个结构的参考集，这些结构根据相似性组织到层次数据库中。对于每个条目，都会建立潜在的多聚体和域结构并对其进行编目。

Python脚本读取正在研究的蛋白质的实验数据和序列信息。在重组后的PDB中搜索相关序列，识别候选模型，并在适当的情况下用多聚体和域返回坐标。在Macintosh G5电脑上，整个搜索过程大约需要10秒。根据序列一致性和表面可及性对假定模型进行了修改。实验数据使用SFCHECK（SF检查），表示伪翻译等问题特征，孪生或各向异性，并建议MR搜索的最佳分辨率。这些分析的信息传递给摩尔代表几个协议按顺序进行测试：首先是多聚体，然后是单个亚单位，然后是域。在每项协议之后，就“解决方案”是否正确作出决定。如果尚未满足预期单体的数量，则继续MR。在研讨会期间，模型直接传递给ARP协议/弯曲用于重建。随后，实现了一个更好的协议：首先将MR解决方案传递给REFMAC公司对于刚性体的多个循环有节制的精致。这为重建带来了实质性的更好结果。

棒球处于开发阶段，数据库会自动定期更新。对于当前测试，数据库包含2004年底发布的PDB条目。

车间示例只需要可用协议的一个子集。这些包括具有一个亚单位的简单MR（两例，一例成功）、二聚体搜索（四例，两例成功，一例可能成功）、多个亚单位逐步搜索（13例，十例成功，1例可能）和伪翻译的使用（四例、两例成功、一例可能）。更复杂的协议，如域搜索、多副本搜索、迭代精炼当前测试不需要MR。研讨会的经验表明，若干议定书的实施需要加快。结果总结见表7.

表7
使用获得的结果摘要棒球

列标签对应于表5中的标签，增加了表示伪平移对称性存在的列，以及关于多重数状态和预期拷贝数的更多细节(N个_摩尔应为），但找到(N个_摩尔找到）。

目标	N个_物件	型号	%ID编号	伪翻译	N个_摩尔预期	N个_摩尔建立	初始R/Rf	最终R/Rf	成功†
BA0288型	161	1亿像素,1o4伏	100	N个	4 × 2	4 × 2	0.31/0.31	0.24/0.28	Y（Y）
BA0592型	377	1个pjc	54	N个	7	6	0.42/0.42	0.30/0.36	Y（Y）
BA1071型	311	1打	72	N个	1	1	0.45/0.45	0.29/0.39	Y（Y）
BA1483型	235	1个e3	100	N个	4 × 2	4 × 2	0.44/0.44	0.22/0.27	Y（Y）
BA1563型	282	1个ufv	48	Y（Y）	2	2	0.58/0.56	0.43/0.52	是/否
BA3935_1型	292	1迪拉姆	41	N个	4	4	0.52个/0.52个	0.39/0.41	Y（Y）
BA3935_2型	292	1迪拉姆	41	N个	4	4	0.49/0.47	0.33/0.38	Y（Y）
BA4499型	283	1月9日	70	N个	2	2	0.44/0.44	0.29/0.34	Y（Y）
BA4508型	298	1夸脱	32	N个	2	1	0.52/0.54	0.40/0.50	是/否
BA5696型	208	1月9日	55	N个	2	2	0.45/0.44	0.29/0.33	Y（Y）
BA5705型	327	1小睡	33	N个	2	2	0.55/0.56	0.41/0.47	Y（Y）
OPPF651型	394	1个php	77	Y（Y）	2	2	0.65/0.65	0.31/0.39	Y（Y）
OPPF1294型	193	1年	52	N个	2	无			N个
OPPF1311型	255	1百万4	39	Y（Y）	2 × 2	2	0.60/0.60	0.56/0.63	N个
OPPF1314型	200	1码	47	N个	2	2	0.49/0.48	0.36/0.43	Y（Y）
OPPF2088型	139	第1季度	26	N个	1	1	0.58/0.55	0.49/0.59	N个
OPPF2153公司	222	1数量0	23	Y（Y）	2×2	2	0.69/0.70	0.51/0.57	P/M公司
OPPF2245型	229	1000万	37	N个	2	2	0.54/0.55	0.41/0.53	P/M公司

†Y，定解；P、可能解；N、没有解决方案；M、手动检查。

5.2. 分子置换管道综述

在考虑的结构中，大多数结构都有一个紧密的同系物可用，并且可以通过MR直接求解。少数不直接求解的结构是方法开发的有趣示例，将是进一步工作的重点。困难可能来自数据处理中的问题。在其他情况下，可能需要更复杂的模型生成或需要实验阶段。

OPPF1314结构的解决方案是研讨会的关键成果之一。所有三条管线都能够通过使用集成的低分辨率数据来确定解决方案DENZO公司/电子秤组件或使用三维XDS选项处理的XIA-DPA公司完善和建立一个完整的模型更具挑战性，只有在重新处理数据后才可能实现。

结果与BUMP先生和棒球在研讨会上表明，即使对于相同的车型ARP协议/弯曲使用BUMP先生解决。这两种方法之间的一个关键区别是缺乏自动化精炼的步骤棒球尝试使用重建模型之前ARP协议/弯曲.介绍精炼进入棒球研讨会之后的协议现在为两条管道提供了高度可比的结果（表5和7).

在最简单的层面上，自动化的作用是方便，提供了一个用户只需很少努力就能解决的解决方案。然而，自动化很可能为不同模型的相对成功提供更客观的标准，并优化解决方案，以将模型重建和完成所需的工作量降至最低。

6.实验定相

实验阶段没有作为自动化测试的一部分进行任何深度的讨论，因为管道处于开发的早期阶段。很明显，许多关键信息无法直接获得，例如几个反射文件没有提供正确的波长信息或记录MAD数据集。OPPF1294、OPPF1311、OPPF2088和OPPF2153之前都已使用SHELX公司一套。然而，SiaP结构是分阶段的，并且主要是在研讨会期间构建的，从而深入了解了如何最好地将弱阶段信息用于中等分辨率的自动化模型构建。

本次调查的主要软件工具是海盗，统计阶段改进计划（Cowtan，2000).海盗在不需要了解溶剂含量的情况下，通过稀疏/致密和有序/无序对电子密度进行分类。构造统计目标，根据局部密度均值和方差推断出可能密度值的分布。通过使用已知的“参考”结构，对这些目标进行优化，该结构通过缩放和误差模拟过程进行操作，以生成与正在检查的地图在统计上相似的地图。该软件仍在开发中，旨在以完全自动化的方式使用。

SiaP结构仅使用Se站点的峰值数据进行了阶段化，使用SHELXD公司和初始定相由执行SHELXE公司。这使用溶剂稀释程序来细化初始SAD估计和输出阶段以及相关的优值。在研讨会期间，使用MLPHARE公司记录Hendrickson–Lattman（HL）系数。平均成绩为0.43，在2.7奥时降至0.15。海盗用于改进这些SAD阶段，将总相位误差从64°减少到48°（根据研讨会后完全细化的最终模型进行评估），并提供更好、更现实的价值评估。试图从这两个起始阶段集完成模型（§7.4).

7.构建和完善模型

研讨会上没有足够的时间来充分探讨模型编制问题的最佳方法。如果数据集的分辨率扩展到～2.3º，那么ARP协议/弯曲通常可以自动构建模型，前提是有足够高质量的开始阶段。ARP协议/弯曲在所有合适的MR溶液上运行，结果如表8所示; 随后使用pyWARP公司（科恩等。, 2004 ; 表9). 然而，对于低分辨率数据集和低序列一致性（通常小于30%）的模型，模型构建是一个真正的绊脚石。低分辨率数据MR管道的完全自动化可能需要加入新模块，例如海盗（Cowtan，1998年 , 2001)设计用于识别较大的结构特征。在所有情况下，都必须使用图形显示和库特（埃姆斯利和考坦，2004年)可以提供此功能。现在将更详细地描述这些模块。

表8
使用重建REFMAC公司-ARP协议/弯曲

对于每个MR解决方案ARP协议/弯曲和pyWARP公司已尝试：ARP协议/弯曲作为每个MR解决方案的质量评估，以及pyWARP公司用于自身评估。值对应于不对称单元中追踪到的残基数，括号中为其构建侧链的残基数量。

				BUMP先生		AutoAMoRe公司		棒球
身份证	分辨率（Ω）	N个_摩尔	总残留量	ARP协议/弯曲	pyWARP公司	ARP协议/弯曲	pyWARP公司	ARP协议/弯曲	pyWARP公司
BA0288型	1.80	8	1288	1246 (1084)	1252（1252）	1241 (1145)	1249 (1249)	1250 (1235)	1248（1166）
BA0592型	2.84	6	2262	549 (35)	429 (162)	—	—	616（28）	475 (123)
BA1071型	2.60	1	311	201 (95)	181 (155)	199（140）	189 (162)	206 (141)	145 (125)
BA1483型	2.24	6	1410	1364 (1364)	1334 (1328)	357 (43)	1382 (1269)	1369 (1359)	1389 (1230)
BA1563型	2.20	2	564	281 (132)	248 (216)	5 (0)	51 (27)	11 (0)	85 (26)
BA3935_1型	1.94	4	1168	1137 (1130)	1141 (1141)	1109 (1061)	1136（1136）	1143 (1143)	1139 (1139)
BA3935_2型	2.23	4	1168	955 (674)	1057 (1044)	721 (327)	305 (182)	1040 (907)	1081（1038）
BA4499型	1.80	2	406	373 (373)	384 (384)	378 (378)	349（349）	371 (371)	379 (379)
BA4508型	2.57	2	596	105 (21)	108 (45)	28 (0)	118 (80)	142 (39)	110 (91)
BA5696型	1.80	2	416	386 (386)	391 (391)	391 (391)	396 (396)	396 (396)	390 (390)
BA5705型	1.80	2	654	533 (533)	547 (547)	—	—	531 (526)	528（528）
OPPF651型	2.40	2	788	233 (44)	245 (159)	—	—	598 (484)	656 (646)
OPPF1294型	—	2	386	—	—	—	—	—	—
OPPF1311型	2.72	4	1020	—	—	—	—	崩溃	83（23）
OPPF1314型	2.30	2	400	200 (96)	197 (163)	—	—	184 (0)	179 (158)
oppf153	2.69	2	444	—	—	—	—	11 (0)	173 (43)
OPPF2245型	3.30	2	458	43 (0)	102 (37)	—	—	19 (0)	82 (41)

表9
使用重建OPPF1314REFMAC公司-ARP协议/弯曲

在重新处理OPPF1314数据后ARP协议/弯曲和pyWARP公司应用于三个不同分辨率截止点的二维（OPPF1314M）和三维（OPPF314X）数据集。三维积分在1.5°下获得了最佳结果，证明了对高镶嵌性的更好处理。对于所有测试pyWARP公司证明更加成功。列标签与表8中的标签等效.

				棒球
身份证	分辨率（Ω）	N个_摩尔	总残留量	ARP协议/弯曲	pyWARP公司
OPPF1314X型	1.5	2	400	193（109）	294 (279)
OPPF1314M型	1.5	2	400	131 (34)	257 (246)
OPPF1314X型	1.65	2	400	277 (268)	322 (316)
oppf31.4亿	1.65	2	400	253 (208)	303 (303)
OPPF1314X型	1.85	2	400	271（249）	323 (323)
OPPF1314M型	1.85	2	400	261 (226)	322 (322)

7.1.ARP协议/弯曲

ARP协议/弯曲用于评估从不同MR管道获得的溶液的质量。每个解决方案都输入到当前分发的版本ARP协议/弯曲（v.6.1.1），从定位模型开始（使用Perrakis中描述的模式），执行了十个重建周期（每个周期包括五个更新周期等。, 1999, 2001 ). 在这个过程中，大多数立体化学信息在建造过程中尽可能长时间地保存下来精炼程序REFMAC公司更多约束。

一些数据集突出显示了的序列锁/侧链构建模块中的错误ARP协议/弯曲，当主链片段比提供的序列长时发生。该问题在会议结束后得到解决，并使用修正后的版本生成表8和9。除棒球OPPF1311的解决方案，这仍然会导致问题。

可用的MR溶液用于评估pyWARP公司，一种新的控制系统ARP协议/弯曲目前正在开发中（科恩等。, 2004). 该控制系统根据模型的当前状态做出运行时决策。表8和9还显示来自pyWARP公司，其性能似乎比ARP协议/弯曲并且很明显地将追踪到的主链的大部分对接到序列中。确实，在困难的情况下（OPPF2153和OPPF2245）pyWARP公司显著提高了自动跟踪模型的完整性，显示了在过程中使用变量参数化的价值。

7.2.海盗

海盗是一个新的建模程序，它重复应用单个优化的特征再识别技术。该过程包括为典型C周围4°球体中的电子密度构建最佳似然密度目标^α原子（这个想法，但不是目标函数，类似于Ioerger&Sacchettini，2002年 ). 目标的“优化”与§6.在未解决的地图中对可能的C进行六维搜索^α使用快速傅里叶特征识别的原子位置（Cowtan，2001). 一旦获得初始候选位置，就应用“增长”程序来查找链片段。使用Ramachandran图在每个方向上添加新的残数以约束链几何，并使用两个残数深度搜索对新位置的密度拟合进行排序。它是使用相同的似然密度目标计算的，但现在是在真实空间中计算的。该过程将继续进行，直到适合密度降至某个阈值以下。下一步是使用库特实用球蛋白。该方法是使用CLIPPER库实现的（Cowtan，2003 ). 尽管结构简单，但它很快为两个低分辨率MR结构BA1071和BA4508重建了缺失的特征。其与SiaP结构的性能如下所述。它可以集成到回收方案中，包括密度调整和精细化。其他改进也是可能的，例如在常见构象中使用双残基。

7.3。库特

库特是一个用于蛋白质图谱解释和结构验证的分子图谱应用程序。研讨会强调了它的一些优势，但也强调了一些缺失的功能。事实证明，它对于从自动模型构建重建初始模型非常有效。验证工具通过各种几何指标和适合密度分析来识别模型构建不良的区域。这些区域可以通过交互式真实空间快速改进精炼和正规化。尽管库特本次研讨会并未将其作为模型完成和验证工具进行大量使用，但强调了缺失的功能，包括逆转指挥棒构建的C语言的方法^αtrace是用于连接片段的更好工具，是用于自动恢复侧链的用户界面，还有用于纠正注销错误的工具（这是一个更为实质性的问题）。其中一些缺陷现已得到解决。库特目前，所有这些算法都是从图形界面实现的，但应该可以将底层功能合并到适用于自动管道的命令行驱动程序中。

7.4. 实验阶段案例历史：SiaP

已多次尝试使用ARP协议/弯曲。在§2.2我们描述了研讨会之前获得的结果。突破来自§6，即当使用MLPHARE公司提供的程序是对REFMAC公司-ARP协议/弯曲首先，程序从RESOLVE（解决）部分模型和MLPHARE公司在25个周期内，它建造了560个预期的612个残基，其中545个侧链对接。其次，将Hendrickson–Lattman系数直接输入到ARP协议/弯曲尝试了用于构建初始模型的过程。这需要更长的时间，但实际上达到了相同的解决方案。使用的第三和第四次测试海盗构建初始模型。第三次测试从MLPHARE公司阶段，从中海盗建立了288个残基（占总残基的47%）的多胺模型。第四次测试使用了海盗还有这些海盗能够构建384-残基多胺模型（63%）。这两种型号都能够启动ARP协议/弯曲并大大加快了收敛速度。从海盗/海盗模型，ARP协议/弯曲完全建成578个残渣（94%）。

根据目前的发展状况，这是一个令人印象深刻的结果：自动化建筑和精炼基本完整的蛋白质结构，具有相当弱的2.6μs SAD数据。在该解决方案中应用任何特定程序的重要性肯定不如保留完整的实验阶段分布作为建模/细化阶段的约束。

这一结果影响了中央对手方清算所4条和约克自动化管道目前正在建设中。

（i）以Hendrickson–Lattman系数形式的实验相位约束对于保持ARP协议/弯曲-REFMAC公司在目标上循环。
（ii）使用海盗改进了这一点。重要的是，实验阶段的权重要符合实际。
（iii）在使用特征识别进行初始模型构建时，例如海盗或RESOLVE（解决）无法生成完整的结构，创建了初始模型，大大加快了ARP协议/弯曲-REFMAC公司过程。

7.5. 分子置换病史：OPPF1314

在研讨会之前DENZO公司/电子秤组件来自高分辨率数据采集通道的数据集提供了一个清晰的MR解决方案，其中预期的两个分子位于非对称单元。结构完工ARP协议/弯曲虽然取得了部分成功，但收敛速度很慢：在低分辨率下丢失数据必然会降低电子密度ARP协议/弯曲要求选择和拒绝原子位置。

使用进行初始重新处理后XIA-DPA公司三维选项中，来自高分辨率和低分辨率通道的数据显示了反射强度的预期分布（§4.3；图1). 这是允许的ARP协议/弯曲在预期的400个残基中，生产出9个链中含有329个残基的结构非对称单元（用于重建R（右）系数为0.234R（右）_自由的（共0.289页）。地图显示，每个分子的一部分有序性很差，这解释了缺失的残基。对图谱的进一步检查揭示了电子密度的其他特征，这些特征不是蛋白质的一部分，可能归因于结合配体（§7.6).

二维综合数据也产生了类似的成功结果（表9)后处理使用改进的XIA-DPA公司软件（§4.3). 然而，数据来自三维和二维的整合ARP协议/弯曲当数据被限制在1.85º分辨率时，而不是使用1.5º的全范围时，会生成更多的残基。这可能反映了ARP协议/弯曲外壳质量较差，或者是由于镶嵌对最高分辨率数据的影响而产生的残余误差。在所有情况下pyWARP公司证明了它的价值。

自研讨会以来，精炼这个结构已经完成，给出了一个包含每条链192个残基、每条链上绑定一个ADP和256个模拟水域的模型。当前R（右）系数为0.219（带有R（右）_自由的（共0.265页）。

从这个案例研究中可以得出什么结论？

（i）数据质量的重要性以及在数据处理阶段标记质量评估参数的意外值（参见§4.3.1).
（ii）电子密度低分辨率数据完整性的重要性。
（iii）即使数据不符合标准，MR方法的稳健性。
（iv）CHAINSAW公司-MR搜索之前和MR解决方案之后但重建之前的类型过程。
（v）模型重建过程中参数的自动更新pyWARP公司与正常情况相比，性能显著提高ARP协议/弯曲程序。
（vi）配体匹配的良好测试（§7.6).

7.6. 配体与OPPF1314的结合

7.6.1.ARP协议/wARP配体构建

一旦模型接近完成，就可以在剩余密度中搜索小分子配体。可以使用ARP协议/弯曲套件（第6.1.1版）中央对手方清算所4和文本编辑器。这个ARP协议/wARP配体构建图形用户界面需要结构因子振幅、没有任何HETATM条目的蛋白质坐标（用于生成掩码）以及已知配体（Zwart）的一组坐标等。2004年 ).

对于OPPF1314，建模后的额外密度（§7.5）被认为是结晶筛中的一个或两个辅因子，ATP和5-甲酰四氢叶酸，其形状有些相似。尝试对这两种辅因子进行自动配体拟合。第一和第二次试验失败；地图仍然太吵，发现了不可能构象的错误位置。在每种情况下，将其覆盖的体积添加到面罩中，然后重复该过程。在第三次和第四次尝试中发现了正确的位置，并通过检查电子密度进行了验证。与ATP的拟合度明显更高，并且在检查电子密度后得出结论：非对称单元绑定有序的ADP（图2). 尽管还有其他残余密度特征，但不能明确地将其归因于5-甲酰四氢叶酸。

图2
OPPF1314模型的一部分显示了结合辅因子ADP（具有一个单独的磷酸基团，推测由ATP水解产生），通过以下任一方法自动拟合辅因子ARP协议/弯曲或库特以及其他精细化。绿色等高线显示了3等高线处辅因子的OMIT-map密度σ。此图是使用绘制的BobScript脚本（埃斯努夫，1999年

)并用渲染光栅3D（Merritt&Murphy，1994年

结果表明需要更新口罩。PDB文件被自动修改，以便在每个循环中添加额外的“原子”。在搜索多个配体时也需要这样做，建议先构建最大的配体。它还显示了该软件的识别能力是如何受到地图中噪声的限制的，因为目前搜索只检查了有限数量的潜在配体位点特征。

7.6.2. 配体建筑库特

库特有能力在地图上搜索可能的配体位点。它使用REFMAC公司单体字典提供配体几何结构的描述，还需要已知配体的一组坐标，可以由中央对手方清算所4程序LIB检查（瓦金等。1998年 ). 与相同ARP协议/wARP配体构建，密度被选定的坐标集掩盖。之后ARP协议/弯曲对于OPPF1314，库特发现7个假定的配体位点与ADP的预期大小和形状相匹配。在肉眼检查中，发现模型中缺少几个蛋白质结构，但密度相关性上排序的第一和第二个位点对应于两个核苷酸位点。然后使用库特的真实空间精炼选项。

7.7. 模型重建总结

来自表8和9，值得注意的是ARP协议/弯曲根据定位模型的获得方式，变化很大。例如，对于目标BA1563，ARP协议/弯曲能够使用的输出重建大约一半的模型BUMP先生，而从其他假定的解决方案中几乎无法重建。两者都有BUMP先生和棒球习惯于1个ufv作为模板和摩尔代表对于车间的MR，对于目标BA3935_2ARP协议/弯曲重建了约80%的模型BUMP先生，但只有来自平衡变压器验尸分析表明，差异在于BUMP先生进行了30次循环REFMAC公司 精炼之前ARP协议/弯曲.这个精炼步骤随后在中被激活棒球.

我们没有对成功重建的重要因素进行系统的调查，所注意到的差异可能是巧合。然而，在没有明确的MR结果的情况下，采用几个假定的解决方案进行模型重建具有明显的优势。在BA3935_2示例中，两个模板1迪拉姆和1s5吨与靶标具有42%的序列同一性，两者都应该尝试。在这两种情况下，BA1563和BA3935_2的数据的高分辨率极限均为2.2º，在这种情况下，细微差异可能会影响ARP协议/弯曲程序。自动化方案对于此类多模型的调查特别有用。

8.结论

蛋白质晶体学存在一系列潜在的瓶颈，包括蛋白质过度表达、溶解度、结晶和结构溶解。最近，在前三个方面取得了迅速进展（见对这一问题的其他贡献）。全世界在结构分析自动化方面已经并正在取得相当大的进展。图像处理和数据简化的自动化在车间使用XIA-DPA公司。所获得的结果强调了这一步骤的重要性，并表明，虽然原则上这一步骤需要高度自动化，但在制定协议和将适当信息传递给后续步骤时，需要格外小心。

结构求解管道中的MR步骤目前最接近于全自动化。三种新兴程序进行了广泛测试，成功率很高，该软件应在明年内发布供通用。研讨会上吸取的教训包括（i）运行多个循环的明显优势约束细化在开始重建程序之前正确定位MR模型，以及（ii）在适当的情况下，在尝试单个亚单位之前，通常尝试将多聚体作为模型。根据所获得的结果，自动化MR程序可能会成功，至少对于衍射达到2.5º或更好并且满足许多定义标准（总体R（右）_合并（6%，低分辨率外壳（4%），高分辨率外壳（35%），完整性（90%）。目前，孪生带来了实际问题，但这应该在不久的将来得到解决：对于具有亚面体孪晶，可能需要衍射到～2.1º或更好。

MR模型应满足以下标准之一。

（i）～不对称单元中一个分子的30%同一性，无明显的结构域移动。
（ii）不对称单元中多个分子的～45%一致性，无明显的结构域移动。
（iii）不对称单元中两个或多个分子的同一性>50%，其中存在显著的结构域移动。

对于通过实验阶段化求解的结构，已经有诸如SHELX公司一套，AUTOSHARP公司和解决方案/RESOLVE（解决）它们集成了管道的一部分。这些数据在研讨会上通过了几个示例进行了测试，充分利用Hendrickson–Lattman系数对低分辨率数据的重要性变得很清楚。海盗进行了密度修改测试，与早期软件相比，似乎提供了一组更真实的Hendrickson–Lattman系数。正在开发的管道仍处于早期阶段，但对这些开发应该采取的方向有了相当深入的了解。数据质量的限制与上述MR的限制有很大不同；实验相位调整在低分辨率下是有效的，但需要更精确的强度估计，通常通过测量高多重性数据集来实现。

ARP协议/弯曲是唯一被广泛使用的自动化模型构建工具。事实证明，它对于数据扩展到2.3º或更好的结构非常强大（见表8). 在较低的分辨率下，会遇到问题海盗和库特在研讨会期间进行了简短测试的程序需要用于解决这些问题。然而，在灰砂岩（2.7–3.3º）中衍射极限的晶体仍然需要大量的时间和精力，有时这种努力会失败。高吞吐量结构测定意味着可以将有限的时间用于单个项目，从而需要自动化。我们遇到了几个例子，BA0592（来自车间设备）和BA4525（最近收集），在这些例子中获得了晶体，收集了数据并找到了MR解决方案，但由于自动化建模和精炼失败。以项目为导向的研究的更持续努力可能会带来成功。

总的来说，只要数据具有足够的质量和分辨率，在不久的将来，蛋白质晶体结构的全自动解决方案模块的前景是非常有希望的。

致谢

SPINE项目由欧洲委员会资助，合同号为QLG2-CT-2002-00988，属于“生活质量和生物资源管理”综合方案下的SPINE（欧洲结构蛋白质组学）。GW和RK由BBSRC e-HTPX拨款（BEP17782）支持，CB、NS、MGWT和MW由CCP4支持。KDC得到了皇家学会（批准号003R05674）的支持。PE和AAV由BBSRC第87/B17320号拨款资助。根据第六框架计划主题领域“生命科学、基因组学和生物技术促进健康”合同号LHSG-CT-2003-503420，GNM由佛罗里达州威康信托基金会（Wellcome Trust，FL）通过欧盟BIOXHIT合同提供支持。ARP协议/弯曲NKI（AP，SXC）和EMBL（VL，GL）的算法开发由NIH（拨款R01 GM62612-01）和EU BIOXHIT合同资助。AP和SXC感谢Marouane Ben Jelloul在开发pyWARP公司.

参考文献

P.M.阿尔扎里。等。(2006).《水晶学报》。D类62, 1103–1113. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Bernstein，F.C.，Koetzle，T.F.，Williams，G.J.B.，Meyer，E.F.Jr，Brice，M.D.，Rodgers，J.R.，Kennard，O.，Shimanouchi，T.&Tasumi，M.（1977年）。分子生物学杂志。 112, 535–542. 交叉参考中国科学院公共医学科学网谷歌学者
 Berman，H.M.、Westbrook，J.、Feng，Z.、Gilliland，G.、Bhat，T.N.、Weissig，H.、Shindyalov，I.N.和Bourne，P.E.（2000年）。核酸研究。 28, 235–242. 科学网交叉参考公共医学中国科学院谷歌学者
 Brenner，S.E.、Chothia，C.和Hubbard，T.J.P.（1998）。程序。美国国家科学院。科学。美国,95, 6073–6078. 科学网交叉参考中国科学院公共医学谷歌学者
 Cohen，S.X.、Morris，R.J.、Fernandez，F.J.，Ben Jelloul，M.、Kakaris，M..、Parthasarathy，V.、Lamzin，V.S.、Kleywegt，G.J.和Perrakis，A.（2004）。《水晶学报》。D类60, 2222–2229. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 协作计算项目，第4期（1994年）。《水晶学报》。D类50, 760–763. 交叉参考 IUCr日志谷歌学者
 Cowtan，K.（1998年）。《水晶学报》。D类54，750–756科学网交叉参考中国科学院 IUCr日志谷歌学者
 Cowtan，K.（2000年）。《水晶学报》。D类56, 1612–1621. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Cowtan，K.（2001）。《水晶学报》。D类57, 1435–1444. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 考坦，K.（2003）。IUCr计算。Commun公司。新闻。 2, 4–9. 谷歌学者
 Emsley，P.&Cowtan，K.（2004）。《水晶学报》。D类60, 2126–2132. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Esnouf，R.M.（1999）。《水晶学报》。D类55, 938–940. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Evans，P.（1993）。CCP4研究周末会议记录。数据收集和处理由L.Sawyer、N.Isaacs和S.Bailey编辑，第114-122页。沃灵顿：达斯伯里实验室。谷歌学者
 Evans，P.（2006）。《水晶学报》。D类62, 72–82. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 French，S.&Wilson，K.（1978年）。《水晶学报》。A类34, 517–525. 交叉参考中国科学院 IUCr日志科学网谷歌学者
 Huennekens，F.M.、Henderson，G.B.、Vitols，K.S.和Grimsha，C.E.（1984）。高级酶调节。 22, 3–13. 交叉参考中国科学院公共医学科学网谷歌学者
 Ioerger，T.R.和Sacchettini，J.C.（2002年）。《水晶学报》。D类58, 2043–2054. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Kabsch，W.（1993）。J.应用。克里斯特。 26, 795–800. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Leslie，A.（1999）。《水晶学报》。D类55，1696年至1702年科学网交叉参考中国科学院 IUCr日志谷歌学者
 McCoy，A.J.、Grosse-Kunstleve，R.W.、Storoni，L.C.和Read，R.J.（2005）。《水晶学报》。D类61, 458–464. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Meier，C.、Carter，L.G.、Esnouf，R.M.、Owens，R.J.和Stuart，D.I.（2006）。正在准备中。谷歌学者
 Merritt，E.A.和Murphy，M.E.P.（1994年）。《水晶学报》。D类50, 869–873. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Murshudov，G.N.、Vagin，A.A.和Dodson，E.J.（1997）。《水晶学报》。D类53, 240–255. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Murzin，A.G.、Brenner，S.E.、Hubbard，T.和Chothia，C.（1995年）。分子生物学杂志。 247, 536–540. 交叉参考中国科学院公共医学科学网谷歌学者
 Navaza，J.（1994）。《水晶学报》。A类50, 157–163. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Otwinowski，Z.&Minor，W.（1997年）。方法酶学。 276, 307–326. 交叉参考中国科学院科学网谷歌学者
 Perrakis，A.、Harkiolaki，M.、Wilson，K.S.和Lamzin，S.（2001年）。《水晶学报》。D类57, 1445–1450. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Perrakis，A.、Morris，R.和Lamzin，V.S.（1999年）。自然结构。生物。 6, 458–463. 科学网交叉参考公共医学中国科学院谷歌学者
 Sauter，N.、Grosse-Kunstleve，R.和Adams，P.（2004）。J.应用。克里斯特。 37, 399–409. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Schneider，T.R.和Sheldrick，G.M.（2002）。《水晶学报》。D类58, 1772–1779. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Schwarzenbacher，R.、Godzik，A.、Grzechnik，S.K.和Jaroszewski，L.（2004）。《水晶学报》。D类60, 1229–1236. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Terwilliger，T.C.（2003）。方法酶学。 374, 22–37. 科学网交叉参考公共医学中国科学院谷歌学者
 Vagin，A.A.、Murshudov，G.N.和Strokopytov，B.V.（1998年）。J.应用。克里斯特。 31, 98–102. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Vagin，A.A.和Teplyakov，A.（1997）。J.应用。克里斯特。 30, 1022–1025. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Vaguine，A.A.、Richelle，J.和Wodak，S.（1999）。《水晶学报》。D类55, 191–205. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Zwart，P.H.、Langer，G.G.和Lamzin，V.S.（2004）。《水晶学报》。D类60, 2230–2239. 科学网交叉参考中国科学院 IUCr日志谷歌学者

生物
结晶学

国际标准编号：1399-0047

第62卷| 第10部分| 2006年10月| 第1170-1183页

doi:10.1010/S0907444906032197

格式		BIBTeX公司
		尾注
		RefMan参考手册
		请参阅
		Medline公司
		成本加保险费、运费
		SGML公司
		纯文本
		文本

格式		BIBTeX公司
		尾注
		RefMan参考手册
		请参阅
		Medline公司
		成本加保险费、运费
		SGML公司
		纯文本
		文本

搜索IUCr日记账		国防部		高级搜索
作者		体积	第页