1.简介
2002年启动的欧洲结构蛋白质组学(SPINE)项目旨在为确定生物医学相关蛋白质的三维结构所需的整套过程引入新技术和方法。据设想,这些结构中的大多数将使用X射线晶体学来确定,该计划的一个独特部分专门用于这种方法。该工作包的明确目标是
解决大分子自动X射线分析的问题。为了实现与基因组测序项目相一致的生产量,必须简化大分子晶体学(MX)程序,欧洲许多实验室的工作,包括几个SPINE合作伙伴,正在直接解决这一问题。脚本将链接各个阶段,并将在关键领域制定更好的算法,如分子置换(MR)、实验阶段化、原子模型的自动生成、分子图形和质量评估。该软件将确保高质量伴随着高吞吐量。
(摘自脊柱合同QLG2-CT-2002-00988)。在SPINE项目中,大部分资源用于结构生物学的主要瓶颈,即蛋白质克隆、过度表达和结晶。因此,SPINE只有有限的资源来为高通量晶体计算的发展做出贡献,但通过将主要用户和代码提供者聚集在一起,它能够很好地获得访问权限并为开发提供一些输入。这个问题正在全世界范围内得到解决。显然,联系和协调对于优化开发人员的输出至关重要,必须保持这种联系。在项目早期,SPINE举办了两次研讨会,讨论自动化问题,项目内部和相关团体的人员都参加了研讨会。本报告总结了第三次研讨会上的活动,在该研讨会上,针对从牛津和约克的SPINE合作实验室选择的目标测试了当前方法。本报告没有详细描述正在开发的软件或单个目标的结构,因为这些将在别处发布。
SPINE项目试图遵循传统的CCP4(协作计算项目,1994年第4期)将来自多个来源(例如ARP协议/弯曲(佩拉基斯等。, 1999)和SHELX公司(Schneider&Sheldrick,2002年)]形成一套模块化工具。这需要就交换协议达成协议,这可能很难建立,但将产生更健壮和灵活的软件,可以在未来几年内轻松升级。研讨会的目的是评估SPINE团队及其同事在这方面的进展。
2.目标数据集
从一组细菌(主要是炭疽杆菌和空肠弯曲菌; 阿尔扎里等。, 2006)牛津和约克正在研究的目标(表1). 合并的结构因子和氨基酸序列数据是大多数活性的基础;然而,对于目标子集,可以使用原始图像来评估自动处理协议。在该事件中,这项工作基本上仅限于一个问题数据集(OPPF1314)。
身份证 | N个雷斯 | N个摩尔 | “空间”组 | 分辨率(Ω) | 方法 | PDB代码 | 约克 | | | | | | | BA0288型 | 161 | 8 | C类2 | 1.80 | 先生 | 1亿像素 | BA0296型 | 346 | 2 | 对41 | 2.31 | 先生 | | BA0592型 | 377 | 6 | C类2 | 2.84 | 先生 | | BA1071型 | 311 | 1 | 对212121 | 2.60 | 先生 | | BA1483型 | 235 | 8 | 对212121 | 2.24 | 先生 | 1个e3 | BA1563型 | 282 | 2 | 对21 | 2.20 | 先生 | | BA3935_1型 | 292 | 4 | 对212121 | 1.94 | 先生 | | BA3935_2型 | 292 | 4 | 对212121 | 2.23 | 先生 | | BA4499型 | 203 | 2 | 对21 | 1.80 | 先生 | | BA4508型 | 298 | 1 | C类2 | 2.57 | 先生 | | BA5696型 | 208 | 2 | 对21 | 1.80 | 先生 | | BA5705型 | 327 | 2 | 对4 | 1.80 | 先生 | | 英国标准应用程序 | 543 | 1 | 对212121 | 2.28 | 先生 | 1个月 | BSYloQ公司 | 298 | 1 | 对4三212 | 2.51 | 先生 | 1t9小时 | CJ0982型 | 292 | 2 | C类2 | 2 | 先生 | | 卵石3 | 230 | 2 | 对212121 | 1.65 | 先生 | | SiaP公司 | 306 | 2 | 对21212 | 2.60 | 摩洛哥迪拉姆 | | 牛津 | | | | | | | OPPF651型 | 294 | 2 | 对2 | 2.40 | 先生 | | OPPF1294型 | 193 | 2 | 对41212 | 2.70 | 摩洛哥迪拉姆 | | OPPF1311型 | 255 | 4 | 对6122 | 2.72 | SAD公司 | | OPPF1314型 | 200 | 2 | 对1 | 1.50 | 先生 | | OPPF2088型 | 139 | 1 | 对三121 | 2.20 | 摩洛哥迪拉姆 | | OPPF2153公司 | 222 | 4 | 对21 | 2.70 | 摩洛哥迪拉姆 | | OPPF2245型 | 229 | 2 | 对21 | 3.30 | 先生 | | | |
基本的选择参数是靶蛋白应小于50kDa,不属于复合物,不含信号肽类并且没有跨膜区域。大多数是MR的候选对象,是后续应用的直接目标ARP协议/弯曲电子密度自动判读包。
在研讨会期间,对两个结构进行了更详细的检查,以查明结构自动化管道中的问题。这些是OPPF1314(牛津)和SiaP(约克)。
2.1. OPPF1314型
OPPF1314数据用于测试数据处理和分析管道以及自动建模程序。OPPF1314是一种5-甲酰四氢叶酸环连接酶(BA4489),分子量为22.3 kDa(292个残基)。该蛋白催化5-甲酰基四氢叶酸盐(亚叶酸;Huennekens等。, 1984).
The full details of the结构测定将在别处描述(梅耶等。, 2006). 简单地说,OPPF1314与底物ATP和5-甲酰四氢叶酸共结晶得到晶体,并在ESRF的ID14EH1上测量了一个属于空间组 对1在晶体学中包含两个分子非对称单元。数据是在高分辨率通道(其中许多低分辨率反射超载)中采集的,然后是低分辨率通道。衍射显示出高度的镶嵌性。数据缩减DENZO公司/电子秤组件(Otwinowski和Minor,1997年)在研讨会之前,给出了一个明显合理的合并数据集,但事实证明,通过MR使用之前在不同的空间组或相关结构(PDB代码1码)序列同源性为47%。
2.2. SiaP公司
SiaP蛋白MAD阶段(表1)在车间中使用,通过实验阶段化对kick-start自动建模进行测试。PDB中的一个结构,1千7千,具有一些(25%)序列一致性,但仅超过分子的三分之一。在ESRF的英国MAD光束线BM14上收集了三种波长(0.97907、0.90778和0.97920 Au)的SeMet标记蛋白的MAD数据集。SeMet晶体衍射至2.6º分辨率,并具有高合并度R(右)在外部范围和属于空间组 对21212,晶体中有两个分子非对称单元。虽然2.9至2.6º之间的数据分辨率特别弱[我/σ(我)=1.5在外壳中],证明它们对结构解决方案至关重要。
预计有16个硒原子非对称单元和SHELXC公司和SHELXD公司(Schneider和Sheldrick,2002年)发现了14个站点。相位计算采用SHELXE公司而是使用REFMAC公司-ARP协议/弯曲这些阶段都失败了:程序构建了许多短断连接肽类没有侧链停靠。同样的重原子溶液在RESOLVE(解决)(特威利格,2003年),在~44个链中构建了468个残基,但只有75个侧链对接。该模型依次被输入REFMAC公司-ARP协议/弯曲使用“默认”选项,但该过程分解了模型,而没有添加其他功能。通过使用RESOLVE(解决)期间施加相位约束的模型REFMAC公司 精炼循环。为此,参考相位集基于原始相位SHELXE公司硒的相下部结构,通过溶剂压平法进行改进,以给出具有相关优值的单一“最佳”相估计。这给出了更好的结果R(右)汇聚在30.4%左右(R(右)自由的未使用),用于在27条链和65条侧链中有260个主链残基的模型。这再次反映了RESOLVE(解决)模型。所有这些工作都是在研讨会之前进行的。
4.数据处理
4.1. 数据集成
XIA-DPA公司应用于图像可用的目标。下一个DPA是现有数据处理和分析软件的自动包装器。它旨在以模块化的方式组合独立开发的功能,以便直接替换单个功能。XIA-DPA公司将这些集成到一个专家系统中,该系统能够在无需用户干预的情况下就如何处理数据做出决策。
XIA-DPA的用户界面很简单:图像的文件名足以启动二维或三维集成的数据处理任务:xia-autoprocess-2d/path/to/data/set/foo_1_001.img或xia-autoprocess-3d/path/to/data/set/foo_1_001.img.
当前软件分发使用贴标签的执行自动索引,然后与进行二维集成MOSFLM公司或三维集成使用XDS公司.毫无意义的(埃文斯,2006年)用于选择最可能的点组。可以使用执行缩放和合并SCALA公司和截断或通过XSCALE公司对图像进行处理,以提供常用格式(MTZ和我+,我−,我,F类+,F类−,F类和电子秤组件)以及根据对系统性缺勤。目标是提供“数据到结构”管道的初始阶段,以生成机器可读信息,用于结构解决的后续步骤。
4.2. 数据分析和质量评估
很早在研讨会上就意识到,所提供的实验数据往往没有以用户或计算机可以访问的形式携带所有必要的晶体信息。一些信息(如波长)应记录在反射文件标题中。我们建议一个简单的解决方案是定义一个可接受的交换格式,并在交换文件中记录符合该格式的标记信息。
在自动程序中作出的决定分为四类。
(i) 样本参数,例如.重原子的序列、分子量和预期数量。 (ii)X射线实验细节:直接参数,如波长、光束线和温度,导出的参数,包括晶胞、点群、晶体学非对称单元中可能的分子数,以及任何非晶体学平移算子和质量指标的存在,包括标称分辨率,估计的B类因子和各向异性以及低分辨率和高分辨率下的完整性(前者对MR很重要)、多重性、,我/σ(我)和合并R(右)因子,所有这些都是分辨率的函数。 (iii)根据预期值测试强度统计数据,包括累积强度分布和力矩。这些是实验中问题的敏感指标,例如孪生或处理中的局部错误,例如大量低分辨率项的饱和(图1). (iv)识别晶体的特殊特征,例如伪对称性或潜在的替代索引。
|
这份清单当然不完整,需要社区就需求的正式定义达成一致。 | 图1 使用不同数据处理包对OPPF1314图像进行数据缩减的结果(见表3)用…分析截断(一)第二时刻我在分辨率外壳中。(b条)的最初时刻E类在分辨率外壳中。(c(c))的三阶矩E类在分辨率外壳中。在所有面板中,组合的数据集用实线(蓝色,DENZO公司/电子秤组件; 绿色,MOSFLM公司/SCALA公司; 红色,XDS公司/XSCALE公司),而使用处理低分辨率过程的结果DENZO公司/电子秤组件以蓝色虚线显示。 |
大多数必要信息已经在各种程序的输出中可用,但尚未编码到可接受的交换文件中。车间使用的数据集通过以下方法进行了回顾性评估:截断和SFCHECK(SF检查)(表2).
身份证 | N个(我) | B类美国东部时间(Å2) | 阿尼索 | 伪T | 双胞胎 | 威尔逊 | 评论 | 约克 | BA0288型 | 好 啊 | 18/27 | N个 | | | | 低相对较弱 | BA0296型 | Sig公司 | 58/66 | N个 | | T型 | | 高分辨率不完整 | BA0592型 | 奇数 | 71/69 | Y(Y) | | | | 95%完成 | BA1071型 | 好 啊 | 54/55 | Y(Y) | | | | 95%完成,低分辨率弱 | BA1483型 | 好 啊 | 27/35 | 是吗? | | | | 低-弱,高-不完整 | BA1563型 | 好 啊 | 35/44 | Y(Y) | Y(Y) | | | 低-弱,高-不完整 | BA3935_1型 | 好 啊 | 20/29 | N个 | | | 非线性 | 低相对较弱 | BA3935_2型 | 好 啊 | 42/49 | Y(Y) | | | | 低-弱,比以前好 | BA4499型 | Sig公司 | 25/34 | Y(Y) | | | | | BA4508型 | 奇数 | 第53页,共56页 | Y(Y) | | | | 94%完成,战略不佳? | BA5696型 | 好 啊 | 27/36 | Y(Y) | | | | | BA5705型 | Sig公司 | 24/32 | Y(Y) | | T? | | | 英国标准应用程序 | 好 啊 | 32/39 | Y(Y) | | | | 低相对较弱 | BSYloQ公司 | 好 啊 | 44/66 | Y(Y) | | | | | CJ0982型 | Sig公司 | 2738 | Y(Y) | | | 非线性 | 不完整且各向异性很强 | 卵石3 | 好 啊 | 17/24 | Y(Y) | | | 奇数 | 低雷诺数,可能还可以 | SiaP公司 | 好 啊 | 34/42 | Y(Y) | | | | 低相对较弱 | 牛津 | OPPF651型 | 野生 | 41/47 | Y(Y) | Y(Y) | | | 低相对较弱 | OPPF1294型 | Sig公司 | 105/105 | N个 | | T? | | 整体表现非常弱 | OPPF1311型 | 奇数 | 72/70 | Y(Y) | Y(Y) | | | 奇数分布 | OPPF1314型 | 好 啊 | 37/47 | Y(Y) | | | | 见正文;不完整,合并时出现问题 | OPPF2088型 | Sig公司 | 42/51 | Y(Y) | | T? | | | OPPF2153公司 | 野生 | 49/50 | Y(Y) | Y(Y) | ? | 非线性 | 数据非常弱 | OPPF2245型 | 好 啊 | 76/54 | Y(Y) | | T? | 非线性 | 低分辨率 | XIA-DPA公司处理 | OPPF1314-2D型 | 奇数 | 24/19 | Y(Y) | | | 好 啊 | 5%的反射被拒绝 | OPPF1314-3D | 好 啊 | 22/19 | Y(Y) | | | 好 啊 | 拒绝的反射更少,数据质量更好 | BA0296型 | Sig公司 | 49/53 | N个 | N个 | T型 | | 缺少楔形数据,不完整 | BA0592型 | 好 啊 | 69/58 | Y(Y) | N个 | | | 非常各向异性 | BA1071型 | Sig公司 | 34/44 | Y(Y) | N个 | T? | | 孪生迹象 | BA2236型 | Sig公司 | 26/39 | Y(Y) | N个 | T? | | Wilson因高分辨率而较差。 | BA4525型 | 好 啊 | 21/33 | Y(Y) | N个 | | | 2.7Ω数据缺失 | BA5505型 | 好 啊 | 57/66 | N个 | N个 | | | 冰环 | | |
4.3. 测试应用程序
4.3.2. 其他目标
另外六个目标的衍射图像在车间使用XIA-DPA公司使用二维选项(表4). 与为BA0592车间提供的数据的一致性似乎令人满意,其他数据集的质量评估也可以接受(表2). BA0296说明了一种情况,即应在数据采集期间执行快速自动数据处理,以选择最佳策略。立方体满足自动索引水晶类。然而,随后的分析表明点编组是四方的。不幸的是,这导致了数据集相当不完整。这次研讨会极大地促进了下一个DPA管道。
蛋白质 | 分辨率(Ω) | “空间”组 | R(右)合并 | 完整性(%) | 多重性 | 我/σ(我) | R(右)fac公司 | BA0296型 | 2.5 | 对41/4三 | 11.3 | 81.7 (70.9) | 2.5 | 7.7 (2.3) | | BA0592型 | 3 | C类2 | 20.1 | 99.5 (99.3) | 4 | 8.4 (1.9) | 0.087 | BA1071型 | 2 | 对212121 | 14 | 96.7 (81.5) | 4.1 | 6.6 (1.7) | | BA2236型 | 2.1 | 对212121 | 15.1 | 88.1 (56.8) | 6 | 7.6 (1.8) | | BA4525型 | 2 | C类2 | 7.8 | 69.1 (17.4) | 3.5 | 13.0 (3.0) | | BA5055型 | 2.4 | 对三n个21 | 14.8 | 96.0 (84.6) | 7.3 | 10.2 (1.0) | | | |
4.4. 讨论;自动化数据处理的经验教训
数据处理和分析步骤对于结构求解管道至关重要。这个XIA-DPA公司管道对于许多数据集来说性能良好,但在更具挑战性的情况下,如OPPF1314,它必须标记异常情况并向晶体学家发出警报。在BA0296的情况下,从初始索引中获得的信息后来被发现是不正确的,这突出表明需要简单可靠地确定点编组在数据收集期间从有限的数据中获取。
在自动化程序结束时对数据质量进行最终评估是一种良好的做法,应始终进行。自动化程序有两个特点,即再现性和标准化,这应允许更客观的汇总统计。它们还可以在不同的包之间执行繁琐的转换,使所有统计数据都可以由同一个程序计算,从而具有更大的可比性。
最后,在任何自动化工作中,管道的成功取决于各个步骤的累积成功。随着数据处理程序变得更加可靠和复杂,管道的总体成功率应该会提高。
5.分子置换管道
在所有自动化结构求解管线中,处理MR的管线是目前最先进的,也是车间的核心活动。每个管道都有五个基本任务要处理。
(i) PDB中是否有合适的模型结构?这需要使用序列匹配工具,例如爆炸和美国金融服务贸易协会(布伦纳等。1998年)可以扫描PDB(伯恩斯坦等。, 1977; 伯曼等。, 2000)同源结构用作模板。必须严格审查这些比对的结果。例如,短片段上的序列相似性可能价值有限;需要的是对序列的整个长度进行拟合,或者至少对一个广泛的分数(例如域)进行拟合。必须根据生物学知识决定最佳搜索单元:这包括识别搜索可能的低聚物,以及将单链分解为各个域。模型通常可以根据序列比对进行有效修改,例如.删除间隙和修剪侧链。这种修剪的一个实际优点是将“正确的”残留物编号和命名引入到模型中,这在重建过程中很有用。 (ii)X射线数据的信息内容是什么?X射线图像的还原和分析应提供一组基本信息,并提供给用户/程序/管道(参见§4.2). (iii)MR搜索是否表明有令人满意的解决方案?每个程序都提供了潜在解决方案的评分功能,需要将最佳方案与其他方案进行对比。在某些情况下,晶体空间组不明确;然后,自动翻译搜索必须涵盖所有可能性,其中一个结果的明确性也是可能成功的标志。 (iv)解决方案可能正确吗?首先,为了获得正确的解决方案,模型分子不得与单位单元格。其次,初步自动化精炼应该减少这两者R(右)和R(右)自由的更复杂的测试可以解决解决方案是否具有良好生物意义的问题(例如残留物在合适的静电环境中,敏感的晶格接触),但这些很难自动化。 (v) 结果模型能否令人满意地重建?合适的MR溶液的最佳标准仍然是产生的电子密度的质量。如果新的正确特征在地图中可见,而模型的错误特征不可见,则可以将其视为解决方案。这在§中进行了讨论7
|
5.1. 单个管道
在本节中,我们将报告三个团队获得的结果。所有团队在执行各种任务时都使用了一些相同的工具。CHAINSAW公司(下一版本的中央对手方清算所4套件)是一个新的实用程序,用于操作模型。它检查以标准格式提供的靶标和模板之间的序列比对,并通过将非保守侧链修剪回γ保持保守残基不变。原子和残留物的名称和编号与目标中的名称和数量相匹配。结果就是施瓦岑巴赫等。(2004)被称为“混合模型”,因为与多胺模型相比,保留了更多的原子,但模型中不太可能存在的部分晶体结构,因此可能会降低信号的质量。
摩尔代表还包含许多模型准备工具。它将给定的序列与模型对齐,并准备截断的模型。它还可以使用给定的非晶体学对称性转型。AMoRe公司是一个完善的软件包,将旋转、平移和刚体分离开来精炼模块,允许在针对问题定制协议方面具有很大的灵活性。相位器有一个复杂的评分方案,并考虑到之前定位的任何模型的贡献,重新计算多个分子的定向搜索。REFMAC公司5精炼用于评估解决方案的质量;如果两者都是R(右)和R(右)自由的然后,一个解决方案被判断为基本正确。
5.1.1. 这个BUMP先生包裹
这个BUMP先生该包已作为eHTPX的一部分开发(网址:https://www.e-htpx.ac.uk/)和CCP4项目:eHTPX以访问18-CPU集群的形式提供了广泛的计算资源通过eHTPX web服务。这种模式对于序列同源性较低的边缘病例特别有用,在这些病例中,可以使用平行方法,同时研究一系列假定的试验模型和方法。或者BUMP先生软件包可以定制为在桌面上运行,并在研讨会期间在两种模式下进行了测试。它旨在利用序列和结构的网络可访问数据库,而不是依赖于本地数据库。这可以确保信息是最新的,但有一个缺点,即查询是通过公共网络提交的,速度可能会较慢。自研讨会以来,BUMP先生已扩展为允许在本地执行此搜索。
简言之BUMP先生流水线包括以下步骤:目标的属性由提供的反射和序列文件生成(例如,非对称单元中的预期分子数),然后生成美国金融服务贸易协会搜索当前PDB以生成可能的同源结构列表,然后下载。对于每个,PQS服务器(https://pqs.ebi.ac.uk网址/)查询以确定模型是否作为多聚体存在。如果是这样的话,多聚体是否能适应目标单位电池,它被添加到模板列表中。最近添加了一个不适用于此处描述的测试的域,该域由SCOP公司(穆尔津等。, 1995)到模板列表。
下一步是根据模板生成试用模型。目前使用三种方法。首先,在PDBCLIP公司方法使用原始模板坐标,经过各种整理步骤,如去除水、去除替代构象等第二,对齐和模型改进方法摩尔代表使用。第三中央对手方清算所4程序CHAINSAW公司上述用于提供混合模型。
顶级模型传递给摩尔代表第一次尝试MR.If摩尔代表生成解决方案(与分数无关),定位模型传递给REFMAC公司30个循环有节制的精致。免费的R(右)因素被用作成功的标准。如果R(右)自由的显著下降时,脚本停止并报告解决方案的详细信息。在不停止脚本的情况下确定边缘解决方案。除非获得明确的解决方案,否则BUMP先生脚本继续处理所有试用模型摩尔代表,之后使用相位器作为MR引擎。对于群集实现BUMP先生测试模型是并行处理的,在任何集群节点上都会成功地停止所有节点上的脚本。
以下内容的摘要BUMP先生结果见表5除非另有明确说明,否则这些结果是在研讨会期间获得的,之前不了解结构,也没有任何特别的自定义默认脚本。唯一的例外是,如果存放了实际的目标结构,则运行脚本时会排除此结构。很明显,良好解决方案的标准过于严格,在许多情况下,脚本在找到良好解决方案后继续处理试验模型。在这些情况下,表5显示了一个或多个被确定为“边际”而非“成功”的解决方案。为了进行比较,在某些情况下相位器循环与来自摩尔代表循环。MR步骤的结果是一个定位但不准确且不完整的模型。循环约束细化通常表明该模型将被细化,并且可能实现最终模型(例如,参见BA4499)。在其他情况下,没有这种明确的迹象(例如BA1563),关于程序成功的结论必须等待模型重建。
身份证 | N个摩尔 | 型号 | %ID编号 | 修剪过的 | MR程序 | 初始R/Rf | 最终R/Rf | 成功 | 重建 | BA0288型 | 8 | 1个u11_A类 | 66 | 摩尔代表 | 摩尔代表 | 0.45/0.45 | 0.30/0.33 | Y(Y) | Y(Y) | BA0288型 | 8 | 1个u11_0个 | 66 | 万用表 | 摩尔代表 | 0.46/0.45 | 0.32/0.36 | Y(Y) | — | BA0592型 | 6 | 1个pjb_A类 | 54 | PDBCLIP公司 | 摩尔代表 | 0.44/0.43 | 0.32/0.39 | Y(Y) | N个 | BA1071型 | 1 | 1c9e公司_A类 | 73 | CHAINSAW公司 | 摩尔代表 | 0.43/0.44 | 0.29/0.36 | Y(Y) | Y(Y) | BA1483型 | 6 | 第1季度_A类 | 57 | CHAINSAW公司 | 摩尔代表 | 0.51/0.52 | 0.35/0.41 | Y(Y) | Y(Y) | BA1563型 | 2 | 1个ufv_B类 | 49 | CHAINSAW公司 | 摩尔代表 | 0.51/0.50 | 0.40/0.47 | 对 | 对 | BA3935_1型 | 4 | 1马力_A类 | 42 | 摩尔代表 | 摩尔代表 | 0.52/0.52 | 0.37/0.41 | Y(Y) | Y(Y) | BA3935_2型 | 4 | 1s5吨_B类 | 42 | 摩尔代表 | 摩尔代表 | 0.49/0.49 | 0.33/0.39 | Y(Y) | Y(Y) | BA4499型 | 2 | 1月9日_0个 | 71 | 万用表 | 摩尔代表 | 0.44/0.46 | 0.28/0.33 | Y(Y) | Y(Y) | BA4508型 | 1 | 1夸脱_A类 | 32 | CHAINSAW公司 | 摩尔代表 | 0.52个/0.53个 | 0.40/0.48 | 对 | N个 | BA4508型 | 1 | 1夸脱_A类 | 32 | CHAINSAW公司 | 相位器 | 0.52/0.51 | 0.40/0.48 | 对 | — | BA5696型 | 2 | 1月9日_0个 | 56 | 万用表 | 摩尔代表 | 0.46/0.47 | 0.29/0.33 | Y(Y) | Y(Y) | BA5705型 | 2 | 1伏_B类 | 35 | CHAINSAW公司 | 摩尔代表 | 0.55/0.56 | 0.43/0.49 | 对 | — | BA5705型 | 2 | 1伏_B类 | 35 | CHAINSAW公司 | 相位器 | 0.54/0.55 | 0.42/0.45 | Y(Y) | Y(Y) | BSAppa公司 | 1 | 1dpe(每日一次) | 28 | CHAINSAW公司 | 摩尔代表 | 0.57/0.57 | 0.56/0.55 | 对 | — | BSYloQ公司 | 1 | 1微升_A类 | 40 | CHAINSAW公司 | 摩尔代表 | 0.55/0.52 | 0.41/0.48 | 对 | — | BSYloQ公司 | 1 | 1微升_A类 | 40 | CHAINSAW公司 | 相位器 | 0.54/0.50 | 0.42/0.49 | 对 | — | CJ0982 | 2 | 1个合格_A类 | 44 | — | — | — | — | N个 | — | OPPF651型 | 2 | 1对6_A类 | 51 | 摩尔代表 | 摩尔代表 | 0.66/0.65 | 0.42/0.50 | Y(Y) | N个 | OPPF651型 | 2 | 1个php | 77 | 摩尔代表 | 摩尔代表 | 0.65/0.64 | 0.33/0.39 | Y(Y) | Y(Y) | OPPF1314型 | 2 | 1码_C类 | 47 | CHAINSAW公司 | 摩尔代表 | 0.53/0.52 | 0.47/0.48 | 对 | 对 | OPPF2245型 | 2 | 1磅_A类 | 37 | CHAINSAW公司 | 摩尔代表 | 0.54/0.55 | 0.45/0.52 | 对 | N个 | | |
表5第二列显示了非对称单元。在三种情况下,自动脚本高估了正确的数字:BA1483、BA3935_2和BA0592。对于最后两个,这并不重要,因为摩尔代表未能找到预测的最后一个分子精炼继续进行正确数量的分子。在第一种情况下,摩尔代表发现了七个分子,所以最终的模型有一个虚假的额外分子。目前BUMP先生流水线并没有明确地处理平移NCS,例如在OPPF651中就出现了这种情况。在大多数情况下,有几种模型和方法可用于解决结构问题,脚本(在确定“成功”后)或作者(在审查“边际”解决方案后)所选择的选择基本上是任意的。通常,该结构既可以用单体搜索模型求解,也可以用多聚体求解。例如,BA0288可以用链求解A类属于1个ul1或使用从PQS服务器下载的八倍频程。两者都能迅速完善到足够R(右)值,尽管八分音阶的约束几何体会导致稍差的结果。多元搜索的优势在于速度和潜在的信噪比,通常会先尝试。
在尝试的17个结构中(忽略表5中的重复条目),10个基本解决,6个可能解决,但需要进一步调查,1个明显未解决。应该强调的是,这些结论是基于MR和精炼程序和在某些情况下重建ARP协议/弯曲和临时待定结构竣工。在CJ0982的情况下,它被认为是未解决的,初始同源性搜索只产生一个命中,其序列一致性为44%,但对齐长度仅为70个残基。如其他地方所述,OPPF1314的数据处理存在问题,结果如表5所示是针对原始问题数据截断为2.3º分辨率的。
这个BUMP先生该软件包仍在开发中。当前版本有望自动化结构解决方案通过简单示例中的MR。对于当前的测试用例,它确定了大多数用例中的解决方案或可能的解决方案。其中许多病例在PDB中具有良好的同源物,可以通过任何合理的方法解决。对于这些BUMP先生这只是一种方便,特别是当需要尝试和比较几个同源物时。
BUMP先生需要中央对手方清算所4软件包加上少量助手应用程序,它在约克安装时没有出现问题。目前它是从一个简单的shell脚本运行的,研讨会上的用户发现自己运行这个包很容易。BUMP先生提供了一个框架,在此框架内可以进一步发展,以处理更困难的案件。正在进行的工作解决了每个步骤中应用的算法和连接的工作流程。自研讨会以来,BUMP先生已于提供https://www.ccp4.ac.uk/martyn/BPM/mrbump.php并鼓励反馈。
5.1.2. 自动化分子置换具有AutoAMoRe公司
的优势AMoRe公司速度和灵活性。AutoAMoRe公司是作为中央对手方清算所4自动化项目,通过MR使用AMoRe公司. TheAutoAMoRe公司脚本调用各种中央对手方清算所4个实用程序。它检查原生Patterson是否存在翻译NCS,如果合适的话,将分子成对定位。最终坐标是使用PDBSET(PDBSET)并检查与的冲突距离.AutoAMoRe公司生成重要参数的简明摘要文件。采用的方法是将目标序列输入爆炸服务器并选择同源性最高的求解结构作为模板,排除所有具有100%身份的结构。坐标从EBI下载(https://www.ebi.ac.uk网站/)并通过CHAINSAW公司。此选择和操作是手动执行的,只有随后的MR计算AMoRe公司都是自动化的。然而自动AMoRe脚本已作为模块并入BUMP先生管道。AutoAMoRe公司在每种情况下都使用单体模型在18个目标数据集上运行。通过检查决赛对解决方案进行评分相关系数对于所有分子非对称单元任何冲突超过20次的解决方案都被拒绝。得分最高的溶液经过十个循环精炼使用REFMAC公司使用的默认参数中央对手方清算所4我图形用户界面。如果R(右)自由的期间下跌了5%以上精细化,这个解决方案被认为是成功的。使用版本的自动AMoRe车间提供的软件。随后对软件进行了多项改进,最终解决了另外四个案例,总体成功率为55%。结果总结见表6.
目标 | N个摩尔 | 型号 | %ID编号 | 初始R/Rf | 最终R/Rf | 成功 | 重建 | BA0288型 | 8 | 1个u11 | 65 | 0.41/0.42 | 0.32/0.35 | Y(Y) | Y(Y) | BA0296型 | 2 | 1cli个 | 53 | 0.46/0.47 | 0.35/0.48 | | | BA0592型 | 6 | 1个pjc | 55 | | | | | BA1071型 | 1 | 1个1 | 73 | 0.42/0.41 | 0.26/0.41 | Y(Y) | Y(Y) | BA1483型 | 6 | 1个中央处理器 | 56 | 0.51/0.51 | 0.39/0.46 | Y(Y) | | BA1563型 | 2 | 1v8f版 | 48 | 0.52/0.54 | 0.43/0.52 | 对 | Y(Y) | BA3935_1型 | 4 | 1迪拉姆 | 43 | 0.51/0.50 | 0.41/0.46 | Y(Y) | Y(Y) | BA3935_2型 | 4 | 1迪拉姆 | 43 | 0.48/0.47 | 0.36/0.43 | Y(Y) | Y(Y) | BA4499型 | 1 | 1月9日 | 70 | 0.43/0.49 | 0.30/0.34 | Y(Y) | Y(Y) | BA4508型 | 1 | 1立方米 | 31 | 0.52/0.51 | 0.39/0.52 | | | BA5696型 | 2 | 1月9日 | 55 | 0.44/0.44 | 0.30/0.34 | Y(Y) | Y(Y) | BA5705型 | 2 | 1伏 | 41 | | | | | BSAppa公司 | 1 | 1个百分点 | 26 | | | | | BSYloQ公司 | 1 | 1个uol | 40 | 0.56/0.56 | 0.39/0.60 | | | CJ0982型 | 2 | 1美元 | 27 | | | | | OPPF 651型 | 2 | 1马力 | 77 | 0.49/0.51 | 0.34/0.48 | Y(Y) | | OPPF1314型 | 2 | 1码 | 47 | 0.49/0.46 | 0.37年/0.46年 | Y(Y) | Y(Y) | OPPF 2245型 | 2 | 1000万 | 36 | | | | | | |
5.1.3.棒球
棒球是由FL、AAV和GNM开发的自动MR系统。它有三个主要组成部分:PDB(伯恩斯坦等。, 1977; 伯曼等。, 2000)这是一个Python脚本,用于控制工作流,并制定决策和科学程序来执行实际计算。该脚本使用以下程序:SFCHECK(SF检查)用于结构因素分析,摩尔代表对于分子置换和REFMAC公司对于精细化。已经开发了几个其他程序,用于重组PDB中的对齐和搜索。
PDB中的~30000个结构已根据序列和三维结构进行了重组和分类。如果两个蛋白质的序列一致性超过90%,或者叠加后匹配原子对之间的根平方偏差小于1º,则删除冗余条目。这将条目的数量减少到约10 000个结构的参考集,这些结构根据相似性组织到层次数据库中。对于每个条目,都会建立潜在的多聚体和域结构并对其进行编目。
Python脚本读取正在研究的蛋白质的实验数据和序列信息。在重组后的PDB中搜索相关序列,识别候选模型,并在适当的情况下用多聚体和域返回坐标。在Macintosh G5电脑上,整个搜索过程大约需要10秒。根据序列一致性和表面可及性对假定模型进行了修改。实验数据使用SFCHECK(SF检查),表示伪翻译等问题特征,孪生或各向异性,并建议MR搜索的最佳分辨率。这些分析的信息传递给摩尔代表几个协议按顺序进行测试:首先是多聚体,然后是单个亚单位,然后是域。在每项协议之后,就“解决方案”是否正确作出决定。如果尚未满足预期单体的数量,则继续MR。在研讨会期间,模型直接传递给ARP协议/弯曲用于重建。随后,实现了一个更好的协议:首先将MR解决方案传递给REFMAC公司对于刚性体的多个循环有节制的精致。这为重建带来了实质性的更好结果。
棒球处于开发阶段,数据库会自动定期更新。对于当前测试,数据库包含2004年底发布的PDB条目。
车间示例只需要可用协议的一个子集。这些包括具有一个亚单位的简单MR(两例,一例成功)、二聚体搜索(四例,两例成功,一例可能成功)、多个亚单位逐步搜索(13例,十例成功,1例可能)和伪翻译的使用(四例、两例成功、一例可能)。更复杂的协议,如域搜索、多副本搜索、迭代精炼当前测试不需要MR。研讨会的经验表明,若干议定书的实施需要加快。结果总结见表7.
目标 | N个物件 | 型号 | %ID编号 | 伪翻译 | N个摩尔预期 | N个摩尔建立 | 初始R/Rf | 最终R/Rf | 成功† | BA0288型 | 161 | 1亿像素,1o4伏 | 100 | N个 | 4 × 2 | 4 × 2 | 0.31/0.31 | 0.24/0.28 | Y(Y) | BA0592型 | 377 | 1个pjc | 54 | N个 | 7 | 6 | 0.42/0.42 | 0.30/0.36 | Y(Y) | BA1071型 | 311 | 1打 | 72 | N个 | 1 | 1 | 0.45/0.45 | 0.29/0.39 | Y(Y) | BA1483型 | 235 | 1个e3 | 100 | N个 | 4 × 2 | 4 × 2 | 0.44/0.44 | 0.22/0.27 | Y(Y) | BA1563型 | 282 | 1个ufv | 48 | Y(Y) | 2 | 2 | 0.58/0.56 | 0.43/0.52 | 是/否 | BA3935_1型 | 292 | 1迪拉姆 | 41 | N个 | 4 | 4 | 0.52个/0.52个 | 0.39/0.41 | Y(Y) | BA3935_2型 | 292 | 1迪拉姆 | 41 | N个 | 4 | 4 | 0.49/0.47 | 0.33/0.38 | Y(Y) | BA4499型 | 283 | 1月9日 | 70 | N个 | 2 | 2 | 0.44/0.44 | 0.29/0.34 | Y(Y) | BA4508型 | 298 | 1夸脱 | 32 | N个 | 2 | 1 | 0.52/0.54 | 0.40/0.50 | 是/否 | BA5696型 | 208 | 1月9日 | 55 | N个 | 2 | 2 | 0.45/0.44 | 0.29/0.33 | Y(Y) | BA5705型 | 327 | 1小睡 | 33 | N个 | 2 | 2 | 0.55/0.56 | 0.41/0.47 | Y(Y) | OPPF651型 | 394 | 1个php | 77 | Y(Y) | 2 | 2 | 0.65/0.65 | 0.31/0.39 | Y(Y) | OPPF1294型 | 193 | 1年 | 52 | N个 | 2 | 无 | | | N个 | OPPF1311型 | 255 | 1百万4 | 39 | Y(Y) | 2 × 2 | 2 | 0.60/0.60 | 0.56/0.63 | N个 | OPPF1314型 | 200 | 1码 | 47 | N个 | 2 | 2 | 0.49/0.48 | 0.36/0.43 | Y(Y) | OPPF2088型 | 139 | 第1季度 | 26 | N个 | 1 | 1 | 0.58/0.55 | 0.49/0.59 | N个 | OPPF2153公司 | 222 | 1数量0 | 23 | Y(Y) | 2×2 | 2 | 0.69/0.70 | 0.51/0.57 | P/M公司 | OPPF2245型 | 229 | 1000万 | 37 | N个 | 2 | 2 | 0.54/0.55 | 0.41/0.53 | P/M公司 | | †Y,定解;P、 可能解;N、 没有解决方案;M、 手动检查。 |
5.2. 分子置换管道综述
在考虑的结构中,大多数结构都有一个紧密的同系物可用,并且可以通过MR直接求解。少数不直接求解的结构是方法开发的有趣示例,将是进一步工作的重点。困难可能来自数据处理中的问题。在其他情况下,可能需要更复杂的模型生成或需要实验阶段。
OPPF1314结构的解决方案是研讨会的关键成果之一。所有三条管线都能够通过使用集成的低分辨率数据来确定解决方案DENZO公司/电子秤组件或使用三维XDS选项处理的XIA-DPA公司完善和建立一个完整的模型更具挑战性,只有在重新处理数据后才可能实现。
结果与BUMP先生和棒球在研讨会上表明,即使对于相同的车型ARP协议/弯曲使用BUMP先生解决。这两种方法之间的一个关键区别是缺乏自动化精炼的步骤棒球尝试使用重建模型之前ARP协议/弯曲.介绍精炼进入棒球研讨会之后的协议现在为两条管道提供了高度可比的结果(表5和7).
在最简单的层面上,自动化的作用是方便,提供了一个用户只需很少努力就能解决的解决方案。然而,自动化很可能为不同模型的相对成功提供更客观的标准,并优化解决方案,以将模型重建和完成所需的工作量降至最低。
6.实验定相
实验阶段没有作为自动化测试的一部分进行任何深度的讨论,因为管道处于开发的早期阶段。很明显,许多关键信息无法直接获得,例如几个反射文件没有提供正确的波长信息或记录MAD数据集。OPPF1294、OPPF1311、OPPF2088和OPPF2153之前都已使用SHELX公司一套。然而,SiaP结构是分阶段的,并且主要是在研讨会期间构建的,从而深入了解了如何最好地将弱阶段信息用于中等分辨率的自动化模型构建。
本次调查的主要软件工具是海盗,统计阶段改进计划(Cowtan,2000).海盗在不需要了解溶剂含量的情况下,通过稀疏/致密和有序/无序对电子密度进行分类。构造统计目标,根据局部密度均值和方差推断出可能密度值的分布。通过使用已知的“参考”结构,对这些目标进行优化,该结构通过缩放和误差模拟过程进行操作,以生成与正在检查的地图在统计上相似的地图。该软件仍在开发中,旨在以完全自动化的方式使用。
SiaP结构仅使用Se站点的峰值数据进行了阶段化,使用SHELXD公司和初始定相由执行SHELXE公司。这使用溶剂稀释程序来细化初始SAD估计和输出阶段以及相关的优值。在研讨会期间,使用MLPHARE公司记录Hendrickson–Lattman(HL)系数。平均成绩为0.43,在2.7奥时降至0.15。海盗用于改进这些SAD阶段,将总相位误差从64°减少到48°(根据研讨会后完全细化的最终模型进行评估),并提供更好、更现实的价值评估。试图从这两个起始阶段集完成模型(§7.4).
7.构建和完善模型
研讨会上没有足够的时间来充分探讨模型编制问题的最佳方法。如果数据集的分辨率扩展到~2.3º,那么ARP协议/弯曲通常可以自动构建模型,前提是有足够高质量的开始阶段。ARP协议/弯曲在所有合适的MR溶液上运行,结果如表8所示; 随后使用pyWARP公司(科恩等。, 2004; 表9). 然而,对于低分辨率数据集和低序列一致性(通常小于30%)的模型,模型构建是一个真正的绊脚石。低分辨率数据MR管道的完全自动化可能需要加入新模块,例如海盗(Cowtan,1998年, 2001)设计用于识别较大的结构特征。在所有情况下,都必须使用图形显示和库特(埃姆斯利和考坦,2004年)可以提供此功能。现在将更详细地描述这些模块。
| | | | BUMP先生 | AutoAMoRe公司 | 棒球 | 身份证 | 分辨率(Ω) | N个摩尔 | 总残留量 | ARP协议/弯曲 | pyWARP公司 | ARP协议/弯曲 | pyWARP公司 | ARP协议/弯曲 | pyWARP公司 | BA0288型 | 1.80 | 8 | 1288 | 1246 (1084) | 1252(1252) | 1241 (1145) | 1249 (1249) | 1250 (1235) | 1248(1166) | BA0592型 | 2.84 | 6 | 2262 | 549 (35) | 429 (162) | — | — | 616(28) | 475 (123) | BA1071型 | 2.60 | 1 | 311 | 201 (95) | 181 (155) | 199(140) | 189 (162) | 206 (141) | 145 (125) | BA1483型 | 2.24 | 6 | 1410 | 1364 (1364) | 1334 (1328) | 357 (43) | 1382 (1269) | 1369 (1359) | 1389 (1230) | BA1563型 | 2.20 | 2 | 564 | 281 (132) | 248 (216) | 5 (0) | 51 (27) | 11 (0) | 85 (26) | BA3935_1型 | 1.94 | 4 | 1168 | 1137 (1130) | 1141 (1141) | 1109 (1061) | 1136(1136) | 1143 (1143) | 1139 (1139) | BA3935_2型 | 2.23 | 4 | 1168 | 955 (674) | 1057 (1044) | 721 (327) | 305 (182) | 1040 (907) | 1081(1038) | BA4499型 | 1.80 | 2 | 406 | 373 (373) | 384 (384) | 378 (378) | 349(349) | 371 (371) | 379 (379) | BA4508型 | 2.57 | 2 | 596 | 105 (21) | 108 (45) | 28 (0) | 118 (80) | 142 (39) | 110 (91) | BA5696型 | 1.80 | 2 | 416 | 386 (386) | 391 (391) | 391 (391) | 396 (396) | 396 (396) | 390 (390) | BA5705型 | 1.80 | 2 | 654 | 533 (533) | 547 (547) | — | — | 531 (526) | 528(528) | OPPF651型 | 2.40 | 2 | 788 | 233 (44) | 245 (159) | — | — | 598 (484) | 656 (646) | OPPF1294型 | — | 2 | 386 | — | — | — | — | — | — | OPPF1311型 | 2.72 | 4 | 1020 | — | — | — | — | 崩溃 | 83(23) | OPPF1314型 | 2.30 | 2 | 400 | 200 (96) | 197 (163) | — | — | 184 (0) | 179 (158) | oppf153 | 2.69 | 2 | 444 | — | — | — | — | 11 (0) | 173 (43) | OPPF2245型 | 3.30 | 2 | 458 | 43 (0) | 102 (37) | — | — | 19 (0) | 82 (41) | | |
| | | | 棒球 | 身份证 | 分辨率(Ω) | N个摩尔 | 总残留量 | ARP协议/弯曲 | pyWARP公司 | OPPF1314X型 | 1.5 | 2 | 400 | 193(109) | 294 (279) | OPPF1314M型 | 1.5 | 2 | 400 | 131 (34) | 257 (246) | OPPF1314X型 | 1.65 | 2 | 400 | 277 (268) | 322 (316) | oppf31.4亿 | 1.65 | 2 | 400 | 253 (208) | 303 (303) | OPPF1314X型 | 1.85 | 2 | 400 | 271(249) | 323 (323) | OPPF1314M型 | 1.85 | 2 | 400 | 261 (226) | 322 (322) | | |
7.3。库特
库特是一个用于蛋白质图谱解释和结构验证的分子图谱应用程序。研讨会强调了它的一些优势,但也强调了一些缺失的功能。事实证明,它对于从自动模型构建重建初始模型非常有效。验证工具通过各种几何指标和适合密度分析来识别模型构建不良的区域。这些区域可以通过交互式真实空间快速改进精炼和正规化。尽管库特本次研讨会并未将其作为模型完成和验证工具进行大量使用,但强调了缺失的功能,包括逆转指挥棒构建的C语言的方法αtrace是用于连接片段的更好工具,是用于自动恢复侧链的用户界面,还有用于纠正注销错误的工具(这是一个更为实质性的问题)。其中一些缺陷现已得到解决。库特目前,所有这些算法都是从图形界面实现的,但应该可以将底层功能合并到适用于自动管道的命令行驱动程序中。
7.4. 实验阶段案例历史:SiaP
已多次尝试使用ARP协议/弯曲。在§2.2我们描述了研讨会之前获得的结果。突破来自§6,即当使用MLPHARE公司提供的程序是对REFMAC公司-ARP协议/弯曲首先,程序从RESOLVE(解决)部分模型和MLPHARE公司在25个周期内,它建造了560个预期的612个残基,其中545个侧链对接。其次,将Hendrickson–Lattman系数直接输入到ARP协议/弯曲尝试了用于构建初始模型的过程。这需要更长的时间,但实际上达到了相同的解决方案。使用的第三和第四次测试海盗构建初始模型。第三次测试从MLPHARE公司阶段,从中海盗建立了288个残基(占总残基的47%)的多胺模型。第四次测试使用了海盗还有这些海盗能够构建384-残基多胺模型(63%)。这两种型号都能够启动ARP协议/弯曲并大大加快了收敛速度。从海盗/海盗模型,ARP协议/弯曲完全建成578个残渣(94%)。
根据目前的发展状况,这是一个令人印象深刻的结果:自动化建筑和精炼基本完整的蛋白质结构,具有相当弱的2.6μs SAD数据。在该解决方案中应用任何特定程序的重要性肯定不如保留完整的实验阶段分布作为建模/细化阶段的约束。
这一结果影响了中央对手方清算所4条和约克自动化管道目前正在建设中。
(i) 以Hendrickson–Lattman系数形式的实验相位约束对于保持ARP协议/弯曲-REFMAC公司在目标上循环。 (ii)使用海盗改进了这一点。重要的是,实验阶段的权重要符合实际。 (iii)在使用特征识别进行初始模型构建时,例如海盗或RESOLVE(解决)无法生成完整的结构,创建了初始模型,大大加快了ARP协议/弯曲-REFMAC公司过程。
|
7.5. 分子置换病史:OPPF1314
在研讨会之前DENZO公司/电子秤组件来自高分辨率数据采集通道的数据集提供了一个清晰的MR解决方案,其中预期的两个分子位于非对称单元。结构完工ARP协议/弯曲虽然取得了部分成功,但收敛速度很慢:在低分辨率下丢失数据必然会降低电子密度ARP协议/弯曲要求选择和拒绝原子位置。
使用进行初始重新处理后XIA-DPA公司三维选项中,来自高分辨率和低分辨率通道的数据显示了反射强度的预期分布(§4.3;图1). 这是允许的ARP协议/弯曲在预期的400个残基中,生产出9个链中含有329个残基的结构非对称单元(用于重建R(右)系数为0.234R(右)自由的(共0.289页)。地图显示,每个分子的一部分有序性很差,这解释了缺失的残基。对图谱的进一步检查揭示了电子密度的其他特征,这些特征不是蛋白质的一部分,可能归因于结合配体(§7.6).
二维综合数据也产生了类似的成功结果(表9)后处理使用改进的XIA-DPA公司软件(§4.3). 然而,数据来自三维和二维的整合ARP协议/弯曲当数据被限制在1.85º分辨率时,而不是使用1.5º的全范围时,会生成更多的残基。这可能反映了ARP协议/弯曲外壳质量较差,或者是由于镶嵌对最高分辨率数据的影响而产生的残余误差。在所有情况下pyWARP公司证明了它的价值。
自研讨会以来,精炼这个结构已经完成,给出了一个包含每条链192个残基、每条链上绑定一个ADP和256个模拟水域的模型。当前R(右)系数为0.219(带有R(右)自由的(共0.265页)。
从这个案例研究中可以得出什么结论?
(i) 数据质量的重要性以及在数据处理阶段标记质量评估参数的意外值(参见§4.3.1). (ii)电子密度低分辨率数据完整性的重要性。 (iii)即使数据不符合标准,MR方法的稳健性。 (iv)CHAINSAW公司-MR搜索之前和MR解决方案之后但重建之前的类型过程。 (v) 模型重建过程中参数的自动更新pyWARP公司与正常情况相比,性能显著提高ARP协议/弯曲程序。 (vi)配体匹配的良好测试(§7.6).
|
7.6. 配体与OPPF1314的结合
7.6.2. 配体建筑库特
库特有能力在地图上搜索可能的配体位点。它使用REFMAC公司单体字典提供配体几何结构的描述,还需要已知配体的一组坐标,可以由中央对手方清算所4程序LIB检查(瓦金等。1998年). 与相同ARP协议/wARP配体构建,密度被选定的坐标集掩盖。之后ARP协议/弯曲对于OPPF1314,库特发现7个假定的配体位点与ADP的预期大小和形状相匹配。在肉眼检查中,发现模型中缺少几个蛋白质结构,但密度相关性上排序的第一和第二个位点对应于两个核苷酸位点。然后使用库特的真实空间精炼选项。
7.7. 模型重建总结
来自表8和9,值得注意的是ARP协议/弯曲根据定位模型的获得方式,变化很大。例如,对于目标BA1563,ARP协议/弯曲能够使用的输出重建大约一半的模型BUMP先生,而从其他假定的解决方案中几乎无法重建。两者都有BUMP先生和棒球习惯于1个ufv作为模板和摩尔代表对于车间的MR,对于目标BA3935_2ARP协议/弯曲重建了约80%的模型BUMP先生,但只有来自平衡变压器验尸分析表明,差异在于BUMP先生进行了30次循环REFMAC公司 精炼之前ARP协议/弯曲.这个精炼步骤随后在中被激活棒球.
我们没有对成功重建的重要因素进行系统的调查,所注意到的差异可能是巧合。然而,在没有明确的MR结果的情况下,采用几个假定的解决方案进行模型重建具有明显的优势。在BA3935_2示例中,两个模板1迪拉姆和1s5吨与靶标具有42%的序列同一性,两者都应该尝试。在这两种情况下,BA1563和BA3935_2的数据的高分辨率极限均为2.2º,在这种情况下,细微差异可能会影响ARP协议/弯曲程序。自动化方案对于此类多模型的调查特别有用。
8.结论
蛋白质晶体学存在一系列潜在的瓶颈,包括蛋白质过度表达、溶解度、结晶和结构溶解。最近,在前三个方面取得了迅速进展(见对这一问题的其他贡献)。全世界在结构分析自动化方面已经并正在取得相当大的进展。图像处理和数据简化的自动化在车间使用XIA-DPA公司。所获得的结果强调了这一步骤的重要性,并表明,虽然原则上这一步骤需要高度自动化,但在制定协议和将适当信息传递给后续步骤时,需要格外小心。
结构求解管道中的MR步骤目前最接近于全自动化。三种新兴程序进行了广泛测试,成功率很高,该软件应在明年内发布供通用。研讨会上吸取的教训包括(i)运行多个循环的明显优势约束细化在开始重建程序之前正确定位MR模型,以及(ii)在适当的情况下,在尝试单个亚单位之前,通常尝试将多聚体作为模型。根据所获得的结果,自动化MR程序可能会成功,至少对于衍射达到2.5º或更好并且满足许多定义标准(总体R(右)合并(6%,低分辨率外壳(4%),高分辨率外壳(35%),完整性(90%)。目前,孪生带来了实际问题,但这应该在不久的将来得到解决:对于具有亚面体孪晶,可能需要衍射到~2.1º或更好。
MR模型应满足以下标准之一。
(i) ~不对称单元中一个分子的30%同一性,无明显的结构域移动。 (ii)不对称单元中多个分子的~45%一致性,无明显的结构域移动。 (iii)不对称单元中两个或多个分子的同一性>50%,其中存在显著的结构域移动。
|
对于通过实验阶段化求解的结构,已经有诸如SHELX公司一套,AUTOSHARP公司和解决方案/RESOLVE(解决)它们集成了管道的一部分。这些数据在研讨会上通过了几个示例进行了测试,充分利用Hendrickson–Lattman系数对低分辨率数据的重要性变得很清楚。海盗进行了密度修改测试,与早期软件相比,似乎提供了一组更真实的Hendrickson–Lattman系数。正在开发的管道仍处于早期阶段,但对这些开发应该采取的方向有了相当深入的了解。数据质量的限制与上述MR的限制有很大不同;实验相位调整在低分辨率下是有效的,但需要更精确的强度估计,通常通过测量高多重性数据集来实现。
ARP协议/弯曲是唯一被广泛使用的自动化模型构建工具。事实证明,它对于数据扩展到2.3º或更好的结构非常强大(见表8). 在较低的分辨率下,会遇到问题海盗和库特在研讨会期间进行了简短测试的程序需要用于解决这些问题。然而,在灰砂岩(2.7–3.3º)中衍射极限的晶体仍然需要大量的时间和精力,有时这种努力会失败。高吞吐量结构测定意味着可以将有限的时间用于单个项目,从而需要自动化。我们遇到了几个例子,BA0592(来自车间设备)和BA4525(最近收集),在这些例子中获得了晶体,收集了数据并找到了MR解决方案,但由于自动化建模和精炼失败。以项目为导向的研究的更持续努力可能会带来成功。
总的来说,只要数据具有足够的质量和分辨率,在不久的将来,蛋白质晶体结构的全自动解决方案模块的前景是非常有希望的。
致谢
SPINE项目由欧洲委员会资助,合同号为QLG2-CT-2002-00988,属于“生活质量和生物资源管理”综合方案下的SPINE(欧洲结构蛋白质组学)。GW和RK由BBSRC e-HTPX拨款(BEP17782)支持,CB、NS、MGWT和MW由CCP4支持。KDC得到了皇家学会(批准号003R05674)的支持。PE和AAV由BBSRC第87/B17320号拨款资助。根据第六框架计划主题领域“生命科学、基因组学和生物技术促进健康”合同号LHSG-CT-2003-503420,GNM由佛罗里达州威康信托基金会(Wellcome Trust,FL)通过欧盟BIOXHIT合同提供支持。ARP协议/弯曲NKI(AP,SXC)和EMBL(VL,GL)的算法开发由NIH(拨款R01 GM62612-01)和EU BIOXHIT合同资助。AP和SXC感谢Marouane Ben Jelloul在开发pyWARP公司.
参考文献
P.M.阿尔扎里。等。(2006).《水晶学报》。D类62, 1103–1113. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.B.,Meyer,E.F.Jr,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977年)。分子生物学杂志。 112, 535–542. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000年)。核酸研究。 28, 235–242. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Brenner,S.E.、Chothia,C.和Hubbard,T.J.P.(1998)。程序。美国国家科学院。科学。美国,95, 6073–6078. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Cohen,S.X.、Morris,R.J.、Fernandez,F.J.,Ben Jelloul,M.、Kakaris,M..、Parthasarathy,V.、Lamzin,V.S.、Kleywegt,G.J.和Perrakis,A.(2004)。《水晶学报》。D类60, 2222–2229. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
协作计算项目,第4期(1994年)。《水晶学报》。D类50, 760–763. 交叉参考 IUCr日志 谷歌学者
Cowtan,K.(1998年)。《水晶学报》。D类54,750–756科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Cowtan,K.(2000年)。《水晶学报》。D类56, 1612–1621. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Cowtan,K.(2001)。《水晶学报》。D类57, 1435–1444. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
考坦,K.(2003)。IUCr计算。Commun公司。新闻。 2, 4–9. 谷歌学者
Emsley,P.&Cowtan,K.(2004)。《水晶学报》。D类60, 2126–2132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Esnouf,R.M.(1999)。《水晶学报》。D类55, 938–940. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Evans,P.(1993)。CCP4研究周末会议记录。数据收集和处理由L.Sawyer、N.Isaacs和S.Bailey编辑,第114-122页。沃灵顿:达斯伯里实验室。 谷歌学者
Evans,P.(2006)。《水晶学报》。D类62, 72–82. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
French,S.&Wilson,K.(1978年)。《水晶学报》。A类34, 517–525. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Huennekens,F.M.、Henderson,G.B.、Vitols,K.S.和Grimsha,C.E.(1984)。高级酶调节。 22, 3–13. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Ioerger,T.R.和Sacchettini,J.C.(2002年)。《水晶学报》。D类58, 2043–2054. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Kabsch,W.(1993)。J.应用。克里斯特。 26, 795–800. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Leslie,A.(1999)。《水晶学报》。D类55,1696年至1702年科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
McCoy,A.J.、Grosse-Kunstleve,R.W.、Storoni,L.C.和Read,R.J.(2005)。《水晶学报》。D类61, 458–464. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Meier,C.、Carter,L.G.、Esnouf,R.M.、Owens,R.J.和Stuart,D.I.(2006)。正在准备中。 谷歌学者
Merritt,E.A.和Murphy,M.E.P.(1994年)。《水晶学报》。D类50, 869–873. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Murshudov,G.N.、Vagin,A.A.和Dodson,E.J.(1997)。《水晶学报》。D类53, 240–255. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Murzin,A.G.、Brenner,S.E.、Hubbard,T.和Chothia,C.(1995年)。分子生物学杂志。 247, 536–540. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Navaza,J.(1994)。《水晶学报》。A类50, 157–163. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Otwinowski,Z.&Minor,W.(1997年)。方法酶学。 276, 307–326. 交叉参考 中国科学院 科学网 谷歌学者
Perrakis,A.、Harkiolaki,M.、Wilson,K.S.和Lamzin,S.(2001年)。《水晶学报》。D类57, 1445–1450. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Perrakis,A.、Morris,R.和Lamzin,V.S.(1999年)。自然结构。生物。 6, 458–463. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Sauter,N.、Grosse-Kunstleve,R.和Adams,P.(2004)。J.应用。克里斯特。 37, 399–409. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Schneider,T.R.和Sheldrick,G.M.(2002)。《水晶学报》。D类58, 1772–1779. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004)。《水晶学报》。D类60, 1229–1236. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Terwilliger,T.C.(2003)。方法酶学。 374, 22–37. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Vagin,A.A.、Murshudov,G.N.和Strokopytov,B.V.(1998年)。J.应用。克里斯特。 31, 98–102. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Vagin,A.A.和Teplyakov,A.(1997)。J.应用。克里斯特。 30, 1022–1025. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Vaguine,A.A.、Richelle,J.和Wodak,S.(1999)。《水晶学报》。D类55, 191–205. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Zwart,P.H.、Langer,G.G.和Lamzin,V.S.(2004)。《水晶学报》。D类60, 2230–2239. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
©国际结晶学联合会。如果引用了原文作者和来源,则无需事先获得许可即可复制本文中的简短引文、表格和数字。有关详细信息,请单击在这里.
| 生物 结晶学 |
国际标准编号:1399-0047