研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
编号:1399-0047

中的决策2

十字标记_颜色_方形_文本.svg

英国牛津郡OX11 0DE迪德科特哈维尔科学与创新校园钻石光源b条曼彻斯特大学生命科学学院,英国曼彻斯特M1 7DN公主街131号
*通信电子邮件:graeme.winter@diamond.ac.uk

(收到日期:2012年11月6日; 2013年6月2日接受; 2013年6月18日在线)

2是一个使用可靠的现有软件自动还原大分子晶体学(MX)数据的专家系统。该系统可以处理一个完整的MX数据集,该数据集由一个或多个图像序列组成,具有一个或更多波长,从图像到结构系数振幅,无需用户输入。为了实现这一点,我们做出了许多决定,其基本原理在这里进行了描述。此外,重要的是支持假设测试,并允许将分析中后期的结果反馈给早期做出决策的点:此处总结了支持此反馈的2。虽然这里描述的决策协议是为2,它们同样适用于交互式数据缩减。

1.简介

仔细减少衍射数据是衍射实验成功的关键(Dauter,1999)【Dauter,Z.(1999),《水晶学报》D551703-1717。】). 这通常是一个互动的过程,晶体学家利用他们熟悉的项目和数据还原工具的先验知识,以及从分析先前数据集中获得的大量知识。目标是确定单位电池和对称性,完善实验几何模型,测量反射强度,获得误差估计值并校正实验效果通过缩放比例。然而,近年来,大分子晶体学(MX)束线吞吐量的增加使得很难在接近实验的情况下以这种方式交互处理所有数据,因此需要自动化数据分析软件。在这种情况下,已经开发了几个系统来帮助用户。特别相关的是精灵(Holton&Alber,2004年【Holton,J.&Alber,T.(2004),美国国家科学院院刊,101,1537-1542。】),自动PROC(冯海因等。, 2011[Vonrhein,C.,Flensburg,C.,Keller,P.,Sharff,A.,Smart,O.,Paciorek,W.,Womack,T.&Bricogne,G.(2011),《水晶学报》D67,293-302。])和2(2010年冬季【Winter,G.(2010),《应用结晶杂志》,第43期,186-190页。】). 例如,最近,许多同步加速器设施开发了自己的MX数据处理“管道”XDSME公司在同步加速器SOLEIL,go.com网站在瑞士光源,快速_dp钻石光源,RAPD系统在NE-CAT的高级光子源和自动处理在加拿大光源。此外生成XDS。印度国家石油公司脚本可用于运行XDS公司没有用户输入,代表用户生成输入。

目标精灵允许用户在软件执行常规数据处理任务时,使用MOSFLM公司(莱斯利和鲍威尔,2007年【Leslie,A.G.W.&Powell,H.R.(2007),《大分子晶体学的进化方法》,R.J.Read&J.L.Sussman编辑,第41-51页。多德雷赫特:施普林格。]),SCALA公司(埃文斯,2006年【Evans,P.(2006),《水晶学报》,D62,72-82。】)和工具中央对手方清算所4套房(优胜者等。, 2011【Winn,M.D.等人(2011),《结晶学报》,D67,235-242。】). 在适当的情况下,系统能够从衍射图像进入自动构建的结构,基本上无需用户输入,尽管精灵系统包括一个“对话用户界面”,允许用户使用自然语言提供附加信息。系统本身采用实质性的C shell脚本的形式。

用户界面自动程序与的不同精灵(和2) 通过要求用户分几个步骤执行数据处理任务(Vonrhein等。, 2011【Vonrhein,C.、Flensburg,C.、Keller,P.、Sharff,A.、Smart,O.、Paciorek,W.、Womack,T.和Bricogne,G.(2011)。晶体学报,D67,293-302。】)它对卡帕测角仪的数据进行了复杂的处理。XDSME公司,快速dpRAPD系统所有脚本都是自动使用XDS公司在波束线环境中,专注于处理单次扫描的数据,而不是更复杂的数据集,这是2

虽然许多MX数据集由单个图像序列组成(单个扫描),但通用MX数据组可能包含多个波长[如有必要,可用于求解相位问题使用多波长反常衍射(MAD)技术],由于有限的动态范围一些探测器。在这些情况下,正确的处理方法是同时缩放所有数据,但只合并逻辑上属于同一组强度的反射。

对于衍射图像的处理,第一步是对衍射图案进行索引;也就是说,分析观测点的位置并确定描述其位置的单位-细胞向量。在这个阶段,可以选择Bravais晶格基于单元间参数和可能的空间组可以被枚举。这个模型单位电池通常在集成数据之前,会对实验几何形状进行优化,通常使用轮廓填充技术。随后的积分步骤测量数据集中所有反射的强度。一旦以这种方式整合了所有数据,就有必要将所有测量值放在一个共同的尺度上,并在平均每个波长中与对称性相关的观测值(合并)之前校正系统实验效应(缩放)。缩放要求数据具有正确的对称性,并且它们具有一致的,b条c(c)单位-细胞向量。在某些情况下单位电池可能会产生误导,并可能暗示出比真正的晶体对称性更高的对称性点编组只能在集成数据后确定。在这种情况下,可能需要重复索引和整合具有正确对称性的数据。在整个晶体学过程中,真正的对称性只有在结构得到解决和细化后才能确定,这在数据处理的初始阶段非常重要,因此很不方便。

例如,与,快速dp,的2系统从一开始就设计为支持MX数据集的全部复杂性。此外,在某些阶段,可以使用替代方法;例如,可以使用不同的算法和软件包(例如。二维成型集成MOSFLM公司 三维轮廓拟合集成XDS公司). 与上述许多系统不同,2有机会为用户提供处理数据的替代方法。然而,与前面列出的许多软件一样,2的设计是为了帮助用户进行衍射实验,作为e-HTPX项目的一部分(Allan等。, 2003[Allan,R.等人(2003年)。《2003年英国电子科学全体会议记录》,S.Cox编辑,第230页。https://www.nesc.ac.uk/events/ahm2003/AHMCD/pdf/049.pdf .]).

任何自动衍射数据缩减的关键部分都是决策过程的实施。在交互处理中,这些决策基于用户的经验和程序作者的建议,以及对手头问题的了解。这些决策包括选择用于样品初始表征的图像、测试自动索引解决方案、选择处理参数、处理分辨率极限、识别点编组以及选择合适的模型进行缩放。在开发过程中2有必要采取系统的方法来建立这种专门知识,并利用结构基因组学联合中心(JCSG)的数据进行了一项研究;https://www.jcsg.org.)由此得出的任何结果都必须是经验性的,因为不可能从第一原则中得出正确的选择。这里将描述这项调查的结论,以及嵌入决策以开发最终数据还原工具的专家系统框架2

1.1. 高分子衍射数据的数据模型

使用旋转方法的MX原始衍射数据采用“图像”序列的形式,在样品在光束中旋转时记录。最小有用数据集将由至少一个连续的图像序列组成,以下称为打扫在大多数情况下,旋转角度超过45°。当测量多次扫描时,必须考虑数据的逻辑结构:低剂量和高剂量通过逻辑上属于同一组强度测量。然而,当以MAD数据集的特定波长记录数据时,每个数据集必须保持独立,但所有数据都必须放在一个通用的尺度上,以确保差异在不同波长的观测值之间进行精确测量。因此,扫掠必须按逻辑分组为波长最后,在中央对手方清算所4 MTZ层级(Winn等。, 2011【Winn,M.D.等人(2011),《结晶学报》,D67,235-242。】)定义了PROJECT和CRYSTAL的其他分组,DATASET对应于波长的定义。这些公约也在2,以确保与中央对手方清算所4套房。

1.2. MX数据缩减工作流程

从顶层来看,MX的数据简化工作流程可分三个阶段考虑:(i)衍射图案的表征,(ii)单个扫描数据的集成,以及(iii)给定晶体所有扫描的缩放和合并。衍射图案表征的目的是确定实验几何结构的模型和可能的索引解决方案列表(在§2中更详细地描述),并从中选择一个方案。积分的目的是获得每个反射记录的“计数”数量(强度),包括预测反射的位置和建模反射剖面,然后通过将模型剖面缩放到观测到的反射来估计强度。这种强度测量的精度可以通过泊松统计和模型剖面的拟合优度来估计。在缩放和合并这些测量强度的最后一步中,根据实验效果,如照明体积的变化、衍射光束的吸收和辐射损伤,对这些测量强度进行了经验校正。图1总结了该流程[链接],其中反馈显示为虚线。衍射图案特征化的决定对后续分析有影响,积分或定标的信息可能与这些早期的决定相矛盾。因此,任何自动化数据缩减的系统都必须足够灵活,以优雅地管理这种情况,将对数据集做出的所有“决定”视为后续测试的假设,只有在所有测试通过后才能得出结论。系统的结构还必须反映此工作流,以提供用于嵌入决策专业知识的框架。

[图1]
图1
图中显示了MX数据缩减的总体工作流程,用于多次扫描数据,其中实心箭头表示通常的路径,虚线表示对早期阶段的反馈。在集成之前,必须首先对每个数据进行特征描述,然后必须缩放数据,这也可以生成反馈。

反馈的要求源于Bravais格子,水晶点编组(顺便提一下空间群)和单位-细胞常数。严格地说,衍射图案的初始特征提供了一组三斜单位-细胞向量,可用于描述观察到的反射的位置。这个三斜基底的形状(单位-细胞常数)可用于通知选择Bravais格子,通常基于某种惩罚来测量与相应晶格约束的偏差(例如,参见Le Page,1982【Le Page,Y.(1982),《应用结晶杂志》,第15期,第255-259页。】; 格罗斯·昆斯特里夫等。, 2004[Grosse-Kunstleve,R.W.,Sauter,N.K.和Adams,P.D.(2004),《结晶学报》A60,1-6。]). 选择Bravais晶格将对可能的点群产生影响,例如,具有四方晶格的晶体只能有点群4/和4/毫米在大多数情况下,这样分配的格将被证明是正确的;然而,在少数情况下,晶格形状会产生误导;例如,单斜晶格可能具有β=90°,在实验误差范围内。这种错误的分配点编组可能会在缩放分析中发现(Evans,2006【Evans,P.(2006)《晶体学报》D62,72-82.】).

当晶格具有比晶体更高的对称性时,可能会出现复杂性的第二个原因点编组(例如。四方晶格将具有关于b条中不存在的轴点编组4/). 在这种情况下,当包含多个扫描数据时,必须小心确保扫描被一致索引。

一旦Bravais晶格点编组可能会考虑空间组。对于来自大分子晶体的衍射数据,给定的点编组通常较小,可通过分析系统性缺失反射进一步减小。然而,不可能确定螺旋轴的指针(例如。41 4)仅根据强度数据。

1.3. 的软件架构2

由于数据简化的工作流程分为三个阶段,其中一些可以使用多个软件包执行,因此整个系统的框架应反映这些阶段。2这是通过定义索引器s和集成商s、 作用于图像扫描,以及缩放器s、 作用于一个样本中的所有数据(所有扫描,按波长组织)。以下示例索引器s中,集成商s和缩放器可以为分析中使用的每个适当的软件包实现,并将嵌入有关如何执行任务和理解结果的包特定信息。这包括关键字使用、日志文件解释和特定决策过程等因素。如果这些定义设计良好,那么不同的软件包在功能上可以互换。该体系结构的细节及其带来的好处在§[链接]5

1.4. 的蓝图2

在数据缩减中所做的选择可以分为两类:一类是一般选择可能有效的选择,另一类是必须根据正在处理的数据进行调整的选择。第一个示例可以包括/σ()用于选择索引点的阈值,其中给定的阈值往往工作良好(巴蒂等。, 2011【Battye,T.G.G.,Kontogiannis,L.,Johnson,O.,Powell,H.R.&Leslie,A.G.W.(2011),《结晶学报》D67,271-281。】). 第二类可以通过用于定义反射文件区域的参数来说明,反射文件区域与数据相关,并且适当确定这些区域的成本是合理的。

第一类决策的指导方针可以通过对以一致方式记录的大量数据集进行实证分析来确定,理想情况下,这些数据集应该没有人为因素,例如裂点、数据采集期间的样本错位和冰环,从而使纯晶体学决策成为可能。2开发始于2006年,符合这些标准的原始衍射数据的唯一公开来源来自结构基因组联合中心,这是一个总部位于加利福尼亚州的蛋白质结构倡议联盟,他们花了时间和精力向方法开发人员提供他们的原始和处理衍射数据。补充表S1总结了本研究所用档案中的数据集1覆盖对称性P(P)1至P(P)622,分辨率为1.3至3.2º,单位-细胞常数为30至270º。这些数据集还包括MAD、SAD、多通道和伪反向束数据集,允许广泛覆盖可能的实验类型。如何使用这些信息的细节将在§§2、3和4中进行讨论。

最后,重要的是要认识到MX软件正在不断发展,新的软件包将可用,这可能有助于将其纳入2.因此,对工作流中步骤的抽象的一些强调也有助于允许替换系统中的现有组件。目前,2包括对两个主要集成包的支持,MOSFLM公司(莱斯利和鲍威尔,2007年【Leslie,A.G.W.&Powell,H.R.(2007),《大分子晶体学的进化方法》,R.J.Read&J.L.Sussman编辑,第41-51页。多德雷赫特:施普林格。])和XDS公司(卡布施,2010年【Kabsch,W.(2010),《结晶学报》,D66,125-132。】),分别作为“二维”和“三维”管道访问,反映了轮廓拟合所采用的方法。它们与SCALA公司(埃文斯,2006年【Evans,P.(2006),《水晶学报》,D62,72-82。】),XSCALE公司最近(确认新软件将可用的断言)无AIMLESS(Evans&Murshudov,2013年【Evans,P.和Murshudov,G.(2013),《水晶学报》,D691204-1214。】),以及来自中央对手方清算所4套房,如截断(French&Wilson,1978)【French,S.&Wilson,K.(1978),《结晶学报》,A34,517-525。】)和CTRUNCATE公司,以交付最终结果。此外,标签(绍特等。, 2004【Sauter,N.K.,Grosse-Kunstleve,R.W.&Adams,P.D.(2004),《应用结晶杂志》,第37期,第399-409页。】)还支持自动索引,提供了初始波束中心的广泛收敛精致。这在2开发时,无法保证图像标题中的可靠光束中心。最后cctbx公司工具箱(Grosse-Kunstleve等。, 2002【Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.&Adams,P.D.(2002),《应用结晶杂志》第35期,第126-136页。】)也广泛用于分析中,以允许在2代码本身。

由于晶体学数据分析工作流程分三个阶段考虑下三节将详细介绍达成一般和具体决策协议的过程。由于上面列出的底层软件包的使用往往会分解为二维和三维管道(运行方式xia2-二维xia2-3d分别),将分别描述每种协议的具体决策协议,并在可能的情况下进行比较。显然,不可能达成严格派生的协议2是模拟用户决策。对这些协议的任何论证都只能是经验性的,基于那些能够为整个测试数据集提供最准确结果的过程。

2.数据简化决策:衍射图案的表征

2个索引器对衍射图案进行表征,包括初始峰值搜索和斑点列表索引,以给出可能的列表Bravais晶格选项和每个选项的适当单位-细胞常数,根据对可能选项的分析更新实验几何模型的值和Bravais晶格/细胞方案。此外,任何计算出的晶体取向矩阵都应可用。对于每个程序,要做的选择是选择用于峰值搜索的图像/σ()用于索引的阈值,选择“最佳”解决方案并进行分析,以确保所选解决方案符合验收标准。在此重申,任何最佳解决方案的选择都很重要Bravais晶格而单元-单元组合是一个有待后续测试的建议,并不代表得出的结论。

表征的主要结果是Bravais晶格/单元-细胞对列表。对于给定的Bravais晶格(与具有近似正交单元的样品的单斜晶格的情况一样)假设具有最低残差的选择是正确的。迄今为止,还没有发现与这一假设相反的例子。最后,如果后续分析确定所选解决方案不合适,则由索引器从考虑中消除这一点,并为评估提供下一个最高对称性解决方案。

2.1、。标签MOSFLM公司

标签MOSFLM公司共享相同的底层一维FFT索引算法(Steller等。, 1997【Steller,I.,Bolotovsky,R.&Rossmann,M.G.(1997),《应用结晶学杂志》,第30期,第1036-1040页。】),尽管中的实现标签允许额外搜索,以细化半径为~4 mm的直接光束中心。因此,程序在索引中的行为是相似的,只需要对图像的选择进行一次分析,并考虑取决于所使用程序的解决方案,因为它们有不同的惩罚方案。两者的作者标签MOSFLM公司建议使用两幅图像进行分度,分度间隔为~90°(Sauter等。, 2004【Sauter,N.K.,Grosse-Kunstleve,R.W.&Adams,P.D.(2004),《应用结晶杂志》,第37期,第399-409页。】; 莱斯利等。, 2002【Leslie,A.G.W.,Powell,H.R.,Winter,G.,Svensson,O.,Spruce,D.,McSweeney,S.,Love,D.,Kinder,S.、Duke,E.&Nave,C.(2002),《水晶学报》D58,1924-1928年。】),给出的正交覆盖范围为互易空间从中确定基向量。补充材料中详细研究了往复空间覆盖对分度解精度的影响。总之,使用间隔为5–90°的1–10张图像通过公制惩罚进行评分(格罗斯·昆斯特里夫等。, 2004[Grosse-Kunstleve,R.W.,Sauter,N.K.和Adams,P.D.(2004),《结晶学报》A60,1-6。])对于补充表S1中详细说明的数据集86次扫描的正确解决方案,得出的结论是,使用以~45°旋转间隔的三幅图像通常可以获得最准确的单位-细胞常数。

使用索引时标签MOSFLM公司通常共享相同的输入和输出,MOSFLM公司理想情况下需要/σ()索引点搜索的阈值。2通过对/σ()用于索引的图像上的点中,每个图像至少有200个点,以确保更可靠的操作(鲍威尔,1999【鲍威尔·H·R(Powell,H.R.)(1999),《水晶学报》D551690-1695。】).

在解决方案的选择方面标签MOSFLM公司提出适当的Bravais晶格单位电池通过偏离晶格约束进行评分。首先采纳这些建议,并根据需要进行测试和修订。但是,如果用户建议单位电池对称性从一开始就将凌驾于任何其他决策之上。

2.2.XDS公司

鉴于MOSFLM公司标签拍摄少量孤立图像上的斑点XDS公司是在一个或多个图像序列上找到斑点,从而计算旋转方向上的质心(Kabsch,2010【Kabsch,W.(2010),《结晶学报》,D66,125-132。】). 事实上,用扫描中每个图像的峰值进行索引是完全可能的,在某些情况下,这是一个理想的过程生成_XDS。输入作者编写的脚本XDS公司默认情况下使用扫描的前半部分。确定用于索引的有效图像选择扩展数据集因此,这是必要的,并在补充材料中进行了描述,遵循与程序类似的协议标签MOSFLM公司综上所述,通过分析由三斜晶胞常数计算出的正确解的公制惩罚,使用来自于以下工具的索引,将整个扫描的反射与1–10°数据的1–10个楔体进行了比较,楔体的间距为5–90°cctbx公司得出的结论是,使用三个楔形数据,每个楔形数据的角度为~5°,间隔超过~20–30°,可以得出最准确的结果。这份手稿的作者注意到,这一结论是基于结构基因组学计划中基本上高质量的数据得出的,这可能不适用于较弱的数据。在这种情况下,用户可以通过提供-第三代命令行选项2

当使用XDS公司有必要确定44个“格字符”中的哪一个可能对应于合理的解决方案。在默认使用中,表示为生成_XDS。印度国家石油公司,不进行选择,所有积分都是在三斜基础上进行的。这个XDS公司分度步骤IDXREF公司对44个点阵字符中的每一个都输出一个惩罚,并将其归一化为0–999范围,在本研究中,没有发现在给定准确的光束中心的情况下,正确的解的惩罚大于40的例子。因此,当没有提供额外的指导时2将考虑惩罚小于此值的所有解,删除重复的晶格解,并提出最高对称性解以供后续分析。

2.3. 总结

考虑到所使用的不同算法,选择用于自动索引的图像的协议具有高度的通用性。所有自动索引方案都会寻找一组合适的单位-细胞向量,用于描述图像上观察到的峰的倒数空间坐标。如果使用单个图像或窄楔形图像,则至少一个方向将仅表示为基向量的线性组合。然而,如果使用三个间隔良好的图像或楔子互易空间更完整,增加了孤立观察基向量的可能性,从而更准确地报告其方向和长度。

While期间XDS公司,MOSFLM公司标签都支持中的初始特征化阶段2,标签默认情况下(可用时)选择为梁中心精炼发现这使得整个分析过程更加可靠。而的输出标签与完全兼容MOSFLM公司可以立即使用(Sauter等。, 2004【Sauter,N.K.,Grosse-Kunstleve,R.W.&Adams,P.D.(2004),《应用结晶杂志》,第37期,第399-409页。】),关于实验几何的假设与XDS公司(卡布施,2010年【Kabsch,W.(2010),《结晶学报》,D66,125-132。】). 在以下情况下扩展数据集用于集成,而标签已用于特征化,将使用XDS公司,从标签作为输入。

3.数据缩减决策:集成

积分步骤的目的是准确测量反射的强度。在此过程中,将对表征结果进行测试,并对实验几何结构和晶格将被确定。虽然准确测量反射强度的第一个目标必须是集成的重点,但对于专家系统来说,初始特征的验证也很重要,因为不像用户执行交互处理那样,不检查图像以“查看”是否有问题。如图2所示[链接],其中来自JCSG样本12487的数据(PDB条目1伏9)带有C类2对称性接近222已使用iMosflm公司通过简单检查测量盒与图像上以正交体中心(oI)晶格为特征的斑点的对齐情况(图2)很明显,该图案没有很好地建模,特别是与以单斜中心(mC)晶格为特征的相同图像相比(图2b条).

[图2]
图2
为JCSG样品12847(PDB条目)记录的衍射图像的一个象限1伏9)其接近222对称。中的图像()已使用索引和优化iMosflm公司施加正交晶格约束,而图像(b条)已通过施加单斜约束进行索引和细化。当图案在(b条)很明显,两者在随后的交互积分中都得到了“成功”的处理,尽管与单斜晶格积分的强度测量更加准确。

除了测试特性外,系统还必须模拟专家用户的行为,可能使用图形用户界面。这将导致一定数量的额外簿记,而这些簿记可能会通过图形界面进行处理,下文将对此进行讨论。对于XDS公司这不是什么问题,因为命令行界面只供交互式用户使用2,尽管图像由输出XDS公司用于查看XDS查看器用于诊断目的。

最后,虽然XDS公司特征化足以进行集成MOSFLM公司特别是一些额外的准备工作是必要的精炼单位电池和实验几何学。因此,集成过程明确地分为集成准备和与单元的适当集成精炼在准备阶段发挥了重要作用。

3.1. 二维管道:与集成MOSFLM公司

典型的交互式集成会话iMosflm公司从索引开始,然后是精炼单元格的。通过此过程,通过以下方式积累了大量有关图像的信息iMosflm公司; 例如,索引之前峰值搜索的spot-profile参数。在自动化此分析过程中,尤其是当某些步骤可能使用替代程序时,必须做出具体努力来重现此信息。该过程与细胞再精细化步骤的特征在于2二维管道作为“集成准备”。

3.1.1. 准备与集成MOSFLM公司

为集成做准备的任务有三重:细化单元-细胞常数和实验几何形状,模拟用户使用的过程MOSFLM公司 通过 iMosflm公司并对表征结果进行一些分析。准备工作包括使用单元格可用数据的子集精致。因此,需要选择最佳数据子集。2选择子集的方式与选择图像的方式相同XDS公司特征化,附加的限制是最多使用30帧(限制为MOSFLM公司研究和实施此决策时)。本质上,细胞精炼在没有晶格约束的情况下执行(在里面P(P)1) 使用在前90°数据中均匀分布的三张图像的1–10个楔子,然后使用每个楔子2–10张图像和10–45°的间距进行测试。结论是,使用三个图像的三个楔形,间距尽可能接近45°,可以获得最准确的细胞常数。该分析的完整结果包含在补充材料中。值得注意的是,该程序强调了精炼在没有晶格约束的情况下。

单元重新定义步骤还强调了与集成的一些更为程序化的要求MOSFLM公司特别是当MOSFLM公司用于自动索引-点搜索为反射文件描述确定合理的起始参数。如果MOSFLM公司如果没有使用,则需要在别处获取这些初始轮廓参数。2这是通过在用于单元格的每个楔块的第一帧上执行峰值搜索来实现的精致。峰值搜索还提供了分辨率极限的保守估计,该估计在单元重新定义步骤中应用。

如图2所示,替换表征的视觉分析[链接],需要一种算法方法。最初,单元格精炼在不受晶格约束的情况下执行,并通过以下方式报告改进的单元参数及其误差估计MOSFLM公司与晶格约束进行了比较。发现估计的标准偏差相当不可靠(例如,精炼β至7σ远离90°(对于正方形晶格),该方法不会模拟图像的视觉检查。同样,对观测到的和预测到的斑点位置之间的位置偏差的分析也不可靠,因为样品质量对斑点大小等有重要影响。

为以下目的开发的方法2实际上使用了观察到的和预测的斑点位置之间的平方根(r.m.s.)偏差,但通过执行单元格“标准化”了这一点精炼有和无晶格约束,并以成对的方式比较偏差,作为图像和细化循环数的函数。如果晶格约束合适,则在受约束情况下的偏差应至少与在无约束情况下一样好。如果通过应用Bravais晶格约束晶格约束不太合适。在选择了正确解决方案的所有情况下,有晶格约束和无晶格约束的均方根误差比均小于1.5。在图2所示的示例中[链接]oI和mC的比值分别为2.06和1.04,表明该方法至少对本例有效。值得注意的是,数据可能在222与iMosflm公司(包括无意义分析和快速缩放无AIMLESS)只需按一下“忽略”:无意义无法识别错误的点组分配。作为参考,正确的βmI设置中晶格的角度为90.6°。

3.1.2。与集成MOSFLM公司

一旦集成准备完成,集成本身就可以继续。在如何执行集成方面有许多选择,以及一些程序性考虑。要做的选择是是否应用晶格约束执行积分(如的作者所建议MOSFLM公司; Leslie&Powell,2007年【Leslie,A.G.W.&Powell,H.R.(2007),《大分子晶体学的进化方法》,R.J.Read&J.L.Sussman编辑,第41-51页。多德雷赫特:施普林格。]),是否在集成期间细化单元参数(MOSFLM公司)以及是否在应用最终分辨率限制的情况下重新积分数据,而不是积分整个探测器表面的所有反射。

执行集成的过程方面很简单。需要进行一些仔细的簿记,以确保程序在成功单元结束时的状态精炼在积分开始时再现(具体来说:样品定向误差角、实验几何形状和反射保护参数。)此外,如果需要并行积分,还需要一些额外的精炼每次扫描开始时,都需要样本定向角的个数,以确保在处理块之间的集成模型中不会引入不连续性。

为了解决数据集成的具体而非程序性选择,对特征化研究中使用的86个扫描(对应于12个JCSG数据集)中的38个扫描进行了多次集成。对结果强度的质量评估如下:对每次整合运行的数据重新编制索引,并按正确的顺序进行排序点编组具有无意义数据按比例缩放SCALA公司(作为无AIMLESS当时不存在)使用5°间隔的旋转轴上的平滑缩放、二次光束校正(具有六阶球面谐波)和平滑B类-20°间隔的系数校正(默认值为中央对手方清算所4). 这些校正允许在相对较短的间隔内校正衍射的总强度,允许经验吸收校正,并允许由于辐射损伤而缓慢衰减,所有这些都适用于研究中使用的数据集。总体R(右)合并因为数据集被用作测试指标;这有如下理由。首先,数据集的分辨率极限和范围是不变的,因此统计的多重相关性不相关。其次R(右)合并/σ()数据(Weiss&Hilgenfeld,1997【Weiss,M.S.和Hilgenfeld,R.(1997),《应用结晶杂志》,第30期,203-205页。】)当σ()估计是可靠的。然而,在这里σ()估计值可能不可靠,但R(右)合并计算本身没有σ()依赖性,使其成为比/σ(). 此外,可以预计,更好的积分选择将导致测量强度的改善,这反过来将导致缩放后与对称性相关的观察结果更好地一致。

测试的协议,如表1所示[链接],是(1)作者推荐的程序MOSFLM公司,集成允许精炼单位电池有(5)和无(2)格点约束的应用,与三斜格点积分,但具有固定的单位-细胞常数(3)和推荐的程序,但附加了最终分辨率限制(4)。表1也总结了这些运行的结果[链接],表示平均值R(右)合并标准化为第一个集成过程以及成功和失败的运行次数。令人放心的是,推荐的程序给出的结果与其他任何程序一样好,而那些方案不是由MOSFLM公司被证明是不可靠的,并且在成功时效果不佳。由此得出的结论是,固定单元常数,应用晶格约束,并整合探测器整个活动区域的反射,随后在缩放时应用分辨率限制。最后作出两个程序选择:如果MOSFLM公司在输出结束时的警告中提供探测器增益的更新值,使用此更新值并重复积分。此外,如果集成由于精炼重复测量箱参数,这些参数从单元细化结束时固定为其值。

表1
平均R(右)合并38次扫描衍射数据的处理值MOSFLM公司以下五个集成协议,每个协议都标准化为推荐协议产生的值

显然,在集成期间执行单元优化不太可靠(通常),并且结果较差。否则,对推荐方案的调整效果甚微。

集成协议 R(右)/R(右)推荐 成功 失败
(1) 推荐 1 38 0
(2)P(P)1+细胞细化 1.15 14 24
(3)P(P)1、无单元细化 1 38 0
(4) 建议+分辨率限制 1 38 0
(5) 使用晶格约束优化单元 1.23 17 21

3.2. 三维管道:与集成XDS公司

鉴于MOSFLM公司通常通过图形用户界面运行iMosflm公司,扩展数据集在命令行上运行,并在文本文件中包含指令。此外,几乎所有的中间文件都是以纯文本形式编写的,并且在程序文档中进行了详细描述扩展数据集非常适合在自动化系统中实现。的作者XDS公司还提供生成_XDS。输入,可用于构成XDS公司来自图像序列标题的输入文件。这将说明XDS公司为了从扫描的前半部分中发现的峰值自动索引,以三斜基线进行所有积分,并确定合适的Bravais晶格点编组在缩放阶段。默认情况下,不执行参数回收,尽管参数回收的方法有很好的文档记录。然而,在进行本研究时,生成_XDS。印度国家石油公司不存在。

这里的目的是确定处理选项,这些选项通常会产生良好的结果XDS公司用于2.理想情况下,这些不应造成过多的计算成本,例如处理时间增加一倍以上。作为与的集成XDS公司已经基本上是自动的,只需要做出少量的选择;即,是否在加工过程中施加Bravais约束,以及加工后在多大程度上“回收”实验参数。后者可能包括反射文件参数、全局优化的定向矩阵和实验几何形状以及后优化产生的局部探测器畸变(对于成像板、校正CCD和像素阵列探测器图像,可以假设其“较小”)。与以下分析一样MOSFLM公司,R(右)合并将用于评估这些选择与包含在生成_XDS。印度国家石油公司说明。

表2总结了使用五种集成协议集成38次扫描的结果[链接]从中可以清楚地看到两个结果:所有协议在测量强度的准确性方面都没有显著差异(对于良好的数据),并且处理在所有情况下都是可靠的。唯一有明显好处的选择是回收反射文件参数,这些参数定义了数据从图像到倒易空间。要应用这些优化值,需要重复集成数据集。由于GXPARM文件的回收没有什么区别,但没有造成任何问题,这也用于重复集成。对于Bravais晶格约束,因为它们可能会改善质量较差的数据的结果。

表2
平均R(右)合并用于处理38次扫描的衍射数据的值XDS公司以下五个协议,每个协议都标准化为对应于生成_XDS。印度国家石油公司

显然,所有方案都是可靠的,并且在测量强度的准确性方面只提供了很小的差异,尽管反射轮廓参数的回收提供了可测量的改进。

集成协议 R(右)/R(右)推荐 成功 失败
(1)生成_XDS。印度国家石油公司 1 38 0
(2) +晶格约束 1 38 0
(3) +回收GXPARM 1 38 0
(4) +回收配置文件参数 0.98 38 0
(5) +回收所有校正,包括探测器畸变 1.02 38 0

通过与的集成MOSFLM公司,后细化用于评估Bravais晶格约束。使用XDS公司集成完成后进行后细化;然而,挑战格分配的方法通过后细化仍然有效。鉴于MOSFLM公司提供作为每个帧和周期函数的点位置的r.m.s.偏差,XDS公司仅提供位置和旋转的总r.m.s.偏差精致。因此,对于XDS公司输出这些r.m.s.偏差除以其无约束的对应值,并在求积中相加,得出总得分。与相同MOSFLM公司在这个比率超过1.5的情况下,没有发现正确分配的晶格,图2中显示了伪对称晶格[链接]比率为2.6。因此,1.5被视为可接受值的极限,迄今为止尚未发现反例。

3.3、。总结

衍射数据集成的决策协议MOSFLM公司XDS公司已提交。对于MOSFLM公司这分为两个阶段,基本上是单元重新定义步骤和集成,前者用于测试布拉维斯格子。一个关键发现是,执行细胞精炼发现三个间隔为~45°的楔形图像提供了最可靠的精致。对于集成本身,结论是MOSFLM公司在应用晶格约束时,固定单位-细胞常数并在整个探测器表面积分是合适的。用于与集成XDS公司回收一些工艺参数后,发现了一些小的改进;然而,所有协议都被证明是可靠的,数据质量良好。这可能解释了扩展数据集在前面列出的波束线自动数据处理系统中。最后,虽然诸如生成_XDS。印度国家石油公司可用于运行XDS公司对于以自动化方式进行集成,它们在缩放多个扫描方面受到限制

4.数据缩减决策:缩放

的目标2一直在处理由衍射图像到缩放和合并强度的一个或多个扫描组成的数据集。当整个数据集由一个扫描组成时,这是相对简单的。当数据集包含多个扫描时,需要做更多的工作(如图1所示[链接])因为必须测试集成数据在Bravais晶格选择和索引依据。这个点编组每次扫描的测量强度也必须与Bravais晶格用于处理的选项。这些程序需要仔细管理衍生数据,并且必须允许在数据分析的早期阶段进行反馈。为了帮助实现这一点,缩放过程分为三个阶段:缩放准备、缩放本身和后续分析。

鉴于使用MOSFLM公司XDS公司用于集成,SCALA公司/无AIMLESSXSCALE公司用于缩放。此外,大量使用无意义在准备阶段和(C类)截断,计算机辅助设计和其他工具中央对手方清算所用于后续分析的4个套件。用于缩放数据XDS公司需要额外的程序性决策,即是否在扩展数据集正确的步骤和XSCALE公司以及如何合并缩放数据。

4.1. 缩放数据的准备

缩放准备阶段的目的是测试测量强度是否与Bravais晶格在每个数据扫描内和扫描之间,并确保所有相关扫描具有相同的点编组指定和索引约定。制备的总体“流程”如图3所示[链接]并具有测试内部一致性的嵌入式程序(图4[链接])以及扫描之间的一致性(图5[链接].)第一次测试确定Bravais晶格用于处理的与使用的测量强度中的点群对称性一致无意义如果选择一致,则测试通过。如果与数据对称性相对应的晶格的对称性低于用于积分的晶格,则将使用较低对称性的晶格重复积分。如果点编组具有比用于积分的晶格更高的对称性,它被忽略,并考虑了下一个建议。后者是处理伪对称数据所必需的,其中已排除了较高的对称可能性。例如,内部一致性测试将确定P(P)2个数据β= 90.0°.

[图3]
图3
缩放准备的总体工作流程显示了如何执行缩放的详细信息,其中实线表示每个扫描的数据流,虚线表示反馈。测试细节如图4所示[链接]和5[链接].
[图4]
图4
确定与衍射数据一致的晶点群和Bravais晶格的程序,考虑到索引和分析的结果无意义。决策显示为菱形,处理任务显示为矩形
[图5]
图5
结合所有扫描的点组信息的步骤,如图4所示[链接],假设最低对称格是正确的。

总体一致性测试的目的是确保数据已使用统一的单元-单元轴定义进行处理。在许多情况下,这并不是问题,但在某些情况下(例如,具有低分辨率和高分辨率通道的伪对称数据集),可能需要将信息从一个扫描传播到另一个扫描。最后,一旦所有数据都用一致的格进行了处理,并且具有一致的点组分配,就必须确保使用一致的索引基础。在以下情况下Bravais晶格具有比点编组可以分配同样有效但不一致的基向量。对于缩放,至关重要的是要一致地定义这些,以便2比较了第二次扫描和后续扫描的索引与第一次使用无意义并且根据需要对数据进行重新索引。这些缩放步骤的准备对于二维和三维管道都是通用的。

4.2. 二维管道:缩放SCALA公司

缩放方法由执行标量无AIMLESS是为了确定实验对测量强度的贡献的参数化经验模型,然后调整该模型的参数,以最小化对称相关强度观测值之间的差异。推荐的缩放协议(如中央对手方清算所4; 埃文斯,2006【Evans,P.(2006),《水晶学报》,D62,72-82。】)是在5°间隔内使整体刻度平滑,以允许各向同性B类-因子校正在20°间隔内进行平滑(对于辐射损伤),并使衍射光束的吸收面参数化为六阶球面谐波。虽然该模型运行良好,但仍有一些示例包含了额外的修正(例如。部分偏差的TAILS修正)可以大大提高观测值之间的一致性水平。因此,需要确定要应用的最合适的缩放模型。

最初,对12个JCSG数据集进行了调查,测试了每个数据集的8个缩放模型,如表3所示[链接]. TheR(右)合并每个值的标准化范围为0–1,其中0对应于最低值,1对应于最高值。如图6所示[链接],没有一个模型能够可靠地给出最低的合并残差。因此,结论是必须为每种情况确定最佳缩放模型。2该过程通过最初允许五个刻度周期来实现精炼得分依据R(右)合并在低分辨率壳中的收敛速度。低分辨率R(右)合并作为比例因子,因为数据集主要由强低分辨率数据控制,并且数据集的范围不变(通常的批评R(右)合并不适用)。此外,由于校正参数化的方式,低分辨率数据有助于缩放校正的所有元素,使该过程稳健。一旦选择了缩放模型,就可以进行更多的循环以实现完全缩放。

表3
针对12个JCSG数据集测试了8个不同的缩放模型,对应于图6所示的归一化合并残差[链接]

第一次运行对应于一个非常简单的缩放模型,而最后一次运行包含所有校正,运行4对应于中央对手方清算所4默认值。

缩放运行 党派性正确(`尾巴’) 衰减校正(`bfactor打开) 吸收校正(`次级6')
1
2 是的
是的
4 是的 是的
5 是的
6 是的 是的
7 是的 是的
8 是的 是的 是的
[图6]
图6
R(右)合并表3所示缩放模型的所有八个排列使用的12个JCSG数据集中的每个数据集的值(每个数据集具有不同的颜色)[链接],标准化为范围0–1(最低到最高)。显然,没有一个模型系统地给出最低的残差,几乎所有模型都至少在一个示例中工作良好,因此值得考虑。

按照§[链接]4.4基于对初始缩放之后的强度的分析。在细粒度参数化方面(例如。的旋转间距B类-因子修正)偏离默认值的好处很小。最后,早期版本的2包括一个迭代重新融合协议,以细化纠错参数以获得χ2= 1. 作为两者无AIMLESSSCALA公司现在执行此操作精炼删除了这个现在冗余的过程。

4.3. 三维管道:缩放XSCALE公司

SCALA公司无AIMLESS使用参数化模型来确定每个反射的比例因子。相反,XDS公司XSCALE公司使用校正因子阵列消除测量强度与图像数量和探测器位置的相关性(Kabsch,2010【Kabsch,W.(2010),《结晶学报》,D66,125-132。】). 校正系数适用于样品衰变、吸收和检测器灵敏度,应用的校正组合由用户控制,但如果未给出指示,则默认应用所有校正。

XDS公司正确步长-单独确定每个扫描的校正,而对中的所有扫描联合细化校正XSCALE公司。在调查期间2在将数据缩放两倍的过程中观察到几乎没有什么发展效益(在中XDS公司正确的步骤和输入XSCALE公司)由于这使校正因子的数量增加了一倍,所以选择了只在XSCALE公司.随后与作者进行讨论扩展数据集强调指出,校正因子数量的这种明显翻倍可能会产生误导(Kay Diederichs,私人通信)。

在选择适用的更正方面,发现与SCALA公司无AIMLESS,应用所有可能的校正总是给出最低的残差。因此,所有修正均适用于2,使用用户选项覆盖此决定。初始缩放后,按照§4.4中规定的程序确定分辨率限值,然后使用应用的限值重复缩放。然后将缩放后的强度输出为未合并的,转换为MTZ格式,并与合并SCALA公司无AIMLESS以生成合并统计信息的报告。

4.4. 分辨率极限计算

MX数据缩减的关键决策之一是分配分辨率限制。限制过低将导致丢弃有用的数据,而限制过高可能不会改善结构解决方案精炼并可能表明生成的原子坐标过于精确。历史上,人们使用了广泛的启发式标准来确定数据的高分辨率极限,包括/σ(),R(右)合并和完整性。最近的系统研究表明,基于相关系数的方法可能会提供更有力的见解(Evans&Murshudov,2013【Evans,P.和Murshudov,G.(2013),《水晶学报》,D691204-1214。】; Karplus&Diederichs,2012年【Karplus,P.A.&Diederichs,K.(2012),《科学》,3361030-1033。】); 然而,这些还没有在2

2、/σ(),R(右)合并完整性可作为确定分辨率极限的标准。默认情况下,合并和未合并/σ()使用,阈值分别为2和1。虽然前者反映了CCP4公告板关于分辨率限制主题的若干讨论的“摘要”,但重要的是要注意用户对分辨率限制标准具有完全控制权。后一种限制在高多重性(十倍或更多)数据中变得更为重要。具体来说:在2发现在高多重性的情况下/σ()2可能对应于未合并/σ()小于0.5。在这些情况下,发现外分辨率外壳中合并的强度测量结果倾向于正态分布,而不是预期的指数分布(通过统计评估E类4),这表明测量主要是噪声。虽然这一结果可能表明对弱反射的实验误差处理不当,但还是选择了对未融合的/σ()以确保减少的数据是可靠的。这通常会限制R(右)合并在外壳中为小于100%。作者指出,基于相关系数的分辨率极限处理不会受到这些问题的影响。

为了计算分辨率限制2使用了SCALA公司对数文件输出。发现这对分辨率箱的选择很敏感,因此最新版本的2计算合并和未合并/σ(),的R(右)合并以及直接从缩放但未合并的反射数据中获得完整性,并在确定极限之前拟合一条适当平滑的曲线。除了对分辨率限制标准进行细粒度控制外,用户还可以设置明确的分辨率限制。最后,包括以下选项相关系数基于的分辨率限制计划在不久的将来实现。

4.5. 后处理

尽管2是为了获得正确的集成、缩放和合并强度,有少量的下游分析步骤,通过提供数据文件,为即时结构解决方案和精致。分析步骤是根据以下强度计算结构系数振幅截断程序(French&Wilson,1978【French,S.&Wilson,K.(1978),《结晶学报》,A34,517-525。】)在中实施CTRUNCATE公司,使用执行局部缩放电子秤(豪厄尔和史密斯,1992年【Howell,P.L.&Smith,G.D.(1992),《应用结晶杂志》,第25期,第81-86页。】)用于具有多个逻辑波长的数据,并确定“平均值”单位电池用于下游分析。此外,使用计算机辅助设计来自中央对手方清算所4套,并对数据进行评估孪生使用中包含的方法cctbx公司.

根据强度计算结构系数振幅基本上由标度平方根组成。比例因子反映了强度以任意比例记录的事实,而结构因子振幅比例取决于单位电池(威尔逊,1942年【Wilson,A.J.C.(1942),《自然》(伦敦),第150、152页。】). 平方根对应于强度与结构系数振幅的平方成正比的事实。这个截断程序是对测量的负强度的处理,在给定正约束的情况下,计算真实强度的最可能值。为了正确应用,必须去除系统性缺失的反射。定心操作导致的无反射(例如。 小时+k个+基于Bravais晶格选择。要删除由空间组首先必须确定空间组与这些缺席一致:无意义使用。虽然此分析的结果通常不是唯一的,但假设结果应该适合于减少截断程序。用户应该知道,虽然2通常是可靠的,空间组分配可能不正确,也依赖于已记录的轴向反射。所有可能的空间组列表(控制台输出中提供了与观察到的系统缺席一致的内容。

如果在衍射数据旁边找到序列文件或在输入文件中提供序列文件非对称单元按照概率程序进行(Kantardjieff&Rupp,2003【Kantardjieff,K.A.和Rupp,B.(2003),《蛋白质科学》第12期,1865-1871年。】)并向截断程序。在缺乏此信息的情况下,假设溶剂部分为50%,剩余体积填充“平均”蛋白质(如截断手册页)。

5.实施自动化数据缩减

到目前为止,本文的重点是MX数据缩减的决策协议。为了为用户提供一个有用的工具,这些决策必须嵌入一个框架中,该框架表达了数据分析的整个工作流。在本节中将描述2项工程。

5.1. 数据管理

由于专家系统只能根据可用的信息做出决策和进行分析,因此仔细管理所有数据至关重要。大分子晶体学家熟悉的大多数数据定义了静态信息,包括坐标和反射文件。2有些信息是静态的,例如用户输入,但大多数信息本质上是动态的:假设的当前状态可能会根据后续分析的结果而变化。在动态信息的情况下,重要的是要跟踪其来源,以便在假设无效时(例如。Bravais格的赋值)从该假设导出的所有结果(例如。集成数据)也无效。2解决这一挑战的方法是保持与所有信息源的链接,并确保每次需要信息时都是新请求的,而不是存储的。

提供给系统的主要信息是原始衍射数据,以及适当的元数据(图像标题;详细说明见补充材料),以描述实验。如果数据来自单个样品或一组等效晶体,那么这些信息就足以建立一个有用的模型来说明实验是如何进行的。2原始数据是根据衍射数据的扫描来构建的,衍射数据属于波长(在输出中合并为单个MTZ数据集),而波长又属于晶体,最终包含在项目中。晶体也是缩放数据的基本单位。所有这些数据结构(投影、水晶、波长和扫描)都直接映射到2,最初只包含静态数据:根据此信息,可以使用前面描述的程序进行分析并得出结论。在数据不是来自单个样品或一组等效样品的情况下(例如,在单个波长记录的同晶衍生物)2不能仅从图像标题就知道如何最好地处理数据。在这种情况下,用户需要准备一个2输入文件,定义要处理的数据的逻辑结构(参见2手册了解详细信息。)

2分析步骤由软件模块执行(索引器s中,集成商s和缩放器s) ,每个都在处理工作流中有明确定义的职责。如上所述,在某些情况下,一步中的分析将取决于前一步的结果,因此必须保留对这些结果的引用。如果给定函数的所有实现都是这样,那么这将大大简化(索引、集成和缩放)共享一个通用描述:在软件术语中,它们共享一个公共接口。保持2个信息链接通过这个通用界面,大大简化了软件的记账组件。

5.2. 专家系统接口

对软件模块使用抽象接口是现代软件开发中的一个常见范例,因为使用该模块的其他软件不需要了解内部细节。特别是,可以用共享相同接口的另一个实例替换模块,而不会丢失功能。为关键分析步骤定义了2个抽象接口,目的是执行这些关键分析步骤的模块(例如。周围的包装MOSFLM公司,标签XDS公司)仅通过抽象接口进行交互。例如,两者MOSFLM公司标签可用于根据扫描的少量图像索引衍射图案,因此两者都可能呈现索引器接口。如何执行索引以及如何解释结果的详细信息将特定于程序,并在中实现MosflmIndexer公司标签索引器分别为。这种方法有几个优点。首先,可以在不修改系统其余部分的情况下向系统添加新模块。其次,给定接口的所有实现通用的代码可能驻留在接口定义中,而不是被复制。这方面的一个示例是索引解决方案的处理,其中解决方案的管理和Bravais晶格解决方案位于索引器接口代码。最后,这简化了模块之间的双向连接,因为它们可以共享一种通用的“语言”。这一点尤其重要,例如Bravais晶格在分析后期发现选择是不正确的:如何恢复这种情况的行为与使用的索引软件无关。

最后,决定将每个分析界面分为三个阶段,即准备、执行和完成,并安排在循环中(图7[链接]). 每个阶段的状态在模块内进行管理,每个阶段都将执行,直到成功完成或出现错误。一旦完成完成阶段,将假定所有得出的结果都是有效的,除非另有证明,否则将在要求结果时进行验证。如果后续分析表明结果不正确,则会标记此结果,并根据下一个请求计算新的结果。输入中的任何更改也可能使内部状态无效,从而确保下次请求结果时,将重新计算这些结果,并将此更改考虑在内。虽然这种结构看起来可能很复杂,但当与§5.1中所述的数据层次结构相关联时,它确实有好处。

[图7]
图7
专家系统界面的一般流程,显示了如何使用准备、执行和完成功能来确保在启动新步骤之前完成所有之前的任务

5.3. 链接数据结构和接口

拥有关键分析步骤的标准接口和数据层次结构的清晰链接的好处是,任何特定信息的来源都是众所周知的。从数据层次结构中的对象到作用于这些对象的分析模块有2个链接,即从扫描到索引器s和集成商s和从晶体到缩放器s.这意味着如果要求扫描单位电池Bravais晶格它可以将此请求委托给索引器。如果尚未执行索引或解决方案无效,则扫描可以自动索引以提供结果。如果有效结果可用,则会立即返回。

这种结构意味着所有分析都是在需要结果时而不是之前进行的,从而确保不进行不必要的处理。每个模块的循环结构确保可以在继续处理之前重新计算无效结果。此外,这种结构的第二个结果是,由于所有信息之间的依赖关系是众所周知的,因此传递结果所需的处理是隐式执行的。结果是2实际上是一个打印语句,执行处理以提供要打印的结果。

6.讨论

MX领域的发展以及对生物问题的重视,有力地推动了高通量技术的发展。这样做的一个结果是出现了一类新的MX用户:生物学家将MX作为一种工具,而自己却不是一名专业的晶体学家。这就产生了对更多专家工具的需求,以帮助用户收集和分析其数据,并解决和完善其结构。2为原始晶体学数据的还原和分析提供了一个平台,并在it中嵌入了一些备受推崇的数据还原包的使用方面的专业知识。通过将决策编码为假设,以便在分析过程中进行测试,2可以灵活使用分析中所有步骤的结果。该体系结构还允许在新软件可用时进行扩展,以适应晶体学家的需求并跟上新的发展步伐。

这里的决策协议反映了对结构基因组数据处理选项的系统研究。这项研究的许多结论令人放心地反映了“常识”;例如,遵循以下作者的建议MOSFLM公司与该程序的集成协议!其他结果表明,对既定方案的微小更改可以提高处理的可靠性或结果的准确性。因此,即使使用交互处理,例如,iMosflm公司这些建议可能有用。虽然这项研究是用结构基因组学数据进行的,但这可能表明对由于数据不太理想,经验(和引文)表明,这里得出的结果具有更广泛的适用性。

支持信息


脚注

1补充材料已保存在IUCr电子档案中(参考:BA5195型). 期刊背面描述了访问此材料的服务。

致谢

作者感谢JCSG、Wellcome人类遗传学信托中心结构生物学部以及众多用户提供了用于开发该软件的测试数据。我们还要感谢审稿人对原稿的评论,以及钻石光源的工作人员和用户对2以及对其有效性的反馈。作者感谢Harry Powell和Andrew Leslie在充分利用MOSFLM公司Nicholas Sauter寻求帮助标签以及对程序的具体修改,请Phil Evans提供帮助SCALA公司,无AIMLESS无意义,包括对这些计划的具体更改,以及沃尔夫冈·卡布施和凯·迪德里奇为XDS公司/XSCALE公司。如果没有多年的努力,2是不可能的。开发工作2目前由Diamond Light Source Ltd提供支持,同时也通过e-Science试点项目e-HTPX和欧盟第六框架(通过BioXHit和CCP4)获得了BBSRC的支持。

工具书类

第一次引用R·艾伦。等。(2003).2003年英国e-Science全体会议记录S.Cox编辑,第230页。https://www.nesc.ac.uk/events/ahm2003/AHMCD/pdf/049.pdf谷歌学者
第一次引用Battye,T.G.G.、Kontogiannis,L.、Johnson,O.、Powell,H.R.和Leslie,A.G.W.(2011)。《水晶学报》。D类67, 271–281. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Dauter,Z.(1999)。《水晶学报》。D类55, 1703–1717. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Evans,P.(2006)。《水晶学报》。D类62, 72–82. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Evans,P.和Murshudov,G.(2013年)。《水晶学报》。D类69, 1204–1214. 交叉参考 IUCr日志 谷歌学者
第一次引用French,S.和Wilson,K.(1978年)。《水晶学报》。A类34, 517–525. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Grosse-Kunstleve,R.W.、Sauter,N.K.和Adams,P.D.(2004)。《水晶学报》。A类60, 1–6. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.和Adams,P.D.(2002)。J.应用。克里斯特。 35,126–136科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Holton,J.&Alber,T.(2004)。程序。美国国家科学院。科学。美国,101, 1537–1542. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Howell,P.L.&Smith,G.D.(1992年)。J.应用。克里斯特。 25, 81–86. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Kabsch,W.(2010年)。《水晶学报》。D类66, 125–132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kantardjieff,K.A.和Rupp,B.(2003)。蛋白质科学。 12, 1865–1871. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Karplus,P.A.&Diederichs,K.(2012年)。科学类,336, 1030–1033. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Le Page,Y.(1982)。J.应用。克里斯特。 15, 255–259. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Leslie,A.G.W.&Powell,H.R.(2007)。高分子晶体学的发展方法由R.J.Read和J.L.Sussman编辑,第41–51页。多德雷赫特:施普林格。 谷歌学者
第一次引用Leslie,A.G.W.、Powell,H.R.、Winter,G.、Svensson,O.、Spruce,D.、McSweeney,S.、Love,D.、Kinder,S.和Duke,E.&Nave,C.(2002年)。《水晶学报》。D类58, 1924–1928. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Powell,H.R.(1999)。《水晶学报》。D类55, 1690–1695. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Sauter,N.K.、Grosse-Kunstleve,R.W.和Adams,P.D.(2004)。J.应用。克里斯特。 37, 399–409. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Steller,I.、Bolotovsky,R.和Rossmann,M.G.(1997年)。J.应用。克里斯特。 30, 1036–1040. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Vonrhein,C.、Flensburg,C.、Keller,P.、Sharff,A.、Smart,O.、Paciorek,W.、Womack,T.和Bricogne,G.(2011)。《水晶学报》。D类67, 293–302. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Weiss,M.S.和Hilgenfeld,R.(1997)。J.应用。克里斯特。 30, 203–205. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Wilson,A.J.C.(1942年)。自然(伦敦),150, 152. 交叉参考 谷歌学者
第一次引用医学博士温恩。等。(2011).《水晶学报》。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Winter,G.(2010年)。J.应用。克里斯特。 43, 186–190. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标生物
结晶学
编号:1399-0047