The Buccaneer software for automated model building. 1. Tracing protein chains

Cowtan, K.

doi:10.1107/S0907444906022116

研究论文

结构
生物学

编号：2059-7983

第62卷| 第9部分| 2006年9月| 第1002-1011页

https://doi.org/10.107/S090744906022116

这个海盗用于自动建模的软件。1.追踪蛋白质链

凯文·考坦 ^一 ^*

^一约克大学化学系，英国约克YO10 5DD，Heslington
^*通信电子邮件：cowtan@ysbl.york.ac.uk

描述了一种在实验电子密度图中自动追踪蛋白质链的新技术。该技术依赖于重复应用定向电子密度似然目标函数来识别可能的C^α位置。此函数应用于地图中几个有希望的“种子”位置的位置，并增长这些初始C^α定位成延伸链碎片。讨论了将链片段组装成初始链迹的技术。

关键词：海盗;模型建筑物;追踪蛋白质链.

类似文章

1.简介

根据电子密度自动构建蛋白质结构的原子模型是高通量结构解决方案环境的重要组成部分，也是非自动化环境中的有用工具。当前的自动化构建工具包含了一系列想法，其中一些是为自动化而设计的，另一些是从图形建模程序中已经存在的技术中采用的。

这里描述的自动建模方法结合了一种新技术，即使用定向电子密度似然目标函数来识别可能的C^α立场，以及根据现有方法改编的一系列方法。由此产生的方法组合非常简单，但作为新的自动化建模系统的基础，显示出巨大的前景。在详细描述新的发展之前，将讨论在这项工作中有影响的一些其他方法。

1.1. 图形建模工具

当前自动化模型构建所依赖的许多基础工作都是从琼斯及其同事的工作中提取的(例如琼斯，2004年 )关于建模的图形工具，特别是O（运行）软件。使用了两种方法。第一个涉及计算连接电子密度峰值的脊线的“骨架”。然后用C来解释骨架^α位置，通常出现在骨骼中的分支点附近（Jones等。, 1991 ). 第二个涉及二级结构特征的位置，特别是螺旋和链，通过对理想碎片进行六维旋转和平移搜索，并评估原子中心的电子密度（Kleywegt&Jones，1997）). 这些特征提供了一个起点，可以从中追踪蛋白质链的其余部分。

Jones及其同事的另一个重要贡献是将蛋白质序列与主链轨迹对接（Zou&Jones，1996）). 这一步提供了链方向的验证，通常在完成主链追踪之前是必要的，因为连接更容易解释的蛋白质核心区域的柔性环在电子密度中可能不可见。邹和琼斯（1996）)通过旋转体配件和实际空间残差然后根据残差得分“滑动”已知序列，以找到最可能的匹配。

Oldfield继续开发图形链跟踪工具，以执行辅助和自动化建筑（Oldfield2002 ). 通过骨架脊线的几何分析来识别二级结构特征，然后通过自动识别骨架中延伸链片段的分支点来自动生长这些特征以对分子的环区域进行建模。由此产生的方法因其速度而在随后的自动过程中脱颖而出。Oldfield建议，在大多数情况下，该程序仅限于分辨率高于4.0º的数据（Oldfield2003）).

1.2. 非粒度建模工具

通过识别具有电子密度峰的原子来自动解释电子密度在小分子领域有着悠久的历史直接法并且也被应用于高分辨率的大分子（例如，参见Sheldrick等。, 2001 ). 这个ARP协议/弯曲该软件包扩展了这种方法，使其能够在连续较低的分辨率下工作（莫里斯等。, 2002 ). 在较低的分辨率下，原子不被分解，因此个别原子峰消失；然而，仍然可以构建（未确定的）原子模型来解释观测数据。莫里斯等。(2002)应用有关蛋白质几何形状的信息来选择似是而非的C^α从这些冗余模型中提取原子，然后通过候选C的结果列表对可能的路径进行彻底搜索^α原子来识别最佳踪迹。当数据可用到2.5º分辨率时，这种方法工作可靠，在某些情况下可用到较差的分辨率（科恩等。, 2004 ). 自动序列对接和精炼在许多情况下导致接近完整的模型。

解决有限分辨率问题的另一种方法是搜索大于原子的结构。模板卷积法（Kleywegt&Jones，1997）)就是这样一个例子，启发了基于Fourier的FF恐惧方法（Cowtan，1998 )，后来用作基于电子密度的似然函数（Cowtan，2001 )用于定位二级结构特征和更大的域。Terwilliger后来采用了类似的方法（2001年 )用于二级结构元素的位置，在RESOLVE（解决）第一阶段改进和建模软件。然后，可以通过在符合几何约束的构象中添加残基来生长和连接二级结构元素，从而完成结构（Terwilliger，2003 ). 一种特别强大的技术用于RESOLVE（解决）是一次建造两个额外的残基，用最适合这对残基的组合电子密度来确定两个残基中第一个残基的最终位置。这种“look-ahead”方法比仅基于密度构建单个残留物更可靠。

这个CAPRA公司Ioerger&Sacchettini（2002）的软件 )它使用模式再识别技术来识别可能的C^α电子密度图中的位置。计算电子密度骨架，并使用神经网络处理关于候选点的4°球体中电子密度的方向不变特征，以确定骨架上的哪些点最可能代表C^α位置。然后通过使用分数和几何约束选择连接的候选位置来跟踪链。这种方法在2.8Å或更好的分辨率下是有效的（Ioerger&Sacchettini，2002).

2.方法

2.1. 概述

这里描述的链跟踪方法是基于定位可能的C^α定位并将其延伸成链条。第一步类似于CAPRA公司方法，但有一个非常显著的区别：CAPRA公司定位可能的C^α基于方向相关密度特征的位置，而海盗使用方向相关度量。这有两个好处。

（i）搜索的结果是一个定向氨基酸基团的列表，而不仅仅是位置。这提供了额外的方向信息，以帮助将氨基酸组装成链的过程。
（ii）由于定向相关信息未被排除在C标识之外^α位置，目标函数可能更敏感。然而，这被搜索算法对目标函数施加的限制所抵消。

此实现与以前的一些实现之间的另一个区别是，整个计算都是在“晶体”空间中进行的，其中空间组对称性和单元重复是隐含的。因此，在尝试构建之前，无需“定位”细胞中的分子，因为根据定义，任何原子的所有对称副本都是同时构建的。晶体空间的实现得益于“Clipper”晶体库的使用（Cowtan，2003

这里讨论的是定位C^α组，其中C^α组被认为包括C^α原子、键合N、C和H原子以及C^β原子存在时，这些原子形成刚性基团。然而，完全相同的技术同样适用于平面肽基团（C^α、C、O、N、C^α)或的核苷酸用于追踪DNA和RNA。

可能为C^α位置将使用密度似然函数进行定位，该函数将在六维搜索中计算电子密度图中可能的位置和方向。每个可能的配置都将根据密度特征再现真实C的密度特征的程度进行评分^α已知结构的模拟电子密度图中的群。

计算的一个关键要素是准备这个模拟电子密度图。为了使似然目标函数有效，模拟电子密度必须在相同的尺度上，代表大致相似的热运动，并且具有与要解释的电子密度图相同的大小和类型的噪声特征。该模拟过程本身是一个复杂的计算过程，是海盗统计阶段改进软件和海盗链跟踪软件，将在另一篇论文中进行描述（Cowtan，2006 ).

因此，整个计算可以用四个步骤来描述。

（i）查找初始C^α`种子的位置。
（二）将“种子”位置成长为链状碎片。
（iii）将链碎片连接成链。
（iv）修剪碰撞链条。

以下各节将更详细地讨论其中的每一项。

2.2。查找初始C^α`种子位置

查找步骤的目的是找到几个非常可能的C^α电子密度图中用作种子点的位置，长链将从中生长。此过程与α-螺旋线RESOLVE（解决）建模软件。C的位置^α`种子的位置需要在位置和方向上进行六维搜索。在合理的时间内完成此搜索对可使用的目标函数类型设置了一些限制。这里采用的方法是使用目标函数，通过几个快速傅里叶变换（FFT）可以实现平移搜索，并对密度目标的每个可能方向执行基于FFT的平移搜索。

这种计算的合适目标函数是Cowtan（1998）描述的加权密度一致函数)描述了如何使用FFT高效计算局部密度一致函数。这项工作得到了扩展（Cowtan，2001)通过使用相同的函数来计算噪声存在下的密度似然函数。这里的分析遵循相同的方法，但例外的是，在构建似然目标函数时，引入的用于解释目标映射中噪声的术语被使用模拟噪声映射所取代。

使用贝叶斯定理构造搜索函数，

$[P（{\rm模型}|{\rm-data}）={{P$

在这种情况下，数据是电子密度图，模型是C的搜索密度的具体位置^α组。让F类表示电子密度源于正确定位和定向的C^α组和 $[{\上划线F}]$ 表示电子密度来自任何其他来源的情况(即位置错误的C^α来源完全不同的群体或密度）。然后，正确定位C的概率^α给定地图中单个密度值的组由下式给出

$[P[F|\rho（{\bf x}）]={{P[\rho。\等式（2）]$

P（P）[ρ(x个)]是“观测到的”地图密度的概率x个。它可以计算为P（P）[ρ(x个),C类]，C类∈ (F类, $[{\上划线F}]$ ),即

$[\eqaligno{P[\rho（{\bf x}）]&=P[\rro（{\ffx}(3)}]$

电子密度值更有可能来自任何其他来源，而不是来自正确定位和定向的C^α组，因此 $[P（{\overline F}）]$ 将支配P（P）(F类). 忽略第一项和先验概率P（P）(F类)和 $[P（{\overline F}）]$ ，假设是均匀的，（2）成为

$[P[F|\rho（{\bf x}）]\simeq{P[\rho。\等式（4）]$

有许多C^α参考图中的组，每个组由其周围区域中不同模式的电子密度值表示。对于标准C区域中的每个位置^α放置在原点的组，将根据该位置相对于C出现的不同值计算电子密度的分布^α考虑所有C时的原子^α参考结构中的组。给定特定正确定位的C，特定电子密度值的概率^α组将由高斯近似，其平均值是预期的电子密度，其方差由计算整个C时该位置密度分布的方差给出^α模拟参考图中的原子。这些将被称为ρ_碎片(x个)和σ_碎片(x个)².

由正确定位的C引起的观测密度值的概率^α然后是组

$[P[\rho（{\bf x}）|F]\propto\exp\left\{-{[\rho[\bf x}）-\rho_{\rm frag}$

哪里x个′是相对于C的坐标^α哪个映射到点x个在地图中当前C的平移和方向^α小组。

观察到的密度由正确定位的C以外的其他来源引起的概率^α通过检查与C无关区域的密度，从模拟的参考密度图中估计组^α功能（但避免使用溶剂）。如果不相关密度的平均值和方差由下式给出ρ_兰特和σ_兰特，然后

$[P[\rho（{\bfx}）|{\overline F}]\propto\exp\left\{-{[\rho[\bfx}）-\rho_{\rm rand}]^{2}}\在{2\sigma_{\rman rand}^{2{}}\right\}上。\等式（6）]$

替换（4）中的这些表达式放弃常数项会得到

$[\eqaligno{P[F|\rho（{\bfx}）]&\propto{{\exp{\displaystyle\left\{-{[\rho（{\bfx}）-\rho{\rm rand}]^{2}}\在{2\sigma上^{2}_{\rm rand}}}\right\}}}}}\cr&\propto\exp\left\{-{{[\rho（{\bf x}）-\rho“”（{\bf x}'）]^{2}}\over{2\sigma“”（}\bf x}'）^{2{}}\right\}，&（7）}]$

哪里

$[\rho''（{\bf x}'）={{\sigma{\rm rand}^2\rho{\rm-frag}$

和

$[\sigma“”（{\bf x}'）^2={{\sigma{\rm frag}（{\ff x}'）^2\sigma_{\rmrand}^2}\在{\simma{\rm-rand}^2-\sigma-{\rm-frag}$

最后，C存在的概率指示^α基于图中每个单独密度值的组进行组合，以给出C概率的总体指示^α具有给定平移和方向的组，

$[P（F|\rho）=\textstyle\prod\limits_{x}P[F|\rro（{\bf x}）]。\等式（8）]$

计算这个表达式的对数更方便，

$[\eqalignno{\log P（F|\rho）&={\textstyle\sum\limits_{x}}\log P[F|\hro（{\bf x}）]\cr&={\textstyle\sum\ limits_{x}}-\left\{{{[\rho（{\ff x}）-\rho''（{\ffx}'）]^{2}\over{2\sigma''（{\fx}`）^{2{}}}\right\}+c.&（9）}]$

使用FFT方法，可以有效地将单个方向的结果函数计算为单元中位置的函数。让翻译搜索函数，它给出了C^α基团密度（电流方向）和作为平移函数的电子密度称为t吨(x个). 作为简化，让μ′′(x个) = 1/[2σ′′(x个'）²]. 搜索功能可以写为

$[\eqalignno{t（x）&=\textstyle\sum\limits_{x'}\mu''（x'）[\rho''（x'）-\rho（x'-x）]^2&x）^2.}]$

注意，在扩展中，第一项独立于x个so只计算一次，而第二个项是卷积，因此可以在互易空间如下：，

$[\eqaligno{t（x）&=\textstyle\sum\limits_y\mu''（y）\rho''（y）^2+（1/V）{\cal F}\{\calF}^{-1}[\mu'“（x）]{\calF}^{-1}[\rho（x）^2]^*\cr&\\quad{-}\2{\calf}^{-1-}[\μ''''（x）\rho''（x）]{\ cal F{-1}[\rho（x）]^*\}，&（11）}]$

哪里 $[{\cal F}]$ 表示傅里叶变换， $[{\cal F}^{-1}]$ 傅里叶逆变换和复共轭。如果预先计算了密度和平方密度的傅里叶系数，则可通过每个方向的三个快速傅里叶变换（FFT）计算平移函数。自从C^α组没有对称性，FFT必须在P（P）1

C位置的电子密度目标函数^α基团是通过考虑每个C周围4°球体内的电子密度来确定的^α在模拟参考图中。这个半径最初的灵感来自CAPRA公司（Ioerger&Sacchettini，2002）)随后的测试也证明了该方法是一种很好的选择。密度平均值和方差在精细（0.5º）正交网格上计算。

图1显示了典型搜索模型的平均值和方差密度。平均密度显示了C原子周围的预期密度模式^αC较弱的组^β密度和可能C中的凸起^γ指示。然而，方差密度显示出更有趣的特征，特别是最保守的密度不仅集中在主链原子位置，而且也集中在原子之间的低密度位置。这突出了FF恐惧搜索功能可选择高密度和低密度位置。还要注意C周围的凹陷^β在公共点C^γ地点。

图1
代表海盗C的目标函数^α显示区域的组(一)高平均密度和(b条)低方差(即高度保守）密度。使用生成的图形中央对手方清算所4MG公司（波特顿等。, 2002

对C的每个可能的平移和方向执行六维搜索^α小组赛和得分最高的比赛被认为是正确的。然后通过单纯形算法搜索细化每个位置和方向，然后存储为“种子”位置以进行链增长。默认情况下，最终模型中预期的每五个残基存储一个种子位置，尽管此参数不是很关键。

2.3. 将“种子”位置成长为链片段

“种子”C^α通过添加额外的C将组成长为链^α种子组之前和之后的组位于优化对数似然度以适应新组密度的位置，同时不违反Ramachandran图的约束。相同的对数似然函数用于计算C^α初始发现阶段增长增加的职位；然而，现在在实际空间中对每个候选位置和方向进行评估，而不是使用FFT方法。

为了进行此计算，Ramachandran图按残留物类型分类，并在两个水平上绘制等高线：频率>0.0005 rad⁻²描述“允许”区域和>0.01 rad的频率⁻²使用不精确但常见的术语描述“受欢迎”的地区。

成长过程如下。为了在正向生长单个残留物，对Ramachandran角的“允许”值进行搜索ψ当前残留物和φ用于下一个残留物。以20°的均匀角度步长搜索角度，拒绝任何ψ拉马钱德兰阴谋所禁止的价值观。（在链中构建第一个新残留物时，没有关于第一个残留物的信息φ.）接下来，使用30°的较粗角度搜索构建第二个残差，但再次应用Ramachandran约束。两个残基的最佳组合对数似然分数用于选择第一个残基位置。丢弃第二个残留物，其唯一目的是验证第一个残留品的位置。

这种双剩余look-ahead方法与Terwilliger（2003）的方法类似). 这里使用的Ramachandran数据来自Lovell的“Top 500”结构数据库等。(2003 ). 对于第一个残基，允许任何残基类型的任何“允许”构象，而对于第二个残基只允许非Gly残基的“优选”构象。

相反方向的建筑以完全相同的方式进行，除了拉玛钱德兰角的反转。

需要对数似然函数的截止阈值来确定何时停止向任一方向生长链。通过有效的特别的程序：对于每个初始种子点，向前生长三个残基。然后假设90%的最终端子C^α原子将是正确的。端子C的得分^α原子被分类，将最差的10%与剩余的10%分开的值用作截止值。这是一种原油特别的仅为地图质量提供基本耦合的标准；然而，在实践中，它在提供有用的片段以供后续阶段处理方面是有效的。

使用了一些优化来提高此方法的性能。对于全角度搜索，在计算中仅使用网格点的子集来近似对数似然函数。由于每次计算都需要从目标地图中进行密度插值，因此可以节省大量时间。使用第一个残基的最佳50个构象构建第二个残基，然后使用log-likelihood函数中的所有点重新搜索最佳30个组合分数。最后，使用单纯形算法搜索来细化最佳解的Ramachandran角。

2.4. 连接链碎片

在建模过程的这个阶段，模型由许多重叠的链段组成，这些链段可能相互一致，也可能不一致。根据这些，必须构建一个单一的一致模型，用于视觉评估或用于传统精炼程序。这通过两个步骤实现：连接一致的片段，然后修剪不一致的片段。

连接阶段在可能的情况下合并重叠的片段，并在可能进行多次合并时在片段之间进行一些初始选择。计算过程如下。

首先，每个链段被分割成一系列重叠的片段，每个片段包含三个残基；即一连串的n个残留物被分成n个−三个残基的2个片段，每个三残基片段与相邻片段重叠两个残基。

接下来，通过组合所有三个C的任意一对三边，合并同一链段的多条记录道^α原子匹配在2.0°以内。通过平均每个三边原子的每个主链原子的所有坐标来实现组合。这导致了一个模型，其中删除了同一链段的多个一致轨迹。

接下来，对三个残基进行检查，看看它们如何重新组装成链。对每对三边进行搜索，以识别第二个和第三个C^α第一个三重元素的原子与第一个和第二个C相匹配^α第二个三残基的原子，在2.0Å以内。每个这样的对都被标记为一个潜在的连接。

当一个单一的三位一体连接到几个可能的前体或后继体时，就会出现问题。此时，必须决定链条的正确路线。以科恩为例等。（2004年)，考虑链的不同可能路径，并假设产生最长无环链的路径是正确的。这里的一个假设是，追踪更有可能跳过残留物，而不是插入额外的残留物。

通过多重链接的三残留片段列表识别可能的最长轨迹是通过有向图找到最长路径的问题。这是一个简单的计算问题，通常通过称为“关键路径分析”的动态规划技术来解决。然而，必须对传统的实现进行调整，以处理假设跟踪中可能出现的循环链。因此，实施如下。

每个剩余的三残数被认为是有向图中的一个编号节点，该有向图可以有零个或多个前置节点和零个或多个后继节点。

计算速度非常快，在没有循环的情况下，可以通过给定的片段获得尽可能长的链跟踪。在环形链的情况下，不能保证结果是最优的；然而，它们通常是最优的或接近最优的。

一旦一组链通过三边追踪，最终的原子坐标将由链中连续三边的坐标组合而成。所有重叠原子的加权组合用于实现平滑过渡从一个三位一体到下一个，从而保持合并模型中的连接性。每个三重元素的权重从中心C线性减少^α走向极端。

2.5。修剪碰撞的链碎片

上一步将合并所有一致的链片段，选择一条片段向不同方向分支的路径。仍然存在不一致的链片段的问题，包括两种常见的情况：第一种情况是两个片段沿相反方向追踪同一链，第二种情况是链交叉或碰撞而没有任何共性。

这两种情况都是通过一个简单的修剪步骤来处理的。将每条链与其他链进行比较，注意任何情况下C对^α原子接近2.0℃。任何碰撞C^α原子从较短的链中被移除。然后删除长度小于五个残基的短链段。

该方法的一个目的是鼓励沿着正确的方向进行链跟踪，前提是由于在链增长步骤中使用了Ramachandran约束，反向链跟踪往往比正向跟踪短。（当然，这只适用于环路区域，因为螺旋和股可以在任何方向上进行追踪，而不会违反拉马钱德兰约束；然而，实际上这种方法是有效的。）

2.6. 结果

该程序已在名为海盗使用Clipper晶体库（Cowtan，2003). 实现非常简单，涉及大约2000行C++代码。与现场其他软件相比，此处概述的软件不完整：否精炼或者进行回收以完成模型，并且不执行序列对接或侧链构建。因此，在这一点上，该软件无法与竞争方法相比。然而，使用实际数据获得的一些初始结果可以为该方法的能力提供一些指示。

使用结构基因组学联合中心（JCSG）数据档案中的58个结构对该程序进行了测试（结构基因组联合中心，2006年 ). 这是一个由大量自动化方法求解的结构数据库。所选结构通过实验定相求解。对于每个结构，JCSG软件使用不同的软件和参数寻求多个阶段化路径。根据电子密度图的统计数据，通过自动选择结构，为每个结构选择一个初始相位集。然而，选择标准很粗糙，因此在某些情况下选择了较差、低分辨率甚至错误的相位；所有这些都是作为测试软件性能的手段保存的。

然后使用海盗软件（Cowtan，2000 ). 结果阶段被用作海盗链追踪计算。单个结构的计算在2.4 GHz PC上需要2到30分钟，具体取决于非对称单元和解决方案。

从数据分辨率和E类-map与最终精细结构的map相关，后者是相位误差的度量，通过加权E类价值和优点。

作为初始测试，`C的性能^α-已检查“查找”步骤。六维FF恐惧搜索用于识别最可能的C^α在两个良好的2.0º映射中的位置（PDB代码1z82个)以及较差的低分辨率地图（PDB代码1个vrb). 将最佳匹配的可能性得分与候选位置到最近C的距离（埃）进行比较^α在求解的结构中。结果如图2所示注意，通过良好的映射，似然函数可以准确地识别C^α位置。在较差的地图中，虽然75%的候选位置仍在真C的1.5°范围内，但仍有许多错误的位置和正确的位置被识别出来^α位置。在较低的分辨率下，链式追踪计算的后期阶段必须删除从不正确候选中追踪到的碎片。

图2
到最近的真C的距离^α作为的函数海盗可能性得分（按任意比例；越大越好）(一)高分辨率地图（PDB代码1z92型)和(b条)较差的低分辨率地图（PDB代码1个vrb). 为最佳C绘制结果^α被六维空间发现FF恐惧在每个案例中进行搜索。可能性得分是C的可靠指标^α密度好时选择位置，但密度差时选择好位置和坏位置的混合。

接下来，整个过程用于跟踪连接的链。The quality of the海盗模型是根据正确建造的已知结构的比例来描述的(即完整性）和所建模型的正确比例(即精确度）。这些是通过计算实际C的比例来计算的^α正确构建的原子和构建的C的比例^α这是正确的。为了进行此分析，正确构建的C^α是一个在1.9Å以内的真C^α在已知结构中的位置，并有一个相邻的C，该相邻C在1.9°范围内^α在已知结构中。（1.9º被选为两个C之间距离的一半^α原子，注册误差高达半个残差。）

表1描述了58个测试结构在残留物数量、起始数据的质量度量和质量度量方面的结果海盗链跟踪。图3显示了相同的数据，第4页, 5和6.

表1
申请结果海盗58个JCSG数据集密度修正相位的链追踪

这些柱给出了沉积代码、沉积模型中的残留物数量、分辨率和E类-起始密度修改相的映射相关性以及所得链轨迹的完整性和准确性。

PDB代码	残留物数量	分辨率（Ω）	E类-地图相关性	完整性（%）	准确度（%）
1伏8	135	1.75	0.912	52	100
1个vq	551	1.80	0.807	60	100
1伏8	190	1.53	0.916	57	100
1毫克	83	1.46	0.808	85	100
1个vlo	364	1.70	0.798	68	100
1个vku	85	1.94	0.718	47	100
1伏4	283	1.91	0.882	63	100
1伏5	1072	1.73	0.805	81	99
1英里/小时	802	1.80	0.923	75	99
1兹82	624	2	0.786	90	98
1个vlc	362	2.46	0.774	75	98
1个vqz	330	1.99	0.686	78	97
1伏/分	460	1.66	0.828	86	97
1伏4	836	1.82	0.671	74	97
1vkm	1752	2.60	0.800	79	97
1伏/小时	513	2.30	0.790	88	97
1伏2	190	2.10	0.786	73	97
1万立方英尺	407	1.73	0.695	86	96
1伏0	708	2.49	0.807	72	95
1百万立方米	329	2.32	0.646	83	95
1个vpb	437	1.80	0.883	78	94
1伏7	417	3	0.741	90	94
1伏8	373	2	0.705	58	93
1个vjf	167	2.60	0.892	88	93
1个vpy	251	2.40	0.681	85	92
1阀组	414	2.20	0.638	78	92
1伏5	906	1.85	0.724	78	92
1个vjx	149	2.30	0.620	92	92
1个vqy	847	2.40	0.687	74	91
1伏赫兹	782	2.90	0.799	71	91
1个vkn	1351	2.45	0.871	83	91
1兹85	428	2.12	0.621	84	90
1vjz公司	325	2.50	0.792	85	89
1个6a	168	1.90	0.791	90	88
1个vli	358	2.38	0.700	81	87
1伏6	1486	2.80	0.794	75	87
1伏/秒	113	2.05	0.701	69	85
1伏3	586	2.80	0.630	71	84
1vjv型	367	2.65	0.900	70	84
1伏3	179	2.06	0.789	92	82
1伏	792	3	0.644	76	81
1个vrb	1224	3.20	0.628	59	80
1伏4	856	2.32	0.735	67	80
1升	642	3	0.779	66	76
1vkd	1956	2.60	0.705	62	76
1vky（维基）	563	3	0.664	71	72
1伏9	147	2.70	0.713	89	67
1vjn公司	383	3	0.857	63	66
1vkb	147	1.90	0.704	69	64
1日	282	2	0.751	84	53
1年	261	2.50	0.592	86	43
1个vqr	1101	3	0.528	27	35
每克1个	301	2.10	0.450	三	23
1个vpj	356	1.74	0.401	20	16
1个vl0	842	2.50	0.222	14	15
1伏千瓦	217	2	0.074	2	4
1伏9	242	2	0.042	0	1
1vjo公司	377	2	0.018	2	1

图3
完整性海盗58个JCSG测试结构的模型作为分辨率函数。

图4
的准确性海盗58个JCSG测试结构的模型作为分辨率函数。

图5
完整性海盗58个JCSG测试结构的模型作为初始阶段质量的函数(E类-地图相关性）。

图6
的准确性海盗58个JCSG测试结构的模型作为初始阶段质量的函数(E类-地图相关性）。

完整性在0到92%之间，准确性在0到100%之间。注意，完整性或准确性都不会随着起始数据的分辨率而发生很大变化。最低分辨率模型的精确度略有下降，但完整性保持一致。该方法似乎至少可用于这些测试数据的3.2°低分辨率极限。

然而，完整性和准确性与初始阶段的质量密切相关。首字母E类-地图相关性小于0.6导致模型较差。从这些结果可以得出结论，该方法对数据分辨率不是很敏感，但对相位质量很敏感。因此，该方法似乎是对ARP协议/弯曲（科恩等。, 2004)，这对数据分辨率更敏感，但可以给出相位很差的结果。

为了进行自动化模型构建，通常第一个模型不完整，并且在回收过程中需要扩展精炼和地图计算。因此，初始模型的准确性可能比其完整性更重要。

测试中最低分辨率数据集的模型，1个vrb（结构基因组学联合中心，未发表的工作）显示了一些有趣的特征。一个亚单位海盗3.2°实验相位数据集的模型如图7所示注意，分子的螺旋区域已被很好地追踪；即使在低分辨率下，原子放置的精度也很高，通常在0.3°以内。这是意料之中的，因为螺旋构象比其他构象更常见、更均匀，因此对似然密度目标的贡献更大。非螺旋区域的变化更大，因此链轨迹的精度更低。这表明了未来的方法，包括在Ramachandran地块的不同区域使用不同的密度目标进行生长。

图7
海盗的踪迹A类亚单位1个vrb3.2º。真正的结构显示在蓝色细线中海盗用较粗的红线描出。

之间的其他差异海盗最终的模型值得注意。图8显示了一个典型的自动跟踪错误，其中链轨迹通过侧链密度在链之间跳跃。注意，这也说明了如何海盗与追求高密度的项目相比，建筑可以起到反作用。

图8
海盗跟踪中的错误A类亚单位1个vrb3.2º。真实的结构用细黑线表示海盗用较粗的红线描出。

图9显示了一个地方海盗建立了一个原始模型中缺失的回路，以及电子密度。将插入的残基数量与最终模型的序列进行比较，表明跟踪是正确的。存在环路密度，但仅当轮廓水平降低时，连通性才明显。本案例强调了海盗.由于似然目标功能主要针对预期的低密度特征和高密度特征，海盗能够在电子密度较低的区域进行构建。此功能具有以下成本：海盗在某些情况下，也可能过度解释蛋白质特征方面的溶剂。这可以在表1中看到在模型的完整性高但精度低的情况下(例如 1个vjr),即除了正确追踪蛋白质区域外，海盗在溶剂区构建了蛋白质链。这些情况可以使用库特建模程序（Emsley&Cowtan，2004 )并将在未来的发展中实施海盗.

图9
海盗沉积结构中缺少回路的轨迹。真正的结构用细黑线表示海盗用较粗的红线描出。

3.结论

这里描述的链追踪方法非常简单，依赖于以几种不同的方式应用单个似然函数来追踪实验相控电子密度图中的蛋白质主链。该方法速度相当快，需要几分钟到一小时，即使在低分辨率下也可以进行部分跟踪(即低于3.0º）。然而，该方法取决于初始实验阶段和阶段改进的质量。

这里介绍的方法不完整，缺少序列对接的实现，删除了错误跟踪的特征，精炼结果模式或回收到模型完成。然而，初步结果表明，本文所述的方法为未来的发展提供了合适的基础。

致谢

作者感谢P.Emsley和E.Dodson提出的有益建议，感谢JCSG数据档案提供了精心策划的测试数据来源。这项工作得到了英国皇家学会大学研究奖学金的支持。

工具书类

Cohen，S.X.、Morris，R.J.、Fernandez，F.J.，Ben Jelloul，M.、Kakaris，M..、Parthasarathy，V.、Lamzin，V.S.、Kleywegt，G.J.和Perrakis，A.（2004）。《水晶学报》。天60, 2222–2229. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Cowtan，K.D.（1998）。《水晶学报》。天54, 750–756. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Cowtan，K.D.（2000年）。Jnt CCP4/ESF–EACBM新闻。蛋白质结晶仪。 38, 7. 谷歌学者
 Cowtan，K.D.（2001）。《水晶学报》。天57, 1435–1444. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Cowtan，K.D.（2003）。IUCr计算。Commun公司。新闻。 2, 4–9. 谷歌学者
 Cowtan，K.D.（2006）。正在准备中。谷歌学者
 Emsley，P.&Cowtan，K.D.（2004）。《水晶学报》。天60, 2126–2132. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Ioerger，T.R.和Sacchettini，J.C.（2002年）。《水晶学报》。天58, 2043–2054. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 结构基因组学联合中心（2006年）。JCSG数据档案。 https://www.jcsg.org/datasets-info.shtml. 谷歌学者
 Jones，T.A.（2004）。《水晶学报》。天60, 2115–2125. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Jones，T.A.、Zou，J.Y.、Cowan，S.W.和Kjeldgaard，M.（1991）。《水晶学报》。A类47, 110–119. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Kleywegt，G.J.&Jones，T.A.（1997年）。《水晶学报》。天53, 179–185. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Lovell，S.、Davis，I.、Adrendall，W.、de Bakker，P.、Word，J.、Prisant，M.、Richardson，J.和Richardsson，D.（2003）。蛋白质,50, 437–450. 科学网交叉参考公共医学中国科学院谷歌学者
 Morris，R.J.、Perrakis，A.和Lamzin，V.S.（2002年）。《水晶学报》。天58, 968–975. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Oldfield，T.J.（2002）。《水晶学报》。天58, 487–493. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Oldfield，T.J.（2003年）。《水晶学报》。天59, 483–491. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Potterton，E.，McNicholas，S.，Krissinel，E.，Cowtan，K.&Noble，M.（2002年）。《水晶学报》。天581955年至1957年科学网交叉参考中国科学院 IUCr日志谷歌学者
 Sheldrick，G.、Hauptman，H.、Weeks，C.、Miller，R.和Usón，I.（2001）。国际结晶学表，卷。F类由M.G.Rossmann和E.Arnold编辑，第333–351页。多德雷赫特：Kluwer学术出版社。谷歌学者
 Terwilliger，T.C.（2001）。《水晶学报》。天57, 1755–1762. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Terwilliger，T.C.（2003）。《水晶学报》。天59, 38–44. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Zou，J.-Y.&Jones，T.A.（1996年）。《水晶学报》。天52, 833–841. 交叉参考中国科学院科学网 IUCr日志谷歌学者