研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
编号:2059-7983

这个海盗用于自动建模的软件。1.追踪蛋白质链

十字标记_颜色_方形_文本.svg

约克大学化学系,英国约克YO10 5DD,Heslington
*通信电子邮件:cowtan@ysbl.york.ac.uk

描述了一种在实验电子密度图中自动追踪蛋白质链的新技术。该技术依赖于重复应用定向电子密度似然目标函数来识别可能的Cα位置。此函数应用于地图中几个有希望的“种子”位置的位置,并增长这些初始Cα定位成延伸链碎片。讨论了将链片段组装成初始链迹的技术。

1.简介

根据电子密度自动构建蛋白质结构的原子模型是高通量结构解决方案环境的重要组成部分,也是非自动化环境中的有用工具。当前的自动化构建工具包含了一系列想法,其中一些是为自动化而设计的,另一些是从图形建模程序中已经存在的技术中采用的。

这里描述的自动建模方法结合了一种新技术,即使用定向电子密度似然目标函数来识别可能的Cα立场,以及根据现有方法改编的一系列方法。由此产生的方法组合非常简单,但作为新的自动化建模系统的基础,显示出巨大的前景。在详细描述新的发展之前,将讨论在这项工作中有影响的一些其他方法。

1.1. 图形建模工具

当前自动化模型构建所依赖的许多基础工作都是从琼斯及其同事的工作中提取的(例如琼斯,2004年[琼斯·T·A(2004),《水晶学报》,D60,2115-2125。])关于建模的图形工具,特别是O(运行)软件。使用了两种方法。第一个涉及计算连接电子密度峰值的脊线的“骨架”。然后用C来解释骨架α位置,通常出现在骨骼中的分支点附近(Jones等。, 1991【Jones,T.A.、Zou,J.Y.、Cowan,S.W.和Kjeldgaard,M.(1991),《水晶学报》A47,110-119。】). 第二个涉及二级结构特征的位置,特别是螺旋和链,通过对理想碎片进行六维旋转和平移搜索,并评估原子中心的电子密度(Kleywegt&Jones,1997)【Kleywegt,G.J.&Jones,T.A.(1997),《结晶学报》D53,179-185。】). 这些特征提供了一个起点,可以从中追踪蛋白质链的其余部分。

Jones及其同事的另一个重要贡献是将蛋白质序列与主链轨迹对接(Zou&Jones,1996)[Zou,J.-Y.&Jones,T.A.(1996),《水晶学报》,D52,833-841.]). 这一步提供了链方向的验证,通常在完成主链追踪之前是必要的,因为连接更容易解释的蛋白质核心区域的柔性环在电子密度中可能不可见。邹和琼斯(1996)[Zou,J.-Y.&Jones,T.A.(1996),《水晶学报》,D52,833-841.])通过旋转体配件和实际空间残差然后根据残差得分“滑动”已知序列,以找到最可能的匹配。

Oldfield继续开发图形链跟踪工具,以执行辅助和自动化建筑(Oldfield2002【Oldfield,T.J.(2002),《水晶学报》,D58,487-493。】). 通过骨架脊线的几何分析来识别二级结构特征,然后通过自动识别骨架中延伸链片段的分支点来自动生长这些特征以对分子的环区域进行建模。由此产生的方法因其速度而在随后的自动过程中脱颖而出。Oldfield建议,在大多数情况下,该程序仅限于分辨率高于4.0º的数据(Oldfield2003)【Oldfield,T.J.(2003),《水晶学报》,D59,483-491。】).

1.2. 非粒度建模工具

通过识别具有电子密度峰的原子来自动解释电子密度在小分子领域有着悠久的历史直接法并且也被应用于高分辨率的大分子(例如,参见Sheldrick等。, 2001[Sheldrick,G.,Hauptman,H.,Weeks,C.,Miller,R.&Usón,I.(2001),《国际晶体学表》,F卷,M.G.Rossmann&E.Arnold编辑,第333-351页。多德雷赫特:Kluwer学术出版社。]). 这个ARP协议/弯曲该软件包扩展了这种方法,使其能够在连续较低的分辨率下工作(莫里斯等。, 2002[Morris,R.J.,Perrakis,A.&Lamzin,V.S.(2002),《水晶学报》D58,968-975。]). 在较低的分辨率下,原子不被分解,因此个别原子峰消失;然而,仍然可以构建(未确定的)原子模型来解释观测数据。莫里斯等。(2002[Morris,R.J.,Perrakis,A.&Lamzin,V.S.(2002),《水晶学报》D58,968-975。])应用有关蛋白质几何形状的信息来选择似是而非的Cα从这些冗余模型中提取原子,然后通过候选C的结果列表对可能的路径进行彻底搜索α原子来识别最佳踪迹。当数据可用到2.5º分辨率时,这种方法工作可靠,在某些情况下可用到较差的分辨率(科恩等。, 2004[科恩·S·X、莫里斯·R·J、费尔南德斯·F·J、本·杰劳尔·M、卡卡里斯·M、帕塔萨拉西·V、兰辛·S、克莱维格特·G·J和佩拉基斯·A(2004),《结晶学报》第60期,第22229页至第229页。]). 自动序列对接和精炼在许多情况下导致接近完整的模型。

解决有限分辨率问题的另一种方法是搜索大于原子的结构。模板卷积法(Kleywegt&Jones,1997)【Kleywegt,G.J.&Jones,T.A.(1997),《结晶学报》D53,179-185。】)就是这样一个例子,启发了基于Fourier的FF恐惧方法(Cowtan,1998[考坦,K.D.(1998),《结晶学报》,D54,750-756。]),后来用作基于电子密度的似然函数(Cowtan,2001[考坦,K.D.(2001),《结晶学报》,D571435-1444。])用于定位二级结构特征和更大的域。Terwilliger后来采用了类似的方法(2001年【Terwilliger,T.C.(2001),《水晶学报》D571755-1762。】)用于二级结构元素的位置,在RESOLVE(解决)第一阶段改进和建模软件。然后,可以通过在符合几何约束的构象中添加残基来生长和连接二级结构元素,从而完成结构(Terwilliger,2003【Terwilliger,T.C.(2003),《水晶学报》,D59,38-44。】). 一种特别强大的技术用于RESOLVE(解决)是一次建造两个额外的残基,用最适合这对残基的组合电子密度来确定两个残基中第一个残基的最终位置。这种“look-ahead”方法比仅基于密度构建单个残留物更可靠。

这个CAPRA公司Ioerger&Sacchettini(2002)的软件【Ioerger,T.R.&Sacchettini,J.C.(2002),《结晶学报》D58,2043-2054。】)它使用模式再识别技术来识别可能的Cα电子密度图中的位置。计算电子密度骨架,并使用神经网络处理关于候选点的4°球体中电子密度的方向不变特征,以确定骨架上的哪些点最可能代表Cα位置。然后通过使用分数和几何约束选择连接的候选位置来跟踪链。这种方法在2.8Å或更好的分辨率下是有效的(Ioerger&Sacchettini,2002【Ioerger,T.R.&Sacchettini,J.C.(2002),《结晶学报》D58,2043-2054。】).

2.方法

2.1. 概述

这里描述的链跟踪方法是基于定位可能的Cα定位并将其延伸成链条。第一步类似于CAPRA公司方法,但有一个非常显著的区别:CAPRA公司定位可能的Cα基于方向相关密度特征的位置,而海盗使用方向相关度量。这有两个好处。

  • (i) 搜索的结果是一个定向氨基酸基团的列表,而不仅仅是位置。这提供了额外的方向信息,以帮助将氨基酸组装成链的过程。

  • (ii)由于定向相关信息未被排除在C标识之外α位置,目标函数可能更敏感。然而,这被搜索算法对目标函数施加的限制所抵消。

此实现与以前的一些实现之间的另一个区别是,整个计算都是在“晶体”空间中进行的,其中空间组对称性和单元重复是隐含的。因此,在尝试构建之前,无需“定位”细胞中的分子,因为根据定义,任何原子的所有对称副本都是同时构建的。晶体空间的实现得益于“Clipper”晶体库的使用(Cowtan,2003[Cowtan,K.D.(2003),国际货币联盟计算委员会,新闻2,4-9。]).

这里讨论的是定位Cα组,其中Cα组被认为包括Cα原子、键合N、C和H原子以及Cβ原子存在时,这些原子形成刚性基团。然而,完全相同的技术同样适用于平面肽基团(Cα、C、O、N、Cα)或的核苷酸用于追踪DNA和RNA。

可能为Cα位置将使用密度似然函数进行定位,该函数将在六维搜索中计算电子密度图中可能的位置和方向。每个可能的配置都将根据密度特征再现真实C的密度特征的程度进行评分α已知结构的模拟电子密度图中的群。

计算的一个关键要素是准备这个模拟电子密度图。为了使似然目标函数有效,模拟电子密度必须在相同的尺度上,代表大致相似的热运动,并且具有与要解释的电子密度图相同的大小和类型的噪声特征。该模拟过程本身是一个复杂的计算过程,是海盗统计阶段改进软件和海盗链跟踪软件,将在另一篇论文中进行描述(Cowtan,2006【Cowtan,K.D.(2006),准备中。】).

因此,整个计算可以用四个步骤来描述。

  • (i) 查找初始Cα`种子的位置。

  • (二)将“种子”位置成长为链状碎片。

  • (iii)将链碎片连接成链。

  • (iv)修剪碰撞链条。

以下各节将更详细地讨论其中的每一项。

2.2。查找初始Cα`种子位置

查找步骤的目的是找到几个非常可能的Cα电子密度图中用作种子点的位置,长链将从中生长。此过程与α-螺旋线RESOLVE(解决)建模软件。C的位置α`种子的位置需要在位置和方向上进行六维搜索。在合理的时间内完成此搜索对可使用的目标函数类型设置了一些限制。这里采用的方法是使用目标函数,通过几个快速傅里叶变换(FFT)可以实现平移搜索,并对密度目标的每个可能方向执行基于FFT的平移搜索。

这种计算的合适目标函数是Cowtan(1998)描述的加权密度一致函数[Cowtan,K.D.(1998),《晶体学报》,D54,750-756.])描述了如何使用FFT高效计算局部密度一致函数。这项工作得到了扩展(Cowtan,2001[考坦,K.D.(2001),《结晶学报》,D571435-1444。])通过使用相同的函数来计算噪声存在下的密度似然函数。这里的分析遵循相同的方法,但例外的是,在构建似然目标函数时,引入的用于解释目标映射中噪声的术语被使用模拟噪声映射所取代。

使用贝叶斯定理构造搜索函数,

[P({\rm模型}|{\rm-data})={{P

在这种情况下,数据是电子密度图,模型是C的搜索密度的具体位置α组。F类表示电子密度源于正确定位和定向的Cα组和[{\上划线F}]表示电子密度来自任何其他来源的情况(位置错误的Cα来源完全不同的群体或密度)。然后,正确定位C的概率α给定地图中单个密度值的组由下式给出

[P[F|\rho({\bf x})]={{P[\rho。\等式(2)]

P(P)[ρ(x个)]是“观测到的”地图密度的概率x个。它可以计算为P(P)[ρ(x个),C类],C类∈ (F类,[{\上划线F}]),

[\eqaligno{P[\rho({\bf x})]&=P[\rro({\ffx}(3)}]

电子密度值更有可能来自任何其他来源,而不是来自正确定位和定向的Cα组,因此[P({\overline F})]将支配P(P)(F类). 忽略第一项和先验概率P(P)(F类)和[P({\overline F})],假设是均匀的,(2)[链接]成为

[P[F|\rho({\bf x})]\simeq{P[\rho。\等式(4)]

有许多Cα参考图中的组,每个组由其周围区域中不同模式的电子密度值表示。对于标准C区域中的每个位置α放置在原点的组,将根据该位置相对于C出现的不同值计算电子密度的分布α考虑所有C时的原子α参考结构中的组。给定特定正确定位的C,特定电子密度值的概率α组将由高斯近似,其平均值是预期的电子密度,其方差由计算整个C时该位置密度分布的方差给出α模拟参考图中的原子。这些将被称为ρ碎片(x个)和σ碎片(x个)2.

由正确定位的C引起的观测密度值的概率α然后是组

[P[\rho({\bf x})|F]\propto\exp\left\{-{[\rho[\bf x})-\rho_{\rm frag}

哪里x个′是相对于C的坐标α哪个映射到点x个在地图中当前C的平移和方向α小组。

观察到的密度由正确定位的C以外的其他来源引起的概率α通过检查与C无关区域的密度,从模拟的参考密度图中估计组α功能(但避免使用溶剂)。如果不相关密度的平均值和方差由下式给出ρ兰特σ兰特,然后

[P[\rho({\bfx})|{\overline F}]\propto\exp\left\{-{[\rho[\bfx})-\rho_{\rm rand}]^{2}}\在{2\sigma_{\rman rand}^{2{}}\right\}上。\等式(6)]

替换(4)中的这些表达式[链接]放弃常数项会得到

[\eqaligno{P[F|\rho({\bfx})]&\propto{{\exp{\displaystyle\left\{-{[\rho({\bfx})-\rho{\rm rand}]^{2}}\在{2\sigma上^{2}_{\rm rand}}}\right\}}}}}\cr&\propto\exp\left\{-{{[\rho({\bf x})-\rho“”({\bf x}')]^{2}}\over{2\sigma“”(}\bf x}')^{2{}}\right\},&(7)}]

哪里

[\rho''({\bf x}')={{\sigma{\rm rand}^2\rho{\rm-frag}

[\sigma“”({\bf x}')^2={{\sigma{\rm frag}({\ff x}')^2\sigma_{\rmrand}^2}\在{\simma{\rm-rand}^2-\sigma-{\rm-frag}

最后,C存在的概率指示α基于图中每个单独密度值的组进行组合,以给出C概率的总体指示α具有给定平移和方向的组,

[P(F|\rho)=\textstyle\prod\limits_{x}P[F|\rro({\bf x})]。\等式(8)]

计算这个表达式的对数更方便,

[\eqalignno{\log P(F|\rho)&={\textstyle\sum\limits_{x}}\log P[F|\hro({\bf x})]\cr&={\textstyle\sum\ limits_{x}}-\left\{{{[\rho({\ff x})-\rho''({\ffx}')]^{2}\over{2\sigma''({\fx}`)^{2{}}}\right\}+c.&(9)}]

使用FFT方法,可以有效地将单个方向的结果函数计算为单元中位置的函数。让翻译搜索函数,它给出了Cα基团密度(电流方向)和作为平移函数的电子密度称为t吨(x个). 作为简化,让μ′′(x个) = 1/[2σ′′(x个')2]. 搜索功能可以写为

[\eqalignno{t(x)&=\textstyle\sum\limits_{x'}\mu''(x')[\rho''(x')-\rho(x'-x)]^2&x)^2.}]

注意,在扩展中,第一项独立于x个so只计算一次,而第二个项是卷积,因此可以在互易空间如下:,

[\eqaligno{t(x)&=\textstyle\sum\limits_y\mu''(y)\rho''(y)^2+(1/V){\cal F}\{\calF}^{-1}[\mu'“(x)]{\calF}^{-1}[\rho(x)^2]^*\cr&\\quad{-}\2{\calf}^{-1-}[\μ''''(x)\rho''(x)]{\ cal F{-1}[\rho(x)]^*\},&(11)}]

哪里[{\cal F}]表示傅里叶变换,[{\cal F}^{-1}]傅里叶逆变换和复共轭。如果预先计算了密度和平方密度的傅里叶系数,则可通过每个方向的三个快速傅里叶变换(FFT)计算平移函数。自从Cα组没有对称性,FFT必须在P(P)1

C位置的电子密度目标函数α基团是通过考虑每个C周围4°球体内的电子密度来确定的α在模拟参考图中。这个半径最初的灵感来自CAPRA公司(Ioerger&Sacchettini,2002)【Ioerger,T.R.&Sacchettini,J.C.(2002),《结晶学报》D58,2043-2054。】)随后的测试也证明了该方法是一种很好的选择。密度平均值和方差在精细(0.5º)正交网格上计算。

图1[链接]显示了典型搜索模型的平均值和方差密度。平均密度显示了C原子周围的预期密度模式αC较弱的组β密度和可能C中的凸起γ指示。然而,方差密度显示出更有趣的特征,特别是最保守的密度不仅集中在主链原子位置,而且也集中在原子之间的低密度位置。这突出了FF恐惧搜索功能可选择高密度和低密度位置。还要注意C周围的凹陷β在公共点Cγ地点。

[图1]
图1
代表海盗C的目标函数α显示区域的组()高平均密度和(b条)低方差(高度保守)密度。使用生成的图形中央对手方清算所4MG公司(波特顿等。, 2002[波特顿,E.,麦克尼古拉斯,S.,克里斯内尔,E.,考坦,K.&诺布尔,M.(2002),《水晶学报》D581955-1957.]).

对C的每个可能的平移和方向执行六维搜索α小组赛和得分最高的比赛被认为是正确的。然后通过单纯形算法搜索细化每个位置和方向,然后存储为“种子”位置以进行链增长。默认情况下,最终模型中预期的每五个残基存储一个种子位置,尽管此参数不是很关键。

2.3. 将“种子”位置成长为链片段

“种子”Cα通过添加额外的C将组成长为链α种子组之前和之后的组位于优化对数似然度以适应新组密度的位置,同时不违反Ramachandran图的约束。相同的对数似然函数用于计算Cα初始发现阶段增长增加的职位;然而,现在在实际空间中对每个候选位置和方向进行评估,而不是使用FFT方法。

为了进行此计算,Ramachandran图按残留物类型分类,并在两个水平上绘制等高线:频率>0.0005 rad−2描述“允许”区域和>0.01 rad的频率−2使用不精确但常见的术语描述“受欢迎”的地区。

成长过程如下。为了在正向生长单个残留物,对Ramachandran角的“允许”值进行搜索ψ当前残留物和φ用于下一个残留物。以20°的均匀角度步长搜索角度,拒绝任何ψ拉马钱德兰阴谋所禁止的价值观。(在链中构建第一个新残留物时,没有关于第一个残留物的信息φ.)接下来,使用30°的较粗角度搜索构建第二个残差,但再次应用Ramachandran约束。两个残基的最佳组合对数似然分数用于选择第一个残基位置。丢弃第二个残留物,其唯一目的是验证第一个残留品的位置。

这种双剩余look-ahead方法与Terwilliger(2003)的方法类似【Terwilliger,T.C.(2003),《水晶学报》,D59,38-44。】). 这里使用的Ramachandran数据来自Lovell的“Top 500”结构数据库等。(2003【Lovell,S.、Davis,I.、Adrendall,W.、de Bakker,P.、Word,J.、Prisant,M.、Richardson,J.和Richardsson,D.(2003)。蛋白质,50,437-450。】). 对于第一个残基,允许任何残基类型的任何“允许”构象,而对于第二个残基只允许非Gly残基的“优选”构象。

相反方向的建筑以完全相同的方式进行,除了拉玛钱德兰角的反转。

需要对数似然函数的截止阈值来确定何时停止向任一方向生长链。通过有效的特别的程序:对于每个初始种子点,向前生长三个残基。然后假设90%的最终端子Cα原子将是正确的。端子C的得分α原子被分类,将最差的10%与剩余的10%分开的值用作截止值。这是一种原油特别的仅为地图质量提供基本耦合的标准;然而,在实践中,它在提供有用的片段以供后续阶段处理方面是有效的。

使用了一些优化来提高此方法的性能。对于全角度搜索,在计算中仅使用网格点的子集来近似对数似然函数。由于每次计算都需要从目标地图中进行密度插值,因此可以节省大量时间。使用第一个残基的最佳50个构象构建第二个残基,然后使用log-likelihood函数中的所有点重新搜索最佳30个组合分数。最后,使用单纯形算法搜索来细化最佳解的Ramachandran角。

2.4. 连接链碎片

在建模过程的这个阶段,模型由许多重叠的链段组成,这些链段可能相互一致,也可能不一致。根据这些,必须构建一个单一的一致模型,用于视觉评估或用于传统精炼程序。这通过两个步骤实现:连接一致的片段,然后修剪不一致的片段。

连接阶段在可能的情况下合并重叠的片段,并在可能进行多次合并时在片段之间进行一些初始选择。计算过程如下。

首先,每个链段被分割成一系列重叠的片段,每个片段包含三个残基;一连串的n个残留物被分成n个−三个残基的2个片段,每个三残基片段与相邻片段重叠两个残基。

接下来,通过组合所有三个C的任意一对三边,合并同一链段的多条记录道α原子匹配在2.0°以内。通过平均每个三边原子的每个主链原子的所有坐标来实现组合。这导致了一个模型,其中删除了同一链段的多个一致轨迹。

接下来,对三个残基进行检查,看看它们如何重新组装成链。对每对三边进行搜索,以识别第二个和第三个Cα第一个三重元素的原子与第一个和第二个C相匹配α第二个三残基的原子,在2.0Å以内。每个这样的对都被标记为一个潜在的连接。

当一个单一的三位一体连接到几个可能的前体或后继体时,就会出现问题。此时,必须决定链条的正确路线。以科恩为例等。(2004年[科恩·S·X、莫里斯·R·J、费尔南德斯·F·J、本·杰劳尔·M、卡卡里斯·M、帕塔萨拉西·V、兰辛·S、克莱维格特·G·J和佩拉基斯·A(2004),《结晶学报》第60期,第22229页至第229页。]),考虑链的不同可能路径,并假设产生最长无环链的路径是正确的。这里的一个假设是,追踪更有可能跳过残留物,而不是插入额外的残留物。

通过多重链接的三残留片段列表识别可能的最长轨迹是通过有向图找到最长路径的问题。这是一个简单的计算问题,通常通过称为“关键路径分析”的动态规划技术来解决。然而,必须对传统的实现进行调整,以处理假设跟踪中可能出现的循环链。因此,实施如下。

每个剩余的三残数被认为是有向图中的一个编号节点,该有向图可以有零个或多个前置节点和零个或多个后继节点。[链接]

【方案一】

计算速度非常快,在没有循环的情况下,可以通过给定的片段获得尽可能长的链跟踪。在环形链的情况下,不能保证结果是最优的;然而,它们通常是最优的或接近最优的。

一旦一组链通过三边追踪,最终的原子坐标将由链中连续三边的坐标组合而成。所有重叠原子的加权组合用于实现平滑过渡从一个三位一体到下一个,从而保持合并模型中的连接性。每个三重元素的权重从中心C线性减少α走向极端。

2.5。修剪碰撞的链碎片

上一步将合并所有一致的链片段,选择一条片段向不同方向分支的路径。仍然存在不一致的链片段的问题,包括两种常见的情况:第一种情况是两个片段沿相反方向追踪同一链,第二种情况是链交叉或碰撞而没有任何共性。

这两种情况都是通过一个简单的修剪步骤来处理的。将每条链与其他链进行比较,注意任何情况下C对α原子接近2.0℃。任何碰撞Cα原子从较短的链中被移除。然后删除长度小于五个残基的短链段。

该方法的一个目的是鼓励沿着正确的方向进行链跟踪,前提是由于在链增长步骤中使用了Ramachandran约束,反向链跟踪往往比正向跟踪短。(当然,这只适用于环路区域,因为螺旋和股可以在任何方向上进行追踪,而不会违反拉马钱德兰约束;然而,实际上这种方法是有效的。)

2.6. 结果

该程序已在名为海盗使用Clipper晶体库(Cowtan,2003[Cowtan,K.D.(2003),国际货币联盟计算委员会,新闻2,4-9。]). 实现非常简单,涉及大约2000行C++代码。与现场其他软件相比,此处概述的软件不完整:否精炼或者进行回收以完成模型,并且不执行序列对接或侧链构建。因此,在这一点上,该软件无法与竞争方法相比。然而,使用实际数据获得的一些初始结果可以为该方法的能力提供一些指示。

使用结构基因组学联合中心(JCSG)数据档案中的58个结构对该程序进行了测试(结构基因组联合中心,2006年[结构基因组学联合中心(2006),JCSG数据档案。https://www.jcsg.org/datasets-info.shtml。]). 这是一个由大量自动化方法求解的结构数据库。所选结构通过实验定相求解。对于每个结构,JCSG软件使用不同的软件和参数寻求多个阶段化路径。根据电子密度图的统计数据,通过自动选择结构,为每个结构选择一个初始相位集。然而,选择标准很粗糙,因此在某些情况下选择了较差、低分辨率甚至错误的相位;所有这些都是作为测试软件性能的手段保存的。

然后使用海盗软件(Cowtan,2000【Cowtan,K.D.(2000).Jnt CCP4/ESF-EACBM Newsl.蛋白质结晶器.38,7.】). 结果阶段被用作海盗链追踪计算。单个结构的计算在2.4 GHz PC上需要2到30分钟,具体取决于非对称单元和解决方案。

从数据分辨率和E类-map与最终精细结构的map相关,后者是相位误差的度量,通过加权E类价值和优点。

作为初始测试,`C的性能α-已检查“查找”步骤。六维FF恐惧搜索用于识别最可能的Cα在两个良好的2.0º映射中的位置(PDB代码1z82个)以及较差的低分辨率地图(PDB代码1个vrb). 将最佳匹配的可能性得分与候选位置到最近C的距离(埃)进行比较α在求解的结构中。结果如图2所示[链接]注意,通过良好的映射,似然函数可以准确地识别Cα位置。在较差的地图中,虽然75%的候选位置仍在真C的1.5°范围内,但仍有许多错误的位置和正确的位置被识别出来α位置。在较低的分辨率下,链式追踪计算的后期阶段必须删除从不正确候选中追踪到的碎片。

[图2]
图2
到最近的真C的距离α作为的函数海盗可能性得分(按任意比例;越大越好)()高分辨率地图(PDB代码1z92型)和(b条)较差的低分辨率地图(PDB代码1个vrb). 为最佳C绘制结果α被六维空间发现FF恐惧在每个案例中进行搜索。可能性得分是C的可靠指标α密度好时选择位置,但密度差时选择好位置和坏位置的混合。

接下来,整个过程用于跟踪连接的链。The quality of the海盗模型是根据正确建造的已知结构的比例来描述的(完整性)和所建模型的正确比例(精确度)。这些是通过计算实际C的比例来计算的α正确构建的原子和构建的C的比例α这是正确的。为了进行此分析,正确构建的Cα是一个在1.9Å以内的真Cα在已知结构中的位置,并有一个相邻的C,该相邻C在1.9°范围内α在已知结构中。(1.9º被选为两个C之间距离的一半α原子,注册误差高达半个残差。)

表1[链接]描述了58个测试结构在残留物数量、起始数据的质量度量和质量度量方面的结果海盗链跟踪。图3显示了相同的数据[链接],第4页[链接], 5[链接]和6[链接].

表1
申请结果海盗58个JCSG数据集密度修正相位的链追踪

这些柱给出了沉积代码、沉积模型中的残留物数量、分辨率和E类-起始密度修改相的映射相关性以及所得链轨迹的完整性和准确性。

PDB代码 残留物数量 分辨率(Ω) E类-地图相关性 完整性(%) 准确度(%)
1伏8 135 1.75 0.912 52 100
1个vq 551 1.80 0.807 60 100
1伏8 190 1.53 0.916 57 100
1毫克 83 1.46 0.808 85 100
1个vlo 364 1.70 0.798 68 100
1个vku 85 1.94 0.718 47 100
1伏4 283 1.91 0.882 63 100
1伏5 1072 1.73 0.805 81 99
1英里/小时 802 1.80 0.923 75 99
1兹82 624 2 0.786 90 98
1个vlc 362 2.46 0.774 75 98
1个vqz 330 1.99 0.686 78 97
1伏/分 460 1.66 0.828 86 97
1伏4 836 1.82 0.671 74 97
1vkm 1752 2.60 0.800 79 97
1伏/小时 513 2.30 0.790 88 97
1伏2 190 2.10 0.786 73 97
1万立方英尺 407 1.73 0.695 86 96
1伏0 708 2.49 0.807 72 95
1百万立方米 329 2.32 0.646 83 95
1个vpb 437 1.80 0.883 78 94
1伏7 417 3 0.741 90 94
1伏8 373 2 0.705 58 93
1个vjf 167 2.60 0.892 88 93
1个vpy 251 2.40 0.681 85 92
1阀组 414 2.20 0.638 78 92
1伏5 906 1.85 0.724 78 92
1个vjx 149 2.30 0.620 92 92
1个vqy 847 2.40 0.687 74 91
1伏赫兹 782 2.90 0.799 71 91
1个vkn 1351 2.45 0.871 83 91
1兹85 428 2.12 0.621 84 90
1vjz公司 325 2.50 0.792 85 89
1个6a 168 1.90 0.791 90 88
1个vli 358 2.38 0.700 81 87
1伏6 1486 2.80 0.794 75 87
1伏/秒 113 2.05 0.701 69 85
1伏3 586 2.80 0.630 71 84
1vjv型 367 2.65 0.900 70 84
1伏3 179 2.06 0.789 92 82
1伏 792 3 0.644 76 81
1个vrb 1224 3.20 0.628 59 80
1伏4 856 2.32 0.735 67 80
1升 642 3 0.779 66 76
1vkd 1956 2.60 0.705 62 76
1vky(维基) 563 3 0.664 71 72
1伏9 147 2.70 0.713 89 67
1vjn公司 383 3 0.857 63 66
1vkb 147 1.90 0.704 69 64
1日 282 2 0.751 84 53
1年 261 2.50 0.592 86 43
1个vqr 1101 3 0.528 27 35
每克1个 301 2.10 0.450 23
1个vpj 356 1.74 0.401 20 16
1个vl0 842 2.50 0.222 14 15
1伏千瓦 217 2 0.074 2 4
1伏9 242 2 0.042 0 1
1vjo公司 377 2 0.018 2 1
[图3]
图3
完整性海盗58个JCSG测试结构的模型作为分辨率函数。
[图4]
图4
的准确性海盗58个JCSG测试结构的模型作为分辨率函数。
[图5]
图5
完整性海盗58个JCSG测试结构的模型作为初始阶段质量的函数(E类-地图相关性)。
[图6]
图6
的准确性海盗58个JCSG测试结构的模型作为初始阶段质量的函数(E类-地图相关性)。

完整性在0到92%之间,准确性在0到100%之间。注意,完整性或准确性都不会随着起始数据的分辨率而发生很大变化。最低分辨率模型的精确度略有下降,但完整性保持一致。该方法似乎至少可用于这些测试数据的3.2°低分辨率极限。

然而,完整性和准确性与初始阶段的质量密切相关。首字母E类-地图相关性小于0.6导致模型较差。从这些结果可以得出结论,该方法对数据分辨率不是很敏感,但对相位质量很敏感。因此,该方法似乎是对ARP协议/弯曲(科恩等。, 2004[科恩·S·X、莫里斯·R·J、费尔南德斯·F·J、本·杰劳尔·M、卡卡里斯·M、帕塔萨拉西·V、兰辛·S、克莱维格特·G·J和佩拉基斯·A(2004),《结晶学报》第60期,第22229页至第229页。]),这对数据分辨率更敏感,但可以给出相位很差的结果。

为了进行自动化模型构建,通常第一个模型不完整,并且在回收过程中需要扩展精炼和地图计算。因此,初始模型的准确性可能比其完整性更重要。

测试中最低分辨率数据集的模型,1个vrb(结构基因组学联合中心,未发表的工作)显示了一些有趣的特征。一个亚单位海盗3.2°实验相位数据集的模型如图7所示[链接]注意,分子的螺旋区域已被很好地追踪;即使在低分辨率下,原子放置的精度也很高,通常在0.3°以内。这是意料之中的,因为螺旋构象比其他构象更常见、更均匀,因此对似然密度目标的贡献更大。非螺旋区域的变化更大,因此链轨迹的精度更低。这表明了未来的方法,包括在Ramachandran地块的不同区域使用不同的密度目标进行生长。

[图7]
图7
海盗的踪迹A类亚单位1个vrb3.2º。真正的结构显示在蓝色细线中海盗用较粗的红线描出。

之间的其他差异海盗最终的模型值得注意。图8[链接]显示了一个典型的自动跟踪错误,其中链轨迹通过侧链密度在链之间跳跃。注意,这也说明了如何海盗与追求高密度的项目相比,建筑可以起到反作用。

[图8]
图8
海盗跟踪中的错误A类亚单位1个vrb3.2º。真实的结构用细黑线表示海盗用较粗的红线描出。

图9[链接]显示了一个地方海盗建立了一个原始模型中缺失的回路,以及电子密度。将插入的残基数量与最终模型的序列进行比较,表明跟踪是正确的。存在环路密度,但仅当轮廓水平降低时,连通性才明显。本案例强调了海盗.由于似然目标功能主要针对预期的低密度特征和高密度特征,海盗能够在电子密度较低的区域进行构建。此功能具有以下成本:海盗在某些情况下,也可能过度解释蛋白质特征方面的溶剂。这可以在表1中看到[链接]在模型的完整性高但精度低的情况下(例如 1个vjr),除了正确追踪蛋白质区域外,海盗在溶剂区构建了蛋白质链。这些情况可以使用库特建模程序(Emsley&Cowtan,2004【Emsley,P.&Cowtan,K.D.(2004),《水晶学报》,D60,2126-2132。】)并将在未来的发展中实施海盗.

[图9]
图9
海盗沉积结构中缺少回路的轨迹。真正的结构用细黑线表示海盗用较粗的红线描出。

3.结论

这里描述的链追踪方法非常简单,依赖于以几种不同的方式应用单个似然函数来追踪实验相控电子密度图中的蛋白质主链。该方法速度相当快,需要几分钟到一小时,即使在低分辨率下也可以进行部分跟踪(低于3.0º)。然而,该方法取决于初始实验阶段和阶段改进的质量。

这里介绍的方法不完整,缺少序列对接的实现,删除了错误跟踪的特征,精炼结果模式或回收到模型完成。然而,初步结果表明,本文所述的方法为未来的发展提供了合适的基础。

致谢

作者感谢P.Emsley和E.Dodson提出的有益建议,感谢JCSG数据档案提供了精心策划的测试数据来源。这项工作得到了英国皇家学会大学研究奖学金的支持。

工具书类

第一次引用Cohen,S.X.、Morris,R.J.、Fernandez,F.J.,Ben Jelloul,M.、Kakaris,M..、Parthasarathy,V.、Lamzin,V.S.、Kleywegt,G.J.和Perrakis,A.(2004)。《水晶学报》。60, 2222–2229. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Cowtan,K.D.(1998)。《水晶学报》。54, 750–756. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Cowtan,K.D.(2000年)。Jnt CCP4/ESF–EACBM新闻。蛋白质结晶仪。 38, 7. 谷歌学者
第一次引用Cowtan,K.D.(2001)。《水晶学报》。57, 1435–1444. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Cowtan,K.D.(2003)。IUCr计算。Commun公司。新闻。 2, 4–9. 谷歌学者
第一次引用Cowtan,K.D.(2006)。正在准备中。 谷歌学者
第一次引用Emsley,P.&Cowtan,K.D.(2004)。《水晶学报》。60, 2126–2132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Ioerger,T.R.和Sacchettini,J.C.(2002年)。《水晶学报》。58, 2043–2054. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用结构基因组学联合中心(2006年)。JCSG数据档案。 https://www.jcsg.org/datasets-info.shtml谷歌学者
第一次引用Jones,T.A.(2004)。《水晶学报》。60, 2115–2125. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Jones,T.A.、Zou,J.Y.、Cowan,S.W.和Kjeldgaard,M.(1991)。《水晶学报》。A类47, 110–119. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Kleywegt,G.J.&Jones,T.A.(1997年)。《水晶学报》。53, 179–185. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Lovell,S.、Davis,I.、Adrendall,W.、de Bakker,P.、Word,J.、Prisant,M.、Richardson,J.和Richardsson,D.(2003)。蛋白质,50, 437–450. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Morris,R.J.、Perrakis,A.和Lamzin,V.S.(2002年)。《水晶学报》。58, 968–975. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oldfield,T.J.(2002)。《水晶学报》。58, 487–493. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oldfield,T.J.(2003年)。《水晶学报》。59, 483–491. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Potterton,E.,McNicholas,S.,Krissinel,E.,Cowtan,K.&Noble,M.(2002年)。《水晶学报》。581955年至1957年科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Sheldrick,G.、Hauptman,H.、Weeks,C.、Miller,R.和Usón,I.(2001)。国际结晶学表,卷。F类由M.G.Rossmann和E.Arnold编辑,第333–351页。多德雷赫特:Kluwer学术出版社。 谷歌学者
第一次引用Terwilliger,T.C.(2001)。《水晶学报》。57, 1755–1762. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.(2003)。《水晶学报》。59, 38–44. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Zou,J.-Y.&Jones,T.A.(1996年)。《水晶学报》。52, 833–841. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者

©国际结晶学联合会。如果引用了原文作者和来源,则无需事先获得许可即可复制本文中的简短引文、表格和数字。有关详细信息,请单击在这里.

期刊徽标结构
生物学
编号:2059-7983