1.简介
根据电子密度自动构建蛋白质结构的原子模型是高通量结构解决方案环境的重要组成部分,也是非自动化环境中的有用工具。当前的自动化构建工具包含了一系列想法,其中一些是为自动化而设计的,另一些是从图形建模程序中已经存在的技术中采用的。
这里描述的自动建模方法结合了一种新技术,即使用定向电子密度似然目标函数来识别可能的Cα立场,以及根据现有方法改编的一系列方法。由此产生的方法组合非常简单,但作为新的自动化建模系统的基础,显示出巨大的前景。在详细描述新的发展之前,将讨论在这项工作中有影响的一些其他方法。
2.方法
2.1. 概述
这里描述的链跟踪方法是基于定位可能的Cα定位并将其延伸成链条。第一步类似于CAPRA公司方法,但有一个非常显著的区别:CAPRA公司定位可能的Cα基于方向相关密度特征的位置,而海盗使用方向相关度量。这有两个好处。
此实现与以前的一些实现之间的另一个区别是,整个计算都是在“晶体”空间中进行的,其中空间组对称性和单元重复是隐含的。因此,在尝试构建之前,无需“定位”细胞中的分子,因为根据定义,任何原子的所有对称副本都是同时构建的。晶体空间的实现得益于“Clipper”晶体库的使用(Cowtan,2003
).这里讨论的是定位Cα组,其中Cα组被认为包括Cα原子、键合N、C和H原子以及Cβ原子存在时,这些原子形成刚性基团。然而,完全相同的技术同样适用于平面肽基团(Cα、C、O、N、Cα)或的核苷酸用于追踪DNA和RNA。
可能为Cα位置将使用密度似然函数进行定位,该函数将在六维搜索中计算电子密度图中可能的位置和方向。每个可能的配置都将根据密度特征再现真实C的密度特征的程度进行评分α已知结构的模拟电子密度图中的群。
计算的一个关键要素是准备这个模拟电子密度图。为了使似然目标函数有效,模拟电子密度必须在相同的尺度上,代表大致相似的热运动,并且具有与要解释的电子密度图相同的大小和类型的噪声特征。该模拟过程本身是一个复杂的计算过程,是海盗统计阶段改进软件和海盗链跟踪软件,将在另一篇论文中进行描述(Cowtan,2006
).
因此,整个计算可以用四个步骤来描述。
(i) 查找初始Cα`种子的位置。 (二)将“种子”位置成长为链状碎片。 (iii)将链碎片连接成链。 (iv)修剪碰撞链条。
|
以下各节将更详细地讨论其中的每一项。 2.2。查找初始Cα`种子位置
查找步骤的目的是找到几个非常可能的Cα电子密度图中用作种子点的位置,长链将从中生长。此过程与α-螺旋线RESOLVE(解决)建模软件。C的位置α`种子的位置需要在位置和方向上进行六维搜索。在合理的时间内完成此搜索对可使用的目标函数类型设置了一些限制。这里采用的方法是使用目标函数,通过几个快速傅里叶变换(FFT)可以实现平移搜索,并对密度目标的每个可能方向执行基于FFT的平移搜索。
这种计算的合适目标函数是Cowtan(1998)描述的加权密度一致函数
)描述了如何使用FFT高效计算局部密度一致函数。这项工作得到了扩展(Cowtan,2001
)通过使用相同的函数来计算噪声存在下的密度似然函数。这里的分析遵循相同的方法,但例外的是,在构建似然目标函数时,引入的用于解释目标映射中噪声的术语被使用模拟噪声映射所取代。
使用贝叶斯定理构造搜索函数,
在这种情况下,数据是电子密度图,模型是C的搜索密度的具体位置α组。让F类表示电子密度源于正确定位和定向的Cα组和
表示电子密度来自任何其他来源的情况(即位置错误的Cα来源完全不同的群体或密度)。然后,正确定位C的概率α给定地图中单个密度值的组由下式给出
P(P)[ρ(x个)]是“观测到的”地图密度的概率x个。它可以计算为P(P)[ρ(x个),C类],C类∈ (F类,
),即
电子密度值更有可能来自任何其他来源,而不是来自正确定位和定向的Cα组,因此
将支配P(P)(F类). 忽略第一项和先验概率P(P)(F类)和
,假设是均匀的,(2)
成为
有许多Cα参考图中的组,每个组由其周围区域中不同模式的电子密度值表示。对于标准C区域中的每个位置α放置在原点的组,将根据该位置相对于C出现的不同值计算电子密度的分布α考虑所有C时的原子α参考结构中的组。给定特定正确定位的C,特定电子密度值的概率α组将由高斯近似,其平均值是预期的电子密度,其方差由计算整个C时该位置密度分布的方差给出α模拟参考图中的原子。这些将被称为ρ碎片(x个)和σ碎片(x个)2.
由正确定位的C引起的观测密度值的概率α然后是组
哪里x个′是相对于C的坐标α哪个映射到点x个在地图中当前C的平移和方向α小组。
观察到的密度由正确定位的C以外的其他来源引起的概率α通过检查与C无关区域的密度,从模拟的参考密度图中估计组α功能(但避免使用溶剂)。如果不相关密度的平均值和方差由下式给出ρ兰特和σ兰特,然后
替换(4)中的这些表达式
放弃常数项会得到
哪里
和
最后,C存在的概率指示α基于图中每个单独密度值的组进行组合,以给出C概率的总体指示α具有给定平移和方向的组,
计算这个表达式的对数更方便,
使用FFT方法,可以有效地将单个方向的结果函数计算为单元中位置的函数。让翻译搜索函数,它给出了Cα基团密度(电流方向)和作为平移函数的电子密度称为t吨(x个). 作为简化,让μ′′(x个) = 1/[2σ′′(x个')2]. 搜索功能可以写为
注意,在扩展中,第一项独立于x个so只计算一次,而第二个项是卷积,因此可以在互易空间如下:,
哪里
表示傅里叶变换,
傅里叶逆变换和复共轭。如果预先计算了密度和平方密度的傅里叶系数,则可通过每个方向的三个快速傅里叶变换(FFT)计算平移函数。自从Cα组没有对称性,FFT必须在P(P)1
C位置的电子密度目标函数α基团是通过考虑每个C周围4°球体内的电子密度来确定的α在模拟参考图中。这个半径最初的灵感来自CAPRA公司(Ioerger&Sacchettini,2002)
)随后的测试也证明了该方法是一种很好的选择。密度平均值和方差在精细(0.5º)正交网格上计算。
图1
显示了典型搜索模型的平均值和方差密度。平均密度显示了C原子周围的预期密度模式αC较弱的组β密度和可能C中的凸起γ指示。然而,方差密度显示出更有趣的特征,特别是最保守的密度不仅集中在主链原子位置,而且也集中在原子之间的低密度位置。这突出了FF恐惧搜索功能可选择高密度和低密度位置。还要注意C周围的凹陷β在公共点Cγ地点。
| 图1 代表海盗C的目标函数α显示区域的组(一)高平均密度和(b条)低方差(即高度保守)密度。使用生成的图形中央对手方清算所4MG公司(波特顿等。, 2002 ). |
对C的每个可能的平移和方向执行六维搜索α小组赛和得分最高的比赛被认为是正确的。然后通过单纯形算法搜索细化每个位置和方向,然后存储为“种子”位置以进行链增长。默认情况下,最终模型中预期的每五个残基存储一个种子位置,尽管此参数不是很关键。
2.3. 将“种子”位置成长为链片段
“种子”Cα通过添加额外的C将组成长为链α种子组之前和之后的组位于优化对数似然度以适应新组密度的位置,同时不违反Ramachandran图的约束。相同的对数似然函数用于计算Cα初始发现阶段增长增加的职位;然而,现在在实际空间中对每个候选位置和方向进行评估,而不是使用FFT方法。
为了进行此计算,Ramachandran图按残留物类型分类,并在两个水平上绘制等高线:频率>0.0005 rad−2描述“允许”区域和>0.01 rad的频率−2使用不精确但常见的术语描述“受欢迎”的地区。
成长过程如下。为了在正向生长单个残留物,对Ramachandran角的“允许”值进行搜索ψ当前残留物和φ用于下一个残留物。以20°的均匀角度步长搜索角度,拒绝任何ψ拉马钱德兰阴谋所禁止的价值观。(在链中构建第一个新残留物时,没有关于第一个残留物的信息φ.)接下来,使用30°的较粗角度搜索构建第二个残差,但再次应用Ramachandran约束。两个残基的最佳组合对数似然分数用于选择第一个残基位置。丢弃第二个残留物,其唯一目的是验证第一个残留品的位置。
这种双剩余look-ahead方法与Terwilliger(2003)的方法类似
). 这里使用的Ramachandran数据来自Lovell的“Top 500”结构数据库等。(2003
). 对于第一个残基,允许任何残基类型的任何“允许”构象,而对于第二个残基只允许非Gly残基的“优选”构象。
相反方向的建筑以完全相同的方式进行,除了拉玛钱德兰角的反转。
需要对数似然函数的截止阈值来确定何时停止向任一方向生长链。通过有效的特别的程序:对于每个初始种子点,向前生长三个残基。然后假设90%的最终端子Cα原子将是正确的。端子C的得分α原子被分类,将最差的10%与剩余的10%分开的值用作截止值。这是一种原油特别的仅为地图质量提供基本耦合的标准;然而,在实践中,它在提供有用的片段以供后续阶段处理方面是有效的。
使用了一些优化来提高此方法的性能。对于全角度搜索,在计算中仅使用网格点的子集来近似对数似然函数。由于每次计算都需要从目标地图中进行密度插值,因此可以节省大量时间。使用第一个残基的最佳50个构象构建第二个残基,然后使用log-likelihood函数中的所有点重新搜索最佳30个组合分数。最后,使用单纯形算法搜索来细化最佳解的Ramachandran角。
2.4. 连接链碎片
在建模过程的这个阶段,模型由许多重叠的链段组成,这些链段可能相互一致,也可能不一致。根据这些,必须构建一个单一的一致模型,用于视觉评估或用于传统精炼程序。这通过两个步骤实现:连接一致的片段,然后修剪不一致的片段。
连接阶段在可能的情况下合并重叠的片段,并在可能进行多次合并时在片段之间进行一些初始选择。计算过程如下。
首先,每个链段被分割成一系列重叠的片段,每个片段包含三个残基;即一连串的n个残留物被分成n个−三个残基的2个片段,每个三残基片段与相邻片段重叠两个残基。
接下来,通过组合所有三个C的任意一对三边,合并同一链段的多条记录道α原子匹配在2.0°以内。通过平均每个三边原子的每个主链原子的所有坐标来实现组合。这导致了一个模型,其中删除了同一链段的多个一致轨迹。
接下来,对三个残基进行检查,看看它们如何重新组装成链。对每对三边进行搜索,以识别第二个和第三个Cα第一个三重元素的原子与第一个和第二个C相匹配α第二个三残基的原子,在2.0Å以内。每个这样的对都被标记为一个潜在的连接。
当一个单一的三位一体连接到几个可能的前体或后继体时,就会出现问题。此时,必须决定链条的正确路线。以科恩为例等。(2004年
),考虑链的不同可能路径,并假设产生最长无环链的路径是正确的。这里的一个假设是,追踪更有可能跳过残留物,而不是插入额外的残留物。
通过多重链接的三残留片段列表识别可能的最长轨迹是通过有向图找到最长路径的问题。这是一个简单的计算问题,通常通过称为“关键路径分析”的动态规划技术来解决。然而,必须对传统的实现进行调整,以处理假设跟踪中可能出现的循环链。因此,实施如下。
每个剩余的三残数被认为是有向图中的一个编号节点,该有向图可以有零个或多个前置节点和零个或多个后继节点。
计算速度非常快,在没有循环的情况下,可以通过给定的片段获得尽可能长的链跟踪。在环形链的情况下,不能保证结果是最优的;然而,它们通常是最优的或接近最优的。
一旦一组链通过三边追踪,最终的原子坐标将由链中连续三边的坐标组合而成。所有重叠原子的加权组合用于实现平滑过渡从一个三位一体到下一个,从而保持合并模型中的连接性。每个三重元素的权重从中心C线性减少α走向极端。
2.5。修剪碰撞的链碎片
上一步将合并所有一致的链片段,选择一条片段向不同方向分支的路径。仍然存在不一致的链片段的问题,包括两种常见的情况:第一种情况是两个片段沿相反方向追踪同一链,第二种情况是链交叉或碰撞而没有任何共性。
这两种情况都是通过一个简单的修剪步骤来处理的。将每条链与其他链进行比较,注意任何情况下C对α原子接近2.0℃。任何碰撞Cα原子从较短的链中被移除。然后删除长度小于五个残基的短链段。
该方法的一个目的是鼓励沿着正确的方向进行链跟踪,前提是由于在链增长步骤中使用了Ramachandran约束,反向链跟踪往往比正向跟踪短。(当然,这只适用于环路区域,因为螺旋和股可以在任何方向上进行追踪,而不会违反拉马钱德兰约束;然而,实际上这种方法是有效的。)