2.方法
2.1. 从地图中的局部图案估计电子密度
这项工作的中心方法是使用地图中每个点周围的密度来构建该点电子密度的新估计。有三个总体步骤。前两种方法使用实验或模型地图中的数据创建模板并评估这些模板的统计信息,有无附加错误。第三种方法将这些结果应用于其他地图。在这里描述的应用中,我们使用了从分辨率为2.6º的MAD或SAD数据中获得的密度修改实验图来创建模板和直方图,但也可以使用任何分辨率的实验图或模型图来执行类似的程序。在第一步中,N个创建了平均密度的模板。这些模板基于密度修改的实验蛋白质电子密度图中的局部密度,并根据相关系数。其次,点密度之间的关系x个以及与附近密度相关性最高的模板x个使用额外的密度修正实验电子密度图制成表格。最后,将该方法应用于其他实验地图。每个点附近的密度x个在地图中,用于构建新的密度估计x个。在此过程中,局部密度的校正方式会删除有关密度的信息x个来自所有邻居。
2.2. 删除关于密度的信息x个根据局部密度
在我们的方法中,目标是获得某一点的电子密度值的估计值x个在中单位电池在这种情况下,新的估计值的误差与原始电子密度图中的误差无关x个为此,该方法使用点周围点的电子密度信息x个获得电子密度值的新估计x个。一种方法可以删除有关电子密度的信息x个只需考虑点周围球壳中的电子密度x个如果壳层的内径足够大,那么壳层内的电子密度值将与x个然而,内半径的选择并不明显,因为电子密度图是具有广泛变化的空间频率的项的傅里叶和。因此,点的电子密度值之间存在显著相关性x个点的距离与地图的分辨率一样远。此外,排除所有接近x个因为要考虑的模式非常局部。
另一种方法是为附近的点创建局部密度函数x个其值与附近的电子密度类似x个,但其调整方式是使值与x个.此修改的局部密度克x个(Δx个)将取决于坐标差Δx个附近每个点之间x个和x个.功能克x个(Δx个)是两者的函数x个和Δx个因此必须为每个点单独计算x个和偏移Δx个在地图上。我们想要函数的值克x个(Δx个)通常类似于x个+Δx个,我们将用ρ(x个+Δx个). 作为Δx个增加了,我们希望克x个(Δx个)变得非常接近ρ(x个+Δx个). 就是说,我们希望
我们还想要这个功能克x个(Δx个)与电子密度值处处不相关x个,由提供ρ(x个). 功能克x个(Δx个)给出了密度的修正值x个+Δx个。如果我们比较x个+Δx个[由提供克x个(Δx个)]密度为x个[由提供ρ(x个)],这些量应该是不相关的[也就是说,克x个(Δx个)不包含有关的值的信息ρ(x个)]. 指定此项的一种方法是要求任何偏移Δx个,如果我们浏览整个地图并计算克x个(Δx个)对于每个点x个,然后克x个(Δx个)以及ρ(x个)是不相关的,
最终理想的特性克x个(Δx个)就目前而言,其价值为Δx个=0等于克x个(Δx个)对于附近的点Δx个。之所以需要这样做,是因为我们希望根据密度的相关性将局部模式与模板进行比较,而不考虑局部密度的平均值。设置的值克x个(Δx个)到任何固定值(例如。0)在Δx个=0将引入局部密度平均值的贡献ρ(x个)之间的相关性克x个(Δx个)和模板。去除局部密度平均值信息的一种方法是规定以下要求
其中的所有值Δx个在稍后用于计算密度相关性的区域中,平均值中考虑了密度相关性。
A函数克x个(Δx个)具有所有这些属性的是
其中权重函数W公司(Δx个)由提供
以及函数的位置U型(Δx个)是Patterson函数在原点附近,使用关系式从电子密度图本身计算
本质上,克x个(Δx个)等于电子密度值x个+Δx个,修正后ρ(x个),电子密度值x个和〈ρ(x个+Δx个)〉Δx个,附近值的平均值,均使用加权函数W公司(Δx个). 可以通过替换来验证(3)或(4)都满足于此功能。此外,(1)和(2)因为归一化旋转平均Patterson函数除了原点附近,其他地方通常都很小,而远离原点的点通常会变得很小。
2.4. 局部模式统计:一般方法
该过程的第二个整体步骤是确定每个模板与图中局部修改密度的相关性与x个这是针对有附加误差和无附加误差的实验地图进行的。描述这些关系有很多可能的方法,但这里使用的一个简单方法是将其分为两部分。
第一部分包括对高质量实验地图的统计检查。我们发现在某一点上的电子密度x个在地图中非常依赖于这两个模板k个和我最高的(k个)和次高(我)与局部修正密度的相关系数x个也就是说,对于蛋白质的电子密度图,概率分布第页(ρ|k个, 我)可以提供关于电子密度的信息ρ在x个.
第二部分是考虑有无附加错误的地图之间的关系。该方法从一点上所有模板的观测相关系数开始x个到包含错误的映射,然后在计算特定模板对的概率时使用这些错误k个和我将在相应的高质量地图中具有最高的两个相关系数。在这种情况下,高质量地图的密度统计第页(ρ|k个, 我)然后可以应用上面获得的。
为了实现这一过程,需要第二组概率。这些是概率第页(抄送k个|抄送obs、,k个)那个相关系数用于模板k个到某一点x个在高质量地图中将具有值CCk个,鉴于此模板具有相关系数CC的obs、,k个指向地图中的同一点,但有其他错误。为了解释实验地图中不同程度的误差,这些概率被制成表格,作为带有误差的地图整体优值的函数。
将这些概率分布应用于点附近的数据x个在一个新的(“观察到的”)电子密度图中相关系数每个模板的k个到附近的局部修正密度x个首先确定(再次,在尝试多次旋转并为每个模板选择一个使相关系数最大化的模板后)。这组相关系数{CC光突发事件}和两个概率分布第页(ρ|k个, 我)以及第页(抄送k个科科斯群岛obs、,k个)然后可以如下组合以获得电子密度的估计值ρ在x个在同一张地图的高质量版本中。
如果我们知道哪两个模板k个和我与附近的局部修正密度具有最高的相关系数x个在新“观测”地图的高质量版本中,我们可以使用概率分布第页(ρ|k个, 我)直接估计概率分布ρ。我们不知道的身份k个和我但假设我们有概率,第页(k个,我|{抄送光突发事件}),对于每个可能的对k个和我基于“观测”图中观测到的相关系数。结合这些,我们可以写
其中总和覆盖所有可能的模板对k个和我.电子密度的估算x个然后可以从加权平均值中获得
概率,第页(k个,我|{抄送光突发事件}),这对k个和我与附近的局部修正密度具有最高的相关系数x个在高质量的“观测”图版本中,可以反过来根据所有模板与该图{CC的观测相关系数来估计光突发事件},分几个步骤。我们将概率分为两部分,一部分是模板的概率k个具有最高的相关性,并且与模板的概率有关我具有下一个最高的模板k个相关性最高,
我们现在可以估计模板k个与“观察到的”地图的(不存在的)高质量版本的相关性最高。我们将整合CC的所有可能值k个,模板的相关性k个用高质量的地图。对于CC的每个值k个,我们将计算这确实是模板相关性值的概率k个,由提供第页(抄送k个)=第页(抄送k个|抄送obs中,k个),以及所有其他模板具有相关系数小于CCk个,
其中积分覆盖CC的所有值k个.模板的概率我相关性次高的公式如下
2.5. 局部模式统计:列表直方图
此步骤的一个重要部分包括生成以下位置的电子密度值的直方图x个作为相关系数的函数N个最大值局部修改密度为x个. Each of theN个最大值将模板与一组高质量地图中所有点的修改后的局部密度进行比较。在每个点x个,两个模板k个和我分别具有最高和次高相关系数,局部修正密度为x个确定(旋转后最大化该值)。(未修改的)电子密度值ρ(x个)然后作为k个和我然后对这些直方图进行归一化,以得出概率分布的估计值,第页(ρ|k个,我).
这一步的第二部分是获得概率分布,第页(抄送k个|抄送obs、,k个),关于相关系数值,CCobs、,k个,在某一点对特定模板进行观察x个在包含添加的错误的映射中相关系数,科科斯群岛k个,这将在相同点对相同模板进行观察x个在相应的映射中没有添加任何错误。这些概率分布是通过使用成对的高质量实验地图来计算的,这些地图有附加误差和无附加误差。在地图中的每个点相关系数每个模板的k个没有添加错误的地图,CCk个,以及与添加了错误的地图的相关性,CCobs、,k个注意到。对生成的直方图进行归一化,可以估计概率,第页(抄送k个|抄送obs、,k个),该CCk个如果值CC为obs、,k个在地图中观察到的错误。通过创建相位误差高斯分布的模拟相位集,以及相位误差余弦cos的总值变化,对具有不同附加误差水平的地图重复此计算Δφ〉,范围通常为0.5至0.8。在应用于新的“观测”图时,使用带有平均余弦cos的附加相位误差的数据获得的概率分布Δφ〉使用了与实验图的优点类似的数字。
2.6. 基于预测能力的模板选择
最终选择N个最终的模板基于预测能力。的子集N个最终的模板从中选择N个最大值早期使用高质量电子密度图获得的模板。选择子集以最大化使用(9)计算的电子密度与图中电子密度之间的相关性。构成(9)基础的直方图是根据一组蛋白质的实验密度计算的,而相关性则是根据另一组蛋白质计算的。首先识别产生最高相关性的模板对。然后,一个接一个地将增加相关性最大的模板添加到组中,直到N个最终的选择模板。
2.7. 索引每个模板的旋转以减少计算要求
应用此处所述程序的最慢步骤包括计算局部修改密度与每个N个最终的模板,考虑每个点的每个模板(或局部密度)多达158次旋转。我们开发了一个简单的索引系统,可以减少每个模板需要考虑的旋转次数。点的索引x个基于密度M(M)附近的点x个(通常,M(M)=9,并且选择的点在半径为0.9的球体上近似均匀分布第页最大值以为中心x个). 点米被赋予局部索引我米从0到3,基于该点的局部密度(ρ ≤ −σ, −σ<ρ≤ 0, 0 <ρ≤σ或ρ > σ),其中σ是整个地图的r.m.s。总体指数我然后根据关系式计算局部密度
总和超过M(M)附近的点。接下来,索引之间的关系我使用包含附加误差的高质量实验地图,为每个模板列出最佳旋转。对于上面用于计算模板与局部修改密度相关性统计信息的每个地图中的每个点,索引我计算并记录每个模板的最佳旋转。然后构造索引表,其中每个索引我与每个模板的首选旋转列表关联。表的构造使得给定模板的最佳旋转大约95%的时间包含在列表中。这种分度程序将需要考虑的旋转次数减少了大约五倍。可以应用其他索引方法,这些方法可能会进一步减少需要考虑的旋转次数(例如。Funkhouser公司等人。2003年).
2.9. 基于目标电子密度函数的统计密度修正相位估计
统计密度修正(Terwilliger,2000)是一种计算晶体相位概率的程序,该程序基于这些相位产生的映射与先前预期的一致性。在此过程中,可以包括对地图的任何预先期望。特别是,如果对地图中的所有点都有电子密度的估计(例如。在上述过程中获得的恢复图像),则该估计可以用作关于地图的先验信息。在这个过程中,使用了结构因子振幅的观测值,并且需要估计电子密度的不确定性。该程序用于从恢复图像中估计相位概率,其中预期电子密度仅为(9)中的最佳估计值)用观测到的结构因子振幅计算出的映射的r.m.s.所给出的不确定度处处为常数。
4.前景
我们在此表明,电子密度图的局部特征可以用作密度修改过程中的重要信息源。使用本地模式信息获得的地图质量改善范围为零(0.87至0.87β-catenin)至小(0.79至0.82英寸相关系数对于基因5蛋白)至非常显著(0.65至0.85英寸相关系数对于nusA)。
这些方法的计算要求适中。在Compaq 833 Mhz Alpha上完成一整套五个周期的模式识别和使用局部模式修改密度需要90分钟,以从嗜气芽孢杆菌表2中列出(494个氨基酸);不使用本地模式信息的标准密度修改大约需要5分钟。内存需求也适中:模式库和索引表很大,(以及软件的其他部分)需要大约700 MB或更多的交换空间。
我们在这里开发的程序还有许多其他应用。这些方法的一个关键方面是,从电子密度图中恢复的图像具有与原始图中相对无关的误差。这允许在这里演示的中等分辨率范围内使用恢复图像进行相位改进。同样的方法也可能用于低分辨率以及极高分辨率的相位调整和相位扩展。此外,错误的独立性意味着从随机地图恢复的图像与原始地图的相关性很小或没有相关性,而从具有类蛋白质特征的地图恢复的图片将具有相关性。因此,该方法可用于评估蛋白质电子密度图的质量。类似地,晶体溶剂区域中的点将具有与蛋白质区域中发现的点不同的局部特征,此处描述的方法可用于区分蛋白质和溶剂区域。
这里开发的模式匹配方法的一个缺点是,它无法轻易区分由系统偏差或地图错误导致的类蛋白质特征与实际反映蛋白质结构的类蛋白质特性。这可能反映在密度修改的模型基因5蛋白图与其上面描述的恢复图像之间微小但显著的误差相关性中。也许更重要的是,这意味着目前形式的方法不太适合改进对类蛋白质密度模式有明显偏见的图谱,例如那些使用原子模型相位获得的图谱,也不适合改进误差基本上是随机的图谱,如那些通过实验获得的图谱。
这里描述的方法的一个有用的扩展是,使用不同分辨率范围的数据,使用获得模板时考虑的区域的不同半径,重新计算模板和直方图,并将适当的集合应用于实验数据。还可以研究计算中使用的网格间距的影响。可以在(8)中使用与两个以上模板的相关性)在估计局部密度时(尽管我们的初步调查表明,使用第三个模板在计算中添加的信息很少)。在这里描述的每种情况下,模板和直方图都是从以2.6º的分辨率计算的模型图中获得的。使用不同分辨率的模板可能会增加该方法在更大分辨率范围内的适用性。其他扩展包括检查不同类别蛋白质结构和包含其他结构的晶体中的模式,如核酸类或各种配体。