研究论文\(第5em段)

期刊徽标结构
生物学
国际标准编号:2059-7983

基于局部模式匹配的统计密度修正

十字标记徽标

美国新墨西哥州洛斯阿拉莫斯国家实验室M888信箱
*通信电子邮件:terwilliger@lanl.gov

(2003年5月1日收到; 2003年7月8日接受)

提出了一种改进晶体学相的方法,该方法基于大分子电子密度图中某些局部电子密度模式的优先出现。该方法侧重于地图中某一点的电子密度值与围绕该点的密度模式之间的关系。可以通过围绕中心点旋转叠加的密度模式被认为是等效的。标准模板是通过聚类和平均电子密度的局部模式,从实验或模型电子密度图中创建的。聚类是基于旋转之后的相关系数来最大化相关性。实验或模型图也用于创建直方图,将中心点的电子密度值与相关系数该点周围的密度与标准图案集的每个成员有关。然后,使用这些直方图估计新实验电子密度图中每个点的电子密度,使用该点周围点的电子浓度模式和相关系数将此密度设置为每个标准模板集,再次旋转后将相关性最大化。通过从模板和计算中的局部密度模式中排除问题点的任何信息,该方法得到了加强。基于原点的函数Patterson函数用于从附近的电子密度中删除有关问题点的电子密度的信息。这允许仅使用过程中其他点的信息来估计地图中每个点的电子密度。所得到的电子密度估计值的误差几乎与原始地图中的误差无关,该地图使用的是以2.6º的分辨率计算的模型数据和模板。由于误差的独立性,新地图的信息可以简单地与原始地图的信息结合,以创建改进的地图。描述了使用该方法的迭代阶段改进过程以及图像重建方法的其他应用,并将其应用于分辨率为2.4至2.8º的实验数据。

关键词: 密度修正;模式匹配.

1.简介

与蛋白质等大分子相对应的电子密度图,其基本特征与用随机相计算的图中的特征不同。这些差异已用于许多方面,从提高晶体学相的准确性到评估电子密度图的质量。例如,与蛋白质对应的图谱通常具有较大的相对无特征溶剂区域和较大的多肽链区域,而用随机相计算的图谱在任何地方都具有类似的密度波动(Bricogne,1974【布里科涅·G(Bricogne,G.)(1974),《水晶学报》,A30,395-405。】). 这一观察是强大的溶剂钝化方法的基础(Bricogne,1974)【布里科涅·G(Bricogne,G.)(1974),《水晶学报》,A30,395-405。】; 王,1985年[王,B.-C.(1985)。《酶学方法》,115,90-112。])以及评价大分子电子密度图质量的方法(例如。Terwilliger&Berendzen,1999年【Terwilliger,T.C.和Berendzen,J.(1999),《晶体学报》,D55,501-505。】). 同样非晶体学对称性在大分子中,电子密度图在相位改进中很有用(Bricogne,1974【布里科涅·G(Bricogne,G.)(1974),《水晶学报》,A30,395-405。】; 罗斯曼,1972年[Rossmann,M.G.(1972),《分子替换方法》,纽约:Gordon&Breach出版社。]; Kleywegt&Read,1997年【Kleywegt,G.J.和Read,R.J.(1997),《结构》,第5期,1557-1569页。】). 此外,与大分子相对应的图谱可以根据原子模型进行解释,为图谱质量评估和改进提供了强有力的基础(Agarwal&Isaacs,1977【Agarwal,R.C.和Isaacs,N.W.(1977),美国国家科学院院刊,742835-2839。】; Lunin和Urzhumtsev,1984年【Lunin,V.Y.和Urzhumtsev,A.G.(1984),《结晶学报》A40,269-277。】; Lamzin&Wilson,1993年[Lamzin,V.S.&Wilson,K.S.(1993),《结晶学报》,D49,129-147。]; 佩拉基斯等人。, 1997【Perrakis,A.、Sixma,T.K.、Wilson,K.S.和Lamzin,V.S.(1997),《结晶学报》D53、448-455。】, 1999【Perrakis,A.、Morris,R.M.和Lamzin,V.S.(1999),《自然结构生物学》,第6期,第458-463页。】, 2001[Perakis,A.,Harkiolaki,M.,Wilson,K.S.和Lamzin,V.S.(2001)。晶体学报D57,1445-1450。]; 莫里斯等人。, 2002[Morris,R.J.,Perrakis,A.&Lamzin,V.S.(2002),《水晶学报》D58,968-975。]). 在统计水平上,大分子电子密度图中蛋白质区域的密度分布与用随机相计算的图中密度分布有很大不同。这在直方图匹配和相位改进的相关方法中得到了广泛应用(Harrison,1988【Harrison,R.W.(1988),《应用结晶杂志》,第21期,949-952页。】; 鲁宁,1988[卢宁·V.Y.(1988),《结晶学报》A44144-150。]; Zhang&Main,1990年[张,K.Y.J.&Main,P.(1990),《晶体学报》A46,41-46。]; 等人。, 1997[Zhang,K.Y.J.,Cowtan,K.&Main,P.(1997)。酶学方法。277,53-64。]; Goldstein&Zhang,1998年【Goldstein,A.和Zhang,K.Y.J.(1998),《晶体学报》D54,1230-1244。】; 聂和张,1999[聂永平、张庆杰(1999),《结晶学报》D551893-1900。]; 考坦,1999年[Cowtan,K.(1999),《晶体学报》,第55卷,1555-1567页。]).

在这项工作中,重点是在大分子蛋白质结构中常见的局部密度模式。大分子是由小的规则重复单元构成的,由于范德瓦尔斯相互作用,这些单元的包装受到高度限制。由于大分子在局部尺度上的规律性,它们的电子密度图具有独特的局部特征,与从随机相计算的图有很大不同(Lunin,2000[卢宁,V.Y.(2000),《结晶学报》A56,73-84。]; 乌尔朱姆采夫等人。, 2000【Urzhumtsev,A.G.,Lunina,N.L.,Skovoroda,T.P.,Podjarny,A.D.&Lunin,V.Y.(2000),《结晶学报》D56,1233-1244。】; Main&Wilson,2000年【Main,P.&Wilson,J.(2000),《晶体学报》,D56,618-624。】; Wilson&Main,2000年【Wilson,J.&Main,P.(2000),《晶体学报》,D56,625-633。】; 科洛沃斯等人。, 2000【Colovos,C.、Toth,E.A.和Yeates,T.O.(2000),《结晶学报》D561421-1429。】). 这一特性已被用于评估电子密度图的质量和改善低分辨率下的相位。鲁宁(2000)[卢宁,V.Y.(2000),《结晶学报》A56,73-84。])Urzhumtsev公司等人。(2000【Urzhumtsev,A.G.,Lunina,N.L.,Skovoroda,T.P.,Podjarny,A.D.&Lunin,V.Y.(2000),《结晶学报》D56,1233-1244。】)、Main&Wilson(2000年【Main,P.&Wilson,J.(2000),《晶体学报》,D56,618-624。】)和Wilson&Main(2000年【Wilson,J.&Main,P.(2000),《结晶学报》,D56,625-633。】)通过要求小波系数与模型结构的系数相似,使用直方图和小波分析来提高低分辨率地图中的电子密度。科洛沃斯等人。(2000【Colovos,C.、Toth,E.A.和Yeates,T.O.(2000),《结晶学报》D561421-1429。】)分析高分辨率和中分辨率电子密度图的局部特征,并将其与模型图进行比较,以评估这些图的质量,并建议它们的方法也可能有助于相位改善。

我们最近开发了一种密度修正方法,包括识别电子密度图中螺旋或其他高度规则特征的位置,然后使用该密度的理想版本作为附近的“预期”电子密度进行统计密度修正(Terwilliger,2001[Tewilliger,T.C.(2001),《晶体学报》,第57卷,1755-1762页。]). 结果表明,该方法在一定程度上改善了相位,但存在严重的缺点,即在初始循环后,最初识别的特征变得非常突出,并且几乎找不到新的特征。我们怀疑这是方法中固有反馈的结果,其中原始电子密度中与螺旋模板部分匹配的特征被限制为类似于该模板,使其在下一轮中与模板更好地匹配(即使该区域的真实密度不是螺旋的)。因此,我们开发了一种非常不同的方法来使用电子密度图局部特征中固有的信息,这种电子密度图没有这种反馈,因此可能大大提高了相位改善的能力。

在这里,我们表明,围绕地图中任何一点的局部密度模式可以用来估计该点的电子密度。这一观察使我们有可能从一个有误差的电子密度图开始,在不使用该点密度的情况下,获得该图中每个点的密度的新估计值,从而构建一个电子密度的新估算值,该估算值的误差与原图中的误差几乎不相关。这种电子密度的恢复“图像”有许多用途,包括相位改善和地图质量评估。

2.方法

2.1. 从地图中的局部图案估计电子密度

这项工作的中心方法是使用地图中每个点周围的密度来构建该点电子密度的新估计。有三个总体步骤。前两种方法使用实验或模型地图中的数据创建模板并评估这些模板的统计信息,有无附加错误。第三种方法将这些结果应用于其他地图。在这里描述的应用中,我们使用了从分辨率为2.6º的MAD或SAD数据中获得的密度修改实验图来创建模板和直方图,但也可以使用任何分辨率的实验图或模型图来执行类似的程序。在第一步中,N个创建了平均密度的模板。这些模板基于密度修改的实验蛋白质电子密度图中的局部密度,并根据相关系数。其次,点密度之间的关系x个以及与附近密度相关性最高的模板x个使用额外的密度修正实验电子密度图制成表格。最后,将该方法应用于其他实验地图。每个点附近的密度x个在地图中,用于构建新的密度估计x个。在此过程中,局部密度的校正方式会删除有关密度的信息x个来自所有邻居。

2.2. 删除关于密度的信息x个根据局部密度

在我们的方法中,目标是获得某一点的电子密度值的估计值x个在中单位电池在这种情况下,新的估计值的误差与原始电子密度图中的误差无关x个为此,该方法使用点周围点的电子密度信息x个获得电子密度值的新估计x个。一种方法可以删除有关电子密度的信息x个只需考虑点周围球壳中的电子密度x个如果壳层的内径足够大,那么壳层内的电子密度值将与x个然而,内半径的选择并不明显,因为电子密度图是具有广泛变化的空间频率的项的傅里叶和。因此,点的电子密度值之间存在显著相关性x个点的距离与地图的分辨率一样远。此外,排除所有接近x个因为要考虑的模式非常局部。

另一种方法是为附近的点创建局部密度函数x个其值与附近的电子密度类似x个,但其调整方式是使值与x个.此修改的局部密度x个(Δx个)将取决于坐标差Δx个附近每个点之间x个x个.功能x个(Δx个)是两者的函数x个Δx个因此必须为每个点单独计算x个和偏移Δx个在地图上。我们想要函数的值x个(Δx个)通常类似于x个+Δx个,我们将用ρ(x个+Δx个). 作为Δx个增加了,我们希望x个(Δx个)变得非常接近ρ(x个+Δx个). 就是说,我们希望

[g_{x}(\Delta x)\simeq\rho(x+\Delta x),\eqno(1)]

[g_{x}(\Delta x)\rightarrow\rho(x+\Delta x)\,\,{\rm代表\,\、大\、\,}\Delta x.\eqno(2)]

我们还想要这个功能x个(Δx个)与电子密度值处处不相关x个,由提供ρ(x个). 功能x个(Δx个)给出了密度的修正值x个+Δx个。如果我们比较x个+Δx个[由提供x个(Δx个)]密度为x个[由提供ρ(x个)],这些量应该是不相关的[也就是说,x个(Δx个)不包含有关的值的信息ρ(x个)]. 指定此项的一种方法是要求任何偏移Δx个,如果我们浏览整个地图并计算x个(Δx个)对于每个点x个,然后x个(Δx个)以及ρ(x个)是不相关的,

[\langle g_{x}(\Delta x)\rho(x)\rangle_{x{=0\,\,\forall,\,\Delta x.\eqno(3)]

最终理想的特性x个(Δx个)就目前而言,其价值为Δx个=0等于x个(Δx个)对于附近的点Δx个。之所以需要这样做,是因为我们希望根据密度的相关性将局部模式与模板进行比较,而不考虑局部密度的平均值。设置的值x个(Δx个)到任何固定值(例如。0)在Δx个=0将引入局部密度平均值的贡献ρ(x个)之间的相关性x个(Δx个)和模板。去除局部密度平均值信息的一种方法是规定以下要求

[g_{x}(\Delta x=0)=\langle g_{x}(\ Delta x)\rangle_{\Delta x},\eqno(4)]

其中的所有值Δx个在稍后用于计算密度相关性的区域中,平均值中考虑了密度相关性。

A函数x个(Δx个)具有所有这些属性的是

[g_{x}(\Delta x)=\rho(x+\Delta x)-[\rho

其中权重函数W公司(Δx个)由提供

[W(\Delta x)=U(\Deltax)/[1-\langle U(\Delta x)\rangle_{\Delta x}],\eqno(6)]

以及函数的位置U型(Δx个)是Patterson函数在原点附近,使用关系式从电子密度图本身计算

[U(\Delta x)=\langle\rho(x)\rho

本质上,x个(Δx个)等于电子密度值x个+Δx个,修正后ρ(x个),电子密度值x个和〈ρ(x个+Δx个)〉Δx个,附近值的平均值,均使用加权函数W公司(Δx个). 可以通过替换来验证(3[链接])或(4[链接])都满足于此功能。此外,(1[链接])和(2[链接])因为归一化旋转平均Patterson函数除了原点附近,其他地方通常都很小,而远离原点的点通常会变得很小。

2.3. 局部模式识别

通过模式匹配进行密度修改的程序的第一步是获得与局部电子密度的常见模式相对应的模板。这些模板是使用每个点附近的局部电子密度生成的x个在密度修正的实验电子密度图中,修正以删除中心点的信息x个,如前一节所述。可以以任何分辨率计算贴图,但一组模板通常与特定分辨率关联(通常d日最小值=2.6Å)。这里用于获取模板的方法是分层的。首先,三套独立的N个最大值(通常为40)模板仅使用电子密度图中具有低、中或高电子密度的点生成。然后选择具有低互相关的这些模板的子集(通常为40个)。最后,一个更小的子集N个最终的(通常为20个)模板从该组中选择,以便在保持固定数量的总模板的同时,最大限度地提高模板的预测能力。

为了生成一组模板,考虑电子密度图中的每个网格点,一次一个,只包括与低密度或低密度相关的点(ρ < [{\overline\rho}] − 0.8σ),中等([{\overline\rho}]− 0.2σ<ρ<[{\overline\rho}]+ 0.2σ)或高电子密度([{\overline\rho}]+ 1.5σ<ρ),其中[{\overline\rho}]σ是映射的平均值和标准偏差,具体取决于要创建的模板集。对于每个适当的网格点(x个),修正的局部电子密度x个(Δx个)为半径内的所有相邻点计算第页最大值(通常,第页最大值d日最小值=2.6Å)。使用相关系数模板中的密度与修改后的局部密度相似。所使用的网格通常与用于所有FFT、NCS平均和其他密度计算的网格相同,通常在地图分辨率的1/6到1/4之间。模板中通常使用的点数约为100。对于每个现有模板,N个腐烂考虑模板的不同旋转,以尝试在任何方向上匹配修改后的局部密度和最高密度相关系数注意到模板的所有旋转的匹配。在这里考虑的示例中,我们使用了N个腐烂=158旋转,以采样对象可能的三维旋转,旋转约50°,与相邻方向相关。如果相关系数此时的局部修正电子密度x个使用现有模板k个大于CC最小值(通常为CC最小值=0.85),则该点的局部修改密度包含在模板定义中k个通过旋转密度以匹配当前模板k个并将旋转的局部修正密度包含在该模板的平均密度中。如果局部修改的电子密度与任何大于CC的现有模板没有相关性最小值然后使用局部修改密度启动新模板。一次N个最大值模板已创建(通常,N个最大值=40),然后将每个后续点的局部修改密度包含在其最匹配的模板中。

通过重复使用电子密度图中具有低密度、中密度和高密度的点生成模板,可以创建一组相对不同的模板。接下来,基于互相关系数选择这些模板的子集(通常为1/3),以获得彼此具有最小可能相似性的模板集。为此,计算所有模板对的相关系数,并消除与另一模板相关性最高的模板。重复该过程,直到获得所需数量的模板。在分析与每个模板相关的统计数据后,根据预测能力进行模板的最终选择N个最大值如后面一节所述,在此阶段获得的模板。

2.4. 局部模式统计:一般方法

该过程的第二个整体步骤是确定每个模板与图中局部修改密度的相关性与x个这是针对有附加误差和无附加误差的实验地图进行的。描述这些关系有很多可能的方法,但这里使用的一个简单方法是将其分为两部分。

第一部分包括对高质量实验地图的统计检查。我们发现在某一点上的电子密度x个在地图中非常依赖于这两个模板k个最高的(k个)和次高()与局部修正密度的相关系数x个也就是说,对于蛋白质的电子密度图,概率分布第页(ρ|k个)可以提供关于电子密度的信息ρx个.

第二部分是考虑有无附加错误的地图之间的关系。该方法从一点上所有模板的观测相关系数开始x个到包含错误的映射,然后在计算特定模板对的概率时使用这些错误k个将在相应的高质量地图中具有最高的两个相关系数。在这种情况下,高质量地图的密度统计第页(ρ|k个)然后可以应用上面获得的。

为了实现这一过程,需要第二组概率。这些是概率第页(抄送k个|抄送obs、,k个)那个相关系数用于模板k个到某一点x个在高质量地图中将具有值CCk个,鉴于此模板具有相关系数CC的obs、,k个指向地图中的同一点,但有其他错误。为了解释实验地图中不同程度的误差,这些概率被制成表格,作为带有误差的地图整体优值的函数。

将这些概率分布应用于点附近的数据x个在一个新的(“观察到的”)电子密度图中相关系数每个模板的k个到附近的局部修正密度x个首先确定(再次,在尝试多次旋转并为每个模板选择一个使相关系数最大化的模板后)。这组相关系数{CC光突发事件}和两个概率分布第页(ρ|k个)以及第页(抄送k个科科斯群岛obs、,k个)然后可以如下组合以获得电子密度的估计值ρx个在同一张地图的高质量版本中。

如果我们知道哪两个模板k个与附近的局部修正密度具有最高的相关系数x个在新“观测”地图的高质量版本中,我们可以使用概率分布第页(ρ|k个)直接估计概率分布ρ。我们不知道的身份k个但假设我们有概率,第页(k个,|{抄送光突发事件}),对于每个可能的对k个基于“观测”图中观测到的相关系数。结合这些,我们可以写

[p(\rho|\{{\rm CC_{obs}}\})=\textstyle\sum p(\rro|k,l)p(k,l|\{\rmCC_{obs}}),\eqno(8)]

其中总和覆盖所有可能的模板对k个.电子密度的估算x个然后可以从加权平均值中获得

[\rho_{\rm est}=\textstyle\int\rho\p(\rho|\{\rm-CC_{obs}}\})\,\,{\rm-d}\rho.\eqno(9)]

概率,第页(k个,|{抄送光突发事件}),这对k个与附近的局部修正密度具有最高的相关系数x个在高质量的“观测”图版本中,可以反过来根据所有模板与该图{CC的观测相关系数来估计光突发事件},分几个步骤。我们将概率分为两部分,一部分是模板的概率k个具有最高的相关性,并且与模板的概率有关具有下一个最高的模板k个相关性最高,

[p(k,l|\{{\rm CC_{obs}}\})=p(l|k,\{\rm-CC_{obs}}\{)p(k|\{{\rm-CC_{obs}}).\eqno(10)]

我们现在可以估计模板k个与“观察到的”地图的(不存在的)高质量版本的相关性最高。我们将整合CC的所有可能值k个,模板的相关性k个用高质量的地图。对于CC的每个值k个,我们将计算这确实是模板相关性值的概率k个,由提供第页(抄送k个)=第页(抄送k个|抄送obs中,k个),以及所有其他模板具有相关系数小于CCk个,

[p(k|\{{rm CC_{obs}}\})=\textstyle\int p({\rm CC}_{k})\prod\limits_{j\ne k}p({rm CC}_{j}\,\,\

其中积分覆盖CC的所有值k个.模板的概率相关性次高的公式如下

[p(l|\{k,{\rm CC_{obs}}\})=\textstyle\int p({\rm-CC}_{l})\prod\limits_{j\ne k,l}p({rm-CC{{j}\,\,\

2.5. 局部模式统计:列表直方图

此步骤的一个重要部分包括生成以下位置的电子密度值的直方图x个作为相关系数的函数N个最大值局部修改密度为x个. Each of theN个最大值将模板与一组高质量地图中所有点的修改后的局部密度进行比较。在每个点x个,两个模板k个分别具有最高和次高相关系数,局部修正密度为x个确定(旋转后最大化该值)。(未修改的)电子密度值ρ(x个)然后作为k个然后对这些直方图进行归一化,以得出概率分布的估计值,第页(ρ|k个,).

这一步的第二部分是获得概率分布,第页(抄送k个|抄送obs、,k个),关于相关系数值,CCobs、,k个,在某一点对特定模板进行观察x个在包含添加的错误的映射中相关系数,科科斯群岛k个,这将在相同点对相同模板进行观察x个在相应的映射中没有添加任何错误。这些概率分布是通过使用成对的高质量实验地图来计算的,这些地图有附加误差和无附加误差。在地图中的每个点相关系数每个模板的k个没有添加错误的地图,CCk个,以及与添加了错误的地图的相关性,CCobs、,k个注意到。对生成的直方图进行归一化,可以估计概率,第页(抄送k个|抄送obs、,k个),该CCk个如果值CC为obs、,k个在地图中观察到的错误。通过创建相位误差高斯分布的模拟相位集,以及相位误差余弦cos的总值变化,对具有不同附加误差水平的地图重复此计算Δφ〉,范围通常为0.5至0.8。在应用于新的“观测”图时,使用带有平均余弦cos的附加相位误差的数据获得的概率分布Δφ〉使用了与实验图的优点类似的数字。

2.6. 基于预测能力的模板选择

最终选择N个最终的模板基于预测能力。的子集N个最终的模板从中选择N个最大值早期使用高质量电子密度图获得的模板。选择子集以最大化使用(9)计算的电子密度与图中电子密度之间的相关性。构成(9)基础的直方图是根据一组蛋白质的实验密度计算的,而相关性则是根据另一组蛋白质计算的。首先识别产生最高相关性的模板对。然后,一个接一个地将增加相关性最大的模板添加到组中,直到N个最终的选择模板。

2.7. 索引每个模板的旋转以减少计算要求

应用此处所述程序的最慢步骤包括计算局部修改密度与每个N个最终的模板,考虑每个点的每个模板(或局部密度)多达158次旋转。我们开发了一个简单的索引系统,可以减少每个模板需要考虑的旋转次数。点的索引x个基于密度M(M)附近的点x个(通常,M(M)=9,并且选择的点在半径为0.9的球体上近似均匀分布第页最大值以为中心x个). 被赋予局部索引从0到3,基于该点的局部密度(ρ ≤ −σ, −σ<ρ≤ 0, 0 <ρσρ > σ),其中σ是整个地图的r.m.s。总体指数然后根据关系式计算局部密度

[I=\textstyle\sum I_{m}4^{(m-1)},]

总和超过M(M)附近的点。接下来,索引之间的关系使用包含附加误差的高质量实验地图,为每个模板列出最佳旋转。对于上面用于计算模板与局部修改密度相关性统计信息的每个地图中的每个点,索引计算并记录每个模板的最佳旋转。然后构造索引表,其中每个索引与每个模板的首选旋转列表关联。表的构造使得给定模板的最佳旋转大约95%的时间包含在列表中。这种分度程序将需要考虑的旋转次数减少了大约五倍。可以应用其他索引方法,这些方法可能会进一步减少需要考虑的旋转次数(例如。Funkhouser公司等人。2003年【Funkhouser,T.,Min,P.,Kazhdan,M.,Chen,J.,Halderman,A.,Dobkin,D.&Jacobs,D.(2003)。美国医学会学报,图表22,83-105。】).

2.8条。使用局部模式创建电子密度的新估算

点附近的密度模式x个在电子密度图中,可以使用(8)来分析以产生概率分布,第页(ρ|{抄送光突发事件}),表示电子密度x个根据(9)估算的密度x个,ρ美国东部时间(以及该估算中的不确定性,σ美国东部时间(如果需要),然后可以用于构建地图中电子密度的新估计。电子密度图的“恢复图像”可以在有或没有平滑的情况下可视化,可以用作统计密度修改的目标(Terwilliger,2000【特威利格,T.C.(2000),《水晶学报》D551863-1871。】)或者可以直接与原始电子密度图相结合,得到改进的电子密度图。

我们使用了一个迭代过程,将恢复图像中的信息与实验电子密度中的信息结合起来(图1[链接]). 在第一个周期中,起始相位概率是实验值,在所有周期中,振幅是实验值。在每个循环中,启动相位和振幅都会进行密度修改(例如。统计密度修正或其他相关方法),以获得尽可能最佳的电子密度图,而无需使用任何基于图案的信息。然后,对密度修改后的地图进行局部模式分析,并恢复地图图像。第三,恢复图像中的密度被单独用于估计相位概率。第三步是使用统计密度修正(Terwilliger,2000【特威利格,T.C.(2000),《水晶学报》D551863-1871。】)如下所述,但可以使用σA类-基于方法(Read,1986[Read,R.J.(1986),《结晶学报》,A42140-149。]). 最后,将恢复图像的相位概率与原始实验相位概率相结合,得出下一个周期的起始相位概率。重复该过程,直到密度修改图中每个周期的变化很小(通常为一到五个周期)。最后一个周期的密度修正图适合进行解释。

[图1]
图1
使用局部图案修改密度的程序大纲。

2.9. 基于目标电子密度函数的统计密度修正相位估计

统计密度修正(Terwilliger,2000【特威利格,T.C.(2000),《水晶学报》D551863-1871。】)是一种计算晶体相位概率的程序,该程序基于这些相位产生的映射与先前预期的一致性。在此过程中,可以包括对地图的任何预先期望。特别是,如果对地图中的所有点都有电子密度的估计(例如。在上述过程中获得的恢复图像),则该估计可以用作关于地图的先验信息。在这个过程中,使用了结构因子振幅的观测值,并且需要估计电子密度的不确定性。该程序用于从恢复图像中估计相位概率,其中预期电子密度仅为(9)中的最佳估计值[链接])用观测到的结构因子振幅计算出的映射的r.m.s.所给出的不确定度处处为常数。

3.结果和讨论

3.1. 删除有关电子密度的信息x个从局部电子密度

这里提出的模式匹配密度修改方法的一个重要方面是,它被设计为产生电子密度的估计,该估计具有与原始图中的误差不相关的误差。这是通过仅使用点周围区域的信息来实现的x个估计密度x个不包括任何关于x个如§[链接]2.图2[链接]说明了在x个.图2[链接]()显示了起始因子5A(IF5A;泥炭)的密度修正MAD电子密度图的一部分等人。, 1998【Peat,T.S.、Newman,J.、Waldo,G.S.,Berendzen,J.和Terwilliger,T.C.(1998),《结构》,第6期,第1207-1214页。】)在特定点附近的区域x个(要点x个由图形中心的一颗星表示)。注意x个在这种情况下是积极的。在图2中[链接](b条),调整密度以删除有关密度的信息x个x个以及所有相邻点。此计算本质上包括减去归一化的原点Patterson函数对应于该图,乘以密度值x个减去所有相邻点的平均局部密度,如§[链接]2.此计算的效果是将密度值设置为x个局部区域的平均密度,将密度设置得非常接近x个到中间值,并使点的值远离x个保持不变。

[图2]
图2
创建局部修改密度函数x个(Δx个). ()IF5A电子密度图中的密度以1.5的等高线显示σ。显示了用于计算地图的原子模型和中心点(`x个')标有星号。(b条)修改的局部密度x个(Δx个)使用(5)计算[链接])与中的地图相对应()如图所示。所有电子密度图都是用MAPMAN公司(Kleywegt&Jones,1996)【Kleywegt,G.J.&Jones,T.A.(1996),《晶体学报》,D52,826-828。】)以及O(运行)版本8.0(Jones等人。, 1991【Jones,T.A.、Zou,J.Y.、Cowan,S.W.和Kjeldgaard,M.(1991),《结晶学报》A47,110-119。】).

3.2. 蛋白质电子密度图中常见的局部模式

使用IF5A的密度修正MAD电子密度图对电子密度图中的局部图案进行分析,该图的分辨率为2.6º(PDB代码1亿字节; 伯曼等人。, 2000[Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000)。核酸研究28,235-242。]; 泥炭等人。, 1998【Peat,T.S.、Newman,J.、Waldo,G.S.,Berendzen,J.和Terwilliger,T.C.(1998),《结构》,第6期,第1207-1214页。】). 这是一张非常清晰的地图相关系数根据IF5A最终精确模型0.82计算得出的地图。仅考虑模型中原子2.5°范围内的点,分析了该网格中以每个点为中心的区域的局部图案。按照§[链接]2使用每个点周围修改的局部密度。此方法删除有关x个从附近的密度。图案是在考虑围绕中心点的旋转后选择的,因此模板之间的任何旋转差异在确定其特征时都不重要。

最终模板是根据其预测能力选择的。这个N个最大值=40个最初使用IF5A模型电子密度图创建的模板,然后与其他两个密度修改的实验电子密度图中的所有点进行比较,即犰狳重复序列β-连环蛋白(Huber等人。, 1997【Huber,A.H.、Nelson,W.J.和Weis,W.I.(1997)。细胞,90,871-882。】)和红色荧光蛋白(Yarbrough等人。, 2001【Yarbrough,D.,Wachter,R.M.,Kallio,K.,Matz,M.V.和Remington,S.J.(2001)。美国国家科学院院刊,98462-467。】),并获得每个模板在每个点的相关系数。然后以相同的方式将相同的40个模板与IF5A图进行比较。最后,考虑了40个模板的子集。对于每个模板子集β-使用连环蛋白和红色荧光蛋白电子密度图生成直方图,并使用IF5A图比较使用(9[链接])具有IF5A电子密度。在识别模板的第一个周期中,考虑了所有模板对,并选择了相关性最高的模板对。在随后的循环中,选择了相关性改善最大的额外模板。图3[链接]()(开圆圈)显示了估计密度和模型密度的相关性,作为所用模板数量的函数。大部分信息仅包含在两个模板中,其余几乎都包含在前20个模板中。根据这一观察,我们在剩下的工作中使用了20个模板。

[图3]
图3
模板的预测能力。()IF5A图(开放圆)和随机IF5A地图(闭合三角形)的恢复密度函数与真实密度的相关性。的相关性ρ美国东部时间根据(9)计算[链接])具有模型密度ρ绘制为所用模板数的函数。对于开放圆,模板来自IF5A图,直方图来自β-catenin和红色荧光蛋白图谱以及模型密度和恢复密度来自IF5A图谱。对于闭合三角形,在进行计算之前,对所有三张地图的相位进行随机分配。(b条)如中所示(),但没有调整局部密度以消除中心点密度的信息,因此x个(Δx个)=ρ(x个 + Δx个).

我们方法中使用的大分子电子密度图的基本性质是,这些图中不同的局部密度模式与其中心点的不同密度值相关。图3中的开放圆[链接]()我们接下来测试了随机映射是否存在类似的关联。图3中的闭合三角形[链接]()以相同的方式获得了开环,但所有图谱都是在随机分配所有晶体学相后计算的。图3中的闭合三角形[链接]()表明对于随机映射,局部密度模式和其中心点的密度之间基本上没有关联。这意味着,模式与中心点密度之间的相关性是类蛋白质图谱的一个特征,而不是随机相位图谱的特征。

目前方法的一个重要部分是删除某一点的密度信息x个在分析周围的图案时x个使用(5[链接]). 这样做的原因是为了获得点的密度估计值x个这与该点的当前密度值无关。图3[链接](b条)研究表明,这种方法的选择对于区分由噪声产生的模式和由类蛋白特征产生的模式也很重要。图3[链接](b条)以与图3完全相同的方式计算[链接](),除了没有调整局部密度以删除关于中心点密度值的信息外,还使用了一组全新的模板和统计数据,反映了这种不同的方法。这是通过不应用(5[链接])局部密度。图3中的开放圆[链接](b条)表明如果不调整局部密度以消除关于中心点的信息,则可以获得模板,该模板在根据(9)计算的密度值之间具有很高的相关性[链接])以及实际密度。然而,这种相关性可能几乎完全是由于有关中心点的信息包含在模板和相关性中。图3中的闭合三角形支持这种解释[链接](b条)结果表明,当中心点的信息没有从计算中删除时,随机图给出的相关性与蛋白质电子密度图基本相同。

图4[链接]()和4(b条)显示对应于N个最大值=获得20个模板。模板的排列顺序是减少对密度估算的贡献。图案非常简单,通常包含一到三个正密度的球形或扩展区域,以及一个或多个与中心点有不同关系的负密度环或区域。一些模板对类似(例如,17号和18号),如图3所示[链接],只要预测能力稍微降低,这个数字就可以进一步减少。在一些模板中找到的模式以一种简单的方式与用于生成模板的结构中的原子坐标相关联。例如,图2[链接]显示了C附近点周围的密度α原子,三条原子链的连接。在删除了关于此时密度的信息后,该密度与图3中的12号图案最为相似[链接]它由靠近原点的密度曲叶组成。

[图4]
图4
以2.6º的分辨率计算的局部密度模板。模板的排列顺序是减少对中心点密度信息的贡献。所示截面为8×8º;在图案匹配过程中,仅使用每个图形中心处直径为4º的球形区域。+1.5处的等高线σ()和−1.5σ(b条,模板的方向与中的相同)如图所示。

这里描述的方法的核心是不同模板与模板中心点处不同预期电子密度值的关联。点附近的电子密度x个在一张图中,将其与20个模板进行比较,并识别出与密度最匹配的两个模板。该程序首先使用高质量的实验地图来执行,以将成对的模板与预期密度相关联,然后使用观察到的地图来估计观察到的高质量地图中的电子密度值。为了使用尽可能多的信息,该过程是以概率的方式进行的,考虑到任何一对模式可能与观测地图的高质量版本中的密度最匹配。

这20个图案在其中心点分别与不同的密度平均值相关联。例如,1号模板包含位于原点相对侧的两个正密度球形区域。在该模式与模型图中密度最匹配的位置,中心点的平均密度约为-0.3±0.6(在任意比例上,图的平均值等于零)。12号模板包含紧邻原点的正密度弯曲波瓣。12号模板的平均密度约为0.6±0.9。表1[链接]列出了与20个模板中的每个模板与模型地图中的局部修改密度最匹配的位置相关的密度。

表1
以2.6º的分辨率计算的局部电子密度模板

模板 中心平均密度(任意单位,地图平均值等于零) 平均密度方差
1 −0.29 0.60
2 0.06 0.73
−0.63 0.59
4 −0.55 0.60
5 −0.38 0.81
6 0.49 0.95
7 −0.68 0.56
8 −0.05 0.72
9 −0.40 0.55
10 −0.32 0.70
11 −0.41 0.74
12 0.62 0.87
13 0.37 0.72
14 −0.46 0.66
15 0.46 1
16 −0.17 0.76
17 −0.03 0.78
18 −0.15 0.66
19 −0.27 0.81
20 0.49 1

3.3. 利用与局部模式的相关性重建模型电子密度

图4所示的模板[链接]以及表1中列出的通常与它们相关的密度[链接]可以用来重建电子密度图的图像。图5[链接]显示了一个使用模型数据的示例,以便可以容易地分析错误。图5[链接]()显示了一段模型电子密度,其中包含使用基因5蛋白质结构(PDB代码)计算的误差1个vqb; 斯金纳等人。, 1994[Skinner,M.M.,Zhang,H.,Leschnitzer,D.H.,Guan,Y.,Bellamy,H.、Sweet,R.M.、Gray,C.W.、Konings,R.N.H.、Wang,A.H.-J.和Terwilliger,T.C.(1994),美国国家科学院学报,91,2071-2075。])分辨率为2.6º。对阶段中的错误进行了调整,以使地图具有相关系数精确到0.81。根据该图重建的估计电子密度如图5所示[链接](b条)图5显示了该密度的一个版本,其半径为1.5º[链接](c). 最后,使用基于重建密度的模型结构因子振幅的统计密度修正来估计相位(图5[链接]d日). 重建密度具有相关系数对于0.19的原始(模型)映射,平滑后的图像具有0.38的相关性,而由重构密度和模型振幅获得的相位计算的映射具有相关系数0.46。

[图5]
图5
基于基因5蛋白质结构的模型电子密度模板匹配,分辨率为2.6º。()调整高斯相位误差的模型图,使其与0.81的完美图相关。(b条)根据地图重建的估计电子密度(). (c)密度(英寸)(b条)使用半径为1.5°的球面平滑函数进行平滑后。(d日)使用模型结构因子振幅和相位计算的地图,使用基于重建密度的统计密度修改进行估计(c). 所有轮廓均为0.8σ.

由于模型数据用于获得图5中的图像[链接]可以分析恢复图像中的错误,并确定它们是否实际上与原始地图中的错误无关。电子密度图中的误差有些复杂,因为它们来自相位角的误差。一个简化的误差模型,其中两张图中的电子密度值1(x个)以及2(x个)本分析假设有相关误差。为了方便起见,在此分析中,地图1(x个),2(x个)均归一化为单位的r.m.s.值和零的平均值。在这个错误模型中,每个映射都有一个与t吨(x个),完美贴图中的真实密度(也以相同的方式规范化),每个贴图都有一个组件c(x个)这是一个与t吨(x个)但这在两个映射中是一样的,每个映射都有一个独立的错误项e(电子)1(x个)以及e(电子)2(x个). 由于这是模型数据,我们知道t吨(x个)以及1(x个)以及2(x个),

[y_1(x)=\alpha_1t(x)+c(x)+e_1(x),\eqno(13)]

[y_2(x)=\alpha_2 t(x)+c(x)+e_2(x).\eqno(14)]

在这种模型情况下,系数α1α1可以根据已知地图进行估计t吨(x个),1(x个)以及2(x个),

[\alpha_1\simeq\langle y_1(x)t(x)\rangle,\eqno(15)]

[\alpha_2\simeq\langle y_2(x)t(x)\rangle.\eqno(16)]

然后我们可以估计误差CC的相关性错误与关系

[{\rm CC_{errors}}\simeq{{\langle[y_1(x)-\alpha_1t(x)][y_2(x)-\alpha_2t(x。\等式(17)]

使用(17[链接]),我们发现相关系数起始图中的误差与图5中恢复图中的错误[链接](b条)为−0.01。图5中恢复的平滑地图的相同计算[链接](c)导致相关系数误差为-0.02。同样,图5中地图的计算[链接](d日)使用从恢复图像和模型振幅计算的相位获得的误差相关性为−0.04。这表明恢复图像中的错误与原始地图中的错误不相关。

我们发现,当使用密度修正相时,误差的独立性并不完美。为了检验这一点,我们从模型的相位和振幅开始,在相位中引入误差,得到与完美映射相关度为0.6的电子密度映射,然后对该映射进行统计密度修改(不包括任何局部模式信息),导致密度修正图,其与完美图的相关性为0.83。然后,根据上述局部模式分析该密度修改图。在这种情况下,平滑恢复的图像与0.50的完美映射相关。误差与密度修正图的相关性为0.21,显著高于用于模式识别的图具有完全随机误差的情况。这表明,当在密度修改后的地图上使用该方法时,其效果可能不如在实验地图上使用。

3.4. 利用与局部模式的相关性从密度修正的实验图中重建电子密度

利用从模型计算的电子密度进行上述分析,从而可以详细地进行误差分析。接下来,我们将该方法应用于从MAD实验中获得的电子密度,以便用实际数据检验其效用。应用统计密度修正后获得的电子密度(Terwilliger,2000【特威利格,T.C.(2000),《水晶学报》D551863-1871。】)基因5蛋白的三波长MAD数据(PDB代码1个vqb; 斯金纳等人。, 1994[Skinner,M.M.,Zhang,H.,Leschnitzer,D.H.,Guan,Y.,Bellamy,H.、Sweet,R.M.、Gray,C.W.、Konings,R.N.H.、Wang,A.H.-J.和Terwilliger,T.C.(1994),美国国家科学院学报,91,2071-2075。])被用作此分析的起点。这个RESOLVE(解决)电子密度图有一个相关系数0.79至PDB入口计算的模型密度1个vqb.图6[链接]()显示了此密度修改后的地图的一个部分。如上所述,对该地图进行了局部模式分析。图6[链接](b条)图6显示了从该地图恢复的图像[链接](c)显示了此图像的平滑版本和图6[链接](d日)显示了使用从恢复图像和观察到的结构因子振幅计算的相位获得的映射。图6中的恢复图像[链接](b条)相关性为0.25,图6中的平滑恢复图像[链接](c)相关性为0.42,图6中使用恢复图像的相位计算出的地图[链接](d日)相关性为0.52。

[图6]
图6
使用基因5蛋白MAD数据的模板匹配。如图5所示[链接],但使用实验MAD数据而不是模型数据。

图4上一节所述误差分析的近似版本[链接]对图6中的地图进行了[链接]在本分析中,“真实”密度是根据基因5蛋白质模型(PDB代码)计算的密度1个vqb). 启动之间的误差相关性RESOLVE(解决)图6中的地图[链接]()图6中恢复图像中的错误[链接](b条)为0.15,且启动之间的误差相关性RESOLVE(解决)图6中的平滑恢复图像中的误差映射[链接](c)为0.23。使用图6中恢复图像的相位计算的地图中的误差相关性[链接](d日)开始时出错RESOLVE(解决)地图为0.36。这意味着在本分析中,误差并不是高度相关的,但它们也不是完全独立的。“误差”相关性的部分原因可能是“真实”密度未知,误差是使用基因5蛋白质的模型密度估计的。因此,该模型密度中的任何误差都会导致本分析中所有地图中的“误差”相互关联。

3.5. 局部模式识别的相位信息与实验相位信息的结合

图6[链接](d日)图6显示了使用观察到的基因5蛋白质结构因子振幅和相位概率计算的电子密度图,相位概率是使用图6中重建图像的统计密度修改获得的[链接](b条). 然后将这些相位概率与三波长MAD实验中的原始相位概率相结合,得出一组相位概率和新的电子密度图。原件解决方案电子密度图(Terwilliger和Berendzen,1999【Terwilliger,T.C.和Berendzen,J.(1999),《晶体学报》,D55,501-505。】)使用实验阶段如图7所示[链接](). 该图谱与模型基因5蛋白图谱0.56相关。由结合相计算的电子密度图如图7所示[链接](b条). 这个新的电子密度图与模型图的相关性为0.65。最后,使用与原始参数相同的参数,将组合相和实验结构因子振幅用于统计密度修正RESOLVE(解决)相位概率。结果图如图7所示[链接](c);它与原作非常相似决心图5所示的地图[链接](),但略有改善,与模型基因5蛋白图的相关性为0.82(与原始的0.79相比RESOLVE(解决)地图)。

[图7]
图7
使用模板匹配对基因5蛋白MAD数据进行相位改进。()解决方案基因5蛋白的电子密度图。(b条)使用观测到的结构因子振幅和组合相位计算的电子密度图。组合阶段包括解决方案相位估计与基于图6所示重构密度的统计密度修正估计的相位相结合[链接](b条). (c)RESOLVE(解决)从图中所示的电子密度图开始,经过一个统计密度修改周期后的电子密度分布图(b条). 所有轮廓均为0.8σ.

这里使用的过程的一个关键元素是删除每个点的密度信息x个从分析x个。我们通过重复生成模板和直方图的整个过程,然后将其应用于基因5蛋白MAD数据,但不删除此信息,来测试此步骤的重要性。在这种情况下,恢复图像与模型图的相关性高于上述测试用例中的相关性(0.55比0.25),平滑恢复图像的相关性为0.59比0.42。另一方面,恢复图像和启动之间的误差相关性RESOLVE(解决)map也要高得多(0.68比0.15),平滑恢复图像和起始图像之间的误差相关性也是如此RESOLVE(解决)地图(0.85比0.23)。最后,得到的组合相被用作密度修改的起点,但在这种情况下,最终图没有得到任何改进(在这两种情况下,模型图的相关系数均为0.79),这支持了这一步骤是该过程中的一个重要因素的观点。

3.6. 迭代局部模式识别和密度修正

图1[链接]说明了基于此处描述的局部模式识别的相位改进迭代过程。在此过程中,图案识别步骤始终在最佳可用地图上进行,然后将所得相位信息与实验相位信息相结合,以获得改进的密度修改起点。此阶段改进迭代过程中的第一个循环与上述过程相同。随后的循环只需迭代该过程。图8[链接]显示了将该过程应用于从海洋热藻(D.H.Shin、H.T.Nguyen、J.Jancarik、H.Yokota、R.Kim和S.-H.Kim,未公布数据;PDB代码第1l2f页)分辨率为2.4º。图8[链接]()显示通过RESOLVE(解决)在不使用局部模式匹配的情况下获得电子密度图。图8[链接](), 8[链接](b条)和8[链接](c)使用局部模式匹配显示一个、三个和五个循环后的密度修改图。这个相关系数启动的RESOLVE(解决)根据nusA精细模型计算得到的电子密度图为0.65;五个周期后的map相关系数为0.85。

[图8]
图8
使用nusA SAD数据的模板匹配进行阶段改进。()RESOLVE(解决)未经模式匹配计算nusA蛋白的电子密度图。(b条), (c)和(d日)分别在包括图案匹配在内的一个、三个和五个密度修改周期后的电子密度图。所有轮廓均为1.5σ.

表2[链接]总结了将此过程应用于几种不同蛋白质晶体的实验数据的结果。在原始地图RESOLVE(解决)map与模型map的相关性小于0.7,当决心地图比这个好。为了粗略衡量该方法的实用性RESOLVE(解决)应用于为每个结构获得的地图,其中包含或不包含来自本地模式的信息(表2[链接]). 除nusA外,所有结构中构建的主链残基的百分比在有和无局部模式信息的情况下基本相同,随着局部模式的使用,nusA从49%增加到56%。另一方面,对于图相关性显著提高的结构(UTP-合成酶、nusA、NDP-激酶),分配给序列和侧链的残基百分比平均从11%增加到24%。这表明映射的改进足以显著提高自动过程构建完整原子模型的能力。

表2
迭代统计密度修正在局部模式识别中的应用

对于每个实验数据集,使用默认输入进行密度修改RESOLVE(解决)(Terwilliger,2000)和使用解决方案(Terwilliger&Berendzen,1999)。图1所示的过程[链接]然后进行,包括识别和使用局部密度模式。非晶体对称性在这些测试中,没有包括在任何密度修改程序中。这个相关系数列出了从每个结构的精细模型中获得的电子密度图与用相位计算的电子密度地图。此外,可以自动建模并分配给序列的残基数量以及可以建模的数量(无论是否分配给序列)RESOLVE(解决)(特威利格,2003年【Terwilliger,T.C.(2003a),《结晶学报》,D59,38-44。】,b条【Terwilliger,T.C.(2003b),《结晶学报》,D59,45-49。】)列出了使用默认参数。由于通过自动建模获得的残留物数量对所用方法的参数和细节有些敏感,因此使用2.02、2.03、2.04和2.05版RESOLVE(解决)并报告了所建残留物的平均数量。

结构 UTP合成酶 Armadillo重复β-连环蛋白 基因5蛋白质§ 假设的(嗜气芽孢杆菌ORF) NusA公司†† NDP-激酶‡‡
分辨率(Ω) 2.8 2.7 2.6 2.6 2.4 2.4
实验类型 SAD公司 摩洛哥迪拉姆 摩洛哥迪拉姆 摩洛哥迪拉姆 SAD公司 摩洛哥迪拉姆
RESOLVE(解决)地图与模型地图的相关性            
具有本地模式 0.760 0.874 0.815 0.821 0.847 0.649
没有本地模式 0.727 0.872 0.786 0.811 0.648 0.586
精炼模型中的残留物 1012 (2 × 506) 455 86 494 (2 × 247) 344 556 (3 × 186)
主干酪渣建造公司RESOLVE(解决)(%)            
具有本地模式 72 78 72 76 56 76
没有本地模式 72 78 69 76 49 76
侧链残余物建造公司RESOLVE(解决)(%)            
带有局部图案 34 58 52 65 21 18
没有本地模式 24 58 51 61 5 4
†戈登等人。(2001【Gordon,E.J.,Flouret,B.,Chantalat,L.&van Heijenoort,J(2001),《生物化学杂志》276,10999-11006。】).
†胡贝尔等人。(1997【Huber,A.H.、Nelson,W.J.和Weis,W.I.(1997)。细胞,90,871-882。】).
§斯金纳等人。(1994[Skinner,M.M.,Zhang,H.,Leschnitzer,D.H.,Guan,Y.,Bellamy,H.、Sweet,R.M.、Gray,C.W.、Konings,R.N.H.、Wang,A.H.-J.和Terwilliger,T.C.(1994),美国国家科学院学报,91,2071-2075。]).
¶NCBI加入编号AAL64711;菲茨·吉本等人。(2002年[Fitz Gibbon,S.T.,Ladner,H.,Kim,U.J.,Stetter,K.O.,Simon,M.I.和Miller,J.H.(2002)。美国国家科学院院刊,99884-989。]).
††博士。H.Shin、H.T.Nguyen、J.Jancarik、H.Yokota、R.Kim和S.-H.Kim,未发表作品;PDB代码第1l2f页.
佩德拉克等人。(2002年【Pédelacq,J.-D.,Piltch,E.,Liong,E.E.,Berendzen,J.,Kim,C.-Y.,Rho,B.-S.,Park,M.S.,Terwilliger,T.C.&Waldo,G.S(2002).《自然生物技术》.20927-932.】).

尽管本程序中使用的模板是使用2.6º的数据计算得出的,但该程序并不强烈依赖于分辨率。使用nusA数据作为测试用例,通过截断分辨率分别为2.4(所有数据)、2.6、2.8和3.0º的分析来检查分辨率的影响。原始数据的相关性决心这些分辨率下的地图与相同分辨率下计算的模型地图相似(分别为0.65、0.66、0.69和0.69),包括局部模式信息在内的修改后的最终地图密度的相关性也相似(分别是0.85、0.85、085和0.86)。

4.前景

我们在此表明,电子密度图的局部特征可以用作密度修改过程中的重要信息源。使用本地模式信息获得的地图质量改善范围为零(0.87至0.87β-catenin)至小(0.79至0.82英寸相关系数对于基因5蛋白)至非常显著(0.65至0.85英寸相关系数对于nusA)。

这些方法的计算要求适中。在Compaq 833 Mhz Alpha上完成一整套五个周期的模式识别和使用局部模式修改密度需要90分钟,以从嗜气芽孢杆菌表2中列出[链接](494个氨基酸);不使用本地模式信息的标准密度修改大约需要5分钟。内存需求也适中:模式库和索引表很大,(以及软件的其他部分)需要大约700 MB或更多的交换空间。

我们在这里开发的程序还有许多其他应用。这些方法的一个关键方面是,从电子密度图中恢复的图像具有与原始图中相对无关的误差。这允许在这里演示的中等分辨率范围内使用恢复图像进行相位改进。同样的方法也可能用于低分辨率以及极高分辨率的相位调整和相位扩展。此外,错误的独立性意味着从随机地图恢复的图像与原始地图的相关性很小或没有相关性,而从具有类蛋白质特征的地图恢复的图片将具有相关性。因此,该方法可用于评估蛋白质电子密度图的质量。类似地,晶体溶剂区域中的点将具有与蛋白质区域中发现的点不同的局部特征,此处描述的方法可用于区分蛋白质和溶剂区域。

这里开发的模式匹配方法的一个缺点是,它无法轻易区分由系统偏差或地图错误导致的类蛋白质特征与实际反映蛋白质结构的类蛋白质特性。这可能反映在密度修改的模型基因5蛋白图与其上面描述的恢复图像之间微小但显著的误差相关性中。也许更重要的是,这意味着目前形式的方法不太适合改进对类蛋白质密度模式有明显偏见的图谱,例如那些使用原子模型相位获得的图谱,也不适合改进误差基本上是随机的图谱,如那些通过实验获得的图谱。

这里描述的方法的一个有用的扩展是,使用不同分辨率范围的数据,使用获得模板时考虑的区域的不同半径,重新计算模板和直方图,并将适当的集合应用于实验数据。还可以研究计算中使用的网格间距的影响。可以在(8)中使用与两个以上模板的相关性[链接])在估计局部密度时(尽管我们的初步调查表明,使用第三个模板在计算中添加的信息很少)。在这里描述的每种情况下,模板和直方图都是从以2.6º的分辨率计算的模型图中获得的。使用不同分辨率的模板可能会增加该方法在更大分辨率范围内的适用性。其他扩展包括检查不同类别蛋白质结构和包含其他结构的晶体中的模式,如核酸类或各种配体。

致谢

作者要感谢NIH的慷慨支持,感谢许多同事的讨论,感谢W.Weis使用β-catenin MAD数据、E.Gordon用于dUTPase数据的使用、J.Remington用于RFP MAD数据的使用,S.-H.Kim用于nusA数据的使用以及有用的评论员建议。该工作已作为PHENIX项目的一部分进行,此处描述的方法在软件中实现RESOLVE(解决)2.05版,可从网址:https://solve.lanl.gov。

工具书类

第一次引用Agarwal,R.C.和Isaacs,N.W.(1977年)。程序。美国国家科学院。科学。美国,74, 2835–2839. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalov,I.N.和Bourne,P.E.(2000)。核酸研究。 28, 235–242. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Bricogne,G.(1974年)。《水晶学报》。A类30, 395–405. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Colovos,C.、Toth,E.A.和Yeates,T.O.(2000年)。《水晶学报》。D类56, 1421–1429. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Cowtan,K.(1999)。《水晶学报》。D类55, 1555–1567. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Fitz-Gibon,S.T.、Ladner,H.、Kim,U.J.、Stetter,K.O.、Simon,M.I.和Miller,J.H.(2002)。程序。美国国家科学院。科学。美国,99, 984–989. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Funkhouser,T.、Min,P.、Kazhdan,M.、Chen,J.、Halderman,A.、Dobkin,D.和Jacobs,D.(2003)。ACM事务处理。图表。 22,83–105科学网 交叉参考 谷歌学者
第一次引用Goldstein,A.和Zhang,K.Y.J.(1998)。《水晶学报》。D类54, 1230–1244. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Gordon,E.J.、Flouret,B.、Chantalat,L.和van Heijenoort,J(2001)。生物学杂志。化学。 276, 10999–11006. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Harrison,R.W.(1988年)。J.应用。克里斯特。 21,949–952页交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Huber,A.H.、Nelson,W.J.和Weis,W.I.(1997)。单元格,90, 871–882. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Jones,T.A.、Zou,J.Y.、Cowan,S.W.和Kjeldgaard,M.(1991)。《水晶学报》。A类47, 110–119. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Nieh,Y.P.和Zhang,K.Y.J.(1999)。《水晶学报》。D类55, 1893–1900. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kleywegt,G.J.&Jones,T.A.(1996年)。《水晶学报》。D类52, 826–828. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Kleywegt,G.J.和Read,R.J.(1997)。结构,5, 1557–1569. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Lamzin,V.S.&Wilson,K.S.(1993年)。《水晶学报》。D类49,129–147交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Lunin,V.Y.(1988)。《水晶学报》。A类44, 144–150. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Lunin,V.Y.(2000)。《水晶学报》。A类56, 73–84. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Lunin,V.Y.和Urzhumtsev,A.G.(1984)。《水晶学报》。A类40, 269–277. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Main,P.&Wilson,J.(2000年)。《水晶学报》。D类56, 618–624. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Morris,R.J.、Perrakis,A.和Lamzin,V.S.(2002年)。《水晶学报》。D类58, 968–975. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Peat,T.S.、Newman,J.、Waldo,G.S.、Berendzen,J.和Terwilliger,T.C.(1998)。结构,6, 1207–1214. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Pédelacq,J.-D.,Piltch,E.,Liong,E.E.,Berendzen,J.,Kim,C.-Y.,Rho,B.-S.,Park,M.S.,Terwilliger,T.C.&Waldo,G.S(2002)。自然生物技术。 20, 927–932. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Perrakis,A.、Harkiolaki,M.、Wilson,K.S.和Lamzin,V.S.(2001)。《水晶学报》。D类57, 1445–1450. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Perrakis,A.、Morris,R.M.和Lamzin,V.S.(1999)。自然结构。生物。 6, 458–463. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Perrakis,A.、Sixma,T.K.、Wilson,K.S.和Lamzin,V.S.(1997)。《水晶学报》。D类53,448–455交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Read,R.J.(1986年)。《水晶学报》。A类42, 140–149. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Rossmann,M.G.(1972年)。分子置换法。纽约:Gordon&Breach。 谷歌学者
第一次引用Skinner,M.M.、Zhang,H.、Leschnitzer,D.H.、Guan,Y.、Bellamy,H.、Sweet,R.M.、Gray,C.W.、Konings,R.N.H.、Wang,A.H.-J和Terwilliger,T.C.(1994)。程序。美国国家科学院。科学。美国,91, 2071–2075. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Terwilliger,T.C.(2000)。《水晶学报》。D类55, 1863–1871. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.(2001)。《水晶学报》。D类57, 1755–1762. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.(2003)).《水晶学报》。D类59, 38–44. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.(2003)b条).《水晶学报》。D类59, 45–49. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.和Berendzen,J.(1999)。《水晶学报》。D类55, 501–505. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Urzhumtsev,A.G.,Lunina,N.L.,Skovoroda,T.P.,Podjarny,A.D.&Lunin,V.Y.(2000)。《水晶学报》。D类56, 1233–1244. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Wang,B.-C.(1985)。方法酶制剂。 115, 90–112. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Wilson,J.&Main,P.(2000年)。《水晶学报》。D类56, 625–633. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Yarbrough,D.、Wachter,R.M.、Kallio,K.、Matz,M.V.和Remington,S.J.(2001)。程序。美国国家科学院。科学。美国,98, 462–467. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zhang,K.Y.J.,Cowtan,K.&Main,P.(1997)。方法酶制剂。 277, 53–64. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Zhang,K.Y.J.和Main,P.(1990)。《水晶学报》。A类46, 41–46. 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇开放获取的文章,根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
国际标准编号:2059-7983