研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
国际标准编号:1399-0047

σ2R(右)大分子电子密度图质量的倒数空间度量

美国新墨西哥州洛斯阿拉莫斯国家实验室邮递站M888结构生物学小组,87545
*通信电子邮件:terwilliger@lanl.gov

(收到日期:1998年11月9日; 1999年3月2日接受)

以前已经表明,大分子晶体中溶剂和蛋白质的不同区域的存在导致局部r.m.s.电子密度的标准偏差值较高,这反过来可以用作大分子电子密度图质量的可靠测量[Terwilliger&Berendzen(1999)【Terwilliger,T.C.和Berendzen,J.(1999a),《结晶学报》D55,501-505。】).《水晶学报》。D类55, 501–505]. 在这里,我们证明了类似的措施,[\sigma_{R}^{2}],电子密度局部粗糙度的方差,可以计算为倒易空间。该配方适用于快速评估大分子结晶相、改善相以及从头算分阶段程序。

1.简介

测定大分子晶体结构的关键步骤直接法或者通过更传统的MAD或MIR方法,是对电子密度图质量的评估。在申请中直接法到大分子晶体结构小分子结构特征的测定和统计关系(例如谢尔德里克,1990年[Sheldrick,G.M.(1990),《晶体学报》A46,467-473。]; 等。, 1995【Weeks,C.M.,Hauptman,H.A.,Smith,G.D.&Blessing,R.H.(1995),《水晶学报》D51,33-38。】; Hauptman,1997年【Hauptman,H.(1997),《当前操作结构生物学》,第7期,第672-680页。】)通常用于区分可能的相位集。在MAD或MIR方法中,晶体学家通常手动检查电子密度图,并将其可解释性与其质量等同。对电子密度图的质量进行客观测量将有相当大的用处,因为电子密度图中尽可能多地包含大分子晶体的特征。此类措施可用于在从头算方法以及MIR和MAD方法中可能的重原子溶液之间。此外,如果质量的度量可以用简单的倒数空间公式表示,则该度量可以用于改善相位质量,甚至可以用于确定相位从头算.

已提出的衡量大分子电子密度图质量的一种方法是电子密度图连接性的自动分析(Baker等。, 1993[Baker,D.,Krukowski,A.E.&Agard,D.A.(1993),《结晶学报》,D49186-192年。]). 这种方法对于评估地图很有效,但不幸的是,它很难用于阶段改进。我们最近已经证明,对溶剂和蛋白质区域之间的区别进行评估,可以成为电子密度图评分的一个非常有力的标准(Terwilliger&Berendzen,1999【Terwilliger,T.C.和Berendzen,J.(1999a),《结晶学报》D55,501-505。】,b条【Terwilliger,T.C.和Berendzen,J.(1999b),《结晶学报》D55,849-861。】). 我们的方法基于众所周知的观察结果,即大分子晶体通常包含不同的蛋白质区域(电子密度从点到点的局部变化非常高)和溶剂(电子密度基本上是恒定的)。这一观察结果是广泛使用的溶剂稀释程序的基础(Wang,1985[王,B.-C.(1985)。《酶学方法》,115,90-112。]; 等。, 1993[Xiang,S.,Carter,C.W.Jr,Bricogne,G.&Gilmore,C.J.(1993),《结晶学报》D49,193-212。]; 波贾尼等。, 1987【Podjarny,A.D.,Bhat,T.N.&Zwick,M.(1987),《生物物理与生物物理化学年鉴》,第16期,第351-373页。】; 亚伯拉罕等。, 1994【Abrahams,J.P.,Leslie,A.G.W.,Lutter,R.&Walker,J.E.(1994)。《自然》(伦敦),第370、621-628页。】; Zhang&Main,1990年[张,K.Y.J.&Main,P.(1990),《晶体学报》A46,41-46。]).

我们利用蛋白质和溶剂区域之间的差异,生成了一个对大分子电子密度图质量的客观度量。首先,我们计算了非对称单元,省略F类000傅里叶合成中的项。这样,溶剂区的局部均方根密度很小,而蛋白质区的局部都方根密度很大。然后,我们确定了整个区域的局部r.m.s.密度的标准偏差非对称单元并将其用作分期的优点。局部均方根密度均匀分布的地图标准偏差值较低;那些具有不同蛋白质和溶剂区域的值较高。我们发现,这种测量方法对于区分MIR和MAD方法中的重原子溶液以及在测量异常差异时识别重原子溶液的手非常有用(Terwilliger&Berendzen,1999【Terwilliger,T.C.和Berendzen,J.(1999a),《结晶学报》D55,501-505。】).

虽然很难在倒数空间公式中表示局部r.m.s.电子密度的标准偏差,但可以很容易地计算出一个非常密切相关的特性,即局部粗糙度的方差。这里,我们将局部粗糙度的方差定义为地图中电子密度局部方差的总方差,并说明如何在倒易空间。我们推导的表达式适用于相位质量评估、相位改进和从头算阶段化方法。

2.理论

在我们之前的工作中,我们计算了地图中局部r.m.s.电子密度的标准偏差。使用间距约为地图分辨率三分之一的网格进行计算,网格位于边缘五个网格单位的方框中,局部均方根密度的标准偏差是从整个区域的重叠方框中获得的非对称单元晶体(Terwilliger&Berendzen,1999)【Terwilliger,T.C.和Berendzen,J.(1999a),《结晶学报》D55,501-505。】). 我们发现,盒子的精确尺寸和重叠对计算的影响很小。在这里,我们使用一种密切相关但更具普遍性的方法,其中计算了电子密度局部粗糙度的总体方差。我们使用窗口函数定义计算电子密度局部方差(粗糙度)的区域,而不是使用重叠方框来确定单元中各点的局部均方密度变化。任何窗口函数都可以用于此目的,但最方便的是高斯函数。

地图中的局部粗糙度[第页(x个)]可以用以x个:

[r({\bfx})=\textstyle\int\limits_{r^{3}}[\rho({\Bfx}^{prime})-\overline{\rho}

或同等

[r({\bf x})=\textstyle\int\limits_{r^{3}}\rho^{2}({\bf x}^{\prime})({\bf x}-{\bf x}^{\prime}){\rm d}^{3}{\bf x}^{\prime}-\overline{\rho}({\bf x})^{2},\eqno(2)]

哪里[\overline{\rho}({\bf x})]是平均局部电子密度,由

[\overline{\rho}({\bfx})=\textstyle\int\limits_{R^{3}}\rho({\Bfx}^{\prime}){\itg}}

(x个)是一个任意窗口函数。如果窗函数是具有单位体积和方差的三维高斯函数(对于每个分量x个,,z(z))第页,共页σ2那么它可以表示为

[g({\bfx})=({{1}}/{{2}\pi})^{1/2}}({1}/\sigma^{3})\exp[-0.5({|{\bf x}||^{2}}/\sigma^}})]。\等式(4)]

差异([\sigma_{R}^{2}])整个电子密度的局部粗糙度单位电池然后由给出

[\sigma_{R}^{2}=({1}/{V})\textstyle\int\limits_{V}R^{2{({\bfx}){\rmd^{3}}{\bf x}-\上划线{{\itr}}}^{2],\eqno(5)]

哪里[\overline{r}=({1}/{V})\textstyle\intr(\bf{x})]V(V)是单位单元的体积。

为了计算电子密度局部粗糙度的方差,[\sigma_{R}^{2}],英寸倒易空间,我们使用的事实是(2)右侧的第一项[链接])表示的卷积ρ2(x个)和(x个),还有那个[上划线{\rho}(\bf{x})]英寸(2[链接])反过来是卷积ρ(x个)和(x个). 电子密度ρ(x个),假设为实函数,以及平方电子密度ρ2(x个)可以表示为(立方英尺.Bracewell,1986年【Bracewell,R.N.(1986)。傅里叶变换及其应用。纽约:McGraw-Hill。】)

[\rho({\bfx})=\textstyle\sum\limits_{{\bf-h}}{\bf F}_{{\ffh}}\exp(-{2}\pii{\bv-h}\cdot{\bx-}),\eqno(6)]

[\rho^{2}({\bf x})=\textstyle\sum\limits_{h}{\bfB_{h{}}\exp(-{2}\pi{i}{\bf h}\cdot{\bf-x},\eqno(7)]

分别,其中小时≡ (小时*,kb条*,c(c)*)和倒易点阵向量是*,b条*以及c(c)*. 系数B类小时可以根据结构因素计算F类小时使用关系

[\bf{B_{h}}=\textstyle\sum\limits_{\bf k}\bf{F_{k}}\bf{F_{h-k}},\eqno(8)]

对的所有值求和k.高斯函数(x个)可以很容易地用傅里叶空间表示;例如,它在关于原子的电子密度高斯分布的傅里叶变换中表现为温度因子。以原点为中心的单位体积和方差为ρ2

[g({\bfx})=\textstyle\sum\limits_{\bf-h}{\bf g}_{\baf-h}\exp(-{2}\pi{i}{\baf h}\cdot{\bv-x},\eqno(9)]

哪里

[{\bf G}_{{\bf-h}}=\exp(-{2}\sigma^{2}\ti^{2{S_{\bfh}}^{2neneneep)\eqno(10)]

S公司小时是散射矢量的大小[|{\bfh}||={2}\sin\theta/\lambda].

作为[上划线{\rho}({\bf x})](3[链接])是的卷积ρ(x个)和(x个),我们可以写

[\overline{\rho}({\bfx})=\textstyle\sum\limits_{\bf-h}{\bf Q}{{\bv-h}}\exp(-{2}\pi{i}{\bf-h}\cdot{\bx-}),\eqno(11)]

其中系数小时只是原始结构因素F类小时受到指数因子的影响G公司小时,

[{\bf Q}_{{\bfh}}={\bf-F}_{

(2)右侧的第二项[链接])现在可以用(7[链接])和(8[链接])作为

[\overline{\rho}({\bfx})^{2}=\textstyle\sum\limits_{\bf-h}{\bf B}^{\rm AVG}_{\bf-h}\exp(-{2}\pi{i}{\ffh}\cdot{\bf2}),\eqno(13)]

其中系数[{\bf B}^{\rm平均}_{\bf-h}]基于阻尼结构系数k英寸(12[链接]),

[{\bf B}^{\rm AVG}{\bf-h}=\textstyle\sum\limits_{\bfk}{\bf Q_{k}}{\ffQ_{h-k}}.\eqno(14)]

接下来,作为(2)右侧的第一项[链接])是的卷积[\rho^{2}(\bf{x})](x个),我们可以写

[\textstyle\int\limits_{R^{3}}\rho^{2}h}\cdot{\bf x}),\eqno(15)]

其中系数T型小时由提供

[{\bf T}_{{\bf-h}}={\bfB_{h}}{\bv G}_{\bv-h}}.\eqno(16)]

我们现在可以表示地图(1)的局部粗糙度[链接])在表单中

[r({\bfx})=\textstyle\sum\limits_{\bf-h}{\bf r}_{{\b5-h}}\exp(-{2}\pi{i}{\bf-h}\cdot{\bf2}),\eqno(17)]

其中系数R(右)小时由提供

[{\bf R}_{{\bf-h}}={\bfB_{h}}{\bv G}_{\bv-h}}-{\b5-B}^{\rm AVG}_}\bf-h}.\eqno(18)]

期望的方差[\sigma_{R}^{2}]在(5)[链接])由两部分组成第页2(x个)和平均值的平方第页(x个)超过单位单元格。的平均值第页(x个)超过单位电池就是简单的小时=其相应变换的(0,0,0)项,R(右)000类似地第页2(x个)由小时=其变换的(0,0,0)项。使用Parseval定理(立方英尺.Bracewell,1986年【Bracewell,R.N.(1986)。傅里叶变换及其应用。纽约:McGraw-Hill。】),的平均值第页2(x个)可以用形式表示

[({1}/{V})\textstyle\int\limits_{V}r^{2}

其中积分取单位-细胞体积。

最后,局部粗糙度的方差([\sigma_{R}^{2}])英寸(5[链接])可以写为

[\sigma_{R}^{2}=\textstyle\sum\limits_{{\bfh}}||{\bf R}_{{\fh}}| |^{2{-{\bf-R}{000}^{2}\eqno(20)]

或者更简单地说

[\textstyle\sum\limits_{{\bfh}\neq(000)}|{\bf R}_{{\fh}}|^{2}.\eqno(21)]

3.讨论

(21[链接])是中的表示互易空间属于[\sigma_{R}^{2}]傅里叶综合中电子密度局部粗糙度的方差。在含有蛋白质和溶剂的明确区域的大分子晶体的情况下,这种差异往往很高,因为单位电池非常粗糙,含溶剂区域非常光滑(Terwilliger&Berendzen,1999【Terwilliger,T.C.和Berendzen,J.(1999a),《结晶学报》D55,501-505。】). 因此,这个方差的值可以用来衡量一个大分子结构的各种可能相集的相对质量。

局部粗糙度的方差,[\sigma_{R}^{2}],英寸(21[链接])由系数的平方和给出R(右)小时,除R(右)000在局部粗糙度的傅立叶合成中,第页(x个). 这相当于注意到[\sigma_{R}^{2}]是局部粗糙度的总均方值,减去R(右)000.系数R(右)小时对于(18)中给出的局部粗糙度,每个包含两个术语,B类小时G公司小时[{\bf B}^{\rm平均}_{\bf-h}}]第一学期,B类小时G公司小时,由傅里叶级数表达式中的系数组成(15[链接])对于局部均方电子密度。第二任期,[{\bf B}^{\rm平均}_{\bf-h}}],是局部平均电子密度的傅立叶级数表达式中的系数,平方。差异对应于电子密度的局部变化,我们将其描述为局部粗糙度。

(21)的一个重要特征[链接])只有低阶项较大。这是指数项存在的结果G公司小时乘以B类小时(18)中的术语[链接])并将F类小时(12)中的术语[链接]). 正因为如此,[\西格玛^{2}_{R} ]英寸(21[链接])在一级近似下,是描述傅里叶级数(7)中最低阶项的平方和[\rho^{2}(\bf{x})]这些低阶项的大小描述了单位电池包含低值和高值[\rho^{2}(\bf{x})].如果[\rho^{2}(\bf{x})]单位电池,那么这个傅里叶级数中的低阶项将很小。如果分布高度不均匀,则低阶项,因此[\sigma_{R}^{2}],将很大。

(21[链接])有几个值得强调的重要特性。最重要的是指数项限制了小时求和中的项是大的而不是小的[||\bf{h}|]。这意味着评估[\sigma_{R}^{2}]可以很快。每个的计算B类小时英寸(8[链接])或[{\bf B}^{\rm平均}_{\bf-h}}]英寸(14[链接])只需要一次通过所有反射。作为以下值的较小值小时[\sigma_{R}^{2}],计算时需要通过反射的相对较少次数[\sigma_{R}^{2}].计算的潜在快速性[\sigma_{R}^{2}]是指蒙特卡罗方法或基于遗传算法可能用于优化[\sigma_{R}^{2}]即使在有大量反射的情况下。但是,如果使用的是高斯函数以外的加窗函数,或者高斯函数的宽度很窄,则需要精确计算所需的项数[\sigma_{R}^{2}]不一定很小。一般来说[\sigma_{R}^{2}]使用(21)中的低阶项[链接])对应于窗函数在某种分辨率下的谱截断。

(21)的第二个重要方面[链接])是的价值[\sigma_{R}^{2}]以一种容易计算的方式取决于晶体学相。很容易区分(21)各个阶段。这意味着可以使用矩阵方法来调整相位以最大化[\sigma_{R}^{2}]由于反射仅在(8)中显著交互[链接])与其他反射不同k对于少数情况,这样的矩阵方法最多只能涉及矩阵中元素的一小部分,并且可能只涉及对角元素。这种方法可以用于将[\sigma_{R}^{2}]与其他直接法相比,提高了直接法求解大分子结构的能力。

同于(21[链接])本质上是我们已经详细研究过的地图质量真实空间度量的互惠空间公式(Terwilliger&Berendzen,1999【Terwilliger,T.C.和Berendzen,J.(1999a),《结晶学报》D55,501-505。】),这两种配方的大多数特性将非常相似。在图1中[链接],我们使用(21)给出了一组模型计算[链接])评估中的电子密度图倒易空间。6200个模型数据,从20到3.0根据来自红球菌属物种ATCC 55388(美国类型培养物收藏,1992【美国类型培养物收藏(1992)。细菌和噬菌体目录,第18版,第271-272页。】)最近在我们实验室测定。该蛋白质含有316个氨基酸残基,并在空间组 P(P)21212个,单位-中心尺寸= 94,b条= 80,c(c)= 43和其中一个分子非对称单元(J.Newman,个人沟通)。图1[链接]()显示了从模型数据生成的总共2000个相位集的结果,相位误差范围为0-150°。这些模型数据集使用(21[链接])值为σ= 6Ω,包括指数项G的所有364项(小时)英寸(10[链接])值为0.0001或更大。局部粗糙度方差的对数,log([\sigma_{R}^{2}]),如图1所示[链接]()作为数据集中平均相位误差余弦的函数。对于具有?cos的相集(Δθ)在-0.3或更大的范围内,局部粗糙度变化的对数与相位精度密切相关。对于具有较低cos的相位组(Δθ)〉,相关性很小。

[图1]
图1
使用(21)计算局部粗糙度的方差。()的对数[\sigma_{R}^{2}]如文中所述,为2000个模型相位集绘制。横坐标是〈cos(Δθ)〉,相位集有效优值的平均值。(b条)在质量相差0.1个单位〈cos的两个相位组中选择更好的相位组的概率(Δθ)〉绘制模型数据,如(),使用364个最低阶项(菱形)、249个最低阶项(三角形)、145个最低阶项(正方形)或58个最低阶项(十字),如文本中所述。

图1[链接](b条)图1显示了数据的实际含义[链接]()并且还说明,计算时只需要(21)中的低阶项[\sigma_{R}^{2}]在图1中[链接](b条),图1中的数据[链接]()通过分析,估计了从局部粗糙度方差的对数中可以确定正确选择两个相位集中较好的相位集的概率。图1[链接](b条)显示了对四组2000个相位组的分析。在四种分析中,指数项G的不同最小值(小时)使用的范围为0.0001到0.1。获得图1[链接](b条),图1中的数据[链接]()在〈cos中分为两组,每组相差0.1±0.05个单位(Δθ)〉. 将每组的每个成员与配对集的每个成员进行比较,以及对数值较高的成员的分数([\sigma_{R}^{2}])也有较高的cos值(Δθ)绘制了〉。

图1[链接](b条)表明,在相位精度极低(〈cos(Δθ)〉<0.25),log的值([\sigma_{R}^{2}])导致只有50%的机会选择精度不同的两个相位组中更好的一个。对于值为〈cos的相位组(Δθ)〉从0.25到0.4,但是,选择两个相差此数量的相位组中更好的相位组的概率从0.6增加到0.9。(21)中序列中的58个最低阶项[链接])给出与364个最低订单条款几乎相同的正确选择可能性。这意味着可以忽略高阶项而不产生实质性影响。

4.结论

与之前进行的真实空间计算相比,这里提出的倒易空间公式具有主要优势(Terwilliger&Berendzen,1999【Terwilliger,T.C.和Berendzen,J.(1999a),《结晶学报》D55,501-505。】). 这就是方差[\sigma_{R}^{2}]可以在不进行傅里叶变换的情况下进行计算,并且可以调整潜在相位以使方差最大化。方差的快速计算意味着它可以用来衡量许多不同试验中的阶段质量,方差最大化的潜力意味着它可用于阶段改进,甚至可能用于从头算相位算法。无需非晶体学对称性目前溶剂压平(Wang,1985[王,B.-C.(1985)。《酶学方法》,115,90-112。]; 等。, 1993[Xiang,S.,Carter,C.W.Jr,Bricogne,G.&Gilmore,C.J.(1993),《结晶学报》D49,193-212。]; 波贾尼等。, 1987【Podjarny,A.D.,Bhat,T.N.&Zwick,M.(1987),《生物物理与生物物理化学年鉴》,第16期,第351-373页。】; 亚伯拉罕等。, 1994【Abrahams,J.P.,Leslie,A.G.W.,Lutter,R.&Walker,J.E.(1994)。《自然》(伦敦),第370、621-628页。】; Zhang&Main,1990年[张,K.Y.J.&Main,P.(1990),《晶体学报》A46,41-46。]). 执行这类程序要求电子密度图具有足够高的质量,以便能够可靠地计算定义蛋白质和溶剂之间边界的包络线。(21[链接])提供了一种改进阶段的方法,即使在边界明确界定之前。最大化[\sigma_{R}^{2}]将最大限度地区分蛋白质和溶剂区域,而无需了解每个区域的位置。因此,(21[链接])在溶剂压平无效的情况下可能有用,并且在相位良好的情况下提供补充方法。

倒数空间公式有几个方面有待优化。一是窗口功能的选择。我们选择了高斯函数,但我们进行的推导与窗函数无关,可以使用任何函数。高斯函数特别方便,因为它会导致强阻尼系数变得非常小,除了较小的值[|\bf{h}|.]然而,其他窗口函数可能会产生更好的电子密度图质量测量,对其他函数的调查可能会改进算法。另一种可能是构建以下值的直方图[\sigma_{R}^{2}]从许多已解决的蛋白质结构中,可以依次用于构建一个用于估计相位误差的数据-似然模型。这种方法可能比这里描述的方法强大得多,因为它可以提供概率信息,这些信息可以在贝叶斯方法中与其他相位信息源相结合。

致谢

作者感谢与Randy Read、Joel Berendzen和Janet Newman的讨论,感谢匿名评论员的特别有用的评论,以及国家卫生研究院和能源部的支持。

工具书类

第一次引用Abrahams,J.P.、Leslie,A.G.W.、Lutter,R.和Walker,J.E.(1994)。自然(伦敦),370, 621–628. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用美国类型文化收藏(1992)。细菌和噬菌体目录第18版,第271-272页谷歌学者
第一次引用Baker,D.、Krukowski,A.E.和Agard,D.A.(1993年)。《水晶学报》。D类49, 186–192. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Bracewell,R.N.(1986年)。傅里叶变换及其应用。纽约:McGraw-Hill。 谷歌学者
第一次引用Hauptman,H.(1997)。货币。操作。结构。生物。 7, 672–680. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Podjarny,A.D.、Bhat,T.N.和Zwick,M.(1987年)。每年。生物物理学评论。生物物理学。化学。 16, 351–373. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Sheldrick,G.M.(1990年)。《水晶学报》。一个46, 467–473. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.和Berendzen,J.(1999)).《水晶学报》。D类55, 501–505. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.和Berendzen,J.(1999)b条).《水晶学报》。D类55, 849–861. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Wang,B.-C.(1985)。方法酶学。 115, 90–112. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Weeks,C.M.,Hauptman,H.A.,Smith,G.D.&Blessing,R.H.(1995)。《水晶学报》。D类51, 33–38. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Xiang,S.、Carter,C.W.Jr、Bricogne,G.和Gilmore,C.J.(1993)。《水晶学报》。D类49, 193–212. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Zhang,K.Y.J.和Main,P.(1990)。《水晶学报》。一个46, 41–46. 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标生物
结晶学
国际标准编号:1399-0047