研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
国际标准编号:1399-0047

最大似然密度修正

结构生物学小组,邮箱M888,洛斯阿拉莫斯国家实验室,美国新墨西哥州洛斯阿拉莫斯87545
*通信电子邮件:terwilliger@lanl.gov

(收到日期:1999年12月6日; 2000年4月17日接受)

开发了一种基于类似hood的密度修改方法,可应用于多种情况,其中一些关于电子密度的信息在单位电池可用。该方法的关键在于开发似然函数,该函数表示电子密度的特定值与之前对该点电子密度的预期一致的概率单位单元格。然后,将这些似然函数与基于实验观察的似然函数以及包含结构因子任何先验知识的其他似然函数组合,以形成每个似然函数的组合结构因素。提出了一种简单而通用的最大化组合似然函数的方法。研究发现,与传统溶剂平坦化和直方图匹配或最近的互惠空间溶剂平坦化程序相比,这种基于相似性的方法在模型和实际测试用例中产生了更大的相位改进[Terwilliger(1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】),《水晶学报》。D类55,1863-1871年]。

关键词: 密度修正;似然函数.

1.简介

使用任意倍数对大分子进行实验测量获得的相位信息同晶置换或者多波长反常衍射本身往往不足以构建一个有助于模型建立和解释的电子密度图。近年来,为了提高电子密度图的质量,人们开发了许多密度修改方法,方法是在以高或中等分辨率(2-4º)获得电子密度图时,结合有关这些图中预期特征的先验知识。这些方法中最强大的是溶剂压平,非晶体学对称性平均、直方图匹配、相位扩展,分子替换, 最大化和迭代模型构建(Abrahams,1997【Abrahams,J.P.(1997),《水晶学报》,D53,371-376。】; 布里科涅,1984年【布里科涅·G(Bricogne,G.)(1984),《结晶学报》A40,410-445。】, 1988【布里科涅·G(Bricogne,G.)(1988),《结晶学报》A44,517-545。】; Cowtan&Main,1993年【Cowtan,K.D.&Main,P.(1993),《水晶学报》D49,148-157】, 1996【Cowtan,K.D.&Main,P.(1996),《结晶学报》,D52,43-48。】; Giacovazo和Siliqi,1997年【Giacovazo,C.和Siliqi,D.(1997),《水晶学报》A53,789-798。】; Goldstein&Zhang,1998年【Goldstein,A.和Zhang,K.Y.J.(1998),《晶体学报》D54,1230-1244。】; 等。, 1997[Gu,Y.,Zheng,Ch.,Zhao,Y.,Ke,H.和Fan,H.(1997).晶体学报D53,792-794.]; Lunin,1993年[卢宁,V.Y.(1993),《结晶学报》,D49,90-99。]; 佩拉基斯等。, 1997【Perrakis,A.、Sixma,T.K.、Wilson,K.S.和Lamzin,V.S.(1997),《结晶学报》D53、448-455。】; 波贾尼等。, 1987【Podjarny,A.D.,Bhat,T.N.&Zwick,M.(1987),《生物物理与生物物理化学年鉴》,第16期,第351-373页。】; 王子等。, 1988【Prince,E.,Sjolin,L.&Alenljung,R.(1988),《结晶学报》A44,216-222。】; 里法特等。, 1996【Refaat,L.S.,Tate,C.&Woolfson,M.M.(1996),《结晶学报》D52,252-256。】; Roberts&Brünger,1995年【Roberts,A.L.U.和Brünger,A.T.(1995),《晶体学报》D511990-1002。】; Rossmann&Arnold,1993年[Rossmann,M.G.&Arnold,E.(1993),《国际结晶学表》,B卷,U.Shmueli编辑,第230-258页。多德雷赫特/波士顿/伦敦:Kluwer学术出版社。]; Vellieux公司等。1995年【Vellieux,F.M.D.A.P.,Hunt,J.F.,Roy,S.&Read,R.J.(1995),《应用结晶杂志》,第28期,第347-351页。】; Wilson&Agard,1993年【Wilson,C.&Agard,D.A.(1993),《结晶学报》A49,97-104。】; 等。, 1993[Xiang,S.,Carter,C.W.Jr,Bricogne,G.&Gilmore,C.J.(1993),《结晶学报》D49,193-212。]; Zhang&Main,1990年【Zhang,K.Y.J.和Main,P.(1990)。晶体学报A46,41-46。】; 张,1993[张国勇(1993).《结晶学报》D49,213-222。]; 等。, 1997[Zhang,K.Y.J.,Cowtan,K.D.&Main,P.(1997)。《酶学方法》277,53-64。]). 密度修正方法的基本依据是,根据有限的实验数据,有许多可能的结构因子振幅和相位集,它们都是合理可能的,而那些导致映射的结构因素最有可能与实验数据和先验知识一致。在这些方法中,选择要使用的先验信息以及将电子密度先验信息与实验导出的相位信息相结合的过程是关键的部分。

直到最近,密度修正(关于电子密度图预期特征的知识与实验相位信息的结合)通常是在两步程序中进行的,迭代直至收敛。第一步,在实际空间中修改实验获得的电子密度图,使其符合预期。例如,这可以包括平坦溶剂区域、平均非晶体学对称相关区域或直方图匹配。在第二步中,根据修改后的映射计算相位,并将其与实验相位相结合以形成新的相位集。

这种实际空间修改方法的缺点是,完全不清楚如何将观察到的相位与从修改后的地图中获得的相位加权。这是由于修改后的地图包含一些与原始地图相同的信息和一些新信息。长期以来,人们认识到了这一困难,并设计了许多方法来改进这两个来源的相对权重,最近包括使用最大熵方法和使用交叉验证优化的权重(向等。, 1993[Xiang,S.,Carter,C.W.Jr,Bricogne,G.&Gilmore,C.J.(1993),《结晶学报》D49,193-212。]; Roberts&Brünger,1995年[Roberts,A.L.U.&Brünger,A.T.(1995),《水晶学报》D51990-1002。]; Cowtan&Main,1996年【Cowtan,K.D.&Main,P.(1996),《结晶学报》,D52,43-48。】)和“溶剂翻转”(Abrahams,1997)【Abrahams,J.P.(1997),《水晶学报》,D53,371-376。】).

2.基于倒数空间的似然优化密度修正

我们最近开发了一种非常不同的方法,将实验相位信息与地图中预期电子密度分布的先验知识相结合。我们的方法基于组合似然函数的最大化(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】). 基本思想是表达我们对一组结构因子概率的知识{F类小时}就两个量而言:(i)测量观测到的一组结构因子的可能性[\{F^{\rm OBS}_{\bf h}\}]如果这个结构因子集是正确的,并且(ii)由这个结构因子集中产生的映射的可能性{F类小时}与我们之前对这种和其他大分子结构的了解一致。

当以这种方式设置时,真实空间修改方法中发生的信息重叠不存在,因为实验信息和先验信息是分开的。因此,实验信息和先验信息的适当加权只需要估计每个信息源的概率函数。

基于相似性的密度修改方法有第二个非常重要的优点。也就是说,似然函数相对于单个结构因子的导数可以很容易地在互易空间基于FFT的方法。因此,密度修正只是通过调整结构因子来优化组合似然函数。这使得密度修改成为一种非常简单但功能强大的方法,只需要为要合并的先验知识的每个方面构造合适的似然函数。我们之前表明,这种方法可以应用于溶剂压平,并且与依赖于实际空间修改和相位重组的方法相比,所得算法有了很大改进(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】).

在这里,我们扩展了基于相似性的密度修饰的概念,以包括来自各种潜在来源的电子密度分布的先验信息,并在溶剂区域和大分子所占据区域的电子密度上证明了这一点。首先,我们描述了一个实际公式中基于相似hood的密度修正的数学,该公式与我们用于互惠空间溶剂压平的公式有所不同(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】). 然后我们展示了如何构建和使用包含溶剂和大分子区域信息的映射的似然函数。

3.基于似然的密度修正

我们基于相似性的密度修改程序的基本思想是,关于大分子晶体的结构因子有两种关键信息。首先是实验相位和振幅信息。这可以用似然(或对数似然)函数LL来考虑组织分解结构(F类小时)对于每个结构系数 F类小时,其中结构系数 第页组织分解结构(F类小时)由提供

[p^{\rm OBS}(F_{\bfh})=\exp\{\rm-LL^{OBS}}

对于具有精确测量振幅的反射F类小时将处于相位,而对于未测量或测量不良的反射,将同时处于相位和振幅。

这个公式中关于结构因子的第二种信息是由它们生成的映射的可能性。例如,对于大多数高分子晶体来说,一组结构因素{F类小时}这导致一个对应于溶剂的平坦区域的映射比导致一个处处均匀变化的映射更可能是正确的。该类映射函数描述了从一组结构因子中获得的映射与我们的期望相符的概率,

[p^{\rm MAP}(F_{\bf h})=\exp\{\rm-LL^{MAP}}

然后,我们将我们的两个主要信息源与结构因素的任何先验知识相结合,以产生一组特定结构因素的可能性,

[{\rm LL}(\{F{\bfh}\})={\rm-LL}^{o}({F{\ffh})+{\rm-LL^{OBS}}(\\{F{bfh{})+{\rm-MLL^{MAP}}

其中LL({F类小时})包括任何预先已知的结构因子信息,例如结构因子强度的分布(Wilson,1949【Wilson,A.J.C.(1949),《结晶学报》,第2期,第318-321页。】).

3.1. 近似似然函数以简化过程

为了使(3)中的总体似然函数最大化,我们需要知道图似然函数是如何随着结构因子的变化而变化的。对于map-likelihood函数LL地图({F类小时})这可以看作是两个独立的关系,即似然函数对电子密度变化的响应,以及电子密度随结构因子变化的变化。原则上,特定图谱的可能性是整个图谱上电子密度的复杂函数。此外,任何结构系数影响了地图上所有地方的电子密度。为了简化数学,我们显式地使用映射的似然函数的低阶近似,而不是尝试精确地计算函数。由于傅立叶变换是一个线性过程,每次反射对细胞中给定点的电子密度都有独立的贡献。尽管电子密度的对数似然可能有任何形式,但我们预计,对于结构因子的足够小的变化,对数似然函数的一级近似将适用,并且每个反射也将相对独立地对对数似然功能的变化作出贡献。

因此,我们对map-likelihood函数构造了一个局部近似,忽略了图中不同点之间以及反射之间的相关性,期望它能够合理准确地描述似然函数如何随着结构因子的微小变化而变化。

通过忽略图中不同点之间的相关性,我们可以将整个电子密度图的对数似然写成图中每个点的密度对数似然之和,并将其归一化为单位电池以及用于建造它的反射次数(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】),

[{\rm LL^{MAP}}(\{F_{\bf h}\})\simeq(N_{\rm-REF}/V)\textstyle\int\limits_{V}{\rm-LL}[\rho({\bf-x},\{F{\bfh}\{)]\,{\rm-d}^{3}{\bv-x}。\等式(4)]

此外,通过将每个反射视为独立于似然函数,我们可以写出每个点密度对数似然的局部近似值。该近似值由泰勒级数展开式的前几个项的所有反射之和给出,这些反射围绕着用起始结构因子获得的值[\{F(F)^{o}_{\bf h}\}]用于密度调整循环,[{\rm LL}[\rho({\bf x},\{F_{\bf-h}^{o})]],

[\eqaligno{{rm LL}[\rho({\bf x},\{F_{\bf-h}\}^{o}(o)_{\bfh}\})]\cr&\quad+\sum\limits_{\bf h}\biggr\{\Delta F_{{\bf-h},\parallel}{\partial}\over{\partical F_{\\bf-h{,\parallel}}{\rm LL}[\rho({\bf1x},\^{2}_{{\bfh},\parallel}{{\partial^{2}}\over{\particalF^{2}_{\bf h},\ parallel}}}{\rm LL}[\rho({\bf x},\{F_{\bf h}\})]\cr&&quad+\Delta F_{\bf h},\ perp}{\partial}\ over{\partial F_{\bf h},\ perp}}}}{\rm LL}[\rho({\bf x},\{F_{\bf h}\})]\cr&&quad+{1}\ over{2}}}\ Delta F^{2}_{{\bfh},\perp}{{\partial^{2}}\over{\particalF^{2}_{{\bfh},\perp}}{\rm LL}[\rho({\bf x},{F_{\bf-h}})]+。。\大gr\},&(5)}]

哪里[\Delta F_{{\bf h},\parallel}][\Delta F_{{\bf h},\perp}]两者的区别是F类小时[女]^{o}(o)_{\bf h}]沿着…的方向[女]^{o}(o)_{\bf h}][i F^{o}(o)_{\bf h}]分别是。

组合(4[链接])和(5[链接]),我们可以为map log-likelihood函数编写一个表达式,

[\eqaligno{{rm LL^{MAP}}(\{F_{bf h}\})和\simeq{rm LL ^{MAP{}[\rho({bf x},\{F^{o}(o)_{\bfh}\})]\cr&\quad+(N_{\rm REF}/V){\textstyle\sum\limits_{\bf h}}\Delta F_{\bf h},\parallel}\int\limits\{V}{\partial}\over{\partical F_{\ffh}{3}{\bf x}\cr&\quad+{{1}\over{2}}\Delta F^{2}_{{\bfh},\parallel}\int\limits_{V}{{\partial^{2}}上^{2}_{\bf h},\ parallel}}}{\rm LL}[\rho({\bf x},\{F_{\bf h})]\,{\rm d}^{3}{\bf x}\cr&\ quad+\ Delta F_{\bf h},\ perp}\ int \ limits_{V}{{\partial}\ over{\partial F_{\bf h},\ perp}}}{\rm LL}[\rho({\bf x},\{F_{\bf h}\})]\,{\rm d}^{3}{\bf x}\cr&&quad+{1}\超过{2}}{\Delta F^{2}_{{\bfh},\perp}}\int\limits_{V}{{\partial^{2}}\over{\particalF^{2}_{{\bfh},\perp}}}{\rm LL}[\rho({\bf x},{F_{\bf-h}\})]\,{\rmd}^{3}{\bv x}&(6)}]

3.2. 基于FFT的电子密度LL对数似然倒数空间导数的计算[ρ(x个, {F类小时})]

(6)中的积分[链接])可以以适合于基于FFT的方法进行评估的形式重写。考虑(6)中的第一个积分[链接]),我们用链式法则来写

[{{\partial}\ over{\partical F_{{\bfh},\parallel}}{\rm LL}[\rho({\bf x},\{F_{\bf-h}\})]={\paratil}\over{\ partial\rho,\parallel}}\rho({\bfx})\eqno(7)]

并注意到ρ(x个)关于[F_{{\bf h},\parallel}]对于特定索引小时由提供

[{{\partial}\over{\parial F_{{\bfh},\parallel}}\rho({\bf x})={{2}\over{V}}{\rm Re}[\exp(i\varphi_{\bf-h})\exp。\等式(8)]

现在我们可以重新排列并重写(6)中的第一个积分[链接])在表单中

[{\int\limits_{V}}{{\partial}\ over{\parial F_{\bf h},\parallel}}{\rm LL}[\rho({\bf-x},\{F_{\ff h}\})]\,{\rmd}^3}{\bfx}={2}\over{V}{\rm Re}[\exp}],\eqno(9)]

其中复数小时是傅里叶变换中的一个项[\{\textstyle{{\partial}/[{\paratil\rho({\bfx})}}]]全部[ρ(x个, {F类小时})],

[a{\bfh}=\int\limits_{V}{{\partial}\over{\partical\rho({\bf x})}}{\rm LL}[\rho。\等式(10)]

在其他空间组中P(P)1,计算电子密度图只需要指定一组独特的结构因子。考虑到空间群对称性,(9[链接])可以概括(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】)阅读

[{int\limits_{V}}{{\partial}\ over{\parial F_{\bf h},\parallel}}{\rm LL}[\rho({\bf-x},\{F_{\ff h}})]\,{\rmd}^3}{\bfx}={{2}\over{V},\textstyle\sum\limits{\bv h}^{\prime}}{\ rm Re}[\exp(i\varphi_{{\bfh}^{\prime}})a^{*}_{{bfh{^{\prime}}],\eqno(11)]

其中索引小时'所有指数均等于小时由于空间群对称性。

可以使用类似的程序重写(6)中的第二个积分[链接]),生成表达式

[\eqalignno{{\int\limits_{V}}{{\partial^{2}}\over{\partical F^{2}_{{\bfh},\parallel}}}&{\rm LL}[\rho({\bf x},{F_{\bf-h}})]{\rmd}^{3}{\bv x}=\cr&{2}\over{V^{2}}}\textstyle\sum\limits_{\bf h}^{\prime}{{\bfh}^{\prime}})\exp\exp(-i\varphi_{{\bfk}^{\prime}})b_{{bfh}^{prime}+{\bf k}^}}],&(12)}]

其中指数小时'和k个'所有指数均等于小时由于空间群对称性和其中系数b条小时也是傅里叶变换中的项,这是电子密度对数似然的二阶导数,

[b_{\bfh}=\int\limits_{V}{{\partial^{2}}\over{\paratil\rho({\bf x})^{2{}{\rm LL}[\rho。\等式(13)]

(6)中的第三和第四积分[链接])可以用类似的方式重写,生成表达式

[{int\limits_{V}}{{\partial}\ over{\parial F_{\bf h},\perp}}}{\rm LL}[\rho({\bf-x},\{F_{\ff h}\})]\,{\rmd}^3}{\bfx}={{2}\ over{V}{\textstyle\sum\limits{\bv h}^{\prime}}{\ rm Re}[i\exp(i\varphi{{\bfh}^{\prime}})a^{*}{{\bofh}^{\prime}}]\eqno(14)]

[\eqalignno{{\int\limits_{V}}{{\partial^{2}}\over{\partical F^{2}_{{\bfh},\parallel}}}&{\rm LL}[\rho({\bf x},{F_{\bf-h}})]{\rmd}^{3}{\bv x}=\cr&{2}\over{V^{2}}}\textstyle\sum\limits_{\bf h}^{\prime}{{\bfh}^{\prime}})\expexp(-i\varphi_{{\bfk}^{\prime}})b_{{bfh}^{prime}+{bfk{^{\prime}}].&(15)}]

(4)的意义[链接])至(15[链接])我们现在有一个简单的表达式(6[链接])描述map-likelihood如何运行LL地图({F类小时})结构因素发生微小变化时会发生变化。评估这个表达式只需要我们能够计算电子密度相对于图中每个点的电子密度的对数似然的一阶和二阶导数,并进行FFT。此外,(局部)总体似然函数的最大化(3[链接])变得简单明了,因为每个反射都是独立处理的。它只需调整每个结构系数通过(3)将其对似然函数逼近的贡献最大化[链接])至(15[链接]).

实际上,我们不是直接最大化总体似然函数,而是在这里使用它来估计每个函数的概率分布结构系数(特威利格,1999年[Tewilliger,T.C.(1999),《晶体学报》,第55卷,1863-1871页。])然后将此概率分布积分到反射的相位(或相位和振幅)上,以获得加权平均数估计结构因素。使用(3[链接])至(15[链接]),个人的概率分布结构系数可以写为

[\eqaligno{\ln p(F_{\bf h})&\simeq{\rm LL}^{o}(F_}\bf h})+{\rm-LL}^{\rm-OBS}(F{\bf-h}(i\varphi_{{\bfh}^{\prime}})a^{*}_{{bfh{^{\prime}}]\cr&\quad+(2N_{\rm REF}/V^{3})\Delta F^{2}_{\bfh},\parallel}\textstyle\sum\limits_{\bf h}^{prime},{\bf-k}^{prime}}{\rm-Re}[\exp(-i\varphi_{{\bv-h}^})\exp+\exp(-i\varphi_{{bfh}^{prime}})\exp/V^{2})\Delta F{{\bfh},\perp}\textstyle\sum\limits_{\bf h}^{\prime}}{\rm-Re}[i\exp(i\varphi_{{\bf h}^{\prime}})a^{*}^{2}_{\bfh},\perp}\textstyle\sum\limits_{\bf h}^{\prime},{\bf-k}^{\ prime}}{\rm-Re}[\exp四元\exp(-i\varphi{{bfh}^{prime}})\exp

其中,如上所述,指数小时'和k个'所有指数均等于小时由于空间群对称性和系数小时b条小时在(10)中给出[链接])和(13[链接]). 和以前一样,[\Delta F_{{\bf h},\parallel}][\Delta F_{{\bf h},\perp}]两者的区别是F类小时【F】^{o}(o)_{\bf h}]沿着…的方向[女]^{o}(o)_{\bf h}][国际单项体育联合会^{o}(o)_{\bf h}]分别是。一旦获得了电子密度及其导数的似然函数,就可以很容易地计算出(16)中的所有量。

4.有误差的电子密度图的似然函数

基于似然密度修正的一个关键步骤是确定地图中特定位置电子密度值的似然函数。为了本目的,电子密度LL的对数似然的表达式[ρ(x个, {F类小时})]在特定位置x个在地图中是否需要,这取决于该点x个位于溶剂区域或蛋白质区域内。一般来说,此函数可能取决于点是否满足各种条件中的任何一个,例如位于已知结构片段中的某个位置,或与地图的其他特征保持一定距离。我们之前讨论过(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】)如何整合有关环境的信息x个通过将对数似然函数写成依赖于环境的条件概率之和的对数x个,

[\eqaligno{{\rm LL}[\rho({\bf x},\{F_{\bf-h}\})]&=\ln\{p[\rha({\bf x})|{\rm-PROT}]p_{\rm-PROT}({\bf x})\cr&\quad+p[\rro({\ bf x{)|{\ rm SOLV}]p_{\rm-SOLV}(}),&(17)}]

哪里第页保护(x个)是指x个位于蛋白质区域,并且第页[ρ(x个)|PROT]是ρ(x个)考虑到这一点x个位于蛋白质区域,并且第页SOLV公司(x个)和第页[ρ(x个)|SOLV]是溶剂区的相应量。概率x个通过修改Wang(1985)的方法来估计蛋白质或溶剂区域[王,B.-C.(1985)。《酶学方法》,115,90-112。])和莱斯利(1987【Leslie,A.G.W.(1987),《CCP4研究周末论文集》,第25-31页。沃灵顿:达斯伯里实验室。])如前所述(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】). 如果确定每个点的环境的不仅仅是溶剂和蛋白质区域,那么(17[链接])可以修改为也包括这些。

开发中(13[链接])至(15[链接]),电子密度的似然函数的导数意在表示当一个函数发生微小变化时,似然函数是如何变化的结构系数都是这样做的。令人惊讶的是,在这种情况下,最适合我们当前目的的似然函数并不是全局正确的。相反,它是一个似然函数,表示总体似然函数如何随着其中一个的微小变化而变化结构因素,保持所有其他不变。要了解差异,请考虑大分子晶体溶剂区的电子密度。在包含所有可能反射的理想情况下,电子密度可能正好等于该区域的常数。使用中的目标(16[链接])是获得特定未知值的每个可能值的相对概率结构系数 F类小时如果所有其他结构因子都是精确的,那么电子密度的全局正确似然函数(零,除非溶剂区域完全平坦)将正确识别未知的正确值结构因素。现在假设我们有不完美的相位信息。溶剂区将有大量噪声,其值将不再是常数。如果我们对电子密度使用全局正确的似然函数,我们会给结构系数这并没有导致溶剂区域绝对平坦。这显然是不合理的,因为所有其他(不正确的)结构因素都会产生噪音,而不管这个结构因素的值是多少。

这种情况与结构中遇到的情况非常相似精炼模型中存在实质性缺陷的大分子结构。本讨论中所有其他结构因素的错误对应于精炼案例。用作加权因子的适当方差精炼包括估计的模型误差和测量误差(例如Terwilliger&Berendzen,1996年【Terwilliger,T.C.和Berendzen,J.(1996),《晶体学报》,D51,609-618。】; Pannu&Read,1996年[Pannu,N.S.和Read,R.J.(1996)。晶体学报A52,659-668。]). 类似地,本方法中使用的电子密度的适当似然函数是,除考虑的反射外,所有反射引起的电子密度总体不确定性都包含在方差中。

这种电子密度的似然函数可以使用一个模型来建立,在这个模型中,除了一个外,所有反射产生的电子密度都被视为随机变量(Terwilliger&Berendzen,1996【Terwilliger,T.C.和Berendzen,J.(1996),《晶体学报》,D51,609-618。】; Pannu&Read,1996年【Pannu,N.S.和Read,R.J.(1996),《水晶学报》A52659-668。】). 假设x个已知并由提供ρT型然后考虑到我们已经对所有结构因素进行了估计,但每个因素都存在重大误差。从所有结构因子的当前估计中获得的该电子密度估计的期望值(ρ组织分解结构)将由〈给出ρ组织分解结构〉 =βρT型和方差的预期值(ρ组织分解结构βρT型)2〉 =[\sigma_{\rm MAP}^{2}].因素β表示预期的计算值ρ将小于真实值。这有两个原因。一种是,这种估计可以使用结构因子的数字加权估计来计算,它将小于正确的估计。另一个原因是,结构因素中的相位误差系统性地导致偏向较小的结构系数沿着真理的方向结构因素。这与导致D类修正系数in最大似然 精炼(Pannu&Read,1996年【Pannu,N.S.和Read,R.J.(1996),《水晶学报》A52659-668。】).

此时电子密度的概率函数,适用于评估结构系数一个反射现在可以写成

[p(\rho)=\exp\left[-{{(\rho-\beta\rho_{T})^{2}}\在{2\sigma上^{2}_{MAP}}\右]。\等号(18)]

在稍微复杂一些的情况下ρT型不确切,但有不确定性σT型, (18[链接])成为

[p(\rho)=\exp\left[-{{(\rho-\beta\rho_{T})^{2}\在{2(\beta^{2{\sigma_{T{2}+\sigma^{2}_{\rm MAP})}}\right]。\等式(19)]

最后,在只有概率分布的情况下第页(ρT型)的ρT型已知,(18[链接])成为

[p(\rho)={int\limits_{\rho_{T}}p(\rro_{T})\exp\left[-{{(\rho-\beta\rho{T})^{2}}在{2\sigma上^{2}_{\rm MAP}}\right]\,{\rmd}\rho_{T}。\方程式(20)]

4.1. 映射中含有溶剂和大分子区域的似然函数

使用(19[链接])和(20[链接]),我们现在可以使用基于直方图的方法(Goldstein&Zhang,1998[Goldstein,A.和Zhang,K.Y.J.(1998)。晶体学报,D541230-1244。]; Lunin,1993年[卢宁,V.Y.(1993),《结晶学报》,D49,90-99。]; Zhang&Main,1990年[张,K.Y.J.&Main,P.(1990),《晶体学报》A46,41-46。])为映射的溶剂区域和包含大分子的映射区域建立似然函数。方法很简单。溶剂或大分子区域中真实电子密度的概率分布晶体结构从模型结构分析中获得,并表示为形式的高斯函数之和

[p(\rho_{T})={\sum\limits_{k}w_{k{}}\exp\left[-{{{(\rho{T}-c_{kneneneep)^{2}}\over{2\sigma_{kk}^{2{}}}\right]。\等式(21)]

如果βσ地图已知存在未知错误的实验图谱,但确定了溶剂和蛋白质区域,然后使用(19[链接])我们可以把地图上每个区域的电子密度的概率分布写成

[p(\rho_{T})={\sum\limits_{k}}w_{k}\exp\left[-(\rho_{T}-\beta-c{k})^{2}}\超过{2(\beta-^{2}\sigma_{k}^{2}+\sigma^{2}_{\rm MAP})}}\right],\eqno(22)]

具有适当的值βσ地图在实践中βσ地图通过对(22)中给出的概率分布进行最小二乘拟合来估计[链接])在实验地图上找到的那个。这种方法的优点是不必精确地确定实验地图的比例。然后(22[链接])与精炼值一起使用βσ地图作为映射对应区域(溶剂或大分子)中电子密度的概率函数。

5.评估最大似然模型和实际数据的密度修正

评估的效用最大似然如本文所述的密度修正,我们使用之前使用往复空间溶剂压平法和实际空间溶剂压扁法分析的相同模型和实验数据进行了测试(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】). 第一个测试用例由一组阶段组成,这些阶段由一个体积为单位电池被蛋白质吸收。各阶段整体的初始有效优值[cos(Δφ)〉]约为0.40。在我们之前的测试中,我们表明实际空间和交互空间溶剂平坦化都大大提高了阶段化的质量。在当前的测试中,真实空间密度修改包括溶剂平坦化和直方图匹配,以尽可能与最大似然我们开发的密度修正。

表1[链接]显示了将每种密度修正方法应用于该模型案例后获得的相质量。在所有情况下,最大似然此图的密度修改导致相位具有有效的优值[〈cos(Δφ)〉]高于任何其他方法。当模型中的溶剂分数单位电池例如,50%,最大似然密度修正得到的有效优值为0.83,而实际空间溶剂平坦化和直方图匹配得到的有效劣值为0.62,而交互空间溶剂平坦度得到的有效优值为0.67。

表1
密度修正相与真实相的相关性[〈cos(Δφ)〉]单位电池含32–68%溶剂

使用往复空间溶剂压平的数据和分析来自Terwilliger(1999)【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】). 6906个数据从∞到3.0Å具有模拟误差的相位是使用一个模型构建的,该模型由来自红球菌属物种ATCC 55388(美国类型培养物收藏,1992【美国类型培养物收藏(1992)。细菌和噬菌体目录,第18版,第271-272页。】)最近在我们实验室测定(纽曼等。, 1999【Newman,J.、Peat,T.S.、Richard,R.、Kan,L.、Swanson,P.W.、Affholter,J.A.、Holmes,I.H.、Schindler,J.F.、Unkefer,C.J.和Terwilliger,T.C.(1999)。生物化学,38,16105-16114。】; PDB条目1bn7),但为了改变单位单元格。牢房在里面空间组 P(P)21212,带单位-细胞参数= 94,b条=80,c(c)=43º,其中一个分子非对称单元。如Terwilliger(1999)所述,通过添加相位误差来生成具有模拟误差的相位【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】)得出相位误差余弦的平均值(即。〈cos分期的真实价值(Δφ)对于无中心反射,〉=0.42,对于中心反射,=0.39。然后使用最大似然本文所述的方法,通过相互空间溶剂平坦化(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】)并使用程序中实现的实际空间方法糖尿病(Cowtan&Main,1996年【Cowtan,K.D.&Main,P.(1996),《结晶学报》,D52,43-48。】)版本1.8,使用溶剂展平和直方图匹配。

蛋白质组分(%) 正在启动 实空间溶剂压平 往复空间溶剂压平 最大似然溶剂压平
32 0.41 0.64 0.85 0.87
42 0.40 0.62 0.67 0.83
50 0.41 0.54 0.56 0.77
68 0.42 0.48 0.41 0.53

的效用最大似然利用我们实验室最近测定的引发因子5A(IF-5A)的实验多波长(MAD)数据,将密度修正与实际空间密度修正以及倒置空间溶剂压平进行了比较等。, 1998【Peat,T.S.、Newman,J.、Waldo,G.S.,Berendzen,J.和Terwilliger,T.C.(1998),《结构》,第15期,第1207-1214页。】). IF-5A结晶于空间组 4,带单位-细胞参数= 114,b条= 114,c(c)=33Å,其中一个分子非对称单元溶剂含量约为60%。该结构使用MAD阶段基于非对称单元分辨率为2.2º。为了测试密度修改方法,这里只使用了三个硒位点中的一个进行阶段化,从而得到了一个带有相关系数到使用最终精细结构0.37计算的图。通过使用溶剂展平和直方图匹配对实际空间密度进行修改,改进了生成的电子密度图糖尿病(Cowtan&Main,1996年【Cowtan,K.D.&Main,P.(1996),《结晶学报》,D52,43-48。】),通过使用溶剂翻转进行实际空间密度修改(Abrahams,1997【Abrahams,J.P.(1997),《水晶学报》,D53,371-376。】)以及之后最大似然密度修正。“实验”地图糖尿病-修改后的地图和最大似然地图如图1所示[链接]如预期,通过糖尿病比起始图有所改进;它有一个相关系数为0.65。包括溶剂翻转在内的密度修改也产生了类似的改进相关系数模型图的0.61。极大似然修改后的映射得到了更大程度的改进相关系数以0.79的精细模型为基础绘制地图。

[图1]
图1
IF-5A(泥炭)相密度修改前后获得的电子密度截面等。, 1998【Peat,T.S.、Newman,J.、Waldo,G.S.,Berendzen,J.和Terwilliger,T.C.(1998),《结构》,第15期,第1207-1214页。】)在非对称单元。通过实际空间溶剂展平和直方图匹配或最大似然溶剂压扁。使用该程序执行实际空间密度修改值糖尿病(Cowtan&Main,1996年【Cowtan,K.D.&Main,P.(1996),《结晶学报》,D52,43-48。】),版本1.8,使用带直方图匹配的溶剂展平。启动阶段的计算方法为解决方案(Terwilliger和Berendzen,1999年【Terwilliger,T.C.和Berendzen,J.(1999),《晶体学报》,D55,849-861。】). 这个相关系数基于IF-5A改进模型计算的地图与起始地图之间的差值为0.37,对于实际空间修改后的地图为0.65,对于最大似然地图显示为0.79。

6.讨论

我们在这里展示了最大似然该方法可用于对大分子晶体结构进行密度修改,并且该方法比基于溶剂平坦化和直方图匹配的传统密度修改或我们最近的互惠空间溶剂平坦化方法(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】). 该方法如此有效的原因是,通过保持两个信息源的清晰描述并为每个信息源定义合适的概率分布,可以自动处理实验相位信息和预期电子密度分布的相对权重。

这个最大似然布里科涅和其他人已经广泛地开发了改善晶体学相的方法(例如布里科涅,1984年【布里科涅·G(Bricogne,G.)(1984),《结晶学报》A40,410-445。】, 1988【布里科涅·G(Bricogne,G.)(1988),《结晶学报》A44,517-545。】; Lunin,1993年[卢宁,V.Y.(1993),《结晶学报》,D49,90-99。]). 当前工作和我们最近关于往复空间溶剂压平的工作的重要性(Terwilliger,1999[Tewilliger,T.C.(1999),《晶体学报》,第55卷,1863-1871页。])我们已经开发出一种简单、有效和通用的方法来执行它。

虽然我们在这里仅证明了预期电子密度分布的两个来源(溶剂区和蛋白质区的概率分布),但这里开发的方法可以直接应用于各种信息来源。例如,有关特定点的预期电子密度的任何信息源单位电池可以用(22)中的形式书写[链接])可以在我们的程序中用于描述电子密度的特定值与预期一致的可能性。

特别适合应用于我们方法的预期电子密度信息来源包括非晶体学对称性以及结构碎片在单位单元格。在以下情况下非晶体学对称,电子密度在单位电池可以使用(22[链接])值为ρT型等于加权平均数在电池中所有非晶体学等效点。的价值σT型可以根据它们的方差和σ地图.如果知道碎片在单位电池,这个知识可以用来计算碎片附近每个点的电子密度分布估计值。然后,这些电子密度分布又可以如上文所述用于估算ρT型σT型在这个地区。在Wilson&Agard(1993)描述的迭代链追踪方法的扩展中,甚至可以开发一个迭代过程,其中通过互相关或相关搜索(密度修改)确定碎片位置,并进行额外搜索以进一步生成电子密度模型【Wilson,C.和Agard,D.A.(1993)《晶体学报》A49,97-104。】). 这样一个过程甚至可能被用来构建一个完整的大分子结构概率模型,使用从分子置换以大分子结构的碎片为起点。在所有这些情况下,电子密度信息的包含方式与我们在这里用于映射的溶剂和蛋白质区域的概率分布大致相同。在每种情况下,关键是对地图中某一点的电子密度概率分布的估计,其中包含一些限制该点电子密度可能值的信息。通过使用概率分布描述特定点在单位电池存在于蛋白质内、溶剂内、蛋白质结构片段的特定位置内、非晶体学相关区域内等等。这些概率分布可能重叠或不重叠。然后,对于每一类点,该类内电子密度的概率分布可以公式化为(22[链接])以及我们目前采用的方法。

这里描述的过程与前面描述的往复空间溶剂稀释过程不同(Terwilliger,1999【Terwilliger,T.C.(1999),《水晶学报》D551863-1871。】)在两个重要方面。一是计算中包含了非溶剂区域中预期的电子密度分布,并发展了一种用于合并来自各种来源的电子密度图信息的形式。第二种是使用(22)计算电子密度的概率分布[链接])溶剂区和非溶剂区以及标度参数值β以及地图的不确定性σ地图通过拟合模型和观测到的电子密度分布来估计。这种拟合过程使得整个过程在实验数据缩放方面非常稳健,否则必须非常准确,以便模型电子密度分布适用。

用于执行的软件最大似然密度修正(`解决'),完整的文档可在WWW上获得,网址为网址:http://resolve.lanl.gov.

致谢

作者感谢Joel Berendzen的有益讨论,感谢NIH和美国能源部的慷慨支持。

参考文献

第一次引用Abrahams,J.P.(1997)。《水晶学报》。D类53, 371–376. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用美国类型文化收藏(1992)。细菌和噬菌体目录第18版,第271-272页谷歌学者
第一次引用Bricogne,G.(1984)。《水晶学报》。A类40, 410–445. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Bricogne,G.(1988年)。《水晶学报》。A类44, 517–545. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Cowtan,K.D.&Main,P.(1993年)。《水晶学报》。D类49, 148–157 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Cowtan,K.D.&Main,P.(1996年)。《水晶学报》。D类52, 43–48. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Giacovazzo,C.和Siliqi,D.(1997年)。《水晶学报》。A类53, 789–798. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Goldstein,A.和Zhang,K.Y.J.(1998)。《水晶学报》。D类54, 1230–1244. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Gu,Y.、Zheng,Ch.、Zhao,Y.,Ke,H.和Fan,H.(1997)。《水晶学报》。D类53, 792–794. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Leslie,A.G.W.(1987)。CCP4研究周末会议记录第25-31页。沃灵顿:达斯伯里实验室。 谷歌学者
第一次引用Lunin,V.Y.(1993)。《水晶学报》。D类49, 90–99. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Newman,J.、Peat,T.S.、Richard,R.、Kan,L.、Swanson,P.W.、Affholter,J.A.、Holmes,I.H.、Schindler,J.F.、Unkefer,C.J.和Terwilliger,T.C.(1999)。生物化学,38, 16105–16114. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Pannu,N.S.和Read,R.J.(1996年)。《水晶学报》。A类52, 659–668. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Peat,T.S.、Newman,J.、Waldo,G.S.、Berendzen,J.和Terwilliger,T.C.(1998)。结构,15, 1207–1214. 科学网 交叉参考 谷歌学者
第一次引用Perrakis,A.、Sixma,T.K.、Wilson,K.S.和Lamzin,V.S.(1997)。《水晶学报》。D类53, 448–455. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Podjarny,A.D.、Bhat,T.N.和Zwick,M.(1987年)。每年。生物物理学评论。生物物理学。化学。 16, 351–373. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Prince,E.、Sjolin,L.和Alenljung,R.(1988年)。《水晶学报》。A类44,216–222交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Refaat,L.S.、Tate,C.和Woolfson,M.M.(1996)。《水晶学报》。D类52, 252–256. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Roberts,A.L.U.和Brünger,A.T.(1995)。《水晶学报》。D类51, 990–1002. 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Rossmann,M.G.和Arnold,E.(1993)。国际结晶学表。B卷,由U.Shmueli编辑,第230–258页。多德雷赫特/波士顿/伦敦:Kluwer学术出版社。 谷歌学者
第一次引用Terwilliger,T.C.(1999)。《水晶学报》。D类55, 1863–1871. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.和Berendzen,J.(1996)。《水晶学报》。D类51, 609–618. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.和Berendzen,J.(1999)。《水晶学报》。D类55, 849–861. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Vellieux,F.M.D.A.P.、Hunt,J.F.、Roy,S.和Read,R.J.(1995年)。J.应用。克里斯特。 28, 347–351. 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Wang,B.-C.(1985)。方法酶制剂。 115, 90–112. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Wilson,A.J.C.(1949年)。《水晶学报》。 2, 318–321. 交叉参考 IUCr日志 科学网 谷歌学者
第一次引用Wilson,C.&Agard,D.A.(1993年)。《水晶学报》。A类49, 97–104. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Xiang,S.、Carter,C.W.Jr、Bricogne,G.和Gilmore,C.J.(1993)。《水晶学报》。D类49, 193–212. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用张国勇(1993)。《水晶学报》。D类49,213–222交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Zhang,K.Y.J.,Cowtan,K.D.&Main,P.(1997)。方法酶制剂。 277, 53–64. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Zhang,K.Y.J.和Main,P.(1990)。《水晶学报》。A类46,41–46交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标生物
结晶学
国际标准编号:1399-0047