研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
编号:1399-0047

分子置换简介

十字标记_颜色_方形_文本.svg

英国剑桥CB2 0QH希尔斯路MRC分子生物学实验室b条剑桥大学血液学系,剑桥医学研究院,英国剑桥CB2 2XY Hills Road
*通信电子邮件:pre@mrc-lmb.cam.ac.uk

(收到日期:2007年3月16日; 2007年10月18日接受)

分子替换基本上是一种简单的试错法,可以在有合适的相关模型时求解晶体结构。该方法潜在的简单性常常被使搜索在计算上易于处理所需的数学技巧所掩盖。本简介概述了分子置换而不涉及技术细节。讨论了一般搜索策略,并概述了替代的Patterson和似然方法。

1.简介

术语“分子替换”(MR)通常用于描述使用已知分子模型来解决未知问题晶体结构相关分子的。MR可以解决晶体学问题相位问题通过根据先前已知的结构物提供新结构物相位的初始估计,与其他两种主要的求解相位问题, 实验方法(通过同晶或异常差异测量相位)或直接法(它使用反射三元组和四元组之间的数学关系,从小的或随机的“种子”反射集的相位引导所有反射的相位集)。随着已知结构数据库的扩展,MR的使用自然变得越来越普遍。MR目前用于解决高达70%的沉积大分子结构,其最大优点是快速、廉价和高度自动化。

原则上,MR非常简单。我们有一个模型,假设它近似于未知结构和一组测量的衍射强度。然后,我们尝试模型在未知晶体中的所有可能取向和位置,并找到预测的衍射与观测到的衍射最匹配的地方。此时的模型最适合目标结构。然后,将未知晶体反射的相位从模型计算的相位中“借用”,就像是在未知晶体中结晶的模型一样,并使用这些借用的相位和实验观测的振幅计算初始映射。因此,晶体学家依靠测量的振幅为模型重建提供信息,使其更接近目标结构。此时,MR问题变成了结晶精炼问题。

MR方法提出了许多问题,本文讨论了这些问题,但没有试图解释计算的细节。具体如下:

  • (i) 如何选择合适的模型以及如何改进模型;

  • (ii)如何对每个方向和位置进行评分,以确定模型何时最适合目标结构:不同的目标函数将对解和噪声有不同程度的区分;

  • (iii)如何寻找解决方案:探索轮换和翻译的策略;

  • (iv)加速计算的计算技巧。

MR的这四个方面基本上是独立的。MR的失败可能源于任何类别中的次优选择。很明显,较差的模型、低质量的目标函数或搜索空间的粗采样可能无法给出解决方案,但缓慢的计算也可能阻止结构求解,因为它们限制了可以执行的MR试验的数量。如果没有加速MR搜索的计算技巧,即使使用当前的计算机技术,搜索也可能需要很长时间。加速计算的计算技巧需要一些相对复杂的数学知识,而对这些技巧的描述占据了大部分文献,这可能会掩盖概念的潜在简单性。

本文并不试图对文献进行全面综述。早期的论文是由该方法的先驱之一迈克尔·罗斯曼收集的(罗斯曼,1972[Rossmann,M.G.(1972),《分子替换方法》编辑,纽约:Gordon&Breach出版社。]),最近有关于旋转函数的评论(Navaza,2001[Navaza,J.(2001),《国际晶体学表》,第F卷,M.G.Rossmann&E.Arnold编辑。多德雷赫特:克鲁沃学术出版社。])和翻译功能(Tong,2001[Tong,L.(2001),《国际晶体学表》,第F卷,M.G.Rossmann和E.Arnold编辑。多德雷赫特:克鲁沃学术出版社。]). 还有一卷CCP4以前关于MR的论文,其中包含许多有用的论文(发表于2001年10月发行结晶学报D辑),以及本期的其他论文。

1.1. 通用搜索策略

每个分子需要六个参数来定义其方向和位置:三个旋转角度和三个平移(例如。 α,β,γ;t吨x个,t吨,t吨z(z)). 如果有N个分子在非对称单元,那么总共6个N个需要参数来定义解决方案。彻底搜索可能需要很长时间。作为一个非常粗略的例子:对于0–-360°、0–180°和0–360°范围内的三个角度,间隔为2.5°,N个旋转= 1.5 × 106网格点(可以减少到约0.9×106使用Lattman角的点;Lattman,1972年【Lattman,E.E.(1972),《结晶学报》,B281065-1068。】),以及中的三个翻译单位电池100×100×100Ω,间隔1ΩN个翻译=106格点(或柴郡格点以下;参见§[链接]6.2). 然后,六维搜索涵盖N个旋转= 1.5 × 1012点。如果两个搜索可以分开,并且只对旋转搜索中找到的最佳点(或少数最佳点)执行平移搜索,那么这个数字将大大减少:那么这个示例中的测试点的数量为N个旋转+N个翻译= 2.5 × 106每个旋转解决方案的点数。由于这个原因,大多数程序以这种方式分割搜索,并从旋转搜索中选择相对较少的好的解决方案,以在翻译搜索中进行测试。六维搜索是可能的,但可能需要很长的时间:使用这些方法的程序通常避免穷尽六维搜索,而倾向于对解决方案进行遗传或进化、随机或有限抽样[例如EPMR(基辛格等。, 1999[基辛格·C·R、盖尔哈尔·D·K·和福格尔·D·B(1999),《水晶学报》D55,484-491.]),SOMoRe公司(贾姆罗格等。, 2003[Jamrog,D.C.、Zhang,Y.和Phillips,G.N.(2003),《水晶学报》,D59,304-314.]),黑桃皇后(Glykos和Kokkinidis,2001年【Glykos,N.M.和Kokkindis,M.(2001),《结晶学报》D571462-1473。】)和科莫(汤,1996年[Tong,L.(1996),《结晶学报》,A52782-784。]); 另请参阅Fujinaga&Read,1987【Fujinaga,M.&Read,R.J.(1987),《应用结晶杂志》,第20期,第517-521页。】; Chang&Lewis,1997年【Chang,G.&Lewis,M.(1997),《结晶学报》,D53,279-289。】].

拆分搜索确实会产生重大后果。在六维搜索或第二个三维搜索中,所有参数(α,β,γ;t吨x个t吨t吨z(z))在每个搜索点定义,因此正确的结构系数 如果c(c)(α,β,γ;t吨x个t吨t吨z(z))可以进行计算,然后与观测值进行比较如果光突发事件在记分函数中。然而,在第一次旋转三维搜索中,正确的如果c(c)(α,β,γ)无法使用未知翻译进行计算,因此无法与直接比较如果光突发事件有两种方法可以解决这个问题,使用不同的方法和不同的评分函数。

  • (i) “传统的”旋转搜索基于Patterson函数,在原点周围的区域中,对观察到的Patterson和模型Patterson之间的重叠进行评分,其中函数由分子内部的独立于平移的自向量控制(§[链接]3.2).

  • (二)“最大似然”方法使用统计方法互易空间对未知翻译的所有可能值进行平均(§[链接]4).

2.选择模型

选择和准备一个合适的模型可以说是MR中最关键的一步。好的模型与目标结构的r.m.s.偏差低,完整性高;也就是说,他们以高精度模拟了目标结构的高比例散射。当MR失败时,几乎总是因为模型与未知结构的匹配不够好。然而,通过给出均方根偏差和完整性的一般限制来描述“足够好”是不可能的。此外,以前未能给出一种晶体形式的目标结构的解决方案的模型可能能够为不同晶体形式的靶体求解相同的目标结构空间组或者对同一晶体形式使用更好的实验数据。几乎从定义上来说,更好的模型会增加MR搜索的信噪比,但对于不同的实验变量集,搜索中的噪声会有很大差异,尽管来自搜索模型的“信号”可能是相同的。

通常,两个结构之间的低均方根偏差由高序列一致性表示。因此,通过序列比较搜索来识别潜在的模型结构模板。然后,最好通过省略序列多样性较大的区域来改进模型结构模板,这些区域可能不同,因此只会给搜索增加噪音,并可能将不同的侧链截断为公共原子(Vagin&Teplyakov,1997)【Vagin,A.和Teplyakov,A.(1997),《应用结晶杂志》,第30期,1022-1025页。】),Cγ原子(Schwarzenbacher等。, 2004【Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004),《结晶学报》,第60期,第1229-1236页。】)或丙氨酸。自从B类原子的因子也决定了散射B类因素,例如降低B类影响蛋白质疏水核心的因素以及增加表面暴露残基中的疏水核心,也可以形成更好的模型(列别捷夫等。, 2008[Lebedev,A.A.、Vagin,A.和Murshudov,G.N.(2008),《水晶学报》,D64,33-39。]; 看见MOLREP公司文档,https://www.ccp4.ac.uk/dist/html/molrep.html). 如果有几种可能的模型,预计没有一种比另一种更好先验的,应该对每个模型重复搜索,或者将所有模型分组为一个集合(如相位器). 值得考虑的是,如果MR搜索之所以困难主要是因为模型非常差,那么尝试用该模型获得解决方案所花费的时间通常与获得解决方案后的有用性成反比(参见§[链接]9).

不幸的是,具有相似序列的蛋白质并不总是具有相似的三级结构。即使是相同序列也不一定正确,因为配体的结合甚至不同的晶体堆积环境都可能导致二级结构元素组的刚体运动(结构域之间的铰链运动)。一些蛋白质甚至可以经历重新排列二级结构元素的构象变化(例如,蛋白质的蛇蛋白家族)。尽管后一种情况极难预测,即使预计会发生这种变化,但结构中存在明显的铰链区域,通常可以发现涉及域刚体运动的潜在构象变化。为了用作模型,这些模板结构应分为单独的域和单独用作MR模型的域(允许通过MR搜索拾取域之间的方向和位置变化),或者应提前建模构象变化,例如沿计算的正常模式(Suhre&Sanejouand,2004【Suhre,K.和Sanejouand,Y.H.(2004)。核酸研究32,W610-W614。】; 德拉鲁,2008【德拉鲁·M(2008),《水晶学报》,D64,40-48。】). 前一种情况的优点是需要运行较少的搜索,但可能会失败,因为在搜索第一个域时,结构的完整性较低。后一种情况具有模型高度完整性的优点,但除非对潜在的铰链运动进行非常精细的采样,否则即使集合中的最佳模型也可能与目标结构存在相对较高的均方根偏差。

3.帕特森方法

3.1. Patterson函数的性质

这个Patterson函数是平方的傅里叶变换结构振幅|如果|2其中相位被设置为零。它相当于FT(FF公司*)=英尺(如果)⊗英尺(如果*),其中FT()表示傅里叶变换,如果*是的复共轭如果⊗表示卷积,结构卷积(如果)]结构通过原点倒置(如果*)]. 这对应于原子间向量(或严格意义上的点间向量)的映射,向量的权重与原子散射成正比。

图案非常有用,因为它们可以直接从观测数据中计算出来,因为不需要相位信息。也可以通过忽略计算的结构因素。从观测数据导出的Patterson是晶体内容的矢量图,因此不仅包含分子内自矢量,还包含由晶体和非晶体对称性。如果以相同的晶体形式生成,模型结构的Patterson也会同样复杂。然而,模型Patterson可以以任何晶体形式计算。对于MR而言,将模型结构置于P(P)1个大的水晶单位电池这样,分子之间就有很大的空间(得到的‘晶体’在物理上是不合理的)。这个单位电池需要足够大,以使相应的Patterson由围绕原点聚集的一组向量组成,这些向量与Patterson晶格中围绕相邻原点的向量簇之间存在间隙。模型的分子内自向量,只有自向量,然后位于原点周围的球体内。

水晶帕特森比大模型中的帕特森模型更复杂P(P)1单位单元格。取决于空间组,它包含以下内容:

  • (i) 通过晶体对称旋转旋转的多组自矢量;

  • (ii)来自相邻起源的自向量集之间的重叠;

  • (iii)依赖未知翻译的不同分子之间的交叉向量。

与Patterson模型不同的是,在原点周围切割一个球体并不能得到一个简单的分子Patterson,但如果球体足够小,那么大多数封闭的向量将是分子内自向量,因为分子之间的向量通常更长。当平移未知时,我们可以使用此属性在旋转搜索中选择大部分自向量。

自向量与交叉向量的分离程度如何?显然,这取决于晶体的结构和填充。图1[链接]在几个示例中,显示了自矢量与交叉矢量的比率如何随矢量长度的变化而变化。较大的截止半径适用于较大的结构。图1[链接]()显示了一个小蛋白(119个残基),其中50%的交叉载体的交叉点为22º:合适的积分半径可能为~10º-15º。对于图1中的大型综合体[链接](b条)(1730个残基)交叉点为47º,可以使用25–30º的积分半径。大分子的“内部”比小分子多,这就是为什么大分子比小分子更容易用MR求解的原因。

[图1]
图1
对于一些示例结构,自向量和交叉向量之间的间隔是向量长度(Patterson原点的半径)的函数。在每种情况下,实线是自矢量数,虚线是交叉矢量数,而虚线是自/交叉矢量比。()一种小蛋白,119个残基,大小约为23×23×50Å,空间组 P(P)212121,PDB代码1gyu公司(b条)一种较大的异四聚体,1730个残基,~80×80×100Ω,空间组 P(P)121,PDB代码1克5(c(c))细长单体,217个残基,~25×25×110Ω,空间组 P(P)121,PDB代码1乌鲁(d日)当量二聚体,434个残基,~25×25×145Ω,计算单位为空间组 P(P)1.

加长分子和低聚物存在特殊问题。对于细长模型,球形积分掩模显然不理想。如果模型是紧齐聚物的一部分,则单体之间存在许多短交叉矢量。图1[链接](c(c))显示了细长单体的矢量分离,该单体是图1所示二聚体的一部分[链接](d日):在这种情况下,二聚体模型可能是更好的搜索对象,因为单体的许多短交叉向量成为二聚体中的自向量。另一种方法是,你已经知道单体之间的关系,所以你也可以使用这些信息。

3.2. Patterson旋转功能

Patterson具有旋转模型使分子间矢量旋转相同角度的特性。Patterson旋转功能(例如,参见Navaza,2001[Navaza,J.(2001),《国际晶体学表》,第F卷,M.G.Rossmann&E.Arnold编辑。多德雷赫特:克鲁沃学术出版社。]),我们旋转模型的以半径为单位的Patterson,并对其与观测数据中未旋转的以半径表示的Patter森的匹配程度进行评分。限制半径可以避免不知道平移的问题。重要的是,将模型放置在足够大的框中,使得所有分子间矢量都在搜索体积之外;盒子大小必须至少是最大分子半径加上搜索球半径。

晶体对称性使观察到的Patterson更加复杂:如果存在N个sym(对称)旋转(基本)对称操作符则有N个sym(对称)围绕原点的分子内向量集会抹去信号,因此对于高对称空间群,信噪比更差(也因为有更多的交叉向量集导致了噪声)。在全旋转搜索中,模型Patterson将与真实结构正确重叠N个sym(对称)时间,所以会有N个sym(对称)相关解决方案。或者,至少在某些情况下晶体对称性可用于减少所需的搜索范围。

匹配可以作为Patterson空间中的各种函数进行度量,例如乘积函数或相关系数,或相当于中的Patterson产品功能倒数空间。Patterson产品功能RF是

[{\rm RF}({\bf R})=\textstyle\int\limits_{R_{\min}}^{R_}\max}}P_{\rm-观测}

也就是观察到的Patterson晶体的产物P(P)观察(u个)和旋转模型PattersonP(P)模型(R(右)u个)集成在所有点上u个在Patterson空间的半径范围内第页最大以原点为中心,将原点峰值排除在半径之外第页最小值.任何旋转R(右),一个点的贡献u个只有当晶体Patterson和旋转模型Patterson的峰值一致时,才是大的。该函数可以在Patterson空间中进行评估(Huber,1965【Huber,R.(1965),《水晶学报》,第19期,第353-356页。】; Brünger,1990年【Brünger,A.T.(1990),《结晶学报》,A46,46-57。】)项目中实施的X-脉冲中枢神经系统)在任何体积上,不一定是球体(Vellieux,1995【Vellieux,F.M.D.A.P.(1995),《应用结晶杂志》,第28期,第834-836页。】),或通过傅里叶变换倒易空间。通过巧妙的因式分解,“快速旋转函数”(Crowther,1972【Crowther,R.A.(1972),《分子置换法》,M.G.Rossmann编辑,第173-178页。纽约:Gordon&Breach。]; 纳瓦扎,1994年[Navaza,J.(1994),《结晶学报》,A50,157-163。]),但仅适用于球体。

3.3. Patterson翻译功能

如果晶体有任何旋转对称算符(不属于空间组 P(P)1) 那么Patterson也包含了原子之间的“交叉向量”,这些原子属于不同的对称分子。如果我们相对对称算符平移分子(在垂直于轴的平面上),则与对称相关的分子会朝不同的方向移动,交叉矢量也会发生变化。因此,交叉向量对平移(相对于对称轴)敏感,而自向量则不敏感。如果其中一个轴没有与之垂直的对称轴(例如。单斜轴P(P)21),则沿该轴的平移不会改变Patterson:然而,由于原点是根据对称轴定义的,在这种情况下,平移是任意的:没有要定义的平移!

如果我们从旋转搜索中知道(或希望测试)模型的方向,我们可以计算每个可能的移位向量的模型结构因子t吨。然后通过Patterson积(相关性)搜索可以找到与观测数据的最佳匹配(Fujinaga&Read,1987)【Fujinaga,M.&Read,R.J.(1987),《应用结晶杂志》,第20期,第517-521页。】). 翻译搜索与晶体对称性操作符:无对称(空间组P(P)1) 如果模型被翻译,Patterson将保持不变,因此我们可以将模型放在单元格中任何我们喜欢的地方,并且不需要搜索。当模型在垂直于旋转轴的平面上平移时,交叉矢量会发生变化。分子内的自矢量保持不变,可以从观测到的和计算出的Pattersons中减去,以提高信噪比。翻译的Patterson翻译函数t吨定义为观察到的Pattersons模型的产品,集成在整个单元中,

[T2({\bf t})=\textstyle\int\limits_V\left[P_{\rm观察到的}({\ff u})-\textstyle\sum\limits{j=1}^{N_{rm sym}}P_{jj}(}\ff u{)\right]\left[P_{\orm模型}jj}({\bfu})\right]\,{\rm d}{\bf u},\eqno(2)]

哪里P(P)观察(u个)那是帕特森的水晶吗u个,P(P)模型(u个t吨)模型Patterson被搜索向量移位了吗t吨P(P)日本项是计算的自向量。至于旋转函数,这个函数可以被评估为一个结合了所有对称算子的三维搜索,无论是在Patterson空间还是在互易空间通过快速傅里叶变换(原田等。, 1981【Harada,Y.,Lifchitz,A.,Berthou,J.&Jolles,P.(1981),《结晶学报》A37,398-406。】; 纳瓦扎和维诺斯洛娃,1995年[Navaza,J.和Vernoslova,E.(1995),《结晶学报》A51,445-449。]; 童,2001[Tong,L.(2001),《国际晶体学表》,F卷,M.G.Rossmann&E.Arnold编辑。多德雷赫特:Kluwer学术出版社。]).

4.概率方法

“最大似然”方法提出了一个问题:对于模型的任何假设方向和位置(R(右)t吨),获得我们观察到的结构振幅的概率是多少?然后我们可以选择最可能的解决方案(Bricogne,1992【Bricogne,G.(1992)。CCP4研究周末会议记录。分子替换,W.Wolf,E.J.Dodson&S.Gover编辑,第62-75页。沃灵顿:达斯伯里实验室。]; Read,2001年[Read,R.J.(2001),《水晶学报》,D571373-1382。]),这是一种直观明显的方法(McCoy,2004【McCoy,A.J.(2004),《晶体学报》,D60,2169-2183。】).

Patterson函数相对容易可视化,因为它们具有物理意义(矢量图);更难想象发生了什么倒易空间。用于最大似然通过可视化中的概率函数,可以更好地理解旋转和平移函数倒易空间。我们可以将倒数空间结构因子的概率函数近似为高斯函数(“钟形”曲线)。高斯概率源于基本的“中心极限”定理(即平均值的分布趋向于高斯,即使计算平均值所依据的分布是非高斯的:这在历史上被称为“误差定律”)和互惠空间中的“随机游动”。

虽然我们只考虑了模型相对于目标结构的旋转和平移的解决方案非对称单元,要获得此解决方案单位电池必须考虑。在Patterson函数中,这意味着要考虑交叉向量。在似然函数中,这意味着要考虑单位电池以及它们的总和是如何构成总数的结构系数对于每个反射小时,

[\eqalignno{{\bf F}({\bf-h})&=\textstyle\sum\limits_j\sum\limits_i F_i\exp[2\pi i{\bf-h}\cdot({\bf C}_j{\bv x}_i+{\bfd}_j)]\cr&=\text style\sum\simits_j\exp bf-h}\cdot{\bf-C}_j{\bf x}_i)\cr&=\textstyle\sum\limits_j\exp({\bfh},j),&(3)}]

哪里C类j个d日j个是的旋转和平移部分j个第个晶体对称算符,x个j个是分数坐标和如果(小时,j个)是对应于j个第个对称算子。模型的方向会引起结构因子贡献的幅度;该位置导致模型贡献的阶段。

4.1. 似然转换函数

对于模型的给定方向(可能正确,也可能不正确),模型在整个平移唯一体积的网格点处按顺序放置单位单元格。在每个搜索位置,构成总数的所有结构因素的振幅和相位结构系数总和已知,因此总和结构系数可以计算。这是一个关键点:尽管模型的正确位置未知,但对于模型位置的每个假设,平移(以及因此的相位)都是已知的。对于每个反射,每个局部结构总和中的因子将有一个由模型中的误差引起的小误差,它可以被建模为二维高斯(根据中心极限定理)。总误差也是方差的二维高斯分布(同样根据中心极限定理)σΔ2(图2[链接])以…为中心D类如果c(c),其中D类(0 ≤D类≤1)由原子误差的相关分量给出(参见Read,1990[Read,R.J.(1990),《水晶学报》A46,900-912。]和McCoy,2004年【McCoy,A.J.(2004),《晶体学报》,D60,2169-2183。】更完整的解释D类σΔ). 这就是观察到特定情况的概率如果o个,即P(如果o个|如果c(c)).

[图2]
图2
复杂平面中结构因子的误差分布。()完整的结构因子因为翻译搜索源于每个人贡献的总和非对称单元(在本例中为6),导致二维高斯概率分布。(b条)在旋转搜索中,五个贡献(彩色箭头)可以被视为从第六个贡献开始的随机漫步(如果大的),导致更大的二维高斯(显示了三个随机行走示例)。

如果观察到的结构因子是分阶段的,我们就不需要任何进一步的操作来计算我们想要的概率(尽管我们也不会有阶段问题!)。观察到的阶段结构系数 如果o个将位于复杂平面中如果o个给定计算的结构系数 P(P)(如果o个|如果c(c)). 然而,我们不知道观测到的相位结构系数因此,计算了相位的概率函数结构因子必须转换为未分阶段计算的结构因素。概率分布中未知变量(称为干扰变量)的损失可以通过“积分”变量来实现。去除有害相位变量会导致所谓的Rice分布P(P)(|如果o个|||如果c(c)|)(西姆,1959年【Sim,G.A.(1959),《水晶学报》,第12期,第813-815页。】; 里德,1990年[Read,R.J.(1990),《水晶学报》A46,900-912。]). 这个Rice函数给出了每个假定翻译的概率,从中选择最可能的翻译作为翻译问题的解决方案。

4.2. 似然旋转函数

这个最大似然旋转函数在概念上类似于最大似然平移功能(或至少比基于Patterson的旋转和平移功能更相似)。对于最大似然旋转函数,模型通过唯一的角度空间在角网格上顺序旋转,并选择预测数据概率最高的方向。同样,尽管模型的正确方向未知,但对于每个假设,方向都是已知的。在每个搜索方向上,只有构成总结构因子和的每个对称相关分量的结构因子的振幅是已知的。每个成分的相对相位未知,因此总相位结构系数无法计算。然而,对于计算出的结构因素。虽然我们无法总结结构因子组件,但我们知道它们是大还是小。许多小的结构因素只能导致结构系数,而较大的结构因素可能导致更大的总数结构因素。这在统计学上表示为组件的随机游走,这再次导致二维高斯分布。这种二维高斯分布比平移函数的二维高斯概率分布宽得多(方差大得多),平移函数的概率分布仅由原子位置的误差引起(事实上,这种微小的误差贡献也被添加到旋转函数的随机走时误差中)。同样,这个概率函数描述了P(P)(如果o个|如果c(c))并且必须将滋扰阶段整合出去,为P(P)(|如果o个|||如果c(c)|). 通过任意固定最大分量的相位,可以导出稍好的概率函数结构系数,导致与原点的二维高斯偏移(图2[链接]b条; 有关完整解释,请参阅Read,2001[Read,R.J.(2001),《水晶学报》,D571373-1382。]; 麦考伊,2004年【McCoy,A.J.(2004),《晶体学报》,D60,2169-2183。】).

请注意,对称操作符的数量越大,随机行走带来的不确定性越大,这就是为什么在较高对称性的空间组中旋转搜索不太清晰的原因。另一方面,使用更多的对称操作符,随机游走可以更好地近似为高斯(Read,2001[Read,R.J.(2001),《水晶学报》,D571373-1382。]).

4.3. 组合概率

将描述每个反射的概率的Rice函数组合起来,得出总体概率函数:最佳解决方案不会为每个反射的最大似然评分,但会在整个数据集上给出最大似然。如果假设反射是独立的,则总可能性是反射可能性的乘积。这是一个近似值,因为存在溶剂和非晶体对称性意味着反射不是独立的。反射之间的相关性对溶剂压平非常重要,非晶体对称性平均值和直接方法,但它们不可能使问题复杂化最大似然MR(和精细化,最大似然翻译函数的可能性与ML相同精炼目标)和相关性被必然忽略。幸运的是,在MR环境中,与其他较大的误差相比,近似引入的误差较小。每个反射的概率可以组合成一个总分,作为旋转或平移、总概率的函数P(P)(R(右),t吨)=Π小时P(P)[|如果o个(小时)|||如果c(c)(小时,R(右),t吨)|]或者,更有用的是,日志概率日志[P(P)(R(右),t吨)] =[\textstyle\sum_{\bf h}\log\{P[|F_{\rm o}({\bf-h})|][|\,|F_{\rm c}({\bf h},{\bf-R},})|]\}],避免了在计算机中不方便的数值极端。程序相位器(麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】)使用相对于预期“随机”分数的对数似然增益和`Z轴score’,从旋转或平移的随机样本中获取的r.m.s.值的倍数。

5.Patterson法和似然法的比较

这个最大似然方法显式地建模错误,都是实验性的(σ如果)和模型的(r.m.s.坐标误差),而Patterson方法假设没有错误,这显然不是真的。这是似然法更稳健的原因之一,并且通常在困难情况下给出更清晰的解决方案(Read,2001[Read,R.J.(2001),《水晶学报》,D571373-1382。]).

这两种方法使用不同的方法来处理旋转搜索中的未知平移问题。Patterson方法将评分限制在原点周围的一个体积(球体)上,这在很大程度上选择了分子内向量,而似然法通过随机游走来整合未知平移。可以看出,帕特森旋转函数是全旋转似然函数的数学近似,本质上是似然旋转函数的泰勒级数展开中的第一项(Storoni等。, 2004【Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004),《结晶学报》,D60,432-438。】). 似然旋转函数方法的显著优点是,已经放置的结构碎片可以很容易地用于增强信号,以便随后在非对称单元中放置其他组件。

除了模型的选择外,这两种方法都有一些控制参数由用户设置。所用数据的分辨率是一个变量:较高的分辨率可以更好地区分正确模型的正确和错误解决方案,但对不适当模型的容忍度较低。由于高分辨率数据会根据误差估计值自动向下加权,因此似然方法对分辨率截止值的敏感性应该较低。通常,2.5–4º是一个很好的尝试范围。其他用户变量包括Patterson旋转搜索中的积分半径和似然法中模型的误差估计。虽然成功的MR解决方案不需要高分辨率数据,也不需要异常准确的数据,但会丢失所有强的低分辨率反射,例如。探测器过载,至少对Patterson方法,因为这些反射支配Patterson函数。

6.搜索策略和描述

为了MR的目的,分子的坐标被描述为正交坐标系中以埃为单位的一系列向量,我们需要描述将坐标移动到新坐标系中的旋转和平移;对于每个原子,x个′ =接收+t吨,其中R(右)是旋转矩阵t吨是平移向量。翻译通常很简单,但通常将旋转描述为三个角度比描述为旋转矩阵更方便。不幸的是,有许多不同的方法可以做到这一点:例如Evans(2001【Evans,P.R.(2001),《水晶学报》,D571355-1359。】)(另见Navaza,2001年[Navaza,J.(2001),《国际晶体学表》,第F卷,M.G.Rossmann&E.Arnold编辑。多德雷赫特:克鲁沃学术出版社。]),但简单地说,三维旋转可以表示为(i)极角,例如。旋转一个角度κ围绕由其他两个角定义方向的轴(例如。 ω从杆位和φ围绕赤道,有点像纬度和经度),(ii)作为欧拉角,作为围绕主轴的三个连续旋转,例如。旋转γ围绕z(z),由β围绕然后通过α围绕z(z)[使用的公约相位器(麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】),AMoRe公司(纳瓦扎,1994年[Navaza,J.(1994),《结晶学报》,A50,157-163。])和MOLREP公司(Vagin&Teplyakov,1997年【Vagin,A.和Teplyakov,A.(1997),《应用结晶杂志》,第30期,1022-1025页。】)], R(右)=R(右)z(z)(α)R(右)(β)R(右)z(z)(γ)或(iii)作为Lattman角,用Euler角定义为θ+(=α+γ),βθ(=αγ)(拉特曼,1972年【Lattman,E.E.(1972),《结晶学报》,B281065-1068。】). 注意,在任何角度表示中都有模糊点,因此可能有多种方法将旋转矩阵分解为角度。例如,在极角中,如果κ= 0,没有旋转,不围绕哪个轴旋转并不重要。根据欧拉角的典型定义,如果β=外旋转0或180°αγ成为巧合,所以只有α+γαγ定义。

使用不同角度约定之间的主要区别在于旋转的可视化程度以及是否可以实现空间的均匀采样。与九元素旋转矩阵相比,三个欧拉角的存储和打印更简单。以极角表示的旋转是最容易可视化的变换,尤其是在绘制结果时κ部分。Lattman角是局部正交的,因此提供了比原始Euler角更好的搜索空间,以生成伪六边形封闭角网格。由于一些作者倾向于考虑旋转轴系统,而不是以相反的方向旋转对象,因此也可能会出现旋转方面的困惑。在搜索中使用之前移动模型也是很常见的,这样质心就在原点,惯性矩就沿着轴。然后,转换可以应用于此重定向模型,而不是应用于原始模型坐标。程序,如相位器对用户隐藏这些内部阴谋,但AMoRe公司例如,没有。

6.1. 旋转搜索和对称性

将为中目标结构的每个方向提供旋转问题的解决方案单位单元格。然而,大多数搜索程序只搜索一个独特的旋转空间体积。的表达式晶体对称性在欧拉角度中是相当复杂的,尽管根据欧拉角度对搜索量的限制相对简单。如果有多个组件非对称单元为了进行搜索(使用相同或不同的搜索模型),这个预定义的独特旋转搜索体积不一定会得到封闭分子的解。请注意晶体对称性运算符处理的是分数坐标,而不是正交坐标。

6.2. 翻译搜索量

在任何含有对称元素的晶体中,都有多种定义细胞起源的方法。例如,在图3中的二维示例中[链接]细胞起源可以放在任何一个二元体上,有四个不同的选项,每翻译半个单位电池在任何一个方向。将原点移动半个单元格会改变未知相位,但不会改变振幅,因此在平移搜索中无法区分备选方案。翻译搜索与对称元素,因此将给出重复每个半个单元格的解决方案,我们只需要搜索这个二维细胞的四分之一:这就是所谓的“柴郡细胞”(例如,参见Tong,2001[Tong,L.(2001),《国际晶体学表》,第F卷,M.G.Rossmann和E.Arnold编辑。多德雷赫特:克鲁沃学术出版社。]). 定义柴郡单元过去是留给用户的一个智力挑战,但现代程序已将体积制成表格。

[图3]
图3
平面组中的替代原点第页2.细胞原点可以放在任何二元轴上,有四种可能:两种显示为蓝色和黄色。翻译搜索只需搜索单元格的四分之一,即“柴郡”单元格,显示为一条细黑线。

如果每个分子不止一个非对称单元,放置第一个分子定义了原点,因此搜索其他分子需要覆盖整个(原始)单元单元。

6.3. 空间组

不同于按阶段划分的结构同晶置换方法,不可能获得错误的结构对映体因为正确的手是隐含在搜索模型中的。然而,象称为系统消光并不总是平移对称算子的可靠指标,它们无法区分对映空间群。旋转搜索仅取决于晶体点编组,但为了区分不同的对映体群,在翻译搜索中经常需要测试多个空间群(例如P41P(P)4)或具有不同翻译的组(例如。表单的所有八个可能的空间组P(P)2x个2x个2x个在正交系统中)。这只需要对不对称单元中的第一个分子执行。

7.计算技巧

即使在现代计算机上,头脑简单的暴力搜索也非常缓慢,因此人们使用了各种技巧来加快计算速度。阅读有关分子置换产生于这些技巧及其数学细节。

7.1. 拆分为三维搜索

上文讨论了将搜索拆分为两个三维搜索,如果在翻译搜索中使用了足够的旋转解决方案,则似乎不会遗漏在完整六维搜索中可以找到的解决方案:这相当于有限的六维搜索。

7.2. 保理化

许多评分功能(例如。Patterson乘积函数)可以分解为仅依赖于分子的部分(分子变换)和依赖于搜索变量的部分(旋转或平移),从而可以使用快速傅里叶变换来计算分数。如果最佳得分函数不能因式分解,则可以计算一个近似值,该近似值可以因式分解并快速计算,以便找到候选解,然后使用完整的慢函数重新搜索这些解:例如,在相位器,其中似然目标不能分解(Storoni等。, 2004【Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004),《结晶学报》,D60,432-438。】).

在分解结构系数翻译搜索所需;为旋转搜索分解表达式要复杂得多。如果我们通过搜索向量移动分子t吨,结构因子表达式变为

[\eqaligno{{\bf F}({\bfh},{\bf-t})&=\textstyle\sum\limits_j\sum\limits_i F_i\exp\{2\pi i{\bv h}\cdot[{\bf C}_j({\bf x}_i+{\bft})+{\ bf d}_j]\}\cr&=\text style\sum\simits_j\exp[2\pi i}\bf h}\cdot({\baf C}j{\bft}+{\bfd}_j)]\sum\limits_i F_i\exp[2\pii{\bfh}\cdot{\bf C}_j{\bf-x}_i]\cr&=\textstyle\sum\limits_j\exp[2\pi i{\bf h}\cdot({\bf-C}_j{\bft}+{\bfd}_j)]{\bfF}({\bf h},j)(4)}]

分子转换项如果(小时,j个)对于每个对称操作符j个因此,可以对所有平移进行一次计算,并对所有反射和所有对称操作符进行求和。

7.3. 网格大小

搜索的网格大小需要足够精细,以避免遗漏解决方案,但潜在的解决方案可以通过刚体进行优化精细化,从而避免了对非常精细的网格的需要。

8.搜索树策略

如果在非对称单元,然后必须一次找到一个分子,这将导致对所有可能性进行复杂的树搜索。作为示例,以下是中搜索策略的大致轮廓相位器(其他自动化程序遵循类似的方案)。

  • (i) 旋转搜索第一个分子:这应该可以获取所有分子的方向,以及可能的错误解。选择候选解决方案(例如。默认情况下,相位器选择搜索平均值和最大得分之间的差的75%以上的得分)。

  • (ii)对于每个选定的解决方案,可能在多个空间组中搜索翻译(通常已知晶点组,但空间组不明确)。选择最佳空间组并选择要保留的解决方案。

  • (iii)对于每个翻译溶液,检查晶体包装并拒绝重叠的溶液。

  • (iv)对所有解决方案、紧密结合的集群解决方案进行刚体细化,并删除重复项。

  • (v) 对于步骤(iv)中的每个解,将其视为分子1的固定解(这定义了原点位置不明确的空间群的原点),并开始搜索下一个(第二个)分子。从步骤(i)开始重复,直到找到所有分子。

  • (vi)对整体解决方案进行排名。

在这种搜索中,很难在早期修剪“错误”解决方案的效率和错误地拒绝真实解决方案之间取得平衡。其他搜索策略可能更适合于困难的MR问题(McCoy,2007【McCoy,A.J.(2007),《晶体学报》,D63,32-41。】).

这种搜索策略利用了分子已经放置在非对称单元可用于在搜索后续分子时增强信号。Patterson搜索方法不容易使用这些信息,因此必须单独对每个搜索模型执行旋转搜索。

9.你怎么知道这个解决方案是正确的?

这个R(右)即使模型放置正确,初始解的因子也可能非常高(55%)。如果MR过程给出了一个在得分上明显优于次佳解决方案的解决方案,那么它很可能是正确的。正确且有用的解决方案的主要测试是,解决方案模型中分阶段的地图应显示模型中不存在的新的合理信息。这可能是模型和未知结构中不同的侧链或环。如果有疑问,您可以故意忽略模型的部分,以查看这些部分是否再次出现在生成的地图中。复合省略图是使用这一原则进行的系统和详尽的检查。从地图计算中连续删除模型块,并将所删除块体积的结果密度拼接在一起,使密度中没有一个“看到”模型所涵盖的部分(Bhat,1988【Bhat,T.N.(1988),《应用结晶杂志》,第21期,第279-281页。】; Vellieux&Dijkstra,1997年【Vellieux,F.M.D.和Dijkstra,B.W.(1997),《应用结晶学杂志》,第30期,第396-399页。】; 霍德尔等。, 1992【Hodel,A.,Kim,S.-H.&Brünger,A.T.(1992),《结晶学报》A48,851-858。】). prime and switch方法使用更复杂的密度修改方法来消除模型偏差(Terwilliger,2004【Terwilliger,T.C.(2004),《水晶学报》,D60,2144-2149。】). 在高分辨率下,自动建模过程,如ARP协议/弯曲是确定解决方案和减少模型偏差的好方法。在低分辨率(比方说低于3º)时,您应该非常谨慎并怀疑结果。非常差的模型可能无法在地图中解释任何新的东西,并且尽管解决方案可能是正确的,精炼未能消除严重的模型偏差。MR最重要的诀窍之一是知道何时放弃并使用实验相位!

致谢

我们要感谢Randy Read、Eleanor Dodson和Andrew Leslie的有益讨论。

工具书类

第一次引用Bhat,T.N.(1988)。J.应用。克里斯特。 21, 279–281. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Bricogne,G.(1992年)。CCP4研究周末会议记录。分子替换由W.Wolf、E.J.Dodson&S.Gover编辑,第62-75页。沃灵顿:达斯伯里实验室。 谷歌学者
第一次引用Brünger,A.T.(1990)。《水晶学报》。A类46, 46–57. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Chang,G.和Lewis,M.(1997)。《水晶学报》。D类53, 279–289. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Crowther,R.A.(1972年)。分子置换法由M.G.Rossmann编辑,第173–178页。纽约:Gordon&Breach。 谷歌学者
第一次引用Delarue,M.(2008)。《水晶学报》。D类64, 40–48. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Evans,P.R.(2001)。《水晶学报》。D类57, 1355–1359. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Fujinaga,M.和Read,R.J.(1987年)。J.应用。克里斯特。 20, 517–521. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Glykos,N.M.和Kokkindis,M.(2001年)。《水晶学报》。D类57,1462年-1473年交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Harada,Y.、Lifchitz,A.、Berthou,J.和Jolles,P.(1981年)。《水晶学报》。A类37, 398–406. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Hodel,A.、Kim,S.-H.和Brünger,A.T.(1992年)。《水晶学报》。A类48, 851–858. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Huber,R.(1965年)。《水晶学报》。 19, 353–356. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Jamrog,D.C.、Zhang,Y.和Phillips,G.N.(2003)。《水晶学报》。D类59, 304–314. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kissinger,C.R.、Gehlhaar,D.K.和Fogel,D.B.(1999年)。《水晶学报》。D类55, 484–491. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Lattman,E.E.(1972年)。《水晶学报》。B类28, 1065–1068. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Lebedev,A.A.、Vagin,A.和Murshudov,G.N.(2008)。《水晶学报》。D类64,33–39科学网 交叉参考 IUCr日志 谷歌学者
第一次引用McCoy,A.J.(2004)。《水晶学报》。D类60, 2169–2183. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.(2007)。《水晶学报》。D类63, 32–41. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Navaza,J.(1994)。《水晶学报》。A类50, 157–163. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Navaza,J.(2001)。国际结晶学表,卷。如果由M.G.Rossmann和E.Arnold编辑。多德雷赫特:Kluwer学术出版社。 谷歌学者
第一次引用Navaza,J.和Vernoslova,E.(1995年)。《水晶学报》。A类51, 445–449. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Read,R.J.(1990)。《水晶学报》。A类46, 900–912. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Read,R.J.(2001)。《水晶学报》。D类57, 1373–1382. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Rossmann,M.G.(1972年)。编辑。分子置换法。纽约:Gordon&Breach。 谷歌学者
第一次引用Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004)。《水晶学报》。D类60, 1229–1236. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Sim,G.A.(1959年)。《水晶学报》。 12, 813–815. 交叉参考 IUCr日志 科学网 谷歌学者
第一次引用Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004)。《水晶学报》。D类60, 432–438. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Suhre,K.和Sanejouand,Y.H.(2004)。核酸研究。 32,W610–W614科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Terwilliger,T.C.(2004)。《水晶学报》。D类60, 2144–2149. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Tong,L.(1996)。《水晶学报》。A类52, 782–784. 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Tong,L.(2001)。国际结晶学表第F卷,M.G.Rossmann和E.Arnold编辑。多德雷赫特:Kluwer学术出版社。 谷歌学者
第一次引用Vagin,A.和Teplyakov,A.(1997)。J.应用。克里斯特。 30, 1022–1025. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Vellieux,F.M.D.A.P.(1995年)。J.应用。克里斯特。 28, 834–836. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Vellieux,F.M.D.和Dijkstra,B.W.(1997)。J.应用。克里斯特。 30, 396–399. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者

©国际结晶学联合会。如果引用了原作者和来源,则无需事先许可即可复制本文的简短引文、表格和数字。有关详细信息,请单击在这里.

期刊徽标生物
结晶学
编号:1399-0047