1.简介
术语“分子替换”(MR)通常用于描述使用已知分子模型来解决未知问题晶体结构相关分子的。MR可以解决晶体学问题相位问题通过根据先前已知的结构物提供新结构物相位的初始估计,与其他两种主要的求解相位问题, 即实验方法(通过同晶或异常差异测量相位)或直接法(它使用反射三元组和四元组之间的数学关系,从小的或随机的“种子”反射集的相位引导所有反射的相位集)。随着已知结构数据库的扩展,MR的使用自然变得越来越普遍。MR目前用于解决高达70%的沉积大分子结构,其最大优点是快速、廉价和高度自动化。
原则上,MR非常简单。我们有一个模型,假设它近似于未知结构和一组测量的衍射强度。然后,我们尝试模型在未知晶体中的所有可能取向和位置,并找到预测的衍射与观测到的衍射最匹配的地方。此时的模型最适合目标结构。然后,将未知晶体反射的相位从模型计算的相位中“借用”,就像是在未知晶体中结晶的模型一样,并使用这些借用的相位和实验观测的振幅计算初始映射。因此,晶体学家依靠测量的振幅为模型重建提供信息,使其更接近目标结构。此时,MR问题变成了结晶精炼问题。
MR方法提出了许多问题,本文讨论了这些问题,但没有试图解释计算的细节。具体如下:
MR的这四个方面基本上是独立的。MR的失败可能源于任何类别中的次优选择。很明显,较差的模型、低质量的目标函数或搜索空间的粗采样可能无法给出解决方案,但缓慢的计算也可能阻止结构求解,因为它们限制了可以执行的MR试验的数量。如果没有加速MR搜索的计算技巧,即使使用当前的计算机技术,搜索也可能需要很长时间。加速计算的计算技巧需要一些相对复杂的数学知识,而对这些技巧的描述占据了大部分文献,这可能会掩盖概念的潜在简单性。本文并不试图对文献进行全面综述。早期的论文是由该方法的先驱之一迈克尔·罗斯曼收集的(罗斯曼,1972),最近有关于旋转函数的评论(Navaza,2001)和翻译功能(Tong,2001). 还有一卷CCP4以前关于MR的论文,其中包含许多有用的论文(发表于2001年10月发行结晶学报D辑),以及本期的其他论文。
1.1. 通用搜索策略
每个分子需要六个参数来定义其方向和位置:三个旋转角度和三个平移(例如。 α,β,γ;t吨x个,t吨年,t吨z(z)). 如果有N个分子在非对称单元,那么总共6个N个需要参数来定义解决方案。彻底搜索可能需要很长时间。作为一个非常粗略的例子:对于0–-360°、0–180°和0–360°范围内的三个角度,间隔为2.5°,N个旋转= 1.5 × 106网格点(可以减少到约0.9×106使用Lattman角的点;Lattman,1972年),以及中的三个翻译单位电池100×100×100Ω,间隔1ΩN个翻译=106格点(或柴郡格点以下;参见§6.2). 然后,六维搜索涵盖N个旋转= 1.5 × 1012点。如果两个搜索可以分开,并且只对旋转搜索中找到的最佳点(或少数最佳点)执行平移搜索,那么这个数字将大大减少:那么这个示例中的测试点的数量为N个旋转+N个翻译= 2.5 × 106每个旋转解决方案的点数。由于这个原因,大多数程序以这种方式分割搜索,并从旋转搜索中选择相对较少的好的解决方案,以在翻译搜索中进行测试。六维搜索是可能的,但可能需要很长的时间:使用这些方法的程序通常避免穷尽六维搜索,而倾向于对解决方案进行遗传或进化、随机或有限抽样[例如EPMR(基辛格等。, 1999),SOMoRe公司(贾姆罗格等。, 2003),黑桃皇后(Glykos和Kokkinidis,2001年)和科莫(汤,1996年); 另请参阅Fujinaga&Read,1987; Chang&Lewis,1997年].
拆分搜索确实会产生重大后果。在六维搜索或第二个三维搜索中,所有参数(α,β,γ;t吨x个, t吨年, t吨z(z))在每个搜索点定义,因此正确的结构系数 如果c(c)(α,β,γ;t吨x个, t吨年, t吨z(z))可以进行计算,然后与观测值进行比较如果光突发事件在记分函数中。然而,在第一次旋转三维搜索中,正确的如果c(c)(α,β,γ)无法使用未知翻译进行计算,因此无法与直接比较如果光突发事件有两种方法可以解决这个问题,使用不同的方法和不同的评分函数。
3.帕特森方法
3.1. Patterson函数的性质
这个Patterson函数是平方的傅里叶变换结构振幅|如果|2其中相位被设置为零。它相当于FT(FF公司*)=英尺(如果)⊗英尺(如果*),其中FT()表示傅里叶变换,如果*是的复共轭如果⊗表示卷积,即结构卷积(如果)]结构通过原点倒置(如果*)]. 这对应于原子间向量(或严格意义上的点间向量)的映射,向量的权重与原子散射成正比。
图案非常有用,因为它们可以直接从观测数据中计算出来,因为不需要相位信息。也可以通过忽略计算的结构因素。从观测数据导出的Patterson是晶体内容的矢量图,因此不仅包含分子内自矢量,还包含由晶体和非晶体对称性。如果以相同的晶体形式生成,模型结构的Patterson也会同样复杂。然而,模型Patterson可以以任何晶体形式计算。对于MR而言,将模型结构置于P(P)1个大的水晶单位电池这样,分子之间就有很大的空间(得到的‘晶体’在物理上是不合理的)。这个单位电池需要足够大,以使相应的Patterson由围绕原点聚集的一组向量组成,这些向量与Patterson晶格中围绕相邻原点的向量簇之间存在间隙。模型的分子内自向量,只有自向量,然后位于原点周围的球体内。
水晶帕特森比大模型中的帕特森模型更复杂P(P)1单位单元格。取决于空间组,它包含以下内容:
(i) 通过晶体对称旋转旋转的多组自矢量; (ii)来自相邻起源的自向量集之间的重叠; (iii)依赖未知翻译的不同分子之间的交叉向量。
|
与Patterson模型不同的是,在原点周围切割一个球体并不能得到一个简单的分子Patterson,但如果球体足够小,那么大多数封闭的向量将是分子内自向量,因为分子之间的向量通常更长。当平移未知时,我们可以使用此属性在旋转搜索中选择大部分自向量。
自向量与交叉向量的分离程度如何?显然,这取决于晶体的结构和填充。图1在几个示例中,显示了自矢量与交叉矢量的比率如何随矢量长度的变化而变化。较大的截止半径适用于较大的结构。图1(一)显示了一个小蛋白(119个残基),其中50%的交叉载体的交叉点为22º:合适的积分半径可能为~10º-15º。对于图1中的大型综合体(b条)(1730个残基)交叉点为47º,可以使用25–30º的积分半径。大分子的“内部”比小分子多,这就是为什么大分子比小分子更容易用MR求解的原因。
| 图1 对于一些示例结构,自向量和交叉向量之间的间隔是向量长度(Patterson原点的半径)的函数。在每种情况下,实线是自矢量数,虚线是交叉矢量数,而虚线是自/交叉矢量比。(一)一种小蛋白,119个残基,大小约为23×23×50Å,空间组 P(P)212121,PDB代码1gyu公司(b条)一种较大的异四聚体,1730个残基,~80×80×100Ω,空间组 P(P)三121,PDB代码1克5(c(c))细长单体,217个残基,~25×25×110Ω,空间组 P(P)三121,PDB代码1乌鲁(d日)当量二聚体,434个残基,~25×25×145Ω,计算单位为空间组 P(P)三1. |
加长分子和低聚物存在特殊问题。对于细长模型,球形积分掩模显然不理想。如果模型是紧齐聚物的一部分,则单体之间存在许多短交叉矢量。图1(c(c))显示了细长单体的矢量分离,该单体是图1所示二聚体的一部分(d日):在这种情况下,二聚体模型可能是更好的搜索对象,因为单体的许多短交叉向量成为二聚体中的自向量。另一种方法是,你已经知道单体之间的关系,所以你也可以使用这些信息。
3.2. Patterson旋转功能
Patterson具有旋转模型使分子间矢量旋转相同角度的特性。Patterson旋转功能(例如,参见Navaza,2001),我们旋转模型的以半径为单位的Patterson,并对其与观测数据中未旋转的以半径表示的Patter森的匹配程度进行评分。限制半径可以避免不知道平移的问题。重要的是,将模型放置在足够大的框中,使得所有分子间矢量都在搜索体积之外;盒子大小必须至少是最大分子半径加上搜索球半径。
晶体对称性使观察到的Patterson更加复杂:如果存在N个sym(对称)旋转(基本)对称操作符则有N个sym(对称)围绕原点的分子内向量集会抹去信号,因此对于高对称空间群,信噪比更差(也因为有更多的交叉向量集导致了噪声)。在全旋转搜索中,模型Patterson将与真实结构正确重叠N个sym(对称)时间,所以会有N个sym(对称)相关解决方案。或者,至少在某些情况下晶体对称性可用于减少所需的搜索范围。
匹配可以作为Patterson空间中的各种函数进行度量,例如乘积函数或相关系数,或相当于中的Patterson产品功能倒数空间。Patterson产品功能RF是
也就是观察到的Patterson晶体的产物P(P)观察(u个)和旋转模型PattersonP(P)模型(R(右), u个)集成在所有点上u个在Patterson空间的半径范围内第页最大以原点为中心,将原点峰值排除在半径之外第页最小值.任何旋转R(右),一个点的贡献u个只有当晶体Patterson和旋转模型Patterson的峰值一致时,才是大的。该函数可以在Patterson空间中进行评估(Huber,1965; Brünger,1990年)项目中实施的X-脉冲和中枢神经系统)在任何体积上,不一定是球体(Vellieux,1995),或通过傅里叶变换倒易空间。通过巧妙的因式分解,“快速旋转函数”(Crowther,1972; 纳瓦扎,1994年),但仅适用于球体。
3.3. Patterson翻译功能
如果晶体有任何旋转对称算符(即不属于空间组 P(P)1) 那么Patterson也包含了原子之间的“交叉向量”,这些原子属于不同的对称分子。如果我们相对对称算符平移分子(在垂直于轴的平面上),则与对称相关的分子会朝不同的方向移动,交叉矢量也会发生变化。因此,交叉向量对平移(相对于对称轴)敏感,而自向量则不敏感。如果其中一个轴没有与之垂直的对称轴(例如。单斜轴P(P)21),则沿该轴的平移不会改变Patterson:然而,由于原点是根据对称轴定义的,在这种情况下,平移是任意的:没有要定义的平移!
如果我们从旋转搜索中知道(或希望测试)模型的方向,我们可以计算每个可能的移位向量的模型结构因子t吨。然后通过Patterson积(相关性)搜索可以找到与观测数据的最佳匹配(Fujinaga&Read,1987)). 翻译搜索与晶体对称性操作符:无对称(空间组P(P)1) 如果模型被翻译,Patterson将保持不变,因此我们可以将模型放在单元格中任何我们喜欢的地方,并且不需要搜索。当模型在垂直于旋转轴的平面上平移时,交叉矢量会发生变化。分子内的自矢量保持不变,可以从观测到的和计算出的Pattersons中减去,以提高信噪比。翻译的Patterson翻译函数t吨定义为观察到的Pattersons模型的产品,集成在整个单元中,
哪里P(P)观察(u个)那是帕特森的水晶吗u个,P(P)模型(u个, t吨)模型Patterson被搜索向量移位了吗t吨和P(P)日本项是计算的自向量。至于旋转函数,这个函数可以被评估为一个结合了所有对称算子的三维搜索,无论是在Patterson空间还是在互易空间通过快速傅里叶变换(原田等。, 1981; 纳瓦扎和维诺斯洛娃,1995年; 童,2001).
4.概率方法
“最大似然”方法提出了一个问题:对于模型的任何假设方向和位置(R(右), t吨),获得我们观察到的结构振幅的概率是多少?然后我们可以选择最可能的解决方案(Bricogne,1992; Read,2001年),这是一种直观明显的方法(McCoy,2004).
Patterson函数相对容易可视化,因为它们具有物理意义(矢量图);更难想象发生了什么倒易空间。用于最大似然通过可视化中的概率函数,可以更好地理解旋转和平移函数倒易空间。我们可以将倒数空间结构因子的概率函数近似为高斯函数(“钟形”曲线)。高斯概率源于基本的“中心极限”定理(即平均值的分布趋向于高斯,即使计算平均值所依据的分布是非高斯的:这在历史上被称为“误差定律”)和互惠空间中的“随机游动”。
虽然我们只考虑了模型相对于目标结构的旋转和平移的解决方案非对称单元,要获得此解决方案单位电池必须考虑。在Patterson函数中,这意味着要考虑交叉向量。在似然函数中,这意味着要考虑单位电池以及它们的总和是如何构成总数的结构系数对于每个反射小时,
哪里C类j个和d日j个是的旋转和平移部分j个第个晶体对称算符,x个j个是分数坐标和如果(小时,j个)是对应于j个第个对称算子。模型的方向会引起结构因子贡献的幅度;该位置导致模型贡献的阶段。
5.Patterson法和似然法的比较
这个最大似然方法显式地建模错误,都是实验性的(σ如果)和模型的(r.m.s.坐标误差),而Patterson方法假设没有错误,这显然不是真的。这是似然法更稳健的原因之一,并且通常在困难情况下给出更清晰的解决方案(Read,2001).
这两种方法使用不同的方法来处理旋转搜索中的未知平移问题。Patterson方法将评分限制在原点周围的一个体积(球体)上,这在很大程度上选择了分子内向量,而似然法通过随机游走来整合未知平移。可以看出,帕特森旋转函数是全旋转似然函数的数学近似,本质上是似然旋转函数的泰勒级数展开中的第一项(Storoni等。, 2004). 似然旋转函数方法的显著优点是,已经放置的结构碎片可以很容易地用于增强信号,以便随后在非对称单元中放置其他组件。
除了模型的选择外,这两种方法都有一些控制参数由用户设置。所用数据的分辨率是一个变量:较高的分辨率可以更好地区分正确模型的正确和错误解决方案,但对不适当模型的容忍度较低。由于高分辨率数据会根据误差估计值自动向下加权,因此似然方法对分辨率截止值的敏感性应该较低。通常,2.5–4º是一个很好的尝试范围。其他用户变量包括Patterson旋转搜索中的积分半径和似然法中模型的误差估计。虽然成功的MR解决方案不需要高分辨率数据,也不需要异常准确的数据,但会丢失所有强的低分辨率反射,例如。探测器过载,至少对Patterson方法,因为这些反射支配Patterson函数。
7.计算技巧
即使在现代计算机上,头脑简单的暴力搜索也非常缓慢,因此人们使用了各种技巧来加快计算速度。阅读有关分子置换产生于这些技巧及其数学细节。
7.1. 拆分为三维搜索
上文讨论了将搜索拆分为两个三维搜索,如果在翻译搜索中使用了足够的旋转解决方案,则似乎不会遗漏在完整六维搜索中可以找到的解决方案:这相当于有限的六维搜索。
7.2. 保理化
许多评分功能(例如。Patterson乘积函数)可以分解为仅依赖于分子的部分(分子变换)和依赖于搜索变量的部分(旋转或平移),从而可以使用快速傅里叶变换来计算分数。如果最佳得分函数不能因式分解,则可以计算一个近似值,该近似值可以因式分解并快速计算,以便找到候选解,然后使用完整的慢函数重新搜索这些解:例如,在相位器,其中似然目标不能分解(Storoni等。, 2004).
在分解结构系数翻译搜索所需;为旋转搜索分解表达式要复杂得多。如果我们通过搜索向量移动分子t吨,结构因子表达式变为
分子转换项如果(小时,j个)对于每个对称操作符j个因此,可以对所有平移进行一次计算,并对所有反射和所有对称操作符进行求和。
7.3. 网格大小
搜索的网格大小需要足够精细,以避免遗漏解决方案,但潜在的解决方案可以通过刚体进行优化精细化,从而避免了对非常精细的网格的需要。
8.搜索树策略
如果在非对称单元,然后必须一次找到一个分子,这将导致对所有可能性进行复杂的树搜索。作为示例,以下是中搜索策略的大致轮廓相位器(其他自动化程序遵循类似的方案)。
(i) 旋转搜索第一个分子:这应该可以获取所有分子的方向,以及可能的错误解。选择候选解决方案(例如。默认情况下,相位器选择搜索平均值和最大得分之间的差的75%以上的得分)。 (ii)对于每个选定的解决方案,可能在多个空间组中搜索翻译(通常已知晶点组,但空间组不明确)。选择最佳空间组并选择要保留的解决方案。 (iii)对于每个翻译溶液,检查晶体包装并拒绝重叠的溶液。 (iv)对所有解决方案、紧密结合的集群解决方案进行刚体细化,并删除重复项。 (v) 对于步骤(iv)中的每个解,将其视为分子1的固定解(这定义了原点位置不明确的空间群的原点),并开始搜索下一个(第二个)分子。从步骤(i)开始重复,直到找到所有分子。 (vi)对整体解决方案进行排名。
|
在这种搜索中,很难在早期修剪“错误”解决方案的效率和错误地拒绝真实解决方案之间取得平衡。其他搜索策略可能更适合于困难的MR问题(McCoy,2007).
这种搜索策略利用了分子已经放置在非对称单元可用于在搜索后续分子时增强信号。Patterson搜索方法不容易使用这些信息,因此必须单独对每个搜索模型执行旋转搜索。
致谢
我们要感谢Randy Read、Eleanor Dodson和Andrew Leslie的有益讨论。
工具书类
Bhat,T.N.(1988)。J.应用。克里斯特。 21, 279–281. 交叉参考 科学网 IUCr日志 谷歌学者
Bricogne,G.(1992年)。CCP4研究周末会议记录。分子替换由W.Wolf、E.J.Dodson&S.Gover编辑,第62-75页。沃灵顿:达斯伯里实验室。 谷歌学者
Brünger,A.T.(1990)。《水晶学报》。A类46, 46–57. 交叉参考 科学网 IUCr日志 谷歌学者
Chang,G.和Lewis,M.(1997)。《水晶学报》。D类53, 279–289. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Crowther,R.A.(1972年)。分子置换法由M.G.Rossmann编辑,第173–178页。纽约:Gordon&Breach。 谷歌学者
Delarue,M.(2008)。《水晶学报》。D类64, 40–48. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Evans,P.R.(2001)。《水晶学报》。D类57, 1355–1359. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Fujinaga,M.和Read,R.J.(1987年)。J.应用。克里斯特。 20, 517–521. 交叉参考 科学网 IUCr日志 谷歌学者
Glykos,N.M.和Kokkindis,M.(2001年)。《水晶学报》。D类57,1462年-1473年交叉参考 中国科学院 IUCr日志 谷歌学者
Harada,Y.、Lifchitz,A.、Berthou,J.和Jolles,P.(1981年)。《水晶学报》。A类37, 398–406. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Hodel,A.、Kim,S.-H.和Brünger,A.T.(1992年)。《水晶学报》。A类48, 851–858. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Huber,R.(1965年)。《水晶学报》。 19, 353–356. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Jamrog,D.C.、Zhang,Y.和Phillips,G.N.(2003)。《水晶学报》。D类59, 304–314. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Kissinger,C.R.、Gehlhaar,D.K.和Fogel,D.B.(1999年)。《水晶学报》。D类55, 484–491. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Lattman,E.E.(1972年)。《水晶学报》。B类28, 1065–1068. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Lebedev,A.A.、Vagin,A.和Murshudov,G.N.(2008)。《水晶学报》。D类64,33–39科学网 交叉参考 IUCr日志 谷歌学者
McCoy,A.J.(2004)。《水晶学报》。D类60, 2169–2183. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
McCoy,A.J.(2007)。《水晶学报》。D类63, 32–41. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Navaza,J.(1994)。《水晶学报》。A类50, 157–163. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Navaza,J.(2001)。在国际结晶学表,卷。如果由M.G.Rossmann和E.Arnold编辑。多德雷赫特:Kluwer学术出版社。 谷歌学者
Navaza,J.和Vernoslova,E.(1995年)。《水晶学报》。A类51, 445–449. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Read,R.J.(1990)。《水晶学报》。A类46, 900–912. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Read,R.J.(2001)。《水晶学报》。D类57, 1373–1382. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Rossmann,M.G.(1972年)。编辑。分子置换法。纽约:Gordon&Breach。 谷歌学者
Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004)。《水晶学报》。D类60, 1229–1236. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Sim,G.A.(1959年)。《水晶学报》。 12, 813–815. 交叉参考 IUCr日志 科学网 谷歌学者
Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004)。《水晶学报》。D类60, 432–438. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Suhre,K.和Sanejouand,Y.H.(2004)。核酸研究。 32,W610–W614科学网 交叉参考 公共医学 中国科学院 谷歌学者
Terwilliger,T.C.(2004)。《水晶学报》。D类60, 2144–2149. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Tong,L.(1996)。《水晶学报》。A类52, 782–784. 交叉参考 中国科学院 IUCr日志 谷歌学者
Tong,L.(2001)。在国际结晶学表第F卷,M.G.Rossmann和E.Arnold编辑。多德雷赫特:Kluwer学术出版社。 谷歌学者
Vagin,A.和Teplyakov,A.(1997)。J.应用。克里斯特。 30, 1022–1025. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Vellieux,F.M.D.A.P.(1995年)。J.应用。克里斯特。 28, 834–836. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Vellieux,F.M.D.和Dijkstra,B.W.(1997)。J.应用。克里斯特。 30, 396–399. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
©国际结晶学联合会。如果引用了原作者和来源,则无需事先许可即可复制本文的简短引文、表格和数字。有关详细信息,请单击在这里.
| 生物 结晶学 |
编号:1399-0047