1.简介
电子(或核)密度图通常是获得原子表示的一个重要步骤晶体结构,或者地图本身可以作为晶体内容的模型。无论哪种情况,贴图的质量都会影响其效用。在这项工作中,我们认为理想的映射是准确表示平均值中实际电子(或核)密度的映射单位电池水晶的形状。至少有三个不同的因素影响晶体学图谱的质量及其解释。
(i)数据中的错误和不完整有限分辨率和测量反射的不完整性以及实验数据和晶体模型参数中的误差是导致地图质量差的主要原因。这些错误可能会模糊或损坏信号,使有意义的解释变得困难甚至不可能。 (ii)信号弱。地图解释的另一个困难来源是,并非地图中显示的所有信号都具有相同的强度。例如,来自重原子衍生物的强信号(图中的高电子密度峰值)可能很容易掩盖来自部分占据的流动配体、残基侧链的替代构象甚至H原子的极弱信号(低电子密度)。通常,这种微弱信号可能接近或低于地图中的感知噪声水平。 (iii)模型偏差结晶图通常使用模型相或模型相与一些实验获得的相信息的组合来计算。原子或非原子(例如散装溶剂)模型中的错误可能会导致地图中的噪声特征与原子特征非常相似,进而可能会被错误地解释为原子特征。
|
实际上,这三种类型的贴图缺陷可能同时存在。在典型的大分子分辨率约为1–4时,它们使晶体图谱的解释变得模糊、重要或不唯一 Å.已经开发了大量方法来改进晶体学图谱。这些方法大致可分为四类。
(i) 关注各种权重方案选择的人(Luzzati,1953年; 伍尔夫森,1956年; Sim,1959年; Raman,1959年; Ramachandran和Raman,1959年; 斯里尼瓦桑,1961年; Ramachandran&Srinivasan,1961年, 1970; 缅因州,1979年; 维贾扬,1980年; 乌尔珠姆塞夫等。1996年; Vellieux和Dijkstra,1997年; 里德,1997年),使用最广泛的方法是σ一个-加权综合(Read,1986). (ii)从扰动模型或结构因子的集合中获得地图(Agarwal和Isaacs,1977年; Lunin和Urzhumtsev,1984年; 卢宁等。, 1985; 贝克等。, 1993; 佩拉基斯等。, 1997; 大米等。, 1998; 雷迪等。, 2003; 普拉日·尼卡等。, 2009; 冗长的等。, 2014). (iii)各种OMIT地图(Bhat&Cohen,1984); Bhat,1988年; 霍德尔等。, 1992; 甘查尔等。, 2000; Vellieux&Dijkstra,1997年; 特威利格等。, 2008; 普拉日·尼卡等。, 2009; 考坦,2012年). (iv)密度改性技术(审查见Podjarny等。1996年; 张等。, 2006; 考坦,2010年).
|
所有这些方法都旨在解决与地图质量相关的一个或几个具体问题,但不是全部或同时解决。其中一些计算速度很快(例如 σ一个或井涌图),同时计算其他(例如OMIT、SA OMIT或迭代构建的OMIT映射)计算量更大,包括更复杂的计算,例如精炼和/或需要特定问题参数化的模型构建。有些可能依赖于需要用户提供或估计的信息,例如F类000用于RAPID/END或最大熵图的反射或用于密度修改的溶剂含量。OMIT图试图解决一个问题(模型偏差),同时可能会在图中引入其他扰动。事实上,OMIT图的计算涉及到删除模型的部分,因此人们可能会认为结果图的质量可能比原始图的质量差(尽管模型偏差可能会降低)。密度修改方法通常针对结构测定并且擅长于体映射改进和消除粗略错误,而这些方法可能对微弱的局部信号(例如部分占据的移动配体产生的密度)苛刻。
这份手稿描述了一个提高2米F类光突发事件−D类F类模型 σ一个-加权地图(Read,1986). 结果是得到了一个新的地图,它具有降低的噪声和模型偏差水平,并且还显示了弱特征的增强,通常会将它们带到与强特征相同的尺度上。我们称此地图为特征增强地图(FEM)。新地图预计包含更少的噪音,并且具有更容易解释的可用信号,既可用于人类解释,也可用于建模软件。在这项工作中,我们重点关注2米F类光突发事件−D类F类模型地图,该程序可以扩展到其他类型的地图。当前程序的唯一输入是测量数据(我光突发事件或F类光突发事件),测量不确定性[σ(我光突发事件)或σ(F类光突发事件)]以及当前的原子模型。可选地,可以以亨德里克森-拉特曼系数的形式使用额外的相位信息。该程序不涉及复杂机械,如模型制作或精细化。具体而言,作为有限元计算程序的一部分实施的新的、新的或重新设计的方法包括以下内容。
(i) 用于计算复合剩余OMIT图的协议。 (ii)使用图峭度作为晶体图锐度的度量,并作为以下方面的优化目标B类-因子锐化。 (iii)将直方图均衡化方法应用于晶体学图谱,以改进图谱解释。 (iv)非锐化掩模技术在晶体学图中的应用。 (v) 高效的地图随机化、多幅地图的计算机内存高效存储和地图组合。 (vi)填补缺失反射的程序。 (vii)一种基于连通性分析和多重切割地图等高线的低体积密度消除方法。
|
2.方法
从概念上讲,有限元方法包括三个关键阶段。首先,定义并计算起始映射。在第二步中,以各种不同的方式随机化起始图;这些包括随机化最初计算的映射本身和改变映射的计算方式。此过程生成一个略有不同的贴图集合,然后将这些贴图组合成一个单独的贴图,目的是减少噪声和模型偏移。正如预期的那样,组合贴图往往会模糊密度峰值,因此某种形式的贴图锐化是有帮助的。最后一步涉及地图修改,以均衡整个单位-细胞体积中的信号强度,因此弱特征的大小与强特征的大小大致相同。这一步不是选择性的,可能会增强信号和噪声;因此,必须在前两个步骤中尽可能地消除噪声。
这个概念的实现如图1所示,各个步骤将在下面的部分中进行解释。该协议是经验性的,是使用广泛程序进行实验的结果。
| 图1 FEM协议。各个步骤在手稿的相应章节中进行了解释。 |
2.2. 建模缺少的反射
让d日最小值是一组的最高分辨率限制F类光突发事件已经证明,如果对应于未测量反射的术语F类光突发事件在分辨率范围内(d日最小值,∞),则地图质量降低(Lunin,1988; 乌尔珠姆塞夫等。, 1989; Lunin和Skovoroda,1991年; 特隆鲁,1996年; Cowtan,1996年; 卢尼娜等。, 2002; Urzhumtseva和Urzhum tsev,2011年). 为了减轻这种负面影响F类光突发事件用值替换(通常称为“填充”)(F类填满,φ填满)(穆尔舒多夫等。, 1997; 卢尼娜等。, 2002; 阿尔托马尔等。, 2008; 谢尔德里克,2008年). 忽略缺失的反射本质上等同于假设它们的值都为零(F类填满= 0). 我们实现了两种方法来近似对应于缺失项的项F类光突发事件.
第一种方法使用密度修改功能RESOLVE(解决)(特威利格,2003年). 密度修改的一个特点是,它可以用于估计缺失反射的振幅和相位。在统计密度修改方法中RESOLVE(解决),这些振幅和相位是基于诸如溶剂的平坦度之类的特征来最大化映射的可能性(合理性)的振幅和相位,非晶体对称性和密度分布(Terwilliger,2003). 使用密度修改来估计缺失振幅包括执行几个密度修改周期,最后使用基于地图的振幅来估计分辨率范围内的缺失反射(d日最小值, ∞).
估计缺失振幅的第二种方法使用可用的原子模型。第二种方法的一个关键要素是进行原子模型截断,以消除不可靠放置的原子,使其不会通过F类填满首先,傅里叶映射(1)计算公式为F类填满全部归零,并根据地图中密度的r.m.s.偏差进行归一化。然后根据这张图和原子中心的平均密度对每个原子进行评分(ρ大道)注意到。贴图相关性低于0.7或原子中心密度值小于min{½的原子ρ大道,1}被删除。因为我们考虑的是接近最终结构的情况,所以只有一小部分原子可能被过滤掉。然后使用该截断模型计算F类模型在分辨率范围内(d日最小值, ∞). 散装固体对F类模型按Afonine中所述进行计算等。(2005)掩码是从截断的原子模型中计算出来的。这允许优化k个溶胶和B类溶胶值,以及整体各向异性比例因子。这个F类模型计算全分辨率范围的值,并计算属于以下部分的缺失反射F类模型然后分配给F类填满。我们注意到,使用k个溶胶和B类溶胶0.35的 e(电子) Å−3和46 Å2分别为(Fokine和Urzhumtsev,2002)是次优的,偶尔会导致在体积-固体区域出现明显的伪影。
我们发现,以这种方式估计丢失反射的值通常会减少地图噪声。例如,图2显示用(1)计算的地图)使用F类填满=0以及缺少术语的映射(F类填满)使用统计密度修正或基于工作模型得出。PDB(伯恩斯坦等。, 1977; 伯曼等。, 2000)条目1氨气在本例中使用了。
| 图2 PDB条目中缺失数据的影响及其恢复1个2:使用(1)计算的地图(一)F类填满= 0 (1.0σ), (b条)F类填满派生自RESOLVE(解决)密度修正图(1.1σ)和(c(c))F类填满根据§2.2 (1.0σ). (d日)分辨率-PDB条目衍射数据的最小完整性1氨气注意,低分辨率下的完整性很差,整体完整性较好,在范围(1.9,∞)内为95%。如格罗塞·库斯特里夫的阿芬尼所述,使用对数刻度箱等。(2013),这有效地突出了低分辨率完整性较差的问题。参见§2.9关于地图控制级别的选择。 |
2.5. 地图组合
此步骤的目标是将一系列N个以初始条件的变化形式获得的映射。特别是,对应于同一结构和同一晶体的映射是在同一网格上计算的,傅里叶系数不同,但没有本质上的不同。通常情况下N个顺序为8-16。对每个栅格节点单独执行组合。需要解决两个问题:(i)如何存储所有N个以节省内存的方式同时映射,以及(ii)使用什么统计程序从中提取“信号”N个映射给定网格节点中的值(具有N个映射意味着每个网格节点都有N个值)。
通常,映射值存储为一组四字节或八字节的实值(cctbx公司; 格罗斯·昆斯特里夫和亚当斯,2002年; 格罗斯·昆斯特里夫等。, 2002),这意味着内存中同时存在一个或两个以上的映射可能是禁止的。为了解决这个问题,我们提出了一种将实值映射转换为单字节整数值映射的方法(Fortran中的integer*1或C++中的uint8_t或unsigned char)。反过来,这也为八个整值映射提供了可能,它们占用的内存与一个八字节的实值映射一样多。假设两个实值映射是可以同时保存在内存中的最大值,那么我们得到了将要使用的最大整值映射数为16。
首先,我们以分位数等级缩放这些映射(与下面应用直方图均衡化时使用的步骤相同;参见§2.7)。生成的贴图从0到1不等。如果原始贴图被截断为平坦(设置为零),低于某个阈值(σ0),那么新地图将平放在一些q个0<1值。然后,我们将这些映射转换为(0255)范围内的整数,如下所示:
注意,用256而不是255相乘计算速度更快。
现在,对于每个网格节点,我们都有N个整数值j个1,j个2…,j个N个范围(0255),其中N个如上所述,为16。有许多选项可以分析数组N个值。由于离群值可能会影响平均值,我们决定使用最频繁的值(模式),这是给定节点中最持久的值。考虑到分布在范围(0,255)上的数据点16的集合很小,16个数字很可能都不会完全一致,因此无法计算模式。为了克服这个问题,我们一次使用一个网格节点,将其16个整数值转换为一个长度为256的实值数组,
这里,16个值中的每个值j个n个被高斯模糊。通过反复试验,我们发现b条2到5之间是这种模糊的最佳值。然后我们搜索参数j个最大值函数全局最大值的(f)(j个); 注意(f)(j个)是一个整数实值函数。最后,我们构造了一个二次插值(f)(j个最大值− 1),(f)(j个最大值),(f)(j个最大值+1)并进行真正的论证x个最大值该插值的最大值作为最终值,在输出组合图中分配给该网格节点。显然,生成的映射可以按分位数秩或均方根偏差再次缩放。
分别考虑两种特殊情况。第一个是当所有值j个1,j个2…,j个N个非常不同,功能也不同(f)(j个)有N个等高的峰(等于一或稍高)。我们认为合成在这个节点中没有任何信息,我们给它赋值最小,即零。这意味着由这些点组成的地图区域在任何截止水平上都不会显示出结构特征。
其次,函数可能有几个(至少两个)高度大致相等的强峰值,即价值观j个1,j个2…,j个N个形成几个小组(集群)。默认情况下,我们取参数最小的峰值,换言之,我们在可能丢失或减少信号的风险下生成噪声最小的合成;我们称这种合成为最小合成。或者,可以生成“最大综合”,取而代之的是具有最大参数的峰值。此合成包含最大信号,但可能会突出显示某些噪声。
2.6. 通过地图锐化增强信号
将多个图谱组合成一个图谱可能会导致结构中原子对应的峰被涂抹。此外,由于热无序或静态无序,以及由于低完整性或低分辨率,密度可能较弱。例如,如果数据分辨率相对较低或/并且相应的原子具有较大的原子位移参数,则相邻的两个大分子链对应的密度可能会合并为连续密度。在FEM程序中,我们使用两种地图锐化方法来提高地图的可解释性:指数(B类-因子)锐化和反锐化掩蔽。
2.8. 在FEM计算过程中可能有用的其他工具
作为FEM方法开发的一部分,我们还探索了信号均衡或增强以及降噪的其他替代方案。它们不是FEM程序当前实施的一部分,为了完整起见,如下所示。
我们开发并尝试了一种程序,用于组合两张地图,以增强两张地图中的特征。该程序与Patterson图分析中常用的最小函数有关(Buerger,1970; 特威利格等。, 1987). 本程序分析了两张地图,假设它们的比例尺相同。对于以下范围内的每个阈值秒1到秒2对于特定的步骤,如果两个映射中的值同时高于或低于秒1+台阶水平;否则,它们被设置为零。最终贴图是两个修改贴图的平均值。阈值的实际值秒1和秒2取决于地图的缩放方式。例如,如果两个映射都是直方图(参见§2.7)然后秒1和秒2分别等于0和1,例如,步长可以为0.1。我们在这种方法中遇到的问题是,如果两个值都不相交,而周围的所有栅格节点都不同于零,那么最终会在设置为零的贴图中创建“洞”。它还可能导致在贴图中创建锐利的边,如果这样的贴图经过傅里叶变换,可能会导致强烈的傅里叶涟漪。最后,合并一次考虑两个地图的地图不如同时分析所有可用地图的功能强大。
我们尝试了其他B类-因子或非锐化掩蔽)锐化技术,如Kuwahara滤波器(一种中值滤波器;Kuwaharo等。, 1976)如之前报道的(迪亚科努等。, 2005)用于解释低分辨率电子显微镜图。然而,这种方法在我们的测试中并不成功。
对于地图均衡,另一种方法是将整个非对称单元在方框中,计算每个方框中地图的均方根偏差,然后用它单独缩放每个方框中的地图值。这种方法需要分别处理大分子和溶剂区域,这并不总是方便或直接的,还需要了解溶剂掩模。
一种可能增强地图中微弱信号并抑制噪声的方法是应用多项式密度修正(Hoppe&Gassmann,1968; 柯林斯,1975年; Raghavan&Tulinsky,1979年). 我们的经验是,这在许多情况下都很有效,但也有一些警告。首先,必须截断并重新缩放密度图,使其值介于0和1之间,这显然需要应用一些截止值,其中的选择可能并不总是显而易见的(尤其是在软件中自动)。其次,变换函数在0.5处有一个拐点,这意味着0.5以下的值被抑制,0.5以上的值被增强。显然,这意味着一种任意假设,即所有低于0.5的峰值都是噪声,否则就是信号。
因此,我们更喜欢直方图均衡化方法,因为它可以有效地均衡对比度,而不需要特别的要定义的参数。
4.结论
由于实验数据和结构模型参数的误差,通常用于晶体结构求解的傅里叶映射永远都不是完美的。各种地图错误可能会阻碍结构的求解和完成,或导致错误的地图解释,从而导致错误的原子模型。
几十年来,人们在改进晶体学图谱的方法方面付出了巨大的努力。然而,大多数现有方法一次只能解决一个或几个与地图质量相关的问题。此外,一些旨在解决一个问题的现有方法可能会使其他问题变得更糟。更彻底和有效的方法通常计算成本很高(计算可能需要数小时或数天),并且在使用时可能需要特定于实例的参数化精炼或模型建筑。
在这份手稿中,我们提出了一种新的晶体学图修改方法,它同时结合了几个理想的图,需要最少的输入(即当前的原子模型和衍射数据),不需要耗时的计算(例如精炼或建模),计算速度相对较快(从不到一分钟到几分钟)。我们将由此获得的地图称为特征增强地图(FEM)。
FEM计算中使用的所有关键工具(包括FEM协议本身)均作为cctbx公司。OMIT映射的计算可用作命令行工具,称为菲尼克斯公司posite_omit_map(Echols&Afonine,2014年). 此处显示的FEM计算可在菲尼克斯(亚当斯等。, 2010)从命令行的dev-1832版本开始(菲尼克斯有限元法)和在菲尼克斯图形用户界面。用于获取本手稿中数字的数据和脚本可从以下网址获得:https://phenix-online.org/phenix数据/.