2.材料和方法
2.1、。观测模型
我们正在研究一个由大量粒子图像组成的单粒子冷冻EM数据集。我们假设我们已经有一个达到一定分辨率的粒子的初步3D参考图,并且我们知道所有观察到的粒子的近似观察参数。这使我们能够预测每个粒子图像,进而通过将这些预测图像与观测图像进行比较,来估计光学效果的参数。
让X(X)第页,k个∈是粒子观测图像的复振幅第页∈用于2D空间频率k个∈在不损失一般性的情况下,我们可以假设观察到的图像发生了偏移,从而使粒子的中心出现在图像的原点。我们可以通过沿着适当的观看方向在3D参考上进行积分来获得相应的预测图像。根据中心切片定理,相应的复振幅五第页,k个∈预测粒子图像的
哪里是傅里叶空间中的3D参考地图A类第页是由视角产生的3×2投影矩阵。由于2D像素的反向投影位置k个主要位于参考地图的3D体素之间,我们确定W公司(A类第页k个)使用线性插值。
此外,我们假设我们估计了每个粒子的离焦和像散,以及显微镜的球差,从而也可以预测CTF。因此我们可以写
哪里φk个是由反对称像差CTF引起的相移角第页,k个是CTF的真正组成部分n个第页,k个表示噪声。
下面介绍的三种方法都是为了通过最小化X(X)第页,k个和exp(我φk个)CTF公司第页,k个五第页,k个。这相当于最大似然假设所有n个第页,k个从相同的正态分布中得出。
2.2. 反对称像差
反对称像差改变了观测图像中的相位,并用角度表示φk个在(2)中。我们假设φk个对于足够多的粒子来说是常数。这种假设是必要的,因为在存在典型的强噪声的情况下,我们需要来自大量粒子图像的信息来获得可靠的估计。
我们建模φk个以反对称泽尼克多项式为基础,
哪里c(c)b条∈描述像差的未知系数和Z轴b条(k个)是反对称泽尼克多项式的子集。为了清楚起见,省略了这些多项式的通常的双指数排序。这组多项式总是包含一阶项Z轴1−1(k个)和Z轴11(k个)对应于2D中的刚性运动。在估计过程中考虑这些项是至关重要的,因为它们捕捉到了粒子位置中的任何系统误差,这些误差是在不对称像差下估计位置时出现的,特别是在光束倾斜引起的轴向彗差下。在这种情况下,粒子被错误地移动,以中和中频范围内的彗差,从而过度补偿低频范围内的相移。因此,测量的相移是轴向彗差和平移的叠加,因此必须进行建模。
系数c(c)b条通过最小化以下所有粒子的平方差之和来确定,
哪里(f)k个是重构的FSC给出的启发式权重项;其目的是抑制频率的贡献|k个|其参考不太可靠。
由于典型数据集包含10个4和106粒子,每个粒子图像通常由10个以上的粒子组成4傅里叶像素,优化(4)中的非线性表达式直接读取是非常不切实际的,尤其是因为在每次迭代中都可能需要从光盘重新加载图像。相反,我们采用两步走的方法。首先,我们将上述二次函数和的和减少为二次函数的单个和,每个Fourier空间像素一个k个,
哪里K(K)是一个常数,不会影响c(c)b条.每像素最佳相移q个k个∈和重量w个k个∈由提供
这与我们在RELION公司-3.0(齐瓦诺夫等。, 2018); 光束倾斜实际上只是反对称像差的可能来源之一。计算q个k个和w个k个只需要对数据集中的所有图像进行一次迭代,对于这里显示的数据集,在24核2.9 GHz Intel Xeon工作站上需要大约一个小时的时间。
一旦q个k个和w个k个已知,最佳c(c)b条通过使用Nelder–Mead下坡单纯形(Nelder&Mead,1965)方法,
此步骤只需要几秒钟的计算时间。除了使问题易于处理外,这种分为两个步骤的分离还允许我们检查每像素最优的相位角q个k个直观地确定数据集中存在的反对称像差类型。
在最佳反对称像差系数之后c(c)它们用于反转所有观测图像的相移X(X)从中重建三维地图时。
2.3. 对称像差
与反对称像差不同,对称像差作用于CTF的绝对值。在这种像差存在的情况下,CTF不再由严格意义上的交替符号椭圆环组成,而是可以采取更不寻常的形式。在我们的实验中,我们专门观察到椭圆变形为略呈方形的形状。为了估计对称像差,我们需要确定隐藏在测量的噪声像素下面的CTF的最可能变形。由于低温电子显微镜数据集中的显微照片通常是在不同的离焦度下采集的,因此测量整个数据集的集体功率谱是不够的;相反,我们需要确定应用于不同的CTF。
在RELION公司-3.1,CTF定义为
哪里D类第页是粒子的实对称2×2像散散焦矩阵第页,C秒是显微镜的球差,λ是电子波长χ第页是振幅对比度和相位板(如果使用相位板)引起的相移给出的恒定偏移。我们之所以选择这种像散公式,是因为它在处理各向异性放大时更简洁,也更实用,如第2.4节所示.在附录中A类,我们定义D类第页我们证明这与更常见的公式等价(Mindell&Grigorieff,2003).
我们通过偏移来模拟CTF在对称像差下的变形γ,
哪里ψk个(d日)使用对称泽尼克多项式和一组系数进行建模d日∈描述了畸变,
的最佳值d日b条通过最小化另一个平方差之和来确定,
其中预测的复数振幅包含由反对称像差引起的相移(如果已知),
这又是一个含有大量项的非线性方程。为了使其最小化易于处理,我们执行以下替换,
使用已知的列向量第页第页,k个∈由提供
和未知t吨k个(d日) ∈通过
这允许我们转换每个像素的一维非线性项k个变成二维线性项,
以这种形式,我们可以分解E类对称转换为所有像素上的二次函数之和k个这相当于(5)中的转换,仅在两个真实维度而不是一个复杂维度中,
其中实对称2×2矩阵R(右)k个由提供
以及相应的像素优化通过
同样,计算R(右)k个和只需要对数据集进行一次迭代,其中对于每个像素k个每个粒子需要更新五个数字第页:三个不同的元素R(右)k个(矩阵对称)和τk个.一次R(右)k个和已知最佳Zernike系数d日通过最小化来确定E类对称在(20)使用Nelder–Mead下坡单纯形算法。类似于反对称像差的情况,目视检查最佳像差ψk个(d日)对于每个像素,我们可以检查像差的类型,而无需将其投影到Zernike基中。像素的CTF相移估计k个由提供,其中和参考的两个组成部分t吨k个.
一旦系数d日对称像差的已知值,它们用于校正在中计算的任何CTFRELION公司-3.1.
2.4. 各向异性放大
为了确定放大率的各向异性,我们再次将预测图像与观测图像进行比较。我们假设3D参考图W公司通过平均从均匀分布绘制的平面内旋转角度的粒子视图获得。这是一个现实的假设,因为与粒子和冰表面之间的角度不同,粒子通常显示首选方向,粒子不注意相机像素网格的方向。因此对于足够大小的数据集,单个图像中的各向异性取平均值,得到的参考图描绘了粒子的各向同性缩放3D图像(尽管粒子外围的高频信息被平均值模糊了)。因此,我们可以通过确定必须应用于预测图像的最佳变形来估计各向异性,以最佳拟合观测图像。
我们只是在寻找图像的线性失真。这种失真可以在实空间或傅里叶空间中等效表示:如果实空间图像被2×2矩阵失真M(M),则相应的傅里叶空间图像被M(M)-1吨。我们选择在傅里叶空间中操作,因为这样可以确定预测图像的变形,而不会扭曲CTF。我们假设此时已知的CTF参数已经适合图像中观察到的Thon环,因此我们只变形粒子本身。
形式上,我们定义了复振幅五第页,k个(M(M))由2×2矩阵变形的预测图像M(M)通过
我们的目标是确定这样一个矩阵M(M)使其最小化
哪里再次指(15)中定义的相移复振幅。我们没有假设M(M)必须是对称的,这使得它能够表示出各向异性放大之外的倾斜分量。计算机视觉应用中常用的模型考虑了这种倾斜效应(Hartley,1994; Hartley&Zisserman,2003年),但不是在cryo-EM中。我们还决定对歪斜分量进行建模,以防它出现在数据集中。
(25)中给出的表达式是对大量非线性项的又一个求和。为了获得线性项平方的和,我们首先用以下公式表示变形M(M)作为一组像素位移δk个∈,
接下来,我们对W公司围绕A类第页k个。我们知道W公司适用于所有频率k个其中参考地图包含任何信息,因为位移δk个可能小于一个体素。如果它们明显较大,则会妨碍在这些频率下成功计算参考图的复杂振幅,除非要考虑大量粒子。线性近似值如下所示
其中梯度克第页,k个∈是通过向前投影的3D梯度来计算的列向量W公司(由线性插值给出),
计算是很重要的克第页,k个这样,因为从已经投影的图像中用数字计算它五第页,k个将导致梯度的系统低估(由于插值),从而导致位移的系统高估。另请注意φ(k个)由于位移被忽略了。这是因为相移,像CTF一样,也是从畸变图像中计算出来的,所以我们可以假设它在畸变坐标中是正确的。
使用以这种方式转换的项,平方误差之和可以近似为
这对应于要在最小二乘意义下求解的两个线性方程组,或者是像素位移δk个(29)或用于全局变形矩阵M(M)(30)与像差方法类似,我们对这两种方法都进行了求解。再次了解像素解可以让我们直观地确认观察到的变形是否与线性变形一致;如果是,则为像素位移δk个将遵循以下线性函数k个.
最佳位移等于
实对称2×2矩阵S公司k个由提供
注意,这相当于处理(29)的实部和虚部作为单独的方程,因为Re(z(z)*w个)=回复(z(z))回复(w个)+进出口(z(z))我(w个)对所有人来说z(z),w个∈类似于对称像差的估计,S公司k个和e(电子)k个通过为每个像素累积五个数字,在一次迭代中计算k个覆盖整个数据集。
最佳2×2变形矩阵M(M)通过首先将其重塑为列向量来确定米∈,
(30)中的表达式然后可以写为
使用列向量一第页,k个∈由提供
我们现在可以计算最优值米,
其中实对称4×4矩阵T型和列向量我∈等于
无需计算T型和我通过迭代所有粒子显式地第页同样,由于所有必要的金额都已作为S公司k个和e(电子)k个相反,我们只需要将所有像素的相应值相加k个详见附录B.
为了校正后的各向异性M(M)据估计,我们从未对观测到的图像重新采样。当我们从一组观察到的图像中计算3D地图时,我们通过将2D切片插入3D Fourier空间体积来实现。由于此过程需要在分数3D坐标处插入2D像素(从而进行插值),我们可以通过插入像素来避免对观测图像进行任何额外的重采样k个到3D地图的位置A类第页M(M)k个而不是在A类第页k个类似地,如果第2.2节中描述的方法和2.3在失真矩阵之后应用M(M)已知,则通过从中读取复数振幅来生成预测图像W公司在3D位置A类第页M(M)k个。为了提高可读性,在这些方法的描述中省略了这一点。
此外,当处理各向异性放大时RELION公司,我们选择始终在未失真的2D坐标中定义CTF。这背后的主要动机是假设球差(方程式10中的第二个总和)只有在图像没有失真的情况下,才应该是径向对称的。因此,一旦畸变矩阵M(M)已知,我们需要变换像散散焦矩阵D类到新的未变形坐标系中。这是通过共轭来实现的D类在下面M(M)−1,
当在执行该变换之后计算CTF值时,它总是被计算为CTF(M(M)k个)而不是CTF(k个).
作为对称像差和反对称像差基础的泽尼克多项式也在未畸变坐标中定义,即Zernike多项式也在Z轴b条(M(M)k个). 注意,估算后这些系数的修正M(M)无法进行分析,但需要数值解。相反,我们建议只有在M(M)已知。在严重情况下,更好地估计M(M)可以通过重复放大来获得精炼在使用的初始估计确定最佳散焦和散光估计之后M(M)。我们在第3.4节中的一个合成示例中说明了该场景.
2.5. 实施细节
上述三种方法需要应用于大量粒子,以获得可靠的估计。然而,我们允许三种影响在RELION公司-3.1. 为了促进这一点,我们引入了光学组:共享相同光学特性的粒子集分区,例如电压或像素大小(或像差和放大矩阵)。截至RELION公司-3.1,允许光学组之间的这些光学特性不同,而不同组的粒子仍然可以一起细化。这使得可以合并在不同显微镜上收集的具有不同放大率和像差的数据集,而无需对图像进行重新采样。各向异性放大精炼然后可以用于通过相对于公共参考图细化光学组的放大率来测量光学组之间的相对放大率。
由于粒子的大多数光学特性现在都是通过其所属的光学组定义的,因此每个粒子STAR文件都由RELION公司-3.1现在包含二表:一个列出光学组,一个列出粒子。粒子表与旧表等效,只是某些光学特性不再列出。这些通常是电压、像素和图像大小、球差和振幅对比度,它们在光学组列表中指定。这会减小总体文件大小,并使手动编辑这些属性变得更容易。
许多其他光学特性仍存储在粒子列表中,允许同一组中的不同粒子使用不同的值。这些特性构成了对称像差的每粒子部分,即系数γ第页,k个英寸(10)每个粒子可以改变的具体参数如下:相移、散焦、像散、球差和B-因子包络。
这个B-因子包络是由比例因子组成的二维参数S公司和B因素本身。它对应于CTF上的高斯包络[由S公司经验(-4B|k个|2)]它还提供了一种对不同粒子进行加权的方法。具体来说,更大的B因子意味着粒子对重建的较高频率贡献较小。尽管B有关CTF的因素已在早期版本中提供RELION公司,估计它们的方法是3.1版中的新方法。
我们开发了一个新的CTF精炼该程序考虑给定显微照片中的所有粒子,并局部优化上述五个参数,而每个参数可以按粒子、显微照片或保持固定进行建模。然后,该程序使用L-BFGS算法(Liu&Nocedal,1989)找到给定显微照片中所有粒子的最小二乘最优参数配置。例如,这允许用户找到显微照片最可能的相移,同时找到其中每个粒子最可能的散焦值。该程序设计为提供多种组合,尽管其中一些组合起初可能并不有用,例如,估计球差或每个粒子的相移。以这种方式,程序允许出现例外情况,例如非常大的粒子,但我们建议大多数用户只对每个粒子的散焦以及每个显微照片的其他所有内容建模,或者根本不建模。
请注意,术语离焦和散光以上具体指δz(z)(散焦)和一1和一2(散光),其中散光散焦矩阵D类第页粒子的第页英寸(10)其组成如下:
例如,这将允许通过分配一个单独的δz(z)对于每个粒子,而像散可以通过要求一1和一2所有粒子都是相同的。
3.结果
为了验证我们的方法并说明其有用性,我们使用公开的数据集描述了四个实验。首先,我们评估了在200 keV Thermo Fisher Talos Arctica显微镜上收集的两个数据集的像差校正。其次,我们说明了我们使用300 keV Thermo Fisher Titan Krios显微镜上收集的数据集模拟像差的方法的局限性,该显微镜带有带散焦的Volta相位板(Danev等。, 2017). 第三,我们将我们的方法应用于迄今为止发表的最高分辨率的低温电子显微镜结构之一,该结构是在没有相位板的泰坦Krios上收集的。最后,我们确定放大矩阵的精度M(M)可以在受控实验中使用人工扭曲的图像,再次从泰坦克里欧斯显微镜中恢复。
3.4. 模拟各向异性放大实验
为了在存在大量各向异性的情况下测量各向异性放大率估计过程的性能,我们还对合成数据进行了实验。在这个实验中,我们使用了一小部分(来自29部电影的9487个粒子),这些粒子取自我们之前处理过的人类脱铁蛋白数据集(EMPIAR-10200)(Zivanov等。, 2018). 我们通过使用已知的各向异性放大率来扭曲显微照片MotionCor公司2(郑等。, 2017). 沿着以20°角旋转的两个垂直轴,应用于图像的相对比例分别为0.95和1.05。在这个过程中,大约4%的粒子被映射到图像之外,因此变形粒子的数量略小于9093个。
然后我们进行了四轮精炼为了恢复各向异性放大率,从畸变的显微照片中提取粒子图像。每轮包括一个CTF精炼然后是自动细化。CTF公司精炼每次进行两次自身测试:一次是为了估计各向异性,然后再次是为了确定颗粒离散度和显微像散。不同轮次的FSC曲线如图10所示我们观察到,在第二轮之后,FSC已经接近未变形粒子的FSC。在第一轮中,初始3D参考图不够精确,不足以允许各向异性的可靠恢复。
| 图10 人类脱铁蛋白的模拟各向异性放大实验的半集(顶部)和映射与原子模型(底部)FSC图。使用的原子模型是PDB条目5n27号(费拉罗等。, 2017). 从第二次迭代开始,曲线接近其最终位置。请注意,失真重建无法达到未失真重建的分辨率,因为粒子在重建过程中丢失,图像像素通过重采样而退化。 |
放大矩阵M(M)在最后一轮中恢复
它对应于沿旋转19.939°的两个垂直轴的相对刻度分别为0.951和1.049,尽管它还包含一个额外的均匀刻度系数1.022。均匀比例因子对精细化,但是它确实改变了得到的映射的像素大小。因此,我们注意到,必须小心,要么强制两个相对比例的乘积为1,要么根据外部参考校准地图的像素大小。
该实验表明,即使是从相对较少的粒子中,也可以将放大率的各向异性估计为三个有效数字。由于估算是通过将所有粒子的贡献相加得出的,因此精度随粒子数的增加而增加。
4.讨论
尽管我们之前描述了一种估算和校正束流诱导轴向彗差的方法(Zivanov等。, 2019)到目前为止,还没有检测和校正高阶光学像差的方法。因此,目前尚不清楚这些像差是冷冻电镜中的一个限制因素的频率结构测定生物大分子。我们已经在两种不同类型的显微镜上观察到几个强烈的三倍和四倍散光的例子,这表明这些像差可能比较常见。
我们对醛缩酶和20S蛋白酶体数据集的结果表明,当数据中存在反对称和/或对称畸变时,我们的方法会显著提高可实现的分辨率。醛缩酶和20S蛋白酶体都可以被视为冷冻-EM的“简单”靶点结构确定:它们都被用于测试低温电子显微镜硬件和软件的性能(例如,请参阅Li等。, 2013; Danev&Baumeister,2016年; 赫齐克等。, 2017; 基姆等。, 2018). 然而,我们的方法不仅限于标准测试样本,而且已经用于从更具挑战性的数据中获取生物学见解。我们在300 keV Titan Krios显微镜上记录的一名患有慢性创伤性脑病的前职业美国足球运动员的脑源性τ纤维图像显示出严重的三倍和四倍散光。对这些畸变进行校正后,分辨率从2.7埃提高到2.3埃,从而可以可视化替代侧链构象和淀粉样纤维内有序水分子(Falcon等。, 2019).
Titan Krios显微镜配备了透镜,可以对其进行调整,以纠正三倍的散光,尽管这种操作通常只由工程师进行。Titan Krios显微镜是戴蒙德(克莱尔等。, 2017). 在测量了像差的严重程度后,对其镜片进行了重新调整,自那时以来,镜片上没有检测到高阶像差(张培军,个人通信)。Talos Arctica显微镜没有透镜来校正三叶草,斯克里普斯研究所用于收集醛缩酶和20S蛋白酶体数据集的显微镜继续产生畸变量波动的数据集(Gabriel Lander,个人通信)。在确定或更好地理解这些像差的来源之前,这里提出的校正对于处理在这些显微镜上获得的数据将是重要的。
高阶像差的限制程度取决于三倍和四倍像散的数量以及重建的目标分辨率。我们只观察到数据集的分辨率显著提高,这些数据集在像差校正前产生了分辨率超过3.0–3.5Å的重建。然而,对于低能电子,像差的影响更为明显。因此,我们的方法可能与100keV显微镜的数据特别相关,该显微镜的开发旨在为薄标本提供更好的图像,并降低现代低温电子显微镜的高昂成本结构测定(皮特等。, 2019; 奈德诺娃等。, 2019).
各向异性放大对冷冻电镜的影响结构测定之前已经描述了生物样品的数量,并提出了校正方法(Grant&Grigorieff,2015; 于等。, 2016). 我们的方法与中实现的穷举搜索算法有一些相似之处JSPR公司(郭江,2014; 于等。, 2016)它将参考投影与高信噪比和整个数据集的粒子图像进行比较。然而,我们的方法避免了在各向异性的方向和大小上进行计算昂贵的二维网格搜索JSPR公司此外,我们的方法原则上能够检测和建模放大中的倾斜分量。
除了建模各向异性放大率外,我们的方法还可以用于组合具有未知相对放大率的不同数据集。在低温电子显微镜成像中,放大倍数通常并不确切。同样,可以使用具有已知衍射几何形状的晶体试样精确测量放大率,但在实际操作中,经常会观察到标称像素尺寸中高达百分之几的误差。当处理来自单个数据集的数据时,这种误差可以在一定程度上被吸收在散焦值中。这会产生外观非常相似但规模略有不同的CTF。因此,像素大小的微小误差只会在原子建模阶段成为一个问题,导致整体收缩或扩展模型的立体化学较差。(请注意,由于C秒;例如对于非-C秒-校正300 kV显微镜。)然而,当组合来自不同会话的数据集时,其相对放大率的错误将影响分辨率低得多的3D重建。我们的方法可以直接用于纠正此类错误。此外,为了进一步方便起见,我们的新实现允许将具有不同像素和方框大小的粒子图像组合为单个精细化。我们的方法在这些条件下的性能有待说明。通常,当组合两个或多个不同的数据集时,在重建的分辨率极限下,单个数据集的性能优于其他数据集,而数据集的组合不会改善映射。
我们的结果表明,可以准确估计和建模反对称和对称像差以及各向异性放大率后部从一组有噪声的生物大分子投影图像中提取。无需在显微镜上进行额外的测试样品或实验;所需要的只是一个足够分辨率的3D重建,以使光学效果变得明显。因此,我们的方法原则上可以用于“先拍摄,后提问”的方法,在这种方法中,图像采集速度优先于彻底优化显微镜设置。在这种情况下,我们警告说,虽然我们的方法的适用范围仍有待探索,但最好保留其在其他仔细进行的实验数据中的意外效果中的使用。