1.简介
X光透视自由电子激光器(XFEL)产生飞秒持续时间的短暂强X射线脉冲,允许结构测定亚微米晶体。这种被称为串行飞秒晶体学(SFX)的技术为蛋白质(Barends)提供了原子分辨率结构等。, 2014; 布泰等。, 2012; 查普曼等。, 2011; 线路接口单元等。, 2013; 雷德克等。, 2013)。与此同时,SFX为数据分析带来了许多挑战,因为索引后必须合并数千个不同尺寸和方向的纳米晶体的图案,也因为脉冲强度的大的逐点变化。在这里,我们讨论了SFX中最重要的问题之一,即Bravais对称性高于空间群对称性时出现的索引模糊性。在最简单的形式中,当索引正确的晶体也可能被索引为其孪晶时,就会出现索引模糊。这里我们并不认为纳米晶本身是孪晶,只是不同单晶的数据可能会意外地合并成孪晶相关的取向。因此,来自受孪生折射率模糊性与物理孪晶相似。因此,解决这一歧义的过程被称为取舍。
自动诱导软件,包括广泛使用的MOSFLM公司(莱斯利,1999年),迪拉克斯(杜伊斯伯格,1992年)和标签(绍特等。, 2004)程序能够根据衍射图样中的布拉格光斑位置确定单位-细胞参数和晶体方向。在传统晶体学中,分度模糊并不是一个严重的问题,因为(i)从每个晶体测量一系列(甚至一整套)具有已知相对转动关系的衍射图案;(ii)在每个布拉格点测得的反射是窄分布的,代表了全部衍射强度,特别是如果在每次曝光期间应用振荡或旋转技术。在SFX中,晶体在与X射线激光脉冲相互作用后立即被完全破坏。在飞秒曝光过程中,可以忽略纳米晶体的旋转,因此记录的强度仅涵盖镶嵌产生的反射角宽度的一小部分。该分数由每个脉冲内的波长范围设置(通常为0.1%单色性),因此无法从单个衍射图案中提取完整的结构因子。衍射图案之间的取向关系未知,因为晶体的取向是随机的,自动诱导方法无法区分,例如,仅基于布拉格光斑位置的孪晶相关索引方案。在这种情况下,如果根据索引结果合并数据,在两种索引模式等效的情况下,可能会有一半的数据偶然被错误合并,导致合并的数据集似乎来自物理孪晶。另一方面,布拉格点的全反射强度可以提供解决这种模糊性所需的额外信息。
在SFX索引中,出现了第二个挑战,即对于镶嵌晶体,测量的快照XFEL Bragg斑点仅为部分反射。这是X射线激光的准直性和单色性的结果,X射线激光只对每个反射的全角宽度的一小部分进行采样,而这些反射被镶嵌(Hattne等。, 2014)。镶嵌模型因晶体类型而异,基于连续弹性变形的模型在某些情况下可能适用[参见Snell等。(2003)查看]。
偏倚有几种定义,通常很松散地定义为给定衍射光束偏离准确布拉格条件的角度。更准确地说,我们将反射的偏度定义为在一个实验模式中记录的全反射的分数,单位的最大值对应于全反射。第二种情况则不同,最小的纳米晶由单个镶嵌块(可能有弹性变形)组成,小于相干光束的宽度,其中纳米晶外部形状的完整傅里叶变换(所谓的形状变换)围绕每个倒易点阵点。然后可以看到布拉格点之间的干涉条纹(查普曼等。, 2011; 斯彭斯等。, 2011)布拉格条件周围的散射角分布不再被建模为光滑的窄峰。我们还可能遇到第三种情况,当使用最小的亚微米直径XFEL光束时,光束尺寸可能小于一个“镶嵌块”或孤立的纳米晶体。这种相干会聚束衍射的情况由Spence处理等。(2014)这里不考虑。第四种情况是大的完美晶体(如半导体硅片),其中动态散射很重要,这里也不考虑,因为它不会出现在蛋白质晶体学中。
由于偏爱变化引起的强度变化可能远大于索引方案选择变化引起的亮度变化,因此存在鸡和蛋的问题,需要进行全面反射来解决索引歧义,但只有正确分配索引以允许数据合并,才能获得这些结果。部分反射分析方法由Rossmann&Erickson(1983)开发)[另见Rossmann等。(1979)]自那时以来,它一直被用作一种后细化形式,与同步加速器基于测角仪的现代数据采集相结合。最近,Brehm&Diederichs(2014年)开发了算法(BD算法),通过基于两两相似性对模式进行聚类来解决索引歧义,使用Pearson的相关系数。在这里,我们描述了一种期望最大化(EM)算法,以建立每个衍射图案之间的关系,并迭代构造完全正确索引的三维衍射体。BD和EM算法的重要区别在于它们的评估函数。EM不使用两组部分反射之间的成对关系(对应于两个衍射图案中记录的信息)。相反,它利用了来自任何图案的反射与合并的全反射模型之间的关系,该模型是使用EM算法迭代建立的。与迭代改进模型的重复比较大大缩短了收敛时间,提高了方法的准确性。我们在以下框架内实现了此算法水晶EL(白色等。, 2012)并使用来自光系统I晶体的模拟图案和实验图案对其进行了测试。
2.方法
2.1. 现有方法和皮尔逊相关性
对于两种衍射模式,皮尔逊相关系数定义为(Brehm&Diederichs,2014)
其中{我我}和{我j}是从这两个图案测量的强度我和j、和{小时}是常见反射的索引。和是使用两个图案的共同反射计算的平均强度。然后设计聚类算法,将模式分组到正确的类中,以一致地分配索引。具体来说,Brehm和Diederichs通过使用BD算法将衍射图案映射到超空间,成功地将衍射图案分类为索引模式。对于任何一对衍射图案,定义了两个量来描述它们的关系。一个是皮尔逊距离,定义为(1.0−第页ij公司),其中第页ij公司是皮尔逊相关有效值[见方程式(1)]. 第二个关系是超空间中这两个图案之间的欧氏距离(或角度),其中衍射图案嵌入并表示为点(或在考虑图案之间的角度时,表示为原点的矢量)。在BD算法中,皮尔逊距离和欧氏距离(或角度)之间的差异被最小化。该过程最终将密切相关的模式映射到超空间中更接近的位置,从而分离索引模式。
仅记录部分强度的衍射图案之间的成对相关性可能不够准确,无法将一种索引模式与替代模式区分开来(尤其是对于最小的纳米晶体),但BD算法的成功表明了利用图案之间的成对相关性进行聚类的可行性。研究还发现,一种模式和所有其他模式之间的平均Pearson相关性可以用来解决索引歧义,并最终导致以一致的方式进行索引。下面描述的方法也使用了皮尔逊的相关系数分配索引以使模式索引一致。考虑到单个图案由一组“部分反射”组成,我们的想法是,将单个图案中记录的部分反射与具有完全反射的模型进行比较,应该会产生更可靠的结果。因此,我们设计了衍射图案之间的皮尔逊相关性我以及由全反射组成的模型{我满的},定义如下:
哪里第页我是相关系数所有其他符号与等式(1)中的相同我们现在描述如何使用期望最大化方法从部分反射数据集迭代构造全反射数据集。
2.3. 错误度量
对于模拟数据,全反射模型是已知的,可以用作检查脱矿是否成功的参考。计算详细模型和参考模型之间的相关性很简单。为了清晰起见,我们将与参考模型一致的索引模式标记为一致索引模式(CIM);其他索引模式被标记为替代索引模式(AIM)。对于有多个AIM的情况,可以使用下标,例如AIM1、AIM2 等。对于对6三 空间组只有一个AIM,因此在比较合并模型和参考模型时,我们将这两种索引模式标记为CIM和AIM。因为在一种模式中索引的模型可以映射到其他模式,所以CIM和AIM是可互换的。为了便于进行以下讨论,目标模型的索引模式(与参考模型产生最佳一致性)被标记为CIM。来自已知结构及其索引模式的这些参考强度仅用于比较目的,以监测实验数据分析中的错误,并且在任何阶段都不会用作指导提取的输入。
对于实验数据,我们使用了在Linac相干光源(LCLS;美国加利福尼亚州斯坦福)进行SFX实验期间收集的光系统I(PSI)数据。PSI[PDB(Berman)的原子坐标等。, 2000)代码1个jb0; 乔丹等。, 2001]用于计算理论模型的反射强度,然后将其用作参考模型来评估提取精度。
使用目标分数监控模型构建过程,定义为
哪里N个是模式的数量。通过以一致的方式将更多衍射图案合并到合并模型中,随着合并模型的改进,该分数将增加。当所有模式都被正确索引时,此目标分数将达到最大值。
3.结果
3.1. 使用实验数据进行性能评估
光系统I(PSI)属于空间组 对6三,其索引模糊度为{小时, k个, 我}和{},所以有两种方法可以合并任意两个衍射图案。PSI数据集包括17个 已经在LCLS处收集了106个索引模式。在自诱导分析后,识别了单元-细胞参数,并发现其与使用宏晶体同步辐射数据(PDB代码)求解的模型一致1个jb0)。将我们的EM算法应用于该数据集和输出模型,并与根据已知原子模型(PDB代码)计算的理论形状因子进行比较1个jb0)。图2总结了脱粒过程在两种索引模式(一致和替代索引模式、CIM和AIM)下,将每次迭代的合并模型与参考模型(PDB结构的理论形状因子)进行比较。经过六次迭代,合并后的模型收敛到稳定解。图2(一)表明初始相关性几乎为零,因为初始模型由随机正数组成(因此不期望存在相关性)。第一次迭代的输出模型与参考模型之间的相关性(1个jb0蛋白质强度)达到0.62左右。17人的取向 在第一次迭代之后,将该测试中使用的106个图案分类为大约相同大小的两组。第二次迭代后,合并模型和参考模型之间的相关系数开始发散,并在两种索引模式下稳定在0.71和0.41。监测得分[方程式(4)]也增加到约0.42,如图2中的红色曲线所示(一)。由于图案是通过实验获得的,因此实际方向事先未知,因此很难评估正确恢复方向的图案数量。然而,使用理论强度作为参考,可以根据方法, §2.1,方程式(2).我们的EM算法恢复了94.6%的衍射图案(16 17人中有188人 106),其方式与使用理论模型作为参考所分配的索引模式一致。在图2中(b条),穿过平面的强度切片我=0英寸互易空间用于演示去赢得前后合并强度之间的差异。为了清楚起见,只有第一个象限小时 < 20,k个<20显示。如前所述,对于对6三 空间组出现索引模糊{小时, k个, 我}和{}. 在飞机上我=0,孪晶强度应为对称分布,因为米勒指数{小时, k个, 0}和{k个, 小时, 0}在解决索引歧义之前是等价的。从原始实验数据集中的合并数据中可以清楚地观察到这种对称性(图2顶部b条),而图2的底部(b条)显示了去赢得的结果,表明由于孪生应用我们的EM去赢得算法后,效果不存在。
| 图2 使用LCLS为光系统I收集的实验数据集测试去赢得算法的结果(一)脱粒过程。参考强度是根据PDB模型(PDB代码)计算的理论值1个jb0)。蓝色和绿色曲线是两种索引模式下理论强度和合并强度之间的相关系数。红色曲线是目标分数,即每个模式与合并模型之间最高相关系数的平均值。(b条)平面中第一象限内的强度分布我=0英寸倒易空间。应用EM去赢得算法(底部)后,孪生数据(顶部)的对称性消失。 |
致谢
这项研究得到了人类前沿科学计划(HFSP)(第024940号奖励)和NSF STC(第1231306号奖励)的资助。作者承认与T.A.博士的讨论。怀特和N.A.医生。扎茨平。
工具书类
Barends,T.R.、Foucar,L.、Botha,S.、Doak,R.B.、Shoeman,R.L.、Nass,K.、Koglin,J.E.、Williams,G.J.、Boutet,S.和Messerschmidt,M.&Schlichting,I.(2014)。自然,505, 244–247. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalow,I.N.和Bourne,P.E.(2000)。核酸研究。 28, 235–242. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Boutet,S.公司。等。(2012).科学类,337, 362–364. 交叉参考 中国科学院 公共医学 谷歌学者
Brehm,W.和Diederichs,K.(2014)。阿克塔·克里斯特。D类70,101–109科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
H.N.查普曼。等。(2011).自然,470, 73–77. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Duisenberg,A.J.M.(1992)。J.应用。克里斯特。 25, 92–96. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
J.哈特尼。等。(2014年)。自然方法,11, 545–548. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Jordan,P.、Fromme,P.,Witt,H.T.、Klukas,O.、Saenger,W.和Krauss,N.(2001年)。自然,411, 909–917. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Kirian,R.A.,Wang,X.,Weierstall,U.,Schmidt,K.E.,Spence,J.C。H、。,Hunter,M.、Fromme,P.、White,T.、Chapman,H.N.和Holton,J.(2010年)。选择。快递,18,第5713–5723页科学网 交叉参考 公共医学 谷歌学者
Leslie,A.G.W.(1999)。阿克塔·克里斯特。D类55, 1696–1702. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
刘,W。等。(2013).科学类,342, 1521–1524. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Loh,N.-T.D.&Elser,V.(2009年)。物理学。版本E,80, 026705. 科学网 交叉参考 谷歌学者
雷德克,L。等。(2013).科学类,339, 227–230. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Rossmann,M.G.和Erickson,J.W.(1983年)。J.应用。克里斯特。 16, 629–636. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Rossmann,M.G.、Leslie,A.G.W.、Abdel-Meguid,S.S.和Tsukihara,T.(1979年)。J.应用。克里斯特。 12, 570–581. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Sauter,N.K.、Grosse-Kunstleve,R.W.和Adams,P.D.(2004)。J.应用。克里斯特。 37, 399–409. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Snell,E.H.、Bellamy,H.D.和Borgstahl,G.E.(2003)。方法酶制剂。 368,268–288科学网 交叉参考 公共医学 中国科学院 谷歌学者
Spence,J.C.H.,Kirian,R.A.,Wang,X.,Weierstall,U.,Schmidt,K.E。,White,T.、Barty,A.、Chapman,H.N.、Marchesini,S.和Holton,J.(2011)。选择。快递,19, 2866–2873. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Spence,J.C.H.、Zatsepin,N.A.和Li,C.(2014)。菲洛斯。事务处理。R.Soc.B公司,369, 20130325. 交叉参考 谷歌学者
Tegze,M.和Bortel,G.(2012年)。J.结构。生物。 179, 41–45. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
White,T.A.、Kirian,R.A.、Martin,A.V.、Aquila,A.、Nass,K.、Barty,A.和Chapman,H.N.(2012年)。J.应用。克里斯特。 45, 335–341. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.、Read,R.J.、Vagin,A.&Wilson,K.S.(2011)。阿克塔·克里斯特。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
国际标准编号:2052-2525
打开访问