研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

IUCrJ大学
国际标准编号:2052-2525

用期望最大化算法解决串行飞秒晶体学(SFX)中的索引模糊性

十字标记_颜色_方形_文本.svg

美国亚利桑那州立大学物理系b条中华人民共和国北京市海淀区鹤庆路3号北京计算科学研究中心,邮编:100084
*通信电子邮件:spence@asu.edu

编辑:T.Ishikawa,Harima Institute,日本(2014年6月6日收到; 2014年9月9日接受; 在线2014年9月23日)

晶体学自诱导算法提供晶体方向和单元间参数,并指定米勒指数基于衍射图案中观察到的布拉格峰之间的几何关系。然而,如果Bravais对称性高于空间群对称性,则会有多个几何等效的索引选项,因此有许多方法可以合并蛋白质纳米晶体的衍射强度。结构系数需要全反射的幅度来解决这个模糊性,但每个XFEL放炮只有部分反射可用,必须合并这些放炮才能从这些“静止”中获得全反射。为了解决这个鸡和蛋的问题,描述了一种期望最大化算法,该算法在解决索引模糊性时,根据衍射图案中记录的强度迭代地构建模型。然后使用重建的模型指导索引模糊度的解决,作为下一次迭代的反馈。使用在X射线激光器上收集的模拟和实验数据,用于6 空间组(支持四面体孪晶索引歧义),验证了该方法。

1.简介

X光透视自由电子激光器(XFEL)产生飞秒持续时间的短暂强X射线脉冲,允许结构测定亚微米晶体。这种被称为串行飞秒晶体学(SFX)的技术为蛋白质(Barends)提供了原子分辨率结构等。, 2014[Barends,T.R.、Foucar,L.、Botha,S.、Doak,R.B.、Shoeman,R.L.、Nass,K.、Koglin,J.E.、Williams,G.J.、Boutet,S.和Messerschmidt,M.&Schlichting,I.(2014)。《自然》,505,244-247。]; 布泰等。, 2012【Boutet,S.等人(2012),《科学》,337,362-364。】; 查普曼等。, 2011[Chapman,H.N.等人(2011),《自然》,第470、73-77页。]; 线路接口单元等。, 2013[Liu,W.等人(2013).科学,342,1521-1524.]; 雷德克等。, 2013[Redecke,L.等人(2013),《科学》,339,227-230。])。与此同时,SFX为数据分析带来了许多挑战,因为索引后必须合并数千个不同尺寸和方向的纳米晶体的图案,也因为脉冲强度的大的逐点变化。在这里,我们讨论了SFX中最重要的问题之一,即Bravais对称性高于空间群对称性时出现的索引模糊性。在最简单的形式中,当索引正确的晶体也可能被索引为其孪晶时,就会出现索引模糊。这里我们并不认为纳米晶本身是孪晶,只是不同单晶的数据可能会意外地合并成孪晶相关的取向。因此,来自受孪生折射率模糊性与物理孪晶相似。因此,解决这一歧义的过程被称为取舍。

自动诱导软件,包括广泛使用的MOSFLM公司(莱斯利,1999年【Leslie,A.G.W.(1999),《水晶学报》D551696-1702。】),迪拉克斯(杜伊斯伯格,1992年【Duisenberg,A.J.M.(1992),《应用结晶学杂志》,第25期,第92-96页。】)和标签(绍特等。, 2004【Sauter,N.K.,Grosse-Kunstleve,R.W.&Adams,P.D.(2004),《应用结晶杂志》,第37期,第399-409页。】)程序能够根据衍射图样中的布拉格光斑位置确定单位-细胞参数和晶体方向。在传统晶体学中,分度模糊并不是一个严重的问题,因为(i)从每个晶体测量一系列(甚至一整套)具有已知相对转动关系的衍射图案;(ii)在每个布拉格点测得的反射是窄分布的,代表了全部衍射强度,特别是如果在每次曝光期间应用振荡或旋转技术。在SFX中,晶体在与X射线激光脉冲相互作用后立即被完全破坏。在飞秒曝光过程中,可以忽略纳米晶体的旋转,因此记录的强度仅涵盖镶嵌产生的反射角宽度的一小部分。该分数由每个脉冲内的波长范围设置(通常为0.1%单色性),因此无法从单个衍射图案中提取完整的结构因子。衍射图案之间的取向关系未知,因为晶体的取向是随机的,自动诱导方法无法区分,例如,仅基于布拉格光斑位置的孪晶相关索引方案。在这种情况下,如果根据索引结果合并数据,在两种索引模式等效的情况下,可能会有一半的数据偶然被错误合并,导致合并的数据集似乎来自物理孪晶。另一方面,布拉格点的全反射强度可以提供解决这种模糊性所需的额外信息。

在SFX索引中,出现了第二个挑战,即对于镶嵌晶体,测量的快照XFEL Bragg斑点仅为部分反射。这是X射线激光的准直性和单色性的结果,X射线激光只对每个反射的全角宽度的一小部分进行采样,而这些反射被镶嵌(Hattne等。, 2014【Hattne,J.等人(2014),《自然方法》,第11期,第545-548页。】)。镶嵌模型因晶体类型而异,基于连续弹性变形的模型在某些情况下可能适用[参见Snell等。(2003[Snell,E.H.、Bellamy,H.D.和Borgstahl,G.E.(2003)。《酶学方法》368,268-288。])查看]。

偏倚有几种定义,通常很松散地定义为给定衍射光束偏离准确布拉格条件的角度。更准确地说,我们将反射的偏度定义为在一个实验模式中记录的全反射的分数,单位的最大值对应于全反射。第二种情况则不同,最小的纳米晶由单个镶嵌块(可能有弹性变形)组成,小于相干光束的宽度,其中纳米晶外部形状的完整傅里叶变换(所谓的形状变换)围绕每个倒易点阵点。然后可以看到布拉格点之间的干涉条纹(查普曼等。, 2011[Chapman,H.N.等人(2011),《自然》,第470、73-77页。]; 斯彭斯等。, 2011[Spence,J.C.H.,Kirian,R.A.,Wang,X.,Weierstall,U.,Schmidt,K.E.,White,T.,Barty,A.,Chapman,H.N.,Marchesini,S.&Holton,J.(2011),《Opt.Express》,第19期,第2866-2873页。])布拉格条件周围的散射角分布不再被建模为光滑的窄峰。我们还可能遇到第三种情况,当使用最小的亚微米直径XFEL光束时,光束尺寸可能小于一个“镶嵌块”或孤立的纳米晶体。这种相干会聚束衍射的情况由Spence处理等。(2014【Spence,J.C.H.,Zatsepin,N.A.&Li,C.(2014),《哲学翻译R.Soc.B》,369,20130325。】)这里不考虑。第四种情况是大的完美晶体(如半导体硅片),其中动态散射很重要,这里也不考虑,因为它不会出现在蛋白质晶体学中。

由于偏爱变化引起的强度变化可能远大于索引方案选择变化引起的亮度变化,因此存在鸡和蛋的问题,需要进行全面反射来解决索引歧义,但只有正确分配索引以允许数据合并,才能获得这些结果。部分反射分析方法由Rossmann&Erickson(1983)开发【Rossmann,M.G.和Erickson,J.W.(1983),《应用结晶杂志》,第16期,第629-636页。】)[另见Rossmann等。(1979【Rossmann,M.G.,Leslie,A.G.W.,Abdel-Meguid,S.S.&Tsukihara,T.(1979),《应用结晶杂志》,第12期,第570-581页。】)]自那时以来,它一直被用作一种后细化形式,与同步加速器基于测角仪的现代数据采集相结合。最近,Brehm&Diederichs(2014年【Brehm,W.&Diederichs,K.(2014),《水晶学报》第70期,第101-109页。】)开发了算法(BD算法),通过基于两两相似性对模式进行聚类来解决索引歧义,使用Pearson的相关系数。在这里,我们描述了一种期望最大化(EM)算法,以建立每个衍射图案之间的关系,并迭代构造完全正确索引的三维衍射体。BD和EM算法的重要区别在于它们的评估函数。EM不使用两组部分反射之间的成对关系(对应于两个衍射图案中记录的信息)。相反,它利用了来自任何图案的反射与合并的全反射模型之间的关系,该模型是使用EM算法迭代建立的。与迭代改进模型的重复比较大大缩短了收敛时间,提高了方法的准确性。我们在以下框架内实现了此算法水晶EL(白色等。, 2012【怀特,T.A.,基里安,R.A.,马丁,A.V.,阿奎拉,A.,纳斯,K.,巴蒂,A.&查普曼,H.N.(2012),《应用结晶杂志》第45期,第335-341页。】)并使用来自光系统I晶体的模拟图案和实验图案对其进行了测试。

2.方法

2.1. 现有方法和皮尔逊相关性

对于两种衍射模式,皮尔逊相关系数定义为(Brehm&Diederichs,2014【Brehm,W.&Diederichs,K.(2014),《水晶学报》第70期,第101-109页。】)

[r_{ij}={{\sum\limits_{h}\left[I_I(h)-{\overline I}_I\right]\left[I_j(h)-{\overrine I}_j\right]}\ over{\left\{\sum\ limits_{h}\ left[I _I(h)-{\ overline I}_I\ right]^2\sum\limits_{h}\left[I _j(h)-{\ overrine I}_j \ right]^2\right\}1/2}},\eqno(1)]

其中{}和{j}是从这两个图案测量的强度j、和{小时}是常见反射的索引。[{\上划线I}_I][{\overline I}_j]是使用两个图案的共同反射计算的平均强度。然后设计聚类算法,将模式分组到正确的类中,以一致地分配索引。具体来说,Brehm和Diederichs通过使用BD算法将衍射图案映射到超空间,成功地将衍射图案分类为索引模式。对于任何一对衍射图案,定义了两个量来描述它们的关系。一个是皮尔逊距离,定义为(1.0−第页ij公司),其中第页ij公司是皮尔逊相关有效值[见方程式(1)[链接]]. 第二个关系是超空间中这两个图案之间的欧氏距离(或角度),其中衍射图案嵌入并表示为点(或在考虑图案之间的角度时,表示为原点的矢量)。在BD算法中,皮尔逊距离和欧氏距离(或角度)之间的差异被最小化。该过程最终将密切相关的模式映射到超空间中更接近的位置,从而分离索引模式。

仅记录部分强度的衍射图案之间的成对相关性可能不够准确,无法将一种索引模式与替代模式区分开来(尤其是对于最小的纳米晶体),但BD算法的成功表明了利用图案之间的成对相关性进行聚类的可行性。研究还发现,一种模式和所有其他模式之间的平均Pearson相关性可以用来解决索引歧义,并最终导致以一致的方式进行索引。下面描述的方法也使用了皮尔逊的相关系数分配索引以使模式索引一致。考虑到单个图案由一组“部分反射”组成,我们的想法是,将单个图案中记录的部分反射与具有完全反射的模型进行比较,应该会产生更可靠的结果。因此,我们设计了衍射图案之间的皮尔逊相关性以及由全反射组成的模型{满的},定义如下:

[r_{i}={{\sum\limits_{h}\left[i_i(h)-{\overline i}_i\right]\left[i_{\rm full}(h)-{\overrine i}_{\rm-full}\ right]}\ over{\left\{\sum\limits{h}\ left[i _ i(h _{\rm full}\right]^2\right\}^{1/2}}},\eqno(2)]

哪里第页相关系数所有其他符号与等式(1)中的相同[链接]我们现在描述如何使用期望最大化方法从部分反射数据集迭代构造全反射数据集。

2.2。期望最大化算法与全反射构造

三维全强度互易空间可以根据已知结构的原子模型进行计算。这些{满的}然后可以用作恢复每个衍射图案的方向信息的参考。实际上{满的}通常对大分子来说是未知的,只有在恢复正确的取向或索引模式后,才能通过合并衍射图案来确定。这又回到了我们的“鸡和蛋”问题上,使用期望最大化(EM)方法求解“正确索引和全反射数据集”。EM方法已应用于一个相关问题:从单粒子实验中确定散射图案的方向,并将散射强度合并到三维散射强度体积中。我们调整了Tegze&Bortel(2012)的实施【Tegze,M.和Bortel,G.(2012),《结构生物学杂志》179,41-45。】),它使用皮尔逊相关系数来指定方向。EM方法及其实施的详细信息可以在其他地方找到(Loh&Elser,2009【Loh,N.-T.D.&Elser,V.(2009),《物理评论E》,80,026705。】; Tegze&Bortel,2012年【Tegze,M.和Bortel,G.(2012),《结构生物学杂志》179,41-45。】)。简言之,该算法的工作原理如下。

n个第次迭代,将每个二维实验衍射图案(由部分反射组成)与三维模型上的全反射强度进行比较倒格子。相关系数{第页t吨}在每个图案之间计算以及每个索引模式的模型t吨,其中t吨列举了所有可能的索引可能性(两种,对于孪生歧义的情况)。然后,根据与当前模型相关性最高的索引模式,将整套二维图案相互合并为三维衍射体。然后将这个新合并的模型用作下一次迭代的参考,在该迭代中重复此过程,并继续进行,直到合并的模型收敛到稳定的解。用于第一次迭代的模型由代表布拉格光斑强度的随机实数组成。通过这种方式,相关性的数量从N个n个(将每个模式与所有其他模式进行比较)到〈编号(通过使用累积模型)N个模式和n个索引可能性,其中\9002;是预期的迭代次数。这是EM算法的真正威力,它来自于使用一个模型,其中一次迭代的输出反馈给下一次迭代以改进结果。对于以下情况空间组 6,有两种索引模式({小时,k个,}和{[k,h,{上划线l}]})如果不考虑全反射强度信息,则无法区分。该算法在下面的方案中以伪代码的形式概述,并在图1中作为流程图[链接].[链接]使用此算法,我们旨在解决以下优化问题

[{\hat I}_{\rm full}=\arg\max\limits_t\sum\limits _I r_{I}^{t}\quad{\rm-subject\,to}\,t\in\,{\rm-indexing\,modes}.\eqno(3)]

至于蒙特卡罗积分法(Kirian等。, 2010【Kirian,R.A.、Wang,X.、Weierstall,U.、Schmidt,K.E.、Spence,J.C.H.、Hunter,M.、Fromme,P.、White,T.、Chapman,H.N.和Holton,J.(2010)。Opt.Express,185713-5723。】)通过对相同布拉格点的多次测量值进行平均,将衍射图案的强度合并到衍射体积中,并以此方式处理偏倚。这意味着更多的测量(或衍射图案)应能更准确地逼近真实的全反射模型,误差减小为图案数量的平方根倒数。

【方案一】
[图1]
图1
期望最大化算法的流程图。

2.3. 错误度量

对于模拟数据,全反射模型是已知的,可以用作检查脱矿是否成功的参考。计算详细模型和参考模型之间的相关性很简单。为了清晰起见,我们将与参考模型一致的索引模式标记为一致索引模式(CIM);其他索引模式被标记为替代索引模式(AIM)。对于有多个AIM的情况,可以使用下标,例如AIM1、AIM2 。对于6 空间组只有一个AIM,因此在比较合并模型和参考模型时,我们将这两种索引模式标记为CIM和AIM。因为在一种模式中索引的模型可以映射到其他模式,所以CIM和AIM是可互换的。为了便于进行以下讨论,目标模型的索引模式(与参考模型产生最佳一致性)被标记为CIM。来自已知结构及其索引模式的这些参考强度仅用于比较目的,以监测实验数据分析中的错误,并且在任何阶段都不会用作指导提取的输入。

对于实验数据,我们使用了在Linac相干光源(LCLS;美国加利福尼亚州斯坦福)进行SFX实验期间收集的光系统I(PSI)数据。PSI[PDB(Berman)的原子坐标等。, 2000[Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalow,I.N.和Bourne,P.E.(2000)。核酸研究28,235-242。])代码1个jb0; 乔丹等。, 2001【Jordan,P.、Fromme,P.,Witt,H.T.、Klukas,O.、Saenger,W.和Krauss,N.(2001)。《自然》,411909-917。】]用于计算理论模型的反射强度,然后将其用作参考模型来评估提取精度。

使用目标分数监控模型构建过程,定义为

[{r_{\rm分数}}={1\over N}\sum\limits_{i=1}^N{\max\limits/t}\left(\left\{r_}i}^{t}\right\}\right),\eqno(4)]

哪里N个是模式的数量。通过以一致的方式将更多衍射图案合并到合并模型中,随着合并模型的改进,该分数将增加。当所有模式都被正确索引时,此目标分数将达到最大值。

3.结果

3.1. 使用实验数据进行性能评估

光系统I(PSI)属于空间组 6,其索引模糊度为{小时,k个,}和{[k,h,{上划线l}]},所以有两种方法可以合并任意两个衍射图案。PSI数据集包括17个已经在LCLS处收集了106个索引模式。在自诱导分析后,识别了单元-细胞参数,并发现其与使用宏晶体同步辐射数据(PDB代码)求解的模型一致1个jb0)。将我们的EM算法应用于该数据集和输出模型,并与根据已知原子模型(PDB代码)计算的理论形状因子进行比较1个jb0)。图2总结了脱粒过程[链接]在两种索引模式(一致和替代索引模式、CIM和AIM)下,将每次迭代的合并模型与参考模型(PDB结构的理论形状因子)进行比较。经过六次迭代,合并后的模型收敛到稳定解。图2[链接]()表明初始相关性几乎为零,因为初始模型由随机正数组成(因此不期望存在相关性)。第一次迭代的输出模型与参考模型之间的相关性(1个jb0蛋白质强度)达到0.62左右。17人的取向在第一次迭代之后,将该测试中使用的106个图案分类为大约相同大小的两组。第二次迭代后,合并模型和参考模型之间的相关系数开始发散,并在两种索引模式下稳定在0.71和0.41。监测得分[方程式(4)[链接]]也增加到约0.42,如图2中的红色曲线所示[链接]()。由于图案是通过实验获得的,因此实际方向事先未知,因此很难评估正确恢复方向的图案数量。然而,使用理论强度作为参考,可以根据方法, §2.1[链接],方程式(2)[链接].我们的EM算法恢复了94.6%的衍射图案(1617人中有188人106),其方式与使用理论模型作为参考所分配的索引模式一致。在图2中[链接](b条),穿过平面的强度切片=0英寸互易空间用于演示去赢得前后合并强度之间的差异。为了清楚起见,只有第一个象限小时 < 20,k个<20显示。如前所述,对于6 空间组出现索引模糊{小时,k个,}和{[k,h,{上划线l}]}. 在飞机上=0,孪晶强度应为对称分布,因为米勒指数{小时,k个,0}和{k个,小时,0}在解决索引歧义之前是等价的。从原始实验数据集中的合并数据中可以清楚地观察到这种对称性(图2顶部[链接]b条),而图2的底部[链接](b条)显示了去赢得的结果,表明由于孪生应用我们的EM去赢得算法后,效果不存在。

[图2]
图2
使用LCLS为光系统I收集的实验数据集测试去赢得算法的结果()脱粒过程。参考强度是根据PDB模型(PDB代码)计算的理论值1个jb0)。蓝色和绿色曲线是两种索引模式下理论强度和合并强度之间的相关系数。红色曲线是目标分数,每个模式与合并模型之间最高相关系数的平均值。(b条)平面中第一象限内的强度分布=0英寸倒易空间。应用EM去赢得算法(底部)后,孪生数据(顶部)的对称性消失。

3.2. 使用模拟数据进行性能评估

为了进一步量化算法的性能,进行了两类仿真。第一类模拟采用与Brehm&Diederichs(2014)相同的方法进行【Brehm,W.&Diederichs,K.(2014),《水晶学报》第70期,第101-109页。】)。理论强度使用sfall公司中的程序CCP4包(获胜者等。, 2011[Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.,Read,R.J.,Vagin,A.&Wilson,K.S.(2011),《基督学报》,D67,235-242。]),基于中的PSI空间组 6使用PDB模型中的单元-单元参数(PDB代码1个jb0)。模拟模式基于LCLS收集的实验数据,如前一节所述。对于每种模式,布拉格峰都是以相同的概率按照任一索引模式重新诱导的。将实验强度替换为计算值,并使用从均匀分布(从0到1)中随机抽取的部分对部分反射进行建模。射击噪音,遵循泊松分布,添加到模拟强度。对于模拟数据集,在已知每个衍射图案的索引模式信息的情况下,可以通过计算正确恢复的索引模式的数量来直接评估算法的性能。图3总结了典型试运行的结果[链接],表明绝大多数模式都是根据参考模型进行索引的。

[图3]
图3
模拟数据集的全强度重建和去重过程的总结。索引歧义在六次迭代后消失,几乎所有的模式都被一致地索引(用三角形排列)。所有其他注释与图2中的注释相同[链接]().

提取过程与§3.1中讨论的实验数据集的情况类似[链接]。起始模型与两种索引模式下的参考模型均不相关,如零所示相关系数。然后,在第一次迭代之后,根据处于每个索引模式的可能性,模式分为两类,并且按照预期,一半的模式在该迭代中被正确分配。随着迭代的继续,索引歧义性被打破,这反映在正确恢复的索引模式的百分比不断增加。目标分数增加,经过几次迭代后,达到约0.85的稳定值。合并模型和参考模型之间的相关性(理论强度计算公式1个jb0)也绘制在图3中[链接]将合并后的模型与参考模型在两种索引模式下进行比较空间组 6随着去提取的进行,衍射图样中嵌入的信息被合并到合并模型中,第一次迭代后,该模型与参考模型的相关性增加到CIM的0.71和AIM的0.69(图3[链接])。这种最初倾向于一种索引模式而非另一种索引方式的小倾向最终导致索引歧义的消除。我们注意到相关系数在CIM中经过六次迭代后,参考模型和合并模型之间的关系增加到0.88,而AIM中模型的系数逐渐减少到约0.40。

强度的偏好不是随机分布的,而是取决于许多因素,包括晶体大小、取向和镶嵌性以及辐射的单色性。这里,我们通过假设晶体尺寸大致相同来简化问题,这可以通过实验晶体尺寸选择或数据筛选实现。对于第二类模拟数据集,使用程序对偏好进行建模部分_符号在中CrystFEL公司套房(白色等。, 2012【怀特,T.A.,基里安,R.A.,马丁,A.V.,阿奎拉,A.,纳斯,K.,巴蒂,A.&查普曼,H.N.(2012),《应用结晶杂志》第45期,第335-341页。】)。图4[链接]()显示了偏好和分辨率之间的关系。由于Ewald壳层在较高分辨率下较厚,因此Ewald外壳和Bragg斑点之间的重叠越大,强度测量结果越好,这反映在较高散射角下的较大偏度上。对于10的数据集,算法的性能图4总结了使用这种方法编译的000个模式[链接](b条)。在这种情况下,模型强度重建收敛更快,索引模糊度仅需两次迭代即可解决。决赛相关系数与理论强度相比约为0.99,只有两种模式(共10种000)索引不正确。

[图4]
图4
模拟数据集的提取过程,重点是偏好的系统建模。()偏见和决心之间的关系。分辨率更高(更大q个值),记录的强度更准确,更好地表示相应的全反射。(b条)在两次迭代中,索引模糊性问题得到了解决,几乎所有模式都以一致模式进行索引。

3.3. 算法的一致性和鲁棒性

去赢得结果是一致的。对于§3.1中描述的同一组实验数据[链接]EM算法对不同的随机生成的启动模型进行了10次应用。图5显示了十个脱纬过程[链接](),表示十次迭代内去赢得的收敛性。虽然收敛速度不同,但最终结果是一致的:(i)在两种索引模式下,与根据PDB结构计算的参考模型的相关性非常相似;(ii)目标分数收敛到几乎相同的值。通过计算两两相关性来评估十次运行的最终模型之间的一致性。还值得将EM去赢得结果与在CrystFEL公司包,程序煽动者,它利用一个模式和由其他模式组成的集合之间的相关性的平均值。在两两比较中,我们还包括了合并的强度,但没有进行去重运算。为了进行这些比较,计算了分辨率壳内反射子集在3到5之间的相关性Å. 该反射子集包含约55%的总反射(111204人中有452人092),很好地代表了互易空间降低低分辨率下超大强度的影响。结果总结如图5所示[链接](b条),其中每个模型对之间的相关性计算两次,考虑两种索引模式:一种用于CIM,另一种用于AIM。下三角矩阵显示了在相同模式(CIM)下索引时模型之间的相关性,上三角矩阵包含在替代索引模式(AIM)下的模型之间的相关性。热图显示,当以相同模式索引时,这十个模型具有非常大的相关性(>0.90),表明具有良好的自我一致性。另一方面,在不同模式下,模型之间的相关性小于0.55。来自迁徙者程序还与从EM算法中获得的所有十个模型密切相关,相关系数为0.90-0.95。相比之下,孪晶强度与所得到的结果没有很强的相关性。根据孪生模型和所有其他详细结果之间的相关性,孪生模型的两种索引模式几乎无法区分(相关性在0.70和0.80之间),如热图所示(图5[链接]b条),其中最后一行和最后一列对应于两种索引模式的详细结果和孪生数据之间的相关性。

[图5]
图5
EM算法的结果是一致的。()该程序使用随机生成的启动模型运行了十次,最终输出模型与理论模型的相关性几乎相同。(b条)对十次运行的模型和程序结果进行两两比较迁徙者在里面CrystFEL公司和孪生数据。下三角矩阵显示了在CIM中进行比较时的相关性,上三角矩阵显示了AIM中的相关性。请注意,在这两种模式下(深灰色、最后一行和最后一列),孪生数据的相关性非常相似,而其他模型非常一致,在相同模式下索引时,相关性大于0.90。

EM算法速度快,并且在模式数量方面具有线性缩放的优势。大约花了18分钟min处理由17个以上的实验数据集MacBook Pro上的000个图案,2.8GHz Intel Core i7双核处理器。在图6中,计算时间被绘制为图案数量的函数[链接](),显示出线性相关关系。该算法的当前实现使用单个计算核心,当需要处理更大的数据集时,可以通过将相关性计算并行化,将相关性计算分发给多个计算核心,从而加快去抽取速度。

[图6]
图6
EM算法的速度和对数据集的要求。()一次迭代所需的时间与衍射图案的数量成线性关系。(b条)对于PSI实验数据,需要至少设置5000个衍射图案,以确保可靠的收敛模型。纵轴上显示的CIM百分比是指与参考模型一致的恢复索引模式的百分比。当样本量小于500时,EM算法无法解决索引歧义。对于1000到3000个模式组成测试集的情况,可以成功地进行去抽取,但较大的错误条表明不能保证成功率,因此需要更多的运行。

还使用较小的数据集对EM算法进行了评估,结果表明该算法非常稳健。根据由17个以上数据组成的实验数据集000个PSI晶体衍射图样,随机选择图样子集,形成500、1000、2000、3000和10个数据集000个图案。图6总结了一致索引模式的百分比[链接](b条)。当数据集由5000多个衍射图案组成时,我们发现大约90%以上的图案得到了一致的索引。当数据集由较少的模式组成时,算法变得不那么可靠,表现为较小的百分比和较大的波动。这可能是因为,如果数据集不够大,合并后的强度无法准确近似全反射。这可以从蒙特卡罗积分的基本性质中理解,这需要对每个布拉格点进行足够的采样。另一个极端情况是,当测试数据集中的模式数量太少(本测试案例中为500个)时,一致索引的模式接近50%(去抽取失败),如图6所示[链接](b条).

4.讨论和结论

我们已经证明,期望最大化(EM)算法可以用于解决串行飞秒晶体学(SFX)和其他X射线衍射实验中出现的索引模糊问题,在这些实验中,无需测角仪即可采集“静止”反射,例如在同步加速器中使用脂质立方相纳米晶注射器。在SFX中,纳米晶体的实验衍射图样取决于几个因素,包括晶体取向、尺寸、镶嵌性和形状、X射线束剖面以及晶体和X射线脉冲之间的相互作用区域(例如,晶体可能只被高度聚焦的光束部分照亮)。如果相干光束比晶体宽,则亚微米级晶体可能会导致形状变换效应。这些效应将在随后一篇专门讨论最小晶体的论文中进行研究。X射线束剖面因弹丸而异,但播种方法可以提高束流质量。在XFEL(Kirian)纳米晶的原始蒙特卡罗采样方法中等。, 2010【Kirian,R.A.,Wang,X.,Weierstall,U.,Schmidt,K.E.,Spence,J.C.H.,Hunter,M.,Fromme,P.,White,T.,Chapman,H.N.&Holton,J.(2010年)。Opt.Express,18,5713-5723.】),预计这种方法将对所有随机实验变量进行平均,并且这种行为已经被N个−1/2在错误中失败结构系数用数字测量N个衍射模式的变化。结果表明,衍射图样之间的成对相关可以用来打破标引模糊性。虽然根据部分强度计算的相关函数可能不太准确,但这些信息足以从索引错误的双胞胎中识别正确的方向。在这种行动中,质量结果至关重要。只要正确的索引模式与错误的索引模式相比产生稍高的相关性,那么基于相关性的算法就应该有效。这可以解释在实验数据集中区分正确索引模式与其孪生模式的方法的成功之处,其中第页分数小于1.0(第页分数=1.0,仅在每个图案中记录了全反射的情况下)。

反射强度的偏爱并不妨碍恢复正确的索引模式。如果模式在光系统I晶体的两种可能的孪晶相关模式中随机索引,则合并(孪晶)的全强度将具有相关系数与正确的模型(用于生成图案的理论值)相比约为0.71。解决模糊性后,合并模型几乎与参考模型相同(相关系数接近1.0),即使在平均偏度小于0.4的情况下(见图4[链接]).

使用使用部分_符号程序使用与生成图4中数据集相同的参数[链接],我们对两个指标进行了比较:(i)使用所有模式和随机选择的模式之间的相关性(每个相关系数在两组部分反射之间进行),以及(ii)使用图案和全强度之间的相关性(部分反射和全反射之间的相关性)。结果如图7所示[链接]表明我们基于EM方法的相关方法在区分索引模式方面更加可靠。随着迭代的进行,合并的强度向全强度移动,两种索引模式的分离变得更加明显,最终移动到图7的状态[链接](b条).

[图7]
图7
成对SFX模式之间的相关性,以及SFX模式与全反射模型之间的相关性。数据集来自使用部分_符号程序(见图4[链接])。()将衍射图案与随机选择的图案进行比较,并计算每对图案(黑色和红色)的两种分度模式的相关系数。每个索引模式的平均系数用蓝线和黄线表示。(b条)衍射图案和三次迭代后合并强度之间的相关性。很明显(b条)更可靠地分离两种索引模式,即使存在严重偏爱(<40%,见图4[链接]).

真实的实验数据经常受到不完美测量的影响,例如低分辨率下非常明亮点的饱和像素,或高分辨率下的低强度像素。这种缺陷会在相关性中引入错误。减少这些饱和像素和低信号像素影响的一种策略是将这些数据点从相关性计算中排除。在EM去赢得程序的当前实施中,相关性计算忽略了非常低的分辨率数据,因为在低分辨率下的非常大的值将使相关性对不同索引模式导致的差异不太敏感。

总之,我们发现基于期望最大化方法的算法可以有效地解决索引模糊问题,这在许多空间群的串行飞秒晶体学中是不可避免的。该方法在CrystFEL公司框架,源代码可根据作者的要求提供。

致谢

这项研究得到了人类前沿科学计划(HFSP)(第024940号奖励)和NSF STC(第1231306号奖励)的资助。作者承认与T.A.博士的讨论。怀特和N.A.医生。扎茨平。

工具书类

第一次引用Barends,T.R.、Foucar,L.、Botha,S.、Doak,R.B.、Shoeman,R.L.、Nass,K.、Koglin,J.E.、Williams,G.J.、Boutet,S.和Messerschmidt,M.&Schlichting,I.(2014)。自然,505, 244–247. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Berman,H.M.、Westbrook,J.、Feng,Z.、Gilliland,G.、Bhat,T.N.、Weissig,H.、Shindyalow,I.N.和Bourne,P.E.(2000)。核酸研究。 28, 235–242. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Boutet,S.公司。等。(2012).科学类,337, 362–364. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Brehm,W.和Diederichs,K.(2014)。阿克塔·克里斯特。D类70,101–109科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用H.N.查普曼。等。(2011).自然,470, 73–77. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Duisenberg,A.J.M.(1992)。J.应用。克里斯特。 25, 92–96. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用J.哈特尼。等。(2014年)。自然方法,11, 545–548. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Jordan,P.、Fromme,P.,Witt,H.T.、Klukas,O.、Saenger,W.和Krauss,N.(2001年)。自然,411, 909–917. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Kirian,R.A.,Wang,X.,Weierstall,U.,Schmidt,K.E.,Spence,J.C。H、。,Hunter,M.、Fromme,P.、White,T.、Chapman,H.N.和Holton,J.(2010年)。选择。快递,18,第5713–5723页科学网 交叉参考 公共医学 谷歌学者
第一次引用Leslie,A.G.W.(1999)。阿克塔·克里斯特。D类55, 1696–1702. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用刘,W。等。(2013).科学类,342, 1521–1524. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Loh,N.-T.D.&Elser,V.(2009年)。物理学。版本E,80, 026705. 科学网 交叉参考 谷歌学者
第一次引用雷德克,L。等。(2013).科学类,339, 227–230. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Rossmann,M.G.和Erickson,J.W.(1983年)。J.应用。克里斯特。 16, 629–636. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Rossmann,M.G.、Leslie,A.G.W.、Abdel-Meguid,S.S.和Tsukihara,T.(1979年)。J.应用。克里斯特。 12, 570–581. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Sauter,N.K.、Grosse-Kunstleve,R.W.和Adams,P.D.(2004)。J.应用。克里斯特。 37, 399–409. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Snell,E.H.、Bellamy,H.D.和Borgstahl,G.E.(2003)。方法酶制剂。 368,268–288科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Spence,J.C.H.,Kirian,R.A.,Wang,X.,Weierstall,U.,Schmidt,K.E。,White,T.、Barty,A.、Chapman,H.N.、Marchesini,S.和Holton,J.(2011)。选择。快递,19, 2866–2873. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Spence,J.C.H.、Zatsepin,N.A.和Li,C.(2014)。菲洛斯。事务处理。R.Soc.B公司,369, 20130325. 交叉参考 谷歌学者
第一次引用Tegze,M.和Bortel,G.(2012年)。J.结构。生物。 179, 41–45. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用White,T.A.、Kirian,R.A.、Martin,A.V.、Aquila,A.、Nass,K.、Barty,A.和Chapman,H.N.(2012年)。J.应用。克里斯特。 45, 335–341. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.、Read,R.J.、Vagin,A.&Wilson,K.S.(2011)。阿克塔·克里斯特。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

IUCrJ大学
国际标准编号:2052-2525