研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构性的
生物学
编号:2059-7983

XFEL数据的SAD阶段划分严重依赖于错误模型

十字标记_颜色_方形_文本.svg

美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室分子生物物理和集成生物成像部,邮编:94720b条美国加州伯克利市劳伦斯伯克利国家实验室能源研究应用高等数学中心,邮编:94720
*通信电子邮件:asbrewster@lbl.gov,nksauter@lbl.gov

英国剑桥大学R.J.Read编辑(2019年3月7日收到; 2019年9月17日接受; 2019年10月30日在线)

提出了一种非线性最小二乘法,用于细化描述串行晶体学(SX)数据中反射强度估计误差的参数表达式。这种方法类似于同步加速器晶体数据采集的旋转方法,将光子计数统计的误差估计传播到合并数据中。在这里,证明了将这种方法应用于SX数据可以提供更好的SAD阶段化能力,从而能够自动构建以前未能构建的蛋白质结构。估计合并反射强度中的误差需要了解和传播测量产生的所有误差源。一种常见的错误是探测器计算X射线光子时产生的计数错误。因此,如果完全理解了其他类型的随机误差(如读出噪声)以及系统校正中的不确定性(如X射线衰减),它们可以酌情与计数误差一起传播。在实践中,大多数软件包会传播尽可能多的错误,因为它们知道如何建模,然后包括错误调整项,这些项可以缩放错误估计,直到解释度量之间的差异。如果仔细执行,那么在SAD阶段化过程中,类似的基于hood的方法可以优化使用这些误差估计,从而增加成功解决结构问题的机会。在串行晶体学中,SAD定相仍然具有挑战性从头开始蛋白质结构解决方案,每个方案都需要数千个衍射图案。这里估计了处理误差估计的不同方法的影响,并表明使用包括与已知实验不确定性成比例的项的参数方法,改进误差估计的反射强度和平方反射强度可以允许SAD相位调整,即使是在微弱的锌异常信号中。

1.简介

使用X射线晶体学求解一个新的蛋白质结构通常涉及到对类似结构的依赖分子置换(MR)可用于推导相位信息,或重原子的存在,这些重原子可提供异常差异,以用于SAD(单波长异常色散)或MAD(多波长异常色散)相位(以及其他方法)。SAD定相,X射线反常散射蛋白质结构中的重原子破坏了衍射模式中的反转/弗里德尔对称性,其他等效反射通常显示出3-4%的强度差异。此信息可用于确定重原子下部结构在蛋白质中,然后用于解决相位问题。这种方法需要高度准确地测量强度,并且对此类数据的分析表明,受益于最大似然方法(de La Fortelle&Bricogne,1997【La Fortelle,E.de&Bricogne,G.(1997)。《酶学方法》,276472-494。】; 麦考伊等。, 2004【McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004),《结晶学报》,D60,1220-1228。】),附带警告最大似然方法还需要对合并的强度误差进行准确估计。

在串行晶体学(SX)中,以所需的精度确定反射强度并估计其误差是一项挑战,这使得从SX数据中确定新结构的相位变得困难。通常为102–107晶体受到同步加速器或X射线自由电子激光(XFEL)辐射。使用液流注入、基于网格的光栅扫描或声波液滴注入(在Bergmann中回顾等。, 2017[Bergmann,U.、Yachandra,V.和Yano,J.(2017)。《X射线自由电子激光器》。剑桥:皇家化学学会。]). 对单个衍射图案进行索引,以确定晶体方向和单位细胞尺寸,然后预测和整合反射位置。由于晶体没有旋转,反射仅被部分记录,因此使用后细化算法来应用偏误校正因子,以便根据结构因子等效值来重新表示总强度。最后,使用简单平均值或加权平均值将冗余测量的反射合并在一起(White,2014【White,T.A.(2014).Philos.Trans.R.Soc.Lond.B Biol.Sci.36920130330.】; 卡布施,2014【Kabsch,W.(2014),《水晶学报》,第70期,第2204-2216页。】; 绍特,2015【Sauter,N.K.(2015),J.同步加速器辐射22,239-248。】; Uervirojnangkoorn公司等。, 2015【Uervirojnangkoorn,M.,Zeldin,O.B.,Lyubimov,A.Y.,Hattne,J.,Brewster,A.S.,Sauter,N.K.,Brunger,A.T.&Weis,W.I.(2015)。Elife,4,e05421.】; 金恩等。, 2015【Ginn,H.M.、Brewster,A.S.、Hattne,J.、Evans,G.、Wagner,A.、Grimes,J.M.和Sauter,N.K.、Sutton,G.和Stuart,D.I.(2015),《结晶学报》第71期,第1400-1410页。】).

在晶体学实验中,光从光子计数统计中得到的误差估计并不能解释测量中观察到的方差,因为存在其他误差源,所以总是低估了方差。1985年,IUCr小组委员会统计描述符负责评估当时用于确定差异和提供建议的统计方法的有效性(施瓦岑巴赫等。, 1989【Schwarzenbach,D.,Abrahams,S.C.,Flack,H.D.,Gonschorek,W.,Hahn,T.,Huml,K.,Marsh,R.E.,Prince,E.,Robertson,B.E.,Rollett,J.S.&Wilson,A.J.C.(1989),《结晶学报》A45,63-75。】). 在他们的报告中,他们建议,如果测量的多重性足够高,那么简单的测量范围就足以估计误差。否则,他们建议晶体学方法开发人员使用误差传播方法来结合不确定性光子计数随机和系统性误差来源。随机误差源包括读出噪声和暗电流。系统误差源包括空气、样品或水的X射线衰减、探测器失准以及估计波长或通量在SX的情况下,偏袒。由于反射仅被部分记录,因此每次测量都会减少其全部强度的0%至100%,具体取决于晶体方向、镶嵌性和光束的光谱特性。对于SX数据来说,偏倚可能是主要的误差源,其中反射尾部接触到埃瓦尔德球体与直接与Ewald球体相交的反射相比,引入了更多数量级的不确定性。

错误来源的完整列表非常广泛,很难确保所有错误来源都得到了解释。为此,已经制定了程序来调整误差估计值,通常在应用任何其他已知校正后,使用强度相关和强度无关因子将其膨胀到更大的值(Leslie,1999【Leslie,A.G.W.(1999),《水晶学报》D551696-1702。】, 2006【Leslie,A.G.W.(2006),《水晶学报》,D62,48-57。】; Otwinowski&Minor,2001年[Otwinowski,Z.&Minor,W.(2001),《国际晶体学表》,第F卷,M.G.Rossmann和E.Arnold编辑,第226-235页。多德雷赫特:Kluwer学术出版社。]; 卡布什,2010年【Kabsch,W.(2010a),《结晶学报》,D66,125-132。】,b条【Kabsch,W.(2010b),《结晶学报》,D66,133-144。】; 埃文斯,2006【Evans,P.(2006),《水晶学报》,D62,72-82。】, 2011【Evans,P.R.(2011),《水晶学报》,D67,282-292。】). 有关全套参考文献,请参见Rossmann&Arnold(2001[Rossmann,M.G.&Arnold,E.(2001)。编辑。《国际结晶学表》,第F卷,第11章。多德雷赫特:Kluwer学术出版社。]).

在本研究中,我们发现误差估计值的获得方式直接影响我们使用SAD定相求解XFEL结构的能力从头开始我们检查了三种处理错误的方法,并表明只有其中一些方法允许我们使用SAD找到嗜热蛋白数据集的锌位点,然后自动构建结构。我们还表明,通过更好的误差处理,即使测量次数较少,也可以获得可解释的地图。

2.方法

这项工作直接源于布鲁斯特报告的工作等。(2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】). 数据集可以从cxi.db条目81下载(https://www.cxidb.org/id-81.html),在索引和集成后,由来自CSPAD探测器上LCLS CXI终端收集的嗜热蛋白数据集的160000多个晶体组成(Kern等。, 2014[Kern,J.,Tran,R.,Alonso Mori,R.,Koroidov,S.,Echols,N.,Hattne,J.,Ibrahim,M.,Gul,S.,Laksmono,H.,Sierra,R.G.,Gildea,R.J.,Han,G.,Hellmich,J.,Lassalle Kaiser,B.,Chatterjee,R.,Brewster,A.S.,Stan,C.A.,Glöckner,C.,Lampe,A.,DiFiore,D.,Milathianaki,D.,Fry,A.R.,Seibert,M.,Koglin,J。E.、Gallo,E.、Uhlig,J.、Sokaras,D.、Weng,T.C.、Zwart,P.H.、Skinner,D.E.、Bogan,M.J.、Messerschmidt,M.、Glatzel,P.、Williams,G.J.、Boutet,S.、Adams,P.D.、Zouni,A.、Messinger,J.,Sauter,N.K.、Bergmann,U.、Yano,J.和Yachandra,V.K.(2014)。自然社区。5, 4371.]; 雄鹿等。, 2012【Hart,P.、Boutet,S.、Carini,G.、Dubrovin,M.、Duda,B.、Fritz,D.、Haller,G.,Herbst,R.、Herrmann,S.,Kenney,C.、Kurita,N.、Lemke,H.、Messerschmidt,M.,Nordby,M.和Pines,J.、Schafer,D.、Swift,M). 索引后,时间相关系综精炼在应用中,将数据分组为多批图像,然后对检测器模型进行细化,以解释可能由液体喷射系统不稳定引起的样品位置随时间的变化(布鲁斯特等。, 2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】). 该系统的预期Bijvoet比率(〈|F类+F类|〉/〈F类〉),包含两个Zn2+和四个Ca2+总共2561个非H原子中的原子占2.1%(特威利格等。, 2016[Terwilliger,T.C.,Bunkóczi,G.,Hung,L.-W.,Zwart,P.H.,Smith,J.L.,Akey,D.L.和Adams,P.D.(2016)。晶体学报D72,346-358。]; 亨德里克森和蒂特,1981年[Hendrickson,W.A.&Teeter,M.M.(1981),《自然》(伦敦),290,107-113。]).

与布鲁斯特不同等。(2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】)根据光束线工作人员的报告,首先将图像从测量像素值转换为光子单位,再除以估计值25。本实验使用了具有非均匀增益响应的早期CSPAD;因此,使用一个反修正常数大大简化了探测器的物理过程(哈特等。, 2012【Hart,P.、Boutet,S.、Carini,G.、Dubrovin,M.、Duda,B.、Fritz,D.、Haller,G.,Herbst,R.、Herrmann,S.,Kenney,C.、Kurita,N.、Lemke,H.、Messerschmidt,M.,Nordby,M.和Pines,J.、Schafer,D.、Swift,M). 使用这些增益校正的像素值,我们还需要修改Brewster中描述的合并协议等。(2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】). 我们在合并过程中应用了全图像分辨率过滤器,其中每个图像的分辨率截止点由信噪比所在的点确定(/σ)低于给定的阈值。为了弥补以下事实/σ随着增益的平方根减小,我们将阈值从0.5降低到0.1[0.1=0.5/(25)1/2].

我们分析了三种处理SX数据误差的方法,如第2.1节所述[链接]–2.3[链接]在使用其中一种方法处理综合强度误差估计值后,我们使用它们创建合并强度小时和合并误差估计σ小时根据以下程序。给定一个米勒指数 小时具有n个测量小时,我们定义j个第次测量小时作为P(P)香港相关的光子计数误差为σP(P)香港[简称σc(c)(香港)在布鲁斯特等。(2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】)]. 上标P表示由于测量是从静止图像进行的,因此只能部分观察到反射。强度和估计误差均按比例缩放至其完全等效值,香港σ香港,使用全图像比例因子c(c),一个威尔逊B类因素B类c(c)和过反射偏倚校正P(P)香港根据Sauter(2015【Sauter,N.K.(2015),J.同步加速器辐射22,239-248。】),

[I_{hj}={I^{rmP}{hj{}}\在{K_{hj}}}上,\eqno(1)]

[\sigma_{hj}={{\sigma ^{\rm P}_{hj}}\在{K_{hj}}}上,\eqno(2)]

[K_{hj}=P_{hj}G_{c} \exp\left[-2B_{c}\left({{\sin\theta_{h}}\over{lambda_{c{}}\right)^{2}\right],\eqno(3)]

哪里θ小时布拉格角对于米勒指数 小时,λc(c)是入射波长和下标c(c)表示引起反射的晶体香港.P(P)香港是该测量的偏误校正因子[参见方程(14)[链接]Uervirojnang­koorn的等。(2015【Uervirojnangkoorn,M.,Zeldin,O.B.,Lyubimov,A.Y.,Hattne,J.,Brewster,A.S.,Sauter,N.K.,Brunger,A.T.&Weis,W.I.(2015)。Elife,4,e05421.】)],这取决于λc(c)镶嵌性估计与晶体的单位尺寸和取向c(c)重要的是,Sauter(2015)的后精炼【Sauter,N.K.(2015),J.同步加速器辐射22,239-248。】)类似于Winkler中描述的后细化等。(1979[Winkler,F.K.,Schutt,C.E.和Harrison,S.C.(1979),《晶体学报》A35,901-911。])和罗斯曼等。(1979【Rossmann,M.G.,Leslie,A.G.W.,Abdel-Meguid,S.S.&Tsukihara,T.(1979),《应用结晶杂志》,第12期,第570-581页。】)在这一点上,目标函数细化了观察到的强度值和预测的强度值之间的差异。但是,要优化的参数的选择有所不同。在这里,我们细化了晶体的错误取向角,c(c)、和B类c(c)对于每一帧,而不是马赛克本身,马赛克是从经验上检查图像上观察到的反射而得出的(绍特等。, 2014【Sauter,N.K.,Hattne,J.,Brewster,A.S.,Echols,N.,Zwart,P.H.&Adams,P.D.(2014),《结晶学报》第70期,第3299-3309页。】).

在进行逐帧后细化、缩放和偏倚校正后,我们根据下面详述的三个协议合并了校正后的强度和误差估计值,并在表1中进行了总结[链接].

表1
错误建模方法概述

协议 重量 描述
1 未加权误差估计
2 σ香港 光子计数误差估计值作为权重
σ第11版 改进SDFAC术语以扩大光子计数误差估计
†这些是(7)中使用的重量[链接]和(8)[链接],这样重量w个= 1/σ2.

2.1. 方案1:未加权平均值

我们从施瓦岑巴赫的建议开始等。(1989【Schwarzenbach,D.,Abrahams,S.C.,Flack,H.D.,Gonschorek,W.,Hahn,T.,Huml,K.,Marsh,R.E.,Prince,E.,Robertson,B.E.,Rollett,J.S.&Wilson,A.J.C.(1989),《结晶学报》A45,63-75。】),其中我们使用测量值的平均值来估计反射强度,

[I_{h}={{sum_{j=1}^{n} 我_{hj}}\在n}上,\eqno(4)]

我们使用观测到的测量值分布来确定误差估计,

[\sigma_{\rm-res}=\left[{{sum_{j=1}^{n}(I_{hj}-\langle I_{h}\rangle)^{2}\over{n-1}}\right]^{1/2},\eqno(5)]

[\sigma_{h}={\sigma_{\rm res}}\超过{n ^{1/2}}}}},\eqno(6)]

哪里σ物件指测量值与其平均值之间的残差(标准偏差),以及σ小时指用于反射的合并误差估计小时是平均值的标准误差。协议1未使用原始误差估计中的信息光子计数(σ香港),并假设有足够大的反射样本可用于可靠估计不确定性。此公式与Chapman中的公式类似等。(2011[查普曼·H·N、弗洛姆·P、巴蒂·A、怀特·T·A、基里安·R·A、阿奎拉·A、亨特·M·S、舒尔茨·J、德庞特·D·P、魏尔斯塔尔·U、多克·R·B、迈亚·F·R·N·C、马丁·A·V、施利钦·I、伦布·L、科波拉·N、肖曼·R·L、埃普·S。W.、Hartmann,R.、Rolles,D.、Rudenko,A.、Foucar,L.、Kimmel,N.、Weidenspointner,G.、Holl,P.、Liang,M.、Barthemess,M.,Caleman,C.、Boutet,S.、Bogan,M.J.、Krzywinski,J.、Bostedt,C.、Bajt,S..、Gumprecht,L.,Rudek,B.、Erk,B.,Schmidt,C,Hömke,A.、Reich,C.、Pietschner,D.、Strüder,L.和Hauser,G.,Gorke,H.、Ullr ich,J。,Herrmann,S.、Schaller,G.、Schopper,F.、Soltau,H.、Kühnel,K.-U.、Messer­schmidt,M.、Bozek,J.D.、Hau-Riege,S.P.、Frank,M、Hampton,C.Y.、Sierra,R.G.、Starodub,D.、Williams,G.J.、Hajdu,J.、Timneanu,N.、Seibert,M.,Andreasson,J.,Rocker,A.、Jönsson,O.、Svenda,M.;Stern,S.,Nass,K.、Andritschke,R.、Schröter,中心-中心。,Krasniqi,F.、Bott,M.、Schmidt,K.E.、Wang,X.、Grotjohann,I.、Holton,J.M.、Barends,T.R.、Neutze,R.、Marchesini,S.、Fromme,R.,Schorb,S.,Rupp,D.、Adolph,M.,Gorkhover,T.、Andersson,I.,Hirsemann,H.、Potdevin,G.、Graafsma,H.,Nilsson,B.&Spence,J.C.H.(2011)。《自然》(伦敦),47073-77。])和白色等。(2012【怀特,T.A.,基里安,R.A.,马丁,A.V.,阿奎拉,A.,纳斯,K.,巴蒂,A.&查普曼,H.N.(2012),《应用结晶杂志》第45期,第335-341页。】),分母略有不同σ物件通过使用n个−1,而不是n个.

2.2。方案2:加权平均值

来自静止图像的测量强度的分布不遵循高斯分布,因为每个强度仅被部分测量。反射偏度是晶体取向、晶胞尺寸、波长光谱和晶体镶嵌度的函数。难以估计这些参数会导致积分弱反射和高度部分反射,从而使分布偏向零。由于偏态分布,平均值不是结构因子强度的理想估计值,因此协议2使用加权平均数以及估计反射强度的平均值的加权标准误差和该估计中的不确定性,

[I_{h}={{sum_{j=1}^{n} w个_{hj}我_{hj}}\在{sum_{j=1}上^{n} w个_{hj}}},\eqno(7)]

[\sigma_{h}=\left({1}\over{\sum_{j=1}^{n} w个_{hj}}\右)^{1/2},\等号(8)]

其中重量w个香港是从光子计数误差估计值导出的方差权重σ香港,Leslie(1999)中描述的光子求和估计误差【Leslie,A.G.W.(1999),《水晶学报》D551696-1702。】),应遵循泊松分布:

[w{hj}={{1}\over{\sigma{{hj{}}^{2}}.\eqno(9)]

2.3. 协议3:Ev11

协议3使用Evans(2006)的术语调整误差估计【Evans,P.(2006),《水晶学报》,D62,72-82。】)和Evans(2011年【Evans,P.R.(2011),《水晶学报》,D67,282-292。】):fac公司,B类添加.1在布鲁斯特等。(2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】)我们表明,将这些因素应用于未校正的嗜热菌蛋白酶数据会降低最终的合并/σ估计约为30,这对于蛋白质晶体学来说更为合理(Diederichs,2010【Diederichs,K.(2010),《水晶学报》,D66733-740。】). 我们还表明,应用这些因素大大增加了锌原子的反常峰高(从44.6σ增加到74.0σ)。在布鲁斯特等。(2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】)以Evans(2011)为例【Evans,P.R.(2011),《水晶学报》,D67,282-292。】),我们的实现使用了一个单纯形最小化器来细化这些术语。在这项工作中,我们使用了基于梯度的非线性最小二乘最小化程序。

将单个测量值的估计误差放大的方程式为

[\sigma_{\rm Ev11}^{2}=s_{\rma fac}^{2][\simma_{hj}^{2%+s_{\rm B}^{2,langle I_{h}\rangle+s_}\rm add}^{2\langle I_{h}\ rangle^{2],\eqno(10)]

其中〈小时是测量值的平均值小时通过因子校正后K(K)香港此方程类似于误差传播,其中附加误差与强度成正比,可能来自仪器不稳定性(添加),以正交形式添加到计数误差估计值中σ香港埃文斯(2011)【Evans,P.R.(2011),《水晶学报》,D67,282-292。】),的fac公司该项被认为是考虑了增益误差等影响,将探测器计数转换为光子计数。这个B类为了更好地将观测到的误差估计值拟合到正态分布中,纳入了术语,但Evans(2011【Evans,P.R.(2011),《水晶学报》,D67,282-292。】)这个词没有物理意义。在这里,我们首先展示了如何计算fac公司,B类添加使用正态概率分析,遵循Evans(2006【Evans,P.(2006),《水晶学报》,D62,72-82。】). 然后我们使用了一个有限记忆的Broyden–Fletcher–Goldfarb–Shanno(LBFGS;Liu&Nocedal,1989)[Liu,D.C.&Nocedal,J.(1989)。数学课程。45,503-528。])最小化以细化这些参数,直到标准化误差估计的偏差最接近1。

之后精炼fac公司,B类添加术语,1/σ2第11版用作(7)中的砝码[链接]和(8)[链接]计算加权平均数以及每个反射平均值的加权标准误差,如协议2中所示。

2.3.1. 初始参数估计

误差估计,如σ香港表示测量值的偏差香港从未知的总体平均值。如果这些与平均值的偏差是正态分布的,那么归一化偏差将遵循标准正态分布,以零为中心的高斯分布,标准偏差为1。我们选择初始值fac公司,B类添加根据以下程序,最好调整原始偏差,使归一化偏差接近标准正态分布。

标准化偏差一组强度和σ的归一化偏差的公式与Evans(2011)中描述的类似【Evans,P.R.(2011),《水晶学报》,D67,282-292。】),但包括(n个−1)/n个当前实施的系数无AIMLESS.归一化偏差δ香港规范对于香港

[\delta_{{hj{\rm-norm}}}=\左({{n-1}\上{n}}\右)^{1/2}{{I_{hj}-\langle I'{hj}\rangle}\over{sigma{hj{}},\eqno(11)]

其中〈香港是测量值的平均值小时除了香港.在特殊情况下,其中n个= 1, 〈香港〉=0,在这种情况下,自n个 − 1 = 0,δ2香港规范= 0. 这些观察结果不包括在以下初始参数估计的正常概率分析中。

正态概率分析。使用标准化偏差,我们可以初始化fac公司,B类添加如Evans(2006)所建议的,使用称为“正态概率图”的图形技术的参数【Evans,P.(2006),《水晶学报》,D62,72-82。】)(另见钱伯斯等。, 1983【钱伯斯,J.M.,克利夫兰,W.S.,克莱纳,B.&图基,P.A.(1983)。数据分析的图形方法,第6章。贝尔蒙特:华兹华斯。]). 正态概率图有助于确定数据采样接近正态分布的程度。给定以下样本我们对观察结果进行排序,然后将其与一组理论值或预期值。理论值按照正态分布完美分布。如果我们的观测值确实是正态分布的,那么绘图将是一条斜率为1、偏移量为0的直线。“完美”理论值是正常顺序统计中值,也称为rankit。在简单的情况下=5个总观察值,第二、第三和第四秩等于正态分布的第一个四分位数、中位数和第三个四分位数。我们计算rankit的方法与qq范数在中执行R(右)(R核心团队,2017年[R核心团队,(2017)。R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。https://www.r-project.org/。]). 兰吉特z(z)对于中的第th个值

[z_{i}=\Phi^{-1}\左({{i-a}\上{m+1-2a}}\右),\eqno(12)]

哪里Φ−1是标准正态分位数函数(累积分布函数的倒数),其中=3/8,如果≤10和0.5,如果> 10. 表达式()/(+ 1 − 2)英寸(12)[链接]转换0到1之间的数字;因此,z(z)是排名的预期值正态分布样本。同样,正态概率图,或rankit与δ香港规范(所有δ香港规范如果误差估计值是正态分布的,则斜率为1,偏移量为0。为了确定一组初始参数,我们确定拟合到此绘图中心区域的直线的斜率和偏移(使用−0.5到0.5之间的区域以避免拟合异常值)。fac公司初始化为斜率,如Evans(2006)中所述【Evans,P.(2006),《水晶学报》,D62,72-82。】). In Evans(2006年【Evans,P.(2006),《水晶学报》,D62,72-82。】),添加设置为0.02。由于我们不知道这个值是否适用于XFEL数据,所以我们尝试初始化添加到正态概率图偏移,以及B类添加1/2。这似乎给出了合理的结果。作为精炼继续,正态概率图变得更加线性,斜率接近1,因为参数更好地校正估计误差,以接近从正态分布采样得出的误差(图1[链接]). 注意,正态概率分析仅用于初始化参数;这个精炼参数的概述如下。

[图1]
图1
5000张图像的正态概率图。使用协议3合并数据的5000-图像子集。在参数优化的每个步骤中,都会生成一个正态概率图(). Rankit(方程式12[链接])绘制与平均值的分类归一化偏差(方程式11[链接]). 每行代表一个步骤精炼并使用彩虹颜色映射从红色(早期步骤)到蓝色(后期步骤)进行着色。这是一个非增益修正数据集。(b条)扩大中央区域()用于计算参数初始化的斜率和偏移。(c(c))作为()但使用的是一个非校正数据集,其中每个像素除以25。(d日)作为(b条)对于的中心区域(c(c)).

2.3.2. 参数细化

我们改进了fac公司,B类添加使用LBFGS准Newton极小器的参数只需要一阶导数。对于每个步骤,我们评估(10[链接])对于每个σ香港然后使用(11)计算归一化偏差[链接]). 目标函数(f)σ将归一化偏差的平方根偏差(r.m.s.d.)与1的偏差最小化,如在100个强度箱中确定的那样。我们将强度分类如下。对于每个米勒指数 小时,确定平均强度〈小时〉的测量值小时.箱子宽度将是所有〈中的最大值小时〉所有人小时减去最小值〈小时〉所有人小时除以100。对于每个小时,所有测量值小时将根据〈分配给单个箱子小时将会有b条强度箱中的测量b条调用箱子中的所有测量值b条 英国,其中k个范围从k个=1至b条.每个英国与标准偏差相关,δ英国规范,使用该测量值的调整误差估计值计算小时,

[\delta_{bk{\rm范数}}^{2}={{n-1}\在{n}}{{(I_{白}-\langle I'{hk}\rangle)^{2}\over{\sigma_{\rm Ev11}^{2{}}},\eqno(13)]

其中〈香港\9002;是所有测量值的平均值米勒指数 小时除了英国.给,σ第11版是测量的修正误差估计值英国使用(10[链接])(注意,下标b条k个在此引用中被禁止σ第11版). 目标函数是

[f_{\sigma}=\sum\limits_{b=1}^{100}w_{b}\left[1-\左({{\sum_{k=1}^{m_{b{}}\delta_{bk{\rm范数}}^{2}\over{m{b}}\right)^{1/2}\right]^{2{,\eqno(14)]

哪里b条在100个强度仓上迭代。每个箱子的术语加权为w个b条=b条1/2.之后精炼fac公司,B类添加参数,我们将它们应用于每个σ香港计算每次测量的最终估计误差,σ第11版.

目标函数(14)的导数[链接])有关参数,请参见附录A类[链接]. The精炼使用LBFGS的这些术语中的一个是协议3。

3.结果

我们重新处理了cxi.db条目81中的数据文件(Brewster等。, 2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】)包括160000个晶格,包括积分前的增益校正(像素值除以25),并使用cxi.合并在布鲁斯特等。(2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】)初始标度因子是根据已知的嗜热蛋白结构推导出来的。相比之下,我们想解决这个结构从头开始,所以我们使用了另一种合并协议。我们首先使用cxi.合并加权平均值的默认值和平均值的加权标准误差(协议2)。然后,我们将这个平均数据集用作缩放参考并再次合并,对每个帧应用后细化,细化晶体的定向角、比例因子和WilsonB类因子(Sauter,2015【Sauter,N.K.(2015),J.同步加速器辐射22,239-248。】),但再次使用cxi.合并加权平均值的默认值和平均值的加权标准误差(协议2)。然后,我们第三次重定目标,使用这个经过优化的数据集作为缩放的参考。在第三次合并期间,应用了三个错误模型中的每一个。这种从未缩放的数据中获得引用的自举方法类似于我们以前在没有引用的情况下合并数据的方法(Uervirojnangkoorn等。, 2015【Uervirojnangkoorn,M.,Zeldin,O.B.,Lyubimov,A.Y.,Hattne,J.,Brewster,A.S.,Sauter,N.K.,Brunger,A.T.&Weis,W.I.(2015)。Elife,4,e05421.】). 对于方案3精炼fac公司= 1.32,B类=0.71和添加= 0.51.

如上所述,我们在积分之前对所有图像应用增益校正,将像素值除以25,以转换为光子单位。正如预期的那样,收益修正也对精炼Ev11的SDFAC参数(协议3)。我们在没有增益校正的情况下处理了一个5000-图像子集,发现精炼的SDFAC参数驱动功能(14[链接])从3306到122,驱动参数fac公司= 7.47,B类=0.72和添加=0.52至fac公司= 4.14,B类=0.00和添加=0.52超过66步。然而,对于纠正后的数据精炼将功能从156驱动到149,将参数从fac公司= 1.44,B类=0.67和添加=0.45至fac公司= 1.43,B类=0.96和添加在14个步骤中=0.45。图1显示了这两种细化之间的差异[链接]。不仅需要对非增益校正数据进行更实质性的最小化,还需要对最终数据进行最小化fac公司参数的大小要大一点,表示对没有增益校正的补偿。还值得注意的是,两个首字母之间的差异fac公司值与增益比有关(7.472/1.442=26.9),再次表明了fac公司以及增益估计中的不确定性。

如果已考虑到所有系统效应,则以XFEL光子单位报告的适当缩放、粒子校正和合并强度应与同步加速器测量的全反射强度相当。这两种技术的一种比较方法是信号到噪声,或/σ比率。图2[链接]显示,σ/σ与合并数据的分辨率图相比,这表明协议2的误差估计值比协议1和3的低几个数量级。图3[链接]显示/σ所有三个数据集的曲线图,如Diederichs(2010)所示【Diederichs,K.(2010),《水晶学报》,D66733-740。】)(请注意,这些是针对未合并的数据)。虽然Diederichs(2010年【Diederichs,K.(2010),《水晶学报》,D66733-740。】)正在处理测量得更好、冗余度更低的反射,/σ在光子中应该是可比较的(在20到40之间),实际上我们看到了整体值的顺序是预期的(100–104). 协议1和3显示/σ蛋白质晶体学预期的顺序值,而方案2有/σ高于预期的值。我们还发现数据集1和3没有显示Diederichs(2010年【Diederichs,K.(2010),《水晶学报》,D66733-740。】),表示此系统的信噪比未达到其极限。这意味着需要进行进一步的工作来消除系统错误。最后,注意协议1中的分散数据点(图3的左上角[链接])有很高的/σ但很低来自低冗余(≤2–4)的反射。对于方案1,这些误差估计值仅来自观测值平均值的标准误差,在低冗余度下变得不可靠。使用协议1,SX数据的可靠性可能需要至少5的冗余。

[图2]
图2
强度和σ相对于分辨率。的二维直方图,σ/σ(顶部、中间和底部)与三个误差模型的分辨率的关系。数据用于合并值。请注意轴和颜色都在对数刻度上。
[图3]
图3
/σ具有不同误差模型的绘图。的二维直方图/σ三种误差模型。显示了未合并的强度和误差估计。在顶部和底部图中,显示了相同的数据,但对于轴。注意,颜色是对数刻度。

我们还检查了总体/σ数据集中的趋势。在Hattne等。(2014[Hattne,J.、Echols,N.、Tran,R.、Kern,J.,Gildea,R.J.、Brewster,A.S.、Alonso-Mori,R.,Glöckner,C.、Hellmich,J.和Laksmono,H.、Sierra,R.G.、Lassale-Kaiser,B.、Lampe,A.、Han,G.、Gul,S.、DiFiore,D.、Milathinaki,D.、Fry,A.、Miahnahri,A.、White,W.E.、Schafer,D.W.、Seibert,M.、Koglin,J.E.、Sokaras,D.和Wen克、吨。C.、Sellberg,J.、Latimer,M.J.、Glatzel,P.、Zwart,P.H.、Grosse-Kunstleve,R.W.、Bogan,M.J.、Messerschmidt,M.、Williams,G.J.,Boutet,S.、Messinger,J.和Zouni,A.、Yano,J.,Bergmann,U.、Yachandra,V.K.、Adams,P.D.和Sauter,N.K.(2014)。《自然方法》,第11545-548页。]),我们观察到大量的负倍数/σ,我们使用这些负测量值来计算额外的误差调整项,以解释这种额外的不确定性。确定这种方法(称为Ha14;另见布鲁斯特等。, 2018【Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.,Yano,J.、Winter,G.、Evans,G.&Sauter,N.K.(2018),《水晶学报》第74期,第877-894页。】)适用于本工作中的数据,我们检查了/σ在图像的子集中。我们选择了没有布拉格点的积分区域,并比较了它们的分布/σ在这些空测量值和预测信号的测量值之间。我们发现,在Hattne发现的较大负强度异常值等。(2014[Hattne,J.、Echols,N.、Tran,R.、Kern,J.,Gildea,R.J.、Brewster,A.S.、Alonso-Mori,R.,Glöckner,C.、Hellmich,J.和Laksmono,H.、Sierra,R.G.、Lassale-Kaiser,B.、Lampe,A.、Han,G.、Gul,S.、DiFiore,D.、Milathinaki,D.、Fry,A.、Miahnahri,A.、White,W.E.、Schafer,D.W.、Seibert,M.、Koglin,J.E.、Sokaras,D.和Wen克、吨。C.、Sellberg,J.、Latimer,M.J.、Glatzel,P.、Zwart,P.H.、Grosse-Kunstleve,R.W.、Bogan,M.J.、Messerschmidt,M.、Williams,G.J.,Boutet,S.、Messinger,J.和Zouni,A.、Yano,J.,Bergmann,U.、Yachandra,V.K.、Adams,P.D.和Sauter,N.K.(2014)。《自然方法》,第11545-548页。])我们的数据中没有,负强度的分布与空测量值的分布类似(见图4[链接]). 因此,Ha14方法似乎不适用。

[图4]
图4
的直方图/σ信号与噪声的对比。()对一次嗜热菌蛋白酶处理过程中3800张图像的随机子集进行了重新整合,包括对沿该曲线的中间位置不存在反射的预测c(c)*轴。这些预测介于观测到的反射之间,仅由噪声组成。(b条)标记为整数的反射示例L(左)和分数L(左)指数。

分期和自动建造使用菲尼克斯乌托索尔(亚当斯等。, 2010【Adams,P.D.,Afonine,P.V.,Bunkóczi,G.,Chen,V.B.,Davis,I.W.,Echols,N.,Headd,J.J.,Hung,L.-W.,Kapral,G.J.,Grosse-Kunstleve,R.W.,McCoy,A.J.,Moriarty,N.W.,Oeffner,R.,Read,R.J.,Richardson,D.C.,Richards,J.S.,Terwilliger,T.C.&Zwart,P.H.(2010),《水晶学报》D66,213-221。】),从PDB条目中提供嗜热溶血素氨基酸序列4万亿(科恩等。, 2014[Kern,J.,Tran,R.,Alonso Mori,R.,Koroidov,S.,Echols,N.,Hattne,J.,Ibrahim,M.,Gul,S.,Laksmono,H.,Sierra,R.G.,Gildea,R.J.,Han,G.,Hellmich,J.,Lassalle Kaiser,B.,Chatterjee,R.,Brewster,A.S.,Stan,C.A.,Glöckner,C.,Lampe,A.,DiFiore,D.,Milathianaki,D.,Fry,A.R.,Seibert,M.,Koglin,J。E.、Gallo,E.、Uhlig,J.、Sokaras,D.、Weng,T.C.、Zwart,P.H.、Skinner,D.E.、Bogan,M.J.、Messerschmidt,M.、Glatzel,P.、Williams,G.J.、Boutet,S.、Adams,P.D.、Zouni,A.、Messinger,J.,Sauter,N.K.、Bergmann,U.、Yano,J.和Yachandra,V.K.(2014)。自然社区。5, 4371.]),一个NCS副本并使用所有默认值,除了指定两个锌原子作为搜索目标外,使用海斯搜索到4.0º,并使用0.467的溶剂分数进行极限密度修改。阶段化结果如表2所示[链接].

表2
不同误差模型的SAD阶段化结果

括号中的值表示最高分辨率箱。

协议 1 2
重量 σ香港 σ第11版
分辨率(Ω) 80.78–1.80 (1.86–1.80)
/σ 13.8 (2.7) 59.7 (2.0) 14.0 (1.4)
科科斯群岛1/2(%) 99.9 (73.8) 99.8 (63.3) 99.9 (81.4)
2+峰值高度(σ) 53.1 50.5 67
发现的站点数海斯§ 6 ± 0 6 ± 0 6 ± 0
建造的残留物数量(共316个)§ 252.4±15.2 104.1 ± 1.4 297.2 ± 6.5
模型–映射CC§(%) 71.0 ± 0.4 30.3 ± 0.2 80.0 ± 0.1
R(右)工作§(%) 27.4 ± 1.8 54.8 ± 0.3 21.2 ± 1.3
R(右)自由的§(%) 29.9 ± 2.0 57.3±0.8 23.7±1.7
†如表1所示[链接],对于给定重量w个哪里w个= 1/σ2.
这些高于图3中的数值[链接]因为在合并期间,较高强度的观测值被赋予较高的权重。
§数字是具有不同随机数种子的十次试验的平均值±标准偏差。
¶与已知结构的相位图相关性。

虽然所有协议都能够找到六个重原子站点,但协议2在SAD阶段化和自动构建期间基本上失败了,而未加权协议1部分成功了。超过三分之二的结构是用协议1建造的,模型很可能可以手动完成。使用由SDFAC参数膨胀的误差估计值,阶段化和自动构建成功(协议3)。与使用未加权方差相比,该协议还显示了改进的相位和自动构建结构的能力(协议1)。SDFAC的LBFGS版本精炼显示了与单纯形极小化器(未显示)几乎相同的结果,但重要的是LBFGS是确定性的,不依赖于单纯形最小化固有的初始化中的随机性,并且比单纯形极小化器收敛的时间和步骤更短(见下文)。

为了确定这些算法是否提高了相位调整所需的图像数量,对于三种协议中的每一种,我们都使用从1000个图像到完整数据集(160 000多个图像;图5[链接]). 此外,由于我们使用随机抽样来创建这些子集,因此我们对每个子集重复了十次抽样。对于无法进行子采样的完整数据集,我们按照Bunkóczi的建议,使用随机种子运行自动求解器十次等。(2015【Bunkóczi,G.,McCoy,A.J.,Echols,N.,Grosse-Kunstleve,R.W.,Adams,P.D.,Holton,J.M.,Read,R.J.&Terwilliger,T.C.(2015),《自然方法》,第12期,第127-130页。】).

[图5]
图5
图像数量对汽车建造成功的影响。对于这三种协议中的每一种,处理的图像数量都在增加。锌的反常峰高2+原子(),发现的重原子站点数量(共6个)(b条)已知的模型到映射CC(c(c))以及建造的残留物数量(d日)与数据集中的图像数量相对应。在每种情况下,阴影区域表示十个子样本(数据集1000-100000)或十个随机种子(完整数据集,164063幅图像)的标准偏差。请注意,对于(b条)某些数据点具有在所有试验中发现的相同数量的位点,因此没有标准偏差。

我们发现,对于锌SAD阶段化实验,我们仍然需要几乎所有的图像来自动构建结构。Autobuilding使用协议3(图5)构建了大约一半的结构,拥有10万张图像d日),但使用较少的图像和其他协议失败。然而,我们仍然可以通过检查Zn来检查数据的定相能力2+异常峰值高度(图5[链接])、CC地图统计,即相位图与PDB码已知结构的相关性1磅(荷兰等。, 1995【Holland,D.R.,Hausrath,A.C.,Juers,D.&Matthews,B.W.(1995)。蛋白质科学,1955-1965。】)(图5[链接]c(c)),以及发现的站点数菲尼克斯根据使用菲尼克斯埃玛匹配已知结构和SAD确定位置之间的位置(图5[链接]b条). SDFAC治疗比仅残留治疗改善了结果(比较方案1和方案3)。第二号议定书一直表现不佳。

最后,对单纯形与LBFGS的性能进行了说明。使用基于导数的最小化可以用更少的步骤将优化结果转化为类似的解决方案。在一次使用10000个图像的试验(未显示)中,单纯形精简程序在932.8秒中执行了88步。然而,LBFGS最小化程序在444.5秒中执行51步。两种实现都是在Python中使用C++部分进行计算密集型部分。在C++计算归一化偏差和导数期间,进一步增加了OpenMP多处理,将LBFGS运行时间减少到322秒(64核,加速方程10[链接], 11[链接]和15[链接]).

4.讨论

众所周知,串行晶体学数据的定相非常困难。在旋转方法中,集成、缩放、错误处理和合并协议都得到了很好的研究,而在SX中,算法继续得到改进,以考虑到每个晶体记录的数据的稀疏性。少数人中的大多数从头开始PDB中的XFEL结构需要解决数万到数十万个图像(Barends等。, 2014[Barends,T.R.M.,Foucar,L.,Botha,S.,Doak,R.B.,Shoeman,R.L.,Nass,K.,Koglin,J.E.,Williams,G.J.,Boutet,S.、Messerschmidt,M.&Schlichting,I.(2014),《自然》(伦敦),505,244-247。]; 纳卡内等。, 2015[中根,T.,宋,C.,铃木,M.,南国,E.,小林,J.,Masuda,T.、井上春树,S.,Mizohata,E.,中松,T.。田中T.,田中R.,岛村T.,Tono,K.,Joti,Y.,Kameshima,T, 2016[中根,T.,川岛,S.,铃木,M.,斋木,H.,林石,T.、川崎,K.,杉山由纪夫,S.、川泽,S.;松冈,S.。松原,N.,南国,E.,小林,J.,岛村,T.;木村,K.;森井,C.,鸠山由纪子,N.;铃原,M.Yabashi,M.,Inoue,T.,Nureki,O.、Iwata,S.、Murata,M.和Mizohata,E.(2016)。程序。美国国家科学院。科学。美国,11313039-13044。]; 科勒捷等。, 2016[科利蒂尔·J.-P.、萨瓦亚·M.R.、金格里·M.、罗德里格斯·J.A.、卡西奥·D.、布鲁斯特·A.S.、米歇尔·克拉克·T.、希斯·R.H.、科克勒·N.、布特·S.、威廉姆斯·G.J.、梅塞施密特·M.,德庞特·D.P.、塞拉·R.G.、拉克斯莫诺·H.、柯林·J.E.、亨特·M.S.、帕克·H.-W.、尤维罗金科恩·M.(Uervirojnangkoorn)、比德斯希·D.K.、布鲁格·A.T.、费德里奇·B。A.、Sauter,N.K.和Eisenberg,D.S.(2016)。《自然》(伦敦),539,43-47。]; Nass公司等。, 2016【Nass,K.,Meinhart,A.,Barends,T.R.M.,Foucar,L.,Gorel,A.,Aquila,A.,Botha,S.,Doak,R.B.,Koglin,J.,Liang,M.,Shoeman,R.L.,Williams,G.,Boutet,S.&Schlichting,I.(2016)。国际癌症研究联合会,3,180-191年。】; 亨特等。, 2016【Hunter,M.S.,Yoon,C.H.,DeMirci,H.,Sierra,R.G.,Dao,E.H.,Ahmadi,R.,Aksit,F.,Aquila,A.L.,Ciftci,H.,Guillet,S.,Hayes,M.J.,Lane,T.J.,Liang,M.,LundströM,U.,Koglin,J.E.,Mgbam,P.,Rao,Y.,Zhang,L.,Wakatsuki,S.,Holton,J.M.&Boutet,S.(2016)。自然公社7,13388。】; 山下等。, 2015[山下幸男、潘·D·D·O·K·O·D·Okuda·T·Sugahara·M·Kodan·A·山口·T·Murai·T·Gomi·K·Kajiyama·N·Mizohata·E·铃木·M·Nango·E·Tono·K·Joti·Y·Kameshima·T·Park·J·宋·C·Hatsui·T、Yabashi·M·Iwata·S·Kato·H·Ago·H·Yamamoto·M·&Nakatsu·T·(2015).科学报告5、14017·]; 戈雷尔等。, 2017[Gorel,A.,Motomura,K.,Fukuzawa,H.,Doak,R.B.,Grünbein,M.L.,Hilpert,M.,Inoue,I.,Kloos). 在这项工作中,我们已经表明,在合并SX数据时,如何处理和使用误差估计值会带来一些困难。除了通过在加权和中使用来影响最终合并强度外,合并误差估计本身也广泛用于最大似然相位算法使用的技术。例如,在麦考伊等。(2004年【McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004),《结晶学报》,D60,1220-1228。】),式(2)描述了给定一组相结构因子向量的一组非相结构因子幅值的概率。虽然该等式仅使用强度作为输入,但附录中给出了根据估计实验误差传播的一组调整B类[链接]作为中使用的初始值最大似然 精细化。因此,准确估计误差是有用的就不足为奇了,但值得注意的是,改进测量反射中误差估计的差异对XFEL数据相位的能力产生了多么显著的影响。

有趣的是,当使用加权平均数。方案1(未加权平均值)的表现始终优于方案2(加权平均值加权平均数应该是总体平均值的更好估计值(特别是对于XFEL数据中的左旋强度分布)。换言之,单独使用光子计数误差估计值作为权重并不是最优的,至少就这种反常相位调整而言。只有在调整个别测量误差估计值,以便通过Ev11方法更好地解释观察到的方差后,才能将误差估计值用作权重,从而使结果优于未加权平均值(协议3,Ev11)。

我们决不会断言这里介绍的方法是处理XFEL数据收集中错误的可能方法的详尽列表。虽然我们想注意到,使用积分误差的初始估计值并应用调整使其更接近于解释观察到的误差对于从头开始相位成功,至少当使用加权和来一起平均强度时,这里的方法都不会传播来自偏倚校正本身的误差。从(1)[链接]–(3)[链接]我们看到,使用偏项、比例因子和威尔逊修正了强度B类因素。(2)[链接]传播充气误差香港通过K(K)香港,假设K(K)香港是一个常量,但实际上参数包括K(K)香港是精炼的数量。偏斜度取决于晶体取向、晶胞尺寸、波长光谱和估计的镶嵌度(Sauter,2015【Sauter,N.K.(2015),J.同步加速器辐射22,239-248。】)虽然这些术语中的真实误差未知,但可以根据用于合并的晶体数量来估计,然后传播到因子K(K)香港(见附录B类[链接]). 同样,这些术语的估计误差估计值也可以细化。已经在这方面做出了初步的努力,可以使用cctbx.xfel公司虽然这仍然不能解释SX数据采集中存在的全套未知随机和系统误差,但以这种方式传播的任何误差都应减少对通货膨胀项的依赖,以解释样本中观察到的方差。

5.软件可用性

下载和使用说明cctbx.xfel公司可在cctbx.xfel wiki上找到https://cci.lbl.gov/xfel参见布鲁斯特等。(2019【Brewster,A.S.,Young,I.D.,Lyubimov,A.,Bhowmick,A.&Sauter,N.K.(2019),《计算机结晶器》,Newslett.10,22-39.】)有关使用的说明cctbx.xfel公司图形用户界面(GUI)。

附录A

目标函数的导数

作为最小二乘最小化的一部分,我们取(14)的偏导数[链接])关于每个fac公司,B类添加参数,我们在这里统称为参数第页。我们可以通过(10)执行此操作[链接], (13)[链接], (14)[链接]和链式法则。我们首先对每个参数的平方进行导数:

[\eqaligno{{\partial f_{\sigma}}\ over{\partical p^{2}}&=2{\sum_{b=1}^{100}}w_{b}\left\{left[1-\ left({\sum _{k=1}^{m_{b}}\delta_{bk{\rm范数}}^{2{}\ over{m_}b}}\right)^{1/2}\right]\right。\cr&\次\左。\左[-{{1}\ over{2}}\左({{\sum_{k=1}^{m_{b}}\delta_{bk{\rm范数}}^{2}\ over{m_}}\right)p^{2\幻影{^a}}}}\在{m{b}}}\right\}上。&(15)}]

由于计算中使用的强度值δ英国规范并不取决于被细化的参数,

{{\partial\delta_{bk{\rm范数}}^{2}}\ over{\partical p^{2{}}={{\protial\delta_{bk{\orm范数{}^{2}\ over{\partitial\sigma_{\rm-Ev11}^{2}}{\paratil\sigma{\rm-Ev11}^{2{}\ over-{\partial p^2}}}=-{n-1}\ overr{n}}}{{{(一)_{白}-\langle I'{hk}\rangle)^{2}}\ over{(\sigma_{\rm Ev11}^{2{)^}}{{partial\sigma{\rm Ev11}^}}\over{partial p^{2neneneep}}。\等式(16)]

我们现在可以计算(10)的偏导数[链接])关于参数第页注意,极小值器细化了项本身,而不是项的平方,并且第页2/∂第页) = 2第页因此,

[\eqalignno{{\partial\sigma_{\rm Ev11}^{2}}\ over{\partical s_{\rma fac}}}&={\partitial\sigma_{\orm Ev11{^{2{}\ over{\partial s_}\rm fac{^{2]}{\paratil s_{\ rm fac}^{2}}}{\rm B}^{2}\langle I{h}\rangle+s_{\rm-add}^{2]\langle I{h}\rangle^{2{)2s{\rm-fac},&(17)\cr{{\partial\sigma{\rm-Ev11}^{2} }\在{\partial s_{\rm B}}上}&={\paratil\sigma_{\rm-Ev11}^{2}}\在}\ partial s_{\rma B}^{2}}{\partical s_{\rm B}^{2]}\在[2]上a_{\rm Ev11}^{2}}\over{\partial s_{\rma add}}}&={{\partical\sigma_{\rm Ev11{^{2{}\over{\paratil s_}\rm add}^{2}}}{{\partial s_{\rm fac}^{2}}\在{\partical s_{\rm add}}}=s_{\ rm fac}^{2}\langle I_{h}\rangle上^{2} 2秒_{\rm添加}.&(19)}]

附录B

部分反射的误差传播

在这项工作中,我们为每个反射计算一个缩放项K(K)香港包括偏见修正,威尔逊B类因子和比例因子.K(K)香港取决于晶体取向、单位细胞参数、波长、镶嵌性等(方程式1[链接]和3[链接]). 包括光子计数误差的简单误差传播σP(P)香港假设没有错误K(K)香港如(2)所示[链接]然而,如果估计的误差包括K(K)香港如果可用,则可以传播它们,此处显示了此过程的前几个步骤。给定参数第页(第页1,第页2,…)有助于K(K)香港,传播的错误为

[\sigma_{hj}^{2}=(\sigma _{hj}^{\rm P})^{2{左({{\partial\sigma-{hj{^{\rma P}}\ over{\partical P_{1}}}\ right)^{2}+(\simma_{hj}^{右)}\右)^{2}+\ldot,\eqno(20)]

又在哪里σP(P)香港是光子计数误差σ2香港是传播的错误。根据链式法则,

[\eqalignno{\sigma_{hj}^{2}&=(\sigma _{hj}^{\rm P})^{2{左({{\partial\sigma-{hj{^{\rma P}}\ over{\partical K_{hj}}}\ right)^{2}\ left})^{2}\左({{\partial\sigma_{hj}^{\rm P}}\ over{\partical K_{hj}}}\ right)^{2}\左^{2} +\ldots\cr&={{(\sigma_{hj}^{\rm P})^{2}}\ over{K_{hj}^{2{}}\ left({{\partial K_{hj}}\ over{\partical P_{1}}\ right)^{2}+{{{hj}}\在{\部分P{2}}\右)^{2}+\ldot上,&(21)}]

减少到(2)[链接]如果参数中存在错误第页被忽略。

这些和进一步衍生产品的初步实施K(K)香港关于参数第页以及精炼中的实验选项提供了相关的错误项cctbx.xfel公司.

脚注

1这些术语是根据Evans(2011)中的Sdfac、SdB和Sdadd术语重新表达的【Evans,P.R.(2011),《水晶学报》,D67,282-292。】),因此fac公司=Sdfac,B类=(分贝)1/2添加=Sdadd。

致谢

我们感谢Phil Evans、James Holton和Jan Kern就错误建模进行的富有成效的对话。

资金筹措信息

这项研究得到了NIH拨款GM117126的支持。NKS感谢Exascale Computing Project(17-SC-20-SC)的支持,该项目是美国能源部(DOE)科学办公室和国家核安全局的合作成果。进一步的支持来源于美国国立卫生研究院国家普通医学科学研究所(R01GM109019),以及美国能源部科学办公室(DOE)根据合同DE-AC02-05CH11231支持的高级科学计算研究和基础能源科学项目。这项研究的一部分是在SLAC国家加速器实验室的LCLS进行的,由DOE科学办公室OBES根据合同号DE-AC02-76SF00515提供支持。数据处理部分由美国能源部科学办公室(合同号:DEAC02-05CH11231)支持的国家能源研究科学计算中心进行。

工具书类

第一次引用Adams,P.D.、Afonine,P.V.、Bunkóczi,G.、Chen,V.B.、Davis,I.W.、Echols,N.、Headd,J.J.、Hung,L.-W.、Kapral,G.J.、Grosse-Kunstleve,R.W.、McCoy,A.J.、Moriarty,N.W.、Oeffner,R.、Read,R.J.、Richardson,D.C.、Richards,J.S.、Terwilliger,T.C.和Zwart,P.H.(2010)。《水晶学报》。D类66, 213–221. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Barends,T.R.M.、Foucar,L.、Botha,S.、Doak,R.B.、Shoeman,R.L.、Nass,K.、Koglin,J.E.、Williams,G.J.、Boutet,S.和Messerschmidt,M.&Schlichting,I.(2014)。自然(伦敦),505,244–247科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Bergmann,U.、Yachandra,V.和Yano,J.(2017年)。X射线自由电子激光器。剑桥:皇家化学学会。 谷歌学者
第一次引用Brewster,A.S.、Waterman,D.G.、Parkhurst,J.M.、Gildea,R.J.、Young,I.D.、O'Riordan,L.J.和Yano,J.、Winter,G.、Evans,G.和Sauter,N.K.(2018年)。《水晶学报》。D类74, 877–894. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Brewster,A.S.、Young,I.D.、Lyubimov,A.、Bhowmick,A.和Sauter,N.K.(2019年)。计算。结晶器。纽斯利特。 10, 22–39. 谷歌学者
第一次引用Bunkóczi,G.,McCoy,A.J.,Echols,N.,Grosse-Kunstleve,R.W.,Adams,P.D.,Holton,J.M.,Read,R.J.&Terwilliger,T.C.(2015)。自然方法,12, 127–130. 科学网 公共医学 谷歌学者
第一次引用Chambers,J.M.、Cleveland,W.S.、Kleiner,B.和Tukey,P.A.(1983年)。数据分析的图形方法,第6章。贝尔蒙特:沃兹沃斯。 谷歌学者
第一次引用Chapman,H.N.、Fromme,P.、Barty,A.、White,T.A.、Kirian,R.A.、Aquila,A.、Hunter,M.S.、Schulz,J.、DePonte,D.P.、Weierstall,U.、Doak,R.B.、Maia,F.R.N.C.、Martin,A.V.、Schlichting,I.、Lomb,L.、Coppola,N.、Shoeman,R.L.、Epp,S.W.、Hartmann,R.、Rolles,D.、Rudenko,A.、Foucar,L.、Kimmel,N.、Weidensponner,G.、Holl,P。,Liang,M.、Barthelmess,M.、Caleman,C.、Boutet,S.、Bogan,M.J.、Krzywinski,J.、Bostedt,C.、Bajt,S.、Gumprecht,L.、Rudek,B.、Erk,B.、Schmidt,C.、Hömke,A.、Reich,C.、Pietschner,D.、Strüder,L.、Hauser,G.、Gorke,H.、Ullrich,J.、Herrmann,S.、Schaller,G.、Schopper,F.、Soltau,H.、Kühnel,K.-U.、Messer­Schmidt,M.、Bozek,J.D。,Hau-Riege,S.P.,Frank,M.,Hampton,C.Y.,Sierra,R.G.,Starodub,D.,Williams,G.J.,Hajdu,J.,Timneanu,N.,Seibert,M.M.,Andreasson,J,Rocker,A.,Jönsson,O.,Svenda,M.策,R.、Marchesini,S.、Fromme,R.、Schorb,S.,Rupp,D.、Adolph,M.、Gorkhover,T.、Andersson,I.、Hirsemann,H.、Potdevin,G.、Graafsma,H.,Nilsson,B.&Spence,J.C.H.(2011年)。自然(伦敦),470, 73–77. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Colletier,J.-P.,Sawaya,M.R.,Gingery,M.,Rodriguez,J.A.,Cascio,D.,Brewster,A.S.,Michels-Clark,T.,Hice,R.H.,Coquelle,N.,Boutet,S.,Williams,G.J.,Messerschmidt。,Sauter,N.K.和Eisenberg,D.S.(2016)。自然(伦敦),539, 43–47. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Diederichs,K.(2010年)。《水晶学报》。D类66, 733–740. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Evans,P.(2006)。《水晶学报》。D类62, 72–82. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Evans,P.R.(2011)。《水晶学报》。D类67, 282–292. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Ginn,H.M.、Brewster,A.S.、Hattne,J.、Evans,G.、Wagner,A.、Grimes,J.M.、Sauter,N.K.、Sutton,G.和Stuart,D.I.(2015)。《水晶学报》。D类71, 1400–1410. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Gorel,A.,Motomura,K.,Fukuzawa,H.,Doak,R.B.,Grünbein,M.L.,Hilpert,M.,Inoue,I.,Kloos,M.、Kovácsová,G.,Nango,E.,Nass,K.、Roome,C.M.,Shoeman,R.L.、Tanaka,R.,Tono,K.和Joti,Y.,Yabashi,M.;Iwata,S.,Foucar,L.,Ueda,K.;Barends,T.R.M.和Schlichting,I.(2017)。自然社区。 8, 1170. 交叉参考 谷歌学者
第一次引用Hart,P.、Boutet,S.、Carini,G.、Dubrovin,M.、Duda,B.、Fritz,D.、Haller,G.,Herbst,R.、Herrmann,S.,Kenney,C.、Kurita,N.、Lemke,H.、Messerschmidt,M.,Nordby,M.(2012)。程序。SPIE公司,850485040摄氏度。 交叉参考 谷歌学者
第一次引用Hattne,J.、Echols,N.、Tran,R.、Kern,J.、Gildea,R.J.、Brewster,A.S.、Alonso Mori,R.、Glöckner,C.、Hellmich,J.、Laksmono,H.、Sierra,R.G.、Lassalle Kaiser,B.、Lampe,A.、Han,G.、Gul,S.、DiFiore,D.、Milathianaki,D.、Fry,A.R.、Miahnahri,A.、White,W.E.、Schafer,D.W.、Seibert,M.M.、Koglin,J.E.、Sokaras,D.、Weng,T.C。,Sellberg,J.、Latimer,M.J.、Glatzel,P.、Zwart,P.H.、Grosse-Kunstleve,R.W.、Bogan,M.J.、Messerschmidt,M.、Williams,G.J.,Boutet,S.、Messinger,J.,Zouni,A.、Yano,J.和Bergmann,U.、Yachandra,V.K.、Adams,P.D.和Sauter,N.K.(2014)。自然方法,11, 545–548. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Hendrickson,W.A.和Teeter,M.M.(1981年)。自然(伦敦),290, 107–113. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Holland,D.R.,Hausrath,A.C.,Juers,D.&Matthews,B.W.(1995)。蛋白质科学。 4, 1955–1965. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Hunter,M.S.、Yoon,C.H.、DeMirci,H.、Sierra,R.G.、Dao,E.H.、Ahmadi,R.、Aksit,F.、Aquila,A.L.、Ciftci,H.,Guillet,S.、Hayes,M.J.、Lane,T.J.,Liang,M.、LundsröM,U.、Koglin,J.E.、Mgbam,P.、Rao,Y.、Zhang,L.、Wakatsuki,S.,Holton,J.M.和Boutet,S.(2016)。自然社区。 7, 13388. 交叉参考 谷歌学者
第一次引用Kabsch,W.(2010年).《水晶学报》。D类66, 125–132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kabsch,W.(2010年b条).《水晶学报》。D类66, 133–144. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kabsch,W.(2014)。《水晶学报》。D类70, 2204–2216. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Kern,J.、Tran,R.、Alonso-Mori,R.,Koroidov,S.、Echols,N.、Hattne,J.,Ibrahim,M.、Gul,S.,Laksmono,H.、Sierra,R.G.、Gildea,R.J.、Han,G.、Hellmich,J.和Lassale-Kaiser,B.、Chatterjee,R.和Brewster,A.S.、Stan,C.、Glöckner,C.、Lampe,A.、DiFiore,D.、Milathianaki,D.、Fry,A.R.、Seibert,M.和Koglin,J.E.Gallo,E.,Uhlig,J.、Sokaras,D.、Weng,T.C.、Zwart,P.H.、Skinner,D.E.、Bogan,M.J.、Messerschmidt,M.、Glatzel,P.、Williams,G.J.、Boutet,S.、Adams,P.D.、Zouni,A.、Messinger,J.、Sauter,N.K.、Bergmann,U.、Yano,J.和Yachandra,V.K.(2014)。自然社区。 5, 4371. 交叉参考 谷歌学者
第一次引用La Fortelle,E.de&Bricogne,G.(1997)。方法酶制剂。 276, 472–494. 公共医学 科学网 谷歌学者
第一次引用Leslie,A.G.W.(1999)。《水晶学报》。D类55, 1696–1702. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Leslie,A.G.W.(2006年)。《水晶学报》。D类62, 48–57. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Liu,D.C.和Nocedal,J.(1989)。数学。程序。 45, 503–528. 交叉参考 科学网 谷歌学者
第一次引用McCoy,A.J.、Storoni,L.C.和Read,R.J.(2004)。《水晶学报》。D类60,1220–1228页科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Nakane,T.,Hanashima,S.,Suzuki,M.,Saiki,H.,Hayashi Bashi,M.,Inoue,T。,Nureki,O.、Iwata,S.、Murata,M.和Mizohata,E.(2016)。程序。美国国家科学院。科学。美国,113,13039–13044科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Nakane,T.、Song,C.、Suzuki,M.、Nango,E.、Kobayashi,J.、Masuda,T.,Inoue,S.、Mizohata,E.、Nakatsu,T.和Tanaka,T。《水晶学报》。D类71, 2519–2525. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Nass,K.,Meinhart,A.,Barends,T.R.M.,Foucar,L.,Gorel,A.,Aquila,A.,Botha,S.,Doak,R.B.,Koglin,J.,Liang,M.,Shoeman,R.L.,Williams,G.,Boutet,S.&Schlichting,I.(2016)。IUCrJ大学,, 180–191. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
第一次引用Otwinowski,Z.&Minor,W.(2001年)。国际结晶学表,卷。F类由M.G.Rossmann和E.Arnold编辑,第226-235页。多德雷赫特:Kluwer学术出版社。 谷歌学者
第一次引用R核心团队,(2017)。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。https://www.r-project.org/谷歌学者
第一次引用Rossmann,M.G.和Arnold,E.(2001)。编辑。国际结晶学表,卷。F类第11章。多德雷赫特:Kluwer学术出版社。 谷歌学者
第一次引用Rossmann,M.G.、Leslie,A.G.W.、Abdel-Meguid,S.S.和Tsukihara,T.(1979年)。J.应用。克里斯特。 12, 570–581. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Sauter,N.K.(2015)。J.同步辐射。 22, 239–248. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Sauter,N.K.、Hattne,J.、Brewster,A.S.、Echols,N.、Zwart,P.H.和Adams,P.D.(2014)。《水晶学报》。D类70, 3299–3309. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Schwarzenbach,D.,Abrahams,S.C.,Flack,H.D.,Gonschorek,W.,Hahn,T.,Huml,K.,Marsh,R.E.,Prince,E.,Robertson,B.E.,Rollett,J.S.&Wilson,A.J.C.(1989)。《水晶学报》。A类45, 63–75. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.、Bunkóczi,G.、Hung,L.-W.、Zwart,P.H.、Smith,J.L.、Akey,D.L.和Adams,P.D.(2016)。《水晶学报》。D类72, 346–358. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Uervirojnangkoorn,M.,Zeldin,O.B.,Lyubimov,A.Y.,Hattne,J.,Brewster,A.S.,Sauter,N.K.,Brunger,A.T.&Weis,W.I.(2015)。埃利夫,4,e05421科学网 交叉参考 谷歌学者
第一次引用White,T.A.(2014)。菲洛斯。事务处理。R.Soc.伦敦。生物科学B。 369, 20130330. 科学网 交叉参考 公共医学 谷歌学者
第一次引用White,T.A.、Kirian,R.A.、Martin,A.V.、Aquila,A.、Nass,K.、Barty,A.和Chapman,H.N.(2012年)。J.应用。克里斯特。 45, 335–341. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Winkler,F.K.、Schutt,C.E.和Harrison,S.C.(1979年)。《水晶学报》。A类35, 901–911. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Yamashita,K.,Pan,D.,Okuda,T.,Sugahara,M.,Kodan,A.,Yamaguchi,T.、Murai,T.和Gomi,K.、Kajiyama,N.、Mizohata,E.、Suzuki,M.、Nango,E.、Tono,K.和Joti,Y.、Kameshima,T。科学。代表。 5, 14017. 科学网 交叉参考 公共医学 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构性的
生物学
编号:2059-7983