研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

IUCrJ大学
国际标准编号:2052-2525

的分辨率从头算由小角度散射确定的形状

十字标记_颜色_方形_文本.svg

EMBL汉堡c/o DESY,欧洲分子生物学实验室,Notkestrasse 85222607,德国汉堡,以及b条欧洲生物信息学研究所(EMBL–EBI),欧洲分子生物学实验室,欢迎基因组校园,英国剑桥CB10 1SD
*通信电子邮件:附件@embl-hamburg.de,svergun@embl-hamburg.de

英国利物浦大学S.S.Hasnain编辑(2016年9月28日收到; 2016年10月10日接受; 2016年10月27日在线)

空间分辨率是结构模型的一个重要特征,通过X射线晶体学或电子冷冻显微镜确定结构的作者总是在出版和沉积时提供分辨率。X射线或中子的小角度散射(SAS)最近已成为提供蛋白质整体三维结构的主流结构方法,核酸类和溶液中的络合物。然而,SAS衍生模型没有可用的定量分辨率度量,这严重阻碍了其验证和进一步使用。这里导出了一种用于以下项目的分辨率评估方法从头算散射数据的形状重建。固有的可变性从头算利用形状,证明了它们的平均傅里叶壳相关函数与模型分辨率的关系。该方法针对已知高分辨率结构的蛋白质模拟数据进行了验证,并在实验数据应用中证明了其有效性。有人提议从此以后在下列人士的出版物和证词中报告该决议从头算SAS型号。

1.简介

在小角度散射(SAS)研究中,使用X射线或中子探测物质的纳米结构。该技术适用于完全或部分无序物体,特别适用于研究接近天然溶液和药物配方中的生物大分子(Svergun等。, 2013[Svergun,D.I.、Koch,M.H.J.、Timmins,P.A.和May,R.P.(2013)。生物大分子溶液的小角度X射线和中子散射。牛津大学出版社。]). 在SAS实验中,散射强度来自稀释溶液高分子(例如蛋白质,核酸类或复合物)。由于分子是随机取向的,因此对单个粒子的散射轮廓进行平均,从而产生各向同性强度()作为动量传递的函数=4πθ/λ,其中2θ是散射角和λ是辐射波长(图1[链接]). 尽管如此,即使从这些一维散射剖面,也可以重建整个粒子结构的三维模型。这可以在没有任何附加信息的情况下通过从头算方法(Chacón等。1998年【Chacón,P.,Morán,F.,Díaz,J.F.,Pantos,E.&Andreu,J.M.(1998),《生物物理学杂志》第74期,第2760-2775页。】; 斯维尔贡,1999年[Svergun,D.I.(1999),《生物物理学杂志》第76期,第2879-2886页。], 2001[Svergun,D.I.,Petoukhov,M.V.&Koch,M.H.J.(2001),《生物物理学杂志》第80期,第2946-2953页。]; Franke&Svergun,2009年[Franke,D.&Svergun,D.I.(2009),《应用结晶杂志》,第42期,第342-346页。])或通过混合建模,利用已知的域或亚基原子结构构建复合物模型(Petoukhov&Svergun,2005【Petoukhov,M.V.和Svergun,D.I.(2005),《生物物理杂志》第89期,第1237-1250页。】).

[图1]
图1
FSC方法概述,用于估计结构集合的可变性。首先,多次运行从头算此处所示的溶菌酶建模是为了根据给定的散射强度分布生成一系列模型() (=4πθ/λ,其中2θ是散射角和λ是辐射波长)。然后,对重建的珠子模型或哑弹模型进行结构对齐,并计算其成对FSC函数。所有成对FSC函数的平均值用于确定可变性估计Δens公司作为2π/ens公司,其中ens公司是平均FSC降至0.5以下的动量传递值。使用线性回归模型根据可变性估计相应的分辨率。

从溶液散射剖面获得三维模型的可能性,以及仪器的最新进展,为现代同步加速器的高通量研究铺平了道路(佩诺等。, 2013【Pernot,P.等人(2013),J.Synchrotron Rad.20,660-664。】; Acerbo公司等。, 2015[Acerbo,A.S.,Cook,M.J.和Gillilan,R.E.(2015)。J.同步辐射。22180-186。]; 布兰切特等。, 2015【Blanchet,C.E.,Spilotros,A.,Schwemmer,F.,Graewert,M.A.,Kikhney,A.,Jeffries,C.M.,Franke,D.,Mark,D.,Zengerle,R.,Cipriani,F.、Fiedler,S.,Roessle,M.&Svergun,D.I.(2015),《应用结晶杂志》第48期,第431-443页。】; 比齐安等。, 2016【Bizien,T.、Durand,D.、Roblina,P.、Thureau,A.、Vachette,P.&Pérez,J.(2016),《蛋白质与蛋白质》Lett.23、217-231。】)在过去十年中,SAS在结构生物学中的普及程度大大提高。根据PubMed的统计数据,过去十年中,致力于生物溶液散射的出版物增加了近四倍,这表明SAS在结构生物学领域的复兴。然而,有两个主要的未解决问题阻碍了该方法成为一种成熟的结构生物学技术。一方面,由于SAS数据中的信息量受到球面平均值的限制,重建三维结构模型具有固有的模糊性,可以获得与实验数据同样吻合的模型集合。另一方面,作为一种低分辨率方法,SAS不提供原子级的信息。通常,基于SAS的模型默认分辨率为~10–20但是没有客观的解决方法。这种情况与结构技术(如大分子X射线晶体学(MX)和电子冷冻显微镜(EM))形成了对比,后者的分辨率标准得到了很好的确立。

对于MX,分辨率根据布拉格定律取决于从背景中检测到的进入结构的最高阶衍射峰的倒数精炼(布拉格和布拉格,1913年【布拉格·W·H·和布拉格·W·L·(1913年),《数学、物理、工程和科学学报》,第88期,第428-438页。】). 应用该原理从最大动量传递值推导分辨率最大值用于生成SAS模型的仅给出标称理论极限(2π/最大值)由于SAS重建的模糊性,没有太大的实用价值。EM数据的分辨率通常通过傅里叶壳相关(FSC)方法进行估计,其中比较了从两组单独处理的实验图像重建的电子密度图互易空间(van Heel&Stöffler-Meilicke,1985年[Heel,M.van&Stöffler-Meilicke,M.(1985),EMBO J.4,2389-2395。]; Saxton&Baumeister,1982年【Saxton,W.O.和Baumeister,W.(1982),《微生物学杂志》127,127-138。】; Harauz&van Heel,1986年[Harauz,G.和van Heel,M.(1986)。Optik,73,146-156。]). 分离为两个独立的数据集显然不适用于SAS,因为只有一个实验散射剖面可用,并且由于Shannon采样,实验SAS数据是相互关联的(Shannon&Weaver,1949[Shannon,C.E.&Weaver,W.(1949)。传播数学理论。乌尔班纳:伊利诺伊大学出版社。]). 另一种主要的结构方法,核磁共振波谱(NMR),产生了与实验核磁共振数据兼容的原子模型集合。虽然核磁共振模型没有商定的分辨率标准[例如模型之间的平方根偏差(r.m.s.d.)有时可能会高估分辨率;蒙特利奥内等。, 2013【蒙特利奥内·G.T.、尼格斯·M.、巴克斯·A.、古恩特·P.、赫尔曼·T.、理查德森·J.S.、施维特斯·C.D.、弗兰肯·W.F.、维斯特·G.W.、威斯哈特·D.S.、伯曼·H.M.、克莱维特·G.和马克利·J.L.(2013)。结构,211563-1570。】; 修道院等。, 2014[Vuister,G.W.,Fogh,R.H.,Hendrickx,P.M.S.,Doreleijers,J.F.和Gutmanas,A.(2014)。生物分子核磁共振杂志,58259-285。]]立体化学验证有助于评估模型质量。这种基于验证的方法也适用于MX结构(Read等。, 2011[Read,R.J.等人(2011),《结构》,第19期,第1395-1412页。]; 多雷利耶斯等。, 2012【Doreleijers,J.F.、Vranken,W.F.、Schulte,C.、Markley,J.L.、Ulrich,E.L.、Vriend,G.和Vuister,G.W.(2012)《核酸研究》第40卷第519-D524页。】; 贝尔扬斯基等。, 2012【Berjanskii,M.,Zhou,J.,Liang,Y.,Lin,G.&Wishart,D.S.(2012),《生物分子核磁共振杂志》,53,167-180。】),不能用于解决方案散射,因为SAS模型不显示原子细节。

从头算使用SAS数据进行形状重建,使用有限体积元素表示三维模型,例如密密麻麻的珠子(Svergun,1999[Svergun,D.I.(1999),《生物物理学杂志》第76期,第2879-2886页。]; Franke和Svergun,2009年[Franke,D.&Svergun,D.I.(2009),《应用结晶杂志》,第42期,第342-346页。])或假残留物(DR;Svergun等。, 2001[Svergun,D.I.,Petoukhov,M.V.&Koch,M.H.J.(2001),《生物物理学杂志》第80期,第2946-2953页。]). 重建从体积元素的随机配置开始,并使用优化算法(例如蒙特卡罗模拟退火),以将模型的计算理论散射拟合到实验SAS剖面。除了拟合的差异外,目标函数还包括确保模型物理可行性的约束,如互连性和紧凑性。多个从头算从不同随机配置开始的重建产生了具有相似整体外观的不同模型,每个模型与实验SAS数据一致。通常,进行10到20次重建,并使用成对归一化空间差异(NSD;Kozin&Svergun,2001)对模型(包括给出完全相同散射图案的对映体)进行叠加【Kozin,M.B.和Svergun,D.I.(2001),《应用结晶杂志》,第34期,第33-41页。】). 选择平均NSD最小的模型(或对映体),其他模型与之对齐,并对结果图进行平均。平均模型已被证明能够保留所有重建中最持久的特征(Volkov&Svergun,2003【Volkov,V.V.&Svergun,D.I.(2003),《应用结晶杂志》,第36期,第860-864页。】). 然而,平均程序没有提供分辨率评估,因为与NMR系综相比,多个SAS模型不具有一对一的原子或残基对应关系,并且不可能计算r.m.s.d.值。

缺乏客观标准来评估SAS模型的分辨率是一个严重的缺陷,这阻碍了对结果的批判性评估,特别是考虑到SAS在结构生物学中的日益使用以及SAS模型在档案中的沉积(Hura等。, 2009【Hura,G.L.,Menon,A.L.,Hammel,M.,Rambo,R.P.,Poole,F.L.II,Tsutakawa,S.E.,Jenney,F.E.Jr,Classen,S.,Frankel,K.A.,Hopkins,R.C.,Yang,S.J.,Scott,J.W.,Dillard,B.D.,Adams,M.W.&Tainer,J.A.(2009),《自然方法》,第6期,第606-612页。】; 瓦伦蒂尼等。, 2015【Valentini,E.、Kikhney,A.G.、Prevalitali,G.、Jeffries,C.M.和Svergun,D.I.(2015)。核酸研究43,D357-D363。】). 为了将SAS模型与其他实验技术获得的结构结果进行有意义的比较,需要一个定量的分辨率度量。在这里,我们提出了一种估计分辨率的方法从头算SAS通过分析与SAS数据兼容的模型集合中的FSC函数导出形状。结果表明,反映模型可变性的集合上的平均FSC函数可以与形状重建中单个模型的分辨率相关。该方法在一个公开可用的计算机程序中实现,并通过对合成数据的一系列测试和实际示例证明其实用性。

2.SAS模型可变性的FSC测量

首先,我们引入了一个可变性度量从头算SAS模型由珠子或DR组成。鉴于这些模型中体积元素的编号是任意的,两个不同模型中的珠子或RD之间不存在直接对应关系。因此,一般的实空间测度很难定义,并且傅立叶变换的使用是合适的。类似于EM的FSC功能(van Heel和Stöffler Mericke,1985[Heel,M.van&Stöffler-Meilicke,M.(1985),EMBO J.4,2389-2395。]; Saxton&Baumeister,1982年【Saxton,W.O.和Baumeister,W.(1982),《微生物学杂志》127,127-138。】; Harauz&van Heel,1986年[Harauz,G.和van Heel,M.(1986)。Optik,73,146-156。])中,我们使用了两个结构模型在相应壳体上的散射振幅之间的归一化互相关系数倒易空间。如果A类B类是两个具有已知结构的(适当对齐的)实体A类()和B类()是它们的三维散射振幅(这里,是倒数空间中的散射矢量)、一维FSC是动量传递(也称为空间频率)的函数,

[{\rm FSC}(s)={{\textstyle\sum_{(s,\Delta s)}A({\bf s})\cdot B^{*}\eqno(1)]

其中(,Δ)是球壳的半径和宽度倒易空间。散射振幅从头算模型A类B类可以表示为互易空间使用球面谐波展开,

[A({\bfs})=\textstyle\sum\limits_{l=0}^l\sum\limits_{m=-l}^l A_{lm}(s)Y_{lm{(\Omega),\eqno(2)]

[B({\bfs})=\textstyle\sum\limits_{l=0}^l\sum\limits_{m=-l}^lB_{lm}(s)Y_{lm{(\Omega),\eqno(3)]

哪里= (,Ω)是球坐标系中的散射矢量,A类勒姆()和B类勒姆()是模型的部分散射振幅A类B类,L(左)是定义展开精度的截断值Y(Y)勒姆(Ω)是有序的球面谐波(,)(斯图尔曼,1970【Stuhrmann,H.B.(1970),《结晶学报》,A26297-306。】). 使用形状系数计算局部振幅(f)k()珠子或假残渣,并使用方程式

[A_{lm}({\bf s})=4\pi{i^l}\textstyle\sum\limits_1}^N{f_k}(s){j_l}(sr_k)Y_{lm}^*(\ Omega_k),\eqno(4)]

哪里j个()是球形贝塞尔函数。替换散射振幅的球谐表示[方程(2)][链接]和(3)[链接]]到(1)[链接]利用球谐函数的正交性[\textstyle\int Y_{lm}(\Omega)Y_{l'}^*(\Omega)\,\,{rm d}\Omega=\delta_{lm{],FSC功能变为

[{\rm FSC}(s)={{\textstyle\sum_s[\textstyle\sum_{l=0}^l\sum_{m=-l}^l A_{lm}(es)\cdot B(s)_{lm{]}\在{[\texttyle\sum_s{I_A}(ss)\cdot{I_B}]^{1/2}}},\eqno(5)]上

哪里A类()和B类()是模型的散射强度A类B类.

对于非相同结构,FSC随动量传递而减小,反映了结构相似性随分辨率增加而损失。FSC通常用于EM,用于比较两个密度图以估计地图分辨率,该分辨率定义为FSC函数值低于某个阈值的空间频率。FSC函数通常单调减小,但也可能观察到局部振荡,可以通过选择适当的球壳宽度来抑制这种振荡Δ[方程式(1[链接])].

如上所述从头算形状测定通常在SAS中进行,然后可以获得一组(通常为10-20)对齐模型,每个模型都与实验数据一致。为了量化从头算系综,计算对齐模型的散射振幅,并使用(1)评估成对FSC函数[链接]。然后可以使用这些FSC函数的平均值来获得可变性度量Δens公司(图1[链接]). 对于EM图,通常使用FSC函数中的中点(0.5)阈值来定义分辨率,尽管也讨论了其他值(van Heel&Schatz,2005【Heel,M.van&Schatz,M.(2005),《结构生物学杂志》151,250-262。】; 彭泽克,2010年【Penczek,P.A.(2010),《酶学方法》,482,73-100。】). 我们对随机模型的计算(§S1,支持信息)证实,FSC的中点确实提供了与随机化幅度一致的分辨率度量。因此,在随后的计算和可变性测量中采用了0.5的FSC阈值Δens公司定义为2π/ens公司从动量传递值ens公司平均FSC值降至0.5以下。请注意,两两FSC的平均值可抑制单个FSC函数中观察到的振荡,从而提高ens公司集合的估计(图1[链接]).

2.1. 变异性和基准蛋白集

分析变异性估计的特性Δens公司,我们表演了从头算对107种分子量范围广泛(7到670之间)的基准蛋白质合成SAXS数据集进行建模蛋白质数据库(PDB;Fox)中已知高分辨率结构的低聚物状态和SCOPe折叠等。, 2014[Fox,N.K.、Brenner,S.E.和Chandonia,J.-M.(2014)。核酸研究42,D304-D309。]; 伯曼等。, 2003【Berman,H.、Henrick,K.和Nakamura,H.(2003),《自然结构生物学》第10期,第980页。】; 补充表S1和S2)。使用Zingg的粒子形状分类将这些结构标注为扁圆形、长圆形或等长(Zingg,1935)[Zingg,T.(1935),博士论文,苏黎世联邦理工学院。]). 合成SAXS配置文件()为每个基准生成CRYSOL公司使用高达18阶的球谐函数、17阶的斐波那契网格以及溶剂密度和水合层对比度的默认参数(斯维尔根等。, 1995[Svergun,D.,Barberato,C.和Koch,M.H.J.(1995)。《应用晶体》杂志,28,768-773。]). 然后确定距离分布函数第页(第页)对于每个数据集,使用GNOM公司(Semenyuk和Svergun,1991年【Semenyuk,A.V.和Svergun,D.I.(1991),《应用结晶杂志》,第24期,第537-540页。】)和形状重建达米夫(胎圈型号)或GASBOR公司(灾难恢复模型)。考虑到包含整体形状信息的散射数据范围与粒径成反比达米夫重建在(0,7.0)范围内进行/R(右)),其中R(右)回转半径蛋白质的含量。散射剖面的低角度部分,对应于大约五个香农通道(香农和韦弗,1949年【Shannon,C.E.和Weaver,W.(1949),《传播的数学理论》,厄巴纳:伊利诺伊大学出版社。】),包含整体形状信息,此范围通常用于形状确定。GASBOR公司使用更详细的虚拟残留物表示进行重建可以利用更高分辨率的数据,并且使用固定的最大值值为0.5Å−1,这是一个典型的实验SAS数据范围。对于每个蛋白质,生成20个重建,使用SUPCOMB公司(Kozin和Svergun,2001年【Kozin,M.B.和Svergun,D.I.(2001),《应用结晶杂志》,第34期,第33-41页。】)使用上述FSC方法计算了系综内的变异性。在基准集的蛋白质中,计算出的变异性在7.2到38.0之间对于珠子模型,λ介于9.0和47.8之间对于DR模型(图2)[链接]).

[图2]
图2
之间的关系Δens公司Δ科科斯群岛基准蛋白质假珠的值()和哑巴(b条)合奏。这两个量显示了两个珠子的线性相关性(皮尔逊相关系数 第页=0.80)和dummy-resideue(皮尔逊相关系数 第页=0.86)模型。SAS分辨率值可通过线性回归模型估算(珠子模型,分辨率=0.96Δens公司+ 7.7; 虚拟-残留模型,分辨率=1.10Δens公司+ 5.8; 红色实线)。95%置信区间用红色虚线表示,95%预测区间用蓝色虚线表示

此外,可变数据范围用于15种基准蛋白的子集,以便产品最大值·R(右)等于5.0、7.0或9.0(补充表S5)。对于GASBOR公司建模,两个固定最大值值,0.5和1.0Å−1使用了。此外,从小角度散射生物数据库(SASBDB;Valentini)检索到一组实验SAXS剖面等。, 2015【Valentini,E.,Kikhney,A.G.,Previtali,G.,Jeffries,C.M.和Svergun,D.I.(2015)。核酸研究43,D357-D363。】; 补充表S9和图3),以测试典型实验数据范围的可变性方法。20个独立从头算 达米夫GASBOR公司使用选定的数据范围和程序的默认参数为每个蛋白质生成模型。

3.从可变性到分辨率

整体可变性是形状重建再现性的度量,其本身并不提供重建模型的分辨率(这是对其准确性的度量,它们与“真正的结构”有多接近)。问题是这两个量是否以及如何相互关联。为了回答这个问题,我们计算了基准蛋白的已知高分辨率X射线晶体结构和从头算生成的信号群中的模型(补充表S1和S2以及补充图S1和图S2)。互相关分辨率Δ科科斯群岛系综的实际分辨率是SAS模型的实际分辨率,该模型基于与相同蛋白质的已知高分辨率结构的比较,该结构由平均成对FSC函数在0.5的截止点处确定。对于每个从头算模型对映体选择与PDB中的参考原子模型进行更好的对齐。

对于所分析的所有蛋白质,Δ科科斯群岛被发现系统性地比整体变异性大一些Δens公司(补充表S1、S2和图2[链接]). 这个Δ科科斯群岛基准数据集中的系综值在13.5到52.2之间对于珠子模型,Ω介于13.4和76.0之间对于DR型号,为“o”。最重要的是,可变性度量Δens公司和交叉验证的分辨率Δ科科斯群岛证明了良好的相关性,如图2所示[链接]这两个参数与皮尔逊相关系数之间的线性关系可以很好地描述相关性第页=0.80适用于达米夫模型和第页=0.86适用于GASBOR公司模型。采用基于基准数据的珠状和哑铃状集成的独立线性回归模型,从集成变化中预测SAS分辨率Δens公司.观察到的Δens公司Δ科科斯群岛允许直接估计从头算系综变化的模型Δens公司作为

[{\rm分辨率}=\beta\Delta_{\rm-ens}+\alpha,\eqno(6)]

其中系数β是表示响应系综变异性变化的分辨率预期变化的斜率Δens公司、和α是一个常数,表示零变化时可达到的分辨率极限。系数β0.96±0.07和1.10±0.09以及恒定值α(7.7±1.3)?和(5.8±1.2)为找到了“”达米夫GASBOR公司模型。新观测值和拟合函数的95%置信区间使用逆函数计算t吨统计n个− 2自由度,具有n个是数据对的数量(图2[链接]). 所有统计分析均采用MATLAB软件(Mathworks公司)。

由于受到互连性和紧凑性等约束,集合可变性系统地小于模型的实际分辨率从头算建模。这些约束限制了可用的构象空间,从而提高了模型的一致性并减少了系综变化(§S2,支持信息)。然而,必须强调的是,这些约束非常温和,总是以预定义的方式应用,不会导致数据不匹配或结果模型不准确。因此,从一个重建到另一个重建,可变性和分辨率之间的既定关系保持不变。有趣的是,对于珠子和DR建模,线性相关性都被一个常数所抵消(α),可以将其合理化为即使在理想情况下也始终存在的可变性,基于SAS的最佳分辨率从头算形状重建(约7-8O表示珠子造型,5–6用于DR建模的是“o”)。不同的偏移值还与以下事实密切相关:结构模型中最小体积元素的大小限制了可获得的最大分辨率,并且与哑弹模型相比,珠子模型具有更粗粒度的表示。我们应该注意到达米夫(水化层包含在珠子模型中)和GASBOR公司(显式虚拟水分子)对可变性和分辨率之间的关系影响很小。

对于珠子建模,观察到一些数据点超出95%置信区间(图2[链接]). 所有这些都是具有内部空腔或孔洞的寡聚蛋白结构(§S3,支持信息)。珠子建模过程总是试图建立与实验数据相兼容的最低复杂度模型,因此往往会模糊更精细的细节。这自然会增加Δ科科斯群岛并解释提升的Δ科科斯群岛/Δens公司这种结构的比例。有趣的是,基于DR的建模没有这种影响,它利用了更高的角度数据,因此可以更好地表示更复杂的形状(图2中没有观察到异常值。2[链接]b条).

为了进一步验证所提出的方法,我们对25个合成数据集进行了折刀测试,这些数据集取自PDB中未包含在原始基准集中的结构已知的蛋白质(图3[链接]和补充表S3)。使用可变性度量Δens公司在珠子和DR模型系综中,我们用(6)预测了有效分辨率[链接]并将其与相互关联的分辨率值进行了比较Δ科科斯群岛。比较得出了良好的相关性第页珠模型和DR模型分别为0.84和0.97,表明通过变异性计算分辨率的高保真度。

[图3]
图3
交叉验证分辨率之间的比率Δ科科斯群岛以及折刀集(蓝色圆点)和实验数据集(红色圆点)的估计SAS分辨率,作为分子量的函数达米夫珠子模型()和GASBOR公司哑弹模型(b条).

4.决议评估的实施和测试

FSC估算模型分辨率的方法包括四个步骤:(i)从头算根据给定SAS剖面重建的模型,(ii)计算对齐模型的散射振幅,(iii)使用球面谐波评估成对FSC函数,以及(iv)根据成对FSC函数的平均值确定模型可变性和分辨率(方程6[链接]以及补充图S1和S2)。模型对在结构上使用SUPCOMB公司(Kozin和Svergun,2001年【Kozin,M.B.和Svergun,D.I.(2001),《应用结晶杂志》,第34期,第33-41页。】)或苏丹(科纳列夫等。, 2006[科纳列夫,P.V.,佩图霍夫,M.V.,沃尔科夫,V.V.&斯维尔根,D.I.(2006),《应用结晶杂志》,第39期,第277-286页。])对于系综内所有可能的模型对,使用球面谐波计算FSC。因此,对于从头算模型,N个(N个−1)/2进行FSC比较。使用宽度为的滑动窗口计算和平滑平均FSC函数Δ= 0.1Å−1,相当于中壳体的标准宽度互易空间(Δ=0.08Å−1)用于EM FSC计算(谢赫等。, 2008[Shaikh,T.R.、Gao,H.、Baxter,W.T.、Asturias,F.J.、Boisset,N.、Leith,A.和Frank,J.(2008),《国家议定书》第3卷,1941-1974年。]). 可变性测量Δens公司定义为2π/ens公司,其中ens公司是平均FSC降至0.5以下的动量传递值。同样,交叉验证的分辨率Δ科科斯群岛从头算使用相同的阈值,通过FSC与参考高分辨率结构的比较获得系综。

4.1. 随机噪声和数据范围的影响

我们进一步检查了模拟数据中噪声对分辨率评估的影响(补充表S4)。为了观察噪声对集合可变性的影响Δens公司和互相关分辨率Δ科科斯群岛,我们生成了三种蛋白质的合成SAXS图谱(PDB条目3升zt,1wla(无线局域网)1吨)并添加相对于散射强度的5%、10%或20%的模拟白噪声()对于每个数据点(补充表S4)。从头算使用这些噪声数据集以标准方式进行建模和分辨率估计。两者都是Δens公司Δ科科斯群岛结果表明,相对于散射强度,数值对添加到高达20%的模拟数据中的随机噪声是稳定的。因此,即使在实验数据中存在随机误差的情况下,关于从可变性到分辨率转换的结论仍然有效。

为了测试集合分辨率对数据范围的依赖性达米夫利用原始基准集中的数据对12个蛋白质进行了建模运行最大值·R(右)产品范围从5.0到9.0。补充表S5中的结果表明,串珠模型系综提供的有效分辨率与使用的数据范围没有直接关系。在中观察到一些小的改进Δ科科斯群岛增加后呈圆形的小球蛋白最大值,但总的来说,变化在显著性范围内Δens公司Δ科科斯群岛按第(6)条规定停留[链接]用于所有使用的数据范围。

一般来说,利用较高散射角的DR模型与晶体结构的相关性更好,且结果更好Δens公司Δ科科斯群岛与珠模型比较的值,尤其是较小的蛋白质(补充表S1和S2)。然而,使用最多最大值= 1.0Å−1(标称分辨率6Å)产生Δens公司Δ科科斯群岛值与使用最大值= 0.5Å−1(标称分辨率12Å). 这一发现(有点令人失望但很重要)进一步证实了关于粒子形状的大多数信息都集中在非常低的角度。由DR构建的模型能够适应更高的散射角,并提供更详细的形状,但它们不一定能够在分辨率超过10的情况下更好地重建高分辨率结构Å。这一结果决不应被视为SAS数据中不存在内部结构信息的证据,而是表明从头算事实上,DR建模方法使用了相同的残差和平均散射形状因子,代表了一个链式兼容组件。在添加先验的信息,例如序列、二级结构和基于知识的势,以及在更高角度上的散射,可以在SAXS辅助折叠方法中得到有意义的解释(Zheng&Doniach,2005[Zheng,W.&Doniach,S.(2005).蛋白质工程设计选刊.18209-219。]; 多斯莱斯等。, 2011【Reis,M.A.dos,Aparicio,R.&Zhang,Y.(2011),《生物物理学杂志》第101期,第2770-2781页。】).

总的来说,我们的结果进一步证实了从头算SAS模型与拟合数据的范围没有直接关系。对于形状确定中使用的数据范围(珠子模型约为4–7个香农通道,DR模型约为10–20个通道),可以使用方程(6)通过可变性可靠地估计分辨率[链接].

4.2. 对称重建

由重复亚基组成的大分子和复合物通常形成对称的组装体。如果知道点对称性可直接用于从头算形状确定是一个硬约束,其中只有非对称单元恢复,并通过适当的对称操作构造完整的形状。珠子的对称重建均可用(Franke&Svergun,2009[Franke,D.&Svergun,D.I.(2009),《应用结晶杂志》,第42期,第342-346页。])和DR(斯维尔根等。, 2001[Svergun,D.I.,Petoukhov,M.V.&Koch,M.H.J.(2001),《生物物理学杂志》第80期,第2946-2953页。])通常采用模型,例如用于低聚蛋白质的形状分析。一个重要的问题是:对称约束如何影响形状恢复的可变性和分辨率?

为了回答这个问题,我们利用从PDB中提取的40个蛋白质的合成数据进行了对称珠重建,包括二聚体(点对称P(P)2) ,三聚体(P(P)3) ,四聚体(P(P)222)和六聚体(P(P)32和P(P)6) (补充表S6、S7和S8)。强加对称性会减少搜索空间,人们可能会期望对称重建的变量更小,并且与一般情况相比,可能会提供更好的分辨率。然而,情况更为复杂,因为对称性也使实际空间搜索具有各向异性。这对各向异性颗粒尤其重要,众所周知,各向异性不正确的形状(长石扁圆)在施加对称性(科赫等。, 2003【Koch,M.H.J.,Vachette,P.&Svergun,D.I.(2003),《生物物理学评论》36,147-227。】). 考虑到所需的各向异性可以用作形状重建的约束,还分析了各向异性条件的影响。一般来说,对称约束倾向于增加(而不是减少)系综可变性,因为可以获得具有不同对称轴方向和各向异性方向的重建。对于单轴对称,这种影响更为明显(P(P)2,P(P)等。; 见补充表S6和S7),对于多个轴而言不太明显,例如P(P)222对称性(补充表S8;对于后一种情况,集合可变性确实与验证的分辨率相当)。如预期,采用不正确的各向异性测量(例如扁圆粒子的长线重建)导致Δ科科斯群岛/Δens公司比率。DR建模方法也得到了类似的结果。

从结果的总体比较中可以得出以下结论:Δ科科斯群岛/Δens公司对称重建的比率小于或等于不对称形状分析中获得的比率。因此,对称系综的可变性可用于使用(2)评估分辨率[链接]以获得实际分辨率的保守估计。如果需要,可以通过不受对称性限制的计算来补充或验证此估计。

4.3. 项目实施和应用

评估分辨率的算法从头算模型已在名为SASRES公司,它将多个从头算提供的模型达米夫GASBOR公司使用SUPCOMB公司(Kozin和Svergun,2001年【Kozin,M.B.和Svergun,D.I.(2001),《应用结晶杂志》,第34期,第33-41页。】)(或其更快的实施苏丹; 科纳列夫等。, 2006[科纳列夫,P.V.,佩图霍夫,M.V.,沃尔科夫,V.V.&斯维尔根,D.I.(2006),《应用结晶杂志》,第39期,第277-286页。])并计算FSC函数。对齐和平均是形状确定中的最后一个标准步骤,并且考虑到SASRES公司集成在工作流中,包含它不需要用户付出任何额外的努力。SASRES公司也可用作使用替代程序获得的任何珠子或DR模型集的独立程序。

为了在实际数据上测试该方法的性能,我们将分辨率评估程序应用于十个来自SASBDB的实验SAXS数据集(补充表S9和图3[链接]). 为了交叉验证分辨率估计值,选择了从可用PDB结构计算的散射与实验SAXS数据很好匹配的条目,根据χ2统计数据。形状直接由实验数据生成,使用达米夫GASBOR公司然后使用SASRES公司.估计的决议SASRES公司和交叉验证的分辨率Δ科科斯群岛非常一致(图3中的红点[链接]和补充表S9),证明了该方法应用于实际实验数据的稳健性。

5.结论

通过结构方法(如MX和EM)获得的大分子模型总是在出版物中报道并保存在公共档案馆中(伯曼等。, 2003【Berman,H.、Henrick,K.和Nakamura,H.(2003),《自然结构生物学》第10期,第980页。】)以及它们的分辨率,这是与模型质量相关的一条极其重要的信息。近十年来,SAS在结构生物学领域取得了巨大进展,它已成为结构生物学的主流方法,这得益于新的实验可能性和从一维SAS数据重建三维模型的新型数据解释方法。SAS生成的模型现在通过专用档案(Hura)提供给社区等。, 2009【Hura,G.L.,Menon,A.L.,Hammel,M.,Rambo,R.P.,Poole,F.L.II,Tsutakawa,S.E.,Jenney,F.E.Jr,Classen,S.,Frankel,K.A.,Hopkins,R.C.,Yang,S.-J.,Scott,J.W.,Dillard,B.D.,Adams,M.W.W.&Tainer,J.A.(2009)。自然方法,606-612。】; 瓦伦蒂尼等。, 2015【Valentini,E.、Kikhney,A.G.、Prevalitali,G.、Jeffries,C.M.和Svergun,D.I.(2015)。核酸研究43,D357-D363。】). 然而,到目前为止,还没有可用的标准来量化由SAS数据构建的模型的分辨率,这使得很难有意义地利用这些模型来回答生物学问题。

一维数据三维重建的固有模糊性是SAS的主要问题之一,因为可能会生成多个(尽管在低分辨率下相似)模型,从而产生基本相同的散射剖面。在这里,我们证明了这种模糊性在确定从头算形状建模。介绍了一种基于与给定数据集兼容的重建集合内平均FSC函数分析的分辨率度量。使用大量模拟和实验数据集,可以看出从头算模型与集合中模型的可变性直接相关。在标准SAS应用程序中,多个从头算使用游程平均形状并找到最可能的重建。根据定义,后一个模型与集合的其他成员的整体形状差异最小。鉴于基于FSC的测量值反映了该集合的平均值,FSC的分辨率评估应归因于最可能的重建,这也是出版物中通常报告的模型。基于FSC的分辨率度量为分析从头算SAS模型表示,无法自信地解释比分辨率更精细的结构特征。当然,人们不应该忘记重建物体对映模型的可能性。对映体在排列和平均过程中被自动考虑(Kozin&Svergun,2001【Kozin,M.B.和Svergun,D.I.(2001),《应用结晶杂志》,第34期,第33-41页。】; Volkov&Svergun,2003年【Volkov,V.V.&Svergun,D.I.(2003),《应用结晶杂志》,第36期,第860-864页。】; 科纳列夫等。, 2006[科纳列夫,P.V.,佩图霍夫,M.V.,沃尔科夫,V.V.&斯维尔根,D.I.(2006),《应用结晶杂志》,第39期,第277-286页。])相应地,在FSC功能分析中。

程序SASRES公司它将评估分辨率无缝地纳入多模型分析,但也可以在独立模式下运行。的可执行文件SASRES公司对学术用户是免费的,可以用ATSAS公司2.8版以后的软件套件(https://www.embl-hamburg.de/biosaxs/software.html).萨斯雷斯也可在线使用,网址为https://www.embl-hamburg.de/biosaxs/atsas-online/sasres.php。我们预计基于FSC的分辨率分析将成为从头算建模并建议应在SAS数据和模型的出版物和保存中报告分辨率。

支持信息


致谢

这项工作得到了玛丽·居里COFUND行动下的EMBL EIPOD计划、联邦教育和Forschung(BMBF)项目BIOSCAT(拨款05K12YE1)和欧盟地平线2020计划(iNEXT拨款,项目编号653706)的支持。

工具书类

第一次引用Acerbo,A.S.、Cook,M.J.和Gillilan,R.E.(2015)。J.同步辐射。 22, 180–186. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Berjanskii,M.、Zhou,J.、Liang,Y.、Lin,G.和Wishart,D.S.(2012年)。《生物分子杂志》。核磁共振,53, 167–180. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Berman,H.、Henrick,K.和Nakamura,H.(2003)。自然结构。生物。 10, 980. 科学网 交叉参考 公共医学 谷歌学者
第一次引用Bizien,T.、Durand,D.、Roblina,P.、Thureau,A.、Vachette,P.和Pérez,J.(2016)。蛋白质肽。莱特。 23, 217–231. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Blanchet,C.E.、Spilotros,A.、Schwemmer,F.、Graewert,M.A.、Kikhney,A.、Jeffries,C.M.、Franke,D.、Mark,D.、Zengerle,R.、Cipriani,F.,Fiedler,S.、Roessle,M.和Svergun,D.I.(2015)。J.应用。克里斯特。 48, 431–443. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用布拉格·W·H·和布拉格·W·L·(1913)。程序。R.Soc.A数学。物理学。工程科学。 88, 428–438. 交叉参考 中国科学院 谷歌学者
第一次引用Chacón,P.、Morán,F.、Díaz,J.F.、Pantos,E.和Andreu,J.M.(1998)。生物物理学。J。 74, 2760–2775. 科学网 中国科学院 公共医学 谷歌学者
第一次引用Doreleijers,J.F.、Vranken,W.F.、Schulte,C.、Markley,J.L.、Ulrich,E.L.、Vriend,G.和Vuister,G.W.(2012年)。核酸研究。 40,D519–D524科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Fox,N.K.、Brenner,S.E.和Chandonia,J.-M.(2014)。核酸研究。 42,D304–D309科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Franke,D.和Svergun,D.I.(2009年)。J.应用。克里斯特。 42, 342–346. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Harauz,G.和van Heel,M.(1986年)。Optik公司,73, 146–156. 谷歌学者
第一次引用Heel,M.van和Schatz,M.(2005年)。J.结构。生物。 151, 250–262. 科学网 公共医学 谷歌学者
第一次引用Heel,M.van和Stöffler-Meilicke,M.(1985)。EMBO J。 4, 2389–2395. 公共医学 科学网 谷歌学者
第一次引用Hura,G.L.、Menon,A.L.、Hammel,M.、Rambo,R.P.、Poole,F.L.II、Tsutakawa,S.E.、Jenney,F.E.Jr、Classen,S.、Frankel,K.A.、Hopkins,R.C.、Yang,S.-J.、Scott,J.W.、Dillard,B.D.、Adams,M.W.和Tainer,J.A.(2009年)。自然方法,6,606–612交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Koch,M.H.J.,Vachette,P.&Svergun,D.I.(2003)。Q.生物物理学评论。 36, 147–227. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Konarev,P.V.、Petoukhov,M.V.、Volkov,V.V.和Svergun,D.I.(2006)。J.应用。克里斯特。 39, 277–286. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kozin,M.B.和Svergun,D.I.(2001)。J.应用。克里斯特。 34, 33–41. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Montelione,G.T.,Nilges,M.,Bax,A.,Güntert,P.,Herrmann,T.,Richardson,J.S.,Schwieters,C.D.,Vranken,W.F.,Vuister,G.W.,Wishart,D.S.,Berman,H.M.,Kleywegt,G.J.&Markley,J.L.(2013)。结构,21, 1563–1570. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Penczek,P.A.(2010年)。方法酶学。 482, 73–100. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用佩诺,P。等。(2013).J.同步辐射。 20, 660–664. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Petoukhov,M.V.和Svergun,D.I.(2005)。生物物理学。J。 89, 1237–1250. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用里德·R·J。等。(2011).结构,19, 1395–1412. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Reis,M.A.dos,Aparicio,R.和Zhang,Y.(2011)。生物物理学。J。 101, 2770–2781. 公共医学 谷歌学者
第一次引用Saxton,W.O.和Baumeister,W.(1982)。《微生物学杂志》。 127, 127–138. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Semenyuk,A.V.和Svergun,D.I.(1991)。J.应用。克里斯特。 24, 537–540. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Shaikh,T.R.、Gao,H.、Baxter,W.T.、Asturias,F.J.、Boisset,N.、Leith,A.和Frank,J.(2008)。《国家协议》。 , 1941–1974. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Shannon,C.E.&Weaver,W.(1949年)。传播数学理论。厄本纳:伊利诺伊大学出版社。 谷歌学者
第一次引用Stuhrmann,H.B.(1970年)。《水晶学报》。A类26, 297–306. 交叉参考 IUCr日志 科学网 谷歌学者
第一次引用Svergun,D.I.(1999)。生物物理学。J。 76, 2879–2886. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Svergun,D.、Barberato,C.和Koch,M.H.J.(1995)。J.应用。克里斯特。 28, 768–773. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Svergun,D.I.、Koch,M.H.J.、Timmins,P.A.和May,R.P.(2013)。生物大分子溶液的小角X射线和中子散射牛津大学出版社。 谷歌学者
第一次引用Svergun,D.I.、Petoukhov,M.V.和Koch,M.H.J.(2001)。生物物理学。J。 80,2946–2953科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Valentini,E.、Kikhney,A.G.、Previtali,G.、Jeffries,C.M.和Svergun,D.I.(2015)。核酸研究。 43,D357–D363科学网 交叉参考 公共医学 谷歌学者
第一次引用Volkov,V.V.和Svergun,D.I.(2003)。J.应用。克里斯特。 36, 860–864. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Vuister,G.W.、Fogh,R.H.、Hendrickx,P.M.S.、Doreleijers,J.F.和Gutmanas,A.(2014)。《生物分子杂志》。核磁共振,58, 259–285. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Zheng,W.和Doniach,S.(2005)。蛋白质工程设计。选择。 18, 209–219. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zingg,T.(1935年)。博士论文。苏黎世ETH。 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

IUCrJ大学
国际标准编号:2052-2525