研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标的日志
应用
结晶学
国际标准编号:1600-5767

AlphaFold靶向蛋白质结构和小角度X射线散射:来自小角度散射生物数据库中选定数据的扩展检查的见解

交叉标志

蒙大拿大学化学与生物化学系,美国密苏拉州校园路32号,MT 59812,b条Proteomica e Spettrometria di Massa,IRCCS Ospedale Policlinico San Martino,Largo R.Benzi 10,Genova 16132,意大利,c(c)法国巴黎萨克利大学,CEA,CNRS,细胞综合生物学研究所(I2BC),Gif-sur-Yvette 91198,以及d日澳大利亚新南威尔士州悉尼大学生命与环境科学学院,2006
*通信电子邮件:emre.brookes@umontana.edu,jill.trewhella@sydney.edu.au

F.Meneau编辑,巴西同步加速器光实验室,巴西(收到日期:2023年2月24日; 2023年6月15日接受; 在线2023年7月20日)

通过提供几乎所有已知蛋白质序列的预测蛋白质结构,人工智能程序AlphaFold(AF)对结构生物学产生了重大影响。虽然许多折叠单元都达到了惊人的精度,但预测的非结构化区域以及连接结构化域的潜在灵活链接器的安排都面临着挑战。针对不含假体组的单链结构,将早期从小角度散射生物数据库(SASBDB)中获取的小角度X射线散射(SAXS)数据得出的特征比较扩展到使用相应的AF专用结构计算的特征。对选定的SASBDB条目进行了仔细检查,以确保它们代表来自单分散蛋白质溶液的数据,并具有足够的统计精度和q个可靠结构评估的分辨率。在有明确证据表明单一AF靶向结构无法解释实验SAXS数据的情况下,确定了三个示例。相反,通过允许在高置信度预测的结构化域之间使用灵活的链接器生成的集成模型发现了极好的一致性。使用蒙特卡罗方法生成了一组具有代表性的结构,该方法沿潜在的柔性区域调整主干二面体允许角度。采用快速集成建模方法优化对距离分布函数的拟合[P(P)(第页)与第页]和强度曲线[(q个)与q个]从水池计算到它们的实验对应物。这些结果突出了AF预测、溶液SAXS和分子动力学/构象取样之间的互补性,以对具有结构和柔性区域的蛋白质进行结构建模。

1.简介

基于神经网络的人工智能(AI)程序AlphaFold(AF)(Jumper等。, 2021[Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figunov,M.、Ronneberger,O.、Tunyasuvunakool,K.、Bates,R.、zy dek,A.、Potapenko,A.、Bridgland,A.、Meyer,C.、Kohl,S.A。A.、Ballard、A.J.、。,Cowie,A.,Romera--Paredes,B.,Nikolov,S.,Jain,R.,Adler,J.,Back,T.,Petersen,S.和Reiman,D.,Clancy,E.,Zielinski,M.,Steinegger,M.、Pacholska,M.和Berghammer,T.、Bodenstein,S.、Silver,D.、Vinyals,O.、Senior,A.W.、Kavukcuoglu,K.、Kohli,P.和Hassabis,D.(2021)。《自然》,596583-589。])和Rosetta­Fold(贝克等。, 2021【Baek,M.,DiMaio,F.,Anishchenko,I.,Dauparas,J.,Ovchinnikov,S.,Lee,G.R.,Wang,J,Cong,Q.,Kinch,L.N.,Schaeffer,R.D.,MilláN,C.,Park,H.,Adams,C.,Glassman,C.R.,DeGiovanni,A.,Pereira,J.H.,Rodrigues,A.V.,van Dijk,A.,Ebrecht,A.C.,Opperman,D。J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T.,Rathina­swamy,M.K.、Dalwadi,U.、Yip,C.K.、Burke,J.E.、Garcia,K.C.、Grishin,N.V.、Adams,P.D.、Read,R.J.和Baker,D.(2021)。科学,373871-876。])已经彻底改变了从序列预测蛋白质结构的领域。特别是,AF联盟已经制作并公开了一个预测蛋白质结构的数据库(https://alphafold.ebi.ac.uk网址),首先用于整个UniProt精选蛋白质序列数据库(Tunyasuvunakool等。, 2021【Tunyasuvunakool,K.、Adler,J.、Wu,Z.、Green,T.、Zielnski,M.、Zhidek,A.、Bridgeland,A.、Cowie,A.、Meyer,C.、Laydon,A.、Velankar,S.、Kleywegt,G.J.、Bateman,A.、Evans,R.、Pritzel,A.、Figurnov,M.,Ronneberger,O.、Bates,R.,Kohl,S.A.、Potapenko,A.、Ballard,A.】。J.、Romera--Paredes、B.、Nikolov、S.、Jain、R.、Clancy、E.、Reiman、D.、Petersen、S.,Senior、A.W.、Kavukcuoglu、K.、Birney、E.、Kohli、P.、Jumper、J.和Hassabis,D.(2021年)。《自然》,596590-596。])以及最近的全基因组衍生蛋白质序列目录(UniProt Consortium,2021【UniProt Consortium(2021),核酸研究49,D480-D489。】). 令人印象深刻的是,CASP14数据集中AF预测结构的平均值为Cα~1Ω的r.m.s.d.精度(跳线等。, 2021[Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figunov,M.、Ronneberger,O.、Tunyasuvunakool,K.、Bates,R.、zy dek,A.、Potapenko,A.、Bridgland,A.、Meyer,C.、Kohl,S.A。A.、Ballard、A.J.、。,Cowie,A.,Romera--Paredes,B.,Nikolov,S.,Jain,R.,Adler,J.,Back,T.,Petersen,S.和Reiman,D.,Clancy,E.,Zielinski,M.,Steinegger,M.、Pacholska,M.和Berghammer,T.、Bodenstein,S.、Silver,D.、Vinyals,O.、Senior,A.W.、Kavukcuoglu,K.、Kohli,P.和Hassabis,D.(2021)。《自然》,596583-589。]).

AF数据库已经对结构生物学产生了重大影响,预测的结构被用作解决晶体结构的模板[参见例如Flower&Hurley(2021)【Flower,T.G.和Hurley,J.H.(2021)。蛋白质科学30,728-734。】),柴等。(2021[Chai,L.,Zhu,P.,Chai,J.,Pang,C.,Andi,B.,McSweeney,S.,Shanklin,J.&Liu,Q.(2021),《晶体》,第11期,第1227页。]),麦考伊等。(2022【McCoy,A.J.,Sammito,M.D.&Read,R.J.(2022),《结晶学报》第78期,第1-13页。】)和Oeffner等。(2022【Oeffner,R.D.,Croll,T.I.,Millán,C.,Poon,B.K.,Schlicksup,C.J.,Read,R.J.&Terwilliger,T.C.(2022),《结晶学报》D78,1303-1314。】)],以帮助解释低温EM图[参见例如丰塔纳等。(2022[Fontana,P.,Dong,Y.,Pi,X.,Tong,A.B.,Hecksel,C.W.,Wang,L.,Fu,T.M.,Bustamante,C.&Wu,H.(2022).科学,376,abm9326.])],用于评估溶液中核磁共振结构的准确性[参见例如福勒和威廉姆森(2022【Fowler,N.J.&Williamson,M.P.(2022).结构,30925-933.e2.】)]并推断结构-功能关系[参见例如费拉里奥等。(2022[Ferrario,E.,Miggiano,R.,Rizzi,M.&Ferraris,D.M.(2022).生物技术计算结构杂志.20,3874-3883.])、Urban和Pompon(2022年【Urban,P.&Pompon,D.(2022),科学报告12,15982。】)、阿克德尔等。(2022[Akdel,M.、Pires,D.E.V.、Pardo,E.P.、Jänes,J.、Zalevsky,A.O.、Mészáros,B.、Bryant,P.、Good,L.L.、Laskowski,R.A.、Pozzati,G.、Shenoy,A.、Zhu,W.、Kundrotas,P.,Serra,V.R.、Rodrigues,C.H.M.、Dunham,A.S.、Burke,D.、Borkakakoti,N.、Velankar,S.、Frost,A.、Basquin,J.,Lindorff-Larsen,K.、Bateman,A.、Kajava,A。V.、Valencia,A.、Ovchinnikov,S.、Durairaj,J.、Ascher,D.B.、Thornton,J.M.、Davey,N.E.、Stein,A.、Elofsson,A.、Croll,T.I.和Beltrao,P.(2022)。自然结构。分子生物学。29, 1056-1067.])和Heo等。(2022【Heo,Y.,Yoon,E.,Jeon,Y.E.,Yun,J.H.,Ishimoto,N.,Woo,H.,Park,S.Y.,Song,J.J.&Lee,W.(2022).电子生活,11,e76823.】)]. 相反,AF结构通常具有低置信度或低精度的区域,实验信息有可能改进这些预测(特威利格等。, 2022【Terwilliger,T.C.,Poon,B.K.,Afonine,P.V.,Schlicksup,C.J.,Croll,T.I.,Millán,C.,Richardson,J.S.,Read,R.J.&Adams,P.D.(2022),《自然方法》,第19期,第1376-1382页。】).

虽然有许多AF预测结构具有令人印象深刻的精确度,但仍存在一些挑战。AF预测算法依赖于从广泛的结构目录中进行深度学习,尽管如此,这还是受到了世界蛋白质数据库中已解决的蛋白质结构集训练的限制(https://www.wwpdb.org; wwPDB联合会,2019[wwPDB Consortium(2019).核酸研究47,D520-D528.]). 然而,灵活性通常是蛋白质功能的一个必要方面,蛋白质宇宙中充满了由结构单元组成的多域蛋白质,这些结构单元具有可变长度的柔性连接子,限制了晶体学和低温EM研究。因此,我们看到有机会用实验技术来测试和补充AF预测,尤其是那些在核心设施中随时可用或可在专用大型基础设施上使用的技术。

最近的一篇论文(Brookes&Rocco,2022)【Brookes,E.和Rocco,M.(2022),科学报告12,7349。】)显示了源自前两个AF版本的数据库,其中对于每个预测结构圆二色性(CD)光谱、流体动力学参数、成对原子距离分布函数P(P)(第页)与第页[以下简称为P(P)(第页)]并存储辅助信息(https://somo.genapp.rocks/somoaf网站/). 根据UniProt注释,在计算之前,预测的起始序列和翻译后裂解的前肽从结构中删除。使用计算的流体动力学参数表明,在给定的分子质量区间内,这些参数可以有效区分结构,因此可以用于快速测试溶液中预测的构象(Brookes&Rocco,2022【Brookes,E.和Rocco,M.(2022),科学报告12,7349。】).

这个P(P)(第页)剖面,可以通过实验确定为小角度X射线散射(SAXS)数据的间接傅里叶变换(Glatter,1977)【格拉特·O(1977),《应用结晶杂志》,第10期,第415-421页。】; 斯维尔贡等。, 1988[Svergun,D.I.,Semenyuk,A.V.&Feigin,L.A.(1988),《结晶学报》A44,244-250。]),对折叠单元的相对排列非常敏感,正如在多结构域测试蛋白中很好地证明的那样(Koch等。, 2003【Koch,M.H.,Vachette,P.&Svergun,D.I.(2003),《生物物理学评论》36,147-227。】). 像这样的,P(P)(第页)是评估AF-预定结构的理想选择,该结构包含结构域之间潜在的柔性连接体,注意到解决方案SAXS实验报告了解决方案中存在的结构的时间和集合平均值。在之前的研究中(Brookes&Rocco,2022【Brookes,E.和Rocco,M.(2022),科学报告12,7349。】)从小角度散射生物数据库(SASBDB)(Valentini)中选择了一组解决方案SAXS数据等。, 2015【Valentini,E.、Kikhney,A.G.、Prevalitali,G.、Jeffries,C.M.和Svergun,D.I.(2015)。核酸研究43,D357-D363。】;https://www.sasbdb.org)其中有一个相应的AF预测结构。虽然有几个例子表明AF与P(P)(第页)剖面图和SAXS数据得出的数据之间存在显著差异。在本研究中,我们再次在仔细评估SAXS剖面及其相关元数据的背景下考虑这些比较,以确保数据来自单分散粒子的溶液,不存在聚集和粒子间相关性,这是SAXS数据可靠的三维原子建模的基本要求。然后,对AF结构进行检查,以确定预测的非结构化和/或低置信区域,这些区域被指定为柔性段,以获得结构集合,从而更好地拟合SAXS数据。我们最初的集成建模侧重于在真实空间中拟合P(P)(第页)作为目标函数。这种方法方便了使用单体蒙特卡罗(多媒体卡)中的模拟工具SASSIE网站套房(柯蒂斯等。, 2012[Curtis,J.E.,Raghunandan,S.,Nanda,H.&Krueger,S.(2012),《计算物理通讯》183,382-389。]; 珀金斯等。, 2016【Perkins,S.J.、Wright,D.W.、Zhang,H.、Brookes,E.H.、Chen,J.、Irving,T.C.、Krueger,S.、Barlow,D.J.、Edler,K.J.、Scott,D.J.、Terrill,N.J.,King,S.M.、Butler,P.D.&Curtis,J.E.(2016)。《应用结晶杂志》第49期,1861-1875页。】) (https://sassie-web.chem.utk.edu/sassie2网站/). 中的评估互易空间(也可以在合理的时间内使用CRYSOL公司(斯维尔贡等。, 1995[Svergun,D.,Barberato,C.&Koch,M.H.J.(1995),《应用结晶杂志》,第28期,第768-773页。]). 然后,在互易空间使用物理上更先进但计算量更大的WAXSiS公司项目(Chen&Hub,2014【Chen,P.C.&Hub,J.S.(2014),生物物理杂志107,435-447。】; Knight&Hub,2015年【Knight,C.J.和Hub,J.S.(2015)。核酸研究43,W225-W230。】) (https://waxsis.uni-saarland.de).

2.方法

通过识别US-SOMO-AF数据库中的结构来选择用于分析的初始数据集(Brookes&Rocco,2022【Brookes,E.和Rocco,M.(2022),科学报告12,7349。】)SASBDB中保存了相应的SAXS强度实验数据。强度曲线如下所示(q个)与q个[以下简称为(q个),其中q个= (4πθ)/λ具有θ散射角的一半λ入射辐射的波长]。强制性要求包括,实验数据是在完整的单链结构上收集的,没有假体组,并且来自与相应AF结构相同的生物体(Brookes&Rocco,2022)【Brookes,E.和Rocco,M.(2022),科学报告12,7349。】),这将初始SASBDB池限制为43个条目。

P(P)(第页)与有关(q个)通过傅里叶变换和,作为有限的实验测量范围(q个)禁止使用分析溶液,P(P)(第页)通常使用间接方法从SAXS数据计算,例如在程序中实现GNOM公司(斯维尔贡,1992年[Svergun,D.I.(1992),《应用结晶杂志》,第25期,第495-503页。])或贝叶斯应用程序(拉森和佩德森,2021年【Larsen,A.H.&Pedersen,M.C.(2021),《应用结晶》54,1281-1289。】). 两种方法都会产生P(P)(第页)使用蒙特卡罗模拟估计相关误差的剖面。然而,不同的是P(P)(第页)-生成方法从相同的开始产生非常不同的误差估计(q个)它们的可靠性是一个悬而未决的问题。在本研究中P(P)(第页)根据SASBDB强度曲线计算出的剖面,用于与模型计算进行比较,并作为集合建模的目标GNOM公司在中实施PrimusQt/ATSAS 3.1(马纳拉斯塔斯-坎托斯等。, 2021[马纳拉斯塔斯·坎托斯,K.,科纳列夫,P.V.,哈吉扎德,N.R.,基克尼,A.G.,佩图霍夫,M.V.,莫洛登斯基,D.S.,潘基科维奇,A.,默滕斯,H.D.T.,格鲁兹诺夫,A.,博尔赫斯,C.,杰弗里斯,C.M.,斯维尔根,D.I.&弗兰克,D.(2021),《应用结晶杂志》,54,343-355.])为了比较,贝叶斯应用程序实施于https://somo.chem.utk.edu/bayesapp.

对于具有相应SAXS的每个选定AF结构(q个)剖面图中,利用单体蒙特卡罗(多媒体卡)的程序SASSIE网站(柯蒂斯等。, 2012[Curtis,J.E.,Raghunandan,S.,Nanda,H.&Krueger,S.(2012),《计算物理通讯》183,382-389。]; 珀金斯等。, 2016【Perkins,S.J.、Wright,D.W.、Zhang,H.、Brookes,E.H.、Chen,J.、Irving,T.C.、Krueger,S.、Barlow,D.J.、Edler,K.J.、Scott,D.J.、Terrill,N.J.,King,S.M.、Butler,P.D.&Curtis,J.E.(2016)。《应用结晶杂志》第49期,1861-1875页。】) (https://sassie-web.chem.utk.edu/sassie2网站/)其中,沿着蛋白质选定片段的主干二面体允许角度在连续的离散步骤中发生变化。除了灵活区域的残留范围和一些试验尝试外支持信息,默认值多媒体卡使用了参数。

多媒体卡通过目视检查AF结构的低置信度区域来选择柔性区域。多媒体卡拒绝具有空间位阻的结构,建议进行10000到50000次试验,以充分采样构象空间。多媒体卡接受结构的池(“原始池”)我们通过从多媒体卡-使用生成的多结构PDB文件mdconvert(mdconvert)的程序MDTraj公司(1.9.4版;McGibbon等。, 2015[McGibbon,R.T.、Beauchamp,K.A.、Harrigan,M.P.、Klein,C.、Swails,J.M.、Hernández,C.X.、Schwantes,C.R.、Wang,L.P.,Lane,T.J.&Pande,V.S.(2015)《生物物理杂志》第109期,第1528-1532页。])利用XSEDE(城镇等。, 2014【Towns,J.,Cockerill,T.,Dahan,M.,Foster,I.,Gaither,K.,Grimshaw,A.,Hazlewood,V.,Lathrop,S.,Lifka,D.,Peterson,G.D.,Roskies,R.,Scott,J.R.&Wilkins-Diehr,N.(2014),《计算科学与工程》16,62-74。】)分配的Jetstream2(Hancock等。, 2021【Hancock,D.Y.、Fischer,J.、Lowe,J.M.、Snapp-Childs,W.、Pierce,M.、Marru,S.、Coulter,J.E.、Vaughn,M.和Beck,B.、Merchant,N.和Skidmore,E.(2021)。PEARC‘21:高级研究计算的实践和经验,由J.Paris、J.Milhans、B.Hillery、S.Broude Geva、P.Schmitz和R.Sinkovits编辑,第1-8页。波士顿:计算机机械协会。])云计算资源。在每种情况下R(右)将这个结构的最终子集的值与原始池的值进行比较,以确保它具有代表性。该代表性人才库在下文中简称为“人才库”

每个多结构PDB文件都由开源的流体动力学和SAS数据分析与仿真程序处理美国-索马里(Brookes&Rocco,2018)【Brookes,E.&Rocco,M.(2018),《欧洲生物物理杂志》第47期,第855-864页。】; 修订版6730+,https://somo.aucsolutions.com/)以批处理模式进行计算R(右),已预测P(P)(第页)剖面(由样品分子量和1?bin大小归一化)和(q个)使用生成的曲线CRYSOL公司(斯维尔贡等。, 1995[Svergun,D.,Barberato,C.&Koch,M.H.J.(1995),《应用结晶杂志》,第28期,第768-773页。]). 这个P(P)(第页)剖面在干结构上计算为(布鲁克斯等。, 2013【Brookes,E.,Pérez,J.,Cardinali,B.,Profumo,A.,Vachette,P.&Rocco,M.(2013),《应用结晶杂志》第46期,1823-1833页。】)

[P(r)={{\sum\nolimits_i\sum\nolimits_j\left[\left(b_i-b_{0i}\right)\left

哪里b条b条j个j个原子群,以及b条0b条0j个术语说明了溶剂散射密度。对于SAXS,b条0= 10 × (第页/第页),其中10是水分子中的电子数,第页th原子和第页是体积水分子的半径(1.93Ω)。克罗内克三角洲δ(第页第页ij公司)应用于距离第页ij公司原子中心之间j个每个箱子第页虽然在本实施方案中未考虑水化层的贡献P(P)(第页)经计算,其影响相对较小。测试比较P(P)(第页)根据起始干燥AF结构进行计算,并根据WAXSiS公司-生成(q个)剖面图(见下文)表明全球模式向更短方向移动约1°第页值以及主要在振幅上的一些局部差异(数据未示出)。利用起始结构显式水合作用的方案需要大量计算(且未在美国-索马里). 此处使用的方法允许快速处理数千个结构物,作为初步筛选步骤,以生成一个合适结构物池,然后考虑水合作用的影响进行评估(见下文)。

对于本研究美国-索马里用于生成的批处理协议(q个)使用了多达数千个结构的轮廓CRYSOL公司(版本2.8;Svergun等。, 1995[Svergun,D.,Barberato,C.&Koch,M.H.J.(1995),《应用结晶杂志》,第28期,第768-773页。]),其中25表示最大球面谐波数,18表示斐波那契网格阶数,0.335 e Au−3溶剂电子密度和0.02 e−3用于水化壳对比,使用相同的q个网格作为实验网格。在Q16543 AF结构的八核Intel core i7-4790 CPU/16 GB RAM工作站(Linux Ubuntu 16.04.7 LTS)上运行(M(M)w个44 459 Da,378个残基)每100个结构需要~27和~424 s来计算P(P)(第页)有170个箱子和(q个)带有q个网格分别为1869个点。最近的CRYSOL公司release(3.2版)可以选择使用不同的水合方案和假水珠,原则上,在处理呈现延伸非结构段的结构时应该更有效(Franke等。, 2017[Franke,D.,Petoukhov,M.V.,Konarev,P.V.,Panjkovich,A.,Tuukkanen,A.,Mertens,H.D.T.,Kikhney,A.G.,Hajizadeh,N.R.,Franklin,J.M.,Jeffries,C.M.&Svergun,D.I.(2017),《应用结晶杂志》第50期,第1212-1225页。]). 现在可以从中访问此版本美国-索马里并将在计划的下一个版本中提供给普通用户。作为检查,我们重复了所有(q个)计算CRYSOL 3.2公司使用虚拟水珠选项,并将所得结果与CRYSOL 2.8型显示在支持信息(第S1节和表S2–S4),以及讨论[链接]如下所示。

GNOM公司 P(P)(第页)从实验数据中得出的曲线被自动重新固定到1Å步,在加载时插入误差GNOM公司 *.输出将文件归档到美国-索马里. TheNNLS公司(非负约束最小二乘)效用美国-索马里(布鲁克斯等。, 2016【Brookes,E.,Vachette,P.,Rocco,M.&Pérez,J.(2016),《应用结晶杂志》第49期,1827-1841页。】)然后用于拟合预测P(P)(第页)和(q个)曲线与实验得出的曲线对应。NNLS公司优化最小化||阿克斯b条||2从属于x个≥0,其中A类是一个× n个矩阵,x个一个n个矢量和b条一个矢量。n个列,共列A类使用预测的配置文件和b条根据实验数据,该算法基于投影生成一个结果x个用零或正数填充的向量,表示相应预测剖面的分数(Lawson&Hanson,1995[Lawson,C.L.&Hanson,R.J.(1995)。解决最小二乘问题。费城:工业和应用数学学会。]). 对的列数没有限制A类(预测轮廓的数量)但是,如果有足够多的列或包含溶液的预测轮廓是其他预测轮廓的正线性组合,不同的集合可以为||阿克斯b条||2在半空间上x个≥ 0.NNLS公司只产生一个这样的集合。该算法的投影集性质显然倾向于为解提供最少数量的预测。未对原始参考SAXS进行重新绑定(q个)曲线,尽管它们在高采样率时明显过采样q个值。虽然这会导致人为降低χ2值作为一个良好的度量,这里我们不关心它们的绝对值,而只关心初始结构轮廓和NNLS公司-选定的复合材料。此外,由于需要对数重采样来有效地减少过采样,误差加权残差中的重要特征(q个)实验和模型之间的曲线图将被抑制,例如表示域平均配置差异的振荡特征。

结构识别人NNLS公司作为对真实空间的贡献P(P)(第页)和往复空间(q个)CRYSOL公司-基础曲线由计算量更大的程序进一步处理WAXSiS公司。此程序使用简短的显式溶剂分子动力学模拟构建包含该结构及其溶剂化壳的空间包络,同时用谐波势约束主链原子,以确保与输入结构没有构象偏差。排除固体散射的计算基于纯水模拟和SAXS(q个)计算出的曲线说明了水合作用的贡献(Chen&Hub,2014【Chen,P.C.&Hub,J.S.(2014),生物物理杂志107,435-447。】; Knight&Hub,2015年【Knight,C.J.和Hub,J.S.(2015)。核酸研究43,W225-W230。】).WAXSiS公司计算使用默认选项,但彻底收敛选择和使用实验选项除外(q个)曲线定义q个产生预测值的范围和间隔(q个)随后的曲线NNLS公司-适合实验(q个)曲线依据美国-索马里.

均方根(r.m.s.)平均回转半径{[〈(R(右))2〉]1/2,以下简称为〈R(右)根据计算得到的R(右)每个干燥结构和来自几内亚的R(右)报告人WAXSiS公司,按其在NNLS公司安装(PDB和WAXSiS公司R(右)〉值见表2)。由于这两个数值总是非常接近,第4节引用了这两个值之间的平均值[链接]如下所示。

直接计算χ2对于P(P)(第页)NNLS公司拟合提出了一些问题,这些问题涉及到有限的点数以及在用作权重时相关误差的可靠性。此外,根据测量值评估模型拟合度也有优点(q个)数据。因此,从WAXSiS公司-计算的(q个)每个选定的多媒体卡结构,由来自P(P)(第页)NNLS公司产生了配合。生成的复合(q个)然后根据原始数据对曲线进行缩放,得出χ2相同数据范围内的值以及与为另一个数据范围确定的点数相同的值NNLS公司然后可以进行有意义的比较。

图表使用原产地(6.0版;Microcal)或原始实验室2019b(https://www.originalab.com网站). 原子结构图是用UCSF奇美拉(版本1.15;Pettersen等。, 2004【Pettersen,E.F.,Goddard,T.D.,Huang,C.C.,Couch,G.S.,Greenblatt,D.M.,Meng,E.C.&Ferrin,T.E.(2004),《计算化学杂志》第25期,第1605-1612页。】)使用“超光滑”带状表示,并使用奇美拉月老。图形使用PaintShopPro公司(5.3版;JASC软件,现为Corel,https://www.paintshoppro.com).

3.使用相应的SAXS实验数据选择AF靶向结构,并评估SAXS数据质量

SAXS数据集的初步定性调查,以及满足上述详细要求的相应AF预测结构(见第2节[链接])揭示了AF和SAXS衍生的三个候选者P(P)(第页)值有显著差异:AF-Q16543、AF-Q06187和AF-Q9UKA9,与相应的SAXS数据SASDBP9(Bunney等。, 2018【Bunney,T.D.,Inglis,A.J.,Sanfelice,D.,Farrell,B.,Kerr,C.J.,Thompson,G.S.,Masson,G.R.,Thiyagarajan,N.,Svergun,D.I.,Williams,R.L.,Breeze,A.L.&Katan,M.(2018),结构,26,446-458.e8.】),SASDF83(杜阿尔特等。, 2020【Duarte,D.P.,Lamontanara,A.J.,La Sala,G.,Jeong,S.,Sohn,Y.K.,Panjkovich,A.,Georgeon,S,Kükenshöner,T.,Marcaida,M.J.,Pojer,F.,De Vivo,M.,Svergun,D.,Kim,H.S.,Dal Peraro,M.&Hantschel,O.(2020),《国家通讯》第11期,第2319页。】)和SASDM77(辛普森等。, 2004【Simpson,P.J.,Monie,T.P.,Szendröi,A.,Davydova,N.,Tyzack,J.K.,Conte,M.R.,Read,C.M.,Cary,P.D.,Svergun,D.i.,Konarev,P.V.,Curry,S.&Matthews,S.(2004),《结构》,第12期,1631-1643页。】),分别为(图1[链接]). 在每种情况下,AF预测结构中都有扩展的低置信区域,这可能意味着灵活性。在确定了这三个可能需要修改才能正确表示解决方案状态的候选结构后,我们继续评估SAXS数据的质量及其建模的适用性。

[图1]
图1
每个选定AF指定结构的色带表示,根据增加的可信度从红色到蓝色进行颜色编码。()问题16543(智人Hsp90共同伴侣Cdc37,残基1–378)。(b条)Q06187问题(智人布鲁顿酪氨酸激酶,成熟蛋白残基2-659)。(c(c))Q9UKA9问题(智人多嘧啶束结合蛋白2,残基1-531)。插图显示了P(P)(第页)根据干结构计算的剖面,以及从SASBDB检索的SAXS衍生剖面(分别为红线和黑线)。中显示的比例尺(b条)也适用于其他面板。

来自具有高度灵活性的蛋白质的SAXS溶液数据提出了几个挑战。首先,与折叠结构相比,它们更容易受到小程度聚集的影响,因此非常希望使用内联收集的数据尺寸排除色谱法(SEC–SAXS)。第二,选择d日最大值对于P(P)(第页)转型具有挑战性,因为P(P)(第页)从一系列结构中d日最大值值通常会产生aP(P)(第页)接近d日最大值尾巴很长,强度很低,但误差很大,这对R(右)根据P(P)(第页). 第三,根据散射不变量确定多孔体体积时,假设目标散射密度均匀,与溶剂界面尖锐。虽然对于紧凑的全结构蛋白质来说,这是一个有争议的有效近似值,但对于柔性结构来说,这几乎不相关。

对于每个候选SAXS数据集,SAXS衍生的分子量(M(M)出口)与根据化学成分计算的质量相符(M(M)计算)(表1[链接]),尽管我们注意到用于确定M(M)出口(见表1脚注[链接]). 检查P(P)(第页)SASBDB中针对每个数据集的转换显示d日最大值没有生成P(P)(第页)预期逐渐接近近水平切线的剖面d日最大值; 相反,SASDM77有一个最严重的急剧截止。因此,我们重新计算了P(P)(第页)变换使用GNOM公司采用标准化方法d日最大值选择:d日最大值被选中,从而释放约束P(P)(第页)=0时d日最大值没有导致P(P)(第页)长期强度第页.结果P(P)(第页)外形都显示出预期的形状第页,但由于第页方法d日最大值.P(P)(第页)使用获得的轮廓贝叶斯应用程序产生了类似的配置文件R(右)值,但具有d日最大值值缩短了8–20°。因此,在选择d日最大值对于这些结构。平均而言,吉尼亚衍生R(右)值比从P(P)(第页),SASDM77除外,其差值为~4º,但此处的误差P(P)(第页)R(右)是其他数据集的四倍多。这个P(P)(第页)根据GNOM公司总质量估计值(0.72–0.79)。这个χ2的值P(P)(第页)拟合范围为1.03–1.15,可接受CorMAP公司 P(P)值(Franke等。, 2015【Franke,D.、Jeffries,C.M.和Svergun,D.I.(2015),《自然方法》,第12期,第419-422页。】),SASDF83除外(χ21.35,P(P)值0.0003)(表1[链接]). 误差加权残差图P(P)(第页)然而,SASDF83的拟合是平坦且无特征的,偏差主要在±3范围内。备选方案d日最大值值导致此数据集的拟合参数较差,并且范围很窄q个造成低谷的地区P(P)值(0.134–0.139º−1). 因此,我们得出结论GNOM公司-派生的P(P)(第页)适合实验是可以接受的。

表1
从SAXS数据派生的参数

SASBDB ID、AF结构ID M(M)计算(千Da) M(M)出口(千Da) 吉尼尔R(右)(Å) 最大值qR(质量风险) P(P)(第页)R(右)(Å) d日最大值(Å) P(P)(第页)适合:χ2 P(P)(第页)适合:P(P)价值
SASDBP9,Q16543 44 49§ 40.9 ± 0.5 1 42.4 ± 0.3 170 1.03 0.155
SASDF83,Q06187 77 67 41.4 ± 0.4 1 43.8 ± 0.3 176 1.35 0.0003
SASDM77、Q9UKA9 57 60†† 39.1 ± 0.9 1.3 43.9 ± 1.1 170 1.11 0.95
†值用于GNOM公司-派生的P(P)(第页). 使用贝叶斯应用程序-计算的P(P)(第页)不输入d日最大值值为R(右)41.8、43.5和45.2,以及d日最大值SASDBP9、SASDF83和SASDM77分别为152、152和162。
χ2P(P)使用数据比较的工具PrimusQt公司(马纳拉斯塔斯-坎托斯等。, 2021[马纳拉斯塔斯·坎托斯,K.,科纳列夫,P.V.,哈吉扎德,N.R.,基克尼,A.G.,佩图霍夫,M.V.,莫洛登斯基,D.S.,潘基科维奇,A.,默滕斯,H.D.T.,格鲁兹诺夫,A.,博尔赫斯,C.,杰弗里斯,C.M.,斯维尔根,D.I.&弗兰克,D.(2021),《应用结晶杂志》,54,343-355.]).
§来自(0)相对于标准牛血清白蛋白(BSA)。
¶来自贝叶斯推断。
††来自达明包络体积,未指定换算系数。

最后,给出最大维结构的精确表征d日最大值,必须有足够的样本(q个)在吉尼亚政权和q个最小值应该是<π/d日最大值.实验q个最小值SASDBP9和SASDF83的值为2.48×10−3和8.16×10−3Å−1分别为。吉尼亚地区分别有95个和64个数据点,注意到对于SASDBP9,前25个数据点被排除在吉尼亚分析之外,这是因为寄生散射或一些大颗粒污染物的上升表明其水平足够低,不会影响SAXS衍生的分子质量。对于SASDM77,q个最小值只有1.41×10−2Å−1吉尼亚地区只有17个数据点。因此,虽然SASDBP9和SASDF83满足了表征350-400º结构的最低要求,但SASDM77的极限值为220º,更接近于实验推导的极限值P(P)(第页)d日最大值值范围(170–176º)。

总之,虽然我们确定的SAXS数据表明AF预测结构需要进行一些修改以表示溶液构象,但这些数据并不是在首选的SEC–SAXS模式下收集的,我们可以得出结论,根据2017年生物分子小角散射指南(Trewella等。, 2017【Trewella,J.、Duff,A.P.、Durand,D.、Gabel,F.、Guss,J.M.、Hendrickson,W.A.、Hura,G.L.、Jacques,D.A.、Kirby,N.M.、Kwan,A.H.、Pérez,J.,Pollack,L.、Ryan,T.M.,Sali,A.、Schneidman-Duhovny,D.、Schwede,T.、Svergun,D.I.、Sugiyama,M.、Tainer,J.A.、Vachette,P.、Westbrook,J.&Whitten,A.E.(2017)。《基督学报》D73,710-728.]).

4.SAXS数据建模

简而言之,我们的总体建模方法首先对预测的房颤结构进行定量评估(q个)和P(P)(第页)对其各自的实验SAXS配置文件没有修改的配置文件;χ2使用以下公式计算每个AF结构的值WAXSiS公司-生成(q个)按实验缩放的配置文件,以及Guinier和P(P)(第页)-对推导的结构参数进行了比较。对于这些比较,以及所有建模P(P)(第页)作为目标函数,实验推导出P(P)(第页)使用标准化方法重新计算d日最大值使用了选择目标。考虑到观察到的差异以及AF结构的低置信预测区域,通过使用多媒体卡使用潜在的灵活序列段生成潜在结构的池(“原始池”),从中选择代表子集(“池”)。集成建模首先使用NNLS公司用这个结构池来优化与实验推导的P(P)(第页),没有或有间接傅里叶变换中产生的误差。为了评估在倒易空间,合奏(q个)通过求和计算剖面WAXSiS公司-生成(q个)每个集合中单个构象的轮廓,由NNLS公司-报告分数。比较通过优化拟合获得的结果P(P)(第页)直接拟合得到的互易空间相对于测量值(q个),NNLS公司优化也从相同的开始多媒体卡潜在结构池P(P)(第页)配件,但使用CRYSOL 2.8型-预测生成的个人(q个)配置文件。最后,WAXSiS公司用于计算(q个)集合中存在的所有构象的轮廓符合P(P)(第页)或(q个),这些都受到NNLS公司针对实验的优化(q个)配置文件。

4.1. AF-Q16543预测结构和SASDBP9数据

AF-Q16543结构[图1[链接]()]由两个折叠域组成,由跨越残基121–139的非结构化连接子连接,AF平均预测置信水平(APCL)为66±14%。还有一个长的非结构化C末端尾部(残基343–378),APCL为35±10%。这个P(P)(第页)AF结构的计算结果与SASDBP9的SASBDB中沉积的结果有很大不同[见图1[链接](),插图]。AF-Q16543P(P)(第页)有一个双峰和一个肩部,表明多个折叠区域的配置平均相对受限。SAXS衍生P(P)(第页)有一个带肩部的单峰,延伸的尾巴靠近d日最大值与AF计算值类似的值,表明紧凑型结构到高度扩展型结构的广泛分布,向更紧凑型结构加权,与溶液中的柔性连接体和潜在的柔性C末端区域一致。高点χ2值(19.044)[表2[链接]()]在计算的(q个)AF结构和实验(q个)缩放后[图2[链接]()]表明AF预测结构和解决方案状态之间存在重大差异。实验与预测误差加权残差图中的大振荡(q个)[图2[链接](b条)](-12至16)表明差异非常显著。

表2
模型拟合参数(χ2)和平均结构参数R(右)〉,WAXSiS公司R(右)〉,P(P)(第页) 〈d日最大值〉,和P(P)(第页)最大值d日最大值以及他们的贡献百分比]NNLS公司整体贴合

R(右)\9002;代表均方根平均回转半径[\9001(R(右))2〉]1/2(见第2节[链接],方法). Expt.是实验的缩写,conf是构象的缩写。

()适用于基于AF-Q16543的SASDBP9,NNLS公司适用于柔性连接器(序列段121–139和343–378)。

Fit方法 WAXSiS公司,(q个),已缩放 NNLS公司,出口。P(P)(第页)目标 NNLS公司,出口。(q个)目标 NNLS公司,出口。(q个)目标
    多媒体卡水塘P(P)(第页)    
构筑物水池 AF-Q16543 无误差加权 误差加权 多媒体卡水池[CRYSOL 2.8型 (q个)] 全部NNLS公司所选配置[WAXSiS公司 (q个)]
拟合参数(χ2) 19.044 1.399 2.065 1.602 1.228
 
PDB〈R(右)〉 (Å) 41.7 38.6 39.2 40.8
WAXSiS公司R(右)〉 (Å) 41.5 38.5 39.1 39.3
P(P)(第页) 〈d日最大值〉 (Å) 157.1 139.4 146 150.1
P(P)(第页)最大值d日最大值(Å) 201 (14%) 158 (8%) 185 (23%) 187 (6%)

(b条)适用于基于AF-Q06187的SASDF83,NNLS公司与柔性连接器配合(序列段170–210)。

Fit方法 WAXSiS公司 (q个),已缩放 NNLS公司,出口。P(P)(第页)目标 NNLS公司,出口。(q个)目标 NNLS公司,出口。(q个)目标
    多媒体卡水塘P(P)(第页)    
构筑物水池 AF-Q06187 无误差加权 误差加权 多媒体卡水池[CRYSOL 2.8型 (q个)] 全部NNLS公司所选配置[WAXSiS公司 (q个)]
拟合参数(χ2) 31.250 1.997 2.716 1.673 1.763
 
PDB〈R(右)〉 (Å) 40.7 42.7 42.3 41.1
WAXSiS公司R(右)〉 (Å) 40.6 42.4 42 41
P(P)(第页) 〈d日最大值〉 (Å) 133.1 138.7 136.4 132.1
P(P)(第页)最大值d日最大值(Å) 165 (15%) 184 (4%) 187 (2%) 178 (6%)

(c(c))适用于基于AF-Q9UKA9的SASDM77,NNLS公司适用于柔性连接器(序列段1-54和273-336)。

Fit方法 WAXSiS公司,(q个),已缩放 NNLS公司,出口。P(P)(第页)目标 NNLS公司,出口。(q个)目标 NNLS公司,出口。(q个)目标
    多媒体卡水塘P(P)(第页)    
构筑物水池 AF-Q9UKA9 无误差加权 误差加权 多媒体卡水池[CRYSOL 2.8型 (q个)] 全部NNLS公司所选配置[WAXSiS公司 (q个)]
拟合参数(χ2) 3.674 1.279 1.493 1.208 1.179
 
PDB〈R(右)〉 (Å) 43.8 40.4 52.2 48.4
WAXSiS公司R(右)〉 (Å) 43.7 40.5 52 48.4
P(P)(第页) 〈d日最大值〉 (Å) 152.8 143.8 162.9 152.8
P(P)(第页)最大值d日最大值(Å) 192 (4%) 168 (10%) 243 (8%) 243 (5%)
χ2对于P(P)(第页)NNLS公司通过计算(q个)每个选定的多媒体卡结构使用WAXSiS公司,然后使用NNLS公司适合。产生的结果(q个)然后根据原始数据缩放曲线。
[图2]
图2
()(q个)与q个用于覆盖AF-Q16543配合的SASDBP9(带标准误差条的黑色符号)WAXSiS公司-计算的SAXS配置文件(红线)和NNLS公司CRYSOL 2.8型-计算的SAXS配置文件多媒体卡水池结构(紫线)。(b条)面板中所示配合的误差加权残差图(). (c(c))和(d日)GNOM公司-派生的P(P)(第页)外形(黑色符号,无/带标准误差条)与AF-Q16543预测的外形(红线)重叠NNLS公司P(P)(第页)根据计算多媒体卡分别没有错误权重和有错误权重的池(蓝色和橙色线)。(e(电子))(q个)与q个对于SASDBP9(带有标准错误条的黑色符号),覆盖NNLS公司使用WAXSiS公司-生成(q个)与q个所有配置文件NNLS公司-从中选择的结构CRYSOL 2.8型P(P)(第页)适合(品红色线条)。在插图中,四个具有代表性的结构被选中,其中至少有两个具有显著的百分比NNLS公司在1–120 N末端残基上叠加后,显示了拟合[见表2[链接]()以获得完全拟合结果]。((f))面板中显示的拟合误差加权残差图(e(电子)).
4.1.1. 集成建模与P(P)(第页)作为目标函数

这个多媒体卡该方案用于通过允许序列片段121–139和343–378的二面角变化来生成AF-Q16543的潜在溶液构象库(运行摘要见表S1). 原始池包括15661个结构,其中1740个具有代表性的结构(九分之一)构成了NNLS公司找到与实验推导的最佳拟合的工具P(P)(第页). 目视检查P(P)(第页)无误差配合[图2[链接](c(c))]显示出良好的定性一致性。产生的结果χ21.399的值[表2[链接]()]对于复合材料WAXSiS公司-计算的(q个)与未修改的结构相比,对实验数据的拟合程度提高了一个数量级以上。此外,〈R(右)41.6º的〉与SAXS推导值非常一致[表1[链接]和2[链接]()]. 这个P(P)(第页)最大值d日最大值值在实验的不确定度范围内P(P)(第页)d日最大值,结构的人口重量最长d日最大值14%。相当短的d日最大值〉与实验相比P(P)(第页)d日最大值反映了d日最大值所选结构之间的值。相比之下NNLS公司采用误差加权进行拟合[图2[链接](d日)]明显未充分利用具有d日最大值长期价值观-第页范围,其中实验推导出P(P)(第页)有最大的错误。值得注意的是χ2值显著较高(2.065)R(右)〉和最大值d日最大值这些值都低于实验得出的值,甚至更短d日最大值〉[表2[链接]()]. 这些结果质疑了P(P)(第页)-此协议中的相关错误。

对〈的贡献百分比直方图R(右)〉中的单个结构P(P)(第页)NNLS公司配合[图3[链接]()和3[链接](b条)]显示具有R(右)36Ω分别占无误差加权和有误差加权的集合总体的~41和~62%(另见表S2). 根据上述分析R(右)在没有误差加权的情况下获得的值偏向更高的值[图3[链接]()]. 这两个实验衍生的吉尼尔和P(P)(第页)R(右)值接近具有中间值的贡献结构簇R(右)值,而AF结构的值接近一个由最扩展的值组成的小簇,尽管贡献率很低,但这些值在通过误差加权获得的集合中完全缺失。个人检查P(P)(第页)出资结构及其对NNLS公司无误差加权和有误差加权的拟合[图S1()和S1(b条)]揭示了P(P)(第页)概要文件可以分为五类和四类。这个P(P)(第页)在N端25-110序列上叠加后,对每个结构的带状表示观察到的类似聚类支持形状聚类[图S1(c(c))和S1(d日)].

[图3]
图3
直方图R(右)值及其对由NNLS公司适合()–(d日)SASDBP9/Q16543((f))–()SASDF83/Q06187和(k个)–(n个)SASDM77/Q9UKA9系统。(), ((f))和(k个)P(P)(第页)NNLS公司在没有误差加权的情况下进行拟合。(b条), ()和()P(P)(第页)NNLS公司适合误差加权。(c(c)), (小时)和()CRYSOL公司 NNLS公司适合。(d日), ()和(n个)WAXSiS公司 NNLS公司适合所有其他方法选择的结构。在所有直方图面板中,蓝色和红色的倒三角形表示R(右)从吉尼亚和GNOM公司 P(P)(第页)分别对实验数据进行分析,而深青色倒三角形表示R(右)开始AF结构的。(e(电子)), (j个)和(o个)分配R(右)原始结构的值多媒体卡池(实心黑线)和子选定的多媒体卡用于NNLS公司适合的。(e(电子))问题16543(j个)Q06187和(o个)问题9UKA9。
4.1.2. 集成建模与(q个)作为目标函数

使用获得的系综模型NNLS公司具有CRYSOL公司-计算的(q个)相同的配置文件多媒体卡构筑物池P(P)(第页)配合产生了(q个)轮廓拟合[图2[链接]()和2[链接](b条)]其质量可与P(P)(第页)无误差加权的拟合,尽管稍微高一些χ2值[1.602,表2[链接]()]. R(右)〉值比实验得出的值低~6%,最大值d日最大值值(23%的贡献)比GNOM公司-派生的P(P)(第页),带有〈d日最大值〉介于P(P)(第页)NNLS公司配合[表1[链接]和2[链接]()]. 对应的直方图R(右)值[图3[链接](c(c))]显示了对更紧凑结构的偏好,与从P(P)(第页)用误差加权进行拟合。三个结构具有R(右)36–43º范围内的值占现有结构的约92%以上,其中一个(约22%)接近实验推导的值R(右)值。

最后NNLS公司适合任何一种P(P)(第页)或(q个)作为目标,再加上起始AF预测结构(共22个结构),作为一个集合进行计算WAXSiS公司 (q个)配置文件用于NNLS公司符合SASDBP9(q个)[图2[链接](e(电子))和2[链接]((f))]. 这个计算得出的结果是最低的χ2值[1.228,表2[链接]()]和〈d日最大值〉和最大值d日最大值值与NNLS公司适合CRYSOL公司-生成(q个)配置文件较大多媒体卡池,而R(右)?值更接近于通过NNLS公司配合P(P)(第页)无误差加权。相应的R(右)分布直方图[图3[链接](d日)]显示了两个主要集群R(右)值在36-38和40-43Ω范围内,分别占结构的~49和~36%,后者包括实验推导的R(右)值(见表1[链接]). 与使用CRYSOL公司,选择了两个更长的结构,贡献了约15%。此外,最初的AF预定结构,两人都没有选择P(P)(第页)-基础配合或CRYSOL公司适合,为WAXSiS公司-基于NNLS公司配合(表S2).

为了完整性,将SASDBP9实验剖面与CRYSOL公司-和WAXSiS公司-生成的个人(q个)所选结构的剖面及其贡献百分比如所示图S2()和S2(b条)分别为。它们伴随着根据P(P)(第页)-派生类[图S2(c(c))],一个单独的额外单一结构对CRYSOL公司WAXSiS公司 NNLS公司分别适合。

最后,所有NNLS公司配合[插入图2中[链接](e(电子))]所有人都有R(右)值在36–42°范围内,对应于多媒体卡设置在的下端R(右)分布,如图3所示[链接](e(电子))这也突出了原始整体之间的良好对应性多媒体卡池和用于NNLS公司适合。总的来说,我们的分析表明,该蛋白采用了比AF-Q16543起始结构更为紧凑的构象。

4.2. AF预测结构Q06187和SASDF83数据

AF-Q06187的结构[图1[链接](b条)]包括N末端折叠结构域(残基1–169),该结构域由基本上非结构化的连接物(残基170–210,APCL 36±5%)连接到更大的折叠C末端结构域(残留211–659)。虽然没有观察到真实的接触界面,但两个域的部分在空间上看起来很接近。实验得出的P(P)(第页)从SASDF83条目中检索到的数据比为结构计算的数据要大得多(从~60到70º)[参见图1中的插图[链接](b条)]. 对于AF-Q16543/SASDBP9病例WAXSiS公司-生成(q个)剖面与实验曲线拟合得很差[图4[链接]();χ2=31.25,表2[链接](b条)]和振荡误差加权残差图(−14至18)[图4[链接](b条)]. 这些观察结果强烈表明,序列片段170–210可能是一个灵活的连接体,并且这两个域在溶液中的分离程度平均高于AF靶向结构。

[图4]
图4
()(q个)与q个SAXS数据取自SASDF83(带有标准误差条的黑色符号),与AF-Q06187的拟合覆盖WAXSiS公司-计算的SAXS配置文件(红线)和NNLS公司CRYSOL 2.8型-上计算的SAXS配置文件多媒体卡水池结构(紫线)。(b条)面板中所示配合的误差加权残差图(). (c(c))和(d日)GNOM公司-派生的P(P)(第页)SAXS数据中的轮廓(无/带标准误差条的黑色符号)与AF-Q06187预测中的轮廓重叠(红线),并与NNLS公司合身款P(P)(第页)根据计算多媒体卡分别没有错误权重和有错误权重的池结构(蓝色和橙色线)。(e(电子))(q个)与q个SAXS数据取自SASDF83(带有标准误差条的黑色符号),覆盖NNLS公司使用WAXSiS公司-生成(q个)与q个所有配置文件NNLS公司-从中选择的结构CRYSOL 2.8型P(P)(第页)适合(品红色线条)。在插图中,四个具有代表性的结构被选中,其中至少有两个具有显著的百分比NNLS公司在213–659个C端子残留物上叠加后,显示了配合[见表2[链接](b条)以获得完全拟合结果]。((f))面板中显示的拟合误差加权残差图(e(电子)).
4.2.1. 集成建模与P(P)(第页)作为目标函数

使用多媒体卡协议中允许170–210连接器中的二面角变化,从中选择972个(每15个选择一个;运行摘要见表S1)作为输入到NNLS公司用于找到SASDF83最佳匹配的工具GNOM公司-派生的P(P)(第页). 在没有误差加权和有误差加权的情况下进行计算[图4[链接](c(c))和4[链接](d日)]。对于AF-Q16543,目视检查表明NNLS公司拟合产生了更好的一致性,误差加权导致了更差的拟合,如χ2对应的值WAXSiS公司-基复合材料(q个)符合实验数据[1.997和2.716,分别见表2[链接](b条)]. 然而,在这两种情况下,与未修改的结构和R(右)〉值与吉尼亚和P(P)(第页)-衍生实验R(右)值[表1[链接]和2[链接](b条)]. 此外P(P)(第页)-导出的最长d日最大值数值显示了与实验值的偏差[表1[链接]和2[链接](b条)]与AF-Q16543相似,但d日最大值〉值比实验值短得多P(P)(第页)d日最大值,表明所选结构向池内更紧凑的结构聚集。事实上,对〈贡献百分比的直方图R(右)〉中的单个结构P(P)(第页)NNLS公司配合[图3[链接]((f))和3[链接]()]显示带有的群集R(右)值为32–36º(合计占贡献的53和55%),接近初始AF结构的值,其中一个结构被两个匹配(有或无错误)大量选择(另请参见表S3). 带有R(右)值与GNOM公司-派生的P(P)(第页)仅由选定NNLS公司无误差拟合,贡献率31%。尽管视觉效果较差,但时间较长第页的值NNLS公司 P(P)(第页)考虑到误差,它选择了较大的结构R(右)值,尽管与没有误差加权的计算相比具有相对较小的百分比贡献。

个人P(P)(第页)两者选择的结构组合的贡献和全局视图NNLS公司配合(图S3)显示类似的P(P)(第页)两个计算之间的聚类,有三个明确的类,其中一个可以通过N端域的不同方向分为两个,而N端域在P(P)(第页)NNLS公司用误差加权进行拟合。

4.2.2. 集成建模与(q个)作为目标函数

实验(q个)对于SASDF83,包含1284个非均匀数据点q个间距(Δq个):Δq个为4.696×10−4Å−1对于q个在[0.8164,2.648]×10范围内−2Å−1,然后Δq个具有2.3×10范围内的可变步长−6至4.696×10−4Å−1高达q个= 0.14398 Å−1然后是制服Δq个= 4.713 × 10−4Å−1q个最大值= 0.49462 Å−1. The美国-索马里 CRYSOL公司生成的实现(q个)每个结构的纵断面多媒体卡使用固定网格间距4.696×10的水池−4Å−1,产量1038(q个)插值点以匹配1284个点的实验数据NNLS公司SASDF83的安装程序(q个)作为目标。由此产生的集成模型对实验数据的拟合度显著提高[图4[链接]()和4[链接](b条)]带有χ2共1.673页[表2[链接](b条)]. R(右)〉值在实验误差范围内等于吉尼尔推导值,介于P(P)(第页)NNLS公司配合[表1[链接]和2[链接](b条)]. 的直方图R(右)所选结构的分布[图3[链接](小时)]与从P(P)(第页)NNLS公司采用误差加权进行拟合,聚类在32–36°之间,约占贡献的60%。d日最大值〉类似于P(P)(第页)NNLS公司值和最大值d日最大值在不确定性范围内GNOM公司-根据实验数据得出的值,最延伸的结构的贡献率很低(2%)[表1[链接]和2[链接](b条)].

这个WAXSiS公司-生成(q个)从为任何NNLS公司然后,将配合加上AF指定的起始结构(共21个结构)用作NNLS公司安装在SASDF83上(q个)剖面图[图4[链接](e(电子))和4[链接]((f))]. 这个χ2该拟合的值为1.763,略低于仅使用CRYSOL公司-生成(q个)配置文件多媒体卡游泳池。R(右)〉与吉尼尔衍生值〈几乎相同d日最大值〉与所有其他配合和最长结构相似d日最大值(6%的贡献)与实验得出的值非常相似[表1[链接]和2[链接](b条)]. 直方图R(右)选定结构的值[图3[链接]()]显示了两个主要的峰值,分别在34和46℃,贡献率分别为46%和34%,反映出与AF起始结构(未选择)相比,更多扩展构象的显著群体表S3).

SASDF83实验剖面上覆盖了CRYSOL公司-和WAXSiS公司-生成的个人(q个)选定结构的剖面及其在中的贡献百分比图S4()和S4(b条)分别随附相应的结构,作为根据P(P)(第页)-派生类[图S4(c(c)),方向与中相同图S3(c(c))和S3(d日)]. 这里是一个额外的紧凑结构,具有类似的R(右)中存在的第二个紧类的值图S3(c(c))但N端结构域的不同方向被CRYSOL公司 NNLS公司适合(~33%),也存在于WAXSiS公司适合(~6%)。在中具有单独结构的中间类图S3(c(c))(q个)配合[图S4(c(c))],更扩展的结构类也是如此。

所有结构贡献率最高的四个结构NNLS公司在C端子218–659序列上叠加后,配合显示为带状表示[图4[链接](e(电子)),插图]。最高比例的R(右)值都位于多媒体卡-生成的结构R(右)分布(<48Å),在较高范围(48–62Å)内贡献较小,如图所示。3[链接](j个),再次突出了原始整体之间的良好对应性多媒体卡池和用于NNLS公司适合。总的来说,我们的分析表明,该蛋白在溶液中呈现出一系列构象,平均来说,这些构象比最初的AF靶向结构要大得多。

4.3. AF-Q9UKA9预测结构和SASDM77数据

AF-Q9UKA9的结构[图1[链接](c(c))]由两个小的N末端折叠区域(残基58–159和177–272)组成,由一个相对较短的预测非结构化片段(APCL 35±4%)连接,并由一个较长的预测非结构片段(残基273–336,APCL 42±4%)链接13%)到C末端结构域(残基337-531),其中两个子结构域之间似乎有一个定义的界面。在N末端也有一个长期预测的非结构化片段(残基1-57,APCL 36±4%)。对于AF-Q06187案例,实验得出P(P)(第页)从SASDM77条目中检索到的数据比为结构计算的数据更为扩展[参见图1中的插图[链接](c(c))]尽管程度较低(约20º)。从图5[链接]()很明显WAXSiS公司-生成(q个)虽然相对较低χ2值(3.674),这部分反映了与其他两个示例相比,此数据集中的统计误差更大。值得注意的是,误差加权残差图(−5到8)中存在明显的振荡,这在中间阶段最为明显q个范围,~0.04至~0.15º−1[图5[链接](b条)]. 这些观察结果表明,一些潜在的非结构化区域在解决方案中可能是灵活的,从而导致域之间的空间配置可变。

[图5]
图5
()(q个)与q个SAXS数据取自SASDM77(带标准误差条的黑色符号),覆盖AF-Q9UKA9的拟合WAXSiS公司-计算的SAXS配置文件(红线)和NNLS公司CRYSOL 2.8型-上计算的SAXS配置文件多媒体卡水池结构(紫线)。(b条)面板中所示配合的误差加权残差图(). (c(c))和(d日)GNOM公司-派生的P(P)(第页)SAXS数据的剖面(带标准误差条的黑色符号)与AF-Q9UKA9预测的剖面(红线)重叠,并与NNLS公司整体合身P(P)(第页)根据计算多媒体卡分别没有错误权重和有错误权重的池结构(蓝色和橙色线)。(e(电子))(q个)与q个从SASDM77(带有标准错误条的黑色符号)获取的SAXS数据覆盖NNLS公司使用WAXSiS公司-生成(q个)与q个所有配置文件NNLS公司-从中选择的结构CRYSOL 2.8型P(P)(第页)适合(品红色线条)。在插图中,四个具有代表性的结构被选中,其中至少有两个具有显著的百分比NNLS公司在叠加63–270个N末端残基后,显示了拟合[见表2[链接](c(c))以获得完全拟合结果]。((f))面板中显示的拟合误差加权残差图(e(电子)).
4.3.1. 集成建模与P(P)(第页)作为目标函数

第一次测试是用多媒体卡其中仅允许N末端1–57段具有灵活性,但这导致P(P)(第页)无法解释与实验观察到的差异的分布(数据未显示)。然后我们加入了多媒体卡运行预测的非结构化连接子(残数273–336)和N末端1–57片段,选择不添加潜在的额外短低置信序列片段(残数160–176)以限制自由度在建模中。这个多媒体卡让两个序列片段的二面角发生变化的运行产生了17284个构象,从中选择了1728个构象(每十个构象中有一个;运行摘要见表S1)对于NNLS公司安装到SASDM77衍生P(P)(第页). 视觉效果良好NNLS公司得到了无误差加权和有误差加权的拟合结果[图5[链接](c(c))和5[链接](d日)]. 如其他两个示例所示,在没有误差加权的情况下获得了更好的拟合,最明显的是长尾第页其中P(P)(第页)误差最大。这个χ2与测量值的配合值(q个)的WAXSiS公司-生成的复合物(q个)所有选定结构的剖面,按其贡献加权,分别为1.279和1.493[表2[链接](c(c))]与最初的AF预测结构相比,分别提高了3倍和2.5倍。R(右)〉用于NNLS公司带误差加权的拟合非常接近吉尼尔推导值,而当忽略拟合的误差加权时,与较大值的拟合非常匹配GNOM公司-获得了推导值[表1[链接]和2[链接](c(c))]. 这个P(P)(第页)-导出的最长d日最大值的值NNLS公司误差拟合与GNOM公司-导出值,但长22º,无误差加权[表1[链接]和2[链接](c(c))]. d日最大值〉值小于GNOM公司-派生的P(P)(第页)d日最大值,表明在拟合中选择了更紧凑的结构的比例更高。对〈的贡献百分比直方图R(右)〉中的单个结构P(P)(第页)NNLS公司配合[图3[链接](k个)和3[链接]()]确实显示出一组主要的结构R(右)值(34–40º)与初始AF结构的值相当,非常接近吉尼尔推导值,分别占贡献值的58%和75%,其中两个值是通过拟合或无误差加权强烈选择的。在无误差加权的情况下进行拟合,得出单个结构对较高的R(右)值(另请参见表S4).

个人P(P)(第页)两者选择的结构组合的贡献和全局视图NNLS公司配合如所示图S5.广泛分布P(P)(第页)外形在NNLS公司贴合无误[图S5()],通过误差加权,该值有所降低[图S5(b条)]. 可以分别定义四个和三个主要结构类[图S5(c(c))和S5(d日)],有较大比例的贡献结构聚集在低水平-R(右)范围。域之间有较宽分隔的一些结构在NNLS公司配合无误。

4.3.2. 集成建模与(q个)作为目标函数

对于SASDF83(q个)SASDM77没有制服Δq个:Δq个为1.102×10−3Å−1对于q个≤ 6.9519 × 10−2Å−1,之后具有可变步长(Δq个在[3.53,4.53]×10范围内−4Å−1)至q个最大值= 0.32532 Å−1.CRYSOL公司生成(q个)上的配置文件多媒体卡使用固定网格间距1.102×10的水池−3Å−1,导致295(q个)插值以匹配644个实验数据点的NNLS公司安装程序。非常适合[图5[链接]()和5[链接](b条)]是通过χ21.208,与使用P(P)(第页)NNLS公司无误差配合[表2[链接](c(c))]. 然而R(右)〉52.1º的值明显大于R(右)两者的P(P)(第页)NNLS公司拟合和实验值[表1[链接]和2[链接](c(c))]. 虽然〈d日最大值〉在这种情况下的值接近GNOM公司-派生的d日最大值值,最大值d日最大值也大于实验得出的值(243对170?),贡献率为7%[表1[链接]和2[链接](c(c))]. 这些结果反映在R(右)直方图[图3[链接]()]其中,与位于的集群一起R(右)值小于或接近初始AF结构的值,或接近吉尼尔衍生值,有很大的单个结构R(右)值,对于占整体总体7%的结构,最高可达~92º。

这个WAXSiS公司-生成(q个)从为任何NNLS公司拟合,加上开始的AF结构(总共24个结构),然后被用作NNLS公司适合SASDM77(q个)剖面图[图5[链接](e(电子))和5[链接]((f))]从而与最佳χ2其中1.179NNLS公司在此样品上进行的配合[表2[链接](c(c))]. 相当高的〈R(右)〉48.4 Au的值,以及〈d日最大值〉和最大值d日最大值,最细长的结构占整体的4%,与通过CRYSOL公司/NNLS公司配合[表2[链接](c(c))]. 这个R(右)直方图[图3[链接](n个)]然而,在这种情况下,集群的规模较小R(右)值(比CRYSOL公司fit case,35–45º)更占优势,占所选结构的75%,跨越AF起始结构(未选择);另请参见表S4)到那些GNOM公司-派生值。

个人(q个)在中选择的配置文件CRYSOL公司WAXSiS公司 NNLS公司可以在中看到配合图S6()和S6(b条)中相应的结构类图S6(c(c))[与图S5(c(c))和S5(d日)]. 紧致的构象簇可以分为两个,然后是两个分别具有相对和相当扩展结构的簇,而最扩展的一个也可以根据其非常特殊的性质而分开(q个)个人资料[粉红色线条图S6()和S6(b条)].

与所研究的其他两个系统一样,所有系统中贡献率最高的四个结构NNLS公司在N端子63–270域上叠加后,配合显示为带状表示[图5[链接](e(电子)),插图]。最高比例的R(右)值都位于多媒体卡-生成的池R(右)分配(32–60º),另一半(60–92º)的贡献率较小,仅由(q个)NNLS公司如图3所示安装[链接](o个),这也证实了原始整体之间的良好对应性多媒体卡池和用于NNLS公司适合。

此示例与其他两个示例的不同之处在于,通过建模获得的总体P(P)(第页)与(q个)由于目标给出了关于现有扩展结构总体的不同结果,反映在两个〈中R(右)〉和最大值P(P)(第页)d日最大值值。已经注意到,与其他两个数据集相比,本例中的SAXS数据的统计质量较差q个最小值仅为0.0141欧−1(与0.0025和0.0082º相比−1分别用于SASDBP9和SASDF83),而吉尼亚地区的数据点要少得多(按三到五倍计算)。这些观察结果提出了一个问题:-q个SASDM77在吉尼亚体系中的极限和采样频率足以可靠表征样品中存在的最广泛结构。对于这个数据集,实验q个最小值是这样的结构d日最大值> 220 Å−1不会被可靠地描述,而且它也会限制d日最大值计算时P(P)(第页). 使用建模P(P)(第页)因为目标可能因此被人为限制d日最大值,建模时使用(q个)因为目标可能会允许更多的扩展结构。

关于扩展结构群的精确性质,然而,我们的分析表明,该蛋白的主要混杂结构仅比起始AF结构的混杂结构略长,但在总群体中相对较低的比例中可能会经历向非常长的构象的转变。

5.讨论

AlphaFold已经被证明可以为大量蛋白质提供极好的预测。然而,具有柔性片段的蛋白质不能用单一的静态结构充分地表示。虽然这可以被视为房颤的一个弱点,但它只是反映了蛋白质功能的一个必要方面。将AF预测与实验推导的约束和构象空间扩展相结合,可以为研究人员提供对所研究系统的增强表示。

事实上,对于这里确定的三个示例,其中存在AF预测结构和相应的SAXS数据集,我们已经表明,如果不进行修改,AF预测的结构无法解释实验数据。使用每个AF预测结构提供的置信度指标,我们确定了连接高置信度结构化域的潜在灵活链接器。使用多媒体卡例程,它有效地创建了数以万计看似合理的具有扭转角的全原子结构ϕψ在Ramachandran图的允许区域中,我们生成了一个构象库,从中确定了一个加权总体,预测了实验SAXS数据。在两种情况下(SASDBP9和SASDF83),使用计算的P(P)(第页)因为目标给出了相似的结果,在范围和平均值方面R(右)d日最大值值,用于建模(q个)作为目标。在第三种情况下,优化集成中出现的最扩展结构的总体有很强的相似性,但存在差异。建模时获得的结果(q个)与建模时获得的结构相比,包含的扩展结构要多得多P(P)(第页). 这种差异似乎是由于过大q个最小值Δq个用于SASDM77数据的吉尼亚地区,以可靠地表征最长结构d日最大值值。这些数据于2004年在欧洲分子生物学实验室(EMBL)X33束线上收集,该束线位于DORIS III储存环(德国汉堡),使用1D气体探测器(Blanchet等。, 2012[Blanchet,C.E.、Zozulya,A.V.、Kikhney,A.G.、Franke,D.、Konarev,P.V.、Shang,W.、Klaring,R.、Robrahn,B.、Hermes,C.、Cipriani,F.、Svergun,D.I.和Roessle,M.(2012)。《应用晶体》,第45卷,第489-495页。])那已经退役了。自那时以来,仪器的改进提供了高质量和q个范围更符合SASDBP9数据集(使用Pilatus 2M探测器在汉堡德意志电子同步加速器储存环PETRA-III处的EMBL P12光束线上收集)和SASDF83数据集(用Dectris Pilatus 1M 2D探测器在ESRF(法国格勒诺布尔)的BM29光束线上收集等。, 2013[佩诺·P、罗德·A、巴雷特·R、德玛丽亚·安托利诺斯·A、戈博·A、高登·E、休特·J、基弗·J、伦提尼·M、马特内·M、莫拉韦·C、米勒·迪克曼·C、奥尔森·S、施密德·W、苏尔·J、塞维内奥·P、泽拉德·L和麦克斯威尼·S(2013)。J.Synchrotron Rad.20、660-664。])],这可能会解决SASDM77建模中观察到的差异P(P)(第页)与(q个)作为目标。

我们的结果表明P(P)(第页)因为靶标可以给出可靠的结果,前提是SAXS数据满足确保数据代表溶液中的单分散蛋白、无颗粒间相关性的质量指标,以及两者 q个最小值Δq个满足现有大多数扩展结构的可靠表征要求。根据具体系统,散射曲线(q个)可能是全球构象变化的更敏感的报告者P(P)(第页)个人资料。相反P(P)(第页)可以展现出与结构域形状及其在分子中的排列相关的丰富的结构特征,这些特征在明显无特征的散射曲线中并不明显。从计算角度来看,与更密集的建模相比,在真实空间中建模的主要优势是容易和快速(q个)计算,特别是如果方法依赖于显式水原子分子动力学为了解释水合作用,例如就像在案件中WAXSiS公司.虽然我们的P(P)(第页)单个结构坐标的计算没有考虑水合水的散射贡献,与AF结构和实验推导的差异相比,这种影响相对较小P(P)(第页)并且随着蛋白质大小的增加,它也变得不那么显著。然而,它可以解释在P(P)(第页)和(q个)NNLS公司适合两者WAXSiS公司CRYSOL公司考虑水合水的作用。另一方面,如果我们比较P(P)(第页)-和(q个)-基于的方法(表S2–S4)我们看到,对于AF-Q16543NNLS公司WAXSiS公司-生成(q个),其中三个(贡献率合计为47%)也在干地采摘P(P)(第页)级别。对于AF-Q06187系统,数字为五(组合贡献率为65%)多于六,而对于AF-QUKA9系统,数字则为六(组合贡献度为70%)多于十。在任何情况下,在计算P(P)(第页)在不牺牲速度优势的情况下,从干式构筑物中分离出来,例如基于水的统计分布的构筑物美国-索马里计算水动力特性(Rai等。, 2005[Rai,N.,Nöllmann,M.,Spotorno,B.,Tassara,G.,Byron,O.&Rocco,M.(2005).结构,13723-734.]),这将是一个值得欢迎的改进。

对真实空间函数建模的主要挑战在于实验推导出的P(P)(第页)作为间接傅里叶变换获得,通常包括用户选择的d日最大值价值和假设P(P)(第页)在处归零第页=0和d日最大值对于灵活的结构,取决于人口的性质和测量的q个最小值,可能存在重大不确定性d日最大值,使用P(P)(第页)表现出长而低强度的尾巴,误差较大。使用多种方法计算P(P)(第页)可以测量d日最大值,在这里我们进行了比较GNOM公司-派生的P(P)(第页)使用标准方法获得的轮廓d日最大值选择和贝叶斯应用(贝叶斯应用程序)没有选择用户d日最大值后一种方法通常产生的结果稍小d日最大值值,以及几乎一个数量级的较小不确定性。我们重复了NNLS公司对SASDBP9进行分析,发现结果与使用GNOM公司-派生的P(P)(第页)(数据未显示),表明低强度大误差尾部P(P)(第页)影响不大。

无论使用何种建模方法,最佳实践始终是根据实际测量数据评估拟合度,对于SAXS(q个)个人资料。在这里测试的所有三个案例中P(P)(第页)模型也很适合实验(q个)经评估χ2误差加权残差图。而我们的误差加权P(P)(第页)拟合导致了一些差异,需要进一步的工作来理解如何正确解释这些错误,因为它们不是真实的计数统计数据。事实上,我们已经观察到不同软件程序计算之间误差大小的差异高达10倍P(P)(第页)来自(q个).

计算(q个)除其他外,结构的剖面还取决于水合作用的处理。有几种计算方法可用,最近的一项基准研究(Trewella)对一些最广泛使用的方法进行了比较等。, 2022【Trewella,J.、Vachette,P.、Bierma,J.,Blanchet,C.、Brookes,E.、Chakravarthy,S.、Chatzimagas,L.、Cleveland,T.E.、Coweeson,N.、Crossett,B.、Duff,A.P.、Franke,D.、Gabel,F.、Gillilan,R.E.、Graewert,M.、Grishaev,A.、Guss,J.M.、Hammel,M.,Hopkins,J.和Huang,Q.、Hub,J.S.、Hura,G.L.、Irving,T.C.、Jeffries,C。M.、Jeong,C.、Kirby,N.、Krueger,S.、Martel,A.、Matsui,T.、Li,N.,Pérez,J.、Porcar,L.、Prangé,T.,Rajkovic,I.、Rocco,M.、Rosenberg,D.J.、Ryan,T.M.、Seifert,S.,Sekiguchi,H.、Svergun,D.、Teixera,S.和Thureau,A.、Weiss,T.M、Whitten,A.E.、Wood,K.和Zuo,X.(2022)。《水晶学报》。D78,1315-1336。]). 为了补充我们的P(P)(第页)-基于我们选择的预选CRYSOL公司,如在美国-索马里(Brookes&Rocco,2018)【Brookes,E.&Rocco,M.(2018),《欧洲生物物理杂志》第47期,第855-864页。】)它已被证明速度足够快,可以在数千个结构上进行批处理模式计算,而无需借助高端计算设施。此处显示的主要结果基于CRYSOL 2.8型它近似于水化为密度均匀、厚度均匀的层。重新计算了CRYSOL 3.2公司使用最近实施的选项,将水合作用明确表示为假珠子(Franke等。, 2017[Franke,D.,Petoukhov,M.V.,Konarev,P.V.,Panjkovich,A.,Tuukkanen,A.,Mertens,H.D.T.,Kikhney,A.G.,Hajizadeh,N.R.,Franklin,J.M.,Jeffries,C.M.&Svergun,D.I.(2017),《应用结晶杂志》第50期,第1212-1225页。]),原则上更适合呈现扩展非结构化区域的结构。然而,观察到了相对较小的差异(参见S1段). 此外,当使用更高级的计算方法时分子动力学在一个完整的溶剂化盒中进行模拟,即WAXSiS公司(Chen&Hub,2014年【Chen,P.C.&Hub,J.S.(2014),生物物理杂志107,435-447。】; Knight&Hub,2015年【Knight,C.J.和Hub,J.S.(2015)。核酸研究43,W225-W230。】),使用由P(P)(第页)方法和其中之一CRYSOL 2.8型CRYSOL 3.2公司或两者兼而有之(S1段表S2–S4). 可能,当结构包含折叠和非结构化区域的混合时,水合模型中的差异与内在无序蛋白质的情况相比并不显著。

在本研究中,我们依赖于SAXS数据集与AF预测结构相对应的概率共发生率,其中预测值与实验推导值之间存在明显差异P(P)(第页)功能。从最初的43个数据集中,仅确定了三个实验数据通常满足SAS指南(Trewella)中提出的质量标准的示例等。, 2017【Trewella,J.、Duff,A.P.、Durand,D.、Gabel,F.、Guss,J.M.、Hendrickson,W.A.、Hura,G.L.、Jacques,D.A.、Kirby,N.M.、Kwan,A.H.、Pérez,J.,Pollack,L.、Ryan,T.M.,Sali,A.、Schneidman-Duhovny,D.、Schwede,T.、Svergun,D.I.、Sugiyama,M.、Tainer,J.A.、Vachette,P.、Westbrook,J.&Whitten,A.E.(2017)。《基督学报》D73,710-728.]). 虽然这些都不是通过首选的SEC–SAXS测量模式获得的,该模式增加了样品单分散的可能性,但所做的质量评估表明,在批处理模式下仔细测量可以获得可靠的数据。在评估SAXS数据质量的标准中,SAXS衍生分子质量值的准确性至关重要,而且并不总是容易实现。有多种可用的方法,有时会提供不同的值,但人们很容易接受与预期最相符的方法。对于我们在这里分析的三个数据集,三种不同的方法用于报告的SAXS衍生分子质量:根据(0)相对于BSA标准(Mylonas&Svergun,2007)【Mylonas,E.&Svergun,D.I.(2007),《应用结晶》第40卷,第245-s249页。】)对于SASDBP9,来自贝叶斯推断(Hajizadeh等。, 2018[Hajizadeh,N.R.,Franke,D.,Jeffries,C.M.&Svergun,D.I.(2018年),科学报告8,7204.])对于SASDF83和来自达明信封容量(Svergun,1999[Svergun,D.I.(1999),《生物物理学杂志》第76期,第2879-2886页。])用于SASDM77。在报告SAXS数据时,强烈建议提供源自SAXS的数据M(M)出口使用多种方法确定的值,但重要的是包括(0)/c(c)[其中c(c)是样品的蛋白质浓度(质量/体积),散射强度按绝对刻度(Trewella等。, 2017【Trewella,J.、Duff,A.P.、Durand,D.、Gabel,F.、Guss,J.M.、Hendrickson,W.A.、Hura,G.L.、Jacques,D.A.、Kirby,N.M.、Kwan,A.H.、Pérez,J.,Pollack,L.、Ryan,T.M.,Sali,A.、Schneidman-Duhovny,D.、Schwede,T.、Svergun,D.I.、Sugiyama,M.、Tainer,J.A.、Vachette,P.、Westbrook,J.&Whitten,A.E.(2017)。《基督学报》D73,710-728.]). 该方法要求准确测量SAXS样品的浓度,并了解部分比体积,这可以从序列中计算出来[参见Trewella等。(2022【Trewella,J.、Vachette,P.、Bierma,J.,Blanchet,C.、Brookes,E.、Chakravarthy,S.、Chatzimagas,L.、Cleveland,T.E.、Coweeson,N.、Crossett,B.、Duff,A.P.、Franke,D.、Gabel,F.、Gillilan,R.E.、Graewert,M.、Grishaev,A.、Guss,J.M.、Hammel,M.,Hopkins,J.和Huang,Q.、Hub,J.S.、Hura,G.L.、Irving,T.C.、Jeffries,C。M.、Jeong,C.、Kirby,N.、Krueger,S.、Martel,A.、Matsui,T.、Li,N.,Pérez,J.、Porcar,L.、Prangé,T.,Rajkovic,I.、Rocco,M.、Rosenberg,D.J.、Ryan,T.M.、Seifert,S.,Sekiguchi,H.、Svergun,D.、Teixera,S.和Thureau,A.、Weiss,T.M、Whitten,A.E.、Wood,K.和Zuo,X.(2022)。《水晶学报》。D78,1315-1336。])]. 浓度测定的不确定度,以及部分比容计算,可能是限制因素,但尽管有其缺点,这种估算方法M(M)出口这一点很重要,特别是在柔性分子的情况下,从与浓度无关的散射曲线得出的估计更具问题。

我们最初考虑了本研究的第四个示例AF-P50891及其相应的SASBDB数据集SASDHP4,其中预测和实验P(P)(第页)剖面差异显著。然而,该蛋白具有三个特征良好的N-糖基化位点(Olson等。, 2020[Olson,L.J.、Misra,S.K.、Ishihara,M.、Battaile,K.P.、Grant,O.C.、Sood,A.、Woods,R.J.,Kim,J.P.、Tiemeyer,M.,Ren,G.、Sharp,J.S.和Dahms,N.M.(2020),《公共生物学》第3卷,第498页。]). 使用Glyam网站(网址:https://glycam.org)我们构建了三个高甘露糖碳水化合物链来完成蛋白质的原子描述,以及预测与实验之间的差异(q个)剖面水平大幅降低,证明了解释翻译后修改的重要性。然而,对该系统的进一步分析超出了本研究的范围。

联轴器多媒体卡方法论NNLS公司符合真实和互易空间正如在这项工作中所介绍的,对所介绍的每个系统都有了有趣的见解。由于自动化了整个真实空间分析和交互空间分析的某些方面,例如内部计算CRYSOL公司配置文件和外部生成的WAXSiS公司概要文件,似乎没有出现重大障碍,使用的专用模块进行进一步开发美国-索马里在线网站(https://somoweb.genapp.rocks网站)已规划。这种生物分子SAXS的额外有用工具将很好地补充AlphaFold为更广泛的生物结构社区带来的非常重要的进步。

支持信息


致谢

我们感谢Joseph E.Curtis就SASSIE网站 多媒体卡工具。悉尼大学通过澳大利亚大学图书馆员理事会促进开放存取出版,作为悉尼大学威利协议的一部分。

资金信息

以下资金得到认可:国立卫生研究院、国立普通医学科学研究所(Emre Brookes获得第120600号奖金);国家科学基金会,高级网络基础设施办公室(授予埃姆雷·布鲁克斯第1912444号)。这项工作使用了由国家科学基金会(批准号ACI-1548562)支持的极端科学与工程发现环境(XSEDE),并利用了印第安纳大学的Jetstream2(分配TG-MCB17057给Emre Brookes)。这项工作得益于CCP-SAS公司通过EPSRC(EP/K039121/1)和NSF(CHE-1265821)联合拨款开发的软件。

工具书类

第一次引用Akdel,M.、Pires,D.E.V.、Pardo,E.P.、Jänes,J.、Zalevsky,A.O.、Mészáros,B.、Bryant,P.、Good,L.L.、Laskowski,R.A.、Pozzati,G.、Shenoy,A.、Zhu,W.、Kundrotas,P.,Serra,V.R.、Rodrigues,C.H.M.、Dunham,A.S.、Burke,D.、Borkakoti,N.、Velankar,S.、Frost,A.、Basquin,J.,Lindorff-Larsen,K.、Bateman,A.、Kajava,A.V.、。,瓦伦西亚,A.,奥夫钦尼科夫,S.,杜拉伊拉吉,J.,阿斯切尔,D.B.,桑顿,J.M.,戴维,N.E.,斯坦因,A.,埃洛夫森,A.,克罗尔,T.I.&贝尔特拉奥,P.(2022)。自然结构。分子生物学。 29, 1056–1067. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Baek,M.、DiMaio,F.、Anishchenko,I.、Dauparas,J.、Ovchinnikov,S.、Lee,G.R.、Wang,J.,Cong,Q.、Kinch,L.N.、Schaeffer,R.D.、MilláN,C.、Park,H.、Adams,C.、Glassman,C.R.、DeGiovanni,A.、Pereira,J.H.、Rodrigues,A.V.、van Dijk,A.A.、Ebrecht,A.C.、Opperman,D.J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T。,Rathina­swamy,M.K.,Dalwadi,U.,Yip,C.K.,Burke,J.E.,Garcia,K.C.,Grishin,N.V.,Adams,P.D.,Read,R.J.&Baker,D.(2021)。科学类,373, 871–876. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Blanchet,C.E.,Zozulya,A.V.,Kikhney,A.G.,Franke,D.,Konarev,P.V.,Shang,W.,Klaering,R.,Robrahn,B.,Hermes,C.,Cipriani,F.,Svergun,D.I.&Roessle,M.(2012年)。J.应用。克里斯特。 45, 489–495. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Brookes,E.,Pérez,J.,Cardinali,B.,Profumo,A.,Vachette,P.&Rocco,M.(2013)。J.应用。克里斯特。 46, 1823–1833. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Brookes,E.&Rocco,M.(2018年)。《欧洲生物学》。J。 47, 855–864. 交叉参考 公共医学 谷歌学者
第一次引用Brookes,E.和Rocco,M.(2022)。科学。代表。 12, 7349. 交叉参考 公共医学 谷歌学者
第一次引用Brookes,E.,Vachette,P.,Rocco,M.&Pérez,J.(2016)。J.应用。克里斯特。 49, 1827–1841. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Bunney,T.D.、Inglis,A.J.、Sanfelice,D.、Farrell,B.、Kerr,C.J.、Thompson,G.S.、Masson,G.R.、Thiyagarajan,N.、Svergun,D.I.、Williams,R.L.、Breeze,A.L.和Katan,M.(2018年)。结构,26,446–458.e8交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Chai,L.、Zhu,P.、Chai,J.、Pang,C.、Andi,B.、McSweeney,S.、Shanklin,J.和Liu,Q.(2021)。晶体,11, 1227. 谷歌学者
第一次引用Chen,P.C.和Hub,J.S.(2014)。生物物理学。J。 107, 435–447. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Curtis,J.E.、Raghunandan,S.、Nanda,H.和Krueger,S.(2012年)。计算。物理学。Commun公司。 183, 382–389. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Duarte,D.P.、Lamontanara,A.J.、La Sala,G.、Jeong,S.、Sohn,Y.K.、Panjkovich,A.、Georgeon,S.,Kükenshöner,T.、Marcaida,M.J.、Pojer,F.、De Vivo,M.、Svergun,D.、Kim,H.S.、Dal Peraro,M.和Hantschel,O.(2020年)。国家公社。 11, 2319. 谷歌学者
第一次引用Ferrario,E.、Miggiano,R.、Rizzi,M.和Ferraris,D.M.(2022年)。计算。结构。生物技术。J。 20, 3874–3883. 谷歌学者
第一次引用Flower,T.G.和Hurley,J.H.(2021)。蛋白质科学。 30, 728–734. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Fontana,P.、Dong,Y.、Pi,X.、Tong,A.B.、Hecksel,C.W.、Wang,L.、Fu,T.M.、Bustamante,C.和Wu,H.(2022年)。科学类,376,abm9326谷歌学者
第一次引用Fowler,N.J.和Williamson,M.P.(2022)。结构,30925–933.e2谷歌学者
第一次引用Franke,D.、Jeffries,C.M.和Svergun,D.I.(2015)。自然方法,12, 419–422.  交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Franke,D.、Petoukhov,M.V.、Konarev,P.V.、Panjkovich,A.、Tuukkanen,A.、Mertens,H.D.T.、Kikhney,A.G.、Hajizadeh,N.R.、Franklin,J.M.、Jeffries,C.M.和Svergun,D.I.(2017)。J.应用。克里斯特。 50, 1212–1225. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Glatter,O.(1977年)。J.应用。克里斯特。 10, 415–421.  谷歌学者
第一次引用Hajizadeh,N.R.、Franke,D.、Jeffries,C.M.和Svergun,D.I.(2018)。科学。代表。 8, 7204. 科学网 交叉参考 公共医学 谷歌学者
第一次引用Hancock,D.Y.、Fischer,J.、Lowe,J.M.、Snapp-Childs,W.、Pierce,M.、Marru,S.、Coulter,J.E.、Vaughn,M.和Beck,B.、Merchant,N.和Skidmore,E.(2021年)。PEARC’21:高级研究计算的实践和经验由J.Paris、J.Milhans、B.Hillery、S.Broude Geva、P.Schmitz和R.Sinkovits编辑,第1-8页。波士顿:计算机机械协会。 谷歌学者
第一次引用Heo,Y.,Yoon,E.,Jeon,Y.E.,Yun,J.H.,Ishimoto,N.,Woo,H.,Park,S.Y.,Song,J.J.&Lee,W.(2022)。电子生活,11,e76823谷歌学者
第一次引用Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figurnov,M.、Ronneberger,O.、Tunyasuvunakool,K.、Bates,R.,Zhidek,A.、Potapenko,A.、Bridgeland,A.、Meyer,C.、Kohl,S.A.、Ballard,A.J.、。,Cowie,A.,Romera--Paredes,B.,Nikolov,S.,Jain,R.,Adler,J.,Back,T.,Petersen,S.和Reiman,D.,Clancy,E.,Zielinski,M.,Steinegger,M.、Pacholska,M.和Berghammer,T.、Bodenstein,S.、Silver,D.、Vinyals,O.、Senior,A.W.、Kavukcuoglu,K.、Kohli,P.和Hassabis,D.(2021)。自然,596, 583–589. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Knight,C.J.和Hub,J.S.(2015年)。核酸研究。 43,W225–W230科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Koch,M.H.、Vachette,P.和Svergun,D.I.(2003)。Q.生物物理学评论。 36, 147–227. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Larsen,A.H.和Pedersen,M.C.(2021)。J.应用。克里斯特。 54, 1281–1289. 谷歌学者
第一次引用Lawson,C.L.和Hanson,R.J.(1995)。解决最小二乘问题。费城:工业和应用数学学会。 谷歌学者
第一次引用Manalastas-Cantos,K.、Konarev,P.V.、Hajizadeh,N.R.、Kikhney,A.G.、。,Petoukhov,M.V.、Molodenskiy,D.S.、Panjkovich,A.、Mertens,H.D.T.、Gruzinov,A.、Borges,C.、Jeffries,C.M.、Svergun,D.I.和Franke,D.(2021)。J.应用。克里斯特。 54, 343–355. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Sammito,M.D.和Read,R.J.(2022)。《水晶学报》。D类78, 1–13. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用McGibbon,R.T.、Beauchamp,K.A.、Harrigan,M.P.、Klein,C.、Swails,J.M.、Hernández,C.X.、Schwantes,C.R.、Wang,L.P.,Lane,T.J.和Pande,V.S.(2015)。生物物理学。J。 109, 1528–1532. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Mylonas,E.和Svergun,D.I.(2007年)。J.应用。克里斯特。 40第245节至第249节科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oeffner,R.D.、Croll,T.I.、Millán,C.、Poon,B.K.、Schlicksup,C.J.、Read,R.J.和Terwilliger,T.C.(2022)。《水晶学报》。D类78, 1303–1314. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Olson,L.J.、Misra,S.K.、Ishihara,M.、Battaile,K.P.、Grant,O.C.、Sood,A.、Woods,R.J.,Kim,J.P.、Tiemeyer,M.,Ren,G.、Sharp,J.S.和Dahms,N.M.(2020年)。Commun公司。生物。 , 498. 谷歌学者
第一次引用Perkins,S.J.、Wright,D.W.、Zhang,H.、Brookes,E.H.、Chen,J.、Irving,T.C.、Krueger,S.、Barlow,D.J.、Edler,K.J.、Scott,D.J.、Terrill,N.、King,S.M.、Butler,P.&Curtis,J.E.(2016)。J.应用。克里斯特。 49, 1861–1875. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Pernot,P.,Round,A.,Barrett,R.,De Maria Antolinos,A.,Gobbo,A.,戈登,E.,Huet,J.,Kieffer,J.、Lentini,M.,Mattenet,M.、Morawe,C.、Mueller-Dieckmann,C.、Ohlsson,S.、Schmid,W.、Surr,J.和Theveneau,P.、Zerrad,L.和McSweeney,S.(2013)。J.同步辐射。 20, 660–664. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Pettersen,E.F.、Goddard,T.D.、Huang,C.C.、Couch,G.S.、Greenblatt,D.M.、Meng,E.C.和Ferrin,T.E.(2004)。J.计算。化学。 25, 1605–1612. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Rai,N.、Nöllmann,M.、Spotorno,B.、Tassara,G.、Byron,O.和Rocco,M.(2005)。结构,13, 723–734. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Simpson,P.J.、Monie,T.P.、Szendröi,A.、Davydova,N.、Tyzack,J.K.、Conte,M.R.、Read,C.M.、Cary,P.D.、Svergun,D.i.、Konarev,P.V.、Curry,S.和Matthews,S.(2004)。结构,12, 1631–1643. 谷歌学者
第一次引用Svergun,D.、Barberato,C.和Koch,M.H.J.(1995)。J.应用。克里斯特。 28, 768–773. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Svergun,D.I.(1992)。J.应用。克里斯特。 25, 495–503. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Svergun,D.I.(1999)。生物物理学。J。 76, 2879–2886. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Svergun,D.I.、Semenyuk,A.V.和Feigin,L.A.(1988年)。《水晶学报》。A类44, 244–250. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.,Poon,B.K.,Afonine,P.V.,Schlicksup,C.J.,Croll,T.I。,Millán,C.、Richardson,J.S.、Read,R.J.和Adams,P.D.(2022年)。自然方法,19, 1376–1382. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Towns,J.、Cockerill,T.、Dahan,M.、Foster,I.、Gaither,K.、Grimshaw,A.、Hazlewood,V.、Lathrop,S.、Lifka,D.、Peterson,G.D.、Roskies,R.、Scott,J.R.和Wilkins-Diehr,N.(2014)。计算。科学。工程师。 16, 62–74. 科学网 交叉参考 谷歌学者
第一次引用Trewhella,J.、Duff,A.P.、Durand,D.、Gabel,F.、Guss,J.M.、Hendrickson,W.A.、Hura,G.L.、Jacques,D.A.、Kirby,N.M.、Kwan,A.H.、Pérez,J.、Pollack,L.、Ryan,T.M.、Sali,A.、Schneidman Duhovny,D.、Schwede,T.、Svergun,D.I.、Sugiyama,M.、Tainer,J.A.、Vachette,P.、Westbrook,J.和Whitten,A.E.(2017)。《水晶学报》。D类73, 710–728. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Trewhella,J.、Vachette,P.、Bierma,J.、Blanchet,C.、Brookes,E.、Chakravarthy,S.、Chatzimagas,L.、Cleveland,T.E.、Covieson,N.、Crossett,B.、Duff,A.P.、Franke,D.、Gabel,F.、Gillilan,R.E.、Graewert,M.、Grishaev,A.、Guss,J.M.、Hammel,M.、Hopkins,J.、Huang,Q.、Hub,J.S.、Hura,G.L.、Irving,T.C.、Jeffries,C.M.、Jeong,C。,Kirby,N.、Krueger,S.、Martel,A.、Matsui,T.、Li,N.,Pérez,J.、Porcar,L.、Prange,T.,Rajkovic,I.、Rocco,M.、Rosenberg,D.J.、Ryan,T.M.、Seifert,S.,Sekiguchi,H.、Svergun,D.、Teixeira,S.和Thureau,A.,Weiss,T.M.、Whitten,A.E.、Wood,K.和Zuo,X.(2022)。《水晶学报》。D类78, 1315–1336. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Tunyasuvunakool,K.、Adler,J.、Wu,Z.、Green,T.、Zielnski,M.、Cahiídek,A.、Bridgeland,A.、Cowie,A.、Meyer,C.、Laydon,A.、Velankar,S.、Kleywegt,G.J.、Bateman,A.、Evans,R.、Pritzel,A.、Figurnov,M.,Ronneberger,O.、Bates,R.,Kohl,S.A.、Potapenko,A.、Ballard,A.J.、Romera-Pardes,B.、Nikolov,S.,Jain,R.和Clancy,E.、雷曼、,D.、Petersen,S.、Senior,A.W.、Kavukcuoglu,K.、Birney,E.、Kohli,P.、Jumper,J.和Hassabis,D.(2021)。自然,596, 590–596. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用UniProt联盟(2021)。核酸研究。 49,D480–D489交叉参考 公共医学 谷歌学者
第一次引用Urban,P.&Pompon,D.(2022年)。科学。代表。 12, 15982. 谷歌学者
第一次引用Valentini,E.、Kikhney,A.G.、Previtali,G.、Jeffries,C.M.和Svergun,D.I.(2015)。核酸研究。 43,D357–D363科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用wwPDB联盟(2019)。核酸研究。 47,D520–D528科学网 交叉参考 公共医学 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标的日志
应用
结晶学
国际标准编号:1600-5767
遵循J.Appl。克里斯特。
注册电子通知
遵循J.Appl。克里斯特。在推特上
在脸书上关注我们
注册RSS订阅源