跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
结构。2022年7月7日;30(7):925–933.e2。
预防性维修识别码:PMC9592556
PMID:35537451

AlphaFold和NMR测定溶液中蛋白质结构的准确性

关联数据

补充资料
数据可用性声明

总结

在最近的结构预测关键评估(CASP)竞赛中,AlphaFold2表现突出。最糟糕的预测是核磁共振(NMR)结构,这有两种替代性解释:要么核磁共振结构较差,意味着α-Fold可能比核磁共振更准确,要么晶体结构和溶液结构之间存在真正的差异。在这里,我们使用使用RCI和刚度的核磁共振结构精确度(ANSURR)程序,该程序测量溶液结构的精确度,并表明其中一个核磁共振结构确实较差。然后,我们将Alpha-Fold预测与NMR结构进行比较,表明Alpha-Feld往往比NMR系综更准确。然而,在某些情况下,核磁共振谱系更准确。这些往往是动态结构,Alpha-Fold的信心较低。我们建议Alpha-Fold可以用作NMR结构细化的模型,ANSURR验证的Alpha-Feld结构可能不需要进一步细化。

关键词:蛋白质结构、字母折叠、核磁共振、ANSURR、动力学

集锦

  • 我们调查了904种具有α折叠和核磁共振结构的人类蛋白质
  • Alpha-Fold预测通常比NMR结构更准确
  • 在存在局部动力学的情况下,核磁共振可以比Alpha-Fold更好
  • 核磁共振有助于验证Alpha-Fold预测并在必要时进行改进

福勒和威廉姆森比较了904种人类蛋白质的AlphaFold2和NMR结构。每个系综中的最佳核磁共振结构的精确度与AlphaFold2(AF2)相当。在30%的情况下,AF2明显更好,主要是在氢键网络中;在2%的情况下,核磁共振更好,主要是在动态区域。

介绍

2020年11月第个结构预测(CASP14)竞赛的关键评估显示,由DeepMind开发的人工智能(AI)AlphaFold2(AF2)(Jumper等人。,2021),性能明显优于所有其他方法(亚历山大等人。,2021;Pereira等人。,2021). 令人印象深刻的是,大多数预测的全球距离测试总分(GDT_TS)都在80分以上,中位数为92.4,其中完全一致的分数为100。在93个AF2预测中,只有5个预测的GDT_TS得分低于70。其中三个是来自配合物的链,两个是使用核磁共振(NMR)解决的。前者的性能预计会降低,因为AF2的设计不是为了预测复杂地层的结构变化。为什么AF2在核磁共振结构方面表现不太好还不太明显。大多数核磁共振结构都是小的单链蛋白,这是一种相对容易预测的结构。一种可能的解释是,核磁共振结构通常质量较差,这意味着AF2预测可能比核磁共振结构更可靠。然而,一个截然相反的解释是,AF2在预测核磁共振结构方面不太可靠,因为它是使用晶体结构训练的,假设核磁共振结构与晶体结构不同,因为它们是在接近体温的溶液中获得的,而不是在晶体中获得的在低温下(Huang等人。,2021).

这提出了几个重要问题:AF2在预测解决方案结构方面有多好?如果AF2结构同样好或更好,是否值得尝试确定NMR溶液结构?溶液结构与晶体或AF2结构真的不同吗?核磁共振结构的质量和可靠性是否足够好,可以用作“真实”溶液结构的模型?如果可以,如何使用?这项工作旨在为这些问题提供答案。

第一个核磁共振蛋白质结构的基本问题(威廉姆森等人。,1985)是没有可靠的方法来判断核磁共振结构是否正确,即接近真实溶液的平均值。这个事实上的验证核磁共振结构的方法是将其和晶体结构进行比较。基于这种比较进行的调查表明,核磁共振结构与晶体结构相似,但通常定义不太明确(精确度较低),也不太准确(安德烈等人。,2007;比勒特,1992年). 然而,如果晶体结构和溶液结构之间存在真正的差异(例如,由于溶液和较高温度下的灵活性增加),则此类比较将具有误导性。我们最近开发了一种称为使用RCI和刚度(ANSURR)计算蛋白质结构局部刚度的核磁共振结构精确度的方法(Jacobs等人。,2001)并将其与使用随机线圈指数测量的局部刚度进行比较(Berjanskii和Wishart,2008年)基于主干NMR化学位移(福勒等人。,2020,2021). 该方法已在多种结构上进行了测试,并为精度提供了可靠的指导。因此,我们应用ANSURR来回答上述问题。

本文结构如下。首先,我们比较了三个核磁共振靶点和CASP14竞争中相应预测结构的准确性,同时考虑了准确性的全局和局部方面。接下来,我们扩展我们的研究,比较来自Alpha-Fold蛋白质结构数据库的904种人类蛋白质结构(Varadi等人。,2022)使用蛋白质数据库(PDB)中的核磁共振结构,突出显示核磁共振结构比AF2模型更准确的实例,反之亦然。最后,我们研究了AF2模型的估计精度(与结构一起由AF2预测)与ANSURR确定的精度之间的关系。我们表明,在大多数情况下,AF2生成的结构比NMR更准确。然而,在少数情况下(通常是AF2标记为不太自信的情况),NMR表现更好。其中许多涉及动态平均。在这些情况下,来自NMR的额外信息有助于进一步改进结构。

结果

目标核磁共振结构和CASP14预测结构的准确性

ANSURR的工作原理是计算蛋白质柔韧性的两个度量:一个是从骨架化学位移中获得的,另一个是使用刚性数学理论从结构中获得的。通过计算秩斯皮尔曼相关系数和平方根偏差(RMSD)对这两种度量进行了比较。每个值相对于PDB中所有NMR结构的百分位数用于获得两个分数,分别称为相关性和RMSD分数。这些得分可以在一个图上可视化,这样最好的得分结构(具有良好的相关性和RMSD得分)就会出现在图的右上角,而最差的得分(具有较差的相关性和RM得分)会出现在左下角。CASP14有三个核磁共振谱系被用作靶点。这些如所示图1使用预测或实验集合中的所有结构(图1A) 或合奏组所有成员的平均分数(图1B) ●●●●。所有NMR和AF2模型的ANSURR评分见补充信息(数据S1–S2)。其中一个(T1055)具有接近NMR靶结构的AF2 CASP14预测。然而,其他AF2预测结果却大相径庭,其中一个预测结果比核磁共振目标(T1027)差,另一个预测值明显好(T1029)。现在将更详细地检查这两个结构。

保存图片、插图等的外部文件。对象名称为gr1.jpg

三个CASP14核磁共振靶点的ANSURR分数

(A和B)显示了(A)所有模型和(B)集合平均值的结果。核磁共振结构显示为橙色,AF2模型显示为蓝色,所有其他预测显示为灰色。T1029显示的绿色点是在CASP14结果发布后重新计算的核磁共振系综分数,下文将对此进行讨论。T1055(PDB:6ZYC型)有20个模型,T1027(PDB:7天2小时)有19种型号。T1029(PDB:6UF2型)有10个模型,重新计算的结构(PDB:7N82型)有20种型号。参加CASP14比赛的每组最多可以提供五个预测。

另请参见图S2–S4.

目标T1027

对于目标T1027,目标核磁共振系综比所有预测结构更准确。然而,AF2模型是预测结构的最佳评分,其中一个模型接近核磁共振系综的精度。到目前为止,这是一个相当平凡的结果。然而,通过更详细的分析,特别是对定义不明确的区域的分析,可以吸取有趣的教训。

T1027的CASP14评估仅限于核磁共振系综中所有19个模型中具有明确原子位置的残基。总共有四个地区被认为是不明确的,因此被排除在外(图2). 这也是许多核磁共振蛋白质结构验证程序的标准实践,这些程序通常只考虑由程序CYRANGE识别的定义明确的区域(Kirchner和Güntert,2011年). ANSURR验证的不同之处在于,它需要考虑整个蛋白质结构,因为排除残留物会导致附近区域变得过于灵活。

保存图片、插图等的外部文件。对象名称为gr2.jpg

T1027的ANSURR分析

(A和B)蓝线表示RCI基于主干化学位移测量的刚度(BMRB:36288);橙色线条显示了得分最高的核磁共振结构(系综中的模型11)的刚度(A)和得分最高的AF2模型(模型3)的硬度(B)。每个图顶部的红色条表示使用DSSP从结构评估的α-螺旋结构,蓝色条表示β-片。由CYRANGE定义为ill的区域以灰色表示。

另请参见图S1.

第二个ill-defined区域(图2,残基20–33)特别有趣。使用的核磁共振结构的作者15N弛豫色散和1H(H)-15N个异核核过热效应(NOE)数据表明,该区域是动态的,并表明它是内在无序的。然而,ANSURR表明,它的灵活性远远低于其他三个定义不明确的区域,因此,尽管它是动态的,但它并不是内在无序的。该地区中部的灵活性也明显下降。这两个特征都反映在NMR结构的计算灵活性中,但不反映在AF2结构中。核磁共振结构在这个区域有一个短的α-螺旋,这会降低周围区域的灵活性,而这个区域在AF2结构中是完全无序的(图S1A和S1B)。我们的ANSURR分析表明,该区域是灵活的,与动态核磁共振测量结果一致,但并非本质上无序。因此,ANSURR表明,螺旋结构在大多数时间都存在于溶液中。

化学位移表明第三个不确定区域(残基82-94)高度无序。残基86-89之间的柔韧性略有降低。该区域在核磁共振系综中完全无序。模型11在该区域计算的柔度略有下降(如图所示图2A) 源于两个弱氢键,但在系综的任何其他模型中均未观察到。相反,AF2模型由一个松散的β-薄片状结构组成,由一个适度刚性的转弯连接(图S1C和S1D)。转弯的位置对应于根据化学位移,残基86-89之间柔韧性的降低,但更为刚性。所有五种AF2模型中都存在相同的β-片状结构,但相对于其余蛋白质的方向可变,可能表明存在动力学。事实很可能介于略微过于灵活的核磁共振结构和略微过于刚性的AF2结构之间。也就是说,溶液中的这个区域是动态的,可能是无序(核磁共振结构)和松散的β-片状构象(AF2模型)之间的过渡。

在第四个定义不清的区域(残基144–168)中,AF2模型包含一个不存在于NMR结构中的α-螺旋。ANSURR表明该区域具有高度的灵活性,因此不支持螺旋的存在。然而,15N弛豫弥散和1H(H)-15N异核NOE数据表明该区域可能暂时采用二级结构(Wu等人。,2020). 考虑到化学位移代表了一个总体加权平均值,如前所述,位于该位置的α-螺旋似乎不会构成溶液中的主要构象(Huang等人。,2021).

总的来说,我们的分析表明,对于T1027,实验核磁共振结构比AF2结构更准确。然而,从局部细节来看,情况就不那么清楚了。其中一个原因可能是,这种蛋白质是特别动态的,不能用单一的结构很好地描述。我们的ANSURR分析还强调了验证核磁共振结构中未定义区域的重要性。这些区域可以采用广泛的部分有序结构。

目标T1029

T1029的最高岩心CASP14预测的GDT_TS只有45,这表明它和所有其他预测的构造都非常不准确。然而,我们的ANSURR分析表明,目标NMR结构实际上远不如许多预测的结构准确。事实上,51%的预测结构比得分最高的核磁共振模型具有更好的ANSURR分数。在本文的准备过程中,证实了核磁共振结构不准确(Huang等人。,2021). 发现用于生成原始NMR结构的NOESY峰列表缺少NOESY光谱中的许多峰。仔细重新选取NOESY峰并用于重新计算结构。然后,作者将AF2预测用于指导细化,将其称为“逆结构确定”。由此产生的核磁共振结构与AF2结构非常相似,并且ANSURR分数大大提高(绿色点位于图1). 即使如此,重新计算的核磁共振结构仍然比AF2结构稍差。更多详细信息请参见补充信息(图S2–S4).

所有可用人类AF2和NMR结构的比较

我们对CASP14的三个例子的分析表明,AF2预测的结构可以与NMR结构的精度相媲美,甚至超过NMR结构。为了更广泛地研究这一点,我们扩展了我们的研究,从最近出版的Alpha-Fold蛋白质结构数据库中比较了904种人类蛋白质结构(Varadi等人。,2022)与来自PDB的核磁共振结构对应物。ANSURR用于验证相应核磁共振谱系中的每个AF2结构和每个模型。为了简化对大量结构的分析,将ANSURR生成的相关性和RMSD得分相加,得到一个单一的准确度得分,如前所述,称为ANSURR得分(福勒等人。,2021). 个人相关性和RMSD得分见补充信息(数据S3–S5)。

图3A显示了AF2模型和来自相应NMR系综的模型之间的ANSURR分数的差异。AF2结构往往比NMR结构更准确,ANSURR评分的平均差异为28。ANSURR分数是从0到200的排名百分位数;因此,与NMR相比,AF2的这种差异表现出了更好的性能。我们之前展示过(福勒等人。,2021)核磁共振系综中不同结构的精确度差异很大。图3B、 因此,我们将AF2预测与核磁共振系综的最佳评分模型进行了比较。ANSURR得分的差异现在仅为2,表明这两种方法的总体精确度非常相似,尽管差异很大。

保存图片、插图等的外部文件。对象名称为gr3.jpg

AF2预测和NMR结构之间ANSURR分数差异的频率分布

数值以[AF2分数]-[NMR分数]表示,因此正差异表示AF2预测得分较高。选择标准概述于STAR方法.

(A) 比较AF2与核磁共振系综的平均ANSURR分数。平均差值为28。

(B) AF2与系综中单个最佳NMR结构(具有最佳ANSURR分数的NMR结构)的比较。平均差为2。

(C) 根据DSSP使用分类为α螺旋、β片或混合α/β的蛋白质确定的蛋白质二级结构分类,对(A)中的数据进行分解。

图3C根据常规二级结构含量描述了AF2和NMR结构之间ANSURR分数的差异。我们发现,β-表蛋白的准确性差异特别明显(平均差为45),而α-螺旋蛋白的准确性更接近(平均差17)。具有混合二级结构含量的蛋白质的差异介于两者之间(平均差异为29)。这些结果是有意义的,因为α-螺旋在局部几何形状上的变化有限,所以氢键(对赋予刚度很重要)在细化过程中相对容易获得。相反,β-板可以采用更广泛的局部几何形状,这使得正确解析氢键更具挑战性。我们之前已经注意到这种影响(福勒等人。,2021)并发现NMR结构在β-片中通常缺乏氢键。

对于一个新的蛋白质靶点,非专业人员可以在几分钟内生成AF2结构,而核磁共振结构通常需要数月的专业技能和设备。因此,一个简单的结论是,AF2更快、更便宜,至少也同样准确,因此应该是生成结构模型的首选方法。然而,实际情况更为微妙,我们通过更详细地查看一种方法比另一种方法有显著改进的实例来处理它。

Alpha-Fold结构比NMR结构更准确的示例

为了理解为什么AF2结构往往比NMR结构更准确,我们更仔细地观察了ANSURR分数比NMR至少高50分的AF2结构。有273座这样的建筑(占904座建筑的30%)。准确度的提高很大程度上源于AF2模型具有比NMR结构更广泛的氢键网络,这导致它们整体上更为严格,因此ANSURRMSD得分更高。我们之前已经注意到(福勒等人。,2021)核磁共振结构往往过于松散,通过添加氢键增加核磁共振结构的刚性通常会提高其ANSURR分数。氢键的位置当然必须是正确的,AF2提供了氢键位置的准确预测(Jumper等人。,2021).图4提供了两个示例。

保存图片、插图等的外部文件。对象名称为gr4.jpg

AF2模型比NMR结构更准确的两种蛋白质的代表性ANSURR输出

每个面板以蓝色显示化学位移的刚性,以橙色显示结构刚性。每个图顶部的彩色条表示规则二级结构的区域:α-螺旋(红色)和β-片(蓝色)。这些结构以卡通形式显示在每个情节的旁边,主链氢键用灰色线条表示。

(A和B)来自人类Filamin-B的第二十个Filamin结构域。(A)是NMR结构(PDB:2DLG公司(B)是AF2型号(UniProt:O75369号).

(C和D)锌指BED结构域包含蛋白质1的锌指BED-结构域。(C) 是核磁共振结构(PDB:2CT5型(D)是AF2型号(UniProt:O96006号).

图4A和4B描述了人类Filamin B(一种相当刚性的蛋白质)第20个Filamin结构域的ANSURR输出,而图4C和4D描述了ANSURR输出,用于更灵活的锌指域。对于这两种蛋白质,AF2结构具有更大的刚性,并且与实验化学位移确定的刚性更好地匹配。对于Filamin域(图4A和4B),额外的氢键主要是更好地定义和延伸β片区域(并且更正确)。锌手指(图4C和4D)在残基16-30之间有一个大的柔性环,在核磁共振结构中完全缺乏任何主链氢键。然而,AF2结构在该区域包含六个主链氢键,因此环采用松散的β-片状构象。这些氢键的作用是降低整体柔韧性,更具体地说,是以一种能够更好地与从化学位移中获得的柔韧性相一致的方式,表明它们在溶液中持续存在。总之,我们认为AF2模型往往比NMR结构更好,因为它们不仅包含更多的氢键,而且还包含倾向于在溶液中存在的正确氢键。

NMR结构比Alpha-Fold结构更准确的示例

只有22例(904例中的2%)核磁共振结构的ANSURR分数比AF2结构至少大50。从ANSURR输出和结构检查中,我们发现有三个主要原因。

首先,在某些情况下,由于末端区域的差异,获得了更好的ANSURR分数,这可能是由于对仅代表整个蛋白质的一部分(例如,单个结构域)的结构体进行核磁共振测量而导致的。Alpha-Fold蛋白质结构数据库中的模型涵盖与特定UniProt登录号相关的整个序列,而许多NMR结构仅代表部分。因此,核磁共振结构中的末端区域可能比作为更大结构的一部分更无序/更灵活,这可以解释核磁共振和AF2结构在C末端的差异图5A和5B所示。中包含了一个更详细地概述这一点的示例图S5应该注意的是,因为我们使用了与核磁共振结构相关的化学位移,所以我们偏向于支持核磁共振结构。这使得AF2结构获得的高ANSURR分数更令人印象深刻。

保存图片、插图等的外部文件。对象名称为gr5.jpg

核磁共振结构优于AF2模型的两种蛋白质的代表性ANSURR输出

配色方案图4结构以卡通形式显示在每个情节的旁边,主链氢键用灰色线条表示。

人类多囊蛋白2的(A和B)EF-hand结构域。(A) 是核磁共振结构(PDB:第2年第4季度(B)是AF2结构(UniProt:问题13563).

(C和D)十二烷基磷胆碱(DPC)胶束中表皮生长因子受体的跨膜和近膜结构域。(C) 是核磁共振结构(PDB:2N5S型(D)是AF2结构(UniProt:P00533号).

另请参见图S5S6系列.

其次,一些AF2车型缺少正确的常规二级结构。示例如所示图5A和5B,其中NMR结构具有AF2结构中缺失的短β片区域。因此,AF2结构在残基732-738和763-771之间过于灵活。我们注意到AF2产生了自己的置信度,称为过残留局部差异距离测试(pLDDT)。AF2正确地表示该特定预测的置信度为“低”,平均pLDDT为66(最大值为100;图S6).

第三,一些AF2模型的二级结构不正确。图5C显示了膜相关α-螺旋的核磁共振结构,其断裂反映在由化学位移确定的柔韧性和计算的柔韧性中。相反,AF2结构没有断裂,这显然违反了核磁共振数据。如前所述,AF2正确地指示了预测中的“低置信度”,平均pLDDT为58,尤其是应包含突变的区域中的低置信度(图S6B) ●●●●。我们推测,AF2很难预测螺旋破裂,因为它们在晶体结构中不太常见(因为它们很难结晶,或者因为结晶稳定了未破裂的螺旋),因此在AF2训练数据中未得到充分的再现。

pLDDT和ANSURR评估分数的比较

图5显示了AF2结构不如NMR结构准确的两个示例。在这两种情况下,AF2通过低平均pLDDT正确地确定了预测的低置信度。因此,我们进行了一项分析,看看平均pLDDT是否可以用作准确性的衡量标准。图6A表明,ANSURR分数显著高于NMR结构(AF2>>NMR)的AF2模型具有较大的平均pLDDT,而ANSURR分数显著低于NMR结构的AF2模式具有较小的平均pLDDT。然而,总体而言,pLDDT和ANSURR评分之间没有相关性(图6B) ●●●●。在AF2公开发布的一篇论文中,证明了pLDDT低的区域往往是无序的,以至于pLDTD可以作为高度竞争性疾病的预测因子(拉夫和帕普,2021年;Tunyasuvunakool等人。,2021). 因此,AF2可能会将低置信度分配给无序区域,ANSURR强调该区域是准确的,因为它正确地缺乏结构(参见图4C和4D是ANSURR如何区分高弹性区域和完全无序区域的示例)。为了验证这一想法,我们仅使用相应核磁共振谱群中确定的定义明确的区域重新计算每个AF2结构的平均pLDDT。定义明确的区域的平均pLDDT与ANSURR评分相关,尽管较弱(图6C) ●●●●。这表明,这两种方法对通常表示局部动态的不明确区域的判断有所不同。AF2倾向于将这些表示为结构化,但不确定性较高;NMR(通过随机线圈指数)将其表示为部分结构。对这一建议的进一步支持,因为差异的来源来自最近的一篇论文(布尔和沃尔特斯,2022)这表明,AF2可能无法很好地预测引入局部去折叠的点突变。一个明确的暗示是AF2和NMR可以协同使用,以改进对不确定区域的描述。

保存图片、插图等的外部文件。对象名称为gr6.jpg

pLDDT评分与ANSURR评分的比较

(A) 每个AF2模型中所有氨基酸的平均pLDDT得分。统计数据显示了测试集中所有AF2模型的统计数据,并分别显示了n=273个结构的统计数据(其中AF2结构显著优于NMR结构),以及n=22个结构的数据(其中NMR结构显著优于AF2结构)。pLDDT平均得分显示在每个框的下方。

(B) 测试集中每个AF2模型的平均pLDDT得分与ANSURR得分的相关图。橙色线是最合适的线。图例中给出了皮尔逊r和相应的双尾p值。

(C) 针对定义明确的区域计算的平均pLDDT得分与测试集中每个AF2模型的ANSURR得分的相关图。

讨论

很明显,AF2的可用性、简单性和卓越的准确性将使其在建模蛋白质结构方面具有无价价值,例如,在设计与蛋白质结合的药物方面。然而,只有当AF2模型是溶液中蛋白质结构的良好模型时,这才是正确的。本文的研究将AF2模型与溶液化学位移进行了比较,并为AF2模型作为溶液结构的准确性提供了令人信服的证据,证实了早期的报告(Robertson等人。,2021;Zweckstetter,2021年). 然而,AF2模型很少出错,可能是因为它们不能充分代表溶液中蛋白质的动力学。核磁共振能用于识别和纠正此类错误吗?

核磁共振和晶体结构比较的两篇综述(安德烈等人。,2007;比勒特,1992年)得出结论,核磁共振结构与相应的晶体结构具有相同的折叠,但平均而言,质量较低。我们自己使用ANSURR进行的分析(福勒等人。,2020,2021)得出了同样的结论。一个有趣的观点由安德烈等人。(2007)核磁共振系综的精度比核磁共振系统与晶体结构之间的平均距离更高;也就是说,核磁共振结构“误差”的最明显量度是误导性的小——不仅是低质量的核磁共振结构,而且附加的误差是不可靠的。最近的分析得出了类似的结论,尽管略为乐观:Schneider等人。(2009)表明核磁共振结构可以作为结构模型的有用模板;Abaturov和Nosova(2012)结果表明,通过收集更多的核磁共振数据,结构差异最小化;Li和Brüschweiler(2014)结果表明,核磁共振结构的分子动力学优化可以使其与晶体结构更具可比性;Everett等人。(2016)重新审视了对安德烈等人。(2007)并得出结论,利用现代核磁共振方法改进了核磁共振与晶体结构之间的一致性;Faraggi等人。(2018)结论是,大部分差异可能反映了解决方案中流动性的真正增加。我们已经表明,尽管与化学位移数据相比,核磁共振结构明显过于松散,但晶体结构过于刚性。事实上,许多研究表明,核磁共振结构比晶体结构更能代表溶液中蛋白质结构的动态性质:例如,参见Ikura等人。(1991)Tomlinson等人。(2009)这些研究与当前工作相关,因为AF2预测是根据晶体结构进行的。因此,如果NMR可以用来“校正”晶体结构,以产生更正确的动态溶液结构,那么它显然也可以对AF2结构进行同样的操作。

大多数AF2结构至少与核磁共振谱集一样精确。AF2预测的计算需要几分钟的时间,并且只需很少的训练即可完成。相比之下,核磁共振结构的计算通常需要数月时间,并且需要昂贵的设备和训练有素的操作员。计算每个目标的核磁共振结构是不切实际的。然而,中小型蛋白质的主干NMR分配几乎可以自动完成(威廉姆森和克雷文,2009年;Würz等人。,2017)并允许ANSURR的应用。因此,根据这里给出的结果,我们建议通过执行半自动化主干分配,然后执行ANSURR,来测试AF2模型的准确性。ANSURR验证的模型可以被接受为精确的解决方案模型(无需进一步NMR结构计算),而具有明显局部违规的模型需要修订,并且是AF2模型基于NMR的结构优化的良好目标。图5A和5B提供了一个很好的例子,说明如何做到这一点。ANSURR显示人类多囊蛋白2的AF2模型(UniProt:问题13563)是不准确的,因为它缺少溶液中存在的短的反平行β片。从AF2模型开始计算更精确的结构,并添加额外的约束以生成β板,这将是很简单的。

核磁共振在本质上并不是一种不准确的方法;相反,问题是计算高质量的结构需要大量的实验和计算工作。因此,时间和财务限制通常会限制最终结构的准确性。我们建议,如果计算生成的结构与实验数据很好地吻合,则可以简单地将其作为验证结构或作为根据核磁共振数据进行细化的起点,从而提供最有效的方法来生成准确的溶液结构。

可以认为,这样的程序通过施加AF2启动模型中存在的原子间相互作用而使产生的NMR结构产生偏差。然而,通过使用基于知识的约束,这种类型的偏差被施加在每个NMR结构计算上。AF2模型的使用只是基于知识的约束的更复杂版本,应该受到欢迎。

一种补充方法是生成经过训练的AF2修改版本,通过“学习”动态结构的位置来生成更准确的解决方案结构。这种方法将非常强大,但当然需要生成适当的训练集。提供合适训练集的最明显方法是通过核磁共振化学位移,它携带了表征局部动态区域所需的所有信息(Dass等人。,2020;Kagami等人。,2021)通常可从生物磁共振数据库(BMRB)获得(Ulrich等人。,2008). 或者,可以通过分子模拟生成溶液结构和动力学的训练数据(Ramaswamy等人。,2021)或深度学习方法(Noé等人。,2019).

最后,我们注意到,大多数结构计算和预测都假设结构可以用单个结构很好地表示。总的来说,这似乎是真的,但这里讨论的一些例子表明了一些异质性因素,即使只是以平衡的折叠和展开局部结构的形式。这种异质性对功能和功能抑制都有潜在的重要意义,这里的结果表明AF2和ANSURR的组合将是识别和表征这种平衡的一种方法。

STAR★方法

关键资源表

试剂或资源来源标识符
存放的数据

蛋白质数据库(Burley等人。,2019)网址:www.rcsb.org
BMRB公司(Ulrich等人。,2008)网址:https://bmrb.io/
Alpha-Fold蛋白质结构数据库(Varadi等人。,2022)https://alphafold.ebi.ac.uk网址/
SIFTS公司(Dana等人。,2019)https://www.ebi.ac.uk/pdbe/docs/sifts/
CASP14目标和预测的ANSURR分数:CASP14_ANSURR_cores_NMR.xlsx,
CASP14_保险_核心_预测.xlsx
这篇论文数据S1
数据S2
AF2和NMR ID比较列表_AF2_NMR_structures.xlsx这篇论文数据S3
此处报告的结构的ANSURR分数:af2_ANSURR_scores.xlsx,nmr_ANSURR_scores.xrsx这篇论文数据S4
数据S5

软件和算法

ANSURR v1.1.0版(福勒等人。,2020)https://zenodo.org/record/4984229
减少(Word等人。,1999)https://github.com/rlabduke/reduce
决策支持计划(Touw等人。,2015)https://swift.cmbi.umcn.nl/gv/dssp/
PyMol分子图形系统Schrödinger有限责任公司https://pymol.org/2/

资源可用性

导线触点

有关方法、数据集或计算资源的更多信息和信息请求应发送给首席联系人M.P.Williamson教授,并由其完成(m.williamson@sheffield.ac.uk).

材料可用性

本研究未产生新的独特试剂或材料。

方法详细信息

一组可比较的NMR和Alpha-Fold结构

α折叠蛋白结构数据库中的每个结构(Varadi等人。,2022)由UniProt登录号索引。我们使用了结构与功能、分类和序列(SIFTS)资源集成(Dana等人。,2019)将Alpha-Fold蛋白质结构数据库中每个人类蛋白质的UniProt登录号映射到PDB中的NMR结构(Burley等人。,2019). 具体来说,我们使用uniprot_segments_observed.tsv SIFTS文件来识别两种结构之间的重叠区域,并使用内部程序从结构文件中提取这些区域。AF2结构不包含氢原子,因此我们使用程序REDUCE v3.23添加了它们(Word等人。,1999). 我们应用以下标准筛选出可能使我们的比较复杂的核磁共振结构。核磁共振结构应a)仅包含单链,b)在BMRB中具有一组至少75%完整性的主链化学位移,以确保ANSURR的可靠性,以及c)具有至少20个氨基酸残基。最后一组由904个Alpha-Fold/NMR结构对组成。补充信息(可比较_af2_nmr_structures.xlsx)。

ANSURR计算

所有ANSURR计算均使用ANSURRv1.1.0进行(https://doi.org/10.5281/zenodo.4984229)具有以下选项:使用PANAV重新引用化学位移,在计算灵活性时包括非标准残基,在计算柔性时不包括配体。核磁共振结构包含多个模型(通常为20个),因此我们计算了所有模型的ANSURR分数,并对其进行平均,以获得每个PDB条目的单个ANSURRs分数。每个AF2结构都可以映射到多个PDB条目。在这种情况下,我们计算了PDB条目的平均ANSURR得分,并将其与AF2结构中与PDB条目重叠的区域的平均ANSORR得分进行了比较。例如,AF2结构O00206号被映射到两个PDB条目(5NAM和5NAO),因此我们将这两个PDA条目的平均ANSURR分数与AF2结构中包含残基623-670和残基623–657的模型的平均ANSORR分数进行了比较。我们遵循类似的程序将最佳评分核磁共振模型与AF2预测进行比较(图3B) 例如,对于AF2结构O00206号,我们平均了来自5NAM和5NAO的最佳评分模型的ANSURR得分,并将其与来自AF2结构的重叠区域的平均ANSIRR得分进行了比较。本工作中验证的所有结构的ANSURR分数如下所示补充信息(AF2:AF2_ansurr_scores.xlsx,核磁共振:NMR_ansurr_cores.xls)。在计算灵活性时,我们选择不包括配体,因为它们不存在于AF2结构中。因此,我们认为从核磁共振结构中去除配体是最公平的比较。我们之前展示过(Fowler等人。,2021)配体可以引起计算柔韧性的变化,但对ANSURR分数的总体影响很小:包括配体来计算162个核磁共振谱系综的柔韧性,导致ANSURR分数的平均变化仅为1。使用DSSP 2.0.4版对二级结构进行分类(Touw等人。,2015).

数据来源

源数据列在补充信息并来自公共数据库:具体而言,蛋白质数据库(网址:www.rcsb/org),生物磁共振银行(BMRB:网址:www.bmrb.io)和AlphaFold蛋白质结构数据库(https://alphafold.ebi.ac.uk网址). 本研究中使用的PDB和BMRB条目的登录代码列在文件compatile_af2_nmr_structures中。

量化和统计分析

使用标准Python例程进行统计分析。的值n个统计测试如所述图6和它的传说。未进行数据正态性测试。

致谢

我们感谢生物技术和生物科学研究理事会对N.J.F.(BB/P020038/1)的资助,以及推荐人提出的有益建议。

作者贡献

概念化,N.J.F.和M.P.W。;调查,N.J.F。;分析,N.J.F.和M.P.W。;writing,N.J.F.和M.P.W。;资金收购,M.P.W。

利益声明

作者声明没有相互竞争的利益。

笔记

发布日期:2022年5月9日

脚注

补充信息可在网上找到https://doi.org/10.1016/j.str.2022.04.005.

支持性引用

以下参考资料出现在补充信息中:Feng等人。(2021)

补充信息

文件S1。图S1–S6:
单击此处查看。(110万,pdf)

数据S1。CASP14_ansurr_scores_NMR列出了与图1相关的CASP14核磁共振靶点的ansurr分数:
单击此处查看。(16K,xlsx)

数据S2。CASP14_ansurr_scores_prespectives列出了这些目标的CASP14预测的ansurr分数,与图1相关:
单击此处查看。(115K,xlsx)

数据S3。Comparable_af2_nmr_structures列出了此处讨论的蛋白质的af2和nmr细节,与图3相关:
单击此处查看。(76K,xlsx)

数据S4。af2_ansurr_scores列出了此处讨论的af2预测的ansurr分数,与图3相关:
单击此处查看。(83K,xlsx)

数据S5。nmr_ansurr_scores列出了此处讨论的核磁共振结构的ansurr分数,与图3相关:
单击此处查看。(1.1M,xlsx)

文件S2。文章及补充信息:
单击此处查看。(3.1M,pdf格式)

数据和代码可用性

  • 本文中报告的所有数据将由导线触点根据要求。本研究中报告的数据是使用ANSURR v1.1.0获得的,可从以下网址下载https://doi.org/10.5281/zenodo.4984229.
  • 本文不报告原始代码。
  • 重新分析本文中报告的数据所需的任何其他信息可从导线触点根据要求。

工具书类

Abaturov L.V.、Nosova N.G.《结晶和核磁共振波谱蛋白质结构:相互联系》。分子生物学。2012;46:287–303. doi:10.1134/s002689331202021。[公共医学] [交叉参考][谷歌学者]
Alexander L.T.、Lepore R.、Kryshtafovych A.、Adamopoulos A.、Alahuhta M.、Arvin A.M.、Bomble Y.J.、Bottcher B.、Breyton C.、Chiarini V.等人。CASP14的目标亮点:结构提供商的模型分析。蛋白质结构。功能。生物信息学。2021;89:1647–1672. doi:10.1002/port.26247。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Andrec M.、Snyder D.A.、Zhou Z.Y.、Young J.、Montelione G.T.、Levy R.M.通过结晶学和核磁共振测定的蛋白质结构的大数据集比较:结构差异和晶体堆积效应的统计测试。蛋白质。2007;69:449–465. doi:10.1002/port.21507。[公共医学] [交叉参考][谷歌学者]
Berjanskii M.V.、Wishart D.S.《随机线圈指数在蛋白质柔韧性研究中的应用》。《生物分子杂志》。核磁共振。2008;40:31–48. doi:10.1007/s10858-007-9208-0。[公共医学] [交叉参考][谷歌学者]
Billeter M.通过溶液中的核磁共振和单晶中的X射线衍射测定的蛋白质结构的比较。Q.版次。生物物理学。1992;25:325–377. doi:10.1017/20033583500004261。[公共医学] [交叉参考][谷歌学者]
Buel G.R.,Walters K.J.AlphaFold2能否预测错义突变对结构的影响?自然结构。分子生物学。2022;29:1–2.数字对象标识代码:10.1038/s41594-021-00714-2。[公共医学] [交叉参考][谷歌学者]
Burley S.K.、Berman H.M.、Bhikadiya C.、Bi C.、Chen L.、Di Costanzo L.、Christie C.、Duarte J.M.、Dutta S.、Feng Z.等人。蛋白质数据库:3D大分子结构数据的单一全球档案。核酸研究。2019;47:D520–D528。doi:10.1093/nar/gky949。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Dana J.M.、Gutmanas A.、Tyagi N.、Qi G.、O’Donovan C.、Martin M.、Velankar S.SIFTS:更新的结构与功能、分类学和序列资源的整合使基于结构的蛋白质注释的覆盖率增加了40倍。核酸研究。2019;47:D482–D489。doi:10.1093/nar/gky1114。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Dass R.、Mulder F.A.A.、Nielsen J.T.ODiNPred:蛋白质顺序和无序的综合预测。科学。代表。2020;10:14780.doi:10.1038/s41598-020-71716-1。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Everett J.K.、Tejero R.、Murthy S.B.K.、Acton T.B.、Aramini J.M.、Baran M.C.、Benach J.、Cort J.R.、Eletsky A.、Forouhar F.等人。核磁共振/X射线晶体结构对实验数据社区资源。蛋白质科学。2016;25:30–45. doi:10.1002/pro.2774。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Faraggi E.、Dunker A.K.、Sussman J.L.、Kloczkowski A.比较核磁共振和X射线蛋白质结构:lindemann-like参数和核磁共振紊乱。《生物分子杂志》。结构。动态。2018;36:2331–2341. doi:10.1080/073911102/2017.1352539。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
冯建杰、陈建南、康伟、吴彦。基于RSFF2C分子动力学模拟的蛋白质环精确结构预测。化学杂志。西奥。计算。2021;17:4614–4628. doi:10.1021/acs.jctc.1c00341。[公共医学] [交叉参考][谷歌学者]
Fowler N.J.、Sljoka A.、Williamson M.P.验证核磁共振蛋白质结构准确性的方法。国家公社。2020;11:6321.doi:10.1038/s41467-020-20177-1。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Fowler N.J.、Sljoka A.、Williamson M.P.蛋白质数据库中核磁共振蛋白质结构的准确性。结构。2021;29:1430–1439.e2。doi:10.1016/j.str.2021.07.001。[公共医学] [交叉参考][谷歌学者]
Huang Y.J.、Zhang N.、Bersch B.、Fidelis K.、Inouye M.、Ishida Y.、Kryshtafovych A.、Kobayashi N.、Kuroda Y.、Liu G.等。CASP14中NMR测定的蛋白质结构预测方法评估:AlphaFold2的影响。蛋白质。2021;89:1959–1976. doi:10.1002/port.26246。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Ikura M.、Spera S.、Barbato G.、Kay L.E.、Krinks M.、Bax A.二级结构和侧链1H和13异核多维核磁共振波谱法对溶液中钙调蛋白的C共振赋值。生物化学。1991;30:9216–9228. doi:10.1021/bi00102a013。[公共医学] [交叉参考][谷歌学者]
Jacobs D.J.、Rader A.J.、Kuhn L.A.、Thorpe M.F.使用图论预测蛋白质柔韧性。蛋白质。2001;44:150–165. doi:10.1002/port.1081。[公共医学] [交叉参考][谷歌学者]
Jumper J.、Evans R.、Pritzel A.、Green T.、Figurnov M.、Ronneberger O.、Tunyasuvunakool K.、Bates R.、Zhiídek A.、Potapenko A.等人。用AlphaFold进行高精度蛋白质结构预测。自然。2021;596:583–589. doi:10.1038/s41586-021-03819-2。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Kagami L.P.、Orlando G.、Raimondi D.、Ancien F.、Dixit B.、Gavaldá-García J.、Ramasamy P.、Roca-Martínez J.、Tzavella K.、Vranken W.b2bTools:蛋白质生物物理特征及其保守性的在线预测。核酸研究。2021;49:W52–W59。doi:10.1093/nar/gkab425。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Kirchner D.K.,Güntert P.蛋白质结构重叠残基范围的客观鉴定。BMC生物信息。2011;12:170.网址:10.1186/1471-2105-12-170。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Li D.-W.,Brüschweiler R.协议使蛋白质核磁共振结构适于稳定的长时间尺度分子动力学模拟。化学杂志。西奥。计算。2014;10:1781–1787. doi:10.1021/ct4010646。[公共医学] [交叉参考][谷歌学者]
NoéF.,Olsson S.,Köhler J.,Wu H.Boltzmann生成器:用深度学习采样多体系统的平衡状态。科学。2019;365:eaaw1147.doi:10.1126/science.aaw1147。[公共医学] [交叉参考][谷歌学者]
Pereira J.、Simpkin A.J.、Hartmann M.D.、Rigden D.J.、Keegan R.M.、Lupas A.N.CASP14中的高精度蛋白质结构预测。蛋白质结构。功能。生物信息学。2021;89:1687–1699. doi:10.1002/port.26171。[公共医学] [交叉参考][谷歌学者]
Ramaswamy V.K.、Musson S.C.、Willcocks C.G.、Degiacomi M.T.具有卷积和潜在插值的深度学习蛋白质构象空间。物理学。版本X。2021;11:011052.doi:10.1103/physrevx.11.011052。[交叉参考][谷歌学者]
Robertson A.J.、Courtney J.M.、Shen Y.、Ying J.、Bax A.SARS-CoV-2主要蛋白酶的X射线和AlphaFold2模型与溶液中测量的残留偶极偶联的一致性。美国期刊。化学。Soc公司。2021;143:19306–19310. doi:10.1021/jacs.1c10588。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Ruff K.M.、Pappu R.V.AlphaFold和内在无序蛋白质的含义。J.摩尔。生物。2021;433:167208.doi:10.1016/j.jmb.2021.167208。[公共医学] [交叉参考][谷歌学者]
Schneider M.、Fu X.、Keating A.E.X射线与核磁共振结构作为计算蛋白质设计的模板。蛋白质。2009;77:97–110. doi:10.1002/port.22421。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Tomlinson J.H.、Ullah S.、Hansen P.E.、Williamson M.P.蛋白质G B1结构域中赖氨酸盐桥的表征。美国期刊。化学。Soc公司。2009;131:4674–4684. doi:10.1021/ja808223p。[公共医学] [交叉参考][谷歌学者]
Touw W.G.、Baakman C.、Black J.、te Beek T.A.H.、Krieger E.、Joosten R.P.、Vriend G.一系列满足日常需求的PDB相关数据库。核酸研究。2015;43:D364–D368。doi:10.1093/nar/gku1028。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Tunyasuvunakool K.、Adler J.、Wu Z.、Green T.、Zielinski M.、Chiendek A.、Bridgeland A.、Cowie A.、Meyer C.、Laydon A.等。人类蛋白质组的高精度蛋白质结构预测。自然。2021;596:590–596. doi:10.1038/s41586-021-03828-1。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Ulrich E.L.、Akutsu H.、Doreleijers J.F.、Harano Y.、Ioannidis Y.E.、Lin J.、Livny M.、Mading S.、Maziuk D.、Miller Z.等人。生物医药研究银行。核酸研究。2008;36:D402–D408。doi:10.1093/nar/gkm957。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Varadi M.、Anyango S.、Deshpande M.、Nair S.、Natassia C.、Yordanova G.、Yuan D.、Stroe O.、Wood G.、Laydon A.等人。AlphaFold蛋白质结构数据库:利用高精度模型大规模扩展蛋白质序列空间的结构覆盖范围。核酸研究。2022;50:D439–D444。doi:10.1093/nar/gkab1061。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Williamson M.P.,Craven C.J.根据核磁共振数据自动计算蛋白质结构。《生物分子杂志》。核磁共振。2009;43:131–143. doi:10.1007/s10858-008-9295-6。[公共医学] [交叉参考][谷歌学者]
Williamson M.P.,Havel T.F.,Wüthrich K。牛精浆蛋白酶抑制剂IIA的溶液构象1核磁共振和距离几何。J.摩尔。生物。1985;182:295–315. doi:10.1016/0022-2836(85)90347-x。[公共医学] [交叉参考][谷歌学者]
Word J.M.、Lovell S.C.、Richardson J.S.、Richarsson D.C.天门冬氨酸和谷氨酰胺:在选择侧链酰胺方向时使用氢原子接触。J.摩尔。生物。1999;285:1735–1747. doi:10.1006/jmbi.1998.2401。[公共医学] [交叉参考][谷歌学者]
Wu N.、Kobayashi N.、Tsuda K.、Unzai S.、Saotome T.、Kuroda Y.、Yamazaki T.的溶液结构高斯(Gaussia)具有五个二硫键的荧光素酶,并通过异核核磁共振鉴定一个可能的柯仑特嗪结合腔。科学。代表。2020;10:20069.网址:10.1038/s41598-020-76486-4。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Würz J.M.、Kazemi S.、Schmidt E.、Bagaria A.、Güntert P.基于NMR的自动化蛋白质结构测定。架构(architecture)。生物化学。生物物理学。2017;628:24–32. doi:10.1016/j.abb.2017.02.011。[公共医学] [交叉参考][谷歌学者]
Zweckstetter M.核磁共振鹰眼图AlphaFold2结构。蛋白质科学。2021;30:2333–2337. doi:10.1002/pro.4175。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]