摘要
AlphaFold在蛋白质结构预测方面的发展开创了结构生物学的新纪元。对于预测蛋白质复合物的AlphaFold-Multimer来说,情况更是如此。对这些预测的解释变得比以往任何时候都重要,但对非专业人士来说都很困难。虽然AlphaFold蛋白质结构数据库为单体蛋白质预测提供了预测质量评估,但对于预测的复杂结构,缺少此类工具。这里,我们展示了PAE查看器Web服务器(http://www.subtiwiki.uni-goettingen.de/v4/paeViewerDemo)是一种在线工具,用于使用3D结构显示与预测对齐误差(PAE)的交互式表示相结合,对预测的蛋白质复合物进行集成可视化。此度量允许估计预测的质量。重要的是,我们的网络服务器还允许集成实验交联数据,这有助于解释结构预测的可靠性。通过PAE查看器,用户获得了一个独特的在线工具,该工具首次允许直观评估PAE,以预测具有集成交联的蛋白质复合物结构。
图形摘要
预测对齐误差(PAE)是衡量蛋白质结构预测可靠性的指标。PAE Viewer Web服务器允许直观评估复杂结构预测和交联数据。
简介
许多蛋白质不是作为单个分子,而是更大复合物的一部分。这尤其适用于涉及多聚DNA聚合酶、RNA聚合酶和核糖体的遗传信息复制和表达的所有方面。此外,许多代谢反应依赖于蛋白质复合物的形成,如多亚基ATP酶的ATP合成(1,2).
对这些复合物的研究是当前生物学的一个主要问题。蛋白质之间的相互作用传统上是以不同的方式进行鉴定的,(i)用特定的靶蛋白直接共同纯化未知蛋白质,(ii)由于蛋白质与分析蛋白质的分离结构域的相互作用而重建酶活性的双杂交分析,以及(iii)候选伴侣相互作用的直接生化分析。最近,通过蛋白质交联或共分馏与质谱联用,介绍了蛋白质复合物的全蛋白质鉴定(三,4). 蛋白质复合物的进一步研究有两个主要方面:一方面,应确定相互作用伴侣的功能。在这种情况下,未知蛋白质与具有已知功能的蛋白质的相互作用为可以实验解决的假说的发展铺平了道路。通过这种方式,鉴定涉及未知蛋白质的相互作用是阐明这些通常研究不足的蛋白质功能的主要输入(5,6). 另一方面,对配合物结构的分析和对相互作用的分子细节的分析对于全面理解非常重要。
最近,AlphaFold的引入彻底改变了蛋白质结构的分析,AlphaFold是一种基于人工智能的蛋白质结构计算预测工具(7). 利用AlphaFold,可以从基因组数据库中推断出的所有蛋白质的结构都已被预测出来,并已包含在AlphaFold蛋白质结构数据库(AlphaFoldDB)中(8). 然而,蛋白质复合物的预测更具挑战性。AlphaFold的新迭代AlphaFold-Multimer使得准确预测小蛋白复合物成为可能(9). 自其释放以来,对越来越大的配合物的预测取得了重大进展(10). 随着这些进展,解释这些计算预测的可靠性变得越来越迫切。为此,AlphaFold及其后代提供了几个指标,用于定量评估结构预测的质量。其中一个指标是预测对齐误差(PAE),这是对预测结构部分的相对位置和方向的置信度的测量。AlphaFold数据库页面上突出显示了PAE的2D图,旁边是每个单体蛋白预测的三维结构视图。
通过结合蛋白质交联和质谱的结构蛋白质组学提供了额外的信息层。交联表明哪些残基位于附近。这不仅与单个蛋白质有关,也与蛋白质复合物有关。重要的是,这种方法甚至可以检测不同条件下蛋白质的构象变化。对于蛋白质复合体,AlphaFold-Multimer预测和结构蛋白质组学的实验数据相结合,为复合体的分子组织提供了前所未有的视角。事实上,在最近一项关于枯草芽孢杆菌interactiome是一种迄今为止未知的蛋白质,与丙酮酸脱氢酶的两个亚基相互作用。这种蛋白质后来改名为PdhI,被发现可以抑制丙酮酸脱氢酶的酶活性。结构模型表明,蛋白质通过突入酶的活性中心而干扰催化作用。基于该假设的定点突变最终证实了丙酮酸脱氢酶抑制的这一拟议机制(4).
相互作用蛋白特定区域间交联的实验鉴定可以独立验证AlphaFold-Multimer复合物预测。对于单个蛋白质,这个实验证据可以为预测构象的有效性提供重要提示。复合物也是如此,其中子单元之间的交联额外提供了共享界面上的信息。因此,综合这些实验交联信息有助于评估这些预测的准确性。
目前,有几种工具可用于可视化和评估AlphaFold预测的质量以及相应的PAE。如前所述,AlphaFold DB上的(单体)蛋白质预测页面显示了多种交互式可视化。用户可以查看蛋白质的3D结构以及相应的氨基酸序列。此外,PAE的2D图允许用户选择矩阵的不同区域,这些区域依次在3D结构和序列显示中高亮显示。评估结构预测的其他选项包括Deepmind的笔记本(https://colab.research.google.com/github/depmind/alphafold/blob/main/notebooks/alphafold.ipynb)和ColabFold(11). 谷歌Colab笔记本都允许远程运行AlphaFold-Multimer并下载其输出。它们还显示静态PAE图以及预测结构的其他几个质量指标。另一个工具是独立应用程序ChimeraX,它是分子可视化的流行选择,并提供了广泛的功能来可视化和分析结构(12). 它允许以交互方式渲染3D结构、显示序列,并包括PAE的交互显示。使用PAE值,ChimeraX还可以评估复合物链之间的接触点,并且它支持结构域的聚类。此外,它还具有显示和评估交联的控件。
所有这些工具在评估预测结构、PAE和交联数据方面都有一定的优缺点。AlphaFold DB页面提供了结构和PAE的集成、易于使用的概述。然而,作为数据库页面,它们只显示预计算的单体预测,而不是为用户上传自己的数据而设计的。PAE显示器的交互性也受到限制。对于Deepmind笔记本和ColabFold,可以进行复杂的结构预测,但显示的PAE图是静态图像。同样,笔记本旨在可视化执行的AlphaFold运行的输出,而不是用于上传的结构数据。最后,ChimeraX是一个独立的应用程序,需要安装,在这种情况下提供了最多的实用程序。PAE显示器的功能比AlphaFold DB上的功能更先进,该程序具有多个分析交联的工具。然而,它并没有将交联信息与PAE结合起来,这可以相互补充,为预测的结构增加实验验证。尽管ChimeraX具有序列查看器,但在PAE显示器中所做的选择并没有被它反映出来。
为了帮助研究人员综合解释复杂预测和实验交联数据,我们开发了PAE Viewer Web服务器。使用此在线工具,用户可以查看预测的蛋白质复合体的3D表示、相应的氨基酸序列以及PAE的交互式显示。所有这些组件都可以协同工作,因此用户与其中一个组件的交互会通过其他组件反映出来。虽然这类似于AlphaFold DB条目页面的结构,但特别关注PAE显示的表示和交互PAE查看器它类似于ChimeraX提供的工具,但允许通过将交联数据合并到显示器中来集成实验数据。通过这种独特的功能组合,我们的Web服务器提供了一个全面的工具来解释多元结构预测的质量。PAE Viewer的一个版本当前已集成到数据库中Subti公司模型生物维基枯草杆菌(13),其中提出了预测的蛋白质复合物结构的预定义选择。相反,PAE查看器Web服务器可以用于上传用户感兴趣的任何预测的自定义结构。它旨在直接使用AlphaFold Multimer和上述在线笔记本电脑的输出,以及从AlphaFold DB下载的内容。
实施
预测对准误差
除预测结构外,AlphaFold还提供了几个指标,可以更好地评估预测质量。pLDDT(预测的局部距离差异测试)是对结构永久精度的置信度测量(7). 它预测了Cα局部距离差检验(lDDT-Cα)预测的准确性(14). pTM(预测模板建模分数)(7)是TM-核心的估计值(15),蛋白质结构之间的相似性的度量(在这种情况下,在预测的结构和假设的真实结构之间)。反过来,ipTM(Interface pTM)对不同链残基之间的相互作用进行评分,以评估接口的准确性(9). 复合体质量的另一个评分函数是mpDockQ(多界面预测DockQ),它结合了接口plDDT和接口触点数量(10).
PAE是另一个度量,是预测结构中两个残基相对位置的置信度(8). 一对残基的PAEx和年定义为预期位置误差,单位为Ångströmsx如果预测的结构和实际的结构在年这可以提供关于不同结构域相对位置和方向可靠性的宝贵信息:如果所含残基之间的PAE较高,AlphaFold预测这些结构域将精确定向;反过来,低值表示预测的域方向的可靠性有限。相应地,AlphaFold-Multimer对模型不同链的预测也是如此。在这种情况下,不同链残基之间的高PAE表明对共享界面的可靠预测(9).
Web服务器功能概述
在评估结构预测的质量时,可能很难解释PAE及其与预测结构的关系。为此,我们开发了PAE查看器网络服务器,允许用户上传和评估蛋白质多聚体预测、相应的PAE和交联数据。
PAE Viewer Web服务器页面提供了AlphaFold-Multimer结构预测的集成视图(图1). 除了PAE查看器本身,该页面还提供了相关氨基酸序列和3D结构的交互式显示。序列查看器显示包含在预测的多聚体中的链的氨基酸序列。通过使用鼠标,用户可以选择单个氨基酸或连续范围,这些氨基酸依次在3D结构查看器中高亮显示。后者基于NGL查看器,一个基于web的分子可视化工具(16). 结构查看器显示预测多聚体的3D表示,用户可以通过旋转、拖动或缩放鼠标与之交互。它还提供了有关其他预测质量指标的信息,并提供了选择颜色方案和显示交联的选项。PAE查看器、序列查看器和3D结构查看器相互配合,因此用户与其中一个查看器的交互会通过其他显示器反映出来。
图1。
PAE Viewer Web服务器页面概述。页面顶部的面板允许从几个示例中选择结构数据并上传自定义数据。下面,动态序列查看器显示了所查看的多聚体预测的氨基酸序列。再往下看,一个3D结构查看器显示了预测的多聚体的分子表示。此外,还提供了质量指标和表示选项。右侧嵌入了PAE查看器。
在页面顶部,用户可以从选择的示例结构中进行选择,以测试页面功能。此外,上传表单允许用户提供自己的结构数据。特征示例数据包括结构预测、交联数据和质量指标。它们来源于最近关于枯草杆菌其中AlphaFold-Multimer与实验交联和共分馏分析结合使用(4). 该方法预测了许多潜在蛋白质相互作用的高质量模型,其中三个被选为示例数据。对于上传,支持PDB或PDBx/mmCIF格式的结构文件。PAE和其他质量指标可以通过上传JSON文件来提供,该文件由Deepmind笔记本和ColabFold生成,也可以从AlphaFold数据库下载。此外,可以下载一个Python脚本,将原始AlphaFold-Multimer输出从“pickle”格式(Pythons固有的序列化格式)转换为适当的JSON文件。可以通过上传CSV来提供交叉链接数据。或者,伪键文件(.pb),例如ChimeraX使用的(12),也有(有限的)支持。有关支持的输入的详细文档可以在网页上找到。web服务器页面的功能完全由客户端web应用程序提供,因此当用户“上传”数据时,不会与我们的服务器进行信息交换。
使用PAE查看器表示数据
PAE查看器旨在帮助解释多元预测的PAE。为此,开发了一个二维交互式绘图,其特点是直观地选择结构部件,并集成交联数据。图2安培显示了其中一种示例复合物的PAE查看器,PdhA-PdhB-PdhI三聚体枯草杆菌.
图2。
PAE查看器显示。(A类)交互式PAE查看器绘图,其中包含PAE热图和其他图形元素。(B类)启用了“区域覆盖”的PAE查看器,允许高亮显示对应于不同链或接口的绘图段。
可以看出,PAE的表示与AlphaFold DB和ChimeraX使用的显示类似。然而,添加了额外的图形元素以区分多聚物的不同链。此外,我们的PAE查看器允许集成交联数据,其中圆形标记指示残基之间的交联。
2D图显示计分残渣处的PAEx关于对齐残留物年作为所谓的热图,其中PAE的值由颜色指示。深绿色表示PAE较低,这表明残基相对位置的可靠性较高。相反,较浅的颜色对应较低的置信度。此配色方案与AlphaFold DB使用的配色方案相同。对于缩放,用户可以提供最大PAE,并适当调整颜色图例。如果未提供,则使用PAE矩阵的最大值。
这个x和年轴被多聚体链分割,所以一个亚单位内的残基位置很容易被看到。特殊轴标记还指示各个链的总序列长度。附加的彩色标签表示链的名称。PAE查看器、序列查看器和3D模型的配色方案是一致的。使用了基于Okabe/Ito调色板的色盲友好方案(https://jfly.uni-koeln.de/color网站/).
热图本身被分割成一个网格,图中的矩形部分对应于不同的链或两个链之间的接口。可以通过切换“区域重叠',它将彩色编码遮罩应用于图中所示的绘图2B型.
除了PAE本身,还可以集成交联数据。两个残基之间的交联x和年显示为一对圆形标记(x,年)和(年,x)在情节中。颜色编码用于表示满足(蓝色)或违反(红色)交联限制。在示例中(图2安培)施加距离约束,其中Cα–Cα距离≥30°被视为违反约束,因为该距离被认为对所用交联剂来说在物理上不可能实现。结合PAE,具有满意或违反距离约束的交联的存在为结构部分构象和取向的可信度提供了额外的线索。
PAE查看器的交互性
当比较选择的互动性时,AlphaFold DB的PAE图会出现进一步的差异,这与ChimeraX的互动性更相似。图三显示了选中heatmap的一部分时web服务器页面的状态。
图3。
PAE Viewer的选择功能。当在PAE查看器上执行选择时,多重聚体的相应部分在序列查看器和3D结构查看器中使用一致的颜色方案高亮显示。
PAE查看器的选择功能旨在直观地探索PAE和多聚体预测的相应部分。当单击并按住鼠标左键,同时在热图上拖动光标时,可以选择绘图的矩形区域,如图所示三这种选择对应于一系列残留物相对于另一系列残渣的PAE。这两个范围都投影到图的对角线上,以说明序列中选定范围的关系。这个x范围,对应于刻痕残留物的选择,标记为青色,而年对齐残留物的范围标记为橙色。相同的颜色方案应用于序列查看器和3D结构查看器,这使得用户可以轻松识别选择的不同部分。通过查看热图中的彩色PAE值,用户可以了解模型中青色部分相对于橙色部分方向的可靠性。此外,用户一眼就能看到相应的氨基酸序列。
在AlphaFold DB上,带有特色PAE图的选项还允许高亮显示不同的序列和3D结构部分。然而,AlphaFold DB显示屏以相同的方式突出显示了刻痕和对齐残留物的范围,还包括残留物之间两个选定的范围。这使得无法在3D结构查看器中识别相应的零件。相反,PAE查看器会区分以不同颜色高亮显示的范围。这使得更容易识别高亮显示的结构部件和序列与选定PAE的关系。ChimeraX还使用两种颜色来突出显示区域的选定部分。但是,PAE查看器通过将相应的范围投影到对角线上并在序列查看器中高亮显示,在视觉上支持选择与序列的关系。此外,与对角线重叠的矩形选择部分(难以解释)被指定了特殊颜色(洋红色)。
除了选择PAE热图的矩形区域外,PAE查看器还允许进行不同的选择。单击PAE热图选择一对残留物,其距离显示在结构查看器中,并在序列查看器中高亮显示。可以单击由圆形标记表示的交叉链接,以突出显示3D结构查看器中的相应表示和序列查看器中的交联残基。可切换区域覆盖(AlphaFold DB和ChimeraX中没有这一功能)也具有交互性。单击覆盖的某个区域时,相应的链或界面将在3D结构查看器和序列查看器中使用多重颜色方案高亮显示。对于所有这些选择,相应的(平均)PAE值将以数字形式显示在热图显示下。
结论
蛋白质复合物在细胞生活中起着重要作用,研究其功能是生物学的一个主要目标。结构蛋白质组学可以为这些分子机制的工作提供关键的见解,但实验方法具有挑战性。然而,随着AlphaFold及其子代工具等强大的机器学习算法的兴起,对越来越大的蛋白质复合物进行准确的结构预测已成为现实。反过来,这些计算预测的解释和质量评估也变得比以往任何时候都重要。虽然像AlphaFold这样的程序可以为预测的可信度提供定量测量,但对于非专业人士来说,解释可能很困难。其中一个指标,即预测对准误差(PAE),是结构各部分相互定向准确性的重要指标。除了AlphaFold生成的质量评估外,实验验证是验证复杂结构预测可靠性的关键步骤。交联分析等方法可以为蛋白质复合物的分子结构提供重要线索。
PAE Viewer Web服务器提供了一个直观的工具,通过将PAE与序列、结构和交联信息集成,以交互方式探索AlphaFold Multimer预测的质量。在这种情况下,PAE Viewer的独特功能组合比已经建立的工具具有优势,例如AlphaFold DB使用的演示、Deepmind笔记本和ColabFold的输出以及ChimeraX的实现。尽管PAE Viewer Web服务器的重点是专门化的,但引入的交互性可以作为独立的库来实现。通过这种方式,它可以更灵活地使用,例如,通过将其集成到现有笔记本电脑或ChimeraX等程序的插件中。我们希望PAE查看器能为复杂结构预测和交联数据的研究提供一个有用的工具。
数据可用性
网页主要组件的源代码可在https://gitlab.gwdg.de/general-microbiology/pae-viewer.
致谢
我们感谢安德烈亚·格拉齐亚迪、弗朗西斯·奥莱利和尤里·拉普西尔伯的有益讨论。此外,我们还要感谢Thornton Fokkens为测试实现提供了样本数据。
作者贡献:克里斯托夫·埃尔夫曼:概念化,实施,写作-初稿。Jörg Stülke:资金收购、写作审查和编辑。
基金
Deutsche Forschungsgemeinschaft(DFG)通过SFB 1565[469281184(P11至J.S.)]。开放存取费用的资金来源:Deutsche Forschungsgemeinschaft,SFB1565。
利益冲突声明。未声明。
参考文献
1凯斯金
O。
,古尔索伊
答:。
,妈妈
B。
,努西诺夫
R。
蛋白质相互作用原理:蛋白质相互作用的首选方式是什么?
.化学。修订版。
2008
;108
:1225
–1244
. 2利丁顿
钢筋混凝土。
傅
H。
蛋白质相互作用的结构基础
.蛋白质-蛋白质相互作用
.2004
;261
. 三。奥莱利
F.J.公司。
,薛
L。
,格拉齐亚迪
答:。
,辛恩
L。
,伦茨
美国。
,特古诺夫
D。
,布尔茨
C、。
,辛格
N。
,黑根
W.J.H.先生。
,克拉默
第页。
等。
主动转录翻译表达组的细胞内结构
.科学类
.2020
;369
:554
–557
. 4奥莱利
F.J.公司。
,格拉齐亚迪
答:。
,禁止
C、。
,布雷门坎普
R。
,查尔斯
C、。
,伦茨
美国。
,埃尔夫曼
C、。
,费希尔
L。
,斯图尔克
J。
,Rappsilber公司
J。
AI辅助结构蛋白质组学研究细胞中的蛋白质复合体
.摩尔系统。生物。
2023
;19
:第11544页
. 5Kustatscher公司
G.公司。
,柯林斯
T。
,银杏木
交流。
,郭
T。
,信息字
H。
,Ideker公司
T。
,莉莉
韩国。
,伦德伯格
E.公司。
,马科特
E.M.公司。
,拉塞尔
M。
等。
未被研究的蛋白质:功能蛋白质组学的机遇和挑战
.自然方法
.2022
;19
:774
–779
. 7跳跃者
J。
,埃文斯
R。
,普里策尔
答:。
,绿色
T。
,菲古尔诺夫
M。
,龙内贝格尔
O。
,Tunyasuvunakool公司
英国。
,贝茨
R。
,希德克
答:。
,波塔片科
答:。
等。
AlphaFold高精度蛋白质结构预测
.自然
.2021
;596
:583
–589
. 8瓦拉迪
M。
,无论如何
美国。
,德什潘德
M。
,奈尔
美国。
,娜塔莎
C、。
,约丹诺娃
G.公司。
,元
D。
,斯特罗
O。
,木材
G.公司。
,莱顿
答:。
等。
AlphaFold蛋白质结构数据库:利用高精度模型大规模扩展蛋白质序列空间的结构覆盖范围
.核酸研究。
2022
;50
:D439
–D444号
. 10布莱恩特
第页。
,波扎蒂
G.公司。
,朱
西。
,谢诺伊
答:。
,昆德罗塔斯
第页。
,埃洛夫松
答:。
用AlphaFold和Monte Carlo树搜索预测大蛋白复合物的结构
.国家公社。
2022
;13
:6028
. 11米尔迪塔
M。
,Schütze公司
英国。
,森崎
年。
,你好
L。
,夫钦尼科夫
美国。
,施泰因格
M。
ColabFold:让所有人都可以进行蛋白质折叠
.自然方法
.2022
;19
:679
–682
. 12彼得森
E.F.公司。
,戈达德
财政部。
,黄
C.C.公司。
,孟
E.C.公司。
,沙发
G.S.公司。
,克罗尔
T.I.公司。
,莫里斯
J.H.公司。
,铁蛋白
T.E.公司。
UCSF ChimeraX:研究人员、教育工作者和开发人员的结构可视化
.蛋白质科学。
2021
;30
:70
–82
. 13佩德雷拉
T。
,埃尔夫曼
C、。
,斯图尔克
J。
的当前状态Subti公司Wiki,模型生物数据库枯草芽孢杆菌
.核酸研究。
2022
;50
:D875号
–D882型
. 14玛莉安妮
五、。
,比亚西尼
M。
,巴尔巴托
答:。
,施韦德
T。
lDDT:使用距离差测试比较蛋白质结构和模型的局部无重叠分数
.生物信息学
.2013
;29
:2722
–2728
. 15.张
年。
,斯科尔尼克
J。
蛋白质结构模板质量自动评估的评分功能
.蛋白质
.2004
;57
:702
–710
. 16玫瑰色
美国科学院。
,布拉德利
阿拉伯联合酋长国。
,瓦拉萨塔瓦
年。
,杜阿尔特
J.M.公司。
,普里奇
答:。
,玫瑰色
P.W.公司。
NGL查看器:大型综合体的基于网络的分子图形
.生物信息学
.2018
;34
:3755
–3758
.
©作者2023。由牛津大学出版社代表核酸研究出版。