如何使用AlphaFold预测结构

来自Proteopedia

跳转到:航行,搜索

2020年AlphaFold公司谷歌DeepMind团队的项目在从序列预测蛋白质结构方面取得了重大突破。他们在盲人中的成功CASP公司比赛让许多专家感到惊讶。有关概述,请参见理论模型铭记“AlphaFold的欢乐与危险”[1].AlphaFold2在2022年CASP 15竞赛.

2021年7月,DeepMind发布了AlphaFold作为开放源代码随后,有几款Colabs可供选择提供自由的用户提交的蛋白质序列的结构预测。这些谷歌Colabs(合作伙伴)[2].允许用户通过web浏览器提交序列,在谷歌云中执行代码,使用每个用户专用的空间,返回预测的结构。

以下是对希望预测结构的初学者的指导。我们推荐“高级”Colab谢尔盖·奥夫钦尼科夫(Sergey Ovchinnikov)、米洛特·米尔迪塔(Milot Mirdita)和马丁·斯坦纳(Martin Steinegger)。下面推荐的一些选项是从Sergey Ovchinnikov和Martin Steinegger的1小时46分钟演示视频(2021年8月)波士顿蛋白质设计与建模俱乐部由Chris Bahl主持。

目录

首先检查AlphaFold数据库

超过300000个蛋白质的结构预测已经在AlphaFold数据库。如果你的蛋白质在那里,你不需要按照下面的说明进行操作。只需从数据库下载预测。

同时检查AlphaFill数据库,这为AlphaFold的预测添加了配体。配体定位是近似的。请参见注意安全由AlphaFill团队提供。

单链限制

最初,AlphaFold和ColabFold在单链上表现最好[3],可能包括一个或几个域。以下说明是在ColabFold被用于预测络合物或交替构象之前编写的。如果您对络合物或替代构象感兴趣,请参阅Kim 2023年论文中的ColabFold说明等。 [4]

提交序列

首先,检查AlphaFold数据库对于感兴趣的蛋白质。如果已经在那里预测了它的结构,请下载它,然后跳到解释结果下面。否则。。。

不要担心下面没有特别提到的任何选项。将其保留为默认设置。
1.获取感兴趣蛋白质的序列,例如UniProt公司。单击UniProt中序列上方的FASTA按钮。只复制序列,不包括以“>”开头的FASTA标题行。

2.使用谷歌帐户登录AlphaFold2_高级。您可以注册一个免费的gmail帐户以用于登录。

3.粘贴序列,确保完全替换默认序列:

这个输入槽可以接受大于1000个氨基酸的序列,即使它只有一行。约1000个氨基酸或更长的序列长度可能会导致Colab失败,但可以通过两半提交来预测。[5]另请参见[5]加入AlphaFold对分子一半的预测.

4.在序列槽下方的槽中输入作业名。results.zip文件名将以该作业名开头(但其内容均不包括作业名)。

5.向下滚动至标题为运行字母折叠,小节采样选项:

  • num个模型,要预测的模型数默认为5。如果你赶时间的话,你可以把这个数字减到3。
  • 最大循环数:将其设置为48(或至少12)。当模型收敛到指定的公差时,执行的实际“回收”次数将停止。默认的3次循环通常不足以获得最佳结果。
  • 托尔(容差):将其设置为0.5°(或1.0以获得更快的结果)。当预测值与之前的“再循环”预测值相差小于该值时(α-碳之间的ΔRMSD),再循环将停止。
  • num_samples数(随机种子):将此值保留为1。请注意,如果将此值增加到1以上,将生成相当于此值乘以num_models的乘积的多个模型。这将按比例增加完成结果的时间。


6.打开页面顶部的Runtime菜单,然后选择全部运行.
图片:AF2Adv-runal.png
不要担心“警告”。这只是谷歌的免责声明,他们没有编写您将要执行的代码。点击仍要运行.

下载结果

在作业完成之前,请勿关闭AlphaFold2_advanced浏览器选项卡。如果关闭浏览器选项卡,您将失去工作。如果您不小心尝试,将收到警告。

作业完成后,将自动显示一个用于下载zip文件的对话框。(有时会要求您先获得许可才能启用下载。)

解释结果

预测模型主干渲染的静态图像将显示在该部分底部的web浏览器中运行字母折叠每一个都完成了。

估计可靠性

每个预测模型都有一个平均估计可靠性(pLDDT,预测局部距离差检验)。>90可能是准确的<70是低自信。有关解释这些值的更多信息,请参阅AlphaFold数据库常见问题解答.

每个残留物都有其在PDB中位置(0-100)的估计可靠性温度列。注意,高值意味着高信心,低值意味着低信心。这是的逆晶体温度值,其中低值是好的,高值是坏的。将PDB文件上载到Jmol简介将根据估计的可靠性自动给每个残留物上色。

可视化

Jmol简介通过估计每个残留物的可靠性,自动为上传的AlphaFold模型的初始视图着色(蓝色表示高度自信,红色表示信心不足). 转到其他视图或工具后,您可以通过单击返回此配色方案可靠性评估在中意见选项卡。

将预测模型上传到第一眼。J摩尔。组织,你可以很容易地想象

  • 每残留物的估计可靠性
  • 二级结构(“视图”选项卡)
  • 疏水残基与极性残基的分布(视图选项卡:整体膜蛋白具有较大的疏水表面,而可溶性蛋白具有疏水核,由厚板按钮)
  • 电荷分布(视图选项卡:核酸结合位点将具有正电荷簇)
  • 二硫键(工具选项卡)
  • 多肽链末端的结构域和位置(视图选项卡:N->C彩虹)
  • 通过进化保护确定功能场所的位置(参见如何查看保护区)

内在障碍

一些车型对折叠式领域以及不属于紧凑域的段的低置信度。低自信段可能是内在无序。比较很有用紊乱预测AlphaFold可靠性评估。

域的相对位置

如果预测模型有多个领域,每个域可能具有较高的置信度,但域的相对位置可能没有。相对域位置的估计可靠性如图所示预测对准误差(PAE)包含在可下载的结果zip文件中。有关说明,请参阅我应该如何解释域的相对位置?在中AlphaFold数据库常见问题解答.

回收以实现融合

您可能有兴趣注意每个模型收敛到指定公差所需的回收次数。下载的zip文件中没有捕获这些数字。

这些模型将排名第一,具有最高的估计可靠性(pLDDT)。这通常与计算顺序不同。您可能需要复制排名列表,可能需要添加回收次数和最终公差值:

基于pLDDT循环容差的模型秩等级_1_型号_2_ptm_seed_0 pLDDT:62.46 10 0.33等级_2_型号_3_ptm_seed_0 pLDDT:59.59 9 0.47等级_3_型号_1_ptm_seed_0 pLDDT:55.63 12 0.52

请注意,预测的第二个模型具有最佳的估计可靠性(pLDDT),排名第三的模型在12次循环后没有完全达到0.5ºRMSD的规定公差。(12被指定为此作业中的最大值。)

还要注意,在这种情况下,所有3个模型的置信度都很低(pLDDT<70),并且其值值得怀疑。

支付Colab Pro

当我提交一份新工作时,在完成了几项大型工作(>500个残留物)后,我被告知无法分配GPU。我的访问权限暂时受到限制,因为我最近使用了免费资源。

2021年10月Colab专业版每月10美元。订阅后,我提交的所有作业都得到了无限制的处理。

另请参见

参考文献和注释

  1. Perrakis A,Sixma TK。生物学中的人工智能革命:AlphaFold的欢乐与危险。EMBO代表2021年10月20日:e54046。doi:10.15252/embr.202154046。PMID:34668287数字对象标识:http://dx.doi.org/10.15252/embr.202154046
  2. 合作常见问题解答在谷歌。
  3. 用AlphaFold-Multimer预测蛋白质复合物2021年,埃文斯等。(DeepMind团队)。
  4. 使用ColabFold轻松准确地预测蛋白质结构2023年,金等。(DeepMind团队)。
  5. 5 5.1我有一个长度约为1300的序列。失败后,我将其作为两半提交,并有大量重叠(约350个残基)。预测结构的约200个残基的中间重叠与DeepView(深度视图).我把叠得不好的两端剪掉,并通过中间重叠部分把两半叠起来。通过检查,我选择了中间附近的一对α-碳,其中α-碳的位置几乎相同。我将每一半裁剪到这个位置,并通过将叠加的一半PDB文件与文本编辑器组合在一起,将两部分“连接”起来。有关更多详细信息,请联系用户:Eric_Martz.

Proteopedia页面贡献者和编辑(这是什么?)

埃里克·马茨

个人工具