AlphaFold公司

来自Proteopedia

跳转到:航行,搜索
黛米斯·哈萨比斯(Demis Hassabis)-深思熟虑
黛米斯·哈萨比斯(Demis Hassabis)-深思熟虑
John Jumper-深思熟虑
John Jumper-深思熟虑

2020年阿尔法折叠2[1][2]系统DeepMind公司[3][4]演示了一个重大突破[5][6][7][8]。在CASP14公司,AlphaFold2在100多个竞争组中,能够更好地预测结构,包括侧链位置,如此接近随后揭示的X射线晶体结构,以至于其差异仅略大于同一分子的两个独立确定的X射线结构之间的差异。它在比赛中实现了大约三分之二的目标。AlphaFold2被誉为大幅度解决单链蛋白质结构预测问题[5][6][7][8]哥伦比亚大学(Columbia University)的穆罕默德·阿尔库拉西(Mohammed AlQuraishi)表示:“我一生中从未想过科学进步如此之快。”[5]但也要考虑“AlphaFold的欢乐与危险”[9].

2022年CASP公司15,AlphaFold2在大多数情况下继续优于所有其他方法(见理论模型).

2023年9月,John Jumper和Demis Hassabis收到了拉斯克奖革命性的蛋白质结构预测[10][11].

如果您想要蛋白质序列的AlphaFold预定结构:

目录

AlphaFold预测数据库

2023年AlphaFold数据库已扩大到2亿多座建筑。蛋白质UniProt公司现在链接到结构部分中的AlphaFold模型。有关AlphaFold数据库中有哪些蛋白质和没有哪些蛋白质的概述,请参阅包括哪些蛋白质?在AlphaFold数据库主页上的常见问题解答中。

2021年7月,DeepMind免费提供了超过300000个氨基酸序列的结构预测AlphaFold数据库[12][13][14][15]这些预测几乎包括人类蛋白质组中的所有约20000个蛋白质,其中36%的预测具有很高的可信度,另外22%的预测则具有较高的可信度[15][16]。还包括大肠杆菌、果蝇、小鼠、斑马鱼、疟疾寄生虫和结核病细菌[15]列举了这些预测的局限性[14][9]包括:

  • 无法预测蛋白质或蛋白质-DNA/RNA/配体复合物。#罗斯塔福尔德和AlphaFold都声称在预测蛋白质复合物方面取得了进展。
  • 不预测配体、辅因子、金属、离子、糖基化等(扩展到这方面的努力:参见下面的字母填充; 糖基化.)
  • 不涉及构象动力学。
  • 无法预测本质非结构化部分。
  • 不能预测折叠途径。
  • 未接受过预测结构后果的培训点突变.

然而,这些预测有许多潜在的好处[14]包括:

  • 简化X射线晶体学通过使用预测模型通过分子替换解决相问题。
  • 协助晶体学家定义领域当全长蛋白质结晶时,为了结晶结构域的边界是有问题的。
  • 帮助翻译>5000冷冻电镜之前存放在电磁数据库这不能解释为原子模型,也有助于将低分辨率EM地图解释为原子模式。

配体:AlphaFill

AlphaFold数据库通过从与预测结构类似的经验结构中“移植”配体而得到增强。结果位于AlphaFill数据库(预印本). 作者警告说

“AlphaFill模型并不意味着或不适合精确量化转移配体和蛋白质之间的相互作用(例如氢键、π-π或阳离子-π相互作用、范德瓦尔斯相互作用、疏水相互作用、卤素键)。这需要AlphaFold或AlphaFill模型在当前阶段无法提供的坐标精度,并且模型只能以定性方式进行解释。"

AlphaFold于2021年7月出版

AlphaFold于2021年7月出版[17]方法进行了相当详细的描述。源代码、经过训练的权重和推理脚本在开源许可证。结构预测需要大约一个GPU(图形处理单元)分钟,每个模型大约含有384个氨基酸。

令人印象深刻的是,AlphaFold成功预测了发表在PDB公司在AlphaFold的训练集之后[18].总体α-碳准确度的中位数为1.46º风险管理与可持续发展部覆盖率为95%。用全链α-碳RMSD值<2º预测了大多数链结构。RMSD>4℃时预测约25%。

重要的是,每个预测都有一个可靠预测预测结构准确性的置信度。

侧链的精确预测需要主链的精确预测。准确预测需要多序列比对深度>~30个序列,深度~100个序列就足够了。

免费AlphaFold服务器

如果您想要蛋白质序列的AlphaFold预定结构:

罗斯塔福尔德

同样在2021年7月,Minkyung Baek和一支大型团队David Baker小组发布了他们的罗斯塔福尔德采用三轨网络,部分基于AlphaFold启发的方法,但DeepMind尚未完全详细说明。他们报告说“CASP14的精确度接近DeepMind”[19]在2021年7月发布时,它的表现优于所有其他可用的结构预测服务器[19].

这个RoseTTAFold服务器免费提供。(打开结构预测顶部的菜单并选择提交。在表格中,一定要检查罗斯塔福尔德提交作业之前)。

AlphaFold Colab公司

谷歌提供“实验室”(Colabs)。Colab“允许任何人通过浏览器编写和执行任意python代码,特别适合机器学习、数据分析和教育”[20].

DeepMind提供了Alphafold Colab公司它使用了AlphaFold 2.0版的“略微简化”版本:“虽然在许多目标上,精确度将接近于完整的AlphaFolde系统,但由于较小的MSA和缺少模板,一小部分的精确度会大幅下降。”。AlphaFold Colab是免费使用。代码在您帐户专用的虚拟机中执行,数据存储在Google Drive上。您的计算机上没有安装任何内容;“一切都发生在谷歌Colab的云端”[21]

对于那些不熟悉Colabs的人来说,用户界面可能看起来不太熟悉,但说明清晰明了。提到“Runtime->Runafter”是指页面顶部的Runtime下拉菜单。得到结果可能需要几个小时。

ColabFold:带MMSeqs2的AlphaFold2

Sergey Ovchinnikov、Milot Mirdita和Martin Steinegger的可乐.在他们的随附出版物他们声明:

“与AlphaFold2的MSA阶段相比,MMseqs2的MSAs(多序列比对)产生了更准确的预测,同时速度快了约16。ColabFold还提供了许多高级功能,如同源和异质复杂建模,并暴露了AlphaFold2的内部结构。”

通过Colab的当前产品

工作正在进行中,除上述内容外,Colab上还提供了RoseTTAFold和AlphaFold2的其他产品。本总结指南和视频有助于选择如何分析您感兴趣的蛋白质:

-免费RoseTTAFold和AlphaFold 2 Colab笔记本指南

-ColabFold公司:A视频包括概述、一些方法的比较以及人们如何扩展它们、如何提交和解释,以及如何使用AlphaFold2 Colab的教程可用。该视频于2021年8月4日录制,由Sergey Ovchinnikov和Martin Steinegger提供,由Chris Bahl为波士顿蛋白质设计和建模俱乐部主持

2021年以来的预付款

  • RoseTTAFoldNA公司[22]在预测蛋白质和核酸复合物结构方面有了飞跃,但2023年11月还没有免费服务器。

另请参见

工具书类

  1. 高级AW、Evans R、Jumper J、Kirkpatrick J、Sifre L、Green T、Qin C、Zidek A、Nelson AWR、Bridgeland A、Penedones H、Petersen S、Simonyan K、Crossan S、Kohli P、Jones DT、Silver D、Kavukcuoglu K、Hassabis D。利用深度学习潜能改进蛋白质结构预测。自然。2020年1月;577(7792):706-710. doi:10.1038/s41586-019-1923-7。Epub 2020年1月15日。PMID:31942072数字对象标识:http://dx.doi.org/10.1038/s41586-019-1923-7
  2. AlphaFold公司在维基百科上。
  3. AlphaFold:一个50年来生物学重大挑战的解决方案,DeepMind博客,2020年11月30日。
  4. DeepMind公司在维基百科上。
  5. 5 5.1 5.2 AlphaFold2@CASP14:“感觉就像孩子离开了家。”穆罕默德·库莱希,2020年12月8日。
  6. 6 6.1 50年科学挑战的人工智能解决方案可能会“彻底改变”医学研究,CASP新闻稿,2020年11月30日。
  7. 7 7.1Callaway E.“它将改变一切”:DeepMind的人工智能在解决蛋白质结构方面取得了巨大的飞跃。自然。2020年12月;588(7837):203-204. doi:10.1038/d41586-020-03348-4。PMID:33257889数字对象标识:http://dx.doi.org/10.1038/d41586-020-03348-4
  8. 8 8.1 DeepMind和CASP14John R.Helliwell,国际晶体学联合会通讯,2020年12月4日。
  9. 9 9.1Perrakis A,Sixma TK。生物学中的人工智能革命:AlphaFold的欢乐与危险。EMBO代表2021年10月20日:e54046。doi:10.15252/embr.202154046。PMID:34668287数字对象标识:http://dx.doi.org/10.15252/embr.202154046
  10. 拉斯克革命性蛋白质结构预测奖、Laura Tran、,科学家2023年9月。
  11. 阿尔法福尔德奖(Strzyz P.Lasker Award for AlphaFold)。Nat Rev Mol细胞生物学。2023年11月;24(11):774. PMID:37752227数字对象标识:10.1038/s41580-023-00671-2
  12. 我们已经将AlphaFold预测免费提供给科学界的任何人DeepMind.com(发布日期未明确,大约2021年7月)。
  13. AlphaFold的蛋白质结构预测现在可供探索2021年7月23日,在欧洲生物信息研究所。
  14. 14 14.1 14.2 巨大的期望–AlphaFold DB的潜在影响2021年7月22日,欧洲生物信息研究所
  15. 15 15.1 15.2 DeepMind和EMBL发布了最完整的人类蛋白质3D结构预测数据库欧洲生物信息学研究所,2021年7月22日。
  16. Tunyasuvunakool K、Adler J、Wu Z、Green T、Zielinski M、Zidek A、Bridgeland A、Cowie A、Meyer C、Laydon A、Velankar S、Kleywegt GJ、Bateman A、Evans R、Pritzel A、Figurnov M、Ronneberger O、Bates R、Kohl SAA、Potapenko A、Ballard AJ、Romera-Pardes B、Nikolov S、Jain R、Clancy E、Reiman D、Petersen S、Senior AW、Kavukcuoglu K、Birney E、Kohli P,Jumper J,Hassabis D.人类蛋白质组的高精度蛋白质结构预测。自然。2021年7月22日。pii:10.1038/s41586-021-03828-1。doi:,10.1038/s41586-021-03828-1。PMID:34293799数字对象标识:http://dx.doi.org/10.1038/s41586-021-03828-1
  17. Jumper J、Evans R、Pritzel A、Green T、Figurnov M、Ronneberger O、Tunyasuvunakool K、Bates R、Zidek A、Potapenko A、Bridgeland A、Meyer C、Kohl SAA、Ballard AJ、Cowie A、Romera-Pardes B、Nikolov S、Jain R、Adler J、Back T、Petersen S、Reiman D、Clancy E、Zielnski M、Steinegger M、Pacholska M、Berghammer T、Bodenstein S、Silver D、Vinyals O、,高级AW、Kavukcuoglu K、Kohli P、Hassabis D。使用AlphaFold进行高精度蛋白质结构预测。自然。2021年7月15日。pii:10.1038/s41586-021-03819-2。doi:,10.1038/s41586-021-03819-2。PMID:34265844数字对象标识:http://dx.doi.org/10.1038/s41586-021-03819-2
  18. 培训截止日期为2018/04/30。测试集是在那时到2021/02/15年间获得的。
  19. 19 19.1Baek M、DiMaio F、Anishchenko I、DauparasJ、Ovchinnikov S、Lee GR、Wang J、Cong Q、Kinch LN、Schaeffer RD、Millan C、Park H、Adams C、Glassman CR、DeGiovanni A、Pereira JH、Rodrigues AV、van Dijk AA、Ebrecht AC、Opperman DJ、Sagmeister T、Buhlheller C、Pavkov-Keller T、Rathinaswamy MK、Dalwadi U、Yip CK、Burke JE、Garcia KC、Grishin NV、Adams-PD、,阅读RJ,Baker D。使用三轨神经网络准确预测蛋白质结构和相互作用。科学。2021年7月15日。pii:science.abj8754。doi:10.1126/science.abj8754。PMID:34282049数字对象标识:http://dx.doi.org/10.1126/science.abj8754
  20. 合作常见问题解答在谷歌。
  21. Alphafold Colab公司.
  22. Baek M,McHugh R,Anishchenko I,Jiang H,Baker D,DiMaio F。使用RoseTTAFoldNA准确预测蛋白质-核酸复合物。自然方法。2023年11月23日。PMID:37996753数字对象标识:10.1038/s41592-023-02086-5

进一步阅读

  • AlphaFold蛋白质结构预测——生物学的一个重大变化。
(EMBL-EBI高级沟通官Oana Stroe于2021年7月28日在FEBS网络)
欧洲蛋白质数据库的Sameer Velankar和Gerard Kleywegt以及EMBL欧洲生物信息研究所(EMBL-EBI)蛋白质序列资源主管Alex Bateman探索了AlphaFold数据库开辟的研究途径,并解释了该方法的局限性。


  • AlphaFold 2应用的结构生物学社区评估。
Akdel等人,2021
https://biorxiv.org/cgi/content/short/2021.09.26.461876
几个发现:
当给定正确的寡聚物状态(复合物中的拷贝数)时,AlphaFold 2通常可以预测正确的同源寡聚体结构;然而,它并不总是能够预测正确的低聚物状态先验的.
“与实验确定的结构相比,当严格考虑置信度时,AF2模型可以在不同的应用中同样有效。”


  • 用AlphaFold-Multimer预测蛋白质复合物
Evans等人,2021年
https://www.biorxiv.org/content/10.101/2021.10.04.463034
亮点:
蛋白质相互作用预测的微调Alphafold 2模型。
“训练模型的源代码和权重将很快提供。”
个人工具