摘要

AlphaFold数据库蛋白质结构数据库,https://alphafold.ebi.ac.uk网址)已经对结构生物学产生了重大影响,积累了超过2.14亿个预测的蛋白质结构,从2021年发布的最初的300k个结构扩展而来。在开创性的AlphaFold 2人工智能(AI)系统的支持下,AlphaFold DB中存档的预测已集成到PDB、UniProt、Ensembl、InterPro和MobiDB等主要数据资源中。我们的手稿详细介绍了数据归档的后续增强,涵盖了包括模型生物、全球健康蛋白质组、Swiss-Prot集成和一系列精选蛋白质数据集的连续发布。我们详细介绍了AlphaFold DB的数据访问机制,从通过FTP直接访问文件到使用谷歌云公共数据集和数据库编程访问端点的高级查询。我们还讨论了自其首次发布以来添加的改进和服务,包括对预测对齐错误查看器的增强、3D查看器的自定义选项以及AlphaFold DB搜索引擎的改进。

Lay摘要

AlphaFold蛋白质结构数据库(AlphaFold DB)是一个庞大的预测蛋白质结构数字库,有超过2.14亿个条目,自2021年首次发布以来,其规模扩大了500倍。这些结构是使用谷歌DeepMind的AlphaFold 2人工智能(AI)系统预测的。我们的新报告重点介绍了我们对此数据库所做的最新更新。我们添加了更多与全球健康相关的特定生物体和蛋白质的数据,并扩展到几乎完整的UniProt数据库,这是蛋白质序列的主要数据源。我们还通过直接下载文件或使用先进的基于云的工具,让用户更容易访问数据。最后,我们还改进了用户查看和搜索这些蛋白质结构的方式,使用户体验更顺畅、信息量更大。简言之,AlphaFold数据库一直在快速发展,变得更加人性化和强大,以支持更广泛的科学界。

介绍

在过去几年中,由于AlphaFold等新一代工具的出现,蛋白质结构预测的前景发生了重大变化(1)、RoseTTAFold(2)和OpenFold(),除其他外(4). 这些工具的开发得益于数十年来对蛋白质序列和结构的研究,并强调了开放数据和基础数据资源(如蛋白质数据库(PDB))的重要性(5)和Universal Protein Resource(UniProt)(6).

新一代预测蛋白质结构模型已经证明了显著的准确性,这可以缓解已知蛋白质序列和实验确定的蛋白质结构之间不断扩大的差距(7). 获得准确的蛋白质结构为增强对蛋白质功能的理解铺平了道路,为研究人员调节这些蛋白质或设计新蛋白质提供了必要的工具(8–10). 因此,由于准确预测的蛋白质结构的可用性,生命科学的许多领域都受到了相当大的影响。主要受影响的领域包括结构测定、基于结构的药物发现和结构生物信息学(11–13).

随着预测软件的最新突破,新的数据库,如AlphaFold蛋白质结构数据库和ESM地图集(14)已经出现。随着性能预测软件的可用性,一个相关的问题出现了:当研究人员可以在他们感兴趣的蛋白质上运行该软件时,为什么需要预测结构的数据库?

虽然许多新一代的蛋白质结构预测工具很容易让科学界使用任意输入的蛋白质序列,但对于不太熟悉使用科学软件的研究人员来说,存在着一个很大的障碍。此外,在大规模生物信息学分析(如比较分析或功能分析)中,预测大量蛋白质结构的必要性在计算上变得昂贵和多余,导致了显著的碳足迹。即使是单蛋白预测,与潜在的数小时计算时间相比,查找预先生成的结构需要几秒钟的时间。缺少预先生成的结构也阻碍了将这些有价值的预测集成到UniProt等核心数据资源中(6)、InterPro(15)、合奏(16)或PDBe知识库(17).

本文介绍了AlphaFold蛋白质结构数据库的数据更新和功能改进,该数据库是EMBL-EBI和谷歌DeepMind合作项目,自2021年7月首次启动以来。我们概述了序列空间的覆盖率是如何从最初的发布开始提高的,结构数量从大约30万增加到超过2.14亿(图1). 此外,我们还深入了解了元数据的更改和添加以及置信度度量的格式,如预测对齐错误(PAE)。我们将讨论通过文件传输协议(FTP)、应用程序编程接口(API)和批量下载选项访问数据和可用数据类型的更新。最后,我们概述了AlphaFold DB网站上引入的所有改进和新功能,并概述了未来可能的发展方向。

AlphaFold DB的扩建。AlphaFold蛋白质结构数据库通过连续发布增加了大小。截至2023年9月,它记录了超过2.14亿个预测的蛋白质结构。
图1。

AlphaFold DB的扩建。AlphaFold蛋白质结构数据库通过连续发布增加了大小。截至2023年9月,它记录了超过2.14亿个预测的蛋白质结构。

实施

更新AlphaFold数据库是一个多方面的过程,包括数据管理的多个阶段。这一过程包括生成大量蛋白质结构预测,以结构化和可搜索的格式组织这些预测,并确保用户直接高效地访问数据。这一过程的最终结果是一种全面的、以用户为导向的体验,促进了生命科学各个领域的前沿研究。

数据生成

AlphaFold数据库的数据生成过程由Google DeepMind执行,所有预测都以PDB、mmCIF和binaryCIF格式存储,以及JSON格式的相应元数据。生成的mmCIF文件遵循modelCIF格式(18).

AlphaFold对其置信度进行了全面估计,称为pLDDT,范围从0到100,表示该工具在lDDT-Cα度量上的预测分数(19). 残差pLDDT分数存储在PDB文件的B因子字段中,并位于“_ma_qa_metric_local”mmCIF文件中的类别。pLDDT大于90的区域通常以高精度建模,使其适合于高精度相关应用,如表征结合位点。pLDDT在70到90之间的人通常建模良好,代表了可靠的主干预测。另一方面,pLDDT在50到70之间的地区置信度较低,应谨慎使用。最后,pLDDT得分低于50的区域在3D视图中通常显示出意大利面条状外观,表明可能存在无序区域。具有许多相互联系的结构化域通常比扩展链接器或孤立的长螺旋更可靠。非物理键的长度和冲突通常不会出现在自信的结构化区域中,任何具有其中几个的区域都应该忽略不计。无论pLDDT的绝对分数是多少,PDB和mmCIF文件都为所有区域提供坐标,用户有责任根据提供的指导谨慎解释模型。

除了预测的原子坐标和pLDDT分数外,AlphaFold还生成“预测对齐误差”(PAE)输出,表示残数对相对位置之间的预测误差。PAE是一种衡量蛋白质较大结构单元(如结构域)相对位置的置信度。PAE可以通过查看不同结构域之间的残基对值来评估蛋白质结构域的空间位置。所有残留物对的带有PAE的原始数据可以作为JSON文件下载。然而,解析JSON文件需要使用Python或其他编程语言进行分析或可视化。

2022年,JSON文件格式更新为更紧凑的表示形式。它现在由一个'predicted_aligned_error'字段而不是1D“距离”早期表示中的字段和'最大预测对齐错误'字段,指示PAE的最大可能值。

数据归档

AlphaFold DB的数据存档始于2021年7月的首次发布,包含20个模型生物蛋白质组的36万多个结构,其序列源自UniProt 2021_02版中提供的“每个基因一个序列”参考蛋白质组。2021年12月,UniProt中的大多数审查序列,即Swiss-Prot数据集,都是从UniProt 2021_04版本中合并而来的。2022年1月,利用UniProt 2021_04版“每个基因一个序列”参考蛋白质组中的序列,添加了来自世界卫生组织优先列表的与全球健康相关的蛋白质组。到2022年7月,UniProt 2021_04版本中的大部分剩余序列都被包括在内,在AFDB下载页面上有一个额外的TAR文件、EMBL-EBI的FTP和谷歌云数据集,其中包含MANE select中的预测(20).

2022年11月的更新修正了受7月份发布的临时数字错误影响的结构。该错误导致了数据库中总结构预测的约4%的低精度预测,pLDDT相应较低。作为此次更新的一部分,更新了受影响结构的坐标(旧的坐标文件仍然可以作为v3文件访问),并对其余结构的mmCIF文件进行了少量元数据调整。我们在我们的变更日志中记录了每一次数据版本更新https://ftp.ebi.ac.uk/pub/databases/alphafold/CHANGELOG.txt.

截至2023年9月,EMBL-EBI的FTP区域包含48种生物体蛋白质组的TAR文件,包括模型生物体和WHO感兴趣的病原体(补充表S1). 完整的数据集存储在谷歌云平台(GCP)上,并通过文件访问API进行访问。元数据使用Apache-Solr支持搜索API进行索引,以促进数据的可访问性和可搜索性。

该数据库提供了对超过2.14亿个预测结构的访问,尽管与UniProt相比,由于AlphaFold数据库中的数据发布频率较低,一些序列可能已经过时。UniProt序列的预测是单个模型运行的输出。相反,Swiss-Prot/蛋白质组条目代表了使用不同随机种子训练的五个模型的运行中最有信心的预测。以下序列未包含在数据库中:(i)少于16个氨基酸的序列,或(ii)SwissProt或蛋白质组序列>2700,其他UniProt序列为1280,或(iii)包含非标准氨基酸的序列或(iv)不在UniProt“每个基因一个序列”FASTA文件中,或(v)病毒蛋白。这些限制正在讨论中。

数据访问

我们通过四种不同的渠道(FTP、谷歌云公共数据、API和直接从AlphaFold DB网页)从AlphaFold DB访问预测的结构及其相关的置信度指标。

AlphaFold数据库的一个子集可以通过EMBL-EBI的公共FTP区域访问,网址为http://ftp.ebi.ac.uk/pub/databases/alphafold/FTP区域包含一个全面的README.txt文件,其中包含所有可用文件的详细信息。预测根据版本进行存档,所有版本(包括最新版本)都可以从FTP区域内的文件夹中访问。例如,最新存档的文件可通过http://ftp.ebi.ac.uk/pub/databases/alphafold/latest/此外,还提供了补充文件,例如用于所有预测的FASTA格式的序列、一个CSV文件,其中列出了具有预测结构的UniProt加入,以及一个CHANGELOG文件,其中突出显示了版本控制,以帮助用户。值得注意的是,PAE数据无法从EMBL-EBI公共FTP获得。

根据CC-BY-4.0许可证,可以从谷歌云公共数据集访问包含所有预测的完整数据集。此数据集大小约为23 TiB,可在以下Google云存储桶中获得:gs://public-datasets-deepmind-alphafold-v4。我们建议大多数用户只下载与其特定用例相关的文件子集,以优化资源。然而,如果本地处理需要完整的数据集,就像学术高性能计算中心的情况一样,可以使用1 Gbps的互联网连接在大约2.5天内下载。重要的是,下载需要一个谷歌帐户。

Alphafold DB API为开发人员以编程方式访问与所有存档Alphafold预测相关的元数据提供了一种有效的方法。API有助于检索与AlphaFold预测的蛋白质结构相关的信息,例如模型文件的URL(mmCIF、binaryCIF和PDB)、模型质量度量以及其他有价值的信息。所有可用的API端点都依赖于UniProt访问,可以在以下位置找到交互式API文档https://www.alphafold.ebi.ac.uk/api-docs网站.

最后,可以通过AlphaFold数据库网站直接访问结构预测。该界面提供了直观的搜索功能,可以快速查找和下载蛋白质结构预测及其相应的置信度指标。我们致力于增强用户体验和消除歧义,自最初推出以来,我们的用户界面(UI)已有了几项改进。一个显著的进步是搜索结果的优化UI,确保了直观和用户友好的体验(图2).

改进搜索结果UI。改进的搜索UI包括更多基于蛋白质结构基本序列的过滤选项,以及更容易访问最流行的生物体。
图2。

改进搜索结果UI。改进后的搜索UI包括更多基于蛋白质结构基本序列的过滤选项,以及更容易访问最流行的生物体。

我们添加了过滤功能,为用户提供更为定制的浏览体验。用户现在可以根据基础序列的状态筛选搜索结果。这一功能允许用户将他们的结果缩小到仅审查(Swiss Prot)或未审查(TrEMBL)UniProt材料,使他们能够专注于从更高质量、精心策划的蛋白质序列中获得的预测结构。

另一个新选项允许用户根据蛋白质是否是UniProt参考蛋白质组数据集的一部分来筛选结果。该过滤器提供了序列质量置信度的额外指标。认识到特定生物的受欢迎程度,我们还创建了一个独特的列表,列出了搜索频率最高的物种,允许用户快速找到与流行物种相关的结构,如人类、老鼠或大肠杆菌,增强我们平台的整体用户友好性和效率。

自AlphaFold DB发布以来,为了响应用户社区的频繁请求,我们在实现基于序列的相似性搜索功能方面取得了重大进展。我们已经整合了基本本地对齐搜索工具(BLAST)(21)进入我们的谷歌云平台基础设施以实现这一点。这种实现使我们的系统能够快速地将用户提供的蛋白质序列与我们的数据库进行比较。我们开发了一个API来向BLAST服务发送用户蛋白质序列并检索响应。为了将这些新的搜索结果集成到我们的内部搜索引擎中,我们在BioSolr插件中构建了XJoin功能(https://github.com/lansearch/BioSolr)进一步扩展,以满足我们的具体要求。此功能可确保BLAST搜索结果的无缝集成,并有助于支持传统过滤选项。

我们提供了直观的用户界面,以清晰全面地显示序列搜索结果(图). 专用的结果页面列出了我们预测结构的所有类似蛋白质,并提供了排序和过滤功能,增强了有效浏览结果的能力。

序列相似性搜索结果。我们添加了对AlphaFold数据库中执行序列相似性搜索的支持。搜索结果页面显示预测结构的列表,其序列与用户的相似。
图3。

序列相似性搜索结果。我们添加了对AlphaFold数据库中执行序列相似性搜索的支持。搜索结果页面显示预测结构的列表,其序列与用户的相似。

AlphaFold DB预测的蛋白质结构超过2.14亿个,这对数据分析提出了巨大挑战。为了应对这一挑战,Steinegger等人最近推出了Foldseek聚类,这是一种最先进的基于结构对齐的聚类算法,专为庞大的数据集设计(22). 他们将这种新方法应用于AlphaFold数据库档案,使衍生结构相似性集群可用于研究社区。我们集成了这些结构相似性集群,并继续在AlphaFold数据库中部署基于结构的相似性搜索。作为我们分阶段释放方法初始推出的一部分,表格已被纳入AFDB预测页面,列出了AlphaFold预测与感兴趣蛋白质来自相同相似簇的预测(图4). 聚类过程分为两个部分:MMseqs2工具首先从AlphaFold DB中聚类2.14亿UniProtKB蛋白质序列,根据定义的序列标准将其缩减至5200万个簇。每个簇的代表是具有峰值pLDDT评分的蛋白质。然后,通过Foldseek对这组数据进行二次聚类,使用特定的结构描述,得到1880万个聚类。在剔除被识别为片段的序列后,我们最终确定了230万个稳健的簇,每个簇至少包含一对结构。我们可以从聚类过程生成的两个主要类别中访问AlphaFold预测:AFDB/Foldseek和AFDB50/MMseqs。这些结果也可以通过AlphaFold DB的公共API访问。

结构相似性簇成员。使用来自AFDB Clusters的数据,我们显示AlphaFold预测的列表,其结构与感兴趣的蛋白质相似。
图4。

结构相似性簇成员。使用来自AFDB Clusters的数据,我们显示AlphaFold预测的列表,其结构与感兴趣的蛋白质相似。

预测对齐误差(PAE)作为评估AlphaFold预测的蛋白质结构的置信度指标发挥着关键作用。自AlphaFold DB首次推出以来,我们在预测页面上集成了交互式2D热图可视化。该可视化工具允许用户关注特定区域,并评估AlphaFold对区域相对定位的预测的可信度。

认识到PAE在为用户提供蛋白质结构域相对方向见解方面的重要性,我们已采取措施进一步增强此功能。我们改进了非连续区域的可视化以及PAE查看器和3D分子图形查看器Mol*之间的交互(23)(图5). 现在,当用户在PAE热图的非对角线部分选择区域时,3D视图中的相应区域将高亮显示。这一改进不仅增强了PAE数据的可访问性,而且使用户能够对预测结构的整体构造做出明智的解释。

改进了对高亮显示非连续区域的支持。新版本的交互式PAE查看器在评估相对位置的可信度时,更容易区分突出显示的非连续区域,如AlphaFold DB登录所示https://alphafold.ebi.ac.uk/entry/Q7RTU9。
图5。

改进了对高亮显示非连续区域的支持。新版本的交互式PAE查看器在评估相对位置的可信度时,更容易区分突出显示的非连续区域,如AlphaFold DB登录所示https://alphafold.ebi.ac.uk/entry/Q7RTU9.

除了改进Mol*和PAE查看器之间的交互之外,我们还进一步扩展了3D分子查看器的功能,以满足用户反馈的更高级分析。现在,用户可以选择单个原子、残基和完整的链,有助于对分子结构进行更全面、更集中的探索。该功能的一个实际应用是测量残基对之间的距离,这是深入研究蛋白质结构的一种常见行为(图6).

改进了Mol*的定制。Mol*中增强的自定义选项允许用户执行常用操作,例如测量距离或更改渲染样式。
图6。

改进了Mol*的定制。Mol*中增强的自定义选项允许用户执行常用操作,例如测量距离或更改渲染样式。

结论与展望

访问AlphaFold蛋白质结构数据库等数据资源中的数亿预测蛋白质结构,标志着结构生物学的重大飞跃,并影响了生命科学的各个领域。通过将预测结构无缝集成到几个核心数据资源中,包括PDBe-KB,进一步增强了预测结构的影响(17)、UniProt(6)、合奏(16),InterPro公司(15),基因卡(24)和MobiDB(25)等等。然而,虽然该领域取得了长足进步,但我们致力于解决的数据表示和功能方面存在明显差距。

数据增强有许多有趣的前沿领域,包括为异构体添加结构和为多元预测蛋白质结构添加目标数据集。在这些预期的数据更新的同时,我们也在努力用领域注释丰富预测的结构(26),通过AlphaFill整合小分子(27)引用交叉链接数据,并为片段设计专用页面。这些计划中的改进基于我们与科学界的持续互动,科学界的反馈和见解突出了可以做出最具影响力的改变的领域。我们邀请所有用户通过AlphaFold DB帮助台分享他们的建议(afdbhelp@ebi.ac.uk).

虽然数以百万计的预测蛋白质结构的可用性预示着对分子生物学的宝贵见解,但对于许多可能不熟悉处理大分子结构数据并且可能没有充分理解预测结构固有的优势和局限性的研究人员来说,这可能是一个障碍。为了应对这些挑战并使蛋白质结构数据更容易访问,我们现在专注于提供一个综合培训平台,使更广泛的科学界能够更有效地使用结构数据。

可以说,我们已经进入了结构生物学的一个新时代,丰富的预测蛋白质结构数据使研究人员能够探索一系列前所未有的生物学问题。作为AlphaFold DB的管理者,我们致力于加强其可访问性,希望扩大其对科学和社会的变革性影响。

数据可用性

48种模式生物和病原体的TAR文件版本和元数据文件可从EMBL-EBI的公共FTP区域获取,网址为http://ftp.ebi.ac.uk/pub/databases/alphafold/。AlphaFold DB的公共API端点的文档可从以下网址获得:https://www.alphafold.ebi.ac.uk/api-docs网站。我们的下载页面提供了访问所有谷歌云公共数据集数据的指南https://www.alphafold.ebi.ac.uk/下载.

补充数据

补充数据可从NAR Online获取。

致谢

我们感谢那些一直致力于沉积结构、丰富结构生物学基础和主要数据库(尤其是UniProt、MGnify和PDB)的研究人员,他们提供了训练结构预测工具所必需的开放数据。最后,我们感谢PDBe和谷歌DeepMind团队对新功能的严格评估;他们的集体贡献对我们的工作非常宝贵。

基金

谷歌DeepMind为AlphaFold蛋白质结构数据库提供资金。开放访问费用的资金来源:谷歌DeepMind基金。M.S.感谢韩国国家研究基金会(2019R1A6A1A10073437、2020M3A9G7103933、2021R1C102065和2021M3A9I4021220)、三星DS研究基金和首尔国立大学创新研究人员计划的支持。M.M.感谢韩国国家研究基金会的支持(授予RS-2023-00250470)。

利益冲突声明。未声明。

工具书类

1

跳跃者
J。
,
埃文斯
R。
,
普里策尔
答:。
,
绿色
T。
,
菲古尔诺夫
M。
,
龙内贝格尔
O。
,
Tunyasuvunakool公司
英国。
,
贝茨
R。
,
希德克
答:。
,
波塔片科
答:。
等。
AlphaFold高精度蛋白质结构预测
.
自然
.
2021
;
596
:
583
589
.

2

贝克
M。
,
迪迈奥
F、。
,
阿尼什琴科
一、。
,
Dauparas公司
J。
,
夫钦尼科夫
美国。
,
G.R.公司。
,
J。
,
问:。
,
扭结
法律公告。
,
谢弗
钢筋混凝土。
等。
使用三轨神经网络精确预测蛋白质结构和相互作用
.
科学类
.
2021
;
373
:
871
876
.

三。

阿赫德里茨
G.公司。
,
布瓦塔
N。
,
弗洛里斯坦语
C。
,
卡迪安
美国。
,
问:。
,
格雷克
西。
,
奥唐纳
T.J.公司。
,
贝伦贝格
D。
,
菲斯克
一、。
,
扎尼切利
N。
等。
OpenFold:对AlphaFold2进行再培训,对其学习机制和泛化能力产生了新的见解生物信息学
.
2022
;
bioRxiv doi:
2022年11月22日,预印本:未经同行评审
https://doi.org/10.101/2022.11.20.517210.

4.

Kryshtafovych公司
答:。
,
施韦德
T。
,
顶部(Topf)
M。
,
菲德尔斯
英国。
,
脱毛
J。
蛋白质结构预测(CASP)方法的关键评估——第十四轮
.
蛋白质
.
2021
;
89
:
1607
1617
.

5

维兰卡
美国。
,
白肋烟
S.K.公司。
,
库里苏
G.公司。
,
Hoch公司
J.C.公司。
,
马克利
J·L。
蛋白质数据库档案
.
方法分子生物学。新泽西州克利夫顿
.
2021
;
2305
:
21
.

6

U.P.财团
UniProt:2023年的通用蛋白质知识库
.
核酸研究。
2023
;
51
:
D523型
D531型
.

7

瓦拉迪
M。
,
博尔丁
N。
,
奥伦戈
C。
,
维兰卡
美国。
新一代基于深度学习的蛋白质结构预测工具带来的机遇和挑战
.
货币。操作。结构。生物。
2023
;
79
:
102543
.

8

博尔丁
N。
,
达拉戈
C。
,
海因辛格
M。
,
基姆
美国。
,
利特曼
M。
,
劳尔
C。
,
施泰因格尔
M。
,
罗斯特
B。
,
奥伦戈
C。
新的机器学习方法彻底改变了蛋白质知识
.
生物化学趋势。科学。
2023
;
48
:
345
359
.

9

摩萨拉甘蒂
美国。
,
奥巴斯卡-科辛斯卡
答:。
,
西格尔
M。
,
谷口
R。
,
图罗·奥娃
B。
,
季摩礼
首席执行官。
,
布扎克
英国。
,
施密特
离岸价格。
,
马尔乔塔
E。
,
马克穆尔
麻省理工学院。
等。
基于人工智能的结构预测支持对人类核孔进行综合结构分析
.
科学类
.
2022
;
376
:
eabm9506型
.

10

政府
首席执行官。
,
B。
,
卡卡扎德
H。
,
罗塞
美国。
,
科雷亚
B.E公司。
利用AlphaFold结构预测网络反演从头设计蛋白质
.
蛋白质科学。出版物。蛋白质Soc。
2023
;
32
:
电子4653
.

11

博尔丁
N。
,
Sillitoe公司
一、。
,
纳拉帕雷迪
五、。
,
劳尔
C。
,
S.D.公司。
,
瓦曼
副总裁。
,
N。
,
海因辛格
M。
,
利特曼
M。
,
基姆
美国。
等。
AlphaFold2揭示了21种模式生物在蛋白质结构空间中的共性和新颖性
.
Commun公司。生物。
2023
;
6
:
160
.

12

丰塔纳
第页。
,
年。
,
圆周率
十、。
,
用钳子钳起
A.B.公司。
,
赫克塞尔
C.W.公司。
,
L。
,
T.-M.公司。
,
巴斯塔曼特
C。
,
H。
用冷冻电镜和AlphaFold联用技术研究核孔复合体的细胞质环结构
.
科学类
.
2022
;
376
:
eabm9326
.

13.

努西诺夫
R。
,
M。
,
线路接口单元
年。
,
H。
AlphaFold、变构和正构药物的发现:前进的道路
.
药物研发。今天
.
2023
;
28
:
103551
.

14

Z.公司。
,
阿金
H。
,
R。
,
你好
B。
,
Z.公司。
,
西。
,
斯梅塔宁
N。
,
Verkuil公司
R。
,
卡贝利
O。
,
什穆埃利
年。
等。
基于语言模型的蛋白质原子级结构进化预测
.
2022
;
bioRxiv doi:
2022年10月31日,预印本:未经同行审查
https://doi.org/10.1101/2022.07..20.500902.

15.

Paysan-Lafosse公司
T。
,
布鲁姆
M。
,
丘古兰斯基
美国。
,
格雷戈
T。
,
别针(Pinto)
B.L.公司。
,
萨拉查
总会计师。
,
Bileschi公司
M.L.公司。
,
博克
第页。
,
答:。
,
科尔维尔
L。
等。
2022年的InterPro
.
核酸研究。
2023
;
51
:
D418号
D427号
.

16

坎宁安
F、。
,
艾伦
J.E.公司。
,
艾伦
J。
,
阿尔瓦雷斯·贾雷塔
J。
,
Amode公司
M.R.公司。
,
亚美尼亚语
国际货币基金组织。
,
奥斯汀-奥里莫洛耶
O。
,
阿佐夫
美国政府。
,
巴恩斯
一、。
,
贝内特
R。
等。
合奏2022
.
核酸研究。
2022
;
50
:
D988型
D995型
.

17

联合体
P.D.B.-K.B公司。
PDBe-KB:合作定义结构数据的生物背景
.
核酸研究。
2022
;
50
:
D534型
D542型
.

18

瓦拉特
B。
,
陶列洛
G.公司。
,
比纳特
美国。
,
哈斯
J。
,
韦伯
B.M.公司。
,
希德克
答:。
,
西。
,
佩萨赫
E。
,
皮尔
D.W.公司。
,
阿尼桑卡
一、。
等。
ModelCIF:计算结构模型PDBx/mmCIF数据表示的扩展
.
分子生物学杂志。
2023
;
435
:
168021
.

19

玛莉安妮
五、。
,
比亚西尼
M。
,
巴尔巴托
答:。
,
施韦德
T。
lDDT:使用距离差测试比较蛋白质结构和模型的局部无重叠分数
.
生物信息学
.
2013
;
29
:
2722
2728
.

20

莫拉莱斯
J。
,
Pujar公司
美国。
,
洛夫兰
J.E.公司。
,
阿斯塔欣
答:。
,
贝内特
R。
,
贝里
答:。
,
考克斯
E。
,
戴维森
C。
,
埃尔莫拉耶娃
O。
,
法雷尔
客户经理。
等。
用于临床基因组学和研究的NCBI和EMBL-EBI联合转录集
.
自然
.
2022
;
604
:
310
315
.

21

卡马乔
C。
,
库卢里斯
G.公司。
,
阿瓦吉安
五、。
,
妈妈
N。
,
帕帕佐普洛斯
J。
,
比勒
英国。
,
马登
T.L.公司。
BLAST+:体系结构和应用程序
.
BMC生物信息。
2009
;
10
:
421
.

22

巴里奥·埃尔南德斯
一、。
,
Yeo(Yeo)
J。
,
贾内斯
J。
,
米尔迪塔
M。
,
吉尔克里斯特
C.L.M.公司。
,
魏因
T。
,
瓦拉迪
M。
,
维兰卡
美国。
,
贝尔特拉奥
第页。
,
施泰因格尔
M。
已知蛋白质宇宙尺度上的聚类预测结构
.
自然
.
2023
;
622
:
637
645
.

23

泽纳尔
D。
,
比特里希
美国。
,
德什潘德
M。
,
斯沃博多娃
R。
,
拜尔考
英国。
,
巴兹吉尔
五、。
,
维兰卡
美国。
,
白肋烟
S.K.公司。
,
科恰
J。
,
玫瑰
美国科学院。
Mol*Viewer:用于大型生物分子结构三维可视化和分析的现代网络应用程序
.
核酸研究。
2021
;
49
:
W431型
W437号机组
.

24

施特尔策
G.公司。
,
罗森
N。
,
普拉斯克斯
一、。
,
齐默尔曼
美国。
,
特威克
M。
,
Fishilevich公司
美国。
,
斯坦因
T.I.公司。
,
面条
R。
,
谎言
一、。
,
马佐尔
年。
等。
GeneCards套件:从基因数据挖掘到疾病基因组序列分析
.
货币。协议。生物信息。
2016
;
54
:
1.30.1
1.30.33
.

25

皮奥韦桑
D。
,
内奇
M。
,
埃斯科韦多
N。
,
蒙松
上午。
,
哈托斯
答:。
,
米切蒂奇
一、。
,
夸利亚
F、。
,
圣骑士
L。
,
斋月
第页。
,
多斯泰尼
Z.公司。
等。
MobiDB:2021年内在无序蛋白质
.
核酸研究。
2021
;
49
:
D361号
D367号
.

26

威尔斯
J。
,
霍金斯胡克
答:。
,
博尔丁
N。
,
佩奇
B。
,
奥伦戈
C。
Chainsaw:基于完全卷积神经网络的蛋白质结构域分割分子生物学
.
2023
;
bioRxiv doi:
2023年7月19日,预印本:未经同行审查
https://doi.org/10.1101/20230.07.19.549732.

27.

海克尔曼
M.L.公司。
,
德弗里斯
一、。
,
尤斯登
钢筋混凝土。
,
佩拉基斯
答:。
AlphaFill:用配体和辅因子丰富AlphaFold模型
.
自然方法
.
2023
;
20
:
205
213
.

这是一篇根据知识共享署名许可条款发布的开放存取文章(https://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。

补充数据

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。