摘要

InterPro数据库(https://www.ebi.ac.uk/interpro网站/)提供蛋白质序列到家族的综合分类,并识别功能重要的结构域和保守位点。在这里,我们报告了InterPro(90.0版)及其相关软件的最新发展,包括数据内容和网站的更新。这些开发扩展和丰富了InterPro提供的信息,并提供了更方便用户的数据访问。此外,由于Pfam网站将于2022年底退役,我们还致力于将Pfam的网站功能添加到InterPro网站。我们还表明,InterPro的序列覆盖率与UniProtKB的增长保持同步。此外,我们还报道了纸牌游戏的发展,作为吸引非科学界参与的一种方法。最后,我们讨论了使用人工智能进行蛋白质结构预测所带来的好处和挑战。

简介

基因组技术的进步以及测序成本的大幅降低使科学界能够以前所未有的规模生成新的测序数据。为了对科学界有用,需要对这数亿个序列进行分析和表征,这往往是一个问题,因为分析这些序列所需的计算时间呈指数级增长。为了应对这一挑战,开发了几种自动序列分析方法,通过传递信息(通常来自实验特征序列)来注释蛋白质家族、结构域和功能位点,使用预测诊断模型(隐马尔可夫模型、模式、轮廓或指纹)对非特征化序列进行识别,称为特征码。已经开发了许多蛋白质特征数据库,每个数据库都有自己感兴趣的领域(例如,蛋白质超家族、功能和结构域、同源群)。

InterPro将13个蛋白质特征数据库合并为一个中心资源:CATH-Gene3D(1),保护域数据库(CDD)(2)、HAMAP()、PANTHER(4)、Pfam(5)、PIRSF(6),打印(7)、PROSITE模式(8),PROSITE配置文件(8),智能(9)结构-功能链接数据库(SFLD)(10),超级家族(11)和TIGRFAM(12). 总的来说,成员数据库提供了互补水平的蛋白质注释,使InterPro成为世界上关于蛋白质家族、结构域和功能位点最全面的资源。InterPro提供了来自其他资源和工具的注释,以补充成员数据库注释。这些资源包括MobiDB-lite(13)对于无序区域,SignalP(14)和Phobius(15)对于信号肽区域,TMHMM(16)用于跨膜区域,线圈(17)用于线圈区域和AntiFam(18)假蛋白。

当来自两个或多个成员数据库的签名代表同一生物实体时,成员数据库签名被集成到一个InterPro条目中,从而减少冗余。InterPro条目用唯一名称、简称和InterPro登录号、描述性摘要和基因本体(GO)术语进行注释(19)可以一致地分配给与该条目匹配的所有蛋白质。还指定了一个条目类型(家族、结构域、重复序列、位点或同源超家族)。新创建的InterPro条目在向公众发布之前,由馆长仔细检查。

结果

内容更新

成员数据库更新

与UniProtKB一样,InterPro的发布周期为8周。每个InterPro版本都包含通过集成成员数据库签名创建的新条目,并且可能包含一个或多个成员数据库更新。自我们之前于2020年发布InterPro 81.0以来(20)共有9个InterPro版本,集成了10个成员数据库更新:CDD(3.18)、CATH-Gene3D(4.3)、HAMAP(2020_05,2021_04)、PANTHER(15.0)、Pfam(34.0,35.0)、PROSITE Patterns(2021_01,2022_01)和PROSITE Profiles(2021_ 01,2022_01)。在过去2年中,1558个成员数据库签名已被集成到现有的InterPro条目中,3315个成员为3280个新InterPro条目的创建做出了贡献。

InterPro 90.0版包含基于53 784个集成成员数据库签名的40 597个条目。因此,UniProtKB中序列的InterPro覆盖率(即具有一个或多个InterPro注释的蛋白质比例)从81.3%(InterPro版本81.0)增加到82.0%(InterPro版90.0,见表1). 虽然0.8%的增长可能看起来很小,但我们应该考虑到UniProtKB在同一时期大幅增长(从~1.89亿序列到~2.27亿序列)。因此,InterPro覆盖范围的小幅增加代表了约3200万个额外序列,其中至少有一个InterPro注释。我们之前报告称,UniProt档案(UniParc)中80.3%的序列由InterPro注释(20). 在过去两年中,这一覆盖率略有下降,降至79.9%。

表1。

InterPro条目覆盖UniProtKB和UniParc(蛋白质序列的非冗余存档)(版本90.0)

蛋白质序列数据库序列条目数与InterPro具有一个或多个匹配项的序列条目数
UniProtKB/已审查568 002549 236 (96.7%)
UniProtKB/未查看226 771 949185 887 710 (82.0%)
UniProtKB(总计)227 339 951186 436 946 (82.0%)
Uniparc公司517 375 807413 193 274 (79.9%)
蛋白质序列数据库序列条目数与InterPro具有一个或多个匹配项的序列条目数
UniProtKB/已审查568 002549 236 (96.7%)
UniProtKB/未查看226 771 949185 887 710 (82.0%)
UniProtKB(总计)227 339 951186 436 946 (82.0%)
Uniparc公司517 375 807413 193 274 (79.9%)
表1。

InterPro条目覆盖UniProtKB和UniParc(蛋白质序列的非冗余存档)(版本90.0)

蛋白质序列数据库序列条目数与InterPro具有一个或多个匹配项的序列条目数
UniProtKB/已审查568 002549 236 (96.7%)
UniProtKB/未查看226 771 949185 887 710 (82.0%)
UniProtKB(总计)227 339 951186 436 946 (82.0%)
Uniparc公司517 375 807413 193 274 (79.9%)
蛋白质序列数据库序列条目数与InterPro有一个或多个匹配项的序列条目数
UniProtKB/已审核568 002549 236 (96.7%)
UniProtKB/未查看226 771 949185 887 710 (82.0%)
UniProtKB(总计)227 339 951186 436 946 (82.0%)
Uniparc公司517 375 807413 193 274 (79.9%)

InterPro定期合并成员数据库更新,这使我们能够更新InterPro条目,并提供新的集成签名。然而,更新成员数据库仍然是一项挑战,尤其是当它涉及大量数据更改时,总体集成数据往往隐藏了大量管理工作。每个成员数据库集成到InterPro中的成员数据库签名百分比如表所示2.

表2。

集成到InterPro版本90.0中的成员数据库签名的发布版本和数量

成员数据库发布编号签名总数集成签名
CATH-Gene3D4.3.066312712 (40.9%)
客户尽职调查3.18162123817 (23.5%)
HAMAP公司2021_0423832379 (99.8%)
黑豹15139 69110 584 (7.6%)
Pfam公司3519 63219 070 (97.1%)
PIRSF公司3.1032853236 (98.5%)
打印4221061944 (92.3%)
PROSITE模式2022_0113111283 (97.9%)
PROSITE配置文件2022_0113261258 (94.2%)
SFLD公司4303158 (52.1%)
智能7.113121267 (96.6%)
超级家族1.7520191642 (81.3%)
TIGRFAM1544884434 (98.8%)
成员数据库发布编号签名总数集成签名
CATH-Gene3D4.3.066312712 (40.9%)
客户尽职调查3.18162123817 (23.5%)
HAMAP公司2021_0423832379 (99.8%)
黑豹15139 69110 584 (7.6%)
Pfam公司3519 63219 070 (97.1%)
PIRSF公司3.1032853236 (98.5%)
打印4221061944 (92.3%)
PROSITE模式2022_0113111283 (97.9%)
PROSITE配置文件2022_0113261258 (94.2%)
SFLD公司4303158 (52.1%)
智能7.113121267 (96.6%)
超家族1.7520191642 (81.3%)
TIGRFAM1544884434 (98.8%)
表2。

集成到InterPro版本90.0中的成员数据库签名的发布版本和数量

成员数据库发布编号签名总数集成签名
CATH-Gene3D4.3.066312712 (40.9%)
客户尽职调查3.18162123817 (23.5%)
HAMAP公司2021_0423832379 (99.8%)
黑豹15139 69110 584 (7.6%)
Pfam公司3519 63219 070 (97.1%)
PIRSF公司3.1032853236 (98.5%)
打印4221061944 (92.3%)
PROSITE模式2022_0113111283 (97.9%)
PROSITE配置文件2022_0113261258 (94.2%)
SFLD公司4303158 (52.1%)
智能7.113121267 (96.6%)
超级家族1.7520191642 (81.3%)
TIGRFAM1544884434 (98.8%)
成员数据库发布编号签名总数集成签名
CATH-Gene3D4.3.066312712 (40.9%)
客户尽职调查3.18162123817 (23.5%)
HAMAP公司2021_0423832379 (99.8%)
黑豹15139 69110 584 (7.6%)
Pfam公司3519 63219 070 (97.1%)
PIRSF公司3.1032853236 (98.5%)
打印4221061944 (92.3%)
PROSITE模式2022_0113111283 (97.9%)
PROSITE配置文件2022_0113261258 (94.2%)
SFLD公司4303158 (52.1%)
智能7.113121267 (96.6%)
超级家族1.7520191642 (81.3%)
TIGRFAM1544884434 (98.8%)

PANTHER是一种资源,用于对生命各个领域的蛋白质编码基因进行进化和功能分类。InterPro 91.0版将包括PANTHER数据库从15.0版更新到17.0版。自PANTHER 15.0版发布以来,PANTHER提供了第二种比HMM亚家族更精确的序列分类方法:使用TreeGrafter工具将其放置在系统发育家谱中(21). 这种新的实现方式已被证明比旧的亚家族HMM评分方法更准确,处理速度快五倍。

从历史上看,PANTHER家族和HMM亚家族都被整合在InterPro的条目中,但PANTHER亚家族的更新对InterPro策展人来说一直是一个挑战,因为它总是会给签名带来很多变化。为了提高稳定性和更新效率,我们决定今后只将PANTHER家族的签名集成到InterPro条目中。然而,从树移植位置派生的PANTHER亚家族注释仍将显示在蛋白质序列查看器中的匹配列表中,并且可以通过PANTHER家族页面访问完整的亚家族列表。

2018年,TIGRFAM迁移至国家生物技术信息中心(NCBI),作为现在称为NCBIFAM的更大集合的一部分,该中心将继续进行更新(12). NCBIFAM目前处于第10版(https://ftp.ncbi.nlm.nih.gov/hmm/10.0/). NCBIFAM包括2300多个附加模型,尚未添加到InterPro中。其中包括600多个模型,用于准确识别对抗生素和其他抗菌剂产生耐药性的细菌蛋白质(22). 为了连续性,InterPro未来版本中出现的NCBI HMM集合将重命名为“NCBIFAM(包括TIGRFAM)’.

添加AntiFam

AntiFam包含250个与常见的基因错误预测相匹配的轮廓-HMM,这些错误预测可能会污染序列数据库(18). 我们在InterProScan 5.55–88.0中集成了AntiFam 7.0版,注释如其他特征InterPro网站蛋白质序列查看器的轨迹显示在蛋白质页面中。

更新旧的InterPro条目

每个InterPro发布周期都有两个主要组件。首先,蛋白质更新,使用UniProt的新数据和注释来识别需要更新的InterPro条目。例如,我们可以通过查看Swiss-Prot描述行的变化来捕获以前没有特征的蛋白质家族的新功能。其次,进行一个或多个成员数据库更新,使其更新到最新版本,这会影响多个条目。这些条目由馆长核实,确保所提供的信息仍然准确和最新。然而,有些条目从未受到这些更新的影响,因此可以避免多年更新。这意味着,与编写函数描述时相比,现在对该族的了解要多得多。

2021年末,我们审查了626个InterPro条目,其中条目名称和描述自2011年以来没有更新,也没有添加成员数据库签名,并更新了其中198个条目(包括54个Pfam条目的更新)。自2022年初以来,我们一直关注具有未知功能的InterPro条目,我们正在审查具有已知PDB结构的条目列表以及相关的科学文献,这些条目是使用PDB/InterPro映射获得的。迄今为止,共审查了164个InterPro条目,其中123个InterPro条目的更新(包括86个具有科学特征的蛋白质)和69个Pfam条目。

未来,我们计划查看最近更新的InterPro条目,其中包含一个简短的摘要,并且没有参考科学文献,并将其映射到PDB结构文件中,以获取条目的更多最新信息。

InterPro网站

InterPro网站(https://www.ebi.ac.uk/interpro/)允许通过使用开源React/Redux框架开发的一组功能丰富的web组件查询和过滤InterPro数据。通过该网站,用户可以通过文本、蛋白质序列、域结构进行搜索,或者通过应用不同的过滤器浏览数据集。网站不断添加新功能,并根据用户反馈增强现有功能。在本节中,我们将重点介绍最新的发展,包括网站菜单的重新设计、RoseTTAFold和AlphaFold预测结构模型的添加以及Pfam网站功能的集成。

主页更改

在主页中,在最新条目选项卡:收藏夹条目最近的搜索。用户可以通过点击InterPro条目页面中InterPro条目名称旁边的星号来保存他们最喜欢的条目。可以从中的主页访问固定条目列表收藏夹条目选项卡。当新版本可用时,如果用户最喜欢的条目之一发生更改,用户将收到通知。执行文本搜索时,文本存储在本地,可以通过最近的搜索选项卡,允许用户检索以前搜索的数据结果。

重新设计网页菜单

网站菜单、条目菜单和浏览功能过滤选项已经过重新设计,以便更容易访问数据。下拉菜单已添加到网站主菜单选项卡中,如图所示1安培。它们允许轻松访问子部分,并替换以前显示在相关页面顶部的选项卡。我们还在每个页面的顶部添加了一个breadcrumbs组件,因此可以很容易地检查当前页面在网站上的位置(图1安培).

InterPro网站上的多个位置都更新了导航菜单。网站主菜单选项卡现在可以展开,因为下拉菜单和面包屑可以知道页面在网站上的位置(A),条目页面中的菜单显示在左侧,可以折叠(B),浏览功能中的主要数据类型可以从浏览下拉菜单中选择,过滤器现在显示在左侧(C).
图1。

InterPro网站上的多个位置都更新了导航菜单。网站主菜单选项卡现在展开为下拉菜单和面包屑导航,可以知道页面在网站上的位置(A类),入口页面中的菜单显示在左侧,可以折叠(B类),可以从浏览下拉菜单和过滤器现在显示在左侧(C类).

以前,当条目页面中可用的选项卡数量无法容纳在一行中时,菜单会展开为两行,这会让人感到困惑。为了解决这个问题,我们重新设计了菜单,它现在显示为实体左侧的侧边菜单。它可以使用菜单顶部的双箭头符号展开或折叠,以便更容易地可视化页面内容,如图所示1B年.

根据用户测试反馈,浏览功能也进行了重新设计。将鼠标悬停在浏览选项卡。Entry端点已分为两个实体:InterPro条目(通过InterPro浏览)和成员数据库签名(按成员数据库浏览),如图所示1摄氏度.

结构模型预测

近年来,蛋白质结构预测领域取得了很大进展,基于深度学习的方法现在能够预测高质量的从头开始的蛋白质结构。

罗斯塔福尔德

已经为PDB中没有结构的大多数Pfam族创建了结构模型和接触图。它们位于罗斯塔福尔德InterPro条目选项卡(例如IPR031639)和Pfam签名页(例如PF16915)。模型由Baker实验室使用RoseTTAFold生成(23).

模型的3D结构显示在Mol*查看器中(24)并使用预测的局部距离差异测试(pLDDT)分数对残留物进行着色(25),梯度从蓝色(高置信度)变为红色(低置信度)。在3D查看器下方,热图可视化显示剩余触点。将鼠标悬停在热图上会高亮显示3D结构模型中的接触。此外,还显示了Pfam系列SEED路线的联系图信息。悬停或单击接触位置会突出显示其与路线中的其他残留物以及3D结构上的连接。

AlphaFold公司

AlphaFold 2.0版(26)对结构预测进行了革命性的变革,使许多模型生物能够快速创建高质量模型。我们希望这些模型能够推动分子生物学和生物医学研究领域的发展。DeepMind和欧洲生物信息学研究所(EMBL-EBI)推出了AlphaFold蛋白质结构数据库(AlphaFold DB)(27),一个与科学界公开自由分享数百万AlphaFold蛋白质结构预测的联合项目。

我们在InterPro中为AlphaFold结构模型提供了两个入口点。首先,在查看蛋白质页面时,如果有可用的模型,请单击AlphaFold公司选项卡允许查看模型的3D结构。第二个入口点是通过AlphaFold公司InterPro条目页面中的选项卡。在这种情况下AlphaFold公司选项卡显示了一个AlphaFold模型示例,下面的表显示了可用于该条目的其他模型。

会员数据库签名徽标

定义成员数据库签名的代表模型可以使用Skylign可视化为徽标(28). 这显示在签名选项卡。此功能以前仅适用于Pfam数据库。它现在还可用于PANTHER、PIRSF、SFLD和TIGRFAM签名。

序列搜索改进

根据InterPro成员数据库进行序列搜索可以预测蛋白质的功能、结构域和位点。此功能由我们使用InterProScan作为web服务的服务器提供支持。添加了新功能,允许用户研究、保存和更新以前搜索的结果。

在序列搜索结果页面上,用户可以可视化以前提交的搜索,默认情况下,这些搜索在我们的服务器上保存七天。如果用户希望将结果保存更长时间,可以下载JSON格式的结果文件。或者,InterPro网站提供了在浏览器中保存该文件的选项。序列搜索结果文件,无论是从web服务获得的还是由本地InterProScan实例生成的,都可以稍后上传到网站,允许用户在蛋白质序列查看器中检查结果。例如,此功能可用于为科学出版物生成图像。

随着InterPro数据的新版本发布,保存或导入的结果最终将过时。因此,当网站发现版本之间不匹配时,结果中会包含一条警告,并且有一个按钮可以使用相同的顺序和选项重新运行作业,但现在是最新的InterPro版本。

蛋白质序列查看器

一个新的残留物部分已添加到蛋白质序列查看器中(见图2). 它将CDD、SFLD和PIRSR提供的所有残差信息分组(29)成员数据库,位于一个位置。

带有UniProtKB残留物部分的蛋白质序列查看器:P18207。
图2。

蛋白质序列查看器残留物UniProtKB部分:P18207。

显示短名称

选项蛋白质页面中序列查看器的菜单,我们可以通过以下方式显示条目加入,姓名现在简称标签。虽然材料是InterPro和成员数据库的稳定标识符,但名称和短名称更能描述蛋白质家族,生物学家在搜索信息时经常使用。我们还添加了一个选项,用于在显示集合中包含的不同方法之间关系的图形中显示Accession、Name或Short Name标签(例如CDD cl00014)。

整合Pfam网站功能

经过多年的良好和忠实服务,由于Pfam网站的代码库老化以及缺乏长期维护资源,决定将其退役。在退役之前,我们已经确保Pfam网站上提供的所有关键功能都已在InterPro网站上实现。下面,我们将介绍InterPro网站上添加的关键功能:分类法阳光爆发表示和对域架构可视化的改进。其他Pfam功能已添加到Pfam条目页面:a治疗选项卡和维基百科信息。Pfam集合页面中也添加了文献参考。

分类日出

InterPro条目页面和成员数据库条目页面具有分类学子页面。这些条目中表示的物种列表基于UniProt分类法的数据。以前的分类学子页面提供了三种不同的视图:所有物种表,分类树和a主要物种表。Sunburst是InterPro中分类数据的新可视化。阳光爆炸可视化是一个多层饼图,它将大量层次信息压缩到一个有限的空间中。它一目了然地显示了感兴趣的变量在不同层次结构中的比例。

InterPro中的sunburst显示了与条目匹配的蛋白质的分类分布,从最不特定的中心到更具体的外部。例如,在图,用户可以从图表中推断出,对于Pfam PF00120,大多数匹配项是在细菌中(主要是紫色),更具体地说是在蛋白质细菌中。

PF00120的分类阳光照射视图。
图3。

PF00120的分类阳光爆发视图。

可以选择一系列选项来定制视图:片段大小可以根据与分类单元匹配的序列数量(默认)或每个分类单元的物种数量进行调整,阳光爆发深度可以在2到8个环之间进行调整。

重新设计域体系结构功能

结构域架构提供了与基于Pfam签名的条目匹配的蛋白质的不同结构域安排的信息。此信息可在域体系结构InterPro条目或成员数据库条目的选项卡类似蛋白质蛋白质标签,以及第页a的结果按域体系结构搜索.

以前,整个蛋白质长度的结构域以相等的大小相邻显示,如图所示4A级为了显示更生物正确的可视化,现在使用参考蛋白基于结构域的实际长度来显示结构域大小。当鼠标悬停在域上时,工具提示中提供了更多详细信息,包括域的位置,如图所示4B类.

对于PF00120,域体系结构显示InterPro 87.0(A)和InterPro 88.0(B)之间的变化。
图4。

域体系结构显示InterPro 87.0之间的更改(A类)和InterPro 88.0(B类)用于PF00120。

美国石油学会

InterPro API允许编程访问InterPro数据,为科学家提供了进一步进行生物信息学分析以满足其研究需求的可能性。可通过以下链接访问:https://www.ebi.ac.uk/interpro/api/.

在过去两年中,API定期更新,以提供上述所有功能所需的数据。大多数更新都涉及对基础数据库的微小更改,例如,包括新数据,或优化其访问并避免API性能恶化。

我们还定期维护其代码库,确保完成必要的依赖项更新,以最大限度地降低基础设施的安全风险。

API文档更新

InterPro API文档由GitHub上的通用文档组成(https://github.com/ProteinsWebTeam/interpro7-api/tree/master/docs网站)和Swagger API文档(https://www.ebi.ac.uk/interpro/api/static_files/swagger网站/)允许对不同的API数据类型应用一系列修饰符来过滤输出数据。在过去两年中,我们更新了文档,包括添加了可用于过滤数据的修饰符示例。

外联和沟通

在过去两年里,InterPro通过推特、博客和游戏开发,积极与科学和非科学受众接触。

InterPro推特订阅源(@解释数据库)于2012年首次推出,最初仅用于发布新的InterPro版本。自2020年9月以来,InterPro通过推特发布新功能、工作机会和InterPro团队成员撰写的蛋白质关注文章,增加了其社交媒体影响力。这种参与导致粉丝数量从2020年7月的1014人增加到2022年7月1996人。

此外,自InterPro 83.0(2020年10月)以来,我们推出了发布博客文章。对于每个版本,他们都会重点介绍InterPro网站和API开发的新开发或更新。

此外,我们还以纸牌游戏的形式开展了一项公众参与活动:蛋白质家族。这个游戏的主要目的是让玩家在学习新的蛋白质知识的同时,不必意识到它。游戏包含分为7个家族的42张卡片(每个家族6张蛋白质卡片),目标是通过向其他玩家索要你手中丢失的蛋白质卡片来收集最多的家庭成员,以完成你的家庭。通过这个游戏,玩家可以发现蛋白质是相关的,并且可以根据其功能和/或3D结构划分为不同的家族。他们也在学习有关蛋白质的有趣信息,并通过3D可视化探索蛋白质结构的美。该游戏是通过一个迭代过程开发的,通过调查和游戏测试,征求科学家和非科学家观众的反馈。Protein家族游戏在Tabletopia游戏平台上在线提供(https://tabletopia.com/games/protein-families网站),如图所示5和作为一种实体纸牌游戏。Protein家族纸牌游戏是EMBL-EBI公众参与STEM(科学、技术、工程和数学)的一部分,STEM是与学院活动相关的科目。该计划旨在将EMBL-EBI在STEM领域工作和学习的员工和学生与非专业人士聚集在一起。

Tabletopia中的蛋白质家庭游戏登录页。
图5。

Tabletopia中的蛋白质家庭游戏登录页。

讨论

在过去两年里,我们对InterPro进行了广泛的开发。在策展方面,尽管UniProtKB不断增长,但我们仍在继续审查和整合签名,导致UniProtKB的覆盖面略有增加。在web开发方面,我们重新设计了InterPro网站的几个功能,并开发了Pfam网站上以前提供的新功能。InterPro现在为PRINTS和SFLD数据库提供了唯一的存档源和网站。未来,InterPro还将提供访问Pfam数据库的网站。鉴于生物数据资源的资金来源有限,我们认为InterPro在提供重要的存档功能以及蛋白质域和家族资源的集中网络界面方面发挥着越来越大的作用。

人工智能(AI)和深度学习(DL)方法正变得越来越流行,并且对于各种任务越来越精确。应用基于人工智能的方法预测蛋白质结构,如AlphaFold2和RoseTTAFold,在分子生物学领域取得了令人瞩目的进步,并可以预测蛋白质之间的相互作用,为疾病治疗和药物发现开辟了许多新机会(30). 此外,DL方法也可用于预测蛋白质功能。谷歌研究团队正在开发ProtENN,这是一种深度学习方法,使用Pfam家族作为训练集预测未对齐氨基酸序列的功能注释(31). 随着深度学习方法开始超越现有的基于比对的方法(如profile-HMM),我们可以预见未来几年用于蛋白质域和家族分类的工具将发生转变。使用DL方法进行蛋白质功能预测打开了蛋白质分类新时代的大门,但同时也给这些新模型在InterPro等资源中的集成带来了挑战,因为我们需要确保模型的准确性,以确保我们不会损失注释的质量或数量。经常重新训练DL模型可能会带来改进,但也会导致结果的波动。我们对未来的前景感到兴奋,并默默地希望蛋白质分类研究人员在未来几年里会有自己的AlphaFold时刻。

数据可用性

所有数据均可通过InterPro网站免费浏览和下载https://www.ebi.ac.uk/interpro/.

致谢

作者想感谢InterPro团队的前成员:斯瓦希·坎达萨米、马特鲁布·库雷希、张新余、吉夫·努卡和洛瑞·威廉姆斯。

基金

威康信托[108433/Z/15/Z,221320/Z/20/Z];生物技术和生物科学研究理事会[BB/T010541/1,BB/S020381/1];国立卫生研究院国立普通医学科学研究所(NIGMS)[R35GM141873];美国国立卫生研究院国家人类基因组研究所[U24HG012212,U41HG002273];国家科学基金生物基础设施司[16615431917302];ELIXIR,生命科学数据的研究基础设施;开放目标;欧洲分子生物学实验室核心基金;惠康基因组校园(WGC)公众参与扶持基金;国立卫生研究院国家医学图书馆国家生物技术信息中心;德国生物信息基础设施网络;HAMAP和PROSITE由瑞士生物信息学研究所(SIB)提供;ELIXIR的瑞士节点(ELIXIR-CH);瑞士联邦政府通过教育、研究和创新国务秘书处(SERI)。开放存取费用的资金来源:Wellcome Trust[221320/Z/20/Z]。

利益冲突声明.A.B是《》的编辑委员会成员核酸研究.

参考文献

1

Sillitoe公司
一、。
,
博尔丁
N。
,
道森
N。
,
瓦曼
副总裁。
,
阿什福德
第页。
,
斯科尔斯
H.M.公司。
,
C.S.M.公司。
,
伍德里奇
L。
,
劳尔
C、。
,
N。
等。
CATH:增加功能空间的结构覆盖率
.
核酸研究
.
2021
;
49
:
D266型
D273型
.

2

秒。
,
J。
,
奇萨(Chitsaz)
F、。
,
德比郡
M.K.医学博士。
,
吉尔
钢筋混凝土。
,
冈萨雷斯
不适用。
,
瓜兹
M。
,
赫尔维茨
D.I.公司。
,
马尔克勒
G.H.公司。
,
歌曲
J.S.公司。
等。
CDD/SPARCLE:2020年的保守领域数据库
.
核酸研究
.
2020
;
48
:
D265型
D268型
.

三。

佩德鲁齐
一、。
,
Rivoire公司
C、。
,
奥金克洛斯
A.H.公司。
,
考德特
E.公司。
,
凯勒
G.公司。
,
德卡斯特罗
E.公司。
,
巴拉廷
D。
,
屈什
B.A。
,
布盖勒特
L。
,
秒。
等。
2015年HAMAP:蛋白质家族分类和注释系统更新
.
核酸研究。
2015
;
43
:
第106天
D1070号
.

4

惯性矩
H。
,
埃伯特
D。
,
穆鲁加努扬
答:。
,
米尔斯
C、。
,
阿尔布
左旋-右旋。
,
穆沙亚马哈
T。
,
托马斯
P.D.公司。
PANTHER版本16:修订的族分类、基于树的分类工具、增强区域和广泛的API
.
核酸研究。
2021
;
49
:
D394号
D403型
.

5

米斯特里
J。
,
丘古兰斯基
秒。
,
威廉姆斯
L。
,
库雷希
M。
,
萨拉查
总会计师。
,
松哈默
有限责任公司。
,
托萨托
S.C.E.公司。
,
圣骑士
L。
,
拉吉
秒。
,
理查德森
洛杉矶。
等。
Pfam:2021年蛋白质家族数据库
.
核酸研究。
2021
;
49
:
D412号
D419号
.

6

尼科尔斯卡娅
A.N.公司。
,
阿里吉语
C.N.公司。
,
H。
,
巴克
W.C.公司。
,
C.H.公司。
用于蛋白质功能和进化分析的PIRSF家族分类系统
.
进化。生物信息。在线的
.
2007
;
2
:
197
209
.

7.

阿特伍德
T.K公司。
,
科莱塔
答:。
,
缪尔黑德
G.公司。
,
帕夫洛波卢
答:。
,
菲利普普尔
邮政信箱。
,
波波夫
一、。
,
罗马·马特奥
C、。
,
狄奥多西
答:。
,
米切尔
A.L.公司。
PRINTS数据库:细粒度蛋白质序列注释和分析资源——2012年状况
.
数据库
.
2012
;
2012
:
巴斯019
.

8

Sigrist公司
C.J.A.公司。
,
德卡斯特罗
E.公司。
,
塞鲁蒂
L。
,
屈什
B.A。
,
Hulo(呼罗)
N。
,
答:。
,
布盖勒特
L。
,
塞纳里奥斯
一、。
PROSITE的新发展和持续发展
.
核酸研究。
2013
;
41
:
D344号
D347号
.

9

莱图尼克
一、。
,
科德卡尔
秒。
,
博克
第页。
SMART:2020年的最新更新、新发展和现状
.
核酸研究。
2021
;
49
:
D458号
D460型
.

10

阿克法
E.公司。
,
棕色
秒。
,
阿莫那酸
D.E.公司。
,
理发室
阿联酋。
第二
,
卡斯特
空军。
,
希克斯
文学硕士。
,
C.C.公司。
,
劳克
F、。
,
Mashiyama公司
S.T.公司。
,
E.C.公司。
等。
结构-功能链接数据库
.
核酸研究。
2014
;
42
:
D521型
D530型
.

11

潘杜拉根
上午。
,
施塔尔哈克
J。
,
燕麦
机械工程师。
,
史密瑟斯
B。
,
高夫
J。
SUPERFAMILY 2.0数据库:重要的蛋白质组更新和新的网络服务器
.
核酸研究。
2019
;
47
:
D490型
D494号
.

12

西。
,
奥尼尔
K.R.公司。
,
哈夫特
D.H.公司。
,
迪库乔
M。
,
切特弗宁
五、。
,
巴德雷丁
答:。
,
库洛里斯
G.公司。
,
奇萨(Chitsaz)
F、。
,
德比郡
M.K.医学博士。
,
杜尔金
美国科学院。
等。
RefSeq:通过蛋白家族模型管理扩大原核基因组注释管道范围
.
核酸研究。
2021
;
49
:
D1020号
D1028号
.

13

皮奥韦桑
D。
,
内奇
M。
,
埃斯科韦多
N。
,
蒙松
上午。
,
哈托斯
答:。
,
米切蒂奇
一、。
,
夸利亚
F、。
,
圣骑士
L。
,
斋月
第页。
,
多斯泰尼
Z.公司。
等。
MobiDB:2021年内在无序蛋白质
.
核酸研究。
2021
;
49
:
D361号
D367号
.

14

特乌费尔
F、。
,
阿门特罗斯
期刊社。
,
约翰森
阿拉伯联合酋长国。
,
吉斯拉森
M.H.医学博士。
,
皮尔
S.I.公司。
,
齐里戈斯
K.D.公司。
,
温特
O。
,
布鲁纳克
秒。
,
冯·海因
G.公司。
,
尼尔森
H。
SignalP 6.0使用蛋白质语言模型预测所有五种类型的信号肽
.
自然生物技术。
2022
;
40
:
1023
1025
.

15

卡尔
L。
,
克罗格
答:。
,
松哈默
有限责任公司。
跨膜拓扑和信号肽预测相结合的优势——恐惧网络服务器
.
核酸研究。
2007
;
35
:
W429号机组
W432号机组
.

16

克罗格
答:。
,
拉松
B。
,
冯·海因
G.公司。
,
松哈默
E.L.公司。
用隐马尔可夫模型预测跨膜蛋白拓扑结构:在全基因组中的应用
.
分子生物学杂志。
2001
;
305
:
567
580
.

17

卢帕斯
答:。
,
范戴克
M。
,
股票
J。
从蛋白质序列预测螺旋线圈
.
科学类
.
1991
;
252
:
1162
1164
.

18.

埃伯哈特
R.Y.公司。
,
哈夫特
D.H.公司。
,
蓬塔
M。
,
马丁
M。
,
奥多诺万
C、。
,
贝特曼
答:。
AntiFam:一种帮助识别蛋白质注释中虚假ORF的工具
.
数据库
.
2012
;
2012
:
巴斯003
.

19

基因本体协会
基因本体资源:丰富GOld地雷
.
核酸研究。
2021
;
49
:
第325天
D334号
.

20

布鲁姆
M。
,
小时-年。
,
丘古兰斯基
秒。
,
格雷戈
T。
,
坎达萨米
秒。
,
米切尔
答:。
,
努卡语
G.公司。
,
Paysan-Lafosse公司
T。
,
库雷希
M。
,
拉吉
秒。
等。
间蛋白家族和结构域数据库:20年
.
核酸研究。
2021
;
49
:
D344号
D354号
.

21

H。
,
芬兰
钢筋混凝土。
,
托马斯
P.D.公司。
TreeGrafter:基于系统发育树的蛋白质注释,包括基因本体论术语和其他注释
.
生物信息学
.
2019
;
35
:
518
520
.

22

费尔德加登
M。
,
布罗韦
五、。
,
冈萨雷斯-伊斯卡罗纳
N。
,
弗莱
J.G.公司。
,
哈恩迪杰斯
J。
,
哈夫特
D.H.公司。
,
霍夫曼
M。
,
佩滕吉尔
J.B.公司。
,
普拉萨德
A.B.公司。
,
蒂尔曼
通用电气公司。
等。
AMRFinderPlus和参考基因目录有助于检查抗生素耐药性、应激反应和毒力之间的基因组联系
.
科学。代表。
2021
;
11
:
12728
.

23

贝克
M。
,
迪迈奥
F、。
,
阿尼什琴科
一、。
,
Dauparas公司
J。
,
夫钦尼科夫
秒。
,
G.R.公司。
,
J。
,
问:。
,
扭结
法律公告。
,
谢弗
钢筋混凝土。
等。
使用三轨神经网络精确预测蛋白质结构和相互作用
.
科学类
.
2021
;
373
:
871
876
.

24

泽纳尔
D。
,
比特里希
秒。
,
德什潘德
M。
,
斯沃博多娃
R。
,
拜尔考
英国。
,
巴兹吉尔
五、。
,
韦兰卡
秒。
,
白肋烟
S.K.公司。
,
科恰
J。
,
玫瑰色
美国科学院。
Mol*viewer:用于大型生物分子结构三维可视化和分析的现代网络应用程序
.
核酸研究。
2021
;
49
:
W431号机组
W437号机组
.

25

玛莉安妮
五、。
,
比亚西尼
M。
,
巴尔巴托
答:。
,
施韦德
T。
lDDT:使用距离差测试比较蛋白质结构和模型的局部无重叠分数
.
生物信息学
.
2013
;
29
:
2722
2728
.

26

跳跃者
J。
,
埃文斯
R。
,
普里策尔
答:。
,
绿色
T。
,
菲古尔诺夫
M。
,
龙内贝格尔
O。
,
Tunyasuvunakool公司
英国。
,
贝茨
R。
,
希德克
答:。
,
波塔片科
答:。
等。
用alphafold进行高精度蛋白质结构预测
.
自然
.
2021
;
596
:
583
589
.

27

瓦拉迪
M。
,
安阳(Anyango)
秒。
,
德什潘德
M。
,
奈尔
秒。
,
娜塔莎
C、。
,
约丹诺娃
G.公司。
,
D。
,
斯特罗
O。
,
木材
G.公司。
,
莱顿
答:。
等。
AlphaFold蛋白质结构数据库:利用高精度模型大规模扩展蛋白质序列空间的结构覆盖范围
.
核酸研究。
2021
;
50
:
D439号
D444号
.

28

惠勒
T.J.公司。
,
克莱门茨
J。
,
芬兰
钢筋混凝土。
Skylign:一种用于创建信息丰富的交互式徽标的工具,用于表示序列比对和剖面隐藏马尔可夫模型
.
BMC生物信息学
.
2014
;
15
:
7
.

29

C、。
,
问:。
,
H。
,
象头神
首席风险官。
,
Garavelli公司
J。
,
阿里吉语
C.N.公司。
,
纳塔莱
D.A.公司。
,
C.H.公司。
使用位置特定规则预测蛋白质功能位点的PIRSitePredict
.
数据库
.
2019
;
2019
:
巴兹026
.

30

年。
,
年。
,
L。
,
副官
D.A.公司。
,
线路接口单元
Z.公司。
,
J。
基于深度散列学习的全对抗蛋白质相互作用识别
.
BMC生物信息学
.
2022
;
23
:
266
.

31

比莱斯基
M.L.公司。
,
贝朗格
D。
,
布莱恩特
D.H.公司。
,
桑德森
T。
,
卡特
B。
,
斯卡利
D。
,
贝特曼
答:。
,
德普里斯托
文学硕士。
,
科尔维尔
洛杉矶。
利用深度学习诠释蛋白质世界
.
自然生物技术。
2022
;
40
:
932
937
.

这是一篇根据知识共享署名许可条款发布的开放存取文章(https://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。