摘要

欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)是世界上公共生物分子数据的主要来源之一。EMBL-EBI总部位于英国欣克斯顿的韦尔科姆基因组校园,是欧洲唯一的政府间生命科学组织欧洲分子生物学实验室(EMBL)的六个站点之一。本综述总结了EMBL-EBI数据资源为全球科学界提供的服务现状。EMBL-EBI附加值数据库的规模、开放性、丰富的元数据和广泛的管理,使其特别适合作为深度学习、机器学习和人工智能应用的训练集,这里将介绍其中的一个选择。EMBL-EBI的数据资源可以促进这些发展,因为它们提供可持续的、高质量的数据,在某些情况下是几十年来收集的,并向全球任何研究人员公开提供。我们的目标是为EMBL-EBI数据资源不断提供工具和研究见解的基础,以改变生命科学领域。

简介

欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)是世界上公共生物分子数据的主要来源之一。欧洲分子生物学实验室(EMBL-EBI)位于英国欣克斯顿的Wellcome Genome Campus,是欧洲唯一的政府间生命科学组织欧洲分子生物学实验(EMBL)的六个站点之一,其世界级的研究基础设施和服务支持全球尖端科学。

EMBL-EBI通过以下方式使生命科学研究及其转化为医学、农业、工业和社会:

  • 以促进科学进步的方式向科学界免费提供数据和生物信息学服务。

  • 通过研究者驱动的研究促进生物学的进步。

  • 为各级科学家提供生物信息学培训。

  • 向工业和科学应用传播尖端技术。

  • 作为ELIXIR节点,支持欧洲生物分子数据提供的协调。

EMBL-EBI为EMBL的2022-2026“生态系统分子”计划做出了贡献,该计划旨在建立环境中生命的分子基础,获取与理解地球生命相关的新知识,并提供转化潜力,以支持人类和行星健康的进步

本概述重点介绍EMBL-EBI数据资源为全球科学界提供的服务,并在相关情况下描述相关培训和行业应用。由于许多其他EMBL-EBI数据资源在本特刊的其他地方都有专门的文章,本综述主要关注其他地方没有描述的数据资源的主要变化。

EMBL-EBI数据资源包括:沉积数据库,用于存档实验数据;附加值数据库,提供存储数据的注释、管理、重新分析和集成;以及支持重用这些资源的开源软件工具。存款数据库、增值数据库和工具通过EMBL-EBI服务门户网站进行描述和访问。所有EMBL-EBI数据资源和许多软件系统都可以在本地下载和安装,并且可以在开放和免费的基础上重用。许多服务提供进一步的批量和机器可读访问,包括通过API、FTP、Aspera和Globus服务。

在一个研究所联合使用这些数据资源可以实现资源之间的紧密集成,这体现在资源间数据流的高度,以及集成工具(如泛资源EBI-Search)的可用性(1). 数据资源还得益于技术和基础设施管理方面的机构支持。EMBL-EBI资源是数百种外部资源和工具的基础(以下描述了许多最新发展)。欧洲旗舰生物科学数据协调计划ELIXIR确定了对更广泛的生命科学界和生物数据长期保存最为重要的核心数据资源和沉积数据库。许多EMBL-EBI资源都实现了这一目标。

EMBL-EBI附加值数据库的规模、开放性、丰富的元数据和广泛的管理,使其特别适合作为深度学习、机器学习和人工智能应用程序(此处简称为AI应用程序)的训练集。最近一个主要的人工智能应用是DeepMind AlphaFold系统,用于预测之前未知的3D结构,该系统是根据蛋白质数据库中公开可用的实验验证的蛋白质结构数据进行训练的(2),由EMBL-EBI和其他合作伙伴(wwPDB联盟)联合提供,以及Uniprot的蛋白质序列和注释()和MGnify的宏基因组数据(4). 截至2022年9月,由EMBL-EBI作为AlphaFold-DB主办的AlphaFold的输出(5)包括214684311个预测结构,有48个完整的蛋白质组可供批量下载。190个国家的50多万研究人员在AlphaFoldDB运行的第一年就使用了它。这些数据已经使研究人员能够解决一些以前难以解决的研究问题(6). 以下是EMBL-EBI资源如何在蛋白质组学、药物发现、成像和其他领域实现人工智能应用的更多示例。

EMBL-EBI数据资源的影响

EMBL-EBI通过指标跟踪数据资源的使用,包括访问服务网站的web请求数量和唯一IP地址、存储的数据量以及EMBL-EBI数据资源在科学出版物中收到的公开引用数量。虽然每个指标都有局限性,无法提供准确的使用量化,但综合考虑,它们可以指示使用的规模和趋势。

2020年,研究人员对EMBL-EBI数据资源的需求大幅增加,特别是在第二季度(2020年4月至6月),这一季度恰逢全球新冠肺炎疫情的开始。随着许多研究人员从远程工作转为就地工作或混合工作,使用率在2020年剩余的时间内持续增长,直至2021年(图1). 2022年前两个季度的需求仍然很高,在今年第二季度,平均每月有31亿个web请求和520万个独立IP。这比2018年同期的用户需求高出约100%。EMBL-EBI数据资源覆盖全球,2021年每个联合国会员国都有我们的用户群,今年迄今为止的可用数据表明2022年的全球用户需求类似。

2018–2022年EMBL-EBI数据资源的网络请求(黄色,A)和唯一IP访问(蓝色,B)。
图1。

Web请求(黄色,A类)和独特的IP访问(蓝色、,B类)2018–2022年EMBL-EBI数据资源。

EMBL-EBI档案资源中按体积划分的数据存储速度继续加快,2021年存储了超过25 PB的数据,使累计总存储量达到约75 PB(图2). 两个最大的档案资源是欧洲核苷酸档案馆(ENA)(7)和欧洲基因组-现象档案(EGA)(8),占迄今为止存储的总数据的90%以上。近年来,图像数据资源的数据增长尤为迅速-生物图像档案(BIA)(9); 电子显微镜成像资源电子显微镜公共图像档案(EMPIAR)(10)和电子显微镜数据库(EMDB)(11)

(A) 年度(黄色)和累计(蓝色)数据沉积到EMBL-EBI档案数据资源中。(B) 每年存入九份档案资源。注意对数刻度。以及成像和低温电子显微镜资源的快速增长Bioimage Archive、EMPIAR和EMDB。(C) Bioimage Archive、EMPIAR和EMDB成像和低温电子显微镜数据资源的年度季度数据增长。注意对数刻度。
图2。

(A类)年度(黄色)和累计(蓝色)数据沉积到EMBL-EBI档案数据资源中。(B类)每年存入九份档案资源。注意对数刻度。以及成像和低温电子显微镜资源的快速增长Bioimage Archive、EMPIAR和EMDB。(C类)Bioimage Archive、EMPIAR和EMDB成像和低温电子显微镜数据资源的年度季度数据增长。注意对数刻度。

2021年,一项独立研究估计了EMBL-EBI数据资源的经济价值和影响。研究发现,研究人员每年花费1.4亿小时使用EMBL-EBI数据资源,价值相当于55亿英镑。

EMBL-EBI数据资源组合的主要变化

联邦EGA网络正式启动

直到最近,EMBL-EBI欧洲基因组-表型档案(EGA)上才发现了大多数个体水平的人类组学数据(8)是由研究协会产生的,而不是在医疗机构。许多国家现在都有个性化的医学项目,这些项目正在从国家或区域倡议中生成数据,导致从研究驱动的基因组数据转变为医疗保健驱动的基因组信息。与研究数据相比,在医疗环境中生成的数据可能受到不同的治理和国家数据保护法规的约束,并且这些访问控制可能会阻碍研究的重用。如果不可能重复用于研究,新兴医疗基因组数据的潜在价值和影响将显著降低。联邦EGA使用国际存储库的分布式网络,通过实现人类数据的跨国发现和访问,同时尊重管辖区数据保护法规,确保基因组数据加速研究,从而实现规模化和更强大的研究洞察力。

Federated EGA的首批应用之一是为欧洲100多万基因组和基因组数据基础设施项目提供跨国数据发现和访问基础设施。随后的Beyond One Million Genomes EC协调和支持行动项目将展示联邦EGA如何实现罕见疾病联邦发现和访问。

联邦EGA网络于2022年正式启动,与瑞典、挪威、德国、芬兰和西班牙的首家节点签署了首批法律协议。欧洲和世界各地的数十个其他节点正在努力加入联邦EGA网络,共同愿景是为敏感人类数据发现和共享建立真正的全球资源。

Pfam并入InterPro

EMBL-EBI拥有两种主要的蛋白质家族资源,Pfam(12)和InterPro(13). 蛋白质家族的Pfam数据库以前由桑格研究所托管,直到2012年才迁移到EMBL-EBI。虽然范围相似,但这两种资源之间存在重要差异。InterPro通过聚合来自13种其他资源(包括Pfam)的数据,提供了世界上大多数蛋白质家族资源的综合视图(13). 尽管它将蛋白质家族数据汇集在一起,但不会生成识别特定蛋白质家族的特征码,例如轮廓-idden Markov模型。签名由13个成员数据库提供。Pfam为EMBL-EBI提供了创建新家族签名以及更新现有签名的能力,从而为InterPro提供了重要的补充功能。为了使这两种资源的制作和传播尽可能高效和可扩展,Pfam网站的功能被合并到Interpo中。Pfam网站于2023年1月退役,但其所有数据和功能仍将通过InterPro提供。

ArrayExpress迁移到BioStudies

生物研究数据库(14)是一种用于封装与生物学研究相关的所有数据的资源,这些数据可能存在于许多不同的数据资源中。生物研究的目标之一是管理实验中产生的数据,这些数据可以被描述为“多元组学”。越来越多地,过去属于转录组学或功能基因组学领域的许多实验现在是多模式的,从而减少了对阵列特定ArrayExpress数据资源的沉积(15). 自2020年以来,为了简化EMBL-EBI的数据提交流程和数据表示,ArrayExpress提供的数据已迁移到“ArrayExpress集合”下的BioStudies。根据用户对新管道和流程的积极反馈,ArrayExpress接口于2022年9月退役,所有新的功能基因组提交现在都在BioStudies中处理和加载,然后再流入其他数据资源,包括ENA[7]。

现有数据资源的新特点及人工智能应用

UniProt使用机器学习注释5000万以前没有特征的蛋白质

UniProt蛋白质序列和功能知识库(16)结合了蛋白质功能的自动注释和专家管理注释。专家生物验证器将UniProtKB/Swiss-Prot条目链接到每个蛋白质的实验验证或计算预测功能信息摘要。使用自动系统从已审核条目中的注释传输,将信息添加到UniProtKB/TrEMBL系统中的未审核条目中(17).

2022年,UniProt组织了一项挑战,要求来自机器学习社区的竞争对手开发软件工具和算法,以准确和大规模地预测蛋白质中的金属结合位点。这些工具中最好的将被纳入未来的生产管道中。

UniProt数据以适合研究人员开发自己的工具和资源的格式提供。截至22_05版,所有UniProtKB/Swiss-Prot的序列嵌入都在UniProt ftp站点上发布。长期计划是使记录更容易机器可读,例如通过增加本体的使用,以支持在人工智能应用程序中作为积极训练集的实用性。

基于质谱的蛋白质组学数据集推动人工智能应用

蛋白质组学鉴定数据库(PRIDE)是基于质谱(MS)的蛋白质组学数据集的世界领先数据库(18)是蛋白质组学资源国际蛋白质组改变联盟的创始成员之一(19). 2022年,平均每月向PRIDE提交约500个数据集。蛋白质组学数据集在公共领域的空前可用性正在推动多个应用程序重用这些数据。人工智能应用已被应用于改进蛋白质组学分析工作流程中的每一步(20). 这些方法使新的生物学发现成为可能,例如在蛋白质磷酸化的背景下(21)、抗菌肽的鉴定(22)HLA分子抗原提呈的预测(23). 涉及蛋白质组学数据的多组学方法是公共数据集的进一步应用将产生新工具的一个领域。所有用于人工智能应用程序的PRIDE数据集,包括训练和评估模型,都使用术语“机器学习”进行标记。这表明了具有高质量注释的公共数据集的巨大价值,可以在蛋白质组学中实现新的“大数据”方法(24).

小分子生物活性数据在电子药物发现中的应用

ChEMBL数据库(25)是一个大规模的小分子生物活性数据开放资源,于2009年首次发布。它主要承载从药物化学文献中提取的精选数据以及保存的数据集,自首次发布以来,其规模和复杂性都有了显著增长。当前发布的ChEMBL(第31版,于2022年7月编制)包含230万种化合物的约2000万个生物活性数据点,对应150万次分析、15000个目标和85000份文件。

在启动ChEMBL之前,只有大型私营组织能够大规模访问各种生物目标的多样性和高质量(专有或商业)生物活性数据集。事实证明,来自ChEMBL的数据对发展不可或缺(26),验证和基准测试(27–29)广泛的人工智能和其他生物信息学应用程序,包括以下描述的应用程序。

鉴于其药物化学空间的巨大规模和覆盖面,ChEMBL经常被用于化学空间分析,或者是由于对药物的关注(30),以化学类型为中心的观点(31,32)或药物发现研究的特定领域(33–35). ChEMBL还促进了生物活性数据中物种差异的大规模比较(36)、检测和生物活性终点比较(37,38). 从这些分析中获得的见解会影响预测模型的建立和应用,并在寻找新的化学物质时指导实验设计。

ChEMBL促进了硅内目标预测算法的发展(39–41)和分子从头设计(42,43). 来自ChEMBL的生物活性数据与其他数据类型(如通路和疾病信息)一起,是基于知识图的发现工具的基础部分,应用程序包括表型分析目标反褶积(44,45).

支持人工智能的成像数据集和互操作性标准

BioImage档案(9)是EMBL-EBI的沉积数据库,用于与出版物相关的生命科学成像数据以及参考成像数据集。人工智能应用程序正在彻底改变分析生物图像并从中获得洞察力的过程。然而,此类技术通常会生成“黑盒”模型。如果没有原始的培训数据,很难理解这些模型是如何工作的,它们可能包含哪些偏差,以及可以安全地应用于哪些类型的数据。

为了支持图像分析中人工智能应用程序的再现性,BioImage Archive支持在训练数据集中沉积图像和地面实况注释。该档案已经提供了30多个具有这些AI适用注释的成像数据集,允许方法开发人员使用现有数据来加速开发。目前正在通过专用沉积管道和便于开发人员使用的演示文稿,加强对这些“AI-rady”数据集的支持。Bioimage Archive在制定互操作分割、图像分类和其他注释所需的社区标准方面发挥着积极作用,以实现AI应用的广泛成像数据共享(46).

电子显微镜公共图像档案EMPIAR(10)是一个公共资源,用于支持3D低温电子显微镜地图和断层图的原始图像(后者存档于电子显微镜数据库EMDB(11)). EMPIAR还支持使用体积EM技术以及软、硬X射线层析成像获得的3D数据集。通过“CC0”许可证模型,EMPIAR中存档的所有数据都可以无条件或限制地重新使用,使其成为图像分析中AI应用程序轻松访问的数据源。EMPIAR于2022年发布了两个专门为支持机器学习而开发的数据集——CEM-MitoLab,一个由约22K细胞EM 2D图像组成的数据集,其中包含约135K线粒体实例的标签地图;以及CEM1.5M,一个包含约1.5M个未标记2D图像补丁的细胞EM数据集,用于深度学习。

文本挖掘和人工智能应用的预打印语料库

欧洲Pubmed Central(欧洲PMC)(47)提供对世界各地生命科学预印本和同行评议期刊文章的开放访问。根据COVID-19全文预印本倡议,自2022年4月起,欧洲PMC在欧洲PMC网站上以编程方式以标准JATS XML格式搜索、阅读和重用37位资助者支持的预印本全文。截至2022年9月,欧洲PMC从24个预印本服务器中检索到超过450 000份预印本,其中近32000份为全文。在全文预印本中,98%的预印本具有开放访问许可证,可通过批量下载获得,用于文本分析和机器学习应用程序。为了进一步实现大规模元分析,欧洲PMC的预印本与基础研究数据、公开同行评审材料、引文、拨款和其他有用资源相关联。预印本语料库将增加可发现性,确保持续访问预印本中的发现,并实现新的分析可能性,包括人工智能应用。

提高预印本的透明度和跟踪

通过新版本改进和更正原稿的能力是预印本吸引力的重要组成部分。然而,预印本的更改可能很难跟踪,尤其是在许多不同的预印本服务器和期刊之间。研究预印本的研究人员需要知道应该引用哪个版本,预印本与出版版本的区别,以及预印本被撤回或删除后,预印文中的结论是否有效。为了解决这些问题,欧洲PMC现在提供了一种检查预印本更新的方法。这个物品状态监视器是一个欧洲PMC工具,允许用户检查预印本是否已被撤回、删除、在期刊上发布或更新为新版本。可以使用简单的网站工具、电子邮件警报或通过Articles API的状态更新搜索模块以编程方式检索更新。

云中现有的目标疾病关联和致病基因的大数据

Open Targets财团是EMBL-EBI、Wellcome Sanger Institute和制药公司合作伙伴GSK、赛诺菲、BMS之间的竞争前合作伙伴关系,辉瑞将于2022年加入。该联盟生成数据并构建信息学工具,以加强目标的识别和优先排序,最终实现更有效、更安全的药物。开放目标产生了两种开源信息资源:开放目标平台(48),为目标疾病关联证据和优先级提供知识库和工具;和开放目标遗传学(49),旨在解决从全基因组关联研究中识别致病基因(以及潜在药物靶点)的挑战。这些数据库越来越多地被用作参考数据库,但除此之外,它们还提供结构化数据,以实现其他数据集成和人工智能应用。

2022年5月,这些资源通过Google BigQuery和AWS Open Data在云中提供。这种集成和可访问性使数据能够用于人工智能应用,例如机器学习,以识别新的目标-疾病关联(50),为不同的生物学见解构建知识图(51–54)以及对药物靶点优先排序的新计算方法进行基准测试(55,56).

由于代码库是开源的,因此可以创建平台的单独实例并根据用户需求进行调整,例如最近发布的NIH儿童癌症数据倡议分子目标平台,该平台集成了肿瘤基因表达和体细胞改变数据(图).

示例结果来自分子靶点平台,这是美国国立癌症研究院支持的开放靶点平台实例,重点关注临床前儿科肿瘤学数据。
图3。

示例结果来自分子靶点平台,这是美国国立癌症研究院支持的开放靶点平台实例,重点关注临床前儿科肿瘤学数据。

蛋白质组学的开放数据标准

EMBL-EBI继续领导蛋白质组学标准倡议(PSI)的许多活动,该组织负责开发蛋白质组学的开放数据标准(57). 在这些活动中,在2022年,PSI与Top-Down蛋白质组学联盟合作发布了ProForma 2.0标记(58),提供了一种表示肽形式和蛋白质形式(蛋白质序列和蛋白质修饰的组合)的标准方法。

ProForma可与通用光谱标识符结合使用(59)是2021年发布的PSI标准,为ProteomeXchange存储库(包括PRIDE)中的质谱提供了唯一标识符。

培训

近年来,在培训发展和提供方面遇到了许多挑战,但2022年,EMBL-EBI重新引入了在职培训,并保留了广泛的虚拟课程。

EMBL-EBI的培训计划侧重于使科学家能够充分利用公开获取的数据资源和服务,并发展关键的生物信息学分析技能。正如EMBL更新的开放科学政策所强调的那样,通过在所有EMBL-EBI现场课程中增加数据管理和开放数据关键原则的培训,这一目标在2022年得到了进一步支持。

这使我们能够鼓励我们培训的所有科学家将其数据存储在开放资源中,确保他们知道沉积过程是如何工作的,如何开始,以及在哪里可以找到所有方面所需的支持。我们还与沉积率历来较低的国家(如LMIC)合作,以确定沉积障碍以及如何克服这些障碍。每年大约有500名科学家参加同侪课程,其中大多数报告说,他们继续将自己的学习传授给他人。基于网络的按需培训每年约有50万独立IP用户,其中80%的人认为网络研讨会很好或很好。

2022年,全面重新设计培训网站的三年项目达到了顶峰。测试表明,对于那些寻求培训课程和内容供自己使用或培训他人的人来说,用户体验有了很大改善。2022年的一个关键发展是确保那些通过EMBL-EBI点播材料进行自主学习的人能够轻松跟踪他们的进度,记录他们完成的课程,并规划他们的未来学习。新的个人账户功能使EMBL-EBI学员能够标记最喜欢的课程,并手动记录课程进度,同时记录测验结果并保存完成记录。

新的按需形式,如策划的收藏和学习途径,为学员提供了一种更结构化的学习特定主题的方法。该导学课程由点播教程和网络研讨会混合而成,同时还摘录了现场课程的视频和实践练习,通过EMBL-EBI网络研讨会计划以及专家小组问答环节进一步加强了这一导学。

最后一项工作是通过为每门课程创建一套可公开访问的培训材料,进一步提高EMBL-EBI现场培训材料的公平性。素材始终可以通过FTP后置课程获得,但由于会话的上下文经常丢失,因此它们的重用受到了限制。EMBL-EBI新课程教材集提供了每门课程的完整概述,便于培训师和受训者重用。

最后,EMBL-EBI建立了一个特定于培训师的空间,以进一步建设生物信息学培训师和教育工作者的能力,并支持外部培训师使用专家书面材料教授EMBL-EMI资源。

结论

随着世界和科学界从持续的新冠肺炎疫情中恢复过来,有足够的机会反思开放科学和开放数据的重要性。EMBL-EBI等开放数据资源需要不断发展,并与其用户社区互动,以满足不断变化的科学需求。上述的许多发展反映了为人工智能应用准备数据资源的新需求,人工智能应用已经开始改变许多科学领域。人工智能的构建体现在参考数据集的收集和管理,以及社区驱动数据标准和指南的开发,这些标准和指南支持数据的重用,超出了生成数据的实验范围。

DeepMind开发的AlphaFold充分证明了人工智能应用的变革潜力,它预测了UniProt中几乎所有200万个蛋白质序列的蛋白质结构,并在许多不同领域中对这一新数据进行了大量科学应用。EMBL-EBI的数据资源可以促进此类发展,因为它们提供了可持续、开放的高质量数据资源,在某些情况下,这些数据资源是几十年来收集的。我们的目标是让EMBL-EBI数据资源不断为改变生命科学领域的工具和研究见解奠定基础。

数据可用性

上述所有数据资源均可在https://www.ebi.ac.uk/services网站.

致谢

EMBL-EBI的作者和工作人员感谢成千上万的科学家,他们为这些共享数据资源提交了数据和注释。本文列出的作者是文本的直接贡献者,但我们服务的所有发展都是管理EMBL-EBI托管的数据资源的更广泛的服务团队的工作,我们在此感谢他们的努力。

基金

欧洲工商银行协会(EMBL-EBI)欠其资助者的债,包括欧洲工商银行联盟(EMBL)成员国;欧洲委员会;威康;英国研究与创新;美国国立卫生研究院;我们的行业计划和许多其他计划。EMBL-EBI可以为用户提供的数据服务的持续增长是由英国政府为EMBL-EPI数据基础设施项目提供的专用资金实现的,目前通过战略优先基金实现。开放存取收费资金:EMBL。

利益冲突声明。未声明。

参考文献

1

马德拉
F、。
,
皮尔斯
M。
,
蒂维
A.R.N.公司。
,
巴苏特卡尔
第页。
,
J。
,
埃德巴利
O。
,
马杜苏达南
N。
,
列斯尼科夫
答:。
,
洛佩兹
R。
2022年EMBL-EBI的搜索和序列分析工具服务
.
核酸研究。
2022
;
50
:
W276型
W279型
.

2

wwPDB财团
蛋白质数据库:3D大分子结构数据的单一全球档案
.
核酸研究。
2019
;
47
:
D520型
D528型
.

三。

UniProt财团
UniProt:2021年通用蛋白质知识库
.
核酸研究。
2021
;
49
:
D480型
D489号
.

4.

米切尔
A.L.公司。
,
阿尔梅达
答:。
,
贝拉科奇
M。
,
波兰德
M。
,
布尔金
J。
,
科克伦
G.公司。
,
克鲁索
M.R.公司。
,
卡莱
五、。
,
波特
皮下注射。
,
理查森
洛杉矶。
等。
MGnify:2020年微生物组分析资源
.
核酸研究。
2020
;
48
:
D570型
D578型
.

5

瓦拉迪
M。
,
安阳(Anyango)
美国。
,
德什潘德
M。
,
奈尔
美国。
,
娜塔莎
C、。
,
约丹诺娃
G.公司。
,
D。
,
斯特罗
O。
,
木材
G.公司。
,
莱顿
答:。
等。
AlphaFold蛋白质结构数据库:利用高精度模型大规模扩展蛋白质序列空间的结构覆盖范围
.
核酸研究。
2022
;
50
:
D439号
D444号
.

6

摩萨拉甘蒂
美国。
,
奥巴斯卡-科辛斯卡
答:。
,
西格尔
M。
,
谷口
R。
,
图罗·奥娃
B。
,
季摩礼
首席执行官。
,
布扎克
英国。
,
施密特
F.H.公司。
,
马尔乔塔
E.公司。
,
麦克穆尔
麻省理工学院。
等。
基于人工智能的结构预测支持对人类核孔进行综合结构分析
.
科学类
.
2022
;
376
:
eabm9506型
.

7

康明斯
C、。
,
艾哈迈德
答:。
,
阿斯拉姆
R。
,
布尔金
J。
,
德夫拉吉
R。
,
埃德巴利
O。
,
古普塔
D。
,
哈里森
P.W.公司。
,
哈西卜
M。
,
霍尔特
美国。
等。
2021年欧洲核苷酸档案
.
核酸研究。
2022
;
50
:
D106型
第110天
.

8

弗里伯格
文学硕士。
,
弗罗蒙
洛杉矶。
,
达阿尔蒂
T。
,
罗梅罗
空军。
,
西赫斯
国际期刊。
,
珍妮
答:。
,
克里
G.公司。
,
模具
M。
,
阿里奥萨
R。
,
巴赫纳
美国。
等。
2021年欧洲基因组-现象档案
.
核酸研究。
2022
;
50
:
D980型
D987型
.

9

埃伦伯格
J。
,
斯威德洛
J.R.公司。
,
巴洛
M。
,
厨师
首席执行官。
,
萨尔坎群岛
美国。
,
帕特瓦尔丹
答:。
,
巴西
答:。
,
伯尼
E.公司。
呼吁建立生物图像数据公共档案
.
自然方法
.
2018
;
15
:
849
854
.

10

伊乌丁
答:。
,
科里尔
P.K.公司。
,
索马里圣地
美国。
,
韦恩德
美国。
,
卡特维特罗
C、。
,
丰塞卡
N。
,
萨利赫
O。
,
克莱维特
G.J.(通用)。
,
帕特瓦尔丹
答:。
EMPIAR:电子显微镜公共图像档案
.
核酸研究。
2022
;https://doi.org/10.1093/nar/gkac1062.

11

劳森
C.L.公司。
,
帕特瓦尔丹
答:。
,
贝克
M.L.公司。
,
赫里克
C、。
,
加西亚
E.S.公司。
,
哈德逊
业务伙伴。
,
拉格斯泰特
一、。
,
卢德克
S.J.公司。
,
平蒂列
G.公司。
,
萨拉
R。
等。
用于3DEM的EMDataBank统一数据资源
.
核酸研究。
2016
;
44
:
D396号
D403型
.

12

米斯特里
J。
,
丘古兰斯基
美国。
,
威廉姆斯
L。
,
库雷希
M。
,
萨拉查
总会计师。
,
松哈默
有限责任公司。
,
托萨托
S.C.E.公司。
,
帕拉丁
L。
,
拉吉
美国。
,
理查森
洛杉矶。
等。
Pfam:2021年蛋白质家族数据库
.
核酸研究。
2021
;
49
:
D412号
D419号
.

13

布鲁姆
M。
,
H.-Y.公司。
,
丘古兰斯基
美国。
,
格雷戈
T。
,
坎达萨米
美国。
,
米切尔
答:。
,
努卡
G.公司。
,
Paysan-Lafosse公司
T。
,
库雷希
M。
,
拉吉
美国。
等。
间蛋白家族和结构域数据库:20年
.
核酸研究。
2021
;
49
:
D344号
D354号
.

14

萨尔坎群岛
美国。
,
戈斯特夫
M。
,
阿塔尔
答:。
,
贝伦吉
E.公司。
,
梅尔尼丘克
O。
,
阿里
答:。
,
明格特
J。
,
雷达
J.C.公司。
,
C、。
,
吉洪诺夫
答:。
等。
生物研究数据库为支持生命科学研究的所有数据提供一站式服务
.
核酸研究。
2018
;
46
:
D1266号
D1270型
.

15

萨尔坎群岛
美国。
,
福尔格拉布
答:。
,
阿里
答:。
,
阿塔尔
答:。
,
贝伦吉
E.公司。
,
迪亚兹
N。
,
费索瓦
美国。
,
乔治
N。
,
伊克巴尔
H。
,
库里
美国。
等。
从arrayexpress到biostudies
.
核酸研究。
2021
;
49
:
D1502型
D1506型
.

16

UniProt财团
UniProt:2023年的通用蛋白质知识库
.
核酸研究。
2022
;https://doi.org/10.1093/nar/gkac1052.

17

麦克道格尔
答:。
,
沃林金
五、。
,
赛义迪
R。
,
波焦利
D。
,
泽尔纳
H。
,
哈特顿·埃利斯
E.公司。
,
乔希
五、。
,
奥多诺万
C、。
,
果园
美国。
,
奥金克洛斯
A.H.公司。
等。
UniRule:uniprot知识库中用于自动注释的统一规则资源
.
生物信息学
.
2020
;
36
:
4643
4648
.

18

Perez-Riverol公司
年。
,
J。
,
班德拉
C、。
,
加西亚·塞斯多斯
D。
,
赫瓦帕提拉纳
美国。
,
卡马奇纳坦
美国。
,
昆都
D.J.公司。
,
普拉卡什
答:。
,
Frericks拉链
答:。
,
艾泽纳赫
M。
等。
2022年的PRIDE数据库资源:基于质谱的蛋白质组学证据中心
.
核酸研究。
2022
;
50
:
D543型
D552型
.

19.

德国
E.W.公司。
,
班德拉
N。
,
Perez-Riverol公司
年。
,
沙尔马
五、。
,
卡弗
J.J.公司。
,
门多萨
L。
,
昆都
D.J.公司。
,
美国。
,
班德拉
C、。
,
Kamatchinathan公司
美国。
等。
ProteomeXchange联盟10年:2023年更新
.
核酸研究。
2022
;https://doi.org/10.1093/nar/gkac1040.

20.

曼恩
M。
,
古玛
C、。
,
西-西。
,
施特劳斯
麻省理工学院。
蛋白质组学和生物标记物发现的人工智能
.
细胞系统。
2021
;
12
:
759
770
.

21

奥乔亚
D。
,
雅努克(Jarnuczak)
空军。
,
维埃特斯
C、。
,
格雷
M。
,
苏切雷
M。
,
马特乌斯
答:。
,
克莱费尔德
答:。
,
希尔
答:。
,
加西亚-朗索
L。
,
斯坦因
F、。
等。
人类磷酸蛋白质组的功能景观
.
自然生物技术。
2020
;
38
:
365
373
.

22

妈妈
年。
,
Z.公司。
,
B。
,
年。
,
线路接口单元
十、。
,
年。
,
N。
,
用钳子钳起
十、。
,
M。
,
Ye(是)
十、。
等。
利用深度学习法鉴定人体肠道微生物中的抗菌肽
.
自然生物技术。
2022
;
40
:
921
931
.

23

B。
,
科达杜斯特
医学硕士。
,
奥尔森
N。
,
沃加
有限责任公司。
,
快速
E.公司。
,
线路接口单元
C.L.公司。
,
穆夫托格鲁
年。
,
剑士
B.J.公司。
,
迪恩
M。
,
征收
R。
等。
通过综合深度学习预测HLAⅡ类抗原呈递
.
自然生物技术。
2019
;
37
:
1332
1343
.

24

C、。
,
福尔格拉布
答:。
,
普福伊费尔
J。
,
索洛维耶娃
E.M.公司。
,
J。
,
莫雷诺
第页。
,
卡马奇纳坦
美国。
,
昆都
D.J.公司。
,
乔治
N。
,
费索瓦
美国。
等。
用于多组学集成和大数据分析的蛋白质组学样本元数据表示
.
国家公社。
2021
;
12
:
5854
.

25

门德斯
D。
,
高尔顿
答:。
,
本托
A.P.公司。
,
钱伯斯
J。
,
德维吉
M。
,
费利克斯
E.公司。
,
马加里尼奥斯
M.P.(医学博士)。
,
摩斯克拉
J.F.公司。
,
穆托沃
第页。
,
诺沃特卡
M。
等。
ChEMBL:直接沉积生物测定数据
.
核酸研究。
2019
;
47
:
D930号
D940型
.

26

沃尔特
M。
,
艾伦
法律公告。
,
勒昂织女星
答:。
,
韦伯
S.J.公司。
,
吉列
V.J.公司。
插补模型相对于传统QSAR模型在毒性预测中的优势分析
.
《化学杂志》。
2022
;
14
:
32
.

27

Lenselink公司
欧洲银行。
,
十个迪克
N。
,
邦格尔斯
B。
,
帕帕达托斯
G.公司。
,
范·弗利杰曼
H.W.T.公司。
,
科瓦尔奇克
西。
,
伊杰泽曼
A.P.公司。
,
范·韦斯顿
G.J.P.公司。
除了炒作:深度神经网络优于使用ChEMBL生物活性基准集的既定方法
.
《化学杂志》。
2017
;
9
:
45
.

28

迈尔
答:。
,
Klambauer公司
G.公司。
,
Unterthiner公司
T。
,
斯泰亚特
M。
,
韦格纳
J.K.(英国)。
,
凯勒曼斯
H。
,
聪明
D.-A.公司。
,
霍克莱特
美国。
基于ChEMBL的药物靶点预测机器学习方法的大尺度比较
.
化学。科学。
2018
;
9
:
5441
5451
.

29

棕色
N。
,
费斯卡托
M。
,
泽格勒
平均小时数。
,
沃彻
交流。
GuacaMol:从头开始分子设计的基准模型
.
化学杂志。信息模型。
2019
;
59
:
1096
1108
.

30

利森
P.D.公司。
,
本托
A.P.公司。
,
高尔顿
答:。
,
赫西
答:。
,
礼貌
E.J.公司。
,
拉杜
C.J.公司。
,
浸出
阿拉伯联合酋长国。
基于靶点的“类Drug”特性和配体效率评估
.
医学化学杂志。
2021
;
64
:
7210
7230
.

31

兹德拉齐尔
B。
,
古哈
R。
支架的升降:药物化学文献中支架的趋势分析
.
医学化学杂志。
2018
;
61
:
4688
4703
.

32

Jasial公司
美国。
,
年。
,
巴约拉斯
J。
评估生物活性化合物和支架随时间的增长:对铅发现和支架跳跃的影响
.
化学杂志。信息模型。
2016
;
56
:
300
307
.

33.

霍瓦思
D。
,
奥尔洛夫
答:。
,
奥斯洛德金
D.I.公司。
,
伊斯穆罕默德托夫
答:。
,
马可
G.公司。
,
瓦尔内克
答:。
公共数据库中抗冠状病毒结构活性信息的化学检查(ChEMBL)
.
摩尔通知
.
2020
;
39
:
e2000080美元
.

34

克里蒙科
英国。
,
马可
G.公司。
,
霍瓦思
D。
,
瓦内克
答:。
ChEMBL抗病毒化合物组的化学空间映射和结构-活性分析
.
化学杂志。信息模型。
2016
;
56
:
1438
1454
.

35

奥尔洛夫
答:。
,
哲里贝克
答:。
,
埃列茨卡亚
答:。
,
切尔尼科夫
V.S.公司。
,
科兹洛夫斯卡娅
L.I.有限责任公司。
,
哲尔诺夫
Y.V.公司。
,
克斯特尤基维奇
年。
,
帕柳林
V.A.公司。
,
尼古拉耶夫
E.N.公司。
,
奥斯洛德金
D.I.公司。
等。
利用ChEMBL数据库中的FTICR-MS数据挖掘检查腐殖质活性成分的分子空间和可行结构
.
科学。代表。
2019
;
9
:
12066
.

36

默文
左侧。
,
布卢苏
K.C.公司。
,
卡拉什
L。
,
阿夫扎尔
上午。
,
斯文松
F、。
,
弗斯
文学硕士。
,
巴雷特
一、。
,
恩奎斯特
O。
,
折弯机
答:。
正交化学空间及其对目标预测的影响
.
生物信息学
.
2018
;
34
:
72
79
.

37

兹德拉齐尔
B。
,
平托
M。
,
瓦桑塔纳坦
第页。
,
威廉姆斯
A.J.公司。
,
巴尔德鲁德
L.Z.有限责任公司。
,
恩奎斯特
O。
,
奇切斯特
C、。
,
赫西
答:。
,
奥弗林顿
J.P.公司。
,
埃克
G.F.总平面图。
注释人类P-糖蛋白生物测定数据
.
摩尔Inf。
2012
;
31
:
599
609
.

38

卡利奥科斯基
T。
,
克莱默
C、。
,
乌尔佩蒂
答:。
,
吉黛克
第页。
混合IC的可比性50数据-统计分析
.
公共科学图书馆一号
.
2013
;
8
:
电子61007
.

39

Bosc公司
N。
,
阿特金森
F、。
,
费利克斯
E.公司。
,
高尔顿
答:。
,
赫西
答:。
,
浸出
阿拉伯联合酋长国。
QSAR和保形预测方法的大规模比较及其在药物发现中的应用
.
《化学杂志》。
2019
;
11
:
4
.

40

离开
M。
,
雷蒙德
J-L。
多指纹浏览器:基于ChEMBL生物活性数据的网络多指纹目标预测工具
.
《化学杂志》。
2017
;
9
:
11
.

41

库苏卡斯
答:。
,
R。
,
卡兰塔莫马蒂
年。
,
穆萨
香港。
,
克拉夫克
西。
,
米切尔
日本银行。
,
格伦
钢筋混凝土。
,
折弯机
答:。
电子目标预测:定义基准数据集并比较多类朴素贝叶斯和parzen-rosenblat窗口的性能
.
化学杂志。信息模型。
2013
;
53
:
1957
1966
.

42

奥利维克罗纳
M。
,
布拉施克
T。
,
恩奎斯特
O。
,
H。
通过深度强化学习进行分子去新生设计
.
《化学杂志》。
2017
;
9
:
48
.

43

科斯特詹斯
答:。
,
德温特
H。
LEADD:新药物设计的拉马克进化算法
.
《化学杂志》。
2022
;
14
:
.

44

扎霍兰斯基-Kő哈米
G.公司。
,
Sheils公司
T。
,
奥普拉
T.I.公司。
SmartGraph:网络药理学研究平台
.
《化学杂志》。
2020
;
12
:
5
.

45

达夫尼特
B。
,
Cerisier公司
N。
,
博埃齐奥
B。
,
克莱尔
答:。
,
杜克罗特
第页。
,
多瓦尔
T。
,
戈耶
答:。
,
棕色
D。
,
奥杜泽
英国。
,
塔布罗
O。
用于表型筛选的化学基因组文库的开发
.
《化学杂志》。
2021
;
13
:
91
.

46

萨尔坎群岛
美国。
,
西。
,
科林森
L。
,
达罗
M.C.公司。
,
埃伦伯格
J。
,
格伦沃尔德
D。
,
赫里奇
J.-K.公司。
,
伊乌丁
答:。
,
马丁斯
总重量。
,
Meehan公司
T。
等。
REMBI:推荐的生物图像元数据,支持生物学中显微镜数据的重用
.
自然方法
.
2021
;
18
:
1418
1422
.

47

弗格森
C、。
,
阿劳约
D。
,
福克
L。
,
郭台铭
年。
,
哈默勒
答:。
,
Z.公司。
,
艾德·史密斯
M。
,
列夫琴科
M。
,
马里诺
N。
,
南比亚尔
R。
等。
2020年欧洲PMC
.
核酸研究。
2021
;
49
:
D1507型
D1514号
.

48

奥乔亚
D。
,
大力神
答:。
,
卡莫纳
M。
,
素菜
D。
,
冈萨雷斯-乌里亚特
答:。
,
马兰戈内
C、。
,
米兰达
答:。
,
富米斯
L。
,
卡瓦略-西尔瓦
D。
,
斯皮策
M。
等。
开放靶点平台:支持系统化药物靶点识别和优先排序
.
核酸研究。
2021
;
49
:
D1302型
310美元
.

49

古塞尼
M。
,
Mountjoy山
E.公司。
,
卡莫纳
M。
,
泥炭
G.公司。
,
施密特
E.M.公司。
,
大力神
答:。
,
富米斯
L。
,
米兰达
答:。
,
卡瓦略-西尔瓦
D。
,
布尼埃罗
答:。
等。
开放靶点遗传学:利用大规模遗传学和功能基因组学系统鉴定trait-associated基因
.
核酸研究。
2021
;
49
:
D1311型
D1320型
.

50

汉族
年。
,
克林格
英国。
,
拉贾尔
D.K.公司。
,
C、。
,
三通
E.公司。
通过机器学习方法在开放目标平台中发现新的目标疾病关联
.
BMC生物信息。
2022
;
23
:
232
.

51

戈格勒瓦
答:。
,
波利赫罗诺普洛斯
D。
,
普法伊费尔
M。
,
波罗申
五、。
,
乌赫托
M。
,
马丁
医学博士。
,
索普
H。
,
博尔诺
答:。
,
史密斯
P.D.公司。
,
Sidders公司
B。
等。
基于知识图的推荐框架确定EGFR突变非小细胞肺癌耐药驱动因素
.
国家公社。
2022
;
13
:
1667
.

52

Ye(是)
C、。
,
Swiers公司
R。
,
邦纳
美国。
,
巴雷特
一、。
用于发现药物靶点的知识图增强张量分解模型
.
IEEE/ACM传输。计算。生物信息。生物信息。
2022
;
1
:https://doi.org/10.109/TCBB.2022.3197320.

53.

盖莱陶
D。
,
尼科洛夫
答:。
,
爱德华兹
G.公司。
,
戈格勒瓦
答:。
,
杰克逊
R。
,
杨松
E.公司。
,
拉莫夫
答:。
,
尼尔森
美国。
,
彼得松
M。
,
波罗申
五、。
等。
生物见解知识图:支持药物开发的集成知识图
.
2021
;
bioRxiv doi:
2021年11月1日,预印本:未经同行审查
https://doi.org/10.101/1021.10.28.466262.

54

费尔南德斯·托拉斯
答:。
,
杜兰·弗里戈拉
M。
,
贝托尼
M。
,
洛卡泰利
M。
,
阿洛伊铝合金
第页。
将生物医学数据作为预先计算的知识图嵌入到生物技术中并将其格式化
.
国家公社。
2022
;
13
:
5304
.

55

法伊利
M。
,
帕纳宁
J。
,
福尔蒂诺
五、。
使用新的安全性和疗效评分方法优先考虑目标疾病相关性
.
科学。代表。
2019
;
9
:
9852
.

56

帕利瓦尔语
美国。
,
德乔治
答:。
,
尼尔
D。
,
米歇尔
J-B。
,
鳄鱼
上午。
异质图张量因子分解预测治疗靶点的临床前验证
.
科学。代表。
2020
;
10
:
18250
.

57

德国
E.W.公司。
,
果园
美国。
,
宾兹
P.-A.公司。
,
比特雷米厄
西。
,
艾泽纳赫
M。
,
信息字
H。
,
河曲
美国。
,
H。
,
迈耶
G.公司。
,
门沙尔特
G.公司。
等。
蛋白质组学标准倡议:十五年的进展和未来的工作
.
蛋白质组研究杂志。
2017
;
16
:
4288
4298
.

58

LeDuc公司
钢筋混凝土。
,
德国
E.W.公司。
,
宾兹
P.-A.公司。
,
伐木工人
R.T.公司。
,
塞斯尼克
A.J.公司。
,
克莱因
J.A.公司。
,
范登·博斯克(Van Den Bossche)
T。
,
加布里埃尔
R。
,
亚拉瓦西
答:。
,
Perez-Riverol公司
年。
等。
蛋白质组学标准倡议的proforma 2.0:统一蛋白质形式和肽形式的编码
.
蛋白质组研究杂志。
2022
;
21
:
1189
1195
.

59

德国
E.W.公司。
,
Perez-Riverol公司
年。
,
卡弗
J。
,
河曲
美国。
,
门多萨
L。
,
范登·博斯克(Van Den Bossche)
T。
,
加布里埃尔
R。
,
宾兹
P.-A.公司。
,
普尔曼
B。
,
太阳
Z.公司。
等。
质谱的通用光谱标识符
.
自然方法
.
2021
;
18
:
768
770
.

这是一篇根据知识共享署名许可条款发布的开放存取文章(https://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。