跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2021年1月8日;49(D1):D605–D612。
2020年11月25日在线发布。 数字对象标识:10.1093/nar/gkaa1074年
预防性维修识别码:PMC7779004号
PMID:33237311

2021年的STRING数据库:可定制的蛋白质-蛋白质网络,以及用户加载的基因/测量集的功能特征

摘要

细胞生命依赖于生物分子之间复杂的功能联系网络。在这些关联中,蛋白质-蛋白质相互作用因其多功能性、特异性和适应性而特别重要。STRING数据库旨在整合蛋白质之间所有已知和预测的关联,包括物理相互作用和功能关联。为了实现这一点,STRING从多个来源收集并评分证据:(i)科学文献的自动文本挖掘,(ii)交互实验和注释复合物/通路的数据库,(iii)来自共表达和保守基因组背景的计算交互预测,以及(iv)相互作用证据从一个生物体到另一个生物体的系统转移。STRING旨在实现广泛覆盖;即将发布的11.5版资源将包含14000多种生物。在这篇更新文章中,我们描述了文本识别系统的变化,这是一种用于物理交互的新评分模式,以及用于定制、扩展和共享蛋白质网络的广泛用户界面功能。此外,我们还描述了如何使用全基因组实验数据查询STRING,包括自动检测用户查询数据中丰富的功能和潜在的偏见。STRING资源可在线获取,网址为https://string-db.org/.

简介

生物分子网络广泛应用于现代生物学和医学(1–3). 它们能够通过“逐关联”原理推断分子功能(4,5),允许表征生物过程中的模块性(6–8)并作为深度学习的基础(9,10). 它们还支持诸如药物靶点发现或药物再利用等应用(11,12),有助于解释基因组变异(13). 生物分子网络的构建有许多不同的目的和范围,包括转录中的基因-基因调控事件网络、激酶/磷酸酶及其底物网络,或代谢物网络以及相互转化的酶。蛋白质-蛋白质关联网络是最有用、最通用、范围最广的网络类型之一;它包含给定基因组中的所有蛋白质编码基因,并强调其功能关联(14). 由于蛋白质可以以多种方式相互作用,“功能关联”通常是在操作上定义的:任何两个共同参与特定细胞过程的蛋白质都被认为是功能关联的(14–17); 这个定义甚至包括在同一过程中起拮抗作用的蛋白质对。

为了构建生物体蛋白质的功能关联网络,需要考虑各种来源的相互作用证据;这些来源的适用性可能不同,这取决于所讨论的蛋白质、它们的生物学作用以及它们被实验研究的程度。众所周知,跨不同证据源的数据集成可以提高整体网络质量(18–21)考虑到蛋白质可以通过多种方式结合,这也是必要的。交互证据的来源可分为三大类:(i)可从精选路径数据库获得的先前知识,或更广泛地从科学出版物获得的知识,(ii)计算交互预测-来自各种算法,以及(iii)直接实验室实验,使用各种低吞吐量或高吞吐量的分析。

STRING数据库是专门用于全生物体蛋白质关联网络的几个在线资源之一。该领域最近在(14,22). 常用资源包括FunCoup(23),通用汽车公司(24)、HumanBase/GIANT(25),进口(26)、IID(27),ConsensusPathDB(28)和HumanNet(29). 这些资源在整合的交互证据类型、有机体覆盖范围和web界面特征方面有所不同。STRING旨在将重点放在覆盖率(适用于数千个基因组测序生物体)、证据来源的完整性(例如,包括自动文本挖掘)和可用性特征(例如定制、富集检测和编程访问)上。它允许用户登录并使他们的搜索持久化,它还提供在线浏览,以便于检查支持每个蛋白质-蛋白质关联的潜在证据。

除了网站之外,还可以在Cytoscape中直接查询数据库(通过专用应用程序)(30)以及从R内(通过生物导体封装)(31). STRING还可以通过其全面的REST API以编程方式查询任何网站或软件的关联、网络图像或丰富内容。根据Creative Commons Attribution(CC BY 4.0)许可证,所有网络项目和分数,以及所有生成的图像和表格都可以无限制地免费使用。STRING已被选为欧洲核心数据资源ELIXIR财团(32),与ELIXIR内外的其他资源紧密关联,目前每天约有5000个不同的用户使用。

数据库内容

STRING的整个数据库内容是预先计算的,存储在关系数据库中,可单独下载。对给定网络中的所有交互证据进行基准测试和评分(31,33–34),分数被整合到最终的“综合分数”中。该分数在0和1之间进行缩放,并根据所有相关证据评估STRING对拟议关联是否具有生物学意义的信心。每个关联都是作为两个不同蛋白质之间的连接提供的,每个蛋白质来自不同的蛋白质编码基因位点。STRING不能区分剪接变异体或翻译后修饰的同一部位编码的蛋白质亚型,相反,所有这些亚型都是折叠的,并由单个典型蛋白质(即每个基因位点的单个蛋白质)表示。

对STRING关联有贡献的各种证据类型首先进行基准测试,并分别在七个不同的方面进行评分证据渠道。这些频道在可视STRING网络中也可以通过不同颜色的线识别,用户可以单独禁用它们。前三个频道(邻里,聚变共现)包含基于全基因组比较的计算关联预测。这些所谓的“基因组背景”通道可以为所有有完整测序基因组的生物体计算,并且不依赖于任何进一步的实验室分析或测量。在邻域通道的情况下,当两个蛋白质的编码基因在染色体上彼此非常接近时,就会给它们一个关联分数。该通道主要适用于细菌和古菌;基因对在染色体上的距离越近,得分越高(距离是根据两个开放阅读框之间的非编码核苷酸来测量的)。对于融合通道,STRING扫描所有基因组,寻找似乎是基因融合事件结果的开放阅读框。对于所有推断的融合事件,其他基因组/生物体中的组成基因、非融合基因被给予关联分数;分数越高,融合事件就越能根据参与基因的同源性来描述。最后一个基因组上下文通道是共现通道。在这里,STRING搜索在进化过程中其出现模式显示相似性的成对基因。当基因在进化过程中被转移、丢失或复制在一起时,这种相似性就会出现,而这反过来又意味着一种共同的功能。有关此通道的实现详细信息,请参阅(37).

接下来的两个渠道是处理功能基因组实验或直接实验室分析。对于第一个(共同表达)STRING正在从多个来源收集基因表达证据;然后对其进行规范化、修剪,并比较各种条件下的表达式配置文件。在表达谱中表现出一致相似性的成对基因被分配为关联分数;大多数表达数据是基于RNA的,但我们也从ProteomeHD数据库导入蛋白质组表达数据(38). 这个实验通道从实验室的实验和分析中收集蛋白质-蛋白质相互作用证据,包括生物化学、生物物理和遗传实验;所有这些交互证据都是从iMEX联盟组织的精心策划的交互数据库中导入的(39),加上BioGRID(40).

最后两个证据渠道涉及关于蛋白质-蛋白质关联的先前综合知识。首先知识channel从策划的pathway数据库中分析关联证据,这些证据由专家馆长手动收集和整合。这些包括KEGG中注释的路径(41),反应组(42)和MetaCyc(43)以及EBI复合物门户定义的蛋白质复合物(44)或由基因本体联盟(45). 最后,对科学文献中的短信提醒频道。自STRING 11.5版起,文本挖掘频道基于PubMed摘要(上次更新日期为2020年7月28日)、PMC开放存取子集的文章(上次更新时间为2020年4月17日)和OMIM的文本(46)和新加坡元(47)条目描述。在同一句话、同一段落或仅仅在同一出版物中提到的蛋白质对被分配一个基准关联分数,其计算在(33).

定制和共享

STRING资源生成的网络和报告,无论是用于功能关联还是物理交互,都可以通过许多选项进行配置和控制。首先,用户可以大致确定给定网络应考虑哪些类型的证据。STRING中的所有交互证据都按主题分为“通道”(如文本挖掘、共同表达、实验室实验);用户可以单独禁用这些功能。其次,用户可以控制不显示交互的最低分数阈值。第三,通过单独或组合给网络中的各个蛋白质着色,可以突出显示感兴趣的丰富途径。第四,可以控制网络的视觉外观,包括是否包括单线态(即未连接的蛋白质),或者应该通过网络边缘的造型来突出显示什么类型的信息。最后,定制网络的最通用方法是通过所谓的“有效负载”机制向其添加额外的自定义数据(见下文)。总之,这些机制允许生成高度特定的网络和数据集。然后可以以多种格式导出这些自定义网络,包括表格格式、机器可读格式或视觉格式。同样的文件格式和导出也可以通过基于REST的API接口进行计算检索。此外,在大多数STRING视图中,可以根据请求生成稳定的web-URL,可以与其他用户共享;此URL受版本控制,不应在给定STRING版本的生存期内过期。

对于通过STRING的登录机制识别自己身份的经常性用户,可以使用其他选项来生成和共享内容。这些用户可以生成并存储自己的基因列表;然后可以在各种设置下重复查看和导出这些内容。更重要的是,他们可以上传和控制自己提供的附加数据(“负载数据”,见图图1)。1). 此类附加数据可以是以节点为中心、以边缘为中心或两者兼而有之。通过以节点为中心的有效载荷,用户可以控制蛋白质节点外观的几个方面,从而可以针对每个节点传达自己的特定于研究的测量或统计数据。可以为每个节点定制节点颜色、文本注释和指向外部web资源的链接;此外,蛋白质“弹出”窗口中的一个小空间可以为任意HTML代码保留。类似地,以边缘为中心的设置包括自定义每个蛋白质-蛋白质关联显示的信息的可能性,包括文本注释和额外标记。此外,用户可以根据他们可能拥有的额外证据来提高给定关联的置信度(或创建新关联)。这可以通过提高STRING证据通道之一的置信度得分来实现,也可以通过将分数分配给为此目的保留的专用“外部”通道来实现。无论是哪种方式,这些用户指定的关联分数都会构成关联的最终综合分数,并且可以作为组织范围网络的一部分进行完全搜索和浏览。

保存图片、插图等的外部文件。对象名称为gkaa1074fig1.jpg

添加外部信息的用户扩展STRING网络示例。蓝色突出显示的SARS-CoV-2蛋白已使用数据添加(“负载”)机制添加到STRING中的标准人类蛋白-蛋白质关联网络中。病毒蛋白将根据其与宿主蛋白的已知关联自动出现在网络中(从IMEx冠状病毒相互作用组导入(35)). 此外,在最近的全基因组CRISPR筛查中确定,其表达似乎控制SARS-CoV-2病毒进入细胞的宿主蛋白(36)突出显示:清除导致病毒进入效率下降的蛋白质以红色突出显示;绿色突出显示的是蛋白质,其清除会增强病毒进入。基于与CRISPR筛选蛋白的密切关联,没有亮点的蛋白质进入了网络。插图描述了网络的拓扑统计:与类似大小的随机网络相比,它在功能关联方面得到了极大的丰富。

与用户提供的有效载荷数据一起,可以上传任意的图例图像来解释和突出显示添加的内容,还可以上传页面顶部显示的小横幅图像来提醒查看者添加的有效载荷。结合共享机制,这允许在直观、可搜索和可浏览的网络环境中与其他科学家共享复杂的功能基因组数据集。

富集检测

越来越多的STRING用户进入数据库时,不是使用单个蛋白质作为查询,而是使用一组蛋白质。在这种情况下,STRING将对用户的输入执行标识符映射,然后显示覆盖所有映射的蛋白质及其互连的网络。与所有STRING网络一样,可以交互浏览,检查潜在证据,并使用k-means或MCL聚类进行聚类。此外,STRING将对用户的输入进行自动路径丰富分析,并列出比预期更频繁观察到的任何路径或功能子系统(使用超几何测试,针对整个基因组或用户提供的背景基因列表的统计背景)。STRING将对总共11个功能路径分类框架进行这些过度表达测试,其中两个框架在其他地方不可用。常用的框架有:基因本体注释(所有三个GO域)(45),KEGG途径(41),UniProt关键字(48),反应体途径(42)、Pfam(49)和SMART(50)蛋白质结构域和InterPro蛋白质特征(51). STRING独有的是剩下的两个分类系统:i)生物医学文献的综合名称标签集合(PubMed摘要,增加了270万篇全文文章),以及ii)STRING网络本身的层次聚类,划分为更小、紧密相连的簇。与已建立的手动注释路径分类相比,这两个子系统提供了互补且更具探索性的丰富视图。在以公开为基础的系统中,单个出版物在富集测试中扮演着通路的角色:给定出版物中讨论的所有蛋白质(使用STRING的文本识别管道识别)形成一个基因集,测试用户输入的过度表达。有超过300万份出版物可供测试,这需要对多次测试进行强有力的修正(52),但其优点是涵盖了新报告或有争议的蛋白质组,这些蛋白质组可能还必须出现在通路数据库中。同样,分层STRING聚类提供了蛋白质分组,这些蛋白质分组是数据库中所有交互知识综合的结果,聚类到不同的严格程度,从而达到不同的功能粒度级别。这些STRING簇通常与典型路径不完全对应;它们可以包括额外的、研究较少的蛋白质,并且它们可以以不同的方式划分功能子系统,这可能更适合于或不适合于任何给定的用户输入。除了单独测试STRING簇外,该网站还报告了使用整个网络的最终测试指标:对于每个输入基因集,检查输入蛋白质之间的交互作用是否比该大小输入的预期更多。

对于一次输入2000多个蛋白质的用户,网络视图变得笨拙;此外,在如此大的输入下,了解蛋白质的实际排名可能会变得重要在内部输入。对于这些情况,自STRING 11.0版以来,一种新的分析模式可用,它处理大规模输入,其中每个蛋白质或基因都带有用户提供的数值。这允许应用基于等级的丰富检测算法(功能类评分)。用户提供的值可以是任何相关的测量值或统计值,例如对数倍变化、测量的表型、突变计数或表达强度。在这些输入中,STRING将测试每个已知通路的蛋白质在用户提供的输入值中是否存在任何非随机偏差,并报告统计上有意义的通路。值得注意的是,这种功能类评分方法不需要指定统计背景——测试仅在用户输入中应用,而不考虑基因组的其余部分。因此,用户应该提供可用蛋白质/值对的完整列表作为输入,最好是全基因组。STRING将测试用户排名输入两端的歪斜分布路径。独特的是,STRING还将报告同时富集于二者都用户输入的末尾(因此在中间级别耗尽)。Kolmogorov–Smirnov测试用于检测重要路径,然后进行聚合折叠变化测试(53)在计算上可行的情况下。测试通常在不到5分钟内完成,可以交互地检查和浏览富集路径。在测试的11个基因注释子系统中,STRING提供了用户输入中功能丰富的综合视图,经常包括其他地方未报告的重要点击(有关指导性示例,请参阅参考(36)).

11.5版的变更

STRING 11.5版将有机体覆盖范围更新为14094,并包括所有证据类型的完整重新导入和重新取芯。在实验通道中,对评分进行了修订,以考虑用于检测实验室中相互作用的分析类型。现在越来越多的信息可用,STRING使用了对每种分析类型的相对性能的全球基准估计。在文本识别频道中,已经应用了一些更改,以允许引入特定于文档的停止字列表(“最前面的单词”是与已知基因名称相对应的单词,但在用于实体识别的文本中出现得太频繁、太不具体)。这大大提高了文本挖掘系统的精确度。具体来说,我们创建了一个由数百万个蛋白质和非蛋白质文本跨度组成的高置信度数据集,其中包括三个广泛采用的蛋白质名称识别系统(54–56)就标记达成一致。围绕这些跨度的200个单词的文本上下文被用于创建一个高置信度的正面和负面示例标记数据集,随后用于训练基于深度学习的模型,从BioBERT开始(57),一种最先进的基于上下文的生物医学语言表示模型。我们训练的深度学习模型可以根据文本跨度周围的上下文来检测文本跨度是否为蛋白质。我们使用此模型为科学文献中STRING文本挖掘系统检测到的所有蛋白质名称匹配生成成为蛋白质的概率。在文档内部和文档之间组合相同名称的概率,以自动生成文本识别系统检测到的最有问题的名称列表。手动检查该列表确保了其质量,并将其引入到文本挖掘管道中,从而使以前手动管理的stop-word列表的大小增加了一倍。此外,还使用相同的模型生成了一个停止字列表,该列表允许在特定文档级别解析模糊名称。此列表阻止了约250000个特定文档中的名称,并取消阻止了约22000个文档中的有效蛋白质名称,尽管这些名称存在于stop-word列表中。

在web界面中,一个重要的变化是用户现在可以控制网络中边缘的语义。含义(和评分框架)可以设置为传统的“功能关联”,也可以限制为“物理交互”子集;有关详细信息,请参阅下文。

另一个变化涉及功能富集分析,特别是在对每个蛋白质/基因进行实验测量的大量输入的情况下。在这种基因组规模的实验中,功能富集分析可能会受到固有偏见的影响,这些偏见可能是技术性的,也可能是生物性的(58). 因此,从STRING 11.5版开始,对大规模用户输入执行自动偏差分析。这发生在执行浓缩测试时的后台,并生成一个图形报告,显示输入中的潜在系统偏差/趋势(图(图2)。2). 目前,测试的潜在混杂因素包括i)平均蛋白质丰度,ii)蛋白质长度,iii)PubMed诱导文献中提及基因或蛋白质的出版物数量,iv)IUPred预测的蛋白质紊乱,v)编码转录物的平均GC含量。

保存图片、插图等的外部文件。对象名称为gkaa1074fig2.jpg

用户输入中定量趋势的STRING报告示例。STRING的基因组尺度输入可用于搜索功能丰富性,但数据中的混淆可能会使解释复杂化。一个新的STRING特性允许可视化这种混淆的趋势。在这里,STRING被查询了一大组人类蛋白质,其中每个蛋白质都被输入,以及其被定位于线粒体的近似可能性(来自MitoMiner数据库的“Mito Evidence IMPI评分”(59)). 正如预期的那样,通过线粒体定位可能性对蛋白质进行排序,在编码基因的GC含量方面没有任何趋势,但在其他一些测试指标中有明显的趋势。蛋白质丰度取自PaxDB(60),以百万分之一(对数刻度)表示。“出版物的数量”是指STRING文本识别频道的标记语料库,计算有多少出版物被标记为具有至少一个已知名称的给定蛋白质。蛋白质大小对应于在给定基因位点表达的典型亚型的氨基酸长度(对数标度)。

物理交互模式

虽然STRING中的蛋白质-蛋白质关联按定义是功能性的,即不一定是物理相互作用,但物理复合物中蛋白质的组织为其生物关系提供了特别有力的证据。因此,除了功能通道和综合得分外,如果蛋白质显示在复合物中共现的证据,我们现在还将物理交互得分分配给STRING中的关联。计算所选证据通道的物理交互得分,并将其汇总为组合的物理交互分数,用户可以在查询时具体选择该分数。

为了得出物理相互作用分数,需要可信蛋白质复合物的金标准数据集。与功能关系相反,此类数据集仅适用于少数生物体。因此,从其中一种生物的物理相互作用基准中得出的分数必须应用于STRING中包含的所有其他生物酿酒酵母作为我们的金标准生物,由于在过去几十年中进行了大量的实验工作来确定这种模式生物中的蛋白质相互作用。这导致在各种数据库中提取了一组完整的、建立良好的交互。其中,复杂门户(44)该数据库提供了足够数量的严格手动筛选的酵母蛋白复合物,涵盖了广泛的功能领域,可作为我们物理交互的黄金标准数据集。

为了对实验通道中的证据确定的物理相互作用进行评分,所有仅来自遗传干扰方法的相互作用都被排除在功能之外,其余的相互作用按照蛋白质复合物的黄金标准进行基准测试,类似于功能关联基准测试(34). 然而,对于物理相互作用,如果在任何金标准复合物中发现两种蛋白质在一起,这意味着它们可以直接或间接相互作用,则蛋白质对被认为是真正的阳性。在基准测试期间,通过金标准节点度的几何平均值向下加权真阳性和假阳性相互作用,以解释大型复合物中的大量蛋白质对。物理相互作用分数是两个蛋白质在金标准复合物中结合的概率。通过将物理与功能通道得分关联而得到的校准函数用于将物理交互得分分配给金标准数据集未涵盖的所有物理交互。最后,我们将酵母校准曲线应用于其他物种的实验通道数据,从其功能通道得分中导出其物理通道得分。

对于文本识别通道,必须开发专用管道从文献中提取物理交互信息,因为文本中同时提到蛋白质的事实不足以推断它们也会发生物理交互。BioBERT公司(57)再次作为开发基于深度学习的关系提取文本挖掘模型的基础,从科学文献中提取物理交互的蛋白质对。我们开发的模型是在一个由6145个手动注释关系组成的无偏数据集上训练的,该数据集是从PubMed摘要和PMC全文文章中提取的,可以根据周围的上下文预测两种蛋白质是否在一个复合物中。我们使用此模型为科学文献中提及蛋白质对的所有句子生成物理交互概率,然后首先在文档内然后跨文档组合这些概率,使用以下评分函数为每对独特的蛋白质生成原始物理交互分数:

方程式M1

哪里第页是蛋白质对物理相互作用的概率在文档中,第页是同一对文档之间物理交互的概率第页*是一个句子提到一对物理相互作用的蛋白质的优先概率。

与实验通道相互作用的基准测试类似,文本识别酵母相互作用根据其原始分数进行排序,并根据蛋白质复合物的黄金标准进行基准测试,以计算文本识别通道的最终物理相互作用分数。作为额外的对照,我们还对复杂门户中的人类蛋白复合物与人类文本交互进行了基准测试。对于两个遥远的生物体,原始文本挖掘和物理交互得分之间的关系是相似的,这一事实进一步支持了我们对所有生物体使用一条校准曲线的决定。

结论

总之,STRING中的网络和富集设施能够全面表征用户基因列表和功能基因组数据集,并允许创建和共享高度定制和增强的蛋白质-蛋白质关联网络。STRING的未来工作将包括根据基因表达信息将网络精简为特定细胞类型或组织的选项,以及将功能富集检测进一步扩展到其他分类系统和更复杂类型的用户输入。

致谢

我们衷心感谢托马斯·拉特伊(Thomas Rattei)及其在维也纳大学(University of Vienna)的SIMAP项目对STRING基因组集合中全面序列相似性搜索的支持。我们感谢Yan P.Yuan在EMBL Heidelberg提供的关键IT支持,以及CSC–IT Center for Science,Finland提供的慷慨计算资源。

参与者信息

Damian Szklarczyk,苏黎世大学分子生命科学系和瑞士生物信息学研究所,瑞士苏黎世8057。

安妮卡·L·盖博,苏黎世大学分子生命科学系和瑞士生物信息学研究所,瑞士苏黎世8057。

卡特琳娜·纳斯图,诺和诺德基金会蛋白质研究中心,哥本哈根大学,2200哥本哈根N,丹麦。

大卫·里昂,苏黎世大学分子生命科学系和瑞士生物信息学研究所,瑞士苏黎世8057。

丽贝卡·基尔希,诺和诺德基金会蛋白质研究中心,哥本哈根大学,2200哥本哈根N,丹麦。

桑波·皮萨洛,图尔库NLP集团,图尔库大学未来技术系,2014年,芬兰图伦伊利奥皮斯托。

Nadezhda T Doncheva,诺和诺德基金会蛋白质研究中心,哥本哈根大学,2200哥本哈根N,丹麦。

马克·勒吉,诺和诺德基金会蛋白质研究中心,哥本哈根大学,2200哥本哈根N,丹麦。

陶芳,苏黎世大学分子生命科学系和瑞士生物信息学研究所,瑞士苏黎世8057。

佩尔·博克,德国海德堡69117号欧洲分子生物学实验室结构和计算生物学单元。德国海德堡大学和欧洲分子生物学实验室分子医学合作单位,69117。马克斯·德布吕克分子医学中心,德国柏林13125。德国维尔茨堡大学生物信息学系,邮编97074。

Lars J Jensen,诺和诺德基金会蛋白质研究中心,哥本哈根大学,2200哥本哈根N,丹麦。

克里斯蒂安·冯·梅林,苏黎世大学分子生命科学系和瑞士生物信息学研究所,瑞士苏黎世8057。

基金

瑞士生物信息学研究所;诺和诺德基金会[NNF14CC0001];欧洲分子生物学实验室(EMBL Heidelberg);芬兰科学院[332844至S.P.]。开放存取费用的资金来源:苏黎世大学。

利益冲突声明。未声明。

参考文献

1Barabasi A.L.、Oltvai Z.N.公司。。网络生物学:理解细胞的功能组织.Nat.Rev.基因。2004;5:101–113. [公共医学][谷歌学者]
2胡J.X.、托马斯C.E.、布鲁纳克S。。复杂疾病共病中的网络生物学概念.Nat.Rev.基因。2016;17:615–629. [公共医学][谷歌学者]
三。Conte F.、Fiscon G.、Licursi V.、Bizzari D.、D'Anto T.、Farina L.、Paci P。。医学范式的转变:基于网络的方法综述.生物化学。生物物理学。基因调控学报。机械。2020;1863:194416. [公共医学][谷歌学者]
4Cowen L.、Ideker T.、Raphael B.J.、Sharan R。。网络传播:遗传关联的通用放大器.Nat.Rev.基因。2017;18:551–562. [公共医学][谷歌学者]
5Tian W.、Zhang L.V.、Tasan M.、Gibbons F.D.、King O.D.、Park J.、Wunderlich Z.、Cherry J.M.、Roth F.P。。结合关联内疚和图谱内疚预测酿酒酵母基因功能.基因组生物学。2008;9(补充1):S7。[PMC免费文章][公共医学][谷歌学者]
6塞尔维亚人M。探索生物网络中的模块化.菲洛斯。事务处理。R.Soc.伦敦。生物科学B。2020;375:20190316.[PMC免费文章][公共医学][谷歌学者]
7罗凤、杨毅、陈华发、张瑞、周杰、谢尔曼R.H。。蛋白质相互作用网络的模块化组织.生物信息学. 2007;23:207–214. [公共医学][谷歌学者]
8Choobdar S.、Ahsen M.E.、Crawford J.、Tomasoni M.、Fang T.、Lamparter D.、Lin J.、Hescott B.、Hu X.、Mercer J.等人。。。跨复杂疾病的网络模块识别评估.自然方法. 2019;16:843–852.[PMC免费文章][公共医学][谷歌学者]
9.卡马乔·D.M.、柯林斯·K.M.、鲍尔斯·R.K.、科斯特洛·J.C.、柯林斯·J.J。。生物网络的下一代机器学习.单元格. 2018;173:1581–1592. [公共医学][谷歌学者]
10Gligorijevic V.、Barot M.、Bonneau R。。deepNF:用于蛋白质功能预测的深度网络融合.生物信息学. 2018;34:3873–3881.[PMC免费文章][公共医学][谷歌学者]
11Pushpakom S.、Iorio F.、Eyers P.A.、Escott K.J.、Hopper S.、Wells A.、Doig A.、Guilliams T.、Latimer J.、McNamee C.等人。。。药物用途调整:进展、挑战和建议.Nat.Rev.药物发现。2019;18:41–58. [公共医学][谷歌学者]
12Lotfi Shahreza M.、Ghadiri N.、Mousavi S.R.、Varshosaz J.、Green J.R。。基于网络的药物重新定位方法综述.简介。生物信息。2018;19:878–892. [公共医学][谷歌学者]
13吴明、曾伟、刘伟、吕海、陈涛、姜荣。。利用多基因网络通过网络表示学习对GWAS候选基因进行优先排序.方法. 2018;145:41–50. [公共医学][谷歌学者]
14Guala D.、Ogris C.、Muller N.、Sonnhammer E.L.L。。全基因组功能关联网络:背景、数据和最新资源.简介。生物信息。2020;21:1224–1237.[PMC免费文章][公共医学][谷歌学者]
15Marcotte E.M.、Pellegrini M.、Thompson M.J.、Yeates T.O.、Eisenberg D。。蛋白质功能全基因组预测的组合算法.自然. 1999;402:83–86. [公共医学][谷歌学者]
16Huynen M.、Snel B.、Lathe W.3rd、Bork P。。通过基因组背景预测蛋白质功能:定量评估和定性推断.基因组研究。2000;10:1204–1210.[PMC免费文章][公共医学][谷歌学者]
17Enright A.J.,Ouzounis C.A。。通过基因融合的详尽检测实现全基因组中蛋白质的功能关联.基因组生物学。2001;2:RESEARCH0034。[PMC免费文章][公共医学][谷歌学者]
18Jansen R.、Yu H.、Greenbaum D.、Kluger Y.、Krogan N.J.、Chung S.、Emili A.、Snyder M.、Green blatt J.F.、Gerstein M。。从基因组数据预测蛋白质相互作用的贝叶斯网络方法.科学类. 2003;302:449–453. [公共医学][谷歌学者]
19Lu L.J.、Xia Y.、Paccanaro A.、Yu H.、Gerstein M。。评估基因组数据整合预测蛋白质网络的局限性.基因组研究。2005;15:945–953.[PMC免费文章][公共医学][谷歌学者]
20邢C.,邓森D.B。。基因组数据整合的贝叶斯推断降低了预测蛋白质相互作用的误分类率.公共科学图书馆计算。生物。2011;7:e1002110。[PMC免费文章][公共医学][谷歌学者]
21张伟,孙凤,蒋瑞。。整合多个蛋白质相互作用网络以确定疾病基因的优先级:贝叶斯回归方法.BMC生物信息学. 2011;12(补充1):S11。[PMC免费文章][公共医学][谷歌学者]
22Huang J.K.、Carlin D.E.、Yu M.K.、Zhang W.、Kreisberg J.F.、Tamayo P.、Ideker T。。疾病基因发现分子网络的系统评价.细胞系统。2018;6:484–495.[PMC免费文章][公共医学][谷歌学者]
23Ogris C.、Guala D.、Sonnhammer E.L.L。。FunCoup 4:新物种、数据和可视化.核酸研究。2018;46:D601–D607。[PMC免费文章][公共医学][谷歌学者]
24Warde Farley D.、Donaldson S.L.、Comes O.、Zuberi K.、Badrawi R.、Chao P.、Franz M.、Grouios C.、Kazi F.、Lopes C.T.等人。。。GeneMANIA预测服务器:用于基因优先排序和预测基因功能的生物网络集成.核酸研究。2010;38:W214–W220。[PMC免费文章][公共医学][谷歌学者]
25Greene C.S.、Krishnan A.、Wong A.K.、Ricciotti E.、Zelaya R.A.、Himmelstein D.S.、Zhang R.、Hartmann B.M.、Zaslavsky E.、Sealfon S.C.等人。。。利用人类组织特异性网络了解多细胞功能和疾病.自然遗传学。2015;47:569–576.[PMC免费文章][公共医学][谷歌学者]
26Wong A.K.、Krishnan A.、Yao V.、Tadych A.、Troyanskaya O.G。。IMP 2.0:用于集成、可视化和预测蛋白质功能和网络的多物种功能基因组学门户.核酸研究。2015;43:W128–W133。[PMC免费文章][公共医学][谷歌学者]
27Kotlyar M.、Pastrello C.、Malik Z.、Jurisica I。。IID 2018更新:人类、模式生物和家养物种中的环境特异性物理蛋白质相互作用.核酸研究。2019;47:D581–D589。[PMC免费文章][公共医学][谷歌学者]
28坎伯罗夫A.、斯特兹尔U.、莱赫拉赫H.、赫维格R。。ConsensusPathDB交互数据库:2013年更新.核酸研究。2013;41:D793–D800。[PMC免费文章][公共医学][谷歌学者]
29Hwang S.、Kim C.Y.、Yang S.,Kim E.、Hart T.、Marcotte E.M.、Lee I。。HumanNet v2:用于疾病研究的人类基因网络.核酸研究。2019;47:D573–D580。[PMC免费文章][公共医学][谷歌学者]
30Doncheva N.T.、Morris J.H.、Gorodkin J.、Jensen L.J。。Cytoscape StringApp:蛋白质组数据的网络分析和可视化.蛋白质组研究杂志。2019;18:623–632.[PMC免费文章][公共医学][谷歌学者]
31Szklarczyk D.、Franceschini A.、Wyder S.、Forslund K.、Heller D.、Huerta-Cepas J.、Simonovic M.、Roth A.、Santos A.、Tsafou K.P.et等人。。。STRING v10:蛋白质相互作用网络,集成在生命树上.核酸研究。2015;43:D447–D452。[PMC免费文章][公共医学][谷歌学者]
32Drysdale R.、Cook C.E.、Petryszak R.、Baillie-Gerritsen V.、Barlow M.、Gasteiger E.、Gruhl F.、Haas J.、Lanfear J.、Lopez R.等人。。。ELIXIR核心数据资源:生命科学的基础设施.生物信息学. 2020;36:2636–2642.[PMC免费文章][公共医学][谷歌学者]
33Franceschini A.、Szklarczyk D.、Frankild S.、Kuhn M.、Simonovic M.、Roth A.、Lin J.、Minguez P.、Bork P.、von Mering C.等人。。。STRING v9.1:蛋白质相互作用网络,覆盖范围和集成度增加.核酸研究。2013;41:D808–D815。[PMC免费文章][公共医学][谷歌学者]
34von Mering C.、Jensen L.J.、Snel B.、Hooper S.D.、Krupp M.、Foglierini M.、Jouffre N.、Huynen M.A.、Bork P。。STRING:已知和预测的蛋白质关联,在生物体内整合和转移.核酸研究。2005;33:D433–D437。[PMC免费文章][公共医学][谷歌学者]
35Perfetto L.、Pastrello C.、Del-Toro N.、Duesbury M.、Iannuccelli M.、Kotlyar M.、Licata L.、Meldal B.、Panneerselvam K.、Panni S.等人。。。IMEx冠状病毒相互作用组:冠状病毒科与宿主分子相互作用的进化图. 2020; bioRxiv-doi:2020年6月16日,预印本:未经同行评审10.1101/2020.06.153817。[PMC免费文章][公共医学] [交叉参考]
36Wei J.、Alfajaro M.M.、Hanna R.E.、DeWeirdt P.C.、Strine M.S.、Lu Culligan W.J.、Zhang S.-M.、Graziano V.R.、Schmitz C.O.、Chen J.S.等人。。。全基因组CRISPR筛查揭示调节SARS-CoV-2感染的宿主基因. 2020; bioRxiv-doi:2020年6月17日,预印本:未经同行评审10.1101/2020.06.155101。[交叉参考]
37Franceschini A.、Lin J.、von Mering C.、Jensen L.J。。SVD-phy:通过系统发育谱的奇异值分解改进蛋白质功能关联的预测.生物信息学. 2016;32:1085–1087.[PMC免费文章][公共医学][谷歌学者]
38Kustatscher G.、Grabowski P.、Schrader T.A.、Passmore J.B.、Schrade M.、Rappsilber J。。人类蛋白质组的共调节图能够识别蛋白质功能.自然生物技术。2019;37:1361–1371.[PMC免费文章][公共医学][谷歌学者]
39Orchard S.、Kerrien S.、Abbani S.、Aranda B.、Bhate J.、Bidwell S.、Bridge A.、Briganti L.、Brinkman F.S.、Cesareni G.等人。。。蛋白质相互作用数据管理:国际分子交换(IMEx)联盟.自然方法. 2012;9:345–350.[PMC免费文章][公共医学][谷歌学者]
40Oughtred R.、Stark C.、Breitkreutz B.J.、Rust J.、Boucher L.、Chang C.、Kolas N.、O'Donnell L.、Leung G.、McAdam R.等人。。。BioGRID交互数据库:2019年更新.核酸研究。2019;47:D529–D541。[PMC免费文章][公共医学][谷歌学者]
41Kanehisa M.、Sato Y.、Kawashima M.、Furumichi M.、Tanabe M。。KEGG作为基因和蛋白质注释的参考资源.核酸研究。2016;44:D457–D462。[PMC免费文章][公共医学][谷歌学者]
42Jassal B.、Matthews L.、Viteri G.、Gong C.、Lorente P.、Fabregat A.、Sidiropoulos K.、Cook J.、Gillespie M.、Haw R.等人。。。反应途径知识库.核酸研究。2020;48:D498–D503。[PMC免费文章][公共医学][谷歌学者]
43Caspi R.、Billington R.、Keseler I.M.、Kothari A.、Krummenacker M.、Midford P.E.、Ong W.K.、Paley S.、Subhraveti P.、Karp P.D。。代谢途径和酶的MetaCyc数据库——2019年更新.核酸研究。2020;48:D445–D453。[PMC免费文章][公共医学][谷歌学者]
44Meldal B.H.M.、Bye A.J.H.、Gajdos L.、Hammerova Z.、Horackova A.、Melicher F.、Perfetto L.、Pokorny D.、Lopez M.R.、Turkova A.等人。。。Complex Portal 2018:大分子复合物的扩展内容和增强的可视化工具.核酸研究。2019;47:D550–D558。[PMC免费文章][公共医学][谷歌学者]
45基因本体联盟基因本体资源:20年仍在发展壮大.核酸研究。2019;47:D330–D338。[PMC免费文章][公共医学][谷歌学者]
46麦库西克V.A。人类孟德尔遗传:人类基因和遗传病目录. 1998; 第12版巴尔的摩医学博士:约翰霍普金斯大学出版社。[谷歌学者]
47Cherry J.M.、Hong E.L.、Amundsen C.、Balakrishnan R.、Binkley G.、Chan E.T.、Christie K.R.、Costanzo M.C.、Dwight S.S.、Engel S.R.等。。。酵母基因组数据库:芽殖酵母的基因组资源.核酸研究。2012;40:D700–D705。[PMC免费文章][公共医学][谷歌学者]
48UniProt联盟UniProt:全球蛋白质知识中心.核酸研究。2019;47:D506–D515。[PMC免费文章][公共医学][谷歌学者]
49El-Gebali S.、Mistry J.、Bateman A.、Eddy S.R.、Luciani A.、Potter S.C.、Qureshi M.、Richardson L.J.、Salazar G.A.、Smart A.等。。。2019年Pfam蛋白质家族数据库.核酸研究。2019;47:D427–D432。[PMC免费文章][公共医学][谷歌学者]
50Letunic I.、Bork P。。SMART蛋白质域注释资源20年.核酸研究。2018;46:D493–D496。[PMC免费文章][公共医学][谷歌学者]
51Mitchell A.L.、Attwood T.K.、Babbit P.C.、Blum M.、Bork P.、Bridge A.、Brown S.D.、Chang H.Y.、El-Gebali S.、Fraser M.I.等人。。。2019年InterPro:提高蛋白质序列注释的覆盖率、分类和访问.核酸研究。2019;47:D351–D360。[PMC免费文章][公共医学][谷歌学者]
52Benyamini Y.和Hochberg Y。。控制错误发现率:一种实用而有效的多重测试方法.J.R.Stat.Soc.B公司. 1995;57:289–300.[谷歌学者]
53Yu C.、Woo H.J.、Yu X.、Oyama T.、Wallqvist A.、Reifman J。。评估路径分析方法的策略.BMC生物信息学. 2017;18:453.[PMC免费文章][公共医学][谷歌学者]
54詹森L.J。一个标签,多种用途:说明本体在基于词典的命名实体识别中的强大功能. 2016; bioRxiv doi:2016年8月2日,预印本:未经同行评审10.1101/067132。[交叉参考]
55Van Landeghem S.、Bjorne J.、Wei C.H.、Hakala K.、Pyysalo S.、Ananiadou S.、Kao H.Y.、Lu Z.、Salakoski T.、Van de Peer Y.et al。。。利用多级基因归一化从文献中提取大规模事件.公共科学图书馆一号. 2013;8:e55814。[PMC免费文章][公共医学][谷歌学者]
56.魏春华、高华英、吕姿。。PubTator:一种基于web的文本挖掘工具,用于帮助生物化.核酸研究。2013;41:W518–W522。[PMC免费文章][公共医学][谷歌学者]
57Lee J.、Yoon W.、Kim S.、Kim D.、Kim S、So C.H.、Kang J。。BioBERT:一种用于生物医学文本挖掘的预训练生物医学语言表示模型.生物信息学. 2020;36:1234–1240.[PMC免费文章][公共医学][谷歌学者]
58Timmons J.A.、Szkop K.J.、Gallagher I.J。。全球组学数据的多个偏差来源混淆功能富集分析.基因组生物学。2015;16:186.[PMC免费文章][公共医学][谷歌学者]
59史密斯A.C.、罗宾逊A.J。。MitoMiner v4.0:线粒体定位证据、表型和疾病的更新数据库.核酸研究。2019;47:D1225–D1228。[PMC免费文章][公共医学][谷歌学者]
60Wang M.、Herrmann C.J.、Simonovic M.、Szklarczyk D.、von Mering C。。PaxDb 4.0版:蛋白质丰度数据,整合模型生物、组织和细胞线.蛋白质组学. 2015;15:3163–3168.[PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社