摘要
基因本体(GO)是关于基因和基因产品功能的可计算知识的综合资源。因此,生物医学研究界广泛使用它来分析组学和相关数据。我们继续致力于提高GO资源的质量和利用率,我们欢迎并鼓励生物学所有领域的研究人员提供投入。在此次更新中,我们总结了GO知识库的当前内容,并介绍了对本体、注释和工具所做的一些新特性和改进。其中的亮点包括:1)有助于获取和应用GO知识库的发展,2)对资源的扩展,以及对生物系统和网络生物学因果模型描述的日益支持。要了解更多信息,请访问http://geneontology.org/.
简介
由于生物系统的惊人复杂性和需要分析的数据集的不断增加,生物医学研究越来越依赖于以可计算形式存储的知识project为基因和基因产品功能的可计算知识提供了目前最全面的资源。GO知识库由两个主要组件组成。第一个是基因本体论(GO),它提供了生物功能(“术语”)的逻辑结构及其相互关系,表现为有向无环图。第二个是GO注释的语料库,基于证据的声明将特定基因产物(蛋白质、非编码RNA或大分子复合物,为了简单起见,我们在下文中将其称为“基因”)与特定本体术语相关联。至关重要的是,每个注释都与支持该生物学结论的证据相关联,通常是生物医学文献中的特定出版物。本体和注释旨在描述生物系统的综合模型。目前,GO知识库包括近14万篇已发表论文的实验结果,代表了60多万个实验支持的GO注释。这些数据集提供了核心数据集,用于对跨越生命树的一组不同生物体的600多万个功能注释进行额外推断。
除了这个核心知识库之外,GOC资源还包括编辑和执行本体逻辑推理的软件、对本体和注释的web访问,以及使用GO知识库支持生物医学研究的分析工具。
在这里,我们描述了过去两年中的新发展,包括本体的改进、GO注释数量的增加以及增强,以使用户更容易获取和正确应用GO知识库中的信息。GO和相关产品在Creative Commons Attribution许可下可从网址:http://geneontology.org.
围棋知识库的扩展
本体论
基因本体定义了与基因功能相关的概念宇宙(“GO术语”),以及这些功能如何相互关联(“关系”)。随着生物学知识的积累,它不断地被修改和扩展。表1显示了当前组成GO的术语和关系的数量,与两年前的上次更新相比,该数量继续增加(1). GO描述了三个方面的功能:分子功能(基因产物执行的分子级活动)、细胞成分(基因产物在其中执行功能的相对于细胞结构的位置)、,和生物过程(由多种分子活动完成的较大过程或“生物程序”)。本体的持续修订由在生物学和计算知识表示方面具有丰富经验的高级本体编辑团队管理。本体更新由GOC本体团队和请求更新的科学家协作完成。大多数请求来自做出GO注释的科学家(这些注释通常只影响几个术语),以及特定生物学领域的领域专家(这些专家通常会修改包含许多术语和关系的本体的整个“分支”)。我们邀请研究人员和计算科学家提交对本体中新术语或新关系的请求。
截至2016年10月,基因本体三个方面的术语数量和关系
表1。截至2016年10月,基因本体三个方面的术语数量和关系
方面. | 术语(类别). | 关系. |
---|
分子功能(MF) | 10 417 | 14 039 |
蜂窝组件(CC) | 4022 | 7854 |
生物过程(BP) | 29 146 | 71 372 |
方面. | 术语(类别). | 关系. |
---|
分子功能(MF) | 10 417 | 14 039 |
蜂窝组件(CC) | 4022 | 7854 |
生物过程(BP) | 29 146 | 71 372 |
表1。截至2016年10月,基因本体三个方面的术语数量和关系
方面. | 术语(类别). | 关系. |
---|
分子功能(MF) | 10 417 | 14 039 |
蜂窝组件(CC) | 4022 | 7854 |
生物过程(BP) | 29 146 | 71 372 |
方面. | 术语(类别). | 关系. |
---|
分子功能(MF) | 10 417 | 14 039 |
蜂窝组件(CC) | 4022 | 7854 |
生物过程(BP) | 29 146 | 71 372 |
可以通过两种方式请求新的本体术语,或者通过称为TermGenie的在线模板形式半手动请求(2)或通过GitHub跟踪器手动(https://github.com/geneontology/go-ontology/issues). 使用在线TermGenie界面,提交的模板化术语由高级本体编辑器进行筛选以供批准。在大多数情况下,术语都是按原样批准的,但该工具还允许手动编辑,以纠正偶尔出现的印刷错误、定义的逻辑结构或术语被认为不合适时的废弃。
通过GitHub跟踪器的请求还可能包括对本体结构和新关系类型的更改。与TermGenie一样,请求由本体编辑器手动审查,本体编辑器对文献进行适当的调查以验证或拒绝请求。通常,本体修订过程包括提交者和本体编辑器之间的对话,对于更复杂的情况,在更大的本体开发小组内,与注释团队成员以及特定生物学领域的专家进行对话。这一过程确保了生物学的准确表现。书面讨论通过GitHub问题跟踪机制进行审计,提交新请求的指南发布在此处:https://github.com/geneontology/go-ontology/blob/master/CONTRIBUTING.md.
逻辑定义和本体间链接
公理是任何本体论的重要组成部分。它们用于定义任何给定类与本体中其他类之间的关系。它们对于支持GO上的计算推理以及维护GO的复杂逻辑结构至关重要。本体编辑器使用公理定义新术语,并检查与其他术语的对应关系推论,以便GO保持逻辑一致。在上次更新中(1),我们报道了go-plus版本的go,其中包括将go连接到外部开放生物医学本体(OBO)类的OWL(Web本体语言)等价公理(参见http://geneontology.org/page/download-ontology). 这些公理允许我们使用从这些外部本体中提取的类之间的关系知识,自动构建和验证本体的大部分(请参见(三)详细信息)。在2014年的最新更新中,共有9304个本体论间链接指向八个OBO(开放生物本体论)来源:CHEBI(化学品)、CL(细胞类型)、PATO(质量/描述符)、PO(植物解剖)、PR(蛋白质)、SO(核酸和蛋白质序列类型)、UBERON(动物解剖)和OBA(特征)。在2016-08-08发布的GO中,链接数量增加了两倍多,达到21077个本体间链接。这现在还包括到另一个本体的链接,即真菌解剖本体(FAO),从而增加GO与真菌分支生物学描述的相互联系。
以领域为中心的本体开发
我们在生物功能的几个领域进行了协调的本体开发和重点注释。神经毒素和神经原是参与突触发生并已知与自闭症谱系障碍相关的蛋白质,是重点注释方法的目标,创建描述性GO术语以更好地注释这些基因产物的作用(4). 此外,对细胞成分本体进行了修改,以增加和改进类别,以表示细胞外RNA元数据,如细胞外囊泡(5). ExoCarta和Vesiclepedia数据库(6,7)已开始使用修订后的本体,并与GOC合作,将其注释包含在GO数据库中。在另一项以领域为重点的本体开发和注释工作中,GO资源中纤毛相关生物学的表示目前已接近完成。虽然该项目的第一部分侧重于睫状体亚组分,但最近我们与该领域的专家合作,以更好地表示纤毛类型和与这些重要细胞器功能相关的生物过程(手稿正在编写中)。此外,还对纤毛相关基因注释进行了重点管理。最后,根据一组植物生物学家的要求,我们添加了300多个描述植物酶分子功能的术语(以及相关的酶委员会标识符)。我们还开始设计GO中生化途径的表示。从糖酵解开始,我们设计了一种策略,利用必要的酶活性组合来定义途径,这些酶活性是作为各种糖酵化途径的一部分执行的,以及它们使用和创造的化学品(8). 我们将继续将此方法用于其他生化途径,并将其扩展到定义信号通路。
GO注释
GO注释由基因和GO术语之间的关联组成,支持GO“证据代码”形式的证据,以及创建注释所用方法的公开参考或描述。然而,所有GO注释最终都会直接或间接地得到科学文献的支持。GO证据代码描述了证据,大致反映了注释断言与直接实验证据的距离,以及该证据是否由专家生物鉴定员审查。对于选定的证据代码和GO的不同方面,GO注释的数量如表所示2.
实验生物数量(EXP)和系统发育推断生物数量(IBA),以及研究丰富的生物注释。截至2016年10月的统计数据
表2。实验生物数量(EXP)和系统发育推断生物数量(IBA),以及研究丰富的生物注释。截至2016年10月的统计数据
有机体. | 特异性蛋白结合EXP. | 分子功能EXP. | 分子功能IBA. | 蜂窝组件EXP. | 细胞成分IBA. | 生物工艺EXP. | 生物工艺IBA. |
---|
人类 | 32 369 | 23 811 | 5892 | 36 555 | 8508 | 38 819 | 14 596 |
鼠标 | 8740 | 12 934 | 7914 | 22 593 | 11 336 | 59 517 | 18 128 |
老鼠 | 4239 | 11 986 | 6704 | 15 047 | 9804 | 27 591 | 16 810 |
斑马鱼 | 392 | 1521 | 6732 | 937 | 9845 | 18 004 | 17 001 |
果蝇 | 1137 | 4965 | 3168 | 10 488 | 4371 | 30 560 | 5913 |
线虫(秀丽线虫) | 2649 | 2203 | 3386 | 4858 | 4983 | 11 679 | 7683 |
煤泥模具(D.盘状体) | 521 | 942 | 2386 | 2109 | 3098 | 3630 | 4637 |
芽殖酵母 | 106 | 8264 | 2002 | 16 752 | 2753 | 17 646 | 3608 |
裂变酵母 | 1364 | 3275 | 1750 | 11 290 | 2526 | 5074 | 3257 |
拟南芥,工厂 | 6131 | 7288 | 5662 | 23 762 | 7375 | 22 595 | 11 167 |
大肠杆菌 | 2290 | 5017 | 734 | 3911 | 610 | 5501 | 905 |
有机体. | 特异性蛋白结合EXP. | 分子功能EXP. | 分子功能IBA. | 蜂窝组件EXP. | 细胞成分IBA. | 生物工艺EXP. | 生物工艺IBA. |
---|
人类 | 32 369 | 23 811 | 5892 | 36 555 | 8508 | 38 819 | 14 596 |
鼠标 | 8740 | 12 934 | 7914 | 22 593 | 11 336 | 59 517 | 18 128 |
老鼠 | 4239 | 11 986 | 6704 | 15 047 | 9804 | 27 591 | 16 810 |
斑马鱼 | 392 | 1521 | 6732 | 937 | 9845 | 18 004 | 17 001 |
果蝇 | 1137 | 4965 | 3168 | 10 488 | 4371 | 30 560 | 5913 |
线虫(秀丽线虫) | 2649 | 2203 | 3386 | 4858 | 4983 | 11 679 | 7683 |
煤泥模具(D.盘状体) | 521 | 942 | 2386 | 2109 | 3098 | 3630 | 4637 |
芽殖酵母 | 106 | 8264 | 2002 | 16 752 | 2753 | 17 646 | 3608 |
裂变酵母 | 1364 | 3275 | 1750 | 11 290 | 2526 | 5074 | 3257 |
拟南芥,工厂 | 6131 | 7288 | 5662 | 23 762 | 7375 | 22 595 | 11 167 |
大肠杆菌 | 2290 | 5017 | 734 | 3911 | 610 | 5501 | 905 |
表2。经过充分研究的生物体的实验(EXP)和系统发育推断(IBA)注释数量。截至2016年10月的统计数据
有机体. | 特异性蛋白结合EXP. | 分子功能EXP. | 分子功能IBA. | 蜂窝组件EXP. | 细胞成分IBA. | 生物工艺EXP. | 生物工艺IBA. |
---|
人类 | 32 369 | 23 811 | 5892 | 36 555 | 8508 | 38 819 | 14 596 |
鼠标 | 8740 | 12 934 | 7914 | 22 593 | 11 336 | 59 517 | 18 128 |
老鼠 | 4239 | 11 986 | 6704 | 15 047 | 9804 | 27 591 | 16 810 |
斑马鱼 | 392 | 1521 | 6732 | 937 | 9845 | 18 004 | 17 001 |
果蝇 | 1137 | 4965 | 3168 | 10 488 | 4371 | 30 560 | 5913 |
线虫(秀丽线虫) | 2649 | 2203 | 3386 | 4858 | 4983 | 11 679 | 7683 |
煤泥模具(D.盘状体) | 521 | 942 | 2386 | 2109 | 3098 | 3630 | 4637 |
芽殖酵母 | 106 | 8264 | 2002 | 16 752 | 2753 | 17 646 | 3608 |
裂变酵母 | 1364 | 3275 | 1750 | 11 290 | 2526 | 5074 | 3257 |
拟南芥,工厂 | 6131 | 7288 | 5662 | 23 762 | 7375 | 22 595 | 11 167 |
大肠杆菌 | 2290 | 5017 | 734 | 3911 | 610 | 5501 | 905 |
有机体. | 特异性蛋白结合EXP. | 分子功能EXP. | 分子功能IBA. | 蜂窝组件EXP. | 细胞成分IBA. | 生物工艺EXP. | 生物工艺IBA. |
---|
人类 | 32 369 | 23 811 | 5892 | 36 555 | 8508 | 38 819 | 14 596 |
鼠标 | 8740 | 12 934 | 7914 | 22 593 | 11 336 | 59 517 | 18 128 |
老鼠 | 4239 | 11 986 | 6704 | 15 047 | 9804 | 27 591 | 16 810 |
斑马鱼 | 392 | 1521 | 6732 | 937 | 9845 | 18 004 | 17 001 |
果蝇 | 1137 | 4965 | 3168 | 10 488 | 4371 | 30 560 | 5913 |
线虫(秀丽线虫) | 2649 | 2203 | 3386 | 4858 | 4983 | 11 679 | 7683 |
煤泥模具(D.盘状体) | 521 | 942 | 2386 | 2109 | 3098 | 3630 | 4637 |
芽殖酵母 | 106 | 8264 | 2002 | 16 752 | 2753 | 17 646 | 3608 |
裂变酵母 | 1364 | 3275 | 1750 | 11 290 | 2526 | 5074 | 3257 |
拟南芥,工厂 | 6131 | 7288 | 5662 | 23 762 | 7375 | 22 595 | 11 167 |
大肠杆菌 | 2290 | 5017 | 734 | 3911 | 610 | 5501 | 905 |
实验支持的注释
EXP(EXP)证据代码表明,有实验证据直接支持该基因的注释。例如,由免疫荧光确定的基因产物与其亚细胞定位之间的关联将由直接分析推断(IDA)证据代码支持,该证据代码是EXP证据的一个亚型。具有直接实验证据的注释由生物验证者创建,这些验证者是受过计算知识表示培训的博士级专家,他们阅读同行评审的文献,并根据这些文章中提供的证据创建GO注释。
为了确保专家管理实践的一致性和质量,GOC生物鉴定员定期开会讨论管理问题并参与注释一致性练习。在这些练习中,多组策展人对一篇论文进行了注释,从而澄清了本体术语和GO证据代码的使用,并开发了分布式GO注释组之间的最佳实践和一致性。例如,澄清如何注释联合转染和功能互补实验的结果,确保基于功能性遗传相互作用与表型拯救的信息明确地捕获到GO知识库中。
直到最近,microRNA在GO中还未得到充分应用,因为microRNA对发育和细胞过程的调控是一个相对较新的研究领域。因此,研究人员不得不依赖microRNA靶的功能注释作为代理,因为microRNA本身不存在直接的功能注释。在与microRNA研究领域的专家协商后,为纠正这种情况付出了大量努力。我们为microRNA注释创建了注释指南(9)根据这些指导原则,我们已经为300多个人类microRNA生成了注释,其中70个是黑腹果蝇,将近200英寸拟南芥.
蛋白质结合注释只有在包含特定蛋白质结合伙伴时才有用。添加IntAct数据库(10)作为GO注释提供者,特定蛋白结合注释的数量急剧增加(表2,第一列)。只有高置信度注释才会从IntAct合并到GO中。IntAct注释与来自多个不同注释提供者的假设驱动的小规模实验的注释相结合,有助于使GO知识库成为高置信度蛋白质相互作用网络数据的有用资源。为了创建蛋白质相互作用网络,用户需要使用GO关联文件(GAF)的“with”字段(第8列),其中包含相互作用伙伴的标识符。
我们要求用户注意注释,说明某一特定基因产品已被发现不具有给定功能。NOT注释通常是在通过推断预期具有特定域或基因家族关联的基因产物具有特定活性时创建的,但如果有明确的实验数据表明该基因产物不具有该活性。这些注释在GO知识库中相对较少(根据实验证据,目前有~3300个注释)。然而,我们相信它们在某些应用中可能特别有用,例如评估函数预测精度。这些注释在GAF的限定符字段(第4列)中具有限定符“NOT”。
系统发育相关注释
系统发生原理重构进化事件以推断基因之间的关系,为深入了解基因功能提供了有力的途径。自2008年以来,GOC一直支持一项专门的系统发育注释工作(11)在过去的几年里,它已经得到了扩展。系统发育注释方法在别处有详细描述(12). 简单地说,我们已经开发了软件(PAINT,系统发育注释推断工具),使用该软件,生物验证器可以查看基因家族中基因的所有实验注释,并使用此信息推断家族中未特征化成员的注释。生物验证器在该家族的系统发育树中创建了特定分支的基因功能获得和丧失的明确模型。该模型用于推断家族中基因的新注释(即不与实验注释重叠)。基于系统发育的注释由IBA(从生物祖先推断)证据代码表示。每个推断出的注释都可以追溯到用作该断言基础的直接实验注释。GO系统发育注释项目现在是GO知识库中手动审查注释的最大来源,并且它大大增加了注释的数量,即使是在经过实验研究的生物体中(表2).
计算传递的注释
最后,距离直接实验结果最远的是“电子”(IEA)证据代码,这些代码没有单独审查(尽管通常需要对样本进行广泛的手动审查)。IEA支持的注释最终基于同源性和/或其他实验或序列信息,但通常无法追溯到实验来源。这些注释主要由三种方法组成。第一种也是最全面的方法是InterPro2GO(13)基于GO项与一组同源蛋白质的广义序列模型(“签名”)的精心关联。与签名在统计上显著匹配的蛋白质序列被指定与签名相关的GO项,这是一种同源性推断。第二种方法是将UniProt控制的词汇术语(主要是描述酶活性的酶委员会编号,以及描述亚细胞位置的UniProt关键字)计算转换为相关的GO术语。最后,注释是基于从Ensembl基因树推断出的1:1直系图进行的,这是一种自动将在一个基因中实验发现的注释转移到同一分类分支(例如脊椎动物分支内的注释,以及植物分支内的注解)中的1:1正系图的方法。
可用性增强
以基因为中心的GO注释集
过去,GOC允许每个注释提供者决定与该提供者的GO术语关联的对象集(实例化为数据库标识符)。因此,不同群体之间存在一些差异,一些提供者注释基因,一些注释蛋白质或非编码RNA,一些注释蛋白复合物,一些注释多种不同类型。这是我们的预期方法,因为我们希望注释所有高分子机器的功能。然而,如果多个不同的标识符实际上指的是同一个基因或蛋白质,这可能会导致依赖GO注释的分析中出现错误。例如,如果标识符没有解析为单个非冗余集,GO注释的消费者可能会在分析中多次计算同一个基因。
为了确保每个GO注释对任何给定的蛋白编码基因只使用一个标识符,我们现在对每个基因采用一个标准标识符。对于具有专用资源的经过充分研究的模式生物,使用该资源的主要基因标识符。这是一段时间以来的标准,但一些注释组并没有统一使用。对于其他生物体,我们使用UniProt资源中的“基因中心参考蛋白质组”(GCRP)集合中的蛋白质标识符。我们与UniProt合作(14)以及寻求矫形术倡议(15,16)在广泛的系统发育范围内为每个生物体开发和维护一套GCRP。UniProt资源团队通过为基因组中的每个蛋白质编码基因选择一个“参考”蛋白质条目来生成GCRP集。我们还与这些小组合作,以实现UniProt中的GCRP集合与专用模型生物资源之间的完全一致性。
与往常一样,有关注释实体的附加信息(例如特定亚型或修改的形式)在可用时记录在GAF的不同列中。大分子复合物的直接注释在单独的文件中提供,以避免与基因注释混淆。为了确保基于基因的分析的完整性,编码单个复杂成员的基因的GO注释也包含在以基因为中心的注释文件中。在以基因为中心的文件中,在适当的时候,复合体的每个成员都用整个复合体的函数注释(这些函数用contributes_to限定符标记,请参见http://geneontology.org/page/go-annotation-conventions#contri更多详细信息)。
使用AmiGO 2探索基因本体和注释
自上次更新以来,我们对AmiGO 2实现了许多新功能和可用性改进(http://amigo.geneontology.org/)以促进社区如何探索和使用GO。AmiGO 2现在有一个交互式本体和注释浏览器。这允许用户通过从更一般的类向下钻取到更具体的类来导航GO结构,并检索到本体的任何分支的过滤注释。注释检索也得到了改进。在以前的版本中,下载限制为10000行,而现在最多可以下载100000行。这两个功能的添加允许用户使用集成的分面功能(包括分类单元和证据子集以及自由文本搜索)下载大型、高度定制的GO注释集。
其他亮点包括:(i)综合PubMed ID搜索,检索注释和中间PubMed-信息页面(见下文);(ii)一个新的矩阵工具,允许用户探索不同GO类注释的基因集之间的重叠(http://amigo.geneontology.org/matrix订单); (iii)通过公共书签API和Galaxy将GO资源连接到定制工作流的新集成功能(17); 索尔(https://cwiki.apache.org/confluence/display/solr/apache网站+Solr+参考+指南)文档存储搜索环境,提供了更强大的查询GO数据的手段;以及(v)对GO注释的整体进行了改进的集成交互式统计和图形。
基因集富集分析
GO主页上的基因集富集分析工具现在直接链接到PANTHER网站的界面(http://go.patherdb.org/). 这使用户能够利用PANTHER可视化工具,例如使用GO中的关系组织浓缩分析结果的新层次视图(18). 这种观点将相关术语组合在一起,以便于对富集结果进行生物学解释。此外,最近的研究表明,许多丰富工具使用了过时版本的本体或注释,对分析产生了很大影响(19). PANTHER中的GO注释每月更新一次。该工具还显示了关键的分析参数,如GO注释日期/版本和分析工具版本,这些参数应在发布时报告,以帮助再现。
在GO网站上代表PubMed文章
GOC现在集成了PubMed ID搜索,该搜索为每个PubMeds生成一个页面(20)被用作支持GO注释的证据的文章(图1). 该页面列出了所有使用该论文中发布的实验证据进行的GO注释。可以通过GO网站上的基因注释数据搜索访问PubMed页面。例如,可以在主页上的“搜索GO数据”框中输入PubMed标识符(不包括“PMID”前缀),或单击“注释”框中的“筛选并下载”链接。单击注释结果表中“Reference”列中的PubMed标识符可将用户引导到选定的GO-PubMed文章页面。GO注释包含了一篇关于基因功能的已发表论文的研究结果的高级摘要。我们希望论文作者也会发现这些页面对评估他们的工作在GO知识库中的表现方式非常有用,并就如何改进这种表现方式提供反馈。我们与NCBI LinkOut团队合作(https://www.ncbi.nlm.nih.gov/books/NBK3805/)包含PubMed记录的链接,将用户引导回这些GO文章页面。这些链接允许用户在搜索PubMed时访问GO注释。
图1。
GO PubMed文章页。页面上显示了引用文章作为证据的所有GO注释(右下角的表格)。文章的摘要信息来自NCBI web服务(上部面板)。左下角的面板显示了一般的AmiGO2过滤功能:单击任何数据类型(例如Ontology(方面))将允许选择要应用的过滤器。
未来发展方向
从注释到生物模型(乐高)
GO注释结构在历史上非常简单,由一个基因和一个GO术语组成(以及上述关联的证据)。由于基因功能是复杂的,并且与更大的系统和由多个基因产品执行的生物“程序”有关,因此典型的GO注释仅代表该功能的一个方面。之前我们报道了对GO注释模型的一个简单扩展,称为“注释扩展”(21)它允许生物验证器使用定义的关系和实体来修改选定的GO术语来捕获额外的上下文信息。
然而,为了能够更全面、准确地描述基因功能以及多个基因如何共同发挥作用,我们开发了一种“语法”,将传统GO注释组合在一起,形成一种更完整的表达,以表达基因功能如何相互关联以及如何与更大的生物过程关联。我们将这种新的形式主义关联表达式称为使用基因本体,或乐高。可以在上找到初始公告http://geneontology.org/article/gaf-gpad-and-lego.
乐高形式主义将在单独的出版物中描述,但它简要地定义了如何将不同的传统GO注释组合成更大的基因和系统功能“模型”。图中显示了一个简单的示例2重要的是,更大的模型可以并且将在计算上分解为传统的GO注释,因此仍然支持GO注释的所有当前应用,例如富集分析。然而,我们也鼓励基于网络的分析工具的开发人员下载每个乐高模型的本地OWL(Web Ontology Language)表示,该表示指定了不同基因产品的功能如何链接到因果网络中。用户可能还对浏览和查看已发布的模型感兴趣,这些模型可从以下网址获得:http://noctua.berkeleybop.org.
图2。
乐高连接注释。(A类)两个基因的传统注释,以及(B类)在乐高模型中连接在一起的相同注释。这个例子显示“BFA1(在纺锤体极体内)的活性抑制了TEM1的GTPase活性,作为有丝分裂的部分退出。”可以添加其他上下文,例如单元格类型等(未显示)。根据中的数据绘制(22).
我们开发了一个用于创建和编辑乐高模型的软件平台,我们称之为Noctua。Noctua支持基于web的乐高模型协作注释。目前GOC正在向Noctua过渡(http://noctua.berkeleybop.org)作为主要的GO管理工具。一些GO注释提供商已经在使用Noctua软件创建乐高模型,GOC预计此类模型的数量和效用将在未来一段时间内迅速增加。在过去的一年中,我们举办了五次注释研讨会,向Noctua注释工具和基于OWL的乐高管理原则介绍生物验证器。乐高策展文件从Noctua主页链接,并动态更新,以反映正在进行的策展分析和对话。
总结
基因本体联盟(Gene Ontology Consortium)是一个跨越生物学、医学和计算机科学的不断发展的多学科社区。我们的目标是创建一个生物知识的综合计算模型,该模型将继续支持对不断增加的分子生物医学数据存储的分析和解释。这项工作取决于对我们目前对生物系统的理解的持续评估,并通过大量生物学家和软件开发人员的贡献得到了加强和改进。
在我们努力不断提高GO知识库和工具的质量的同时,我们邀请研究界在所有生物领域提供投入。研究小组可以对本体进行更新(例如请求新术语)或提供新的和更新的注释;欢迎对现有工具或数据可用性的反馈,或对新功能的建议。了解有关如何将您的工作贡献给GO资源的更多信息,请访问http://geneontology.org/page/contribution-go.
致谢
我们要感谢为GO知识库做出贡献的广大科学家群体,他们是生物验证器和软件开发人员(参见http://geneontology.org/page/accountments-contributors(http://geneotology.org/page确认贡献者)),以及为GO注释提供基础的已发表论文的作者(参见http://geneontology.org/page/accountments-authors网站).
基金
美国国立卫生研究院/美国国家人类基因组研究所[HG002273]授予由朱迪思·布莱克(Judith A.Blake)、J.迈克尔·切里(J.Michael Cherry)、苏珊娜·刘易斯(Suzanna E.Lewis)、保罗·斯特恩伯格(Paul W.Sternberg)和保罗·托马斯(Paul-D.Thomas)组成的PI小组,以及向每个参与机构授予的额外资金。有关更多详细信息,请访问:http://geneontology.org/page/go-consortium-contributors-list开放获取费用的资金来源:美国国立卫生研究院/美国国家人类基因组研究所[HG002273]。
利益冲突声明。未声明。
参考文献
1基因本体联盟
.基因本体联盟:前进
.核酸研究
.2015
;43
:D1049号
–D1056号
. 2节食
H。
,贝拉尔迪尼
T.Z.公司。
,Foulger公司
R.E.公司。
,希尔
D.P.公司。
,洛马克斯牌手表
J。
,奥苏米·萨瑟兰
D。
,龙卡利亚
第页。
,蒙加尔
C.J.公司。
.
TermGenie-一个基于模式的本体类生成的web应用程序
.J.生物识别。语义学
.2014
;5
:48
. 三。蒙加尔
C.J.公司。
,节食
H。
,奥苏米·萨瑟兰
D。
.
OWL在基因本体中的使用
.生物Rxiv
.2014
;010090
. 4帕特尔
美国。
,龙卡利亚
第页。
,爱情
钢筋混凝土。
.
用基因本体论描述人、小鼠和大鼠神经鞘氨醇-神经原-hank复合体的作用及其与自闭症的相关性
.BMC生物信息学
.2015
;16
:186
. 5张(音译)
K.H.公司。
,基尔西库马尔
美国。
,龙卡利亚
第页。
,Subramanian语
S.L.公司。
,罗斯
机械工程师。
,塞缪尔
米。
,阿南德
美国。
,神经节
L。
,古尔德
美国。
,亚力山大
R。
等.
在细胞外RNA和囊泡通讯的背景下扩展基因本体
.J.生物识别。语义学
.2016
;7
:19
. 6基尔西库马尔
美国。
,奇桑加
D。
,阿里亚拉通
D。
,阿尔·萨法尔
H。
,阿南德
美国。
,赵
英国。
,塞缪尔
米。
,巴桑
米。
,乔伊斯
米。
,奇拉姆库蒂
N。
等.
ExoCarta:基于网络的外体货物简编
.分子生物学杂志。
2016
;428
:688
–692
. 7卡拉牌手表
H。
,辛普森
R.J.公司。
,季
H。
,爱卡瓦
E.公司。
,阿尔特沃格特
第页。
,询问
第页。
,债券
V.C.公司。
,博拉(Borrás)
F.E.公司。
,布雷菲尔德
十、。
,巴德尼克
五、。
等.
囊泡百科全书:具有连续社区注释的细胞外囊泡简编
.《公共科学图书馆·生物》。
2012
;10
:e1001450号
. 8希尔
D.P.公司。
,德尤斯塔奇
第页。
,贝拉尔迪尼
T.Z.公司。
,蒙加尔
C.J.公司。
,雷内多
N。
,布莱克
J.A.公司。
.
基因本体中的生物化学途径建模
.数据库(牛津)
.2016
;2016
:巴布126
. 9亨特利
钢筋混凝土。
,西特尼科夫
D。
,奥利克·米拉西奇
米。
,巴拉克里希南
R。
,德尤斯塔奇
第页。
,吉莱斯皮
机械工程师。
,豪
D。
,卡莱亚
A.Z.公司。
,马格德费塞尔
L。
,奥苏米·萨瑟兰
D。
等.
使用基因本体的micrornas功能注释指南
.核糖核酸
.2016
;22
:667
–676
. 10梅尔达尔
B.H.公司。
,福纳-马丁内斯
O。
,科斯坦佐
M.C.公司。
,达纳
J。
,德米特
J。
,迪穆索
米。
,德怀特
S.S.公司。
,高尔顿
答:。
,利卡塔
L。
,梅利多尼
A.N.公司。
.
复杂门户——大分子复合物百科全书
.核酸研究。
2015
;43
(数据库问题
):第479页
–D484号
. 11基因本体联盟参考基因组组
.基因本体论的参考基因组项目:跨物种功能注释的统一框架
.公共科学图书馆计算。生物。
2009
;5
:电子1000431
. 12高德特
第页。
,锂铁矿
医学硕士。
,刘易斯
瑞典。
,托马斯
P.D.公司。
.
基因本体联盟中基于系统发育的功能注释传播
.简要生物信息。
2011
;12
:449
–462
. 13米切尔
答:。
,张
香港。
,多尔蒂
L。
,弗雷泽
米。
,亨特
美国。
,洛佩兹
R。
,麦卡努拉
C、。
,麦克梅纳明
C、。
,努卡语
G.公司。
,佩塞特
美国。
等.
interpro蛋白质家族数据库:15年后的分类资源
.核酸研究。
2015
;43
(数据库问题
):D213型
–D221型
. 14.调光器
电子控制。
,亨特利
钢筋混凝土。
,阿拉姆·法鲁克
Y。
,索福德
T。
,奥多诺万
C、。
,马丁
医学博士。
,别雷
B。
,布朗
第页。
,陈
W.M.公司。
,埃伯哈特
R。
等.
2011年uniprot-go注释数据库
.核酸研究。
2012
;40
(数据库问题
):D565型
–D570型
. 15德西莫兹
C、。
,加巴登
T。
,鲁斯
D.S.公司。
,松哈默
E.L.公司。
,赫雷罗人
J。
,Orthologs联盟之旅
.
在寻求直系木的过程中实现社区标准
.生物信息学
.2012
;28
:900
–904
. 16松哈默
E.L.公司。
,加巴登
T。
,苏萨·达席尔瓦
A.W.公司。
,马丁
米。
,罗宾森·里查维
米。
,伯克曼
B。
,托马斯
P.D.公司。
,Dessimoz C和寻求正交测井联合体
.
寻找正交曲线的大数据和其他挑战
.生物信息学
.2014
;30
:2993
–2998
. 17阿夫根
E.公司。
,贝克
D。
,范登比克
米。
,布兰肯伯格
D。
,鲍维尔
D。
,可可
米。
,奇尔顿
J。
,克莱门茨
D。
,科拉奥尔
N。
,埃伯哈德
C、。
等.
可访问、可重复和协作生物医学分析的银河平台:2016年更新
.核酸研究。
2016
;44
:第3页
–第10周
. 18惯性矩
H。
,黄
十、。
,穆鲁加努扬
答:。
,米尔斯
C、。
,唐
H。
,康
D。
,托马斯
P.D.公司。
.
PANTHER版本11:来自基因本体和反应通路的扩展注释数据,以及数据分析工具增强
.核酸研究。
2017
;. 19瓦迪
L。
,迈耶
米。
,威瑟
J。
,斯坦因
有限责任公司。
,雷曼德
J。
.
过时基因注释对通路富集分析的影响
.自然方法
.2016
;13
:705
–706
. 20NCBI资源协调员
.国家生物技术信息中心数据库资源
.核酸研究。
2016
;44
:D7日
–第19天
. 21亨特利
钢筋混凝土。
,哈里斯
文学硕士。
,阿拉姆·法鲁克
Y。
,布莱克
J.A.公司。
,碳
美国。
,节食
H。
,调光器
E.C.公司。
,Foulger公司
R.E.公司。
,希尔
D.P.公司。
,科迪亚尔
V.K.公司。
等.
一种使用组合方法提高基因本体标注表达性的方法
.BMC生物信息学
.2014
;15
:155
. 22杰莫纳特
米。
,斯帕诺斯
答:。
,史密斯
S.J.公司。
,惠特利
E.公司。
,里廷格
英国。
,约翰斯顿
左侧。
,塞奇威克
S.G.公司。
.
芽殖酵母有丝分裂出口的控制。bub2和bfa1对tem1-gtpase的体外调节
.生物学杂志。化学。
2002
;277
:28439
–28445
. 附录
以下是基因本体联盟的成员列表,他们共同撰写了这篇文章。标有星号(*)的作者对手稿的贡献最大。伯克利生物信息学开放源项目(BBOP),环境基因组学和系统生物学部,劳伦斯伯克利国家实验室(美国加州伯克利):S.Carbon*、H.Dietze、S.E.Lewis、C.J.Mungall*、M.C.Munoz-Torres*;西北大学dictyBase(芝加哥,伊利诺伊州,美国):S.Basu,R.L.Chisholm,R.J.Dodson,P.Fey;南加州大学预防医学系生物信息学系(美国加利福尼亚州洛杉矶):P.D.Thomas*、H.Mi、A.Muruganujan、X.Huang、S.Poudel;EcoliWiki,德克萨斯农工大学生物化学和生物物理系(美国德克萨斯州大学站):J.C.Hu,S.A.Aleksander,B.K.McIntosh,D.P.Renfro,D.A.Siegele;剑桥大学生理学、发展与神经科学系FlyBase(英国剑桥):G.Antonazzo、H.Attrill、N.H.Brown、S.J.Marygold、P.McQuilton、L.Ponting、G.H.Millburn、A.J.Rey、R.Stefancsik、S.Tweedie;哈佛大学生物实验室FlyBase(美国剑桥):K.福尔斯,A.J.施罗德; 拆卸-EBI(英国欣克斯顿):M.Courtot*、D.Osumi-Sutherland、H.Parkinson、P.Roncaglia*;伦敦大学学院心血管遗传学中心(英国伦敦):R.C.Lovering*、R.E.Foulger、R.P.Huntley、P.Denny、N.H.Campbell、B.Kramarz、S.Patel、J.L Buxton、Z.Umrao、A.T.Deng、H.Alrohaif、K.Mitchell、F.Ratnaraj、W.Omer、M.Rodriguez-López。; 马里兰大学医学院基因组科学研究所(马里兰州巴尔的摩,美国):M.C.Chibucos,M.Giglio,S.Nadendla;IntAct/Complex门户,EMBL-EBI(英国欣克斯顿):M.J.Duesbury、M.Koch、B.H.M.Meldal、A.Melidoni、P.Porras、S.Orchard、A.Shrivastava;InterPro、EMBL-EBI(英国欣克斯顿):H.Y.Chang、R.D.Finn、M.Fraser、A.L.Mitchell、G.Nuka、S.Potter、N.D.Rawlings、L.Richardson、A.Sangrador-Vegas、S.Y.Young;MGI,杰克逊实验室(美国缅因州巴尔港):J.A.Blake*、K.R.Christie、M.E.Dolan、H.J.Drabkin、D.P.Hill*、L.Ni、D.Sitnikov;剑桥大学PomBase(英国剑桥):M.A.哈里斯、J.海尔斯、S.G.奥利弗、K.卢瑟福、V.伍德;伦敦大学学院PomBase(英国伦敦):J.Bahler,A.Lock;RGD,威斯康星州医学院(美国威斯康星州密尔沃基):J.De Pons、M.Dwinell、M.Shimoyama、S.Laulederkind、G.T.Hayman、M.Tutaj、S.J.Wang;纽约大学医学院生物化学与分子药理学系反应组(美国纽约州纽约市):P.D’Eustachio,L.Matthews;研究院(美国北卡罗来纳州三角研究公园):J.P.Balhoff;斯坦福大学遗传学系SGD(美国加利福尼亚州斯坦福市):R.Balakrishnan、G.Binkley、J.M.Cherry、M.C.Costanzo、S.R.Engel、S.R.Miyasato、R.S.Nash、M.Simison、M.S.Skrzypek、S.Weng、E.D.Wong;SIB瑞士生物信息研究所(瑞士日内瓦):M.Feuermann,P.Gaudet*;TAIR,凤凰生物信息学(美国加利福尼亚州红木市):T.Z.Berardini,D.Li,B.Muller,L.Reiser,E.Huala;UniProt:EMBL-EBI(英国欣克斯顿),瑞士生物信息学研究所(SIB)(瑞士日内瓦),以及蛋白质信息资源(美国华盛顿特区和美国德意志州纽瓦克):J.Argasinska、C.Arighi、A.Auchincloss、K.Axelsen、G.、Argoud-Puy、A.Bateman、B.Bely、M.-C.Blatter、C.Bonilla、L.、Bougueleret、E.Boutet、L.Breuza、A.Bridge、R.Britto、H.Hye-A-Bay、C.Casals、E.、Cibrian-Uhalte、E.Coudert、I.Cusin、P.Duek-Roggli、A.Estreicher,L.、Famiglietti、P.Gane、P。Garmiri、G.Georgiou、A.Gos、N.、Gruaz Gumowski、E.Hatton Ellis、U.Hinz、A.Holmes、C.Hulo、F.Jungo、G.Keller、K.Laiho、P.Lemercier、D.Lieberher、A.MacDougall、M.Magrane、M.J.Martin、P.Masson、D.A.Natale、C.O'Donovan、I.、Pedruzzi、K.Pichler、D.Poggioli、S.Poux、C.Rivoire、B.Roechert、T.Sawford、M.Schneider、E.Speretta、A。Shypitsyna、A.Stutz、S.Sundaram、M.、Tognolli、C.Wu、I.Xenarios、L.-S.Yeh;加州理工学院WormBase(美国加利福尼亚州帕萨迪纳),威康信托桑格研究所(英国欣克斯顿)EBI公司(英国欣克斯顿)和安大略省癌症研究所(加拿大多伦多:J.Chan、S.Gao、K.Howe、R.Kishore、R.Lee、Y.Li、J.Lomax、H.M.Muller、D.Raciti、K.Van Auken*、M.Berriman、L.Stein、Paul Kersey、P.W.Sternberg);ZFIN,俄勒冈州大学(俄勒冈州尤金,美国):D.Howe,M.Westerfield。
©作者2016。由牛津大学出版社代表核酸研究出版。