跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2001年8月;11(8): 1425–1433.
数字对象标识:10.1101克/180801克
预防性维修识别码:PMC311077型
PMID:11483584

创建基因本体资源:设计与实现

摘要

可获取的生物信息量呈指数级增长,这使得围绕基因及其产品的分子信息注释的声音变得混乱。基因本体(GO)项目旨在为特定生物领域提供一组结构化词汇,用于描述任何生物体中的基因产品。这项工作包括构建三个广泛的本体来描述分子功能、生物过程和细胞成分,并提供支持使用这些本体的社区数据库资源。GO联盟由与三个模型生物数据库相关的科学家发起:SGD、酵母菌属基因组数据库;FlyBase果蝇属基因组数据库;和MGD/GXD,小鼠基因组信息数据库。其他模型生物数据库小组也加入了该项目。每个模型生物信息系统都使用GO词汇术语注释基因和基因产品,并将这些注释合并到各自的模型生物数据库中。每个数据库都将其注释文件提供给公共访问的共享GO数据资源http://www.geneontology.org/社区可以使用GO站点恢复GO词汇表,并从模型生物数据库访问带注释的基因产品数据集。GO联盟支持GO数据库资源的开发,并提供工具,使馆长和研究人员能够查询和操作词汇表。我们相信,这种分子注释资源的共享开发将有助于生物信息的统一。

随着生物信息量的增长,以有意义的方式描述和分类生物对象变得越来越重要。许多特定物种和领域的数据库都有组织和整合这些数据的策略,允许用户筛选不断增加的信息量。生物学家希望能够使用存储在不同数据库中的信息来提出生物学上有趣的问题。例如,他们想知道哪些基因或基因产物有助于上皮层的形成和发展,哪些DNA-结合蛋白参与DNA修复但不参与DNA复制,或者有什么证据表明小鼠第6页基因产物参与眼睛的形态发生。此外,研究人员希望能够扩展此类查询,以查找具有相同特征的不同生物体中的基因产物。为了支持这种研究,数据库必须严格组织和注释基因产品的生物特性。如果没有计算工具和定义明确的注释系统,在检测微阵列表达数据、对群体基因型进行测序或鉴定所有糖酵解酶的背景下搜索这些类型的信息即使不是不可能,也是很困难的。

基因本体论(GO)联盟的成立是为了开发共享的、结构化的词汇表,这些词汇表足以对生物体的分子特征进行注释(基因本体联盟2000). 该小组的初衷是构建一组词汇表,其中包含一些术语,我们可以共享这些术语,共同理解所使用的任何术语的含义,并支持跨数据库查询。然而,很快很明显,来自模型生物群的组合注释集将为整个科学界提供有用的资源。因此,除了开发共享的结构化词汇表外,GO项目还开发了一个数据库资源,该资源不仅可以访问词汇表,还可以访问注释和查询应用程序以及因在基因和/或基因产品注释中使用词汇表而产生的专门数据集。

本体论(Gruber 1993年,1995)有两个主要的语用目的。第一是促进人与组织之间的沟通。第二是提高系统之间的互操作性。我们有意识地选择从最基本的层面开始,创建并同意共享的语义概念;也就是说,通过定义描述生物学特定领域所需的单词。我们知道这是一个不完整的解决方案,但坚信这是必要的第一步。这些常见概念立即有用,并可最终用作更全面地描述生物学领域的基础。

使用本体论方法构建生物知识是研究和开发的一个活跃领域(例如,瓜里诺1998;Jones and Paton 1999年;http://www.cs.utexas.edu/users/mfkb/related.html,http://ontolinga.stanford.edu). 然而,独立于本体论方法在生物学领域的应用,研究人员正在构建词汇表来对细胞功能进行分类(例如。,莱利1993). 这些分类的应用方式支持在数据库(如EcoCyc和MetaCyc)中根据生理角色搜索基因的能力(Karp等人,2000年). 在综合词汇方面的其他努力包括通过MEDLINE应用于科学文献的医学主题词(MeSH)词汇(Delozier and Lingle 1992年;Lowe和Barnett 1994年).

基因本体工程

GO财团

GO联盟成立于1998年,是三个模型生物数据库之间的合作:FlyBase,基因组数据库果蝇属(1999年FlyBase联盟); 这个酵母菌属基因组数据库(SGD)(Ball等人,2000年); 以及综合小鼠基因组信息数据库、小鼠基因组数据库、MGD(Blake等人,2000年)和基因表达数据库(Ringwald等人,2000年)以下合称MGI。2000年,又有两个模式生物群拟南芥信息资源(TAIR)(Huala等人,2001年)、和秀丽隐杆线虫组(网址:http://www.wormbase.org/)加入GO财团。

GO项目的目标

GO致力于开发跨物种生物词汇,用于多个数据库,以一致的方式注释基因和基因产品。三个广泛的本体正在开发中,分别是(1)分子功能、(2)生物过程和(3)细胞成分。之所以选择这些特定的分类,是因为它们代表了所有生命形式共同的信息集,也是我们对基因和基因产物信息注释的基础。这项工作与计算生物学界为实现生物本体提供工具的工作类似(Schulze-Kremer等人,1998年;http://www-smi.stanford.edu/projects/bio-ontology/). 我们的工作主要集中在知识领域开发和应用于生物基因产品模型的生物注释上,而不是集中在实现本体的工具和程序上。

GO项目的一个重要特征是,GO词汇表的开发独立于特定基因产物与GO术语的关联。联合体成员共同构建和定义词汇表中的术语,并指定术语之间的关系。然后,本体被用于注释联盟成员数据库中的基因产品。每个模型生物信息资源都将词汇表纳入其数据查询和可视化工具中。

GO项目的目标已经过仔细定义,如方框1所示。我们认识到,在分子功能、生物过程中一系列功能的参与以及该过程在细胞中特定时间和空间的展开之间存在着生物关系。因此,GO可以在逻辑上进行扩展,以反映给定时间的所有蜂窝操作和状态。然而,GO联盟成员选择首先关注三组精确的术语,这三组术语对研究人员具有直接和特殊的实用性,并且跨越了我们的各种有机体领域。虽然我们预计未来可能有必要扩展GO以纳入更复杂的生物学概念,但这里所描述的努力是创建共享生物学语言的一个重要开始。

方框1。基因本体联盟的目标

  1. 编写一个全面的结构化词汇表,描述生命形式之间共享的分子生物学的不同元素。

      - 术语被定义,可能有同义词,并被组织成更广和更窄的细化。

      - 单独的词汇用于定义生物学的不同维度。

  2. 使用这些术语描述生物对象(在每个贡献成员的模型生物数据库中)。
  3. 提供用于查询和操作这些词汇表的工具。

      - 为生物学的其他方面添加新词汇。

      - 允许研究人员通过网络或更复杂的方式定位术语和生物对象。

      - 允许其他人建立卫星数据库。

  4. 提供工具,使馆长能够为生物物体指定GO术语。

      - 基于序列的方法

      - 编辑注释

      - 微阵列

      - 蛋白质结合实验

GO不是:

  1. GO不是一种统一生物数据库的方法。共享命名法是朝着统一迈出的一步,但这本身还不够。
  2. GO不是一个规定的标准,它要求跨数据库使用术语。团体出于自身利益参与并合作达成共识。
  3. GO并没有定义来自不同生物体的基因产物之间的同源性。GO的使用导致来自不同生物体的基因产物的共享注释,这可能反映了进化关系,但共享注释本身并不足以进行这种确定。

GO方法的优势在于它专注于生物词汇的细节以及术语之间精确定义的关系的建立。本体的结构允许实现比开发简单的术语或关键字词典更强大的查询功能。例如,“DNA复制”在GO中表示为“DNA代谢”的一部分,以及“DNA复制和细胞周期”的一个部分,而“DNA复制与细胞周期”本身就是“细胞周期”中的一部分。该术语也被认为是“有丝分裂S期”的一种。因此,多个路径和术语可用于恢复已注释为分子功能“DNA复制”的基因产物信息(图。(图1)。1).

保存图片、插图等的外部文件。对象名称为35957-13f1_F4TT_rev1.jpg

多路径。该图说明了代表DNA复制生物过程的不同途径。在GO浏览器中查看,显示了术语之间的关系、DNA复制的GO ID以及有关包含此生物过程的路径数量的信息。

将定义的术语指定为基因产品的属性也允许通过定义的术语进行后续查询,以恢复已知共享该属性的所有基因产品。对于某些搜索,特别是通过精确定义的函数进行搜索,来自酵母和果蝇属可能与小鼠或其他生物体中的基因产物显示出强烈的结构相似性。一些人可能会认为这些信息足以得出结论,认为这些代表了同源基因,但GO项目本身不会得出这样的结论,因为不同的进化路径可能导致共享的分子功能(例如,酵母和苍蝇乙醇脱氢酶)。例如,被称为“汽车11,小鼠中的碳酸酐酶11是碳酸酐酶基因家族的成员,但不具有该家族其他成员所具有的碳酸盐脱水酶的酶功能。因此,在GO注释中,该基因与GO分子功能术语“碳酸盐脱水酶”(GO识别号。GO:0004089)。目前,来自多种生物的基因产物之间同源性或进化相关性的断言不在GO项目的范围内。相反,GO的目的是稳健地定义每个特定基因产品的已知信息,然后通过搜索(例如,分子功能或细胞位置)来探索信息,从而恢复已知共享属性的基因产品。

三个本体论

GO联盟正在开发三个本体:分子功能、生物过程和细胞成分,以描述基因产品或基因产品组的属性。简言之,分子功能描述了基因产物在生化水平上的作用。生物过程描述了一个广泛的生物学目标。细胞成分描述了基因产物在细胞结构和大分子复合物中的位置。

分子功能的本体论

分子功能被定义为基因产物在生物化学水平上的作用。它只描述了所做的事情,而没有指定事件实际发生的地点、时间或更广泛的背景。广义功能术语的例子是“酶”、“转运体”或“配体”。更具体的功能术语的示例是“腺苷酸环化酶”或“Toll受体配体”

基因产物和其分子功能之间可能存在语义混淆,因为通常基因产物是根据其分子功能或至少其一种分子功能命名的。酶就是这种现象的明显例子。

生物过程本体

生物过程是指基因产物参与的生物目标。一个过程是通过一个或多个有序的函数集合来完成的。它通常涉及转化,即某种东西进入一个过程,然后从中产生不同的东西。广义生物过程术语的例子是“细胞生长和维持”或“信号转导”。更具体的术语的例子是“嘧啶代谢”或“cAMP生物合成”

生物过程并不等同于路径。具体来说,我们没有捕获或试图表示描述当前实现中的路径所需的任何动态或依赖性。众所周知,关系网络将特定的分子功能与一个或多个生物过程联系起来,但明确开发和表示这些相互联系超出了我们目前的范围。相反,我们力求尽可能准确地定义基因产物的分子功能,并类似地注意到基因产物参与的每一个和任何生物过程,如下所述。

细胞组件的本体

细胞成分是指细胞中发现基因产物的位置。这些术语反映了我们对细胞结构的一般理解。

细胞成分包括描述复合物的术语,复合物中会发现多种基因产物,如“核糖体”或“蛋白酶体”。它还包括“核膜”或“高尔基体”等术语。因此,术语“细胞成分”包含“位置”的广泛概念作为细胞中基因产物活跃的地方。例如,细胞成分术语可以是一个“位置”,例如核外膜(GO:0005640;同义词:外层包膜),也可以是指一个“地点”,例如组蛋白去乙酰化酶复合物(GO:0000118)。

本体结构与标准

本体论的结构

本体是以有向无环图(DAG)形式表示的结构化词汇表,其中每个术语可以是一个或多个“父”的“子”网络。分子功能词汇表中的一个示例是功能术语“跨膜受体蛋白酪氨酸激酶”以及它与其他函数项的关系。它是双亲“跨膜受体”和双亲“蛋白酪氨酸激酶”的一个亚类

子对象与父对象的关系可以是“是”类型或“部分”类型。“是一个”类型是指当孩子是父母的实例时(在细胞成分词汇的示例中,有丝分裂染色体是染色体的实例)。“部分”类型指的是孩子是父母的组成部分(例如,端粒是染色体的组成部分)。子术语可能有多个父术语,并且可能与其不同的父术语具有不同的关系类别。虽然很难在同一本体中管理不同类型的关系,但如果我们要准确地反映语义,关系必须是多种多样的。与树和逻辑语言相比,DAG的表达能力,以及我们实现的用于解决查询中的逻辑如何针对不同的关系类型工作的规则,允许这种复杂的关系表示。

本体中的每个术语都是GO数据资源中的可访问对象。每个术语都有一个唯一的标识符,用作协作数据库中的数据库交叉引用。每个术语都已经(或将要)定义,每个定义都将引用其定义的来源。开发查询和实现工具是为了利用本体本身中捕获的详细关系。尽管本体中的每个术语都与至少一个其他术语有关系,但这些信息并未包含在标识符中,因为在许多其他考虑因素中,术语在本体中的位置(即其父项和子项)可能会更改。

定义术语

GO术语的定义是作为本体开发的一部分提供的。我们正在尽可能使用,《牛津分子生物学词典》(1997),具有权限和属性。其他定义来自生物化学和分子生物学的标准参考著作或SWISS-PROT等来源(Bairoch和Apweiler 2000). 每个定义的源都已存储并可用。用户可以从网页上访问定义,也可以使用GO浏览器搜索可用数据的一部分(见下文)。

只有通过仔细注意GO中术语的精确定义,来自多个研究社区的多个地点的科学馆长才能在GO合作的背景下成功注释基因产品。通常,同一个术语在不同的研究群体中可以使用不同的含义。GO Consortium方法对这一现实的优势之一是,我们致力于为每个有争议的术语提供一个适用于所有注释组的定义。尽管术语(即使用具有特定含义的术语)之争在生物学中很常见,但对共享词汇的需求导致了我们达成共识的动力和承诺,以便所有人都能使用具有特定意义的术语。

支持本体术语的其他属性。例如,一个术语可能有一个或多个同义词。酶命名数据库可能有跨数据库引用(http://expasy.proteome.org.au/ezyme/)或其他专业词汇,如用于物种特定解剖的词汇。

GO标准

联合体小组成员可对GO的更新和修订作出贡献。GO编辑与几位科学策展人合作,分析和细化本体论的各个方面,这些都是正在进行的工作。对本体的添加和更改来自协作数据库和更广泛的社区(见下文)。开发GO的一些工作原则是:(1)所有路径都必须正确;(2) 术语不应特定于物种,但应至少代表类别级别的覆盖范围;(3) GO的所有属性必须附有适当的引文;(4)所有GO术语的基因产物注释必须包含支持关系的证据类型的受控声明,以及适当的引用。这些规则和指南已在GO网站上记录在案,并附有示例。

真路径规则

“真实路径规则”是通用GO指南中包含的程序类型的一个示例。从子术语到顶级父术语的路径必须始终为true。如果发现一个新的基因产物打破了这一规则,或者如果物种特异性成为一个问题,那么应该通过添加更多节点和连接术语来重新构建层次结构,从而创建一条新的路径来保持向上层次结构的有效性。考虑生物过程本体中描述甲壳素代谢的术语。几丁质代谢是苍蝇角质层合成的一部分,也是酵母细胞壁组织的一部分。图22说明了如何为该示例构建生物过程本体。

保存图片、插图等的外部文件。对象名称为35957-13f2_F4TT_rev1.jpg

GO的扩展反映了“几丁质”一词的多种用途。“几丁质”示例说明了GO结构的发展,以准确反映对关系的理解。表皮几丁质代谢是一个独立于细胞壁几丁质的代谢过程。本图使用BDGP GO浏览器,该浏览器支持指向注释为给定GO术语的基因产品的链接。在这里,用术语“细胞壁甲壳素生物合成”注释的基因被表示,并链接回这些基因的SGD数据库表示。

几丁质的例子例证了当前关于GO扩展的范式;也就是说,对本体进行细化和扩展,使其在语义上是正确的。然而,随着GO的扩展,我们已经考虑了以下问题:(1)当本体扩展到包含精细级别的分子细节时,我们将如何继续保持GO结构内的一致性,以及(2)我们将如何知道何时限制扩展,因为本体反映了太多物种级别的细节。

我们正在努力解决人们对无休止扩张和保持内部一致性的担忧。首先,我们将继续开发GO数据库和相关注释工具。从计算上看,本体的大小并不是一个真正的问题。从策展角度来看,如果没有执行一致性检查和受控更新的软件工具,将越来越难以保持我们所希望的语义一致性。此外,如果没有专门管理GO本体论的各个小节,我们将失去项目的整体一致性。因此,当我们意识到有必要这样做时,我们会积极完善和扩展本体中的特定领域。例如,在生物过程本体中,我们最近将所有细胞过程独立于多细胞过程进行了分组。这种重组将使我们能够在分子生物学信息学社区的帮助下,完善和更新本体论的这一特定部分。

物种-特定注意事项

并非所有生物体都存在许多分子功能和生物过程。然而,GO术语集意味着具有包容性,并且层次结构中的术语之间的完整性必须对所有生物体保持一致。我们目前的约定是包括适用于一个以上生物分类类别(例如脊索动物门的哺乳动物和鸟类类)的任何术语(例如“模式形成”)。随着资源在不同物种间的效用测试,这种考虑可能会发生变化。在本体论本身中,有时一个单词或短语在应用于不同的有机体时具有不同的含义。在这种情况下,本体论有一个术语代表每一种含义,通过定义和感官指定的使用与其他类似术语区分开来。例如,GO:0007322是术语“交配(感官酵母菌属)“区别于”交配(感官秀丽隐杆线虫).” 术语“交配(感官酵母菌属)“当交配过程与以下示例相似时,其他酵母物种将在注释中使用酿酒酵母.

更新本体

参与数据库的管理员可以将术语添加到GO中。联合体成员的电子邮件通知提醒参与者添加或重组本体的任何方面。添加新术语就像认识到需要一个额外的术语一样简单,例如,另一种DNA修复酶活性。这也可能像决定“有丝分裂纺锤体定向”(纺锤体组装的子代)与“细胞极性的建立”(细胞骨架组织和生物发生的子代”)的关系一样复杂。策展人仔细评估GO的变化,尤其是那些将“父代”变为“子代”的变化关系,因此可能会影响参与数据库对术语的当前使用。GO的一个有趣的方面是,由于它代表独立于单基因注释的生物学知识,随着GO的不断完善和发展,与GO术语相关的基因产品的注释和知识也将自动完善。GO欢迎用户的输入。

未解决的设计和实施问题

当前的开发模式将为GO项目带来巨大的发展。通过进一步定义用于创建和维护概念间语义顺序的过程,可以改进这种开发本体的实用方法。GO财团正在定期讨论这些问题。例如,我们就“过程”何时开始和何时结束展开辩论。GO使用指南中对这些讨论进行了总结,该指南链接到GO主页,网址为http://www.geneontology.org/GO.usage.html#描述.

定义在理解GO发展中的重要性的一个具体例子是术语“肌动蛋白细胞骨架”GO:0005856。肌动蛋白细胞骨架是一种“类型”的细胞骨架,还是细胞骨架的“一部分”?答案取决于“细胞骨架”一词的定义http://www.informations.jax.org/go/go.cgi?id=go:0005856我们在GO中使用的定义是“真核细胞细胞质中的任何丝状元素。 . . . . . ” 因此,肌动蛋白细胞骨架被确定为一种“类型”的细胞骨架。整理常见生物学术语的各种定义需要时间和精力。这个练习本身将为所有用户澄清生物学词汇。

我们使用DAG来表示术语及其关系。这是对简单层次树的改进,因为它允许一个更具体的术语成为多个更广泛术语的子项,从而捕捉生物现实。我们使用缩写词“term”来表示特定文本字符串中包含的概念的语义定义。它不是非常复杂的数据结构,但足以表示词汇表,这就是目前的GO。这种方法的主要局限性在于,对于如何应用术语来确保用于描述单个基因产品的功能、过程和成分术语的三元组在生物学上有意义,没有进行管理。目前,这是执行任务的策展人的唯一权限,我们依赖策展人对准确性的贡献。我们计划在未来实施更稳健的解决方案。

词汇的增长是有机的。我们认识到,关于开发和发布的某些假设(例如,早期和频繁的发布会疏远用户并导致项目失败)并不一定正确。此外,额外人员的加入带来了新的见解,并最终导致了一个比一小群开发人员可能实现的任何东西都更强大的产品。要成功使用此模型,联盟需要对我们从社区收到的反馈做出极大的响应和关注。当社区指出这些问题时,我们有意识地立即进行扩展和修改。这种响应性鼓励人们继续帮助我们改进。

为GO注释基因产物

本体的创建和本体术语与基因产品的关联是两个独立的操作。基因产物是一种物理实体:蛋白质或功能性RNA。基因产物的例子(按名称)是α-球蛋白或小核糖体RNA。基因产品可以组装成具有复合物或基因产物群功能的实体。基因、基因产物、基因产物前体和基因产物复合物都可以与一个或多个GO术语相关联。在这个系统中,每个基因产物都可以被描述为具有一个或多个功能,参与一个或更多生物过程,并且发生在一个或几个细胞位置。在参与数据库将每个不同的产品和每个产品复合体作为独立对象(例如,差异剪接或翻译后修饰)之前,GO术语的注释使用“基因”作为其所有产品及其复合体的替代物。

区分基因产品和产品属性至关重要,例如通常包含在基因或基因产品名称中的功能。基因和基因产物经常以其功能命名。事实上,随着对基因产物功能的认识的发展,命名法发生了许多修订。例如,最初指定为c(c)基于这种毛色表型的单基因遗传,(白化)已被克隆并鉴定其功能,因此,其符号被修改为提尔(酪氨酸酶)。

在定义GO术语时,必须将术语作为“功能”或“过程”术语,而不是表示“产品”本身。一个特定的基因产物可能具有一个或多个分子功能,因此将与一个或更多的分子功能项相关联。例如,小鼠基因阿布卡4在功能本体中被注释为两个术语:(1)ATP-结合盒转运体(GO:0004009)和(2)磷脂转运(GO:0005548)。此外,一些基因产物在多种酶反应中发挥作用,如酶委员会(EC)编号所定义。例如,小鼠基因的产物P4hb(磅)可以作为异构酶或双加氧酶发挥作用,因此被注释为(1)蛋白质二硫键异构酶(GO:0003756)和(2)前胶原,2-氧戊二酸-4-双加氧酶类(GO:0004656)。这些例子说明GO术语描述了酶进行的化学反应,而不是指酶分子本身。

基因产品对一个本体的注释独立于其对其他本体的注释。例如,由小鼠基因编码的γ-谷氨酸转肽酶Ggtp公司,被注释为一种分子功能:γ-谷氨酰转移酶(GO:0003824)和两个生物过程:(1)谷胱甘肽代谢(GO:0006749)和(2)精子发生(GO:0007283),基于对该基因突变小鼠表型的研究。前者的生物过程可以从分子功能推导出来,后者则不能,这说明了使用多个本体独立注释基因产物的价值。另一个证明本体论独立性重要性的例子是酵母中苹果酸脱氢酶亚型的注释。的产品MDH1、MDH2、和MDH3型基因都具有相同的分子功能,苹果酸脱氢酶(GO:0004470),但定位于不同的细胞成分,并在不同的生物过程中发挥作用。

基因产品注释的证据和引文

GO词汇表中的基因产物注释来源于文献参考、其他数据库或计算分析。注释不仅包括源属性,还指示注释所依据的证据。一个简单的受控词汇用于描述支持归因的证据,例如“从突变表型推断”或“从直接分析推断”。完整的“证据陈述”可以在http://www.geneontology.org/GO.evidence.html用实验方法和引文引用每个注释,旨在帮助研究人员评估注释的可靠性,对这些注释的未来评估和使用至关重要。与单纯基于计算方法(如序列相似性)相比,人们可能对基于直接实验证据的赋值更有信心。此外,研究人员可能会给出一些形式的实验证据,比其他证据更可信;例如,观察到特定基因的突变导致特定表型并不意味着基因产物直接参与受影响的生物过程。

创建共享数据资源

GO网站

作为公共社区的一项努力,我们努力吸收使用GO的人的建议,并为GO项目提供注释文件和其他文档。GO网站(http://www.geneontology.org)提供了本体论、术语定义、物种特定的基因产品注释和其他信息的可下载版本。该站点还包括查询工具和GO的数据库实现(在MySQL中)。随着GO联盟成员合作开发GO,其他注释组正在将GO术语和哲学纳入其他背景下的基因产品注释中(Adams等人,2000年).

GO好友邮件列表允许那些没有积极参与创建本体或将基因产品注释到本体的人参与本项目并提出问题。GO词汇表以文本文件和单个XML文件的形式存在,为本体浏览器提供数据。

GO浏览器

现在有三种GO浏览器可用于GO词汇表,其中两种是在伯克利开发的果蝇属基因组项目(BDGP)和MGI集团开发的其他项目。基于BDGP Java的GO浏览器为本体提供了一个查询接口,允许用户使用正则表达式或简单的“通配符”字符来查询数据库。该显示包括查询结果的完整DAG表示及其定义和关于这些术语的其他信息。此外,它是唯一一个能够按照这些术语查找所有与GO术语相关的基因产品的浏览器。此GO浏览器可访问加州大学伯克利分校新生的MySQL GO数据库。浏览器和文档可从http://www.ruitfly.org/annot/go/.

基于BDGP HTML的浏览器更具实验性。它使用框架来显示结果;一个框用于输入简单查询,第二个框用于显示用户选择的单个术语的完整信息(包括定义),还有另一个框用于显示查询结果与其所有父术语和子术语的关系。此浏览器可访问网址:http://www.ruitfly.org/~bradmars/cgi-bin/go.cgi.

MGI GO浏览器允许浏览或搜索GO术语,但不允许对GO术语进行基因产品注释。“术语详细信息”页面显示每个术语的相关信息,包括其定义、任何同义词及其与其他本体术语的关系。“查询摘要”页面显示与本体类别中GO术语的所有匹配项。MGI GO浏览器也可从GO站点获得,http://www.geneontology.org/.

基因本体数据库

本体和基因注释已加载到关系数据库中,以实现更强大的表示和查询功能。该数据模型在MySQL和Informix中实现,它合并了术语之间的关系,并包括术语、同义词和定义的版本控制。特定于生物体的基因-产品注释的关联文件也是数据库表示的一部分。GO数据库(http://www.ruitfly.org/annot/go/database)由BDGP建造和维护。

文档

提供了指导用户的通用文档文件(http://www.geneontology.org/GO.doc.html). 特别是,想要下载GO注释的生物信息系统将找到有关文件结构和语法的信息。有关GO的其他信息,包括其他出版物的链接、参考书目和用户的其他信息可以从GO主页访问。本体的内容和风格指南已编入GO使用指南,可在http://www.geneontology.org/GO.usage.html。证据支持注释的受控词汇表,以及属于每一类的实验类型示例,可在http://www.geneontology.org/GO.evidence.html.

当前发展和未来计划

GO财团每年大约定期举行四次会议。我们希望其他模型生物数据库和注释组将参与GO的开发,并在其注释工作中使用GO词汇和工具。我们将继续与感兴趣的用户合作,将其他词汇翻译为GO。

我们当前的开发工作重点是创建GO注释工具和增强GO数据库。我们可以扩展词汇集,使其包括诸如“细胞类型”或“组织”等有用的集合。我们希望词汇的发展能够持续下去,因为我们创建的资源能够适应我们对生物学理解的变化。

总结

GO项目通过提供一个共享的注释系统来描述生物生物学的一些主要方面,从而将几个模型生物数据库组合并在一起。本体已经被私人和公共数据提供商用作注释和交叉引用其基因和基因产品信息的方法。该项目加强并促进了跨广泛分类进行展示和查询的稳健战略的制定。GO项目是一项开创性的合作工作,导致了重要生物本体的开发和实施,以及模型生物信息资源的开发。

致谢

GO财团由NHGRI拨款HG02273支持。此外,SGD由国家人类基因组研究所(NHGRI)的P41国家资源拨款HG01315资助;由NHGRI拨款HG00330的P41资助的MGD;国家儿童健康和人类发展研究所资助的GXD HD33745;FlyBase由NHGRI拨款HG00739和伦敦医学研究委员会的P41资助;以及由国家科学基金会DBI-9978564资助的TAIR。GO联盟感谢阿斯利康的Ken Fasman的支持和热情。我们感谢GenProtEC的Monica Riley和Gretta Serres以及TIGR的Michelle Gwinn,感谢他们允许我们纳入他们自己项目中的条款和关系。我们感谢牛津大学出版社允许复制生物化学与分子生物学在GO定义中。我们还感谢阿斯利康的财政支持。斯坦福大学的研究小组感谢Incyte Genomics提供的经济资助。

这篇文章的出版费用部分由页面费支付。因此,根据《美国法典》第18卷第1734节,本篇文章必须标记为“广告”,以表明这一事实。

脚注

1通讯作者。

电子邮件科塔姆罗夫尼@ekalbj; (207) 288-6132.

文章和出版物位于http://www.genome.org/cgi/doi/10.1101/gr.180801。

参考文献

  • Adams MD、Celniker SE、Holt RA、Evans CA、Gocayne JD、Amanatides PG、Scherer SE、Li PW、Hoskins RA、Galle RF等黑腹果蝇。 科学。2000;287:2185–2195.[公共医学][谷歌学者]
  • Bairoch A,Apweiler R.2000年的SWISS-PROT蛋白质序列数据库及其补充TrEMBL。核酸研究。2000;28:45–48. [PMC免费文章][公共医学][谷歌学者]
  • Ball CA、Dolinski K、Dwight SS、Harris MA、Issel-Tarver L、Kasarskis A、Scafe CR、Sherlock F、Binkley G、Jin H等。将功能基因组信息整合到酵母菌属基因组数据库。核酸研究。2000;28:77–80. [PMC免费文章][公共医学][谷歌学者]
  • Blake JA、Eppig JT、Richardson JE、Davidson MT小鼠基因组数据库组。小鼠基因组数据库(MGD):扩大实验室小鼠的遗传和基因组资源。核酸研究。2000;28:108–111. [PMC免费文章][公共医学][谷歌学者]
  • Delozier EP、Lingle VA、MEDLINE和MeSH:终端用户面临的挑战。医学参考服务Q。1992;11:29–46.[公共医学][谷歌学者]
  • Gruber TR。可移植本体的翻译方法。知识获取。1993;5:199–220. [谷歌学者]
  • -----面向用于知识共享的本体设计原则。Int J Hum计算机双头螺栓。1995;43:907–928. [谷歌学者]
  • ————— . 在:信息系统中的形式本体。瓜里诺·N,编辑。华盛顿特区:IOS出版社;1998[谷歌学者]
  • Huala E、Dickerman AW、Garcia Hernandez M、Weems D、Reiser L、LaFond F、Hanley D、Kiphart D、Zhuang M、Huang W等。拟南芥信息资源(TAIR):一个用于模型植物的综合数据库和基于网络的信息检索、分析和可视化系统。核酸研究。2001;29:102–105. [PMC免费文章][公共医学][谷歌学者]
  • Jones DM,Paton RC。面向在形式本体中表示层次知识的原则。数据知识工程。1999;31:99–113. [谷歌学者]
  • Karp P、Riley M、Saier M、Paulsen IT、Paley S M、Pellegrini-Toole A.EcoCyc和MetaCyc数据库。核酸研究。2000;28:56–59. [PMC免费文章][公共医学][谷歌学者]
  • Lowe HJ,Barnett GO。理解并使用医学主题词(MeSH)词汇进行文献检索。JAMA公司。1994;271:1103–1108.[公共医学][谷歌学者]
  • 生物化学与分子生物学. 1997. (编辑A.D.Smith等人)牛津大学出版社,纽约。
  • Riley M.基因产物的功能大肠杆菌。 微生物评论。1993;57:862–952. [PMC免费文章][公共医学][谷歌学者]
  • Ringwald M、Eppig JT、Kadin JA、Richardson JE基因表达数据库组。GXD:一个用于实验室小鼠当前状态和最近增强的基因表达数据库。核酸研究。2000;28:115–119. [PMC免费文章][公共医学][谷歌学者]
  • Rison SCG、Hodgman TC、Thornton JM。基因组功能注释方案的比较。功能整合基因组。2000;1:56–69.[公共医学][谷歌学者]
  • Schulze-Kremer S、Karp PD、Musen MA、Altman RB。分子生物学本体教程。6第个分子生物学智能系统国际会议,加拿大蒙特利尔。1998[谷歌学者]
  • FlyBase联盟。的FlyBase数据库果蝇属基因组项目和社区文献。核酸研究。1999;27:85–88. [PMC免费文章][公共医学][谷歌学者]
  • 基因本体联盟。基因本体:生物学统一的工具。Nat Genet。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社