跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2010年1月;38(数据库问题):D331–D335。
2009年11月17日在线发布。 数字对象标识:10.1093/nar/gkp1018
预防性维修识别码:项目经理2808930
PMID:19920128

2010年的基因本体论:扩展和完善

基因本体联盟*

摘要

基因本体(GO)联盟(http://www.geneontology.org)(GOC)继续开发、维护和使用一组结构化的受控词汇,用于基因、基因产品和序列的注释。GO本体在内容和结构上都在扩展。引入并使用了几种新的关系类型以及现有关系,以在GO域之间和内部创建链接。这些改进了生物学的表示,方便了查询,并允许GO开发人员系统地检查和纠正GO中的不一致。使用GO的基因产品注释在总注释数量和物种覆盖率方面都继续增加。GO工具,如本体编辑工具OBO-Edit和GOC本体浏览器AmiGO,在功能、速度和易用性方面都有了重大改进。

简介

基因本体论(GO;http://www.geneontology.org)项目是一个主要的合作生物信息学倡议,旨在标准化跨物种的基因和基因产品属性的表示。该项目提供了一个用于描述基因产品特征的受控词汇表,支持来自GO Consortium(GOC)成员的基因产品注释数据,并开发了访问和处理这些数据的工具。在过去十年里,GOC从建立三个模型生物数据库(小鼠、酵母和苍蝇)扩展到包括世界上的;植物、动物和微生物基因组的主要存储库。GOC免费提供其本体论、注释和工具来推进生物研究。

本体发展

GO在代表生物学、分子功能(MF)、生物过程(BP)和细胞成分(CC)三个方面继续成熟。表1说明了GO网站和数据库的当前内容。

表1。

截至2009年9月4日的基因本体研究现状

生物工艺术语17 069
分子函数项8637
蜂窝组件术语2432
序列本体术语1603
注释数据集52
带注释的物种197 439
注释基因产品
    总计44 545 253
    电子b43 655 159
    手动890 094

大多数数据集代表单一物种;Gramene、TIGR基因指数、UniProt GOA和UniProt PDB代表多个物种。

b使用IEA(根据电子注释推断)证据代码的注释。

新关系类型和术语之间的新链接类型

最初,GO使用两种关系类型链接术语:是(_a)第_部分。的原始用途第_部分调控过程及其调控过程之间的关系没有提供足够的特异性,用户无法进行查询,以区分在生物过程中起调控作用的基因产品与直接作用的基因产物。此外,在分子功能本体论中,调节功能与它们调节的功能之间没有关系。在过去两年中,我们增加了调节,积极_调节、和消极_调节监管条款与其受监管父母之间的关系。三个人调节关系允许GO正确地表示生物学的重要领域,其中一个过程影响另一个过程的表现、分子功能或质量,但可能不是该过程本身的一部分。例如,“转录调控”不是“转录”的一部分,但位于转录过程之外,并控制其如何展开。这个调节GO中的关系专门用于表示必要的调节,即:如果B调节A、 当B出现时,它总是调节A,但A可能并不总是由B调节。引入这些关系将允许用户提出有关控制过程本质的重要问题,这些控制过程是许多生物学的基础。

最近,我们还推出了has_part(有部件)与GO的关系。从父级的角度来看,它代表了部分-整体关系,因此是对第_部分关系。在GO中,关系Ahas_part(有部件)B意味着A必然(总是)有B作为一个部分;即,如果A存在,则B也作为A的一部分存在。如果A不存在,则B可能存在,也可能不存在。例如,“单元格信封”has_part(有部件)“质膜”是指细胞膜始终有一个质膜作为一部分,但质膜可能不作为细胞膜的一部分而存在。

也许最重要的变化是GO现在包含了三个不同分支之间的链接:MF、BP和CC第_部分MF和BP之间的关系以及调节MF和BP内部以及BP和MF之间的关系。(参见中的示例图1). 有关各种新的和旧的关系类型及其在GO中的使用的详细讨论,请访问http://geneontology.org/GO.ontology-ext.relations.shtml.

保存图片、插图等的外部文件。对象名为gkp1018f1.jpg

新的本体内和本体间关系。(A类)一个示例调节箭头指出了两个BP术语之间的联系。一个示例第_部分圆圈表示MF项和BP项之间的链接。A类调节BP项和MF项之间的联系用三角形表示。(B类)一个示例has_part(有部件)箭头指示了两个CC术语之间的链接。

本体之间的新关系和新链接为用户提供了多种用途。首先,通过本体之间的链接,注释现在可以从一个本体传播到另一个本体。这方面最明显的例子是,当分子功能具有第_部分与生物过程的关系。我们希望我们的用户能够超越跨本体链接的这一基本好处,开始使用本体和本体注释提出更多假设性问题。例如,如果用户知道控制代谢过程的调节过程,并且知道在调节过程中发挥作用的分子功能类型,那么现在可以询问哪些基因产物可能参与调节特定的代谢过程。

新本体文件

GO每天进行编辑和发布。有几个版本的GO可供下载(表2). 海外建筑运营管理局1.2版的扩展版本包括调节链接has_part(有部件)链接和本体内第_部分上面讨论的链接以及关于何时以及由谁创建术语的信息。没有此附加信息的其他版本可用于容纳现有的软件工具。有几种方法可以将海外建筑运营管理局格式的文件转换为Web本体语言(OWL)格式(http://www.bioontology.org/wiki/index.php/OboInOwl:Main_Page). 这些多种格式允许用户以他们一直拥有的方式使用GO,但也为他们提供了利用本体提供的最新扩展的机会。

表2。

可用GO本体文件

文件名内容格式
基因_生物学_外部.obo扩展海外建筑运营管理局1.2
遗传学.1_2.obo标准OBO 1.2
基因生物学.1_0.obo标准海外建筑运营管理局1.0

本体中的新生物内容

GOC继续根据注释器和社区请求添加术语并修改本体。此外,通过与社区专家合作并将重点放在生物学的特定相关领域,GO的三个领域都有了显著的改进。首先,与植物相关微生物GO(PAMGO)合作,添加了描述生物体之间相互作用的新术语(1). 第二,描述分支器官发育的术语,重点是胚胎胎盘、前列腺、唾液腺、乳腺和肺的发育(2),已详细说明。第三,描述心脏发育各个方面的GO分支通过增加200多个术语而得到了极大扩展。我们的目标之一是为研究界提供丰富的术语,以在广度和细节上代表他们的生物学。GOC鼓励那些对丰富本体论中生物学特定领域感兴趣的人与我们联系和合作。

本体和注释的质量控制

添加到本体中的新链接和关系类型的好处之一是可以实现本体逻辑质量控制的部分自动化。例如,OBO-Edit中内置的推理器可以识别缺失的是(_a)基于核心生物过程图中现有链接的图中调控部分的链接。在馆长审查之后,进行了一些额外的自动检查并进行了更正。我们还通过将重叠的基因集注释与我们期望相互排斥的各种细胞GO术语进行比较,开始对本体进行生物验证。这样的分析揭示了注释或本体结构中的潜在错误。最后,设计了一项检查,以使用GO术语识别某些物种的基因产物注释,GO术语描述了这些物种中不发生的过程(例如,非哺乳动物基因产物的“哺乳”)。我们计划继续开发本体的逻辑和生物检查,以确保其准确性和完整性。

序列本体

序列本体(SO)(http://sequenceontology.org/)提供了描述基因组学和其他结构序列注释的关键特征的术语和关系。SO开创了海外建筑运营管理局Foundry本体论的先河,使用跨产品术语(使用两个或更多其他本体术语明确定义的术语)来管理本体编辑,共有194多个实例。SO术语越来越多地用于基因组注释,并已成为模式生物群落注释共享和传播的标准术语。正在积极开发本体和术语,可以使用术语跟踪器向SO建议更改。

SO提供了使用miSO浏览器和SO wiki浏览本体并对其进行文档记录的工具。浏览器按术语、同义词或ID搜索CVS修订版或发布版,并提供术语和关系的完全合理的图像。SO wiki为用户提供了术语状态的自动文档,并提供了手动“基于社区”文档的机会。SO还提供了支持将遗留序列更新为符合SO的格式(如gff3)的工具。所有这些资源的链接都可以在SO网站上找到。

基因产物公告

GO联盟成员使用电子和手动方法注释基因产品,随着新的分析技术和实验方法的出现,对这些方法进行了改进。生成的注释集存放在GO存储库和GO数据库中,可以使用AmiGO进行查询。表1显示了数据集、注释的基因产物和注释基因产物的物种的当前数量。

参考基因组计划()联合注释跨12种生物体的基因组,重点是高度保守基因和具有特殊生物医学重要性的基因的协调注释。使用PAINT(系统发育注释参考工具)软件进行功能推断,该软件在系统发育框架中可视化注释[参见Mi等。,此问题(4)]. 参考基因组注释是GO项目的一个重要方面,因为它从有限数量的模式生物中获取实验衍生的生物知识,并利用这些知识在基于系统发育的框架内推断其他生物中类似基因产物的知识。这种类型的注释和推理扩展了GO在许多不同的生物环境中的功能。

更容易接近

海外建筑运营管理局编辑改进

GO社区开发并使用免费的基于Java的本体编辑器OBO-Edit(5) (http://www.oboedit.org). OBO-Edit 2.0于2009年4月发布,对本体编辑器进行了许多改进,以支持使用GO更新版本的本体编辑器。新版本具有完全可定制的面板配置和基于图形的本体编辑器,并通过自动完成功能改进了搜索能力。为了支持跨产品和自动化本体质量控制,OBO-Edit 2.0增强了跨产品编辑、扩展推理功能,包括新的基于规则的推理器,以及断言隐含链接和删除冗余链接的能力。

AmiGO改进

阿米戈(6) (http://amigo.geneontology.org)GO基于web的浏览器经过了大量改进,在多个公开版本中添加了许多新功能。AmiGO现在包括一个术语丰富工具(用于在基因产品中查找重要的共享GO术语或这些GO术语的父项)、本体精简(用于将基因产品的注释映射到更高级别的术语)、社区注释(与GONuts wiki关联,http://gowiki.tamu.edu),并支持参考基因组项目(包括特殊可视化)。AmiGO现在显示调节关系,包括电子(IEA)注释。

AmiGO进行了许多支持性改进和更改,以提高搜索质量和用户界面。正在进行的AmiGO代码就地重写允许在图形、速度、易于安装和一致性方面进行重大改进。最后,AmiGO现在为所有主要平台提供了搜索插件和小部件,并允许用户尝试即将推出的实验性软件。

与用户社区互动

GO通过基于电子邮件的帮助台支持其非常活跃和多样化的用户社区(http://www.geneontology.org/GO.contacts.shtml). 基于web的帮助文档已经过修改,以反映本体中的新关系类型和AmiGO浏览器的新功能。GO现在通过专用网页、RSS提要和推特传递新闻亮点;这些取代了前几年通过电子邮件发送给GO社区的季度时事通讯。

总结

GO联盟负责表示大量生物数据的基因产品知识。在过去的几年中,我们一直致力于改进本体论的逻辑框架和全面性。我们现在已经建立了一个系统,它将允许我们继续扩展GO中生物学的表示。新的关系将允许执行更精细的查询,并将开始允许使用本体提出更多假设生成的问题。逻辑结构的改进将允许严格的质量控制,确保本体的完整性和准确性。这些改进将有助于使用本体进行经典的基因聚类实验,方法是填充缺失的关系,否则会导致基因产品不被聚类。

本体论的改进以及持续的注释工作应该使GO成为基因产物在大量生物体中所起作用的更完整的表示。

基金

国家人类基因组研究所(NHGRI)(P41 HG02273 to GO PIs J.A.B.,M.A.,J.M.C.,S.L.);GO联盟成员数据库获得了多家国立卫生研究院的资助[国立人类基因组研究所(HG000330 to M.G.D.,HG02223 to Wormbase,HG004341 to K.E.,HG003751 to Reactome,HG101315 to S.G.D.,HG002659 to Z.F.I.N.);国立心肺研究所(HL64541 to R.G.D.),国家普通医学科学研究所(U24GM077905,U24GM088849 to EcoliWiki)];国家科学基金会(DBI#0703908 to Gramene,DBI#0417062 to TAIR,EF-0523736 to PAMGO);英国医学研究委员会(G0500293 to FlyBase);英国心脏基金会(SP/07/007/23671);欧盟第六框架计划(LSHG-CT-2003-503269 to Reactome)。开放获取费用的资金来源:美国国家人类基因组研究所(批准号:P41 HG02273)。

利益冲突声明。未声明。

致谢

GO联盟感谢参与内容相关会议或提供本体内容和注释宝贵反馈的社区研究人员。

附录

Tanya Z.Berardini、Donghui Li、Eva Huala(TAIR,卡内基科学研究所,植物生物学系,加利福尼亚州斯坦福市,美国);Susan Bridges、Shane Burgess、Fiona McCarthy(密西西比州立大学AgBase;美国理学硕士);Seth Carbon、Suzanna E.Lewis、Christopher J.Mungall、Amina Abdulla(BBOP、LBNL、加州伯克利、美国);瓦莱丽·伍德(英国癌症研究所,英国伦敦);Erika Feltrin,Giorgio Valle(意大利帕多瓦大学CRIBI);雷克斯·L·奇索姆(Rex L.Chisholm)、佩特拉·菲(Petra Fey)、帕斯卡尔·高代特(Pascale Gaudet)、沃伦·基布(Warren Kibbe)、悉达塔·巴苏(Siddhartha Basu)、尤利娅·布什曼诺娃(Yulia Bushmanova)(美国伊利诺伊州芝加哥西北;Karen Eilbeck(美国犹他州盐湖城犹他大学埃克斯人类遗传学研究所);Deborah A.Siegele、Brenley McIntosh、Daniel Renfro、Adrienne Zweifel和James C.Hu(EcoliWiki,德克萨斯农工大学生物化学和生物物理系,德克萨斯州大学城,美国德克萨斯州);Michael Ashburner,Susan Tweedie(英国剑桥大学遗传学系FlyBase);亚斯敏·阿拉姆·法鲁克(Yasmin Alam Faruque)、罗尔夫·阿普韦勒(Rolf Apweiler)、安德烈亚·奥金奇洛斯(Andrea Auchinchloss)、阿莫斯·拜罗赫(Amos Bairoch)、丹尼尔·巴雷尔(Daniel Barrell)、大卫·宾斯(David Binns)、玛丽·克劳德·布拉特(Marie-Claude Blatter)、莉迪·布格勒特(Lydie Bouguellet)、艾曼纽尔·布特(Emmanuel Boutet)、莱扎(Lionel Breuza)、阿兰·布里奇(Al,马克·费尔曼(Marc Feuermann)、丽贝卡·福尔格(Rebecca Foulger)、纳丁·格拉兹·古莫夫斯基(Nadine Gruaz-Gumowski)、乌苏拉·欣兹(Ursula Hinz)、拉切尔·亨特利(Rachael Huntley)、西尔维亚·希梅内兹(Silvia Jimenez)、弗洛伦斯·荣戈(Florence Jungo)、纪尧姆·凯勒(Guillaume Keller)、凯蒂·莱霍;onovan、Ivo Pedruzzi、Sylvain Poux、Catherine Rivoire、Bernd Roechart、Tony Sawford、Michel Schneider、Eleanor Stanley、Andre Stutz、Shyamala Sundaram、Michael Tognolli、Ioannis Xenarios(GOA-UniProtKB:EBI、Hinxton、英国和瑞士日内瓦SIB);Midori A.Harris、Jennifer I.Deegan(née Clark)、Amelia Ireland、Jane Lomax(GO-EBI、Hinxton,英国);Pankaj Jaiswal(Gramene,俄勒冈州立大学植物病理学系,俄勒冈州科瓦利斯,美国);Marcus Chibucos、Michelle Gwinn Giglio、Jennifer Wortman(美国马里兰州大学巴尔的摩医学院基因组科学研究所);Linda Hannick,Ramana Madupu(美国马里兰州罗克维尔市J.Craig Venter研究所);David Botstein、Kara Dolinski、Michael S.Livstone、Rose Oughtred(美国新泽西州普林斯顿大学路易斯西格勒综合基因组研究所);Judith A.Blake、Carol Bult、Alexander D.Diehl、Mary Dolan、Harold Drabkin、Janan T.Eppig、David P.Hill、Li Ni、Martin Ringwald、Dmitry Sitnikov(MGI、美国马萨诸塞州巴尔港杰克逊实验室);坎迪斯·科尔默(美国纽约州奥罗拉威尔斯学院PAMGO);Trudy Torto-Alalibo(美国弗吉尼亚州弗吉尼亚生物信息研究所PAMGO);Stan Laulederkind、Mary Shimoyama、Simon Twigger(美国威斯康星州密尔沃基威斯康星医学院RGD);Peter D’Eustachio,Lisa Matthews(Reactome,纽约大学医学院生物化学系,美国纽约-纽约);Rama Balakrishnan、Gail Binkley、J.Michael Cherry、Karen R.Christie、Maria C.Costanzo、Stacia R.Engel、Dianna G.Fisk、Jodi E.Hirschman、Benjamin C.Hitz、Eurie L.Hong、Cynthia J.Krieger、Stuart R.Miyasato、Robert S.Nash、Julie Park、Marek S.Skzypek、Shuai Weng、Edith D。Wong(美国加州斯坦福大学遗传系SGD);Martin Aslett(英国欣克斯顿威康信托桑格研究所);Juancarlos Chan、Ranjana Kishore、Paul Sternberg、Kimberly Van Auken(美国加利福尼亚州帕萨迪纳加利福尼亚理工学院蠕虫基地);Varsha K.Khodiyar、Ruth C.Lovering、Philippa J.Talmud(伦敦大学学院,英国伦敦);Doug Howe,Monte Westerfield(ZFIN,俄勒冈州尤金大学,美国)。

参考文献

1Torto Alalibo T,Collmer CW,Gwinn Giglio M。植物相关微生物基因本体论(PAMGO)联盟:描述微生物与宿主相互作用的生物过程的新基因本体论术语的社区开发。BMC微生物。2009;9(补充1):S1。 [PMC免费文章][公共医学][谷歌学者]
2Hill DP、Sitnikov D、Blake JA。利用基因本体研究小鼠的分支形态发生。开发生物。2009;331:454. [谷歌学者]
三。基因本体联盟的参考基因组组。基因本体论;参考基因组项目:跨物种功能注释的统一框架。公共科学图书馆计算。生物。2009;5:e1000431。 [PMC免费文章][公共医学][谷歌学者]
4Mi H、Dong Q、Muruganujan A、Gaudet P、Lewis S、Thomas PD。PANTHER第7版:改进的系统发育树、直系图,以及与基因本体联盟的合作。核酸研究。2009;38:D204–D210。 [PMC免费文章][公共医学][谷歌学者]
5Day-Richter J、Harris MA、Haendel M、Lewis S.OBO-Edit,生物学家本体论编辑。生物信息学。2007;23:2198–2200.[公共医学][谷歌学者]
6Carbon S、Ireland A、Mungall CJ、Shu S、Marshall B、Lewis S.AmiGO:在线访问本体和注释数据。生物信息学。2009;25:288–289. [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社