跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar002。
2011年2月14日在线发布。 doi(操作界面):10.1093/数据库/bar002
预防性维修识别码:项目经理3041158
PMID:21321022

大鼠基因组数据库管理工具套件:一套优化的软件工具,能够高效地获取、组织和呈现生物数据

摘要

大鼠基因组数据库(RGD)是大鼠基因组和遗传数据的首要存储库,目前拥有40000多个大鼠基因记录以及人类和小鼠同源基因、1771个大鼠和1911个人类数量性状位点(QTL)以及2209个大鼠品系。为这些数据对象管理的生物信息包括疾病关联、表型、途径、分子功能、生物过程和细胞成分。已经开发了一套工具来帮助馆长获取和验证数据对象、指定术语、将生物信息附加到对象以及在数据类型之间建立联系。用于指定命名、创建和编辑对象以及对数据对象进行注释的软件经过专门设计,使管理过程尽可能快速高效。用户界面已经适应了馆长的日常工作,创建了一套直观而强大的工具。

数据库URL: http://rgd.mcw.edu

介绍

由于DNA测序技术的进步和此类研究成本的降低,基因组和遗传研究的速度和数量在过去十年中急剧增加。许多生物数据库用于组织和存储测序数据或相关生物数据或两者兼而有之。虽然大鼠基因组数据库(RGD)不存储核苷酸或蛋白质序列,但每个RGD基因报告页面上都提供了通过链接到外部数据库(如Entrez nucleotide和UniProtKB)访问基因和蛋白质特定序列数据的功能。这些链接通过自动管道导入,并在所有RGD基因报告页面上显示为超链接的登录号。

RGD的生物构建包括识别文献中的数据对象(QTL和菌株),或通过与研究人员的直接互动,为数据对象(基因、QTL和菌株)指定命名法,并为这些数据对象注释生物信息。生物学注释基于同行评议期刊上发表的实验数据。目前,这项工作由七名全职策展人在RGD完成,其中五名拥有博士学位,两名拥有硕士学位(1). 在过去的几年里,RGD通过使用本体论、针对重要数据集和改进的策展软件,共同努力提高手动生物策展的质量和数量。一个由生物验证器和软件开发人员组成的RGD团队设计了一个基于web的软件套件,可以通过管道下载外部数据,处理手动数据管理,并对任何现有数据进行编辑。软件套件的组件包括(i)基因命名工具,(ii)对象创建和编辑工具,以及(iii)本体注释创建和编辑工具。

管理工具套件

基因命名工具

RGD中的基因记录最初来自NCBI的基因记录。自动管道从Entrez gene下载基因数据,将数据与RGD中的现有记录进行比较,并更新现有记录或为RGD中不存在的基因创建新记录。此时,RGD有责任为大鼠基因指定官方命名,或确认官方命名已经指定给大鼠基因。作为指定大鼠基因命名的一部分,RGD与小鼠基因组信息学(MGI)合作(2)和HUGO基因命名委员会(HGNC)()协调大鼠、小鼠和人类的基因符号和基因名称的分配。HGNC负责为人类基因指定官方命名,一般来说,小鼠和大鼠命名是为了匹配人类直系亲属的命名。三个小组持续沟通,以确保术语分配的准确性和一致性。MGI根据同源基因同源群生成同源基因文件(4)以及一些正交组的手动编辑。该文件每周下载一次,大鼠、小鼠和人类基因之间的正交关系通过自动管道加载到RGD数据库中。然而,由于大鼠基因组组装既不完整,也不像人类和小鼠组装那样注释得很好,RGD管理员还必须进行一些正交组编辑,以填补MGI正交文件中缺少大鼠基因的空白。该同源基因组编辑通常需要搜索同源基因、BLASTing mRNA或蛋白质RefSeq序列,并在基因组查看器上检查同源基因的同源性,以确定哪个大鼠基因是特定同源基因组的真正同源基因。由于在进行这些手动分配之前进行了广泛的检查,因此RGD数据库中优先考虑这些更改。

RGD基因命名工具利用从MGI下载并在RGD编辑的同源基因组数据自动生成大鼠基因列表,其符号或名称与指定同源基因组中的小鼠或人类的符号或名称不同。每次管理员访问命名工具时都会运行此过程。用户界面设计得直观、快速,能够在相对较短的时间内处理数百个术语变化。

基因命名工具的主页(图1)按类别显示当前正交管道下载的结果。“具有新命名法的基因”和“没有好的同源基因或没有变化的基因”的类别每天都会从同源基因管道中更新新命名的基因是指在相应的小鼠或人类同源基因中检测到任何变化的基因“没有好的同源基因的基因”是指没有来自小鼠或人类的指定同源基因,以及小鼠和人类同源基因都有不适合大鼠基因命名的基因,例如“LOC####”型临时基因符号。显示的其他两个类别的状态(“非接触命名法”和“设置为明年审查”)取决于馆长与管道规范或工具编辑部分的交互。”“不可接触命名法”是一类基因,命名委员会一致认为,鼠、鼠和人的命名将不相同,这通常是因为确定物种之间的真正同源性存在问题。这些信息内置于为基因命名工具提供信息的管道中。”“明年审查”由基因组成,馆长决定将命名法的任何更改推迟到未来某个时候。延迟通常是基于三个物种之间未解决的命名差异。每个类别的数字计数都会显示出来,以便馆长了解该类别的状态。类别名称超链接到显示页面,馆长可以在其中看到该特定类别的所有基因或直系群。搜索框提供了查找特定基因或基因家族的选项。

保存图片、插图等的外部文件。对象名称为bar002f1.jpg

基因命名工具主页。预加载的类别显示为超链接。可以通过关键字搜索框来搜索单个基因或基因家族。计划在未来审查的基因可以通过日期搜索功能进行搜索。

编辑显示(图2)显示了此工具的强大特性。正交组按字母顺序列出,因此可以同时查看基因家族成员的更改。该工具根据人类直系命名法自动为每个基因提出更新的符号和名称。如果没有人类直系图,则建议的更新基于鼠标直系图。建议的更改显示在每个正交组下面的文本框中。文本框是可编辑的,这为管理员提供了手动更改术语的选项。对于每个提议的更改,策展人都会得到四个单选按钮选项:跳过、接受、拒绝或更新(更改下一个审核日期)。页面上正交组的布局和编辑选项允许用户快速查看和更新此工具中的术语。在特定基因的RGD报告页面上,跟踪每个基因的所有命名变化。以前的所有符号/名称都保留为同义词。

保存图片、插图等的外部文件。对象名为bar002f2.jpg

基因命名工具的编辑页面。所有正交组均列在匹配组中,以简化大鼠命名法与小鼠和人类命名法的比较。建议的更改/编辑文本框和操作选择单选按钮位于每个正交组的底部。每个编辑页面的顶部和底部都有一个“Accept All”(全部接受)按钮,这样,如果馆长认为可以接受,页面上的所有提议更改都可以立即获得批准“提交更改”按钮位于“全部接受”按钮旁边,用于将更改发送到数据库。

对象创建和编辑工具

对象创建和编辑工具允许管理员向数据库中添加新的数据对象(QTL或菌株),并编辑现有数据对象(qTL、菌株或基因)的数据库记录。在对象创建和编辑工具中为新QTL和菌株添加数据的第一部分是指定命名法。新的QTL或菌株通过PubMed生物医学文献的馆长搜索或通过研究人员直接向RGD提交数据来确定。与基因命名法一样,分配给QTL的名称是根据“小鼠和大鼠基因、遗传标记、等位基因和突变命名指南”命名的(5),而分配给菌株的名称遵循“小鼠和大鼠菌株命名规则”(有关所有命名规则的快速指南,参考文献6). 由于赋予相同性状的QTL具有相同的根符号,后跟一个序列号,因此该工具具有符号搜索功能,可向管理员显示具有相同根的所有符号。这使得馆长可以轻松地为该符号根分配下一个序列号。符号搜索对应变命名法的作用类似,因为子串具有包含父符号和名称部分的符号和名称。符号搜索列出了所有相关的应变符号,这有助于将符号分配给新的应变记录。对象创建和编辑工具的另一个重要命名功能是能够向对象记录中添加同义词和非官方符号。这允许使用文献中可能使用的所有不同名称搜索对象记录。

该工具为QTL和菌株提供了单独的数据输入模板,以适应与特定对象类型相关的数据差异。对于QTL,除了命名之外,工具模板还允许输入和编辑基因组数据(染色体数目、上游和下游侧翼标记、峰值标记)、性状数据(RGD开发的受控词汇中的性状和子性状名称、性状描述)、统计数据(LOD得分、,P(P)-值、方差)和源信息(图3). 对于菌株,除了命名外,工具模板还允许输入和编辑遗传/基因组数据(遗传标记、染色体改变)、育种数据(类型、近交世代数、起源)和来源信息。对于基因记录,该工具提供了命名、对象状态和管理注释的编辑。

保存图片、插图等的外部文件。对象名称为bar002f3.jpg

对象创建和编辑工具:QTL输入页面。QTL条目页面由许多特定于馆长收集的不同类型信息的文本框组成,用于描述QTL。单击符号框一侧的搜索图标会生成一个弹出窗口,可在其中搜索当前QTL符号。

在处理具有类似特征的多个QTL或菌株时,该工具可用于“克隆对象”。这允许创建附加数据的附加对象,只需进行最小的更改(如名称、统计值和源)即可完成新对象记录。通过类似的过程,可以将RGD中任何QTL、菌株或基因的数据导入工具,以便编辑错误或任何特定数据对象可能需要的任何更改。有时,由于用户请求或大鼠基因组序列的新组装,还需要同时更改多个对象的状态。该工具的“对象状态”功能旨在处理这些类型的多次更新。

本体标注创建和编辑工具

RGD对数据对象的所有手动生物管理都始于馆长对对象、物种和主题的PubMed搜索。由于RGD管理基因组对象(基因、QTL)和其他数据对象(大鼠品系)的生物属性,因此设计了本体注释创建和编辑工具来容纳所有这些元素。该工具使用了五种不同的本体论或词汇:基因本体论(GO)、疾病本体论(MeSH的C分支)、路径本体论(PW,RGD开发的本体)、哺乳动物表型本体论(来自小鼠基因组信息学的MP)和行为本体论(MeSH的F分支)。该工具结合了数据对象、本体术语、参考和其他补充数据,允许管理员制作各种类型的注释。

RGD本体注释创建和编辑工具的关键功能是使用“桶”来保存选定的核心对象(基因、QTL和菌株)、本体术语和引用(图4A) ●●●●。每个bucket都有自己的搜索功能,特定于该bucket所包含的项目类别。每个桶可以容纳多个项目,这允许使用各种项目组合构建注释,并使管理员能够同时进行多个注释。

保存图片、插图等的外部文件。对象名称为bar002f4.jpg

(A类)Ontology Annotation Creation and Editing Tool主页具有用于保存所选项目的“桶”。每个bucket(核心对象、本体术语和引用)都有自己的搜索功能,当单击“选择对象”、“选择术语”或“选择引用”时,该功能会显示在页面的右侧框架中。(B)注释框架。Bucket中的所有项都会在注释框架中重复,以便选择它们进行注释。bucket项下面有更多信息选项,如限定词和证据代码的下拉文本框、本体方面的单选按钮和自由文本信息的文本框。

“核心对象”搜索允许搜索单个对象类型(基因、QTL、菌株)或对象类型的组合,其功能包括自动完成和下拉选项“等于”、“包含”、“以开头”或“以结尾”。本体术语搜索还具有自动完成功能,以及选择任何或所有可用本体的选项(基因本体、疾病本体、路径本体等)。对象和术语搜索都会按字母顺序返回结果,并在前面列出完全匹配的项。通过单击选择图标,可以将每个结果传输到相应的存储桶。

参考搜索允许按RGD ID、PubMed ID、作者、年份或关键字进行搜索。如果搜索对象不是ID,则可以按年份、引用或标题对结果进行排序。大多数情况下,参考搜索涉及PubMed ID条目。如果工具中输入的PubMed ID尚未存储在RGD中,该工具将自动从PubMed网站下载相关摘要(7),将RGD ID分配给抽象,并将生成的RGD ID放入引用桶中。

在至少一个项目占用每个存储桶后,可以选择一个选项,用所选项目进行注释。Bucket中的所有项都会传输到工具的“注释”框架中,在该框架中,可以选择其中的任何项用于构建注释。桶中不同项目的混合和匹配允许各种可能的注释。附加的文本字段,包括限定符和证据代码下拉菜单,以及本体方面的单选按钮,允许管理员向桶中项目定义的基本数据添加更多信息(图4B) ●●●●。

单击“生成列表”按钮会在中间屏幕中显示注释(图5)其中,可以在将新生成的注释提交到数据库之前进行编辑。可以像原始注释一样轻松地更正错误或进行更改。同一个注释框架保存了核心对象桶中项目的所有预先存在的数据库注释。这为策展人提供了视觉帮助,使他们知道已经为选定的核心对象策划了什么。每个注释还连接到一个注释编辑工具,在将它们提交到数据库后,可以在该工具中对它们进行更改。这使管理员能够在将注释提交到数据库之前和之后编辑注释的每个组件。

保存图片、插图等的外部文件。对象名称为bar002f5.jpg

此中间注释页面包含Ptgs1的当前构造注释、Core objects bucket中对象的所有现有注释(用于人、鼠标和老鼠的Ptgs1/Ptgs1)以及编辑选项。通过重新选择批注上方的项目并重新单击“生成列表”按钮,可以编辑当前批注。通过单击批注左侧的编辑图标,可以编辑框架底部预先存在的任何批注。

策展工具的另一个与编辑相关的功能是监测基因本体和哺乳动物表型本体中的过时术语。在每周将本体加载到RGD的管道中时,管理工具会检查单个本体中是否有任何术语被宣布为过时。RGD有注释的所有过时术语都列在管理工具中(图6)通过包含这些术语的注释链接,管理员可以编辑或删除这些注释。该列表具有实时更新功能,因此只要数据库中更正了过时术语的注释,就会重新创建该列表以反映更正。

保存图片、插图等的外部文件。对象名称为bar002f6.jpg

一个过时的本体术语列表,其中包含指向包含这些术语的注释的链接。

软件开发

基因命名工具

基因命名工具构建于J2EE之上(8)技术和驱动RGD Oracle数据库。该工具是为在实现Servlet 2.4和JSP 2.0或更高规范的任何Java容器上运行而构建的。春天(9)框架用于在运行时进行依赖项注入,并配置为容纳正则表达式模式,这些正则表达式模式标识将在用户界面中处理或不处理的术语。除了结果集中所有页面的目录外,还添加了分页算法,以10个页面为一组显示结果。这使策展人能够高效地浏览大型结果集。用户界面在很大程度上依赖于DOM技术和CSS(级联样式表)的最新改进。支持的浏览器包括IE 8+、Firefox 3+和Safari 5+。

对象创建和编辑工具

对象创建和编辑工具是基于J2EE技术构建的,并脱离RGD Oracle数据库。它是一个CRUD(创建、读取、更新、删除)应用程序,可以在实现Servlet 2.4和JSP 2.0或更高规范的任何Java容器上运行。web应用程序构建在Spring框架的MVC(model-view-controller)架构上。该工具使用AJAX(10)允许管理员在不刷新页面的情况下更新字段。此外,还包括一个AJAX快速查找功能,可以在不需要新页面的情况下将符号快速转换为RGD ID。新对象和现有对象的更新通过验证层运行,以减少错误进入数据库的可能性。支持的浏览器包括IE 8+、Firefox 3+和Safari 5+。

本体标注创建和编辑工具

本体注释创建和编辑工具是用PHP开发的(11)并从RGD Oracle数据库中删除。它构建在MVC架构之上,其中包括AJAX、JavaScript和HTML表单的视图帮助器。此外,还包括内置的验证程序,以协助策展人进行质量控制。管理软件模板系统允许无缝集成新的软件功能。用户界面建立在包括HTML、JavaScript和CSS在内的标准web技术之上。该工具的“过时术语”功能基于OBO(开放生物和生物医学本体)文件的自动下载(12,13)通过FTP和HTTP。在解析术语以确定新旧本体文件之间的差异后,SQL查询将确定哪些注释使用了过时的术语。

Ontology Annotation Creation and Editing Tool的最新更新涉及后端的各种更改,以改进用户界面的功能。为了实现PubMed ID的全自动导入,对处理抽象下载和RGD ID分配的现有CGI程序进行了修改,以便CGI程序可以自动接受来自管理工具的PubMedID,并将结果发送回管理工具。为了将本体术语搜索结果按字母顺序排列,并首先列出精确匹配,对SQL查询应用了评分函数。为了更好地使用HTML锚,使浏览器可以在工具中自动滚动到网页中所需的位置,PHP框架已经过修改。与其他工具一样,支持的浏览器包括IE 8+、Firefox 3+和Safari 5+。

信息学界可能对RGD管理软件的架构和功能感兴趣。然而,由于管理工具软件是专门为适应RGD数据库模式而设计的,因此它不容易与其他数据库一起使用,因此尚未公开。

总结

大鼠基因组数据库为各种对象(基因、QTL、菌株)整理了多种类型的数据(疾病、表型、通路、分子功能、生物过程、细胞成分和命名)。为了有效地进行生物降解,有必要开发一套软件工具。为了使软件与策展过程最佳匹配,这些工具是根据策展人的规范设计的。基因命名工具的开发为跟上小鼠和人类同源基因命名的变化提供了一种强大而有效的方法。对象创建和编辑工具提供了QTL和菌株管理所必需的各种功能。它还具有编辑基因基本信息的多功能性。本体注释创建和编辑工具是另一个多功能工具,其主要用途是为数据对象分配生物注释。经过多轮使用、重新评估和设计升级后,它得到了微调。这些软件工具结合在一起,提供了一个强大而高效的管理过程,RGD使用该过程来处理大量且不断增长的遗传/基因组和生物信息。

基金

代表国家卫生研究院的国家心脏、肺和血液研究所[HL64541型]. 开放获取费用的资金来源:代表国家卫生研究院的国家心脏、肺和血液研究所[HL64541型].

利益冲突。无声明。

工具书类

1Shimoyama M、Hayman GT、Laulederkind SJ等。大鼠基因组数据库管理员:谁、什么、在哪里、为什么。公共科学图书馆计算。生物。2009;5:e1000582。 [PMC免费文章][公共医学][谷歌学者]
2小鼠基因组信息学。http://www.informatics.jax.org/mgihome/nomen/index.shtml(2011年2月3日,上次访问日期)
三。HUGO基因命名委员会。http://www.genenames.org/index.html(2011年2月3日,上次访问日期)
4同源基因构建程序。http://www.ncbi.nlm.nih.gov/HomoloGene/HTML/HomoloGene_buildproc.HTML(2011年2月3日,上次访问日期)
5QTL。http://www.informatics.jax.org/mgihome/nomen/gene.shtml(2011年2月3日,上次访问日期)
6RGD中。(2011年2月3日)http://rgd.mcw.edu/nomen/nomen.shtml(2011年2月3日,上次访问日期)
7公共医学。http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed(2011年2月3日,上次访问日期)
8J2EE平台。http://java.sun.com/j2ee/overview.html(2011年2月3日,上次访问日期)
9C墙,Breidenbach R。春季行动。第二。康涅狄格州格林威治:曼宁出版社;2007[谷歌学者]
10Crane D、Pascarello E、James D。Ajax的实际应用。康涅狄格州格林威治:曼宁出版社;2005[谷歌学者]
12海外建筑运营管理局。http://www.geneontology.org/GO.format.obo-1_2.shtml(2011年2月3日,上次访问日期)
13.海外建筑运营管理局。http://www.geneontology.org/GO.downloads.shtml(2011年2月3日,上次访问日期)

文章来自数据库:《生物数据库与治疗杂志》由以下人员提供牛津大学出版社