跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2010; 2010年:baq010。
2010年5月20日在线发布。 数字对象标识:10.1093/数据库/baq010
预防性维修识别码:项目经理2911845
PMID:20627861

鼠标资源浏览器—一个鼠标数据库

摘要

通过各种功能基因组方法的应用,实验室小鼠已成为发现基因功能和揭示人类疾病发病机制的首选有机体。由此产生的大量数据导致了大量在线资源的部署,以及对正式实验描述、数据标准化、数据库互操作性和集成的需求,这一需求尚未得到满足。我们在这里介绍了鼠标资源浏览器(MRB),这是一个鼠标数据库的数据库,它索引了22个类别下的217个公开可用的鼠标资源,并使用标准化的数据库描述框架(CASIMIR DDF)来提供关于其受控词汇表(本体和最小信息标准)的信息,以及有关程序访问和数据可用性的技术信息。MRB专注于互操作性和集成,为提供直接数据库访问的资源自动生成可下载和可再分发的SOAP应用程序编程接口。MRB旨在为实验室科学家和生物信息学家提供有用的信息,他们可以在一个地方轻松导航和查找所有与鼠标相关的资源,并将为他们提供包含可挖掘和集成的数据的互操作资源。

数据库URL:http://bioit.fleming.gr/mrb

介绍

最近成功解码人类和小鼠基因组的研究表明,它们都编码约20000个基因。由于最近小鼠和人类基因组的差异,99%以上的人类基因在小鼠中具有类似物。序列上的密切同源性延伸到功能上,许多小鼠和人类同源物具有非常相似的功能。然而,大多数这些基因在正常发育和生理过程中的作用以及它们与疾病的关系尚不清楚。后基因组时代的主要挑战是将功能归因于基因和通路,使用模型生物(如小鼠)提供表型/基因型关系现在已被确立为发现正常基因功能的关键方法。

最近,国际小鼠敲除联合会(IKMC)的活动增加了小鼠基因中零星或靶向突变的数量(1)在2年内,将对小鼠基因组中的所有基因进行敲除。研究人员越来越多地利用小鼠模型,通过应用功能基因组技术来研究调节人类疾病病理生理学的复杂机制(2)而这一巨大资源的动员现在正在产生大量丰富而新颖的数据(1). 这些数据中的大部分,以及有关生物资源(小鼠和ES细胞)的信息,现在正通过在线资源共享,这些资源已成为科学家研究基因功能和人类疾病不可或缺的工具。这些鼠标数据库的传播带来了许多新的协调挑战,包括技术和概念上的挑战,为了充分发挥这些全球活动的潜力,需要应对这些挑战。这些包括采用正式的实验描述和数据标准化、数据库互操作性、数据库在本地倡议范围外的可见性以及数据库财务可持续性。在本文中,我们描述了鼠标资源浏览器(MRB;http://bioit.fleming.gr/mrb)是在欧盟委员会框架计划MUGEN(人类免疫疾病动物模型;www.mugen-noe.org)和CASIMIR(国际老鼠信息资源的协调与可持续性;网址:http://www.casimir.org.uk).

MRB是一个资源管理项目,它提供了217种公开可用的小鼠资源的索引,分为22类,供实验室科学家和生物信息学家使用。除了关于数据库可用性和内容的基本信息外,MRB还提供了这些资源使用的受控词汇表和数据标准(本体和最低信息标准)的信息,以及关于直接和程序访问的技术信息(例如web服务、BioMart安装),因此,确定数据集成和数据库互操作性的设施。为了促进互操作性,MRB引入了MOLGENIS生物软件系统的修改版本;这允许为支持直接数据库访问的资源自动生成可重新分发的Java SOAP应用程序编程接口(API)。为了为所有记录的资源提供正式、标准化的质量评估方案,MRB使用CASIMIR的数据库描述框架(DDF),这是一种基于关键点的摘要。

数据库设计、实施和可访问性

MRB是关系型、完全规范化的PostgreSQL数据库的前端,是一个典型的Java EE应用程序,它遵循MVC架构模式,生成三个透明层:企业JavaBeans(EJB)层、中间会话层和接口/web层。数据库的模式尽可能简单,避免了扩展使用存储过程和数据库管理系统(DBMS)特定的函数和类型,以使应用程序DBMS不可知。EJB层是一个映射到数据库设计理念并与之协调的面向对象(OO)API,它一直保持简单。大多数关系和组合功能的复杂性由中间层处理,而接口层处理数据表示。MRB目前部署在Sun的开源Glassfish应用服务器上。数据库开发和实现的基本信息,包括说明其体系结构的示意图(图1),可在MRB的“关于”页面上找到。MRB的源代码可以在GNU通用公共许可证(GPL)下以二进制下载的形式提供,并通过CASIMIR sourceforge项目页面上的cvs获得(http://sourceforge.net/projects/casimir-org-uk/). MRB中的所有数据都可以通过每周可下载的数据库转储免费提供给感兴趣的用户。通过SOAP web服务启用编程数据访问。数据库转储和web服务访问详细信息可在MRB的“数据访问”页面上找到。

保存图片、插图等的外部文件。对象名称为baq010f1.jpg

MRB架构的示意图。

内容管理

MRB的数据收集经过汇编,并正在通过广泛的文献审查、网络浏览、与资源人员的直接联系以及MRB的在线问卷进行更新(http://bioit.fleming.gr/mrb/Controller?工作流=imouse)以及用户建议。本问卷(回复见下文)既涉及技术问题,也涉及DDF衍生标准,并重点介绍了国际社会在其他地方提出的本体论和最低信息标准方面的重要使用统计数据(). 同样,MRB的调查问卷也得出了关于数据库财务可持续性模型的宝贵结论,这些结论在单独的报告中提出(4).

为了使MRB保持最新,其内容由馆长定期更新,馆长每年联系每个资源,要求获得有关MRB现有条目的附加或更改信息(资源页面包含更新信息)。这些更新由MRB的管理团队进行,他们仔细检查收集或提交的数据的准确性和完整性。MRB还通过文献和网络搜索告知用户显示的数据是由资源本身提供的还是由MRB管理团队提供的。虽然MRB可以以普通内容管理系统(CMS)的方式支持具有不同访问权限级别的多个用户组,但它目前允许所有访问者进行无限制的读取访问。

内容交付

查询数据库的最简单方法是构造不区分大小写的自由文本查询。用户可以在每个MRB页面顶部的文本框中键入所需的查询词(或双引号内的短语)。默认情况下,返回的结果包含所有关键字,可能包括鼠标资源、资源类别、本体和最低信息标准。可以通过高级搜索页面执行复杂的查询,该页面包含一个自由文本框,并对数据库类型、资源类别、编程访问方法、本体和最小信息检查列表的选项进行优化。类似地,MRB为基础数据提供了一个浏览/过滤界面,允许制定查询来协调某些生物数据库和资源的筛选。此外,可以使用索引页上的两个下拉菜单浏览鼠标资源;一个按字母顺序或时间顺序对集合进行排序,另一个按资源类别筛选数据。

MRB旨在为实验室科学家和生物信息学家服务。前者可以将与实验室鼠标相关的在线资源和数据库的综合列表检索到一个资源中。这可以通过以下方式实现:(i)所有217个资源的字母表或加入日期列表,(ii)类别列表,将用户引导到特定类别下的资源列表,或(iii)通过“搜索”框或“高级搜索”按钮进行更专业的搜索。此外,生物信息学家还可以使用每个资源中的“技术”选项卡来获取从该资源中提取数据所需的所有信息,并在可用的情况下进行程序数据访问。最后,可以在“数据访问”选项卡下找到MRB的数据访问功能和其他技术信息。

内容结构

MRB目前列出了217个在线鼠标资源,根据其内容分为22个类别,可通过MRB顶部菜单的“资源/类别”按钮访问。该列表是交互式的,还提供了其他信息,例如在特定类别下分类的资源数量以及描述记录的资源类型的简短文本。

鼠标资源是应用程序的基本实体,其数据集由四个部分组成,这些部分由选项卡访问(图2).

保存图片、插图等的外部文件。对象名称为baq010f2.jpg

MRB屏幕截图;鼠标资源视图演示了每个数据集部分的选项卡的使用。这里显示的是“常规”选项卡,其中包括资源的简短描述、分配特定资源的类别、提供了交互式链接的特定数据库的URL以及供用户与特定资源人员联系的交互式联系人。

“常规”部分/选项卡

这提供了有关生物资源的一般信息。这包括资源的简短文本描述、资源所属的基于内容的类别列表、特定数据库的URL以及用户与特定资源的人员联系的联系人。

Ontologies&Standards部分/选项卡

这列出了那些本体和生物和生物医学调查的最低限度信息每个资源采用的(MIBBI)标准。如果使用广泛使用的受控词汇或本体对任何数据集进行注释,那么其科学价值都会大大提高,因为这些都有助于实现互操作性。这种方法的普及导致了本体论的激增,反过来也导致了开放生物医学本体论(OBO)联盟的成立,该联盟创建了一套不断发展的共享原则,以协调现有本体论的适应和发展(5). 资源正在使用的本体(如果有)被超链接到一个页面/数据集,该页面/数据集中包含简短描述、本体是否在海外建筑运营管理局铸造厂中列出的记录以及本体是否不符合海外建筑运营管理局要求且仅在本地实施的指示。还提供了指向适当资源的外部链接列表(例如,本体的主页及其海外建筑运营管理局和/或OWL格式的最新可下载版本)。所有本体都可以在本体列表中进行完全搜索和索引,可以通过MRB的顶部菜单中的“词汇表/本体”按钮进行访问。

与本体论和海外建筑运营管理局(OBO)相平行,MIBBI项目促进了现有最低信息清单的协调发展,这些清单是充分理解与实验相关的背景、方法、数据和结论所必需的(6). 最著名的MIBBI项目仍然是最初的MIAME(关于微阵列实验的最低信息)清单(7)这是目前在许多期刊上发表微阵列数据的要求。与本体一样,ontologies&Standards部分/选项卡指示资源使用的任何MIBBI协议,后面是简短的描述和链接。可通过MRB顶部菜单上的“词汇/MIBBI”按钮访问完全可搜索和可管理的MIBBI项目索引。

技术部分/选项卡

这包含了专注于实现细节和编程访问说明的技术信息。鼠标资源分为三类,包括关系数据库、面向对象数据库和平面文件。在“实现”标题下,技术选项卡指示了每个资源所属的类别,列出了用于开发资源的编程语言和数据库管理系统以及部署资源的服务器技术。此外,与资源模式相关的任何可用文件下载,例如完整或部分数据库转储、带有模式建模图表的图像或到数据库转储存储库的超链接,都可以在此选项卡的“转储和文件”标题下找到。

更重要的是,MRB提供了有关每个资源的各种编程访问方法的信息。这组信息包括指向描述如何以编程方式访问资源的网页的任何链接、指向BioMart查询接口的链接以及指向web服务描述语言(WSDL)文件的直接链接。

技术选项卡的Web服务访问子集下的所有资源都具有一个额外的指示器,该指示器反映每个链接指向的服务器的状态,以及一个名为“wsAnalyzer”的Web服务分析servlet;它的作用是动态分解WSDL文档,检测支持远程访问的方法并分析其输入和输出参数。结果存储在MRB的数据库中,随后以可读格式呈现。MRB的目的是帮助用户解密SOAP web服务描述符,但收集分析的WSDL信息的前提是检测可以建立web服务标准化的共性。MRB的wsAnalyzer的当前版本只能处理WSDL 1.1和2.0兼容的SOAP web服务端点;可能支持Web应用程序描述语言(WADL)(8)正在讨论中。

为了为鼠标社区提供方便的SOAP web服务生成工具,开源MOLGENIS生物软件项目(9)已稍作修改并并入MRB,因此可以自动生成允许直接访问数据库的数据库的标准Java SOAP API。这些MOLGENIS衍生功能包括MRB的“wsGenerator”,可在技术选项卡的“直接数据库访问”子集下找到。wsGenerator不限于MRB,可通过以下途径获得http://bioit.fleming.gr/molgenis-ng。对参与此方案感兴趣的资源只需启用对其数据库的远程访问:这将为具有最低访问权限(读取权限)的专用数据库用户打开一个端口。一旦提供了服务器的主机名、端口、用户名和密码,wsGenerator就可以根据请求解析数据库模式并生成:(i)一个建模所有数据库实体的MOLGENIS XML文件,包括其所有字段和约束,(ii)png图像格式的数据库实体关系(ER)图,(iii)数据库中每个表的一组Java包装器类和(iv)一个Java SOAP web服务类,以编程方式访问数据。

需要注意的是,MRB技术选项卡上提供的信息似乎对大多数索引资源的策划不足。根据MRB的资源收集,很明显,鼠标社区中的大多数资源都不提供直接的数据库访问、对其数据的编程访问或获取数据的替代方法(例如,提供定期下载的数据库转储)。应该指出,尽管MRB管理团队及其代表做出了努力,但收集实施细节信息的尝试并不总是成功,因为一些资源人员不愿意或偶尔缺乏提供所需信息的专业知识。

CASIMIR DDF标准部分/选项卡

这为用户提供了资源的现成摘要。DDF标准侧重于特定主题或重要领域(质量和一致性、通用性、可访问性、输出、技术文档、数据表示标准、数据结构标准、用户支持和版本控制),并具有三个不同的成熟度级别。DDF标准(可通过顶部菜单的相关按钮访问)由CASIMIR联盟制定,目的是使数据库描述标准化(进一步允许快速基准测试和松散评估),从而促进为给定任务选择资源及其集成。

问卷答复

MRB包括一个在线问卷,允许资源人员单独填写并间接“自我策划”有关其资源的相关信息。问卷包括六组标签式问题,涉及基本信息、资源描述、管理和更新、数据结构和词汇表、数据库可持续性和计算信息。大多数问题都有清单答案,所以用户只需要在真正需要的地方输入新文本。目的是使问卷尽可能用户友好。用户可以随时单击“提交”并发送相关信息,以便MRB员工使用响应更新资源的数据。如果有任何差异或信息缺失,MRB员工应立即联系相关资源并要求进行必要的澄清。MRB通过电子邮件分别联系了每一位资源,要求他们填写此在线问卷,212位资源中的79位(37%)对问卷做出了回应,其中51%来自欧洲,38%来自美国,其余11%来自加拿大、日本和澳大利亚(图3). MRB工作人员使用这些信息准确地管理MRB中的资源,并检查不断发展的数据库和资源环境。

保存图片、插图等的外部文件。对象名称为baq010f3.jpg

饼图描述了获得的总体在线问卷答复。51%的回答来自欧洲国家,38%来自美国,3%来自日本,最后分别有4%来自加拿大和澳大利亚。

关于馆藏信息,在回答相关问题的28种资源中,43%每月更新一次,46%每年更新一次(图4A) ●●●●。大多数资源(73%)是手动管理的,8%是自动管理的,19%没有显示信息的明确一致性保证(图4B) ●●●●。鉴于生物医学领域对本体使用的明确需求,以及海外建筑运营管理局铸造厂所做的显著工作,预计大多数数据库将使用海外建筑运营管局本体。事实证明,在回答这个特定问题的36种资源中,72%使用了海外建筑运营管理局本体,其中19%使用了PATO,其余81%使用了其他海外建筑运营组织本体(图5). 关于提供相关信息的25个资源所确定的数据库可访问性,52%的资源数据可以通过web浏览器界面和另一种编程访问(即WebServices、Biomart等)获得,16%的资源除了公共数据转储外,还可以通过web浏览界面访问其数据,而32%的数据库只允许浏览器访问(图6A) ●●●●。在提供额外程序访问的数据库中(10个响应者),42%的数据库开发了WebServices,25%的数据库倾向于使用BioMart(图6B) ●●●●。MRB还收集了一些有关创建生物数据库和资源的初始资金以及长期财务维护资金的有趣信息。Chandras对这些反应进行了广泛的讨论等。(4).

保存图片、插图等的外部文件。对象名称为baq010f4.jpg

饼图表示每个生物数据库和资源的馆藏信息。每月更新43%的资源,每年更新46%,其余11%对应已退役的资源(). 73%的资源是手动管理的,8%的资源使用自动管理系统,19%的资源没有明确的方式确保与显示信息相关的数据一致性(B类).

保存图片、插图等的外部文件。对象名称为baq010f5.jpg

饼图说明了生物数据库对本体的使用。28%的资源不使用任何本体进行数据描述。72%的资源使用海外建筑运营管理局铸造厂开发的本体,其中19%使用PATO,81%使用另一个海外建筑运营管本体。

保存图片、插图等的外部文件。对象名称为baq010f6.jpg

表示数据库可访问性的饼图。52%的资源数据除了通过另一种编程访问(即WebServices、Biomart等)外,还可以通过网络浏览器接口获得,16%的资源的数据通过网络浏览器接口和公共数据转储进行访问,而其余32%的数据库只允许通过网络浏览器访问进行数据访问(). 除了网络浏览器界面之外,在提供额外编程访问的数据库中,42%的资源开发了web服务,25%的资源倾向于使用BioMart(B类).

讨论

MRB除了是鼠标在线资源和数据库的内容管理系统外,还旨在成为鼠标社区资源之间的中间链接。以集成和互操作性为重点,收集的信息包括技术和程序可访问性详细信息以及本体和最小信息检查表。本体论和元数据配置标准的使用被认为是实现资源集成潜力的关键,并且正在慢慢成为鼠标社区中的常见实践,但如果要使鼠标资源具有互操作性,还需要做更多的工作。虽然大多数索引资源提供了对其数据的最小编程访问,但一些馆长不愿意提供技术信息。当然,社区担心的是,资源无法跟上当前和未来技术发展的步伐,可能会降低其数据的价值。审查CASIMIR成员开发的互操作性技术和用例示例(10)确定未来方向并演示web服务等技术(11)和Taverna之类的软件(12)和MOLGENIS(9)可以用来完成互操作。在这种情况下,MRB通过wsAnalyzer收集和分析有关实现的编程访问方法的信息,它还可以通过wsGenerator充当资源的web服务应用程序服务器。

MRB希望通过提供网络服务组合和分解工具,并通过先进的搜索工具包含大多数在线鼠标资源的索引,向实验室科学家介绍新的在线资源,并帮助科学程序员开发结合多种资源数据的生物信息学应用程序。在后一种情况下,MRB可用于检测使用SOAP web服务的资源,以便对其数据进行编程访问,并使用特定的OBO本体来构建这些数据。MRB生成结果后,用户可以使用wsAnalyzer检查每个资源提供的web服务,并围绕返回的结果构建应用程序。此外,可以通过wsGenerator生成的SOAP API访问可能使用用户感兴趣的特定本体但不提供web服务的资源。因此,生物信息学家可以下载生成的Java类并将其合并到应用程序中。最后,我们指出,通过替换特定于鼠标的类别,MRB可以很容易地进行定制,从而允许任何生物社区将其用作高级资源内容管理工具。

基金

欧盟第六个研究框架计划(CASIMIR LSH-2005-1.1.0-1,MUGEN LSHGCT-2005-005203)。开放接入费资金:CASIMIR LSH-2005-1.1.0-1。

利益冲突。未声明。

致谢

作者感谢所有CASIMIR成员以及出席各种CASIMIR会议的与会者进行了富有成果的讨论。

工具书类

1国际老鼠淘汰协会。Collins FS、Rossant J、Wurst W.出于各种原因的老鼠。单元格。2007;128:9–13.[公共医学][谷歌学者]
2Rosenthal N,Brown S.《小鼠上升:人类疾病模型的前景》。自然细胞生物学。2007;9:993–999.[公共医学][谷歌学者]
三。Hancock JM、Schofield P、Chandras C等人,《国际老鼠信息学资源的协调与可持续性》。第八届IEEE生物信息学和生物工程国际会议论文集。2008http://ieeexplore.ieee.org/search/freesrchabstract.jsp?tp=&arnumber=4696712&queryText%3Bibe+2008%26refinements%3D4294338882%26openedRefinements%3D*%26searchField%3DSearch+All(2010年5月17日,上次访问日期)[谷歌学者]
4Chandras C、Weaver T、Zouberakis M等。保持墙上的插头——生物数据库和资源的财务可持续性模型。数据库。2009doi:10.1093/database/bap017。[PMC免费文章][公共医学][谷歌学者]
5.Smith B、Ashburner M、Rosse C等,《海外建筑运营管理局铸造厂:支持生物医学数据集成的本体论协调进化》。自然生物技术。2007;25:1251–1255. [PMC免费文章][公共医学][谷歌学者]
6Taylor CF、Field D、Sansone SA等。促进生物和生物医学调查的一致最低报告指南:MIBBI项目。自然生物技术。2008;26:889–896. [PMC免费文章][公共医学][谷歌学者]
7Brazma A、Hingamp P、Quackenbush J等。微阵列实验(MIAME)的最低信息——微阵列数据标准。自然遗传学。2001;29:365–371.[公共医学][谷歌学者]
8哈德利MJ。Web应用程序描述语言(WADL)[(2010年5月17日,最后一次访问日期];2006 https://wadl.dev.java.net/wadl20061109.pdf.[谷歌学者]
9马萨诸塞州斯威茨,Jansen RC。超越标准化:系统生物学的动态软件基础设施。Nat.Rev.基因。2007;8:235–243.[公共医学][谷歌学者]
10Smedley D、Swertz MA、Wolstencroft K等,《功能基因组学数据集成解决方案:关键评估和案例研究》。简介。生物信息。2008;9:532–544.[公共医学][谷歌学者]
11联合会,T.W.W.W.Web服务活动。【2010年5月17日,上次访问日期】。http://www.w3.org/2002/ws.[谷歌学者]
12Hull D、Wolstencroft K、Stevens R等。Taverna:构建和运行服务工作流的工具。核酸研究。2006;34:W729–W732。 [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:生物数据库与治疗杂志由以下人员提供牛津大学出版社