摘要
这里,我们描述了eMouseAtlas基因表达数据库EMAGE的BioMart接口。EMAGE是一个时空数据库就地发育中小鼠胚胎的基因表达模式。BioMart提供了通用的web查询界面和使用web服务的可编程访问。BioMart界面通过构造复杂查询的强大方法扩展了对EMAGE的访问,用户可能已经熟悉其他BioMart实现。该界面被构造成多个数据集,为用户提供对EMAGE数据的全面查询访问。BioMart的联邦性质允许EMAGE与其他类似BioMarts集成和交叉查询。
数据库URL:http://biomert.emouseatlas.org
项目描述
电子邮箱(http://www.emouseatlas.org/emage)是一个免费提供、管理的在线数据库就地发育中小鼠胚胎的基因表达模式(1–3). 从原始图像中提取的基因表达域在不同发育阶段被空间集成到一组标准的3D虚拟小鼠胚胎模型中。此外,解剖本体论(4)用于使用文本注释描述表达站点。EMAGE网站提供了专门的界面,允许用户搜索基因表达模式。独特的是,EMAGE搜索可以使用空间定义的区域以及基于标准文本的查询进行。搜索结果集中于提供对原始实验图像和映射的表达模式的访问。然而,数据库还包含大量信息,描述了为产生基因表达模式而进行的实验,以及数据来源。尽管这些辅助数据在详细的提交页面上可见,但在BioMart实施之前,无法在EMAGE网站上直接搜索(5)接口(http://biomert.emouseatlas.org). BioMart允许更多可能的查询,包括实验细节和其他辅助数据。它还允许与其他生物火星集成。然而,BioMart目前无法提供空间搜索或随时访问图像数据。因此,EMAGE网站和BioMart界面应被视为查询EMAGE数据内容的补充方法。
数据内容
EMAGE数据分为三个BioMart数据库。
EMAGE浏览存储库BioMart数据库
该数据库提供了整理后的EMAGE提交文件的摘要视图,以及不适用于空间绘图的其他分析,因此未作为完整的EMAGE提交文件包含在内。它只有一个数据集。这个存储库浏览数据集具有数量有限的过滤器和属性,可提供EMAGE数据的概述。它相当于EMAGE网站上的“浏览”和“快速搜索”选项。
EMAP解剖本体BioMart数据库
该数据库提供了在EMAGE数据库中使用的鼠标开发标准解剖本体(EMAP)的视图。解剖本体被构造为一个有向无环图(DAG),具有父子关系,关系为“部分”,例如“肘部”是“手臂”的一部分。为每个Theiler阶段定义本体(6)发展和所有阶段相结合(抽象本体论)。在BioMart界面中,这些由“定时阶段”和“抽象”描述区分。DAG中的每个节点都有一个组件名称和一个唯一的ID。数据库包含两个数据集。
解剖组件(组件详细信息)数据集
该数据集提供了本体组件的详细信息。组件名称、阶段和ID构成了该数据集的BioMart过滤器以及默认属性。进一步的属性包括DAG关系信息加上附加的本体论数据。
此数据集可以在查询中链接到EMAGE提交数据集和EMAGE文本表达式数据集。然而,使用此数据集查询基因表达时,只会找到本体的单个解剖组件的结果。要在组件及其子组件中搜索表达式,应使用解剖组件(包括子组件)数据集。
解剖组件(包括子组件)
该数据集由每个时间段的解剖本体组件以及“属于”该特定组件的每个子组件组成。此数据集的过滤器是组件名称、ID和Theiler阶段。可用的属性包括父项和子项的名称、ID和组件路径,以及Theiler阶段。“组件路径”是从最高级别的父级到其子级再到组件术语的一系列组件名称。
此数据集可以在查询中链接到EMAGE提交数据集和EMAGE文本表达式数据集。
EMAGE基因表达BioMart数据库
该数据库包括EMAGE基因表达的主要来源和辅助数据。数据库包含四个数据集。其中,主要数据集是EMAGE提交数据集。其他三个数据集以及解剖本体数据集可以在查询中链接,以便在需要时提供全面的搜索功能。从本机EMAGE到BioMart的数据库模式转换的局限性导致了这个有点支离破碎的数据模型。尽管如此,可以通过单个或链接的BioMart查询访问所有EMAGE数据。
EMAGE提交数据集
此数据集包含EMAGE中的大部分数据。EMAGE提交文件通常是在胚胎发育的某一点对一个基因或蛋白质的表达进行染色的一个样本。与每次提交相关的可能有实验细节、带注释的表达位点、数据提交者或来源的名称和细节、其他数据的相关链接、对数据提供者和/或参考的确认、图像细节、相关基因同义词和GO术语。有许多搜索属性可用,并已按刚才描述的类别进行了广泛分组。此数据集的过滤器按基因、提交、实验和链接分组。如果需要,可以将EMAGE提交数据集与EMAGE实验数据集或EMAGE空间表达式注释数据集链接在单个查询中。
EMAGE实验数据集
此数据集由与就地产生特定EMAGE提交中使用的基因表达图像的实验。这包括目标基因样本的制备和描述、检测试剂类型、探针序列和细胞系数据。为了方便起见,将常用过滤器和属性分组在一起,并将某些属性设置为结果的默认属性。如果需要,可以将EMAGE实验数据集与EMAGE提交数据集和EMAGE文本表达式注释数据集链接在单个查询中。
EMAGE空间表达式数据集
该数据集包括与EMAGE中记录的空间基因表达数据相关的数据。此数据集可用的过滤器相对有限,分组为“映射位置属性”的属性可能仅在完整EMAGE数据库的上下文中有用,其中空间信息可用于查询和可视化。然而,使用提供的过滤器可以找到空间基因表达的指示。表达式过滤器中最有用的可能是“强度”。EMAGE基因表达强度用强、中、弱、可能或未检测到的值表示。默认属性“EMAGE ID”在结果表中作为指向提交页面的URL链接返回,在提交页面中可以看到映射表达式模式的完整详细信息和可视化。如果需要,EMAGE空间表达式数据集可以在单个查询中与EMAGE提交数据集链接。
EMAGE文本表达式注释数据集
该数据集包含EMAGE基因表达数据,该数据已使用解剖本体的文本描述进行注释。此数据集的过滤器分组为表达式文本注释过滤器,包括本体ID以及表达式强度和模式。在基因、提交和实验过滤器的组标题下,还提供了其他过滤器。属性的分组方式与过滤器相同。如果需要,可以将此数据集与EMAGE实验数据集链接到单个查询中。这允许找到文本表达式数据集中没有的其他实验属性。此数据集还可以在查询中与解剖本体数据集链接,以获取有关本体术语的更多信息,例如其名称、路径和阶段范围。
查询示例
本节给出了一些示例查询。这些示例演示了前面描述的不同数据集的使用,并展示了如何使用这些数据集来提供强大而灵活的EMAGE数据搜索。每个查询的屏幕截图都可以在线查看补充数据.
查询#1。“查找塞勒18期Fgf家族基因的基因表达总结”
数据集. | 过滤器. | 属性. |
---|
存储库浏览 | 基因/蛋白质:fgf% | 资源 |
| 泰勒阶段:18 | 身份证件 |
| | 基因/蛋白质 |
| | 检测试剂 |
| | 泰勒舞台 |
| | 给定的阶段 |
| | 化验 |
| | 试样类型 |
| | 突变等位基因 |
| | 统一资源定位地址 |
数据集. | 过滤器. | 属性. |
---|
存储库浏览 | 基因/蛋白质:fgf% | 资源 |
| 泰勒阶段:18 | 身份证件 |
| | 基因/蛋白质 |
| | 检测试剂 |
| | 泰勒舞台 |
| | 给定的阶段 |
| | 化验 |
| | 试样类型 |
| | 突变等位基因 |
| | 统一资源定位地址 |
查询Repository Browse数据集可以概述EMAGE存储库中可用的基因表达数据,如查询1所示。查询已包含通配符符号(%),以便查找所有以“fgf”开头的基因符号。属性“URL”提供了指向EMAGE中完整提交描述的链接,用于完全管理的数据,或指向外部资源中的原始图像源(如果提交未在EMAGE内完全管理)的链接。
查询#2。“在肢体中查找Wnt和Hox基因家族的文本注释基因表达”。
数据集. | 过滤器. | 属性. |
---|
解剖组件(包括子组件) | 解剖组件名称:肢体 | 父组件名称 |
父组件路径 |
子组件名称 |
子组件路径 |
EMAGE文本表达式批注数据集 | MGI基因符号:Wnt%,Hox% | 强度(文本注释) |
图案(文本注释) |
MGI基因符号 |
Emage ID(Emage ID) |
| | 泰勒阶段 |
数据集. | 过滤器. | 属性. |
---|
解剖组件(包括子组件) | 解剖组件名称:肢体 | 父组件名称 |
父组件路径 |
子组件名称 |
子组件路径 |
EMAGE文本表达式批注数据集 | MGI基因符号:Wnt%,Hox% | 强度(文本注释) |
图案(文本注释) |
MGI基因符号 |
Emage ID(Emage ID) |
| | 泰勒舞台 |
如查询2所示,当用作链接数据库查询时,解剖组件(包括子组件)可用于在EMAGE中查找基因表达注释。查询将返回被选为过滤器的组件及其所有子组件的结果。在这里,查询词“limp”还检索表达式,例如“forelum-bud”。“Emage ID”属性在结果中显示为指向Emage中完整提交描述的链接(在所有选择Emage ID作为属性的情况下都是如此)。
查询#3。“查找EMAGE提交文件和用于检测Theiler 16–20期Fgf基因家族的探针的详细信息,其中样本类型为切片数据(或未知),且检测质量为最高值”。
数据集. | 过滤器. | 属性. |
---|
EMAGE提交数据集 | MGI基因符号:fgf% | MGI基因符号 |
泰勒阶段:16–20 | 哺乳期ID |
| 分析质量:3 | 泰勒舞台 |
| 样本类型:切片,未知 | 着色程序 |
| | 嵌入试剂 |
| | 清算方法 |
| | 固定 |
| | 试样类型 |
| | 分析质量 |
EMAGE实验数据集 | | 检测试剂标识符 |
| 检测试剂序列类型 |
| 检测试剂备注 |
| | ISH探针生成自 |
| | ISH探针化学 |
| | ISH探头股 |
| | ISH探头标签 |
数据集. | 过滤器. | 属性. |
---|
EMAGE提交数据集 | MGI基因符号:fgf% | MGI基因符号 |
泰勒阶段:16–20 | Emage ID(Emage ID) |
| 分析质量:3 | 泰勒舞台 |
| 样本类型:切片,未知 | 着色程序 |
| | 嵌入试剂 |
| | 清算方法 |
| | 固定 |
| | 试样类型 |
| | 分析质量 |
EMAGE实验数据集 | | 检测试剂标识符 |
| 检测试剂序列类型 |
| 检测试剂注释 |
| | ISH探针生成自 |
| | ISH探针化学 |
| | 原位杂交探针链 |
| | ISH探头标签 |
查询EMAGE基因表达BioMart数据库可以定义潜在的复杂查询条件和输出参数集。这提供了一个强大的工具来过滤基因表达数据、其实验细节和其他相关数据的视图,如查询3所示。该查询用于筛选EMAGE提交数据集的基因、阶段、分析质量和样本类型。查询需要与EMAGE实验数据集链接,以显示实验和检测试剂的属性。
查询#4。“对于识别码为MGI:1334951的检测试剂(一种特定的Fgf8核糖探针),请查阅EMAGE提交的资料、实验的出版细节以及对该实验的任何进一步出版参考”。
数据集. | 过滤器. | 属性. |
---|
EMAGE实验数据集 | 检测试剂标识符:MGI:1334951 | MGI基因符号 |
Emage ID(Emage ID) |
泰勒舞台 |
| | 检测试剂标识 |
| | 作者 |
EMAGE提交数据集 | | 加入(参考) |
| 作者 |
| 出版年份 |
| | 标题 |
| | 出版物名称 |
| | 出版物发行 |
| | 出版量 |
| | 页 |
数据集. | 过滤器. | 属性. |
---|
EMAGE实验数据集 | 检测试剂标识符:MGI:1334951 | MGI基因符号 |
Emage ID(Emage ID) |
泰勒舞台 |
| | 检测试剂标识符 |
| | 作者 |
EMAGE提交数据集 | | 加入(参考) |
| 作者 |
| 出版年份 |
| | 标题 |
| | 出版物名称 |
| | 出版物发行 |
| | 出版量 |
| | 页 |
对于特定的就地感兴趣的杂交探针用户可以找到EMAGE中记录的该探针的所有基因表达实例,以及查询4所示的已发表文献中的实验参考。使用检测试剂标识符在EMAGE实验数据集中过滤查询。查询与EMAGE提交数据集链接,以显示出版物详细信息的各种属性。
讨论和未来方向
EMAGE数据库的设计初衷是提供一种独特的方法来整理、管理、查询和分析小鼠胚胎的时空模式,包括基因表达。为了在上下文中提供基因表达数据,与就地实验也包含在数据库中。该数据由EMAGE编辑人员严格管理,以提供高质量的数据集。EMAGE网站的主要重点是提供搜索基因表达的工具,尽可能以可视化形式向用户显示这些数据,并支持空间查询和分析。在EMAGE中实现BioMart现在允许使用额外的基于文本的界面,以满足对EMAGE所含所有基于文本的信息进行集中搜索的需要。
BioMart的数据挖掘方面是为EMAGE提供额外搜索功能的一个重要因素。然而,BioMart还提供了标准化的web界面、应用程序编程接口(API)和RESTful web服务。这些接口越来越多地被各种著名的生物数据库所采用,海德对此作了进一步描述等。(7). 这意味着生物研究人员和程序员可能已经熟悉BioMart界面,并且可能更喜欢使用他们已经在其他BioMart实现中使用的工具和技术访问数据库,如EMAGE。
BioMart的另一个重要方面是它允许数据库之间的联合查询(5). 以这种方式集成数据的能力将是EMAGE BioMart未来发展的重点。许多现有和拟议的基因表达数据库与EMAGE数据库具有高度的通用性。其中包括Eurexpress(8)一项具有相同解剖学本体的转录组范围的小鼠基因表达研究。Eurexpress目前有自己的BioMart实施,但计划将这些数据吸收到EMAGE中,在这种情况下,将提供统一的BioMart。GUDMAP公司(9),一个genito–Uri分子解剖项目也有一个通用的解剖本体,并与EMAGE共享数据库管理和开发。计划在未来为GUDMAP提供BioMart实施。可能可以使用EMAGE将此数据集成到单个BioMart实例中,但更可能是以联合方式链接这些数据。eChickAtlas项目(http://www.echickatlas.org/)是一个正在开发的鸡胚基因表达数据库。该数据库将使用从EMAP鼠标本体派生并映射到同一源的本体。这为进行有趣的跨物种查询提供了空间,并且可以使用BioMart的联邦性质来实现。
以这种方式集成数据库应该能够让基因表达数据相关的研究人员以易于访问和统一的方式访问大量信息。
最后,将BioMart扩展到空间映射数据为特定的空间查询和过滤器提供了可能。这些可以通过EMAGE图形界面的简单“punch-out”类型功能或数据库中存储的查询来实现,但需要扩展基本的BioMart模型。如果这是可能的,那么它将为空间组织数据提供更大程度的集成。
基金
英国医学研究委员会(MRC;作为MRC人类遗传学部门MouseAtlas项目的一部分)。开放获取费用的资金来源:医学研究委员会。
利益冲突。未声明。
致谢
作者感谢EBI的Damian Smedley和MRC HGU的Bernard Haggerty帮助开发EMAGE BioMart,以及OICR和EBI在其门户上链接EMAGE。
工具书类
1, , 等EMAGE小鼠胚胎空间基因表达数据库:2010年更新
, 核酸研究。
, 2010
,卷。 38
补充1
(第D703型
-第709页
) 2, , 等EMAGE:爱丁堡小鼠基因表达图谱:2008年更新
, 核酸研究。
, 2008
,卷。 36
补充1
(第D860型
-D865型
) 三, , 等EMAGE:小鼠胚胎发育过程中基因表达模式的空间数据库
, 核酸研究。
, 2006
,体积。 34
补充1
(第D637号
-D641号
) 4, , 等基于系统命名法的可上网的小鼠发育解剖学数据库
, 机械。开发。
, 1998
,卷。 74
(第111
-120
) 5, , 等BioMart–简化生物查询
, BMC基因组学
, 2009
,卷。 10
第页。 22
6. , 家鼠-胚胎发育图谱
, 1989
纽约
Springer-Verlag公司
7, , 等BioMart Central Portal统一访问生物数据
, 核酸研究。
, 2009
,卷。 37
补充1
(第第23周
-W27型
) 8, , ,等人小鼠胚胎转录组的高分辨率解剖图谱
, 《公共科学图书馆·生物》。
, 2011
,卷。 9
第页。 e1000582
9, , 等GUDMAP:泌尿生殖发育分子解剖学项目
, 《美国肾脏学会杂志》。
, 2008
,卷。 19
(第667
-671
)
©作者2011。牛津大学出版社出版。
这是根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。