摘要

小鼠基因表达数据库(GXD)是一个广泛、精心管理的社区资源,可在www.informatics.jax.org/expression.shtml涵盖所有发育阶段,GXD包括来自RNA的数据就地杂交、免疫组织化学、RT-PCR、northern blot和western blot在野生型和突变小鼠中的实验。GXD的基因表达信息与小鼠基因组信息学中的其他数据集成,并与其他数据库互连,将这些数据置于更大的生物学和生物医学背景中。自上次报告以来,通过添加新数据和实施新的网络功能,GXD对发育和疾病的分子机制提供深入见解的能力大大增强。这些包括:对差异基因表达数据搜索的改进,促进了对已被证明在特定结构和/或发育阶段独家表达的基因的搜索;增强型解剖浏览器,现在可以访问给定解剖结构的表达数据和表型数据;直接获取特定突变中受影响组织的野生型基因表达数据;以及一个比较矩阵,将基因正常表达的组织与基因突变导致异常的组织并列。

简介

野生型和突变型小鼠的发育基因表达信息可以为研究发育、分化和疾病的分子机制提供重要的信息。为了帮助研究人员了解这些过程,基因表达数据库(GXD)对这些数据进行注释和整合,并通过生物和生物医学相关搜索使其易于访问。GXD是一个开放式系统,可以集成不同类型的表达数据,它从RNA中收集RNA和蛋白质表达信息就地杂交、免疫组织化学,就地报告(敲入)、RT-PCR、northern blot和western blot实验(1,2). 这些数据是从数千份出版物中获得的,并且是通过与进行大规模表达筛选的项目合作获得的,这些项目生成了GXD收集的数据类型。GXD每天都会添加新数据,并每周向公众提供。所有数据均由GXD馆长审查和注释。馆长广泛使用受控词汇表和本体,以标准化数据,使与其他数据的集成成为可能。作为更大的小鼠基因组信息学(MGI)资源的组成部分(3–5)GXD将其表达数据与遗传、功能、表型和疾病导向数据相结合,从而实现其独特而强大的搜索功能。GXD及其用户界面已在前面介绍过(6,7). 在这里,我们重点关注自上次报告以来取得的进展NAR公司数据库问题(8).

数据内容和数据采集进展

综合文献调查

我们对期刊进行了系统调查,发现所有研究小鼠发育过程中内源性基因表达的出版物。作为每一篇论文的第一步,我们对所分析的基因和年龄以及所使用的表达分析类型进行了注释。注释基于整个出版物,包括补充数据,并使用基因的官方命名法。该信息与PubMed的书目信息相结合,可通过基因表达文献搜索访问(http://www.informatics.jax.org/gxdlit网站). GXD的文献内容记录全面且最新,从1990年至今。GXD有超过26500个参考文献和近16000个基因的记录。因此,除了帮助GXD策展人优先考虑论文的详细表达注释(如下)外,基因表达文献搜索还为研究人员提供了一个有效的工具,用于查找具有特定基因表达数据的出版物。

详细表达式数据

GXD包含从文献索引和大规模表达项目(例如RNA)中的出版物中获得的基因表达结果的详细记录就地记录:http://www.informatics.jax.org/assy/MGI:1349751(http://www.informatics.jax.org/assy/MGI:1349751)). 我们记录了作者报告的特定解剖结构中基因表达的强度和模式。记录还包括所分析样本的年龄和遗传背景,以及所用探针和实验条件的信息。如果可用,数据的图像将伴随注释。使用标准基因、小鼠菌株和等位基因命名法、受控词汇和广泛的解剖本体来注释数据,并实现彻底的数据集成和搜索功能。截至2018年9月,GXD包含了约14700个基因的详细表达数据,包括来自多个野生型小鼠菌株和4000多个小鼠突变体的数据。GXD现在拥有超过34万张图像和超过165万条表达结果注释。

GXD用户界面的关键改进

改进的GXD门户

为了充分利用GXD资源,用户应该查阅GXD主页(http://www.informatics.jax.org/expression.shtml). 它总结了可用的功能和资源。此页面经过重新设计,使其更加直观和有用。图形块现在提供了GXD搜索功能的快速概览和访问。这包括直接访问基因表达数据查询表的三种搜索模式中的每一种:标准搜索,允许用户使用许多不同的参数搜索表达数据和图像,差异表达搜索(见下文)以及Batch Search,它提供了一种有效的方法来检索基因列表的表达数据。对于首次用户,一页流程图描述了GXD界面。“亮点”部分现在会提醒用户新添加的功能和数据。

新的差分表达式搜索实用程序

差异表达搜索允许用户搜索在某些解剖结构和/或发育阶段表达的基因,而不是在其他阶段(http://www.informatics.jax.org/gxd/differial(信息学)). 此搜索的功能已经扩展。现在,用户还可以搜索已被证明在特定结构(或其子结构)和/或发育阶段表达的基因,但在其他任何地方都不表达(图1).

差异基因表达数据搜索(上部)增加了搜索特定解剖结构和/或发育阶段中专门表达的基因的功能。观察到表达式的结构和/或阶段被输入到表单的上半部分。表单的下半部分用于搜索缺少表达式的情况,方法是输入结构和/或者阶段,或者选择新的“其他地方未检测到或分析”框(箭头)。如果您选择“not anywhere else”选项,您的搜索将返回检测到的(阳性)基因表达注释仅限于指定结构及其子结构和/或阶段的基因列表;对其他结构和/或阶段没有积极的注释。此基因列表显示在多选项卡搜索返回(下方)的Tissue-by-gene Matrix选项卡中。此列表中的基因可能没有检测到“非其他任何地方”域中包含的结构/阶段的(阴性)基因表达注释。要查看这些负面注释,请单击矩阵下方的“未检测到的数据”链接(箭头)。要访问支持数据,请单击矩阵的彩色单元格。可以使用搜索返回的“基因”选项卡上的导出功能下载基因列表。
图1。

差异基因表达数据搜索(上部)增加了搜索特定解剖结构和/或发育阶段中专门表达的基因的功能。观察到表达式的结构和/或阶段被输入到表单的上部。表单的下部用于搜索表达式的缺失,可以通过输入结构和/或者阶段,也可以通过选择新的“未检测或分析的”其他任何地方'框(箭头)。如果您选择“not anywhere else”选项,您的搜索将返回检测到的(阳性)基因表达注释仅限于指定结构及其子结构和/或阶段的基因列表;对其他结构和/或阶段没有积极的注释。此基因列表显示在多选项卡搜索返回(下方)的Tissue-by-gene Matrix选项卡中。此列表中的基因可能没有检测到“非其他任何地方”域中包含的结构/阶段的(阴性)基因表达注释。要查看这些负面注释,请单击矩阵下方的“未检测到数据”链接(箭头)。要访问支持数据,请单击矩阵的彩色单元格。可以使用搜索返回的“基因”选项卡上的导出功能下载基因列表。

在实现此搜索功能时,值得注意的是,我们必须考虑“未检测到”数据的两个属性。首先,在层次解剖搜索中,“检测到”和“未检测到”数据必须区别对待。具体来说,如果已知一个基因在肝脏的一部分(亚结构)中表达,可以推断该基因在肝脏中表达(父结构)。然而,人们不能就缺乏表达断言做出相同类型的推断,即观察到在子结构中没有检测到基因并不意味着在父结构中任何地方都没有表达。第二,“未检测到”观察值被低估。虽然只需要一个切片来证明表达,但它可能需要广泛的连续切片来证明基因没有在特定的解剖结构中表达。由于这些原因,我们的搜索算法在概念上侧重于“检测到的”数据,以识别组织和/或阶段特异性基因;“未检测”数据仅作为确凿证据提供(图2).

表达的“此处”和“非其他任何地方”搜索和显示的概念图。该图解释了用户在使用差异基因表达数据搜索查找肝脏中表达的基因而不是“其他任何地方”时看到的情况。在这个例子中,“这里”是“肝脏”,但它可以是结构和/或阶段的任何组合。回答用户的查询涉及两个不同的部分:第一,找到满足约束的基因(图上部从左到右流动),第二,收集/组织适当的数据以供显示(下部从右到左流动)。为了找到基因,我们只考虑阳性表达结果;即,“在肝脏中表达而不是在其他任何地方”的基因是指在肝脏或其亚结构中有表达证据,而在任何其他结构中没有表达证据的基因[右上角方框(C)]。当作者明确指出在某些组织或阶段中没有发现表达时,GXD也会注释阴性表达结果。由于此类数据远比阳性结果稀少,并且考虑到这些数据会使约束语义复杂化,因此我们将它们排除在基因集的计算之外,而只需将它们添加到显示(底层)中,作为“其他任何地方”缺乏表达的确证请注意,此图仅为概念图;实际实现由Solr索引支持,效率更高。
图2。

表达的“此处”和“非其他任何地方”搜索和显示的概念图。该图解释了用户在使用差异基因表达数据搜索查找肝脏中表达的基因而不是“其他任何地方”时看到的情况。在这个例子中,“这里”是“肝脏”,但它可以是结构和/或阶段的任何组合。回答用户的查询涉及两个不同的部分:第一,找到满足约束的基因(图的上部从左到右流动),第二,收集/组织适当的数据以进行显示(下部从右到左流动)。为了找到基因,我们只考虑阳性表达结果;即,“在肝脏中表达而不是在其他任何地方”的基因是指在肝脏或其亚结构中有表达证据,而在任何其他结构中没有表达证据的基因[右上角方框(C)]。当作者明确表示在某些组织或阶段未发现表达时,GXD还注释了阴性表达结果。由于此类数据远比阳性结果稀少,并且考虑到这些数据会使约束语义复杂化,因此我们将它们排除在基因集的计算之外,而只需将它们添加到显示(底层)中,作为“其他任何地方”缺乏表达的确证请注意,此图仅为概念图;实际实现由Solr索引支持,效率更高。

实现表达和表型数据的解剖比较

GXD使用小鼠发育解剖学(EMAPA)本体来描述基因表达模式(9,10). MGD是MGI的另一个重要组成部分,它使用哺乳动物表型(MP)本体来注释表型数据(11). 为了能够对小鼠表达和表型数据进行解剖比较,我们在两个本体的共享解剖概念之间建立了映射。MP本体将等价公理纳入跨物种UBERON解剖本体中的解剖概念(12)和UBERON包括对EMAPA的交叉引用。使用这些MP–UBERON–EMAPA连接,我们生成了MP–EMAPA映射(Bello et al.,Proceedings of ICBO 2018,正在出版中)。这些新建立的MP和EMAPA本体之间的解剖映射为实现下面描述的所有新功能提供了基础。

随着MGD表型组继续添加等效公理和GXD继续扩展小鼠发育解剖学,MP–EMAPA映射将继续增加并变得更加完整。目前,MGD小组正在审查MP异常发育过程术语,例如“大脑发育异常”目前,这些术语与基因本体论发展术语(例如“大脑发展”)只有等价公理;他们没有提及UBERON解剖学术语。展望未来,这些术语将具有附加的UBERON等价公理,允许我们为这些术语创建MP–EMAPA映射。

增强型鼠标发育解剖浏览器

解剖浏览器始终允许用户导航解剖本体,定位特定解剖结构,并获取与该结构及其子结构相关的表达数据。现在,解剖浏览器还提供了对相应表型数据的访问,使用户可以轻松比较特定解剖结构的表达和表型数据(图).

鼠标发育解剖浏览器允许用户搜索解剖结构并检索与这些结构相关的表达和表型数据。浏览器的树状视图部分(右下方)允许用户探索解剖层次结构。解剖术语显示在其父结构和子结构的上下文中。所选术语(箭头)旁边的链接允许检索与这些结构及其子结构相关的表达和表型数据。浏览器的术语详细信息部分(右上角)显示术语、其存在的发展阶段范围及其父术语。如果该术语映射到MP术语,将显示MP浏览器的链接(箭头),从而列出映射的MP术语和相关表型数据。相反,MP浏览器在其术语详细信息部分提供指向映射的解剖结构的链接,这些结构会导致相关的表达数据(未显示)。
图3。

鼠标发育解剖学浏览器允许用户搜索解剖结构,并检索与这些结构相关的表达和表型数据。浏览器的树状视图部分(右下方)允许用户探索解剖层次结构。解剖术语显示在其父结构和子结构的上下文中。所选术语(箭头)旁边的链接允许检索与这些结构及其子结构相关的表达和表型数据。浏览器的“术语详细信息”部分(右上角)显示术语、其出现的发展阶段范围及其父术语。如果该术语映射到MP术语,将显示MP浏览器的链接(箭头),从而列出映射的MP术语和相关表型数据。相反,MP浏览器在其术语详细信息部分提供指向映射的解剖结构的链接,这些结构会导致相关的表达数据(未显示)。

获取受突变体影响的解剖结构的表达数据

与突变表型相关的解剖结构的野生型基因表达数据现在可以通过等位基因详细页面上的新链接获得(例如Pax6Sey-Neu公司等位基因详情:http://www.informations.jax.org/等位基因/MGI:1856158). 等位基因详细页面总结了MGI中等位基因的信息。这个新的链接添加到页面的表达式功能区中,将用户带到解剖浏览器,该浏览器反过来显示受变异影响的解剖结构列表。如上所述,解剖浏览器中的链接提供了对与这些术语相关联的表达(和表型)数据的访问。关于受特定突变影响的解剖结构的野生型表达数据的信息可以提供导致表型的分子机制的见解。

基因表达+表型比较矩阵

基于我们之前在组织-基因表达矩阵显示方面的工作(8),我们开发了一个交互式矩阵视图,允许用户比较给定基因的基因表达和表型数据(图4). 基因表达+表型比较矩阵使用小鼠发育解剖学的共同解剖框架显示这两种类型的数据,并将组织视觉并列,其中基因通常针对基因突变导致异常的组织表达。视图的解剖轴可以扩展和折叠,允许用户在不同的细节水平上交互式地探索基因表达和表型之间的相关性。基因表达+表型比较矩阵可从MGI详细信息页面上该基因的表型和表达带访问(例如Bmp4基因详细信息:http://www.informations.jax.org/marker/MGI:88180).

基因表达+表型比较矩阵使用户能够比较给定基因的基因表达和表型数据。第一列(金色标题)总结了该基因的野生型表达模式。列中基质细胞的颜色表示每个组织的表达注释的类型和数量;这些约定在矩阵图例(插图)中定义。该基因的等位基因显示在随后的列中。每个等位基因具有表型效应的组织由有色基质细胞的存在表示;随着表型注释数量的增加,细胞逐渐变暗。默认的矩阵显示是一个相对高级的解剖概览,但用户可以使用蓝色切换(▸或▾)来展开和折叠树,以交互方式探索解剖层次;在图中,心血管系统节点已展开(红线)。要访问支持数据,请单击矩阵的彩色单元格。
图4。

基因表达+表型比较矩阵使用户能够比较给定基因的基因表达和表型数据。第一列(金色标题)总结了该基因的野生型表达模式。列中基质细胞的颜色表示每个组织的表达注释的类型和数量;这些约定在矩阵图例(插图)中定义。该基因的等位基因显示在随后的列中。每个等位基因具有表型效应的组织由有色基质细胞的存在表示;随着表型注释数量的增加,细胞逐渐变暗。默认的矩阵显示是一个相对高级的解剖概览,但用户可以使用蓝色切换(▸或▾)来展开和折叠树,以交互方式探索解剖层次;在图中,心血管系统节点已展开(红线)。要访问支持数据,请单击矩阵的彩色单元格。

用户支持

GXD通过专门的用户支持人员、详细的在线文档和快速教程为用户提供支持。可以通过电子邮件联系用户支持mgi-help@jax.org或者单击所有网页顶部导航栏中的“联系我们”链接。根据要求,用户支持将提供远程交互式培训课程和现场访问。点击大多数页面上角的问号可以访问在线文档。快速教程(以及其他信息材料的链接)可以在GXD主页的帮助选项卡上找到(http://www.informatics.jax.org/expression.shtml).

CITING GXD公司

参考从GXD下载的数据时,建议使用以下引用格式:这些数据是从(GXD)、MGI、美国缅因州巴尔港杰克逊实验室检索的(URL:http://www.informatics.jax.org)在[您检索引用数据的日期(月、年)]。要引用数据库本身,请引用这篇文章。

基金

美国国立卫生研究院(NIH)的尤妮斯·肯尼迪·施莱弗国家儿童健康与人类发展研究所(NICHD)[HD062499];美国国立卫生研究院国家人类基因组研究所[HG000330]。开放存取费用的资金来源:NIH[HD062499]。

利益冲突声明。未声明。

参考文献

1

林瓦尔德
M。
,
牛蒡
R。
,
吟游诗人
J。
,
考夫曼
M。
,
Eppig公司
J.T.公司。
,
理查森
J.E.公司。
,
纳多
J.H.公司。
,
戴维森
D。
鼠标开发数据库
.
科学类
.
1994
;
265
:
2033
2034
.

2

林瓦尔德
M。
,
曼根
机械工程师。
,
Eppig公司
J.T.公司。
,
卡丁
J.A.公司。
,
理查森
J.E.公司。
GXD:实验小鼠基因表达数据库
基因表达数据库组
.
核酸研究。
1999
;
27
:
106
112
.

三。

史密斯
C.L.公司。
,
布莱克
J.A.公司。
,
卡丁
J.A.公司。
,
理查森
J.E.公司。
,
Bult(灯泡)
C.J.公司。
小鼠基因组数据库组
小鼠基因组数据库(MGD)-2018:实验室小鼠知识库
.
核酸研究。
2018
;
46
:
D836号
第842页
.

4.

史密斯
客户经理。
,
手指
J.H.公司。
,
Hayamizu公司
财政部。
,
麦克里特
国际期刊。
,
J。
,
Eppig公司
J.T.公司。
,
卡丁
J.A.公司。
,
理查森
J.E.公司。
,
林瓦尔德
M。
GXD:小鼠基因表达数据的社区资源
.
妈妈。基因组
.
2015
;
26
:
314
324
.

5

德拉布金
H.J.公司。
,
克里斯蒂
K.R.公司。
,
多兰
机械工程师。
,
希尔
D.P.公司。
,
L。
,
西特尼科夫
D。
,
布莱克
J.A.公司。
比较生物学在GO功能注释中的应用:小鼠模型
.
妈妈。基因组
.
2015
;
26
:
574
583
.

6

手指
J.H.公司。
,
史密斯
客户经理。
,
哈亚米祖
财政部。
,
麦克里特
国际期刊。
,
J。
,
Eppig公司
J.T.公司。
,
卡丁
J.A.公司。
,
理查森
J.E.公司。
,
林瓦尔德
M。
小鼠基因表达数据库:新功能及其有效使用
.
起源
.
2015
;
53
:
510
522
.

7

史密斯
客户经理。
,
手指
J.H.公司。
,
卡丁
J.A.公司。
,
理查森
J.E.公司。
,
林瓦尔德
M。
小鼠发育基因表达数据库(GXD):将发育表达信息放在指尖
.
开发动态。
2014
;
243
:
1176
1186
.

8

手指
J。H。
,
史密斯
客户经理。
,
哈亚米祖
财政部。
,
麦克里特
国际期刊。
,
J。
,
法学
M。
,
D.R.公司。
,
巴尔达雷利
相对湿度。
,
比尔
J.S.公司。
,
布洛杰特
O。
小鼠基因表达数据库(GXD):2017年更新
.
核酸研究。
2017
;
45
:
D730型
D736号
.

9

哈亚米祖
财政部。
,
牛蒡
注册会计师。
,
林瓦尔德
M。
鼠标解剖本体:用于探索和集成生物医学数据的增强功能和工具
.
妈妈。基因组
.
2015
;
26
:
422
430
.

10

哈亚米祖
总成本。
,
威克斯
制造商编号。
,
戴维森
D.R.公司。
,
汉堡
答:。
,
林瓦尔德
M。
,
牛蒡
注册会计师。
小鼠发育解剖学EMAP/EMAPA本体:2013年更新
.
J.生物识别。语义学
.
2013
;
4
:
15
.

11

史密斯
C.L.公司。
,
Eppig公司
J.T.公司。
哺乳动物表型本体作为实验和高通量表型数据的统一标准
.
妈妈。基因组
.
2012
;
23
:
653
668
.

12

海德尔
文学硕士。
,
巴尔霍夫
J.P.公司。
,
巴斯蒂安
F.B.公司。
,
布莱克本
哥伦比亚特区。
,
布莱克
J.A.公司。
,
布拉德福德
年。
,
孔德
答:。
,
达杜尔
W.M.公司。
,
Deccchi公司
T.A.公司。
,
德鲁津斯基
R·E
统一乌伯伦多物种脊椎动物解剖本体用于比较生物学
.
J.生物识别。语义学
.
2014
;
5
:
21
.

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/4.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制,前提是正确引用了原始作品。如需商业再使用,请联系journals.permissions@oup.com

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。