摘要
阉割(http://www.emouseatlas.org/emage/)是一个免费的数据库就地允许用户在线查询小鼠发育基因表达的基因表达模式。EMAGE在提供基于文本的基因表达描述和基因表达模式的空间地图方面是独一无二的。这种映射允许空间查询与更传统的基于文本的查询一起完成。在这里,我们描述了我们在空间制图和数据集成方面的最新进展。EMAGE开发了一种使用光学投影层析成像技术捕获的三维胚胎图像的空间映射方法,通过使用IIP3D查看器,用户可以在web浏览器的上下文中查看原始和映射的三维图像数据的任意部分。EMAGE现在包括增强子数据,我们从转基因报告小鼠的全面筛选中获得了空间映射图像,详细描述了具有增强子活性的小鼠非编码基因组DNA片段的表达。我们集成了eMouseAtlas解剖地图集和EMAGE数据库,以便地图集用户可以轻松查询EMAGE数据。此外,我们还扩展了atlas框架,使EMAGE能够在空间上交叉索引EMBRYS整个装载就地杂交数据。我们还报告了EMAGE web界面的最新发展,包括新的查询和分析功能。
简介
哺乳动物的发育过程非常复杂,有一组相互作用的分子网络,每一个都在胚胎发生的精确阶段发挥作用。对整个发育过程中的基因调控的理解是建立对这一过程更全面理解的基础。大型财团项目,如Eurexpress(1),使用就地杂交(ISH)在胚胎发育的关键阶段提供基因表达谱。这些数据将有助于破译驱动胚胎发育相关形态学变化的基因表达网络。然而,直到数据被整理并组织成可用的框架,它们在阐明涉及发展的调控途径方面的真正潜力才得以实现(2).
EMAGE数据库旨在全面描述发育中的小鼠胚胎内的基因表达模式。EMAGE是一个免费提供的在线数据库,其中包括mRNA ISH、蛋白质免疫组织化学(IHC)和转基因报告数据(ISR)的空间映射模式,并作为组织由Eurexpress等大屏幕生成的胚胎图像数据的一种手段。EMAGE在提供基于文本的基因表达描述和基因表达模式的空间地图方面是独一无二的。EMAGE使用电子鼠标地图集项目公开的3D和2D胚胎模型(www.emouseatlas.org)作为制图的空间框架就地表达模式来源于文献、中大型筛查项目和直接提交的资料。个人就地表达模式被映射到一系列Theiler中的一个(三)阶段胚胎模型。基于形态学特征的泰勒分期标准用于源数据和胚胎模型之间的分期匹配。EMAGE使用的空间制图技术使用内部开发的图像扭曲软件,由全职编辑人员推动制图过程并确保准确性和一致性。EMAGE的目的是开发就地小鼠胚胎发育的连续阶段的基因表达,本项目的长期目标是提供胚胎发育的4D模型,通过该模型,最终用户可以探索整个发育过程中基因表达的趋势。在这里,我们回顾了我们在空间制图和数据集成方面的进展,以及我们对EMAGE web界面的最新开发,以增强查询和分析功能。
光学投影层析数据的三维空间映射
空间映射使用一组与植入后小鼠发育的每个阶段相关的虚拟胚胎模型,这些模型使用泰勒系统进行阶段定义(三). 基因表达图像到标准模型的这种空间映射允许全面的空间注释,并确保以可接受后续计算搜索和分析的格式归档数据丰富的图像数据。重要的是,它还为实现开发的工具铺平了道路,这些工具用于跨图像数据集查询,并对就地(ISH、IHC、ISR)数据。最近,EMAGE开发了一种利用光学投影层析成像(OPT)捕获的三维胚胎图像的空间映射方法。OPT的开发是为了填补所谓的成像空白,即能够穿透组织不超过数百微米的高分辨率光学显微镜与计算机断层扫描和磁共振成像等亚组织分辨率扫描技术之间的空白(4,5). 这项技术非常适合0.5毫米到10毫米之间的标本,使其适用于哺乳动物胚胎的成像。关键的是,OPT允许通过比色分析对整座山胚胎进行3D成像就地协议。
EMAGE使用内部开发的名为WlzWarp的图形界面将OPT数据空间映射到阶段匹配模型。虽然可以使用自动化方法在空间上对齐高对比度CT(6)和磁共振成像(7)3D胚胎图像,使用先进神经成像工具的实验(8)将OPT胚胎数据空间注册到阶段匹配模型需要与直接手动对齐一样多的编辑更正,因此在空间映射管道中使用并不实用(9). 使用WlzWarp进行空间映射是一个手动过程,需要在源(3D图像数据)和目标(虚拟胚胎模型)上放置地标,平均需要100-200个地标才能成功注册胚胎数据。一旦放置了足够的地标,用户就可以将源数据“扭曲”到表示虚拟胚胎模型的3D网格上。翘曲过程本身使用一种新的约束距离变换(CDT)方法来生成空间变换。CDT在约束测地线网格内使用径向基函数(10). CDT方法的主要优点是,它能够对胚胎标本进行3D绘图,尽管胚胎标本的阶段与形态学标准相匹配,但在视觉表现上可能存在很大差异。例如,尾巴可以向左或向右卷曲。WlzWarp界面的用户可以通过查看覆盖在目标模型上的扭曲源数据,在任何点检查WlzWarp映射过程的准确性,并可以根据需要添加其他地标点。
在空间映射之后,对扭曲的数据进行分段,以定义与EMAGE数据库接受的表达水平(强、中、弱、可能、未检测到)相对应的基因表达的3D域。EMAGE编辑通常使用额外的内部开发的成像软件,如WlzViewer和MAPaint,来完成这项任务。到目前为止,EMAGE编辑部已经对3D OPT模式进行了空间映射。然而,值得注意的是,我们为此目的开发的所有软件应用程序都是开源的,可供研究社区免费使用。
三维数据的可视化与查询
IIP3D网络工具(11)最近已部署到EMAGE界面。此工具允许用户使用web浏览器查看大体积3D数据的任意部分。显示的图像表示通过3D卷的一个部分,由WlzIIPServer提供的矩形瓷砖组成(11). 平移和缩放功能允许用户浏览选定的截面,而关联菜单提供了更多功能,例如测量截面平面上两点之间的距离(图1a) ●●●●。工具箱提供了导航工具,允许用户通过平移(距离)或旋转(俯仰、偏航)更改剖面。为了方便使用,可以使用快捷方式通过3D图像(即横向、矢状、正面)直接导航到主平面,因为这些被该领域的研究人员广泛使用。除了允许用户通过原始OPT图像数据查看任意截面外,EMAGE IIP3D工具还提供了一个用户友好的界面,可以浏览空间映射的OPT和截面数据,而无需下载大体积3D数据集(图1a和b)。原则上,该工具可用于交互式查看空间映射到单个虚拟胚胎模型上的多个基因表达模式。此外,我们建议开发EMAGE IIP3D接口,以允许跨EMAGE数据库执行空间定义的3D查询。后者允许用户选择感兴趣的一个或多个部分,并“绘制”感兴趣的查询区域。这种通过“胚胎空间”搜索整个装载数据的功能已经到位(12)其中它使用绘图工具在胚胎模型的2D整体装配投影上定义查询区域。我们打算使用EMAGE IIP3D技术大大扩展这种搜索能力,以包括用户定义的3D胚胎模型的任意区域。为此,重要的是要认识到3D查询已经是EMAGE数据库的一个功能,并且可以使用“查找相似”功能进行访问(图2a) ●●●●。此函数检索空间相似的EMAGE表达式模式列表,按相似性排序,可以通过单击标记为[x-x的图标访问-x个],可以在结果列表(“查找类似项”列)和EMAGE条目页面中找到。简单地说,“查找相似”功能是通过Jaccard索引进行比较来实现的,所有的空间模式都被注释到了同一个模型中。为每对模式生成一个Jaccard指数相似系数得分。分数为1表示两个映射模式之间的精确空间相似性,分数越小表示空间相似性越低的模式。这些结果在EMAGE条目表中返回,这些条目按与原始查询模式的空间相似性排序。从任何EMAGE查询返回的列表也可以使用列标题进行排序。例如,通过单击“检测到的实体”的列标题,可以按字母顺序排列基因列表。虽然这里描述的“发现相似”使用户能够比较全局基因表达模式,但我们预计用户定义的3D查询将用于探索较小的感兴趣区域。因此,它们应该被视为查找3D数据的补充方法。
![在EMAGE中使用基于IIP3D网络浏览器的节查看器(a)IIP3D查看器允许通过OPT 3D数据图像查看任意节。IIP3D查看器仅下载您看到的像素,即可通过大型3D对象(>100GB)显示节。该系统的优点是可以使用现代网络浏览器(如最新版本的Firefox、Chrome或Safari)访问大型3D图像,并且不需要下载软件。关联菜单提供了其他选项,包括允许用户测量两点之间距离的测量模式。(b) 也可以使用IIP3D查看器查看映射的OPT数据。此图显示面板(a)中的数据在空间上映射到适当的EMAP模型。“检测到的表达式”域为红色,“可能的表达式”为绿色。(c) Eurexpress节数据。IIP图像服务器的平铺方法允许用户在web浏览器的上下文中访问原始串行部分图像。这样就无需下载大型图像文件。在大型中央面板中,已使用自动分割方法生成表示不同表达水平的彩色域(红色:最强;黄色:中等;绿色:可能;青色:未检测到)。使用左侧面板完成章节导航。可以在右侧较小的面板中看到原始截面图像。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/42/D1/10.1093/nar/gkt1155/2/m_gkt1155f1p.jpeg?Expires=1721150214&Signature=zMD6CVum1PUUBGfh4gFNcW~eb~BtQMR6LW~sG7AB5dXBp2N1nem9IWrRZmpCS4zEFj3tKhZcvlCeogJ~qTthCZSRgrp3IVLRPMMayf66BC9yuxbo0gJEj0JKP27ETdkZ9R~k3YT23o9AV7QcF-YtgPrxO-LTLwSok2cfH7CNB05VBTH44WG99yxCsvvTL4mFDUj3jIME6c0NXTsOl39GazDhmVzjlJS2ew0mrxBMlHXjawlGhSrTnSRaL-8iSiNGCx3iPvoa1yIR9CFpOTlos1xwG2jHmiVDZB-1m88mr7z96DE1WYpTndcSZ2-q31Lu-WabDNbfWWndUXe8v5CqLA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
在EMAGE中使用基于IIP3D web浏览器的节查看器(一)IIP3D查看器允许通过OPT 3D数据图像查看任意截面。IIP3D查看器仅下载您看到的像素,即可通过大型3D对象(>100GB)显示节。该系统的优点是可以使用现代网络浏览器(如最新版本的Firefox、Chrome或Safari)访问大型3D图像,并且不需要下载软件。关联菜单提供了其他选项,包括允许用户测量两点之间距离的测量模式。(b条)也可以使用IIP3D查看器查看映射的OPT数据。此图显示面板(a)中的数据在空间上映射到适当的EMAP模型。“检测到的表达式”域为红色,“可能的表达式”为绿色。(c(c))Eurexpress节数据。IIP图像服务器的平铺方法允许用户在web浏览器的上下文中访问原始串行部分图像。这样就无需下载大型图像文件。在大型中央面板中,已使用自动分割方法生成表示不同表达水平的彩色域(红色:最强;黄色:中等;绿色:可能;青色:未检测到)。部分导航是使用左侧面板完成的。可以在右侧较小的面板中看到原始截面图像。
![EMAGE的新功能。此图显示了EMAGE结果表的屏幕截图,其中突出显示了一些新的和新颖的功能。(a) “查找相似函数”选项检索空间上相似的EMAGE表达式模式列表,按相似性排序,可以通过单击x-x-x图标访问。(b) EMAGE已经实现了与我们所代表的屏幕和资源的直接链接。增强子数据是从VISTA增强子屏幕获得的,这在数据源列中得到了确认。(c) 快速搜索可以在每个页面上找到,它允许用户选择类别并执行单个条件查询。(d) “分析”选项允许用户将EMAGE生成的基因列表导出到ToppGene进行扩展分析。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/42/D1/10.1093/nar/gkt1155/2/m_gkt1155f2p.jpeg?Expires=1721150214&Signature=JNkGOt1RWDYzkTgNQ1alQngEcsVJ8d2qL-3sssdNp~G0rax7zwVfSO7L1wmn4xVo5p6RebbM3te21RgiX~F4efZxI75KM3dqALeJKTaXUflPcvG4w4rMmb2Ntt3WtOzmOb7HqCyMKjspYe29gZVyJ5WFXONGQJlkwucJRx1F~XVTjdnCENzRk9xXOdo4ELzACQb--1GlP-BPD~KNNDTlHnp7hu5yO-JWKyh1IXhkrVq~5IJKC117i-jGwH1ET50Vkjt5kawJT-8vCSiCX0HltYsFraTSnlhsaTNHBBAEqkfc1AmMuJNw9bDDo8BfqfEwoA~IDC2DJeUHvaEawr8M~g__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图2。
EMAGE的新功能。此图显示了EMAGE结果表的屏幕截图,其中突出显示了一些新的和新颖的功能。(一)“查找相似函数”选项检索空间上相似的EMAGE表达式模式列表,按相似性排序,可以通过单击x-x-x图标访问。(b条)EMAGE已经实现了与我们表示其数据的屏幕和资源的直接链接。增强子数据是从VISTA增强子屏幕获得的,这在数据源列中得到了确认。(c(c))快速搜索可以在每个页面上找到,它允许用户选择类别并执行单个条件查询。(d日)“分析”选项允许用户将EMAGE生成的基因列表导出到ToppGene进行扩展分析。
高分辨率二维数据的可视化
上述IIP查看器功能对于在web浏览器中交付高分辨率2D数据也非常有用。EMAGE拥有大量数据集,其中一些数据集表示高分辨率剖面数据的大图像。Eurexpress数据集(1)就是这样一个例子。以前,在web资源中交付如此大的数据丰富的图像对用户来说是缓慢和笨拙的,如果没有足够的带宽,几乎是不可能的。我们使用了IIP图像服务器的平铺方法,允许用户在IIP查看器中访问这些大型原始图像(图1c) 快速方便,无需单独下载大型图像文件。与使用3D数据的方式大致相同,用户可以在图像上滚动,放大感兴趣的区域,并打开或关闭原始数据部分的空间映射。
协作数据捕获
最初,为绘制地图和包含在EMAGE数据库中而获取的图像数据来源于文献,目的是提供一个可供查询的大型数据库。由于空间数据的支持基础随时可用,最近的重点转向协作数据捕获,以在EMAGE中提供完整的数据子集。这些完整的亚群可以是在特定阶段表现出来的整个调控途径的形式,或者是基于类型的一组综合数据,例如转录因子或调控增强因子。这里描述的是我们当前合作项目的一个示例,该项目旨在绘制具有高度生物影响的小鼠胚胎图像数据。
的二维空间映射现场大屏幕图像数据
VISTA是一种经实验验证的人类和小鼠非编码基因组DNA片段资源,在转基因小鼠中具有基因增强活性(13). 在本项目中,增强子候选序列通过极端进化序列保守性或ChIP-seq进行鉴定。PCR引物用于扩增保守区和ChIP-seq峰,所选引物在两个方向上延伸数百个碱基对,以包括增强子活性所需的侧翼序列。然后将PCR产物克隆到Hsp68偶联的LacZ报告载体中,并微量注射到受精卵中。以11.5 dpc的速度采集胚胎,并对其进行LacZ染色,并对所得活性模式进行注释。EMAGE目前正在对这些数据(>1000个元素)进行空间映射,以纳入数据库,从而能够在增强子活性和基因表达之间进行空间比较。VISTA鼠标非编码片段集现已作为一种新的“增强器”数据类型成功地包含在EMAGE中,并且开发了允许用户轻松查找这些数据的查询。我们正在扩展我们的查询功能,包括“按染色体位置搜索”,这将允许用户在感兴趣的基因座内或附近找到基因和增强子的表达模式。作为标准操作程序的一部分,我们已经将VISTA屏幕使用的文本注释术语映射到EMAP本体,并且我们已经将随后进行空间映射的每个VISTA图像进行了Theiler分类。其结果是,我们开发了一种资源,用于调查特定阶段范围内基因增强子关系的空间背景(Theiler阶段16-19)。我们认为这一特征对那些希望鉴定共定位的假定增强子元件和基因表达谱的研究人员特别有用。
胚胎数据的空间交叉识别
胚胎是从9.5 dpc、10.5 dpc和11.5 dpc小鼠胚胎中获得的约24500个完整装载基因表达图像(约1.5 K基因)的资源(14). EMBRYS项目生成的图像详细描述了小鼠发育过程中转录因子和转录因子相关因子的分布。在一项旨在整合胚胎和EMAGE基因表达数据库的合作努力中,我们在资源之间建立了直接链接。EMBRYS的开发人员已经实现了直接的基因对基因链接,允许EMBRYS用户轻松查找EMAGE数据,并重新构建了他们的基因输入页面,以包括关键解剖成分的注释。为了补充这一点,我们在TS15、TS17和TS19胚胎模型上生成了分段的解剖结构域,反映了由胚胎注释的关键解剖结构(图3). 这些“解剖图”允许我们开发“推断的空间注释”,为每个EMBRYS条目自动创建,因此将允许EMAGE用户使用空间查询查找EMBRYS数据。以这种方式使用“推断空间注释”可以实现EMAGE和EMBRYS之间的空间交叉索引,并允许EMAGE用户探索已进行空间映射的模式(例如OPT数据、VISTA数据)之间的空间关系以及在发育关键阶段进行文本注释的一组完整的转录因子。
![使用eMouseatlas交叉索引EMAGE和EMBRYS。中央面板显示了eMouseAtlas TS19参考模型(左),此外,该模型还描绘了多个解剖组件(右)。如果解剖结构域包含在EMBRYS整体安装ISH屏幕的文本注释中,则会优先进行分割。对这些域进行分段,使eMouseAtlas框架能够在EMAGE(空间和文本注释)和EMBRYS(文本注释)数据库资源之间架起桥梁,并使EMAGE能够为EMCRYS基因表达模式开发推断的空间注释。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/42/D1/10.1093/nar/gkt1155/2/m_gkt1155f3p.jpeg?Expires=1721150214&Signature=nDRL2mWzKc6frq8-NDdyi6NMqPNHc~ZfDf8T5wLWE2DdX9fauDvSmJPeJ1RsJzGBckDh3EiN5bN~CauPBgGpsb-5kb6YDL-v~H5lhxSmJ5Kxinp~tcXiKPPgFOuwNRuEuSVo8o2bpDGAFrkPbfXtj4Oi4MmNuf1rf4D~I26BAZ6fjLTX9JeFSJ3pp3d8I049CEzkXXb4wXQT~ZpfLzaXWmg-Z2-CqOLWtOC6VJZYbz9pHmApDjDISfi9YpCstKRLWQZ~aIphYEw1uBbg4JVnG8lcST5xLH~weM9bqu~Objcf3FPGsqXhbyxi76GxaWESE31z9BmvsFkLrwXPGncekg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图3。
使用eMouseatlas交叉索引EMAGE和EMBRYS。中央面板显示了eMouseAtlas TS19参考模型(左),此外,该模型还描绘了多个解剖组件(右)。如果解剖结构域包含在EMBRYS整体安装ISH屏幕的文本注释中,则会优先进行分割。对这些域进行分段,使eMouseAtlas框架能够在EMAGE(空间和文本注释)和EMBRYS(文本注释)数据库资源之间架起桥梁,并使EMAGE能够为EMCRYS基因表达模式开发推断的空间注释。
数据集成和分布式系统
EMAGE与eMouseAtlas的集成
EMAGE使用atlas胚胎模型(图4a) eMouseAtlas开发了一个空间框架,在该框架中可以对从原始数据图像中提取的基因和增强子表达模式进行空间映射。地图集胚胎模型还允许用户通过在模型子集上提供描绘的解剖结构来识别解剖结构。我们开发了一种整合解剖学和基因表达的方法,以便地图集用户可以查询EMAGE数据库。此功能使用“查询模式”(图4b) 通过IIP3D查看器的上下文菜单提供,允许用户选择感兴趣的解剖组件。用户可以选择使用选定的解剖结构域搜索EMAGE或MGI基因表达数据库(GXD)(图4c) ●●●●。在幕后,此功能使用IIP3D服务器检测与每个解剖结构关联的EMAP本体ID,并将其编码为用于调用查询的URL。EMAGE和GXD都开发了EMAP本体,该本体使用“部分”关系描述从单细胞卵(TS01)到产前发育阶段(TS26)的整个小鼠发育过程中的解剖成分(15). 通过使用这个共享本体,eMouseAtlas开发可以跨两个基因表达数据库执行的“点击式”查询相对简单。
![使用eMouseAtlas查询EMAGE。(a) eMouseAtlas(EMAP)提供小鼠胚胎发育的3D模型。这些模型用作存储空间信息的框架,例如描绘的解剖区域。(b) IIP3D剖面查看器允许查看通过3D EMAP模型的任意剖面。上下文菜单提供了其他选项,包括允许用户查询EMAGE和GXD的查询模式。(c) EMAGE查询可以选择多个解剖域,这些解剖域在剖面查看器中显示为彩色域。使用左侧面板完成章节导航。在右侧面板上,复选框允许用户打开/关闭剖面查看器中显示的解剖域。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/42/D1/10.1093/nar/gkt1155/2/m_gkt1155f4p.jpeg?Expires=1721150214&Signature=sd2OAc87g1eJrEQ8NT9g244LHzZv4K9pxzZPZEYfGlilpSRNl6ZbB5Fprf7y56yr~Nooe1jco1iqUM1z3DcRach~36G8xj56ofX-qwms-3ZEejAvoRIQvO54aSCmLi4BCfDbXAB5Ink7THH4Frgj7CEkW72-cwDtQ7vLwcJuyIj2mjDE3mOthHNsiDuoUuWUOVaM0QBXCFz5Y80UbnUpQ-0Rdmw~EtEz47nlcwpx8OSQDatScZkn2aL7dy-OtbRiEKggExYL6JnLSjb6Dn~ODGPHmopIDyk1QaGfr3wcANrOdg9iXAAORNEE5DhSEavuQtNwotwPlyFCAi-htnxj8A__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图4。
使用eMouseAtlas查询EMAGE。(一)eMouseAtlas(EMAP)提供小鼠胚胎发育的3D模型。这些模型用作存储空间信息的框架,例如描绘的解剖区域。(b条)IIP3D剖面查看器允许通过3D EMAP模型查看任意剖面。上下文菜单提供了其他选项,包括允许用户查询EMAGE和GXD的查询模式。(c(c))可以为EMAGE查询选择多个解剖域,这些域在截面查看器中显示为彩色域。使用左侧面板完成章节导航。在右侧面板上,复选框允许用户打开/关闭剖面查看器中显示的解剖域。
我们正在扩展此查询,以允许搜索用户定义的地图集模型的任意区域。本质上,这类似于前面概述的用于直接查询胚胎空间的3D查询工具。然而,在这种情况下,目标是开发一个交互式3D查看器,该查看器可以同时允许用户浏览划定的解剖域,根据解剖本体(EMAP)ID执行数据库查询,以及在EMAP地图集框架中基于空间域执行空间查询。
EMAGE与KEGG的集成
EMAGE开发了与京都基因和基因组百科全书(KEGG)的集成查询,允许用户使用KEGG路径描述作为查询EMAGE数据库的手段。此查询使用web服务查询KEGG资源。为了以更结构化和逻辑化的方式组织此查询的返回,我们开发了EMAGE数据的“基因和路径摘要”视图。基因摘要特征对“基因条带”中的图像和文本注释进行排序,从而将在任何一个发育阶段与单个基因相关的所有EMAGE条目浓缩为基因摘要表的一行。这种查看数据的替代方法允许用户探索基于Theiler阶段的按时间顺序构造的原始图像数据以及文本和空间注释。通过单击缩略图数据图像,用户可以访问与该特定缩略图图像关联的EMAGE条目。路径摘要可以看作是基因摘要的进一步发展,该基因摘要使用KEGG数据库提供的基因列表来提供EMAGE数据的“路径条带”。与基因摘要类似,所有与KEGG通路描述相关的EMAGE条目都浓缩到通路摘要表中,每一行与发育阶段相关。与基因摘要表的进一步相似之处在于,通过单击图像,用户将被带到相关的EMAGE条目,在该条目中可以访问原始数据图像、探针详细信息、文本和空间注释以及辅助数据。
将EMAGE链接到相关资源
为了充分利用EMAGE中捕获的数据的潜力,最好尽可能在这些数据和其他相关资源之间建立链接。这允许用户轻松且有逻辑地在资源之间导航,从而从所有可用资源中收集最大信息。为此,EMAGE已经建立了一些指向其他数据库资源、已发表文章和引文索引器的直接链接。每个EMAGE条目都有一系列指向GXD、Ensembl、Allen Brain Atlas、IKMP、BioGPS、EMBL-EBI和BrainStars的链接。这些链接会自动在远程资源中查询EMAGE条目指定的鼠标基因符号。在资源涉及除小鼠以外的生物体的情况下,链接是指向该生物体的同源基因。例如,EMAGE链接到GEISHA鸡肉ISH数据库(16). 为了找到同源基因,EMAGE使用MGI脊椎动物同源类,调用NCBI同源基因。HomoloGene通过编程检测已完全测序的真核生物基因组的基因组特征中的同源物。同源基因处理的输入由输入生物体的蛋白质序列组成。使用blastp将它们彼此进行比较,并使用基于序列相似性构建的树进行分组,以指导该过程。利用同源基因,通过发现物种内比其他物种更接近的序列来识别旁系。正畸学允许用户轻松比较生物体之间的表达模式,从而将基因表达信息融入进化环境。此外,对于来源于就地屏幕和/或其他数据库资源,EMAGE现在提供到原始数据源的直接链接,以确认EMAGE从何处获得图像和文本注释数据(图2b) ●●●●。单击相应数据源的徽标可以访问这些链接,当前包括以下数据源:EMAGE、EmbryoExpress、Eurexpress、FaceBase、MGI和VISTA。
最近,EMAGE与爱思唯尔的文章建立了相互联系。EMAGE包括最初通过版权协议在爱思唯尔期刊上发布的重要数据,允许EMAGE显示原始图像,因此,始终在EMAGE条目中包含指向原始期刊文章的链接(与文献中发布的所有数据一样)。Elsevier最近为各种数据存储库资源(包括EMAGE)实现了相互链接。这意味着研究人员在网上阅读爱思唯尔的一篇文章时,将能够看到该出版物中的数据已被绘制并包含在EMAGE中。通过单击文章中的EMAGE按钮,将在EMAGE数据库上查询与该文章相关的所有EMAGE条目,结果将在浏览器窗口中返回。这允许用户在描述原始数据的期刊文章的上下文中使用简化的方法浏览EMAGE条目。通过在EMAGE可格式化URL系统中包含DOI作为有效查询字符串,实现了此功能。
另一个相关的链接工作是为EMAGE索引的数据提供引用索引。与汤森路透合作,EMAGE数据现在可以包含在知识网的h指数计算中(http://thomsonreuters.com/web-of-knowledge网站/). 这将数据归功于原始作者和EMAGE,从而为EMAGE带来了可衡量的影响因素。
电子邮件数据的查询与分析
EMAGE的目标是生成一个强大而直观的网络界面,让发育生物学家能够提出有关胚胎发育的重要问题。为此,我们不断扩展我们的数据存储库以及EMAGE可用的查询和分析选项。在可能的情况下,这是在与我们的用户协商后开发的,旨在根据最终用户的需求定制web界面。EMAGE中保存的空间注释的性质支持此资源特有的复杂查询和可视化解决方案。此外,我们的目标是确保即使是新手用户也能轻松快速地访问我们的数据。在这方面,为了能够导航EMAGE中可用的复杂数据,我们实现了高级/组合查询,允许用户跨EMAGE数据库提供定制查询。此外,我们还开发了一个BioMart接口,它提供了一个被许多数据库资源广泛使用的通用接口。下文将讨论每种发展的相对优点。此外,我们报告了最近在EMAGE界面中提供的分析工具。
生物城
EMAGE实现了一个BioMart接口,可以在EMAGE数据集上执行结构化文本查询(17). BioMart提供了一个通用的web查询界面,结果可以在web浏览器中作为表格查看,也可以以HTML、CSV、TSV和XLS格式导出。此外,可以以URL、XML或Perl格式导出查询。由于能够导出查询,因此在将来的某个时间重复查询以确定是否(例如)向EMAGE数据库添加了其他模式非常简单。BioMart对于高级查询非常有用,这些查询旨在生成EMAGE条目列表以及与基因表达文本注释和/或其他基于文本的详细信息(例如作者、样本类型、分析类型)相关的基因列表。然而,BioMart无法提供空间搜索或直接访问图像数据,为此,我们建议使用EMAGE组合查询。
组合查询和快速搜索
组合查询是一个功能强大的工具,使用户可以创建复杂的布尔查询。用户可以在广泛的类别列表中进行选择,包括一些常见选项,例如基因符号、发育阶段(即Theiler阶段)、文本注释中使用的解剖术语以及通过使用基因本体(GO)术语进行的功能注释。其他类别包括:样本类型、注释类型、数据源、分析类型、检测试剂、突变等位基因、样本菌株和作者。组合查询的优点在于能够将多个条件添加到一起以形成一个复杂的查询。可扩展的多输入选择器允许用户选择类别,一旦选择了类别,预测文本将帮助用户查找列出的选项。对于选项列表相对较少的类别,通配符(*)允许用户查看所有列出的选项。组合查询的默认行为是在级别内传递OR查询(逗号分隔列表),在级别之间传递AND查询,并在每个输入附近的“排除”复选框用于调用布尔逻辑的NOT查询。通过EMAGE菜单栏上提供的“快速搜索”的改进版本,还可以访问组合查询中的这些相同类别(图2c) ●●●●。新的“快速搜索”允许用户选择类别并执行单个条件查询。“快速搜索”旁边的帮助按钮会打开一个弹出窗口,列出为每个类别启用的查询词。
使用ToppGene对EMAGE数据进行功能分析
生物信息学的一个关键方面是将数据汇集在一起进行扩展分析和数据挖掘的能力。通过链接在其他方面独立的数据集,可以使用已发布的数据进行新的分析,从而获得显著的结果。ToppGene套件(http://toppgene.cchmc.org)解决了这一需求,并允许生物医学研究人员基于功能注释进行基因列表富集分析和候选基因优先排序。ToppGene是使用开源统计语言R开发的(http://www.r-project.org/)并使用基于模糊的相似性度量,基于语义注释计算任意两个基因之间的相似性(18). 为了集成EMAGE和ToppGene,我们开发了EMAGE“分析”功能,允许用户将EMAGE生成的基因列表导出到ToppGene进行扩展分析。此“分析”功能(图2d) 可以从EMAGE条目的表视图中访问,该表视图是在查询胚胎空间、组合、基因或解剖名称后返回的。单击分析按钮后,用户将被引导到一个页面,其中显示了EMAGE列表中的所有基因。在这个页面上,可以选择“将前50个基因显示为EMAGE基因摘要”或“分析ToppGene中的前50个基因组”。后一种方法使用ToppGene挖掘其他数据库资源,以丰富相关基因列表的功能注释(表型、蛋白质-蛋白质相互作用、GO注释等)。该联合资源分析管道允许EMAGE用户探索对小鼠特定器官系统的发育、功能或功能障碍至关重要的相互作用和途径。此外,通过使用EMAGE的“胚胎空间”查询,此分析可以局限于用户定义的正在发育的小鼠胚胎的任意区域。后一种查询方法是EMAGE独有的,它强调了EMAGE与其他资源之间集成和互操作的重要性。
直接访问EMAGE数据库
访问EMAGE数据内容的主要方法是通过基于浏览器的搜索和查询功能(如上所述)。然而,也可以通过多种方法使用对底层数据的直接计算访问。
可以说,最全面的计算访问方法是通过SQL查询和Java API。由于底层数据结构的复杂性,我们建议希望使用这些访问方法的用户联系EMAGE获取指导。还有一些计算访问方法在使用前不需要注册,例如通过web服务、DAS和可格式化URL进行查询。EMAGE在EMAGE网站上提供web服务的服务描述和文档,允许用户跨数据集开发自己的查询和分析。同样,还提供了EMAGE DAS服务器命令的摘要,以及通过URL生成复杂查询的系统的全面描述。这种从URL格式执行查询的能力使得将EMAGE集成到工具和其他资源中变得特别容易。
eMouseAtlas推广
多年来,EMAGE/eMouseAtlas通过在会议展览中展示展品,定期出席重要的高知名度发育生物学会议。具体而言,EMAGE定期在英国发育生物学学会(BSDB)和发育生物学学会的年度会议以及四年一次的国际发育生物学学会大会上展出。每年,EMAGE都会在其他相关会议上展出,可能会吸引现有和潜在的新用户。重要的是,要抓住每一个机会与用户接触,以确定资源的实际需求,并从用户以及整个社区收集有价值的反馈。通过在会议期间提供展览,可以花时间与用户交流,并提供一对一的指导。此外,这也是一个与发育生物学社区开展新合作的机会,旨在集中数据捕获和胚胎数据的空间分析。作为对这些面对面的外联工作的补充,EMAGE维护了用户和相关方的用户组/邮件列表,这有助于发布新功能和数据集,同时也是潜在反馈联系人的来源。每个EMAGE页面也会显示一个反馈按钮,我们鼓励用户随时联系资源。
结论
EMAGE是一个免费的小鼠发育生物学在线数据库资源。它使用了一系列小鼠胚胎发育过程中的2D和3D模型。这些模型被用作存储空间信息的框架,我们使用此策略收集空间注册的基因表达数据。通过使用IIP3D查看器,我们解决了通过web浏览器的2D约束传递3D数据的难题。此外,我们开发了查询和分析方法,使研究社区能够使用EMAGE web界面轻松访问这些数据。任何生物信息学资源的真正力量在于它与其他资源的集成,为此,我们将继续通过与其他胚胎和生物医学资源的直接链接来增强EMAGE数据库,通过重点协作数据捕获和开发充分利用空间数据的数据分析管道。
基金
开放获取费用的资金来源:英国医学研究委员会,通过为老鼠地图集项目提供核心资金[赠款编号U.1275.2.4.4.1]。
利益冲突声明。未声明。
参考文献
1, , , , , , , , , 等小鼠胚胎转录组的高分辨率解剖图谱
, 公共科学图书馆生物
, 2011
,卷。 9
第页。 e1000582
2, , , . 十多年的发育基因表达图谱:我们现在在哪里?
, 核酸研究。
, 2009
,卷。 37
(第7349
-7359
) 三. , 家鼠:胚胎发育图谱
, 1972
第1版纽约
Springer-Verlag公司
4, , , , , , , . 光学投影断层扫描作为3D显微镜和基因表达研究的工具
, 科学类
, 2002
,卷。 296
(第541
-545
) 5. 光学投影断层成像作为研究胚胎解剖学的新工具
, J Anat杂志。
, 2003
,卷。 202
(第175
-181
) 6, , , , . 基于micro-CT的新型三维小鼠胚胎图谱
, 开发
, 2012
,卷。 139
(第3248
-3256
) 7, , , , , , , , , 等胚胎磁共振虚拟组织学:自动化高通量表型的3D图谱
, 神经成像
, 2011
,卷。 54
(第769
-778
) 8, , , , , . 脑图像配准中ANT相似性度量性能的可重复性评价
, 神经成像
, 2011
,卷。 54
(第2033
-2044
) 9. 小鼠胚胎基因表达数据的自动空间标准化
, 理学硕士(研究)论文
, 2013
爱丁堡大学
10, . 约束距离变换:通过约束距离进行大变形的交互式地图集配准
, DEFORM’06-变形环境中图像配准研讨会
, 2006
爱丁堡
英国机器视觉协会
11, , , , . 用于大规模3D生物图像和地图集的Web工具
, BMC生物信息学
, 2012
,卷。 13
第页。 122
12, , , , , , , , , . EMAGE小鼠胚胎空间基因表达数据库:2010年更新
, 核酸研究。
, 2010
,卷。 38
(第第703页
-D709型
) 13, , , . VISTA增强子浏览器——组织特异性人类增强子数据库
, 核酸研究。
, 2007
,卷。 35
(第D88型
-D92型
) 14, , , , , , , , , 等系统方法揭示了肌发生基因组网络受转录阻遏物RP58调控
, 开发单元
, 2009
,卷。 17
(第836
-848
) 15, , , , , . 小鼠发育解剖学EMAP/EMAPA本体:2013年更新
, J.生物识别。塞芒。
, 2013
,卷。 4
第页。 15
16, , , , , , . GEISHA:安现场鸡胚杂交基因表达源
, 细胞遗传学。基因组研究。
, 2007
,卷。 117
(第30
-35
) 17, , , , . eMouseAtlas基因表达数据库EMAGE的BioMart接口
, 数据库
, 2011
,卷。 2011
第页。 巴029
18, , , . 用于基因列表富集分析和候选基因优先排序的ToppGene套件
, 核酸研究。
, 2009
,卷。 37
(第2005年3月
-W311型
)
©作者2013。牛津大学出版社出版。
这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/3.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。