跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2005年1月1日;33(数据库问题):D562–D566。
2004年12月17日在线发布。 数字对象标识:10.1093/nar/gki022
预防性维修识别码:项目编号539976
PMID:15608262

NCBI GEO:挖掘数百万表达特征-数据库和工具

摘要

国家生物技术信息中心(NCBI)的基因表达综合数据库(GEO)是最大的高通量分子丰度数据(主要是基因表达数据)的完全公共存储库。该数据库具有灵活开放的设计,允许提交、存储和检索多种数据类型。这些数据包括基于微阵列的实验,测量mRNA、基因组DNA和蛋白质分子的丰度,以及基于非阵列的技术,如基因表达的序列分析(SAGE)和质谱蛋白质组技术。GEO目前拥有超过30000份提交文件,代表了大约5亿个个体分子丰度测量,涉及100多个生物体。在这里,我们描述了最近的数据库开发,这些开发有助于有效挖掘和可视化这些数据。提供了一些功能,以使用用户友好的基于Web的界面从实验和基因中心的角度检查数据,这些界面可供那些没有计算或微阵列相关分析专业知识的人使用。GEO数据库可通过万维网公开访问,网址为网址:http://www.ncbi.nlm.nih.gov/geo.

简介

自2000年以来,基因表达综合数据库(GEO)一直是高通量分子丰度实验数据的公共存储库,提供免费分发和对综合数据集的共享访问(1). 这些数据包括基于单通道和多通道微阵列的实验,测量mRNA、基因组DNA和蛋白质分子的丰度。微阵列技术的创新应用所产生的数据也被接受,例如用于识别蛋白质结合DNA区域的染色质免疫沉淀(ChIP芯片)和用于基因组注释的平铺阵列。还存档了来自非阵列高通量功能基因组学和蛋白质组学技术的数据,包括基因表达序列分析(SAGE)和质谱肽谱分析。

GEO-to作为一个健壮、通用的高通量数据存储库的最初目标已经实现。截至2004年秋季,GEO共有超过30000份提交材料,代表了600多名研究人员提交的100多种生物的约5亿个个体分子丰度测量结果。通常,超过1000个独立用户每个工作日访问GEO记录的次数超过15000次,而FTP批量下载平均每月30000次。尽管GEO代表了科学界广泛使用的基因表达数据的巨大存储库,但人们认识到,只有使这些数据易于搜索和分析,即使是对该领域缺乏经验的个人,而不需要大量数据下载,才能实现存储库的全部潜力。本文描述了数据库开发和工具,这些工具可以使用用户友好的基于Web的界面有效地探索、查询和可视化数百个实验和数百万个基因表达谱。

存储库组织和数据流

GEO数据库的基本架构仍如前所述(1). 简单地说,提交给GEO的数据存储在一个关系数据库中,该数据库被划分为三种高级实体类型:Platform、Sample和Series。平台描述了正在分析或可能在该实验中检测和量化的元素列表(例如,寡核苷酸前体、cDNA、SAGE标签、抗体)。样本参考平台,描述单个杂交或实验条件下每个特征元素的丰度测量。系列汇集了构成实验的相关样本,可能包括重要基因的提取摘要集或提交人定义的分析表。每个实体都被分配了一个唯一且稳定的加入编号;登录号前缀指示记录是GEO Platform(GPL)、Sample(GSM)还是Series(GSE)。

与存储在数据库表中指定字段中的元数据不同,Platform和Sample数据表不是完全粒度化的,而是存储为文本对象。这种设计允许GEO对发展中的技术趋势保持适应性和响应性,因为它允许存储数据的数量和类型具有最佳灵活性。例如,平台元素可以由任意数量的辅助属性描述,样本数据表可以包含所有类别的辅助和支持测量与计算。这些表中的数据可以提取用于更高级别的呈现、索引、搜索和检索。最近对数据库的增强包括添加补充元数据字段,以促进和鼓励符合MIAME(微阵列实验最低信息)的数据提交(2)以及接受原始数据用于存储和检索,例如Affymetrix.cel文件或cDNA阵列扫描图像。

提交文件和标准

GEO旨在平衡用户友好且不过于严格的提交程序,同时仍鼓励高质量数据和高水平实验注释。提供了一个基础设施,以便提交者能够以符合MIAME的方式呈现其数据(2). 提交文件根据有限的一组标准进行语法验证,并接受基本管理,以确保记录包含有意义的信息并正确组织。数据存储者保留编辑控制权,并对其记录的内容和质量负责,如微阵列基因表达数据(MGED)协会董事会最近发布的公开信中所述(). 地球观测组织显然无法尝试独立验证所提交数据的有效性、优点、质量或生物学意义。

一旦提交者建立了自己的私人GEO帐户,可以通过三种方式将数据存放在GEO:

  1. 交互式web表单。对于每个平台和示例提交,都会上载并验证一个文本制表符分隔的数据表文件。元数据字段是通过一系列Web表单交互输入的。这个过程很简单,在提交相对较少的条目时最有用。也可以使用类似的交互式Web表单来执行对单个记录的更新。
  2. 使用文本或SOFT格式的简单综合格式直接提交.SOFT是为快速批量提交数据而设计的,并且可以从常见的电子表格和数据库应用程序轻松生成文件。单个SOFT文件可以保存多个平台、样本和系列的数据和元数据,并可以直接上传到数据库。批量更新也可以使用SOFT格式快速有效地执行。有关SOFT格式的详细信息,请访问GEO网站。
  3. 提交人可以在有效的MAGE_ML中FTP文件(4)格式设置为GEO。

记录可能会保密几个月,通常是等待期刊出版。手稿审阅者可以在发布之前使用只读密码对数据进行保密访问。

数据集和配置文件

很明显,早期仅通过登录号或按类别浏览检索数据将不足以进行有效的数据挖掘,也不足以在表达数据与其他序列信息和出版资源之间建立必要的联系。高通量分子丰度数据本质上比其他数据类型更复杂,例如序列或书目记录;必须考虑被测实体与提取它们的生物和统计背景之间的紧密联系;GEO存储了各种各样的高通量实验数据,这些数据通过多种方式进行处理,并通过各种方法进行分析。为了解决这些问题,引入了一个额外的管理级别,将提交的样本组装成具有生物学意义和统计可比性的GEO数据集(GDS)。GDS记录提供了有关实验的连贯概要,并作为下游数据挖掘和显示工具的基础。

GDS中的样本引用同一平台,即分析一组常见元素。计算是根据从原始Sample数据表中提取的“value”列进行的。这些值测量值是以GDS中每个样本的等效方式计算的,即背景处理和标准化等考虑因素在整个GDS中是一致的。根据研究中检查的实验变量(例如“组织”或“菌株”),数据集中的样本进一步分组并分类为子集。

然后,在GDS上层对象的控制下,以样本为中心的表格数据将经过最终的重构,生成面向基因的视图,并将结果索引到查询引擎和检索系统以及显示套件中。NCBI入口(5)数据库系统作为查询引擎和检索系统的基础;定义了两个数据库:

  1. GEO数据集存储所有实验元数据,提供以实验为中心的GEO数据透视图。可从GEO主页或直接访问查询界面http://www.ncbi.nlm.nih.gov/enterz/query.fcgi?CMD=search&DB=gds.
  2. GEO配置文件存储单个基因表达谱,提供GEO数据的“基因中心”视角。可从GEO主页或直接访问查询界面http://www.ncbi.nlm.nih.gov/enterz/query.fcgi?CMD=search&DB=geo.

因此,每个DataSet实体在GEO DataSet中定义了一个实验,每个DataSet在GEO Profiles中创建了多个配置文件实体(图(图11).

保存图片、插图等的外部文件。对象名为gki022f1.jpg

GEO平台、示例、数据集和配置文件之间的关系示意图。对于平台上的每个基因(例如基因a),会生成多个样本测量值(样本1–样本3)。相关样本构成一个数据集,从中生成多个单独的基因配置文件实体。

检索、查询和分析

基本检索

检索GEO数据的方式和格式有多种:

  1. 个人平台、样本、系列和GDS记录可以通过其GEO登录号直接在Web上访问。相关记录在GEO网站上进行了内部链接,这样可以方便地导航到相关的平台、样本、系列和GDS记录。
  2. GDS记录可按标题、类型、平台或组织浏览,网址为http://www.ncbi.nlm.nih.gov/geo/gds/gds_browse.cgi。用户提交的记录也可以按类别或提交者进行浏览。
  3. 所有用户提交的记录、带注释的GDS值矩阵和原始数据都可以通过FTP进行批量下载。用户提交的记录被分组为压缩的系列和平台“系列”文件,其中包含所有相关的附件。可以从Web上的每个记录中单独下载等效文件。

查询和挖掘

通过查询Entrez-GEO数据集和/或Entrez-GEO配置文件,可以实现有效搜索。与其他NCBI Entrez数据库一样(5),可以使用布尔短语实现琐碎和复杂的查询和挖掘,布尔短语可以限制为多个支持的属性字段,也可以与这些属性字段结合使用。

可以通过搜索GEO DataSet来定位感兴趣的实验,例如实验变量信息、技术类型、作者、有机体或GDS描述或原始提交者提供的样本和系列记录中的任何文本关键字。例如,所有探索人类转移的双通道核苷酸微阵列实验数据集都可以使用查询“双通道[实验类型]AND transportation AND human[Organism]”进行定位。检索显示数据集标题、简短的实验描述、分类法、实验变量类型以及到父平台的链接、参考系列记录和完整的GDS记录。一旦确定了相关的数据集,用户可以利用GDS记录页面上的各种辅助工具(图(图2C)2C) 或通过将后续GEO配置文件搜索限制为该数据集。

保存图片、插图等的外部文件。对象名为gki022f2.jpg

GEO网络截图的选择以及它们之间的链接方式。(A类)GEO剖面检索结果;每个实体包括序列标识符和数据集信息,以及缩略图配置文件图像。缩略图上方提供了指向其他Entrez数据库或相关配置文件的链接。(B类)扩展的剖面图描述了GEO数据集中每个样本中一个基因的值(红色条)和等级(蓝色条)信息。实验子集分组反映在图表底部的标签中。(C类)数据集记录包括实验摘要信息、数据集子集分类和访问数据挖掘功能,如分层群集热图和“查询子集A与B”工具。(D类)通过非中心相关系数/平均链接选项计算的DataSet分层簇热图。使用红色图像裁剪框选择感兴趣的区域,然后展开以查看样本和基因注释、下载、绘制为线条图,或直接链接到相应的Entrez GEO Profiles记录。

GEO Profiles中的元素单位是一个基因、序列或其他报告分子,它沿着实验测量条件追踪行为,因此是一个“profile”。GEO配置文件根据并发的Entrez Gene和UniGene资源进行注释,并可以查询属性,如基因名称、GenBank登录号、SAGE标签、GDS登录、数据集描述或标记为对特定实验变量具有显著影响的配置文件。例如,查询“1型糖尿病[GDS文本]和载脂蛋白[Gene Description]NOT Homo sapiens[Organism]”检索除人类以外的生物体中1型糖尿病相关数据集中的所有载脂蛋白相关基因图谱。查询结果显示报告者注释、简短的实验信息、分类和配置文件的条形缩略图(图(图2A)。2A) ●●●●。缩略图有助于快速批处理配置文件扫描和比较。单击缩略图可以显示配置文件的详细信息(图(图2B)。2B) ●●●●。从原始样本记录中提取的基因表达值用红色条表示。蓝色条表示样本内百分位等级信息,指示该基因与阵列上所有其他基因相比的相对表达水平。实验结构反映在每个图表底部的子组标签中,即使是涉及多个重叠子集类型的复杂实验也可以清晰地可视化。默认情况下,标准GEO配置文件检索是根据子集效果标志排序的,从而突出了潜在的重要和有趣的配置文件。然而,用户可以根据平均值、偏差或离群值选择替代排序模式。

选定的GEO Profile实体具有数据库内链接。”根据皮尔逊相关系数计算,轮廓邻域“连接在数据集中显示相似轮廓形状的基因。”BLAST基于核苷酸序列相似性的序列邻域检索相关图谱(6)在所有数据集中,“同源基因”检索属于同一同源基因组的基因的配置文件。序列和配置文件邻居检索根据假定的相关性进行加权,并受截断限制,以限制可管理的链接数。

Entrez GEO DataSet和GEO Profiles彼此以及与其他NCBI Entrez数据库完全集成(7). 在可能的情况下,将提供到GenBank、PubMed、Gene、UniGene、OMIM、同源基因、SNP、分类学、SAGEMap和MapViewer的链接。这些链接是相互的,这意味着可以从上述任何资源追溯到GEO,并促进数据库之间的无缝导航和交叉引用。

补充功能

除了Entrez查询系统外,还提供了一些支持工具和功能,以帮助增强数据挖掘和可视化:

  1. 集群热图.为大多数数据集提供了预计算样本和基因层次聚类热图(图(图2)。2). 用户可以选择查看使用各种距离度量(欧几里德距离、皮尔逊相关或非中心相关系数)和聚类方法(单链接、完全链接或平均链接)计算的聚类。感兴趣的多个集群部分可以被选择、扩展、下载、绘制为折线图或直接链接到Entrez GEO Profile记录。
  2. 查询子集A与B该功能通过计算数据集中实验子集之间的平均秩或值差异来识别感兴趣的基因表达谱。例如,用户可以指定他想要定位在时间点“a”中表达值比时间点“B”高10倍的基因,并且他将被引导到与这些标准匹配的配置文件。
  3. 子集影响。如果配置文件在表达式值或子集之间的等级中显示显著差异,则会对其进行标记。此功能检索标记为具有与特定实验变量(例如“年龄”或“菌株”)相关的重要配置文件的所有配置文件,无论是特定于数据集还是跨所有数据集。
  4. 价值分配显示了数据集内每个Sample的.Box和whisthing图,从而可以概述数据集内的值分布。
  5. 地质爆破。此界面允许用户使用BLAST基于核苷酸序列相似性搜索感兴趣的GEO Profiles。GEO BLAST数据库包含GEO DataSet中表示的所有GenBank序列。此外,使用NCBI的BLAST界面执行的标准BLAST输出会在适当的地方显示“E”图标链接,直接链接到GEO Profiles表达式数据。

结论

GEO代表了一个基因表达数据的大概要,解决了许多生物的广泛生物问题。该数据库已经包含大约5亿个测量值,并继续以每月2000万以上的平均速度增长。虽然这些数据非常有价值,但无法以原始形式立即解释或人类可读。为了解决这一问题,开发了数据库应用程序,通过提供查询功能和简洁的显示来促进复杂的数据挖掘,从而允许人类扫描和数据缩减。提供的工具有助于识别和分类基因与样本的关系。通过与序列信息、地图和书目资源的综合集成,提供了额外的上下文。

作为一个开放的存储库,GEO中的数据通常会被分析和研究,在大多数情况下,结果会在期刊上发表。尽管如此,将不同的数据汇集到一个位置,并使用通用界面将其组织为可分析和可交叉比较的,这增加了一个在考虑单个实验时无法实现的有价值的分析层。挖掘GEO数据可以通过检查空间和时间表达模式,为未特征化基因和遗传网络的功能提供线索(810)以及与特征良好的标记物共同调控。对独立生成但实验上相似的数据集进行交叉比较可以证实有趣的基因表达趋势,而这些趋势可能在一次实验中被忽视(11). GEO数据库和工具还可以证实实验室发现,或为研究建议和假设提供支持或否定的证据(12). 对GEO数据的重新分析和解释可以为其他领域提供有价值的见解(13,14). 随着数据库规模和多样性的不断增长,这种发现机会只会增加。

GEO的未来计划是继续开发提交和检索格式,进一步集成NCBI资源,增强数据可视化和挖掘功能。本文描述的特征主要与基因表达研究有关;此外,还计划了针对其他数据类型的单独工具和图形表示,如蛋白质组技术和比较基因组杂交。

致谢

我们感谢Entrez/PubMed开发团队的持续支持。Michael Domrachev实现了第一个GEO数据库,并在迁移到MIAME增强模式时提供了支持。我们感谢谢尔盖·库丁(Sergey Kurdin)的网页设计和JS代码,感谢托德·格罗斯贝克(Todd Groesbeck)的手稿数字生成,感谢吉姆·奥斯特尔(Jim Ostell)和大卫·利普曼(David Lipman)就本项目提出建议并审阅本手稿。

参考文献

1Edgar R.、Domrachev,M.和Lash,A.E.(2002)《基因表达总览:NCBI基因表达和杂交阵列数据存储库》。核酸研究。,30, 207–210.[PMC免费文章][公共医学][谷歌学者]
2Brazma A.、Hingamp,P.、Quackenbush,J.、Sherlock,G.、Spellman,P.、Stoeckert,C.、Aach,J.、Ansorge,W.、Ball,C.A.、Causton,H.C。.(2001)关于微阵列实验(MIAME)的最低信息-微阵列数据标准。自然遗传学。,29, 365–371. [公共医学][谷歌学者]
三。Ball C.、Brazma A.、Causton H.、Chervitz S.、Edgar R.、Hingamp P.、Matese J.C.、Parkinson H.、Quackenbush J.、Ringwald M。(2004)《微阵列数据标准:公开信》。《公共科学图书馆·生物》。,2, 23–24.[PMC免费文章][公共医学][谷歌学者]
4Spellman P.T.、Miller M.、Stewart J.、Troup C.、Sarkans U.、Chervitz S.、Bernhart D.、Sherlock G.、Ball C.、Lepage M。(2002)微阵列基因表达标记语言(MAGE-ML)的设计和实现。基因组生物学。,,研究0046。[PMC免费文章][公共医学][谷歌学者]
5Schuler G.D.、Epstein,J.A.、Ohkawa,H.和Kans,J.A.(1996)Entrez:分子生物学数据库和检索系统。方法酶制剂。,266, 141–162. [公共医学][谷歌学者]
6Altschul S.F.、Gish,W.、Miller,W.,Myers,E.W.和Lipman,D.J.(1990)基本局部对齐搜索工具。分子生物学杂志。,215, 403–410. [公共医学][谷歌学者]
7Wheeler D.L.、Church D.M.、Edgar R.、Federhen S.、Helmberg W.、Madden T.L.、Pontius J.U.、Schuler G.D.、Schriml L.M.、Sequeira E。(2004)国家生物技术信息中心数据库资源:更新。核酸研究。,32,D35–D40。[PMC免费文章][公共医学][谷歌学者]
8Tasheva E.S.,Ke,A.和Conrad,G.W.(2004)小鼠眼和非眼组织中软骨粘连蛋白表达的分析。摩尔粘度。,10, 544–554. [公共医学][谷歌学者]
9Oliver B.(2003)《快男》。遗传,91, 535–536. [公共医学][谷歌学者]
10Gomez-Merino F.C.、Brearley,C.A.、Ornatowska,M.、Abdel-Haliem,M.E.、Zanor,M.I.和Mueller-Roeber,B.(2004)AtDGK2,一种来自拟南芥,磷酸化1-硬脂酰-2-花生四烯醇--甘油和1,2-二油酰--甘油和表现出冷诱导基因表达。生物学杂志。化学。,279, 8230–8241. [公共医学][谷歌学者]
11Lee H.K.,Hsu,A.K.,Sajdak,J.,Qin,J.和Pavlidis,P.(2004),跨多个微阵列数据集的人类基因共表达分析。基因组研究。,14, 1085–1094.[PMC免费文章][公共医学][谷歌学者]
12Puffenberger E.G.、Hu-Lince D.、Parod J.M.、Craig D.W.、Dobrin S.E.、Conway A.R.、Donarum E.A.、Strauss K.A.、Dunkley T.、Cardenas J.F。(2004)通过SNP基因组扫描绘制婴儿猝死与睾丸发育不良综合征(SIDDT)的地图,并识别TSPYL功能丧失。程序。美国国家科学院。科学。美国,101, 11689–11694.[PMC免费文章][公共医学][谷歌学者]
13.Reverter A.、McWilliam,S.M.、Barris,W.和Dalrymple,B.P.(2004)一种快速计算推断转录组覆盖率和微阵列敏感性的方法。生物信息学,doi:10.1093/bioinformatics/bth472。[公共医学][谷歌学者]
14Cheadle C.、Cho-Chung、Y.S.、Becker、K.G.和Vawter,M.P.(2003)《z评分转换在Affymetrix数据中的应用》。申请。生物信息学,2, 209–217. [公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社