跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2002年1月1日;30(1):207–210。
数字对象标识:10.1093/nar/30.1.207
预防性维修识别码:PMC99122型
PMID:11752295

基因表达综合:NCBI基因表达和杂交阵列数据仓库

摘要

基因表达综合(GEO)项目是为了响应对高通量基因表达数据公共存储库的日益增长的需求而启动的。GEO提供了一种灵活、开放的设计,便于提交、存储和检索来自高通量基因表达和基因组杂交实验的异构数据集。GEO并不打算取代内部基因表达数据库,这些数据库受益于连贯的数据集,其构建目的是促进特定的分析方法,而是通过充当第三级中央数据分发中心来补充这些数据库。GEO的三个中央数据实体是平台,样品系列、和的设计考虑了基因表达和基因组杂交实验。A类平台本质上是一系列探针,它们定义了可以检测到的一组分子。A类样品描述了被探测的一组分子,并引用单个平台用于生成其分子丰度数据。A类系列组织样品到组成实验的有意义的数据集中。地球观测组织储存库可通过万维网公开访问,网址为http://www.ncbi.nlm.nih.gov/geo。

背景

近年来,利用高通量杂交阵列和测序技术进行的分子生物学实验变得非常流行(1——). 这些技术已被用于测量mRNA和基因组DNA的绝对或相对分子丰度。这些技术的高度并行性以及在非常相似的条件下进行的大量同时(或近同时)分子取样事件所带来的时间和资源的伴随节约,是导致这种流行的主要原因。

多年来,人们越来越希望这些高通量数据集在研究成果发表在科学文献中后公开,这与期刊和公共资金需求相似,以便公开发布生物序列数据。也有人呼吁为这些数据集(至少是其中的基因表达微阵列子集)建立公共存储库(4——6),期刊和公共资助机构已开始将高吞吐量数据的公共可用性作为出版的条件(7)或资金(例如,NINDS提案请求BAA-RFP-NIH-NINDS-01–03,第76页,网址:http://www.ninds.nih.gov/funding/2rfp_01_03.pdf)分别是。认识到这些数据应该被广泛提供的愿望,一些实验室和机构已经构建了一级和二级互联网资源来分发这些高通量数据集(表(表11).

表1。

各种公共、高通量的基因表达和基因组杂交数据资源
资源名称 机构统一资源定位地址
乳腺癌细胞系资源美国国立卫生研究院国家人类基因组研究所http://www.nhgri.nih.gov/DIR/CGB/CR2000
CGH数据库慈善大学医院病理研究所http://amba.charite.de/~ksch/cgh数据库
芯片数据库麻省理工学院怀特黑德生物医学研究所http://young39.wi.mit.edu/chipdb_public
药物和酒精滥用微阵列数据联盟维克森林大学、埃默里大学和俄勒冈州健康与科学大学http://www.wfubmc.edu/微阵列
Express数据库哈佛-李珀计算遗传学中心http://arep.med.harvard.edu/ExpressDB
全球基因表达组德克萨斯大学医学博士安德森癌症中心科学园研究部http://sciencepark.mdanderson.org/gegg
MAExplorer公司NIH国家癌症研究所http://www-lecb.ncifcrf.gov/MAExplorer网站
微阵列中心儿童国家医疗中心http://microray.cnmcresearch.org/
微阵列项目美国国立卫生研究院国家人类基因组研究所http://www.nhgri.nih.gov/DIR/微阵列
罗切斯特肌肉数据库罗切斯特大学医学中心医学与牙科学院http://www.urmc.rochester.edu/smd/crc/swindex.html
SADE公司CEA生物细胞与分子部http://www-dsv.cea.fr/thema/get/sade.html
SAGENET公司约翰霍普金斯大学医学院http://www.sagenet.org
酵母微阵列全球查看器分子遗传学实验室,高等师范学院http://transcriptome.ens.fr/ymgv
RNA丰度数据库宾夕法尼亚大学计算生物学和信息学实验室http://www.cbil.upenn.edu/RAD2
SAGE地图国家癌症研究所和国家生物技术信息中心http://www.ncbi.nlm.nih.gov/sage
斯坦福微阵列数据库斯坦福大学医学院遗传学系网址:http://www.dnachip.org
基因表达总览国家生物技术信息中心网址:http://www.ncbi.nlm.nih.gov/geo

该列表显示了目前以多种格式提供的各种公开、高通量的基因表达和基因组杂交数据。它绝不意味着全面。一级资源(1º)发布内部数据,二级资源(2º)同时发布内部数据和合作者数据,而三级资源(3º)接受来自第三方、无关方的数据。据我们所知,GEO是唯一一个运行中的此类第三方资源。

在过去几年里,国际上一直在努力编目最小信息集,这是正确解释微阵列实验并相互比较所必需的(6). 这套指南的编纂和出版对于高通量基因表达和基因组杂交数据生产者和数据存储库来说将是非常宝贵的。然而,我们认为,必须避免在制定标准和要求时过度使用这些准则,因为这将扼杀一个快速发展且具有技术挑战性的领域。

因此,我们的主要目标是创建基因表达总表(GEO;网址:http://www.ncbi.nlm.nih.gov/geo)旨在尽可能涵盖最广泛的高通量实验方法,并保持灵活性和对未来趋势的响应,而不是为进入设定严格的要求和标准。然而,在采用这种方法时,我们认识到,在此类异构数据集上提供的功能和分析存在明显的固有限制。因此,GEO的目的不是替换或匹配在同质数据集上运行的主要和次要资源,而是作为补充第三级用于存储和检索公共高通量基因表达和基因组杂交数据的资源。

存储库设计

GEO将数据分为三个主要部分,平台,样品系列(表(表2),2),每个都在关系数据库中添加(即给定一个唯一且恒定的标识符)(图。(图1)。1). 为了实现开放灵活的设计,允许存储和检索非常不同的数据类型,数据库中的数据没有完全粒度化。相反,会为每个平台和每个样本存储一个以制表符分隔的ASCII表。该表由多个列组成,并带有相应的列标题名称。此表中的数据目前部分提取用于索引,但可能会进一步提取用于更广泛的搜索和检索。此外,提交者可以提供任意数量的补充列,以包含其他提交者定义的信息。

保存图片、插图等的外部文件。对象名称为gkf06601.jpg

GEO模式和示例。(A类)GEO数据库的实体关系图。(B类)三个样本引用一个平台并包含在单个系列中的实际示例。

表2。

GEO数据库中的实体类型和子类型
接入前缀实体类型子类型
GPL公司站台微阵列
  HDA公司
  过滤器
  SAGE公司
GSM(全球移动通信系统)样品双通道转录组杂交
  单通道转录组杂交
  双通道比较基因组杂交
  SAGE公司
GSE公司系列时间进程
  剂量-反应
  已订购,未另行规定
  无秩序的

根据需要,根据用于生成SAGE库的生物体和锚定酶自动生成SAGE平台。

的实例平台本质上是一个探针列表,它定义了在任何利用该平台的实验中可以检测到的分子集。例如,平台数据表可能包含GEO定义的列,用于标识每个探针(点)的位置和生物试剂内容,例如GenBank登录号、开放阅读框(ORF)名称和克隆标识符,以及提交者定义的列。平台登录号具有“GPL”前缀。

的实例样品描述了被探测分子集合的推导,并利用平台生成分子丰度数据。每个样本都有且只有一个必须事先定义的父平台。例如,样本数据表可以包含指示在其平台中定义的对应点的最终相关丰度值的列,以及任何其他GEO定义的列(例如,原始信号、背景信号)和提交者定义的列。样本登录号具有“GSM”前缀。

的实例系列将样本组织成有意义的数据集,这些数据集组成一个实验,并由一个公共属性绑定在一起。系列登录号具有“GSE”前缀。

提交文件

有两种通信方式可用于新提交和更新提交,交互式或直接存款。交互式web表单界面路线简单明了,最适合偶尔提交数量相对较少的示例。大数据集的批量提交可以通过以简单综合格式(SOFT)直接存放文件的方式快速并入GEO。SOFT是一种基于行的ASCII文本格式,允许在一个文件中表示多个GEO平台、样本和序列。在SOFT中,元数据以标签值对的形式出现,并与平台和示例的以制表符分隔的文本表相关联。SOFT的设计目的是便于使用现成的线扫描软件进行操作,并且可以很容易地从电子表格、数据库和分析软件中生成并导入。有关SOFT和提交过程的更多信息,请访问GEO网站。

提交文件最多可私下保存6个月;该政策允许数据发布与手稿发布一致。这些提交的材料都有一个最终的加入号,可以在出版物中引用。在这一点上,提交的文件不是经过精心策划的,而是经过人工扫描,以确保满足最低的基本要求。提交者完全有责任通过使用数据表中的标准列标题并提供足够的补充信息,使数据对其他人有用。

搜索和检索

在编写时,可以检索完整平台,样品系列仅按加入编号提交。对GEO中的数据进行了广泛的索引和链接,并可通过名为Entrez ProbeSet的新Entrez数据库进行查询。该数据库的web界面使用了与PubMed和GenBank等其他流行NCBI资源相同的索引和链接引擎。与任何其他Entrez数据库一样,可以输入一个简单的布尔短语,并限制为任何数量的支持属性字段。匹配项链接到完整的GEO条目以及其他Entrez数据库(当前为Nucleotide、Taxonomy和PubMed-as)以及相关的Entrez ProbeSet条目。可通过Entrez网站访问Entrez ProbeSet(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=geo)作为用于选择要查询的Entrez数据库的下拉菜单之一。

未来发展

GEO资源正在不断开发,旨在改进其索引、链接、搜索和显示能力,以实现更有力的数据挖掘。作为GEO数据库的扩展,我们目前正在开发一个全粒度丰度测量数据库,该数据库将允许查询和检索单个丰度测量值。然而,由于当前高通量基因表达和基因组杂交实验的复杂性和快速发展所带来的局限性,丰度测量可能仅在小组类似衍生数据集中具有可比性。我们计划利用这些可比较的数据子集,以便尽可能自由地查询丰度测量值,并提供这些数据的有用天气视图。

致谢

我们要感谢弗拉基米尔·苏索夫以及整个NCBI Entrez团队的工作,特别是格里沙·斯塔琴科、弗拉基米尔·西罗蒂宁、阿列克谢·伊斯卡科夫和安东·戈利科夫。我们要感谢Jim Ostell对本文的指导和审查,感谢Lou Staudt在我们的GEO初始规划期间的讨论,感谢Brian Oliver、Wolfgang Huber和Gavin Sherlock在提交数据时表现出的极度耐心。

参考文献

1Schena M.、Shalon,D.、Davis,R.W.和Brown,P.O.(1995)用互补DNA微阵列定量监测基因表达模式。科学类,270, 467–470. [公共医学][谷歌学者]
2Lipshutz R.J.、Morris,D.、Chee,M.、Hubbell,E.、Kozal,M.J.、Shah,N.、Shen,N.、Yang,R.和Fodor,S.P.(1995)使用寡核苷酸探针阵列获取遗传多样性。生物技术,19, 442–447. [公共医学][谷歌学者]
三。Velculescu V.E.、Zhang,L.、Vogelstein,B.和Kinzler,K.W.(1995)基因表达的系列分析。科学类,270, 484–487. [公共医学][谷歌学者]
4Bassett D.E.,Eisen,M.B.和Boguski,M.S.(1999)基因表达信息——这一切都在你的脑海中。自然遗传学。,21(补充),51–55。[公共医学][谷歌学者]
5Brazma A.、Robinson A.、Cameron G.和Ashburner M.(2000)微阵列数据一站式商店。自然,403, 699–700. [公共医学][谷歌学者]
6Kellam P.(2001)微阵列基因表达数据库:基因表达数据国际存储库的进展。基因组生物学。,2,报告4011。[PMC免费文章][公共医学][谷歌学者]
7Goodman L.(2001)无限制访问无限制成功。基因组研究。,11, 637–638. [公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社