GEO概述
概述
GEO是一个国际公共存储库,用于存档和自由分发微阵列,下一代测序和其他形式的高通量研究团体提交的功能基因组数据。
GEO的三个主要目标是:
- 提供一个健壮、通用的数据库,在其中高效地存储高吞吐量功能基因组数据(参见数据组织)
- 提供简单的提交程序和格式,支持完整和注释完善来自研究团体的数据存储(参见提交指南)
- 提供用户友好的机制,允许用户查询、定位、查看和下载感兴趣的研究和基因表达谱(参见查询和分析)
请参阅GEO文件列表以查找有关GEO各个方面的更多信息。
数据组织
GEO记录组织如下:
站台 |
平台记录由提交者提供平台记录由阵列或定序器的摘要描述组成,定义数组模板的数据表。为每个平台记录分配一个唯一且稳定的GEO登录号(GPLxxx)。一个平台可以参考许多样本由多个提交者提交的。示例平台记录»
|
A类 |
数组或序列器的文本描述 |
B类 |
数组模板的文本制表符分隔表 |
样品 |
样本记录由提交人提供样本记录描述了处理单个样本的条件,它所经历的操作,以及每一个的丰度测量元素派生而来。每个Sample记录都分配了一个唯一的稳定的GEO登录号(GSMxxx)。示例实体必须引用只有一个平台,可以包含在多个系列中。示例示例记录»
|
C |
生物样品的文本描述及其所遵循的协议 |
天 |
处理的杂交结果的文本制表符分隔表
(可以选择包括原始数据列)
|
E类 |
原始原始数据文件或处理后的序列数据文件 |
系列 |
系列记录由提交者提供系列记录将一组相关样本链接在一起,并提供整个研究的焦点和描述。系列记录还可能包含描述提取数据的表格,总结结论或分析。每个序列记录都分配了一个唯一且稳定的GEO登录号(GSExxx)。系列记录示例»
|
F类 |
整个实验的文本描述 |
G公司 |
原始原始数据文件或处理后的序列数据文件的Tar存档 |
选定的主记录将进行高级渲染,以生成数据集和基因配置文件记录:
数据集 |
数据集记录由GEO管理员汇编
如上所述,GEO系列记录是原始记录提交者提供的总结实验的记录。GEO工作人员将这些数据重新组合成GEO数据集记录(GDSxxx)。
数据集表示生物和具有统计可比性的GEO样本,构成GEO的基础数据显示和分析工具套件。
数据集中的示例引用相同的平台,也就是说,它们共享通用数组元素集。内每个样品的值测量假定数据集以等效的方式计算,即,诸如后台处理和规范化之类的考虑因素跨数据集保持一致。信息反映实验因子通过DataSet子集提供。
系列和数据集都可以使用GEO数据集接口,但只有数据集构成GEO高级数据显示和分析工具的基础包括基因表达谱图和数据集聚类。并非所有提交的数据都适用于DataSet程序集,我们在创建DataSet时遇到了积压,因此,并非所有系列都有相应的DataSet记录。
有关更多信息,请参阅关于GEO数据集第页。
数据集记录示例»
|
H(H) |
|
简况 |
配置文件派生自数据集
Profile由DataSet中所有Samples中单个基因的表达度量组成。可以使用GEO配置文件接口。
有关更多信息,请参阅关于GEO配置文件第页。
简介记录示例»
|
我 |
|
查询与分析
可以通过多种方式检索和分析GEO数据: