关于GEO数据集
背景
这个GEO数据集数据库存储提交者提供的原始记录(系列、样本和平台)以及管理数据集。请参阅概述有关这些的信息不同的记录类型以及它们是如何相互关联的。
固化数据集是GEO高级数据显示和分析功能的基础,包括识别基因差异的工具表达水平和聚类热图。GEO配置文件源自GEO数据集。并非都是原创提交者提供的记录已经被整合成策划的数据集。
可以使用许多不同的属性(包括关键字、有机体、数据集类型和作者)搜索GEO数据集数据库。有关如何搜索感兴趣的GEO数据集的示例和完整详细信息,请参阅查询GEO数据集和GEO配置文件第页。
有关如何解释GEO DataSet结果页面以及如何使用以下带注释的屏幕截图中提供了数据分析工具。
GEO数据集结果页面
请咨询桌子有关如何使用和解释GEO数据集结果页面的信息,请参见下文。
一个 |
搜索框 |
通过在此框中输入关键字或搜索语句来标识感兴趣的GEO数据集。搜索中可以使用各种术语,包括关键字、有机体、数据集类型和作者。有关如何构造搜索语句的示例和详细信息,请参见查询GEO数据集和GEO配置文件第页。搜索结果可以保存在您的性化服务帐户使用收藏功能。这个高级搜索页面提供了用户友好的工具来帮助构造复杂的查询。 |
B类 |
显示设置并发送至 |
使用显示器设置更改显示格式或要显示的项目数。使用发送至将结果导出为纯文本文件,或将结果保存到剪贴板或My NCBI收藏. |
C类 |
标题行 |
列出数据集(GDS)、系列(GSE)或平台(GPL)登录号,后跟标题和组织。 |
D类 |
摘要、类型、子集、补充文件和示例 |
总结:数据集、系列或平台记录的摘要描述。
类型:DataSet或Series类型。类型表示一般应用(例如,表达式分析)以及技术(例如高通量测序)。数据集记录还显示示例值类型。
子集:数据集中表示的实验变量子集的数量和类型的摘要。
补充文件:指示随原始提交提供的补充文件的类型。补充文件通常指本地原始数据文件,例如Affymetrix CEL文件。
样品:说明数据集或系列中的样本数,并列出样本加入编号(GSM)和标题。
|
E类 |
GEO配置文件和链接 |
其他NCBI数据库(包括PubMed、Epigenomics和SRA)中相关记录的相互链接。DataSet上提供了相应GEO配置文件的链接。也可以在批处理模式下检索链接,请参阅查找相关数据第节。 |
F类 |
筛选结果 |
列出查询检索到的数据集、系列和平台记录的数量。单击可将检索限制为特定记录类型。 |
G公司 |
缩略图簇图像 |
集群是在数据集上提供的。单击要定向到DataSet记录的图像,其中包含多个数据分析工具,包括群集热图,请参见群集热图第节。 |
H(H) |
查找相关数据 |
此功能类似于GEO配置文件和链接部分,但处于批处理模式。 |
GEO数据集记录
请咨询桌子有关如何使用和解释GEO数据集记录的信息,请参见下文。
我 |
关于数据集的描述性信息 |
本节包括数据集标题、摘要、有机体、平台、引文、,数据集所基于的原始(引用)系列、样本值的类型、数据集包含的样本数以及原始系列公开的日期。 |
J型 |
缩略图簇图像 |
单击要定向到全尺寸默认群集热映射的图像(Uncentered Correlation UPGMA)。请参阅群集热图有关群集类型和群集程序功能的详细信息,请参阅下面的部分。 |
K(K) |
下载 |
提供了几个下载选项,包括:
DataSet完整SOFT文件(推荐):包含数据集信息、实验变量子集、表达式值度量和DataSet平台的全面最新基因注释(纯文本、制表符分隔格式)。
数据集SOFT文件:包含数据集信息、实验变量子集、表达式值测量和基因符号,(纯文本,制表符分隔格式)。
系列系列SOFT文件:包含构成此数据集基础的完整、原始、提交者提供的记录(纯文本,制表符分隔格式)。
系列MINiML文件:包含完整的原始提交者提供的记录,这些记录构成此数据集的基础(XML格式)。
注释SOFT文件:包含DataSet平台的全面最新基因注释(纯文本、制表符分隔格式)。
|
L(左) |
数据分析工具 |
以下各节提供了有关每个数据分析工具的信息。 |
寻找基因
米 |
查找基因 |
查找基因名称或符号:键入要在此数据集中定位的基因的名称或符号,您将被引导到相关的配置文件。
查找此条件的上升/下降基因:使用此功能帮助识别标记为具有子集效应的基因,换句话说,根据实验子集差异表达的基因。子集是数据集中的样本组,根据主要类别进行分类实验变量,例如性别、疾病状态等。对于具有多个子集类型的数据集,可以将检索限制为差异表达的基因在一个特定的子集类型中,根据需要选择/取消选择复选框。使用原始提交者提供的表达式度量计算子集效果标志包含在样本记录的VALUE列中。鉴于GEO收到的数据和VALUE类型和范围的多样性,这个标志是以某种特殊的方式计算的,只是一种尝试为潜在差异表达基因提供更高的可见性。要执行更稳健的分析,可以使用比较2组样品查询工具或上传DataSet完整SOFT文件到你最喜欢的微阵列分析软件中。
|
比较2组样品
N个 |
比较2组样品 |
该工具的目的是帮助识别显示显著差异的基因两组样本(A组和B组)之间的表达水平。通常,用户会比较属于不同实验变量子集的样本。
第1步:选择要执行的测试和显著性级别。学生t检验、值或秩表示存在折叠差异。
第2步:选择要放入组A中的样本和要放入组B中的样本。请参见第O节有关如何将样本分配给A组和B组的详细信息。
步骤3:查询A组与B组。计算每组的t检验得分或平均倍数差异。通过用户选择标准的基因显示在GEO Profiles中。
注释和警告:计算基于原始提交者提供的表达式测量包含在样本记录的VALUE列中。请注意,GEO提交者提供的数据值和范围差异很大。这个学生t检验是一种成熟的统计方法,用于确定数据集确实不同。t检验有一些基本假设,因此基于这些假设的有效性,结果可能是错误的或具有误导性的。t检验要求每组至少有2个样本。值或秩意味着倍差可能是过滤数据的最基本方法。检索可能没有统计意义,或者比较的子集可能太小,无法提供任何统计值(例如,单例)。如果值为null或不存在,则在计算中忽略这些值。如果一组值为空,则假设其值为零,表示平均组折叠。如果两组值都为空,则跳过配置文件。如果没有配置文件通过标准,则结果集可能为空。无法预先知道要使用什么过滤器来提供有意义的结果,或者无法获得有意义的成果。
|
O(运行) |
将样本分配给A组和B组 |
选择要分配给组A(左栏)和组B(右栏)的样本。中间的彩色块提供数据集中实验变量子集的信息。单击样品登录号(GSMxxx)以单独选择样品,或单击彩色块,然后单击闪烁的箭头以选择整组样品。您可以通过取消选中任何组或不希望包含的示例的框来限制组中的示例。在上述示例中,用户选择将所有“非糖尿病”样本(A组)与所有“2型糖尿病”样本进行比较(B组)。 |
群集热图
P(P) |
群集热图 |
本节提供了完整的群集类型,包括无监督的层次聚类、K-means/K-median聚类,以及由染色体上基因位置组织的热图。有关每个群集类型的背景信息和详细信息,请参阅GEO数据集聚类分析第页。 |
问 |
群集选项 |
可以选择下载、绘制选定数据或将其导出到GEO Profiles,以及更改热图的颜色。对于分层集群,也可以从该区域更改集群类型。 |
R(右) |
在热图图像上选择感兴趣的区域 |
单击热图图像以选择集群的区域以进行进一步分析。将出现一个褪色的选择框;拖动和/或调整框的高度以覆盖感兴趣的区域。要选择多个区域,请单击选择框左侧的“+”图标,然后重复此过程以选择更多区域。要放大到选定区域,请双击选择框或单击“堆叠”以查看多个选定区域。基因符号列在放大集群的右侧。可以使用查找浏览器的功能。使用“Download”、“Plot values”或“View in Entrez”按钮检索所选区域的数据。 |
实验设计和价值分配
S公司 |
实验设计和价值分配 |
描述a方框图显示DataSet中每个Sample的表达式值的分布。该图有助于确定DataSet是否规范化,即值分布在Samples中以中位数为中心。图表底部的彩色条表示数据集中的实验变量子集。每个子集都有一个类型,例如“年龄”和一个描述,例如“8周”。例如,在上图中,第一个样本GSM9920来自一只8周大的非糖尿病小鼠。 |