关于GEO配置文件
背景
这个GEO配置文件数据库存储基因表达谱源自策划GEO数据集. 每个Profile都以图表的形式显示,该图表显示了DataSet中所有Samples中一个基因的表达水平。图表底部的条形图中提供了实验背景,使其成为可能一目了然,看看一个基因在不同的实验条件下是否有差异表达。简档具有各种类型的链接,包括连接表现出相似行为的基因的内部链接,以及其他NCBI数据库中相关记录的外部链接。
可以使用许多不同的属性搜索GEO配置文件,包括关键字、基因符号、,标记为差异表达的基因名称、GenBank登录号或Profiles。有关如何搜索感兴趣的GEO配置文件的示例和详细信息,请参阅查询GEO数据集和GEO配置文件第页。
有关如何生成GEO配置文件以及如何使用和解释GEO配置结果的信息页面和图表在以下注释的屏幕截图中提供。
GEO配置文件结果页面
请咨询桌子以下是有关如何使用和解释GEO Profile结果页面的信息。
地理概况图表
请咨询桌子有关如何使用和解释GEO Profile图表的信息,请参见下文。
A类 |
搜索框 |
通过在此框中输入关键字或搜索语句来识别感兴趣的GEO配置文件。搜索中可以使用各种术语,包括基因名称、基因符号、,GenBank登录号和标记,突出显示不同实验条件下差异表达的基因。有关如何构造搜索语句的示例和详细信息,请参见查询GEO数据集和GEO配置文件第页。搜索结果可以保存在您的性化服务帐户使用收藏功能。这个GEO配置文件高级搜索页面提供了用户友好的工具来帮助构造复杂的查询。 |
B类 |
显示设置并发送至 |
使用“显示设置”更改显示格式或要显示的项目数。使用“发送到”将结果导出为纯文本文件,或将结果保存到剪贴板或My NCBI收藏. |
C类 |
纵断面标题行 |
列出从中派生概要文件的数据集登录(GDSxxx),平台登录(GPLxxx)该数据集所基于的对象、平台记录的ID列中的唯一标识符以及有机体。 |
天 |
注释、报告和实验 |
注释:NCBI基因、UniGene或核苷酸数据库中列出的基因符号、全名和别名。我们定期查询基因、UniGene和核苷酸的原始序列报告人(见下文)从提交方提供的平台记录中提取的信息,以获得此最新注释。
报告人:从提交方提供的平台记录中提取的原始序列报告器。通常,报告者是可跟踪的序列标识符,例如GenBank登录号或克隆ID。正是从这些记者那里得知注释(见上文)都是派生的。
实验:从中派生配置文件的数据集的标题,后跟数据集类型和示例值类型
|
E类 |
邻居和链接 |
配置文件邻居:将显示类似表达式模式的配置文件连接到数据集中选定的配置文件。对于每个数据集,皮尔逊相关系数在配置文件对之间进行计算。前200个结果被任意视为轮廓邻域。使用任意阈值过滤掉低相关系数值的对。这一特征可能有助于识别功能相关基因。
染色体邻区:从DataSet中查询基因的每一侧连接染色体上20个物理上最接近的基因。这一特征可能有助于研究基因表达邻域。
序列邻居:连接通过核苷酸序列相似性关联的所有数据集的配置文件。
同系物:连接与同源基因跨所有数据集分组。
链接:其他NCBI数据库中相关记录的相互链接,包括Gene、UniGene、GenBank、PubMed和OMIM。也可以在批处理模式下检索邻居和链接,请参阅查找相关数据第节。
|
F类 |
缩略图 |
每个图表显示一个基因在数据集中所有样本中的表达水平。请参阅完整图表颜色代码、轴说明和其他详细信息请参见下面的说明。图表底部的条形图表示实验变量子集。缩略图可以快速显示扫描和比较多个配置文件。单击缩略图以显示完整图表. |
G公司 |
下载配置文件数据 |
使用此按钮可以下载页面上每个配置文件的值和注释。下载文件以制表符分隔,适合在Excel等电子表格应用程序中打开。合并多个数据集的检索由数据集块组织。文件中包含实验因子和基因注释信息。下载文件包括当前页面上显示的配置文件;要获得最大数量的配置文件,转到'显示设置'链接并将“每页项目数”设置为500。请注意,不执行跨数据集规范化,因此不适合在不同数据集之间直接比较Profile值。 |
H(H) |
查找相关数据 |
此功能类似于邻居和链接部分,但处于批处理模式。 |
我 |
总结 |
从中派生配置文件的数据集的摘要。 |
J型 |
完整图表 |
单击缩略图将放大图表以显示完整的个人资料详细信息,表达式值和反映实验设计的DataSet子集。每个图表显示一个基因在数据集中所有样本中的表达水平。
红色列:每列表示从一个值的VALUE列中提取的表达式度量原始提交人提供的样品记录。原始样本输入(GSMxxx)列在图表底部的灰色框中。样本记录由科学界提交,反映了使用各种方法处理和规范的各种数据类型。基因表达没有标准单位,因此表达值应视为任意单位。可以假设值测量在GEO数据集中已经以等效的方式进行了计算,但通常不适合直接不同数据集之间的值比较。单通道样本是标准化的信号计数值,而双通道样本通常是测试/参考对数比。检查原始样本记录中的“数据处理”字段或VALUE描述,了解如何计算VALUE的信息。
蓝色方形:表示表达式度量的秩。样本中的所有值都是按等级排序的,然后放入百分位“箱子”中。换句话说将一个杂交组合进行分类,然后分成100组。因此,蓝色等级图表上的方块显示了该基因的表达位置相对于该阵列上的所有其他基因。
值得注意的是,数值(红色列)和等级(蓝色方块)以不同的比例绘制——蓝色等级始终在1-100%的刻度上(图表的右Y轴),而红色数值刻度滑动以适应特定轮廓的值(图表的左Y轴)。此滑动值刻度允许细微的更清晰地显示值的差异。
褪色柱/方形:这些对应于Affymetrix“检测呼叫”=不存在。检测呼叫特定于Affymetrix技术。有关检测算法的详细信息,请参阅Affymetrix文献,例如。,Affymetrix基因芯片表达分析和Affymetrix统计算法描述文件. 简言之,如果没有检测到基因表达或基因缺失,则可能会标记为基因缺失检测到交叉杂交信号。摘自Affymetrix文献:
“检测电话回答了这个问题:是一份特定基因存在还是缺失?在这种情况下,缺席表示表达式级别低于阈值检测。也就是说,表达式级别是不可证明的与零不同。在不确定性的情况下,我们可以得到边缘通话。值得注意的是,一些问题比其他变量更多,并且最小表达式可证明与零不同的电平范围可能很小值设置为非常大的值(对于有噪声的探针设置)。"
一些Affymetrix提交者不考虑检测呼叫,并选择不提供这些呼叫,一些Affymetrix转换算法不会生成它们,在这种情况下,GEO中不会存在调用。
|
K(K) |
实验变量 |
图表底部的条形图表示数据集中的实验变量子集。一个子集可以保存一个或多个采样。每个子集都有一个类型,例如“疾病状态”,以及一个描述,例如“2型糖尿病”。在上图中,样品GSM9920来自8周龄非糖尿病小鼠的肾脏。单击子集类型名称,根据特定的实验变量调用数据集中的Samples-这有助于在多变量实验中更清晰地可视化表达趋势。有关特定样本的更多详细信息,请单击列出样本登录号(GSMxxx)的灰色框。 |
L(左) |
显示值 |
单击以显示图表中显示的表达式值。 |
M(M) |
示例列表 |
构成数据集的样本登录号和标题列表。 |