关于GEO2R

背景

GEO2R公司是一种交互式网络工具,允许用户比较GEO系列中的两组或多组样本为了确定不同实验条件下差异表达的基因。结果显示为按P值排序的基因表,以及图形图帮助可视化差异表达基因并评估数据集质量。GEO2R使用来自生物导体项目。Bioconductor是一个基于R编程语言的开源软件项目它为高通量基因组数据的分析提供了工具。

RNA-seq数据贝塔

GEO2R使用设计2使用执行差异表达式分析NCBI计算的原始计数矩阵作为输入。设计2是用于识别RNA-seq数据中差异表达基因的R包。它使用负二项广义线性模型,并具有提供一致性的特征在大量数据类型上的性能,使其适用于小型研究很少重复,也用于大型观察研究。

微阵列数据

GEO2R使用地理查询利马使用原始提交者提供的已处理数据执行差异表达式分析数据表作为输入。地理查询将GEO数据解析为可使用的R数据结构其他R包。利马(微阵列分析的线性模型)是一个统计用于识别微阵列数据中差异表达基因的测试。它处理各种实验设计和数据类型,并应用对P值进行多次测试校正,以帮助校正假阳性的发生。

重要信息:GEO2R不依赖策划的数据集并检查序列矩阵数据文件。重要的是要认识到,此工具几乎可以访问和分析任何GEO系列,无论数据类型和质量如何,因此用户必须知道GEO2R公司限制和注意事项.

如何使用返回页首

输入系列登录号

如果您访问了系列记录中的链接,则GEO登录框将已填充。否则,请在框中输入系列登录号,例如GSE25724。如果系列与多个微阵列平台关联,您将被要求选择感兴趣的平台。

定义示例组

在“样本”面板中,单击“定义组”,然后输入要比较的样本组的名称,例如。,测试控制。最多可以定义10个组。必须定义至少两个组才能执行分析。可以使用组名称旁边的[X]功能删除组。定义组的顺序对下游结果有影响。对于2组比较,通常先定义测试组,然后定义控制组-这样,对数折叠变化方向将遵循与对照组相比,试验样品中上调的基因为阳性,下调基因为阴性。(注:此变更于2020年11月实施。如果需要复制以前的分析,可以反转创建组的顺序)。

将样本分配给每个组

GEO2R样本表截图

要将“采样”指定给组,请高亮显示相关的“采样”行。通过将光标拖动到相邻的Samples上或使用Ctrl或Shift键,可以高亮显示多行。高亮显示相关Samples后,单击组名称以将这些Samples分配给该组。对每组重复上述步骤。并非一个系列中的所有样品都需要选择才能进行分析。

使用Sample元数据列可以帮助确定哪些Samples属于哪个组。该表由样本记录中的加入、标题、源名称和单个特征字段填充。您可以使用位于桌子右上角的方框,并且可以通过单击表标题对列进行排序。

进行分析

将样本分配给组后,单击分析按钮以使用默认参数运行分析。

或者,您可以在选项选项卡。例如,您可以在选项选项卡并单击重新分析使用修改后的参数进行分析。有关每个编辑选项的详细信息,请参阅编辑选项和功能以下部分。

您可以单击“分析”按钮而不定义组并检索有助于评估标准化状态和样本分组的图,即,它们可以帮助您确定研究是否适合进一步分析以及是否应用测试的任何调整。

顶级差异表达基因

GEO2R结果表截图

结果在浏览器中显示为按调整后的P值排列的前250个基因的表格(针对多次试验修正的P值)。对于RNA-seq,该表是比较两组样本时的Wald检验和LRT(似然比检验)比较3组或更多组样本时。单击行以显示该基因的基因表达谱图。图中的每个红色条表示提取的表达式度量来自TPM标准化表达式计数(对于RNA-seq),或Value列原始提交者提供的样本记录(用于微阵列)。样本加入编号和组名列在图表底部。

使用选择列功能修改表中包含的数据和注释列。有关数据列含义的信息,请参阅摘要统计信息第节。

如果要编辑分析参数,可以在选项选项卡,然后单击重新分析应用编辑。

要查看超过前250个基因,请使用下载完整表格下载链接整个结果集。下载的文件以制表符分隔,适合在Excel等电子表格应用程序中打开。

可视化

生成了几个图形图,以帮助用户进一步探索差异表达基因并评估数据集质量。有关这些图的生成和使用的更多详细信息,请参阅用DESeq2分析RNA-seq数据小插曲和limma用户指南,以及GEO2RR脚本选项卡。

火山图 火山图 火山图显示了统计显著性(-log10P值)与震级变化(log2倍变化),并有助于可视化差异表达基因。单击浏览和下载链接以转到交互式绘图。在那里,您可以将鼠标移到数据点上以查看单个基因注释。突出显示的基因在默认调整的p值截止值为0.05时有显著差异(红色=上调,蓝色=下调)。您可以在选项选项卡。火山图显示单个对比度的测试结果(对比是指一个样本组与另一个样本群的对比)。因此,如果您定义如果分析中有两个以上的样本组,则会为每个对比度生成一个单独的图。默认情况下,对于>2组样本,显示的对比度数量等于数量组,并按创建顺序将每个组与下一个组进行比较。或者,您可以在选项tab。如果超过2定义样本组后,使用复选框在对比度之间切换。使用下载重要基因按钮下载每个对比中突出显示的基因。
平均差(MD)图 平均差(MD)图 平均差(MD)图显示log2倍变化与平均log2表达值并且有助于可视化差异表达基因。单击浏览和下载链接以转到交互式绘图。在那里,类似于火山图,您可以将鼠标悬停在数据上点查看单个基因注释。突出显示的基因有显著差异以0.05的默认调整P值截止值表示(红色=上调,蓝色=下调)。您可以在选项选项卡。平均差值图显示单个对比度的测试结果(对比度是一个样本组与另一个样本组的对比度)。因此,如果在分析中定义了2个以上的样本组,则会生成一个单独的图对于每个对比度。默认情况下,对于>2组样本,显示的对比度数量等于组的数量,并按以下顺序将每个组与下一个组进行比较他们是被创造出来的。或者,您可以在选项选项卡。如果定义了2个以上的示例组,请使用复选框在对比度之间切换。使用下载重要基因按钮下载每个对比中突出显示的基因。
UMAP公司 UMAP公司 均匀流形近似与投影(UMAP)是一种有用的降维技术用于可视化示例之间的关系。最近邻居的数量图中显示了计算中使用的方法。此图可以在没有示例组选择,只需单击分析在定义组之前。
维恩图 维恩图 用于探索和下载多重对比之间重要基因的重叠。通过选择相关的对比度。例如,在这里显示的维恩图中,选择这两个“健康控制vs骨关节炎”和“健康控制vs类风湿关节炎”下载976个重要的基因,这些基因在两种对比中都很常见,但不是“骨关节炎vs类风湿关节炎”。下载所有重要信息对于给定的对比度,使用交互式火山图或MD绘图页。
限制:最多可以绘制5个对比度的数据。当定义了>5组时,默认行为是显示与最高和最低数量的表达基因的对比。或者,您可以选择在屏幕上显示哪5种对比度选项选项卡。
箱形图 箱形图 用于查看选定采样值的分布。样品已着色根据小组。查看分发对于确定您是否选择了样本适用于差异表达分析。通常,以中值为中心的值表明数据是标准化和交叉可比的。如果不是这样,你可以考虑检查强制标准化在中选项将应用的选项卡表达式数据的分位数规范化使所有选定的Samples具有相同价值分配。该图显示了日志转换和标准化后的数据,如果它们是执行。无需选择样本组即可生成此图,只需单击分析在定义组之前。
表达密度 表达密度 用于查看选定采样值的分布。样品已着色根据小组。此图在检查数据规范化时补充了箱线图(如上)在差异表达分析之前。如果密度曲线与样品之间差异很大示例,您可以考虑检查强制标准化在中选项选项卡。该图显示了日志转换和标准化后的数据(如果执行了)。无需选择样本组即可生成此图,只需单击分析在定义组之前。
调整后的P值直方图 调整后的P值直方图 使用生成历史
用于查看分析结果中P值的分布。此处的P值为与中的相同顶级差异表达基因表,并使用所有选定的对比度。虽然显示的表格受到大小(250)的限制,但此图允许通过显示所有分析基因的P值分布,您可以看到“大局”。
缓和t-统计分位数(q-q)图 缓和t-统计分位数(q-q)图 绘制数据样本的分位数与学生的理论分位数t分布。此图有助于评估利马测试结果。理想情况下,点应沿直线,这意味着试验期间计算的慢化t统计量符合其理论预测分布。
均值-方差趋势 均值-方差趋势 此图用于检查表达式数据的均值-方差关系,在拟合线性模型之后。它可以帮助显示数据中是否存在大量变化。此图有助于评估是否应用精度权重选项来获取均值建议考虑趋势。在以下情况下,精确权重可提高测试结果的准确性目前存在较强的均值-方差趋势。打印不需要分组选择。每个点代表一个基因。红线是均值-方差趋势近似值,可以是(如果精确重量选项位于选项选项卡被选中)在差异基因表达分析中。蓝线是恒定方差近似值。无需选择样本组即可生成此图,只需单击分析在定义组之前。

教程视频

编辑选项和功能返回页首

选项

对P值进行调整: 利马设计2提供了几个P值调整选项。这些调整也称为多次试验修正,试图纠正假阳性结果的发生。这个Benjamini&Hochberg错误发现率方法默认情况下选择,因为它提供了良好的平衡在发现具有统计意义的基因和限制假阳性之间。如果要更改调整方法,请转到选项选项卡并选择另一种方法。下面提供了每种方法的参考。调整后的P值列在调整P值结果表的列。

应用对数2倍变化阈值:如果你只对log2倍变化较大的基因感兴趣,你可以在选项选项卡。默认设置为0。当您选择log2倍变化阈值时,只有log2倍改变值等于或的基因大于所选阈值的绝对值将在火山图、Mean-difference图和Venn图中显示为彩色点。例如,如果你选择log2倍变化阈值为3,那么只有log2倍改变的基因大于3或小于-3将分别被着色为红色或蓝色。当在中选择了对数2倍变化阈值时这个选项选项卡下载重要基因按钮只下载那些基因已超过log2倍更改阈值。

对数据应用日志转换:(仅限微阵列)GEO数据库接受各种数据值类型,包括日志和未标记的数据。利马期望数据值位于日志空间中。为了解决这个问题,GEO2R具有自动检测功能,可以检查并对确定不在日志空间中的值自动执行log2转换。或者,用户可以选择是的强制log2转换,或覆盖自动检测功能。自动检测功能仅考虑分配给组的采样值,并在中应用转换全能或全能的时尚。

应用极限精度权重(vooma):(仅限微阵列)这个沃马函数估计均值-方差关系,并使用该关系计算适当的观测级权重。

强制规范化:(仅限微阵列)此函数应用分位数归一化使所有选定的Samples具有相同的值分布。

要在结果上显示的平台注释类别:(仅限微阵列)选择要在结果上显示的注释类别。基因注释来自相应的平台记录。可以使用两种类型的注释:

NCBI生成注释可用于许多记录。这些注释是通过从平台中提取稳定的序列识别信息而得到的并定期查询Entrez Gene数据库,以生成一致的最新注释。默认情况下会选择基因符号和基因标题注释。其他类别NCBI生成注释包括GO术语和染色体位置信息。

提交人提供注释可用于所有记录。这些表示提交者提供的原始平台注释。请注意提交人提供注释并且自提交之日起可能尚未更新。

调整后的P值阈值:火山、MA和Venn曲线图突出了显著差异表达基因。默认的调整P值显著性水平截止值为0.05。您可以增加或减少通过输入介于0和1之间的新数字来切断显著性水平。

火山、马萨诸塞州和维恩对比:火山和MA图显示单个对比的数据(对比是指一个样本组与另一个样本群的对比)。因此,如果定义了2个以上的样本在分析中,会为每个对比生成一个单独的图。最多5个自定义对比度在火山图、MA图和Venn图上显示–对于5个以上可能对比度的研究,您可以更改使用下拉菜单进行对比度选择。

剖面图

此选项卡允许您查看特定的基因表达谱图。对于RNA-seq数据,从人类。GRCh38.p13.注释.tsv.gz注释文件。对于微阵列数据,使用对应的平台记录。图中的每个红条表示从这个TPM标准化表达计数(对于RNA-seq),或原始提交者提供的样本记录的值列(对于微阵列)。此功能不执行任何计算;它只显示基因的表达值跨样本。不需要定义示例组即可使用此功能。

R脚本

此选项卡打印用于执行计算的R脚本。可以保存这些信息,并将其用作计算结果的参考。

限制和警告返回页首

GEO数据库是一个公共存储库,可存档数千份原始文件科学界提交的高通量功能基因组研究。这些研究代表了多种实验类型和设计,并包含使用各种方法处理和规范化的数据。GEO2R可以访问和分析几乎任何GEO系列,无论数据类型和质量如何,因此,用户必须了解以下限制和注意事项。

结果可能与发布内容不匹配:RNA-seq数据可以使用许多不同的软件包、参数设置和过滤器进行处理以及由NCBI RNA-seq计数管道和GEO2R可能不匹配结果在随附出版物中。NCBI管道仅代表许多可能的处理之一方法。原始提交人可能使用了不同的程序来处理数据,这可能导致与NCBI管道生成的表达式结果有所不同。

缺少示例:缺失RNA-seq计数数据的原因包括运行未通过NCBI RNA-seq计数管道或处理失败技术原因。缺失微阵列值的原因包括提交人无法生成给定样本的数据。无论原因如何,没有计数的样本灰显,无法在示例表中选择进行比较。

检查样本值是否具有可比性: GEO提交者通常在同一研究中存放不止一种类型的序列数据(如RNA-seq和RIP-seq),这意味着即使在基质中,RNA计数也不能直接比较。其他时候,尽管样品是相同类型的,但它们可能仍然不用于比较。审查原始记录,以确定是否要比较研究中的所有样本直接。类似地,对于微阵列数据,GEO2R操作Series Matrix文件其中包含直接从示例表的VALUE列提取的数据。要求提交人在VALUE列中提供标准化数据,使样品具有交叉可比性。大多数GEO微阵列数据确实符合这一规则。GEO只对值执行log2转换,不进行其他处理确定不在日志空间中(请参阅选项部分)。然而,一些研究,如双通道环路设计数据,可能会产生没有共同参考,不具有直接可比性。一些研究可能包含未规范化的样本值数据,或设计为样品从未打算直接进行比较。然而,其他研究没有足够的重复样本来进行稳健的统计分析。用户应检查原始系列以了解实验设计,并检查原始Sample记录中的“Data processing”字段或VALUE描述,以了解值所代表的信息。无需选择样本组即可生成多个图,包括箱线图和表达式密度,只需单击分析在定义组之前。这些图可以帮助用户评估分布样本中的值被归一化并具有交叉可比性。

数据类型限制:(微阵列)GEO2R操作Series Matrix文件中的数据其中包含直接从示例表的VALUE列提取的数据。某些类别的GEO样本没有数据表(例如高通量测序或基因组平铺阵列),因此无法使用GEO2R进行分析。

对比度选择:当定义了两个以上的样本组时,GEO2R以圆形方式选择成对对比(例如,1对2;2对3,3对4)。因此,结果表中列出的差异表达最高的基因可能不是充分反映用户对所有可能成对对比的期望。

带串联限制:GEO2R操作Series Matrix文件。因此,分析仅限于一个系列中出现的样品;不可能执行跨系列比较。

失败的作业:有时,GEO2R分析会失败,因为输入数据的某些方面与不兼容地理查询,利马,或设计2包装。在这种情况下,会报告自然生物导体错误。

10分钟超时:GEO2R目前对作业处理规定了10分钟的截止时间。如果您试图分析的序列有大量样本和/或基因,分析可能无法完成。

更多信息和参考返回页首

摘要统计信息

RNA-seq:

GEO2R提供了以下由设计2.GEO2R使用比较两组样本的Wald检验和比较时的LRT(似然比检验)3组或更多组样品。

焊盘 多次测试调整后的P值。通常建议将此列作为主要列用来解释结果的统计数据。
p值 原始P值。
lfcSE公司 log2FoldChange估计值的标准误差(仅在定义了两组样本时可用)。
斯达 Wald统计(用于两组比较),或简化模型之间的偏差差异和完整模型(>2组比较)。
日志2折叠更改 两种实验条件之间的对数倍变化(仅在定义了两组样品时可用)。
baseMean(基本平均值) 所有采样的归一化计数的平均值。
微阵列:

GEO2R提供了由利马topTable函数。有关每个统计数据的更多信息,请参阅limma用户指南.

调整值 多次测试调整后的P值。通常建议将此列作为用来解释结果的主要统计数据。
P.价值 原始P值。
t吨 中等t-统计量(仅当定义了两组样本时可用)。
B类 基因差异表达的B-统计或对数(仅在定义了两组样本时可用)。
logFC(日志FC) 两种实验条件之间的对数倍变化(仅在定义了两组样品时可用)。
F类 适度F统计量将所有成对比较的t统计量合并为该基因的显著性总体检验(仅当定义了两组以上的样本时可用)。

一般参考文件

  • Love,M.I.,Huber,W.,Anders,S。利用DESeq2对RNA-seq数据的折叠变化和离散度进行适度估计。基因组生物学。2014;15(12):550.
  • Love,M.I.,Anders,S.,Huber,W。R文档:用DESeq2分析RNA-seq数据.
  • Smyth,G.K.(2004年)。用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。遗传学和分子生物学中的统计应用,第3卷,第1期,第3条。
  • Smyth,G.K.(2005)。Limma:微阵列数据的线性模型。In:使用R和Bioconductor的生物信息学和计算生物学解决方案,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,W.Huber(编辑),Springer,纽约,第397-420页。
  • Sean Davis和Paul S.Meltzer(2007年)。GEOquery:基因表达综合系统(GEO)和生物导体之间的桥梁。生物信息学23(14): 1846-1847
  • R文档:线性模型拟合的前几个基因表

调整测试参考

  • R文档:调整多重比较的P值
  • Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用而强大的多重测试方法。英国皇家统计学会学报B辑, 57, 289-300.
  • Benjamini,Y.和Yekutieli,D.(2001)。依赖下多重测试中错误发现率的控制。统计年刊29, 1165-1188.
  • Holm,S.(1979年)。一个简单的顺序拒绝多重测试程序。斯堪的纳维亚统计杂志, 6, 65-70.
  • Hommel,G.(1988)。基于改进的Bonferroni试验的分阶段拒绝多重试验程序。生物计量学, 75, 383-386.
  • Hochberg,Y.(1988)。用于多个重要测试的更清晰的Bonferroni程序。生物特征, 75, 800-803.
  • Shaffer,J.P.(1995年)。多重假设检验。心理学年鉴, 46, 561-576.
  • Sarkar,S.(1998年)。有序MTP2随机变量的一些概率不等式:Simes猜想的证明。统计年刊, 26, 494-504.
  • Sarkar,S.和Chang,C.K.(1997年)。具有正相关检验统计量的多重假设检验的Simes方法。美国统计协会杂志, 92, 1601-1608.
  • Wright,S.P.(1992)。同时推断的调整P值。生物计量学, 48, 1005-1013.

上次修改时间:2024年7月16日