摘要

动机:基于基因本体(GO)术语与选定基因列表中的基因关联的功能分析是有用的生物信息学工具GOstats公司包被广泛用于执行此类计算。在本文中,我们报告了显著的改进和扩展,例如支持条件测试。

结果:我们讨论了GOstats的功能,这是一个用R编写的Bioconductor软件包,它允许用户使用经典超几何测试或条件超几何测试来测试GO术语是否存在过度或欠分辨率,条件超几何使用GO术语之间的关系来解相关结果。

可利用性:GOstats作为生物导体项目的R包提供:作者网页

联系人: sfalcon@fhcrc网站

1简介

Bioconductor软件包2.0版GOstats公司在测试基因本体(GO)术语之间的关联方面有了实质性改进,请参阅GO联盟(2000年); 和一个给定的基因列表。我们已经实现了一个条件超几何测试,它使用GO项之间的关系,类似于Alexa公司. (2006),以解决由于GO的层次结构而产生的问题。还进行了许多其他实质性改进,使软件更易于使用,结果更具信息性。

在本文中,我们简要描述了构造测试函数输入所需的预处理步骤,然后介绍了所使用的算法以及返回值的结构。我们展示了GOstats公司使用微阵列数据集进行封装基亚雷蒂. (2004)来自急性淋巴细胞白血病(ALL)的临床试验。有关此数据集分析的更多详细信息,请参阅GOstats公司包装小品。

2个输入

要使用基于超几何的测试进行分析,需要定义一个“基因宇宙”(通常概念化为一个瓮中的球数)和从该宇宙中选择的基因列表。虽然很明显,选定的基因列表决定了分析结果,但宇宙对结论有很大影响的事实可能不太明显,对宇宙的正确描述也很重要。

对于微阵列数据,可以使用实验中分析的唯一基因标识符作为基因宇宙。然而,一些阵列,例如来自Affymetrix的阵列,试图包含尽可能多的基因组探针,并且通常包含对应于单个基因的多个探针。应该解决多探针问题,以便每个基因只表示一次。如果可以做出这样的决定,人们可能还想考虑减少宇宙以排除未表达的基因,因为可以提出反对在宇宙中保留无法选择的物体的论点。

下一步是确定宇宙中被认为有趣的子集。在许多应用中,这个集合是通过发现差异表达的基因来构建的。可以使用-测试,或接收器操作特性(ROC)曲线,或识别此类基因的大量方法中的任何一种。也可以使用其他方法来寻找有趣的基因集。

2.1非特定过滤

为了获得宇宙,我们通常使用以下程序。首先,我们使用四分位范围或类似统计数据估计样本之间的变异性。我们移除探针时,样本之间没有足够的可变性,以便提供信息;样本间变异性很小的探针本身就很无趣,因为它们没有区分能力。我们删除了缺少Entrez基因标识符或未映射到任何GO术语的探针。最后,当两个或多个探针映射到同一个Entrez基因ID时,我们通过选择IQR最大的探针来优化宇宙,以确保每个Entrez基因标识符恰好映射到一个探针。

有许多有效的非特定过滤方法,这些方法可能与上述过程大不相同。然而,重要的是要避免重复计算基因。在我们的方法中,基因由Entrez gene ID表示,因此我们必须确保每个Entrez基因ID最多由一个探针表示。

2.2参数

人们通常希望使用稍有不同的参数集执行许多类似的分析。超几何测试的主界面,超G测试,通过将单个参数对象作为其参数来促进这种使用模式。此参数是类的实例GOHyperG参数。使用参数类而不是单个参数可以更容易地组织和执行一系列相关分析。例如,可以创建一个GOHyperG参数实例,并使用R对每个实例执行超几何测试重叠地功能:

结果列表lapply(lisOfParamObjs,hyperGTest)

下面,我们通过指定基因列表、宇宙、注释数据包的名称和我们希望查询的GO本体来创建一个参数实例。对于示例分析,我们将构成基因世界的Entrez基因标识符的载体存储在entrezUniverse公司.选择的基因存储在所选条目ID。此外,用户可以指定P(P)-值截断,是否应使用条件超几何计算,以及测试是否应评估GO术语的过度或不足表达。

>hg切断0.001

>参数新(“GOHyperGParams”,

+  geneIds=selectedEntrezIds,

+   universeGeneIds=entrezUniverse,

+   注释=“hgu95av2”,本体=“BP”,

+    PvalueCutoff=hgCutoff,条件=FALSE,

+    测试方向=“超过”)

3 GOstats能力

在超几何模型中,每个术语都被视为一个独立的分类。每个基因都是根据它是否被选择以及它是否在特定的术语中被注释来分类的。计算超几何概率以评估与该术语相关的选定基因的数量是否大于预期。

这个超G测试该函数提供了一个常用超几何计算的实现,用于在指定的基因列表中对GO术语进行过重或欠重表示。此计算忽略GO项的结构,并将每个项视为独立于所有其他项。

通常,对GO术语关联的分析会导致识别出直接相关的GO术语,这些术语具有相当大的基因重叠。这是因为每个GO术语都从其更特定的后代继承所有注释。为了缓解这个问题,我们实现了一个方法,该方法对在指定的P(P)-价值截止。我们的方法与GO财团(2000)。给定三个GO本体之一的子图,我们测试图的叶子,即那些没有子项的项。在测试孩子已经被测试过的术语之前,我们从父母的基因列表中删除了所有标注在重要孩子身上的基因。这将一直持续到所有术语都经过测试。

4输出

这个超G测试函数返回类的实例GOHyperG结果。在R提示符处打印结果可简要总结所执行的测试以及发现的重要术语数量。

>hg超过超G测试(参数)

>条件(参数)真的

>hg电容器hyperGTest(参数)

>hg超过

基因转GO BP过度表达检测

1217个GO BP id测试(22个P<0.001)

所选基因集大小:582

   基因宇宙大小:2915

   注释包:hgu95av2

这个GOHyperG结果实例由返回超GTest包含P(P)-值、比值比、预期基因数和每个测试术语的实际基因数,以及每个术语注释的基因标识符矢量。还可以检索图表实例表示GO DAG以进行进一步计算。

所有结果组件都可以使用访问器函数进行编程访问(请参阅手册页GOHyperG结果类获取详细信息)。打电话总结结果产生一个数据帧总结结果,这些结果可以选择性地限制为用户指定的最小值P(P)-值和/或术语的最小基因计数。为了便于非技术用户查看结果,htmlReport函数生成一个可以在任何web浏览器中查看的HTML文件。htmlReport生成的输出如下所示作者网页

>htmlReport(hgCondOver,文件=ALL_hgco.html”)

我们感谢Tony Chiang提供的有用的错误报告,也感谢Wolfgang Huber建议将优势比添加到输出表中。

利益冲突:没有声明。

参考文献

Alexa公司
答:。
通过去相关GO图结构改进基因表达数据中功能群的评分
生物信息学
2006
,卷。 
22
(第
1600
-
1607
)
基亚雷蒂
美国。
成人T细胞急性淋巴细胞白血病的基因表达谱确定了对治疗和生存有不同反应的不同患者亚群
血液
2004
,卷。 
103
(第
2771
-
2778
)
GO财团
基因本体论:生物学统一的工具
自然遗传学
2000
,卷。 
25
(第
25
-
29
)

作者注释

副主编:Trey Ideker

这是一篇根据知识共享署名非商业许可条款分发的开放获取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。