跳到主要内容

FUNC:一个检测基因集和本体注释之间重要关联的软件包

摘要

背景

全基因组表达、序列和关联研究通常会产生大量候选基因,必须对其进行进一步分析和解释。关于这些基因的信息越来越多地被捕获并组织在本体论中,例如基因本体论。通过实验方法确定的基因集和生物学知识之间的关系可以明确,并用于解释结果。然而,由于同时测试了许多相互依赖的类别,因此通常很难评估此类分析的统计显著性。

结果

我们开发了程序包FUNC,其中包括并扩展了当前可用的方法,以识别基因集和本体注释之间的重要关联。实现了几个测试,特别是非常适合全基因组序列比较、家族错误率估计、错误发现率、结果全局显著性的敏感估计以及降低结果复杂性的算法。

结论

FUNC是全基因组数据分析的一个通用且有用的工具。它在GPL许可下免费提供,也可以通过web服务访问。

背景

高通量基因组技术正在给生物学和医学带来革命性的变革,并为我们分析和解释这些大量数据的方式带来了新的挑战。为此,有必要将获得的知识集成到灵活的数据结构中,基因本体(GO)联盟通过使用受控词汇描述基因的属性并用有向无环图表示它们,将基因分类,从而为这一挑战提供了广泛使用的解决方案[1]. 因此,在这些功能注释的背景下,研究大规模基因表达数据的方法数量激增。大多数这些方法的基本原理是,与参考集相比,在选定的一组基因中识别特定基因注释的丰富性,例如,与微阵列上的所有其他基因相比,某些注释类别中差异表达的基因的丰富性。例如,使用基于超几何或二项式分布的测试、Fisher精确测试或chi-square测试来测试富集的重要性。各种计划都实施了这种方法(例如[2——7]). Ben-Shaw和其他人认为,在许多情况下,“差异表达”和“非差异表达”基因之间的这种离散区分是任意的,可能会降低研究确定丰富类别的能力(例如[8]). 因此,有人提出了一种方法,即使用选择度量来对基因进行排序,然后使用基于等级的测试,如Wilcoxon等级测试或Kolmogorov-Smirnov测试,来测试属于某一类别的基因与不属于该类别的基因在等级上是否存在差异(例如[8]). 在这两种情况下——基于等级的分类或离散分类——独立于用于定义单个类别重要性的统计数据,需要对此类分析中执行的大量测试进行纠正。这是一项具有挑战性的任务,因为测试的类别具有高度的相互依赖性:单个基因通常在许多类别中被注释,而类别包含其他类别。校正的一种方法是计算家庭错误率(FWER),即估计标记为显著的类别中至少存在一个误报类别的概率。存在使用简单Bonferroni校正或其他更强大的FWER校正程序的应用程序[9——11]. 然而,有人指出,在许多基因组应用中,控制FWER可能过于保守,而测定错误发现率(FDR)可能更有用[12]也就是说,在所有重要特征中误报的比例,因为在这些情况下,可以很容易地容忍已知比例的误报,以增加功率(参见示例[13]有关概述)。已经提出了几种估算FDR的方法(参见示例[14,15])有些已经集成在各种功能分析应用程序中(例如[5,9,16——21]). 许多方法都依赖排列来估计FWER或FDR,因为注释的依赖性和结构使得很难找到同样的分析方法[22]. 通常基因列表是排列的,尽管有些方法也允许样本标签的排列[16,20,21,23],这不仅可以校正类别之间的依赖性,还可以校正基因之间的依赖[23].

在本文中,我们介绍了名为FUNC的程序包,它包括并扩展了上述方法:它允许根据要分析的数据类型在四种不同类型的测试中进行选择(另请参见表1):(i)基于超几何分布的检验,用于分析二元关联变量(例如,差异表达,而非差异表达),(ii)连续关联变量的Wilcoxon秩检验(例如,被差异表达的概率),(iii)二项检验用于比较每个基因的两个计数比率(例如,人类氨基酸变化与黑猩猩氨基酸变化)和(iv)适用于McDonald Kreitman型检验的2×2表检验,以从两种类型位点的差异和多态性数据推断基因选择,编码序列中相似的同义和非同义位点[24]. 后两种方法以前在任何GO统计分析应用程序中都没有实现,对于分析全基因组DNA序列应该特别有用。在FUNC中实施的这些方法已经用于黑猩猩基因组序列的分析[25]. FUNC还使用基因排列来计算每个类别,即每个p值截止值、FWER和FDR估计值。此外,FUNC还提供了一个全局测试统计数据来衡量完整数据集的重要性,这一点迄今为止尚未在其他程序中实现。全局测试统计测试函数注释的完整分布是否与随机分布不同,这样可以确定数据集的总体重要性。FUNC中实现的另一种方法是通过消除标记为重要的无关类别来细化结果。有些类别之所以重要,完全是因为它们的子树包含重要的类别。因此,它们的重要性不提供其后代类别以外的其他信息,将它们从重要类别列表中排除有助于解释和表示结果。总之,FUNC为分析各种基因组数据背景下的注释提供了一个有用且敏感的工具。

表1四类试验的特性

实施

概述

FUNC是一组由四个命令行工具组成的工具,允许根据注释分析一组基因(见图1有关示意图概述)。当分析由基因本体联盟提供的本体注释时,它特别有用[1]或eVOC[26],但可以轻松适应任何其他注释。每个命令行工具都对特定类型的输入数据执行特定的统计测试。用户可以选择要在其上执行测试的本体或本体子树,并将测试类别限制为包含一些最小数量的基因的类别。对于本体中的每个类别,对使用的工具进行统计测试,得出该类别的“原始p值”。由于对许多类别进行了测试,并且测试以一种复杂的方式相互依赖,FUNC将测试结果与随机数据集的结果进行了比较,在随机数据集中,基因相关变量被排列。这说明了零假设,即相关变量和基因注释之间存在独立性。这些随机集用于计算每个类别,即每个原始p值截止值、两个校正的p值:基于重采样的错误发现率(FDR)[27]以及家庭错误率(FWER)[28]. FDR是对原始p值等于或低于给定类别的所有类别中误报类别所占比例的估计。FWER是在原始p值等于或低于给定类别的所有类别中至少存在一个假阳性类别的估计概率。此外,FUNC将随机集的原始p值分布与数据集的原始p值分布进行比较,以获得总体显著性p值——一种针对单一零假设的Kolmogorov-Smirnov型检验,该假设表明基因相关变量在所有类别中随机分布。这种全局测试统计很有用,因为即使弱信号分布在多个类别中,它也会很敏感。总体显著性值可用于确定数据集的分布是否与随机分布完全不同。如果是这样的话,那么可以选择一个FDR来决定哪些类别的偏差较大。该程序可能比预先选择FDR或FWER显著性水平或事后更改它们更可取。

图1
图1

FUNC示意图概述。有关说明,请参阅正文。

FUNC的输出是上述统计数据的汇总,以及列出分析类别和相关原始和校正p值的表格。在选择理想的p值截止值后,用户可以运行求精算法来识别那些提供最简明信息的重要类别,即识别那些其重要性不完全取决于重要后代类别的类别。

类别测试

四种FUNC工具中的每一种都是为一种可能的类别测试设计的:超几何测试、Wilcoxon秩次测试、二项式测试和2×2测试(表1). 对于每个测试,计算测试统计两侧的两个p值,这允许检测类别中基因相关变量的富集或缺失。有关所用算法的详细说明,请参阅附录。简单地说,超几何检验采用与每个基因相关联的二元变量(例如“0”和“1”)(例如“1”表示差异表达,“0”表示相等表达),并使用超几何分布计算每个类别“得出”这个多个或多个(分别是这个多或更少)的概率不同表达的基因来自用户选择的子树的顶级类别。

Wilcoxon秩检验与该方案的不同之处在于,它采用浮点变量而不是二进制变量,并将测试类别中的基因秩与顶级类别中其余基因的秩进行比较。当无法将基因明确划分为两个不同的类别时,这种测试很有用,这在微阵列实验中经常会出现。这种测试以前也被用于人类和黑猩猩基因组的比较,以确定GO类别,其中包含过多快速或缓慢进化的基因[25].

超几何和Wilcoxon秩检验比较了一个基因相关变量在类别间的分布,而“二项式检验”比较了两个基因相关计数在类别之间的比率。每个基因都与两个计数相关,测试确定一个类别中这些计数的比率是否与顶级类别中的比率显著不同。二项式检验被用于确定人类血统中氨基酸变化较多的类别(与黑猩猩血统中的变化数量相比),以及确定人类和黑猩猩之间氨基酸变化多于小鼠和大鼠之间氨基酸变化的类别[25](另请参见下面的示例)。当比较表达序列标签的计数时,该测试也可能有用,例如从两个SAGE(基因表达序列分析)库中[29].

第四项测试采用一个2×2的表作为相关的基因变量,对每个类别的基因变量进行求和,并使用Fisher精确测试或X平方测试(如果测试类别中的所有值都大于10)来测试这两个属性(行和列中,每一个都处于两个状态)是否相互独立。请注意,与其他三个测试相比,计算的p值并不取决于顶级类别的期望值。此测试对进行麦当劳-克莱特曼型测试很有用[24]关于GO类别。McDonald-Kreitman型测试比较了两类位点(例如同义和非同义位点)的固定替换数和多态性数。过量的固定非同义替换可以表明正选择的作用,而过量的非同义多态性可以表明存在轻微有害的氨基酸变体(有关综述,请参阅[30]). FUNC中实施的2×2列联表测试计算了两个单独的p值,分别测试非同义替换的过量和非同义多态性的过量[参见附加文件1]. 人类和其他物种多态性的大规模(且基本上无偏见)全基因组测量的可用性,以及关于替代的现有数据,应使该测试在不久的将来非常有用。

重要的是要记住,对于所有四种测试,不同类别拒绝无效假设的能力不同,因为类别在基因数量和/或基因相关计数数量上不同。因此,规模效应最大的类别不一定是最重要的类别,反之亦然(另请参阅[31]并回复)。还要注意,对于二项检验和2×2列联表检验,FUNC检验的无效假设是基因而非基因相关计数是类别中的随机样本。因此,这两个测试的原始p值应被视为更像是一个任意的测试统计,与通过排列基因而非单个基因计数获得的p值的分布相比较(另请参见下面的示例)。

多次测试修正

当同时测试多个假设时,即使所有的零假设都成立,预计数字也会显著。因此,为了自信地拒绝一些无效假设,有必要对多次测试进行修正。近年来,大规模基因组实验的类型,特别是微阵列,重新引起了人们对处理多重测试问题的不同统计方法的兴趣(例如[13,15]). 这个问题有点复杂,因为(1)测试以一种复杂的方式相互依存,(2)每个测试的能力通常很低,(3)不止一个被测试的假设通常真的不为零,(4)被拒绝的假设可以被视为附加测试的候选,因此,对于权力的增加,可以容忍较不保守的显著性水平。所有这些问题都与这里描述的上下文相关,特别是测试的复杂相互依赖性。为了克服相互依赖性,我们选择使用排列,即基因相关变量的随机化,以便在基因相关变量独立于基因注释的无效假设下建模分布。这种排列数据,即随机集,可用于估计系列错误率,即在宣布为重要的测试中,一个或多个测试为假阳性的概率[28]. 该方法比保守的Bonferroni校正更强大,并且在GO分析程序的背景下,已在FuncAssociate中实现[10]并在FUNC中实现。对于上述四种测试中的任何一种,可以计算出FWER为例如5%的原始p值截止值。然而,这种方法非常严格,在显著标记的测试中,通常可以容忍一定比例(已知)的假阳性,以提高功率。这就是为什么错误发现率(FDR)在基因组群体中广受欢迎的原因。FDR(松散地)定义为所有被拒绝的假设中被错误拒绝的假设的预期比例。存在不同的方法来估计FDR,不同的是他们如何处理没有假设被拒绝的情况,以及他们如何估计被错误拒绝的假设的数量(参见例如[14,15,32]用于讨论)。一些分析函数注释的程序已经实现了FDR方法(例如[5,9,16——21])通常使用本杰米尼和霍奇伯格的程序[12]. 在FUNC中,我们由Yekueteli和Benjamini实现了一种类似的方法,非常适合重采样方法[27]. 尽管已经表明,该方法在测试之间的正相关性下也能很好地工作[33]并且可以在不同类型的依赖性下使用简单(保守)的校正方法[33],尚不完全清楚它是否适合于功能注释之间存在的那种强依赖性。此外,值得注意的是,当前计算FDR的方法仅在子集枢轴性假设下严格有效,即假设一项测试的重要性不取决于另一项测试。然而,超几何检验、Wilcoxon秩和检验和二项式检验违反了这一假设,因为每个类别的期望值都来自顶级类别,其中包括其他测试类别。因此,如果一个或多个类别确实偏离了零假设,这将影响其他类别的零期望。然而,通常没有合理的替代方案来独立估计期望值。实际上,所有这些问题都与与随机函数注释有很大偏差的数据集无关。但对于信号较弱的数据集,FDR可能不适合作为一种很好的测量方法来确定基因相关变量在功能类别之间是否存在任何(或没有)非随机分布的迹象。因此,除了估计数据集的FDR和FWER率外,我们还开发了一种方法来直接检验“全局零假设”,即基因相关变量在类别中随机分布。

测试全局零假设

如上所述,当偏差强度可能较弱时,在开始找出哪些类别与其他类别的偏差之前,测试数据是否显示出与随机分布的偏差是有用的。为此,我们计算了一个p值来检验基因相关变量在所有类别中随机分布的无效假设。这是通过查看0到0.05之间的原始p值的所有可能的截取,并为每个截取计算随机集的比例,这些随机集具有相同或更多的类别,显示出如此多或更少的原始p值。然后,以与Kolmogorov-Smirnov检验类似的方式,我们找到了与随机集的偏差最大的截止值。然后我们对每一个随机集进行相同的测试(找到距离最大的截止点)。然后,通过计算具有相同或更大最大距离的随机集的比例来确定总p值(参见附加文件1和图2). 如果该p值较低(例如小于0.05),则可以拒绝基因相关变量独立于其功能注释分布的无效假设。

图2
图2

说明如何计算全局p值在左侧((a)和(c)),数据集(红线)和随机集(黑线或灰线)显示了0到0.05之间的累积p值分布。对于每个分布,确定其最大秩,并将数据集的最大秩(红色箭头)与随机集的最大秩进行比较((b)和(d))。上面的两个面板用三个随机集例证了这一原理,下面的两个窗格显示了对灵长类动物中过量氨基酸变化的本体分子功能进行测试的结果(参见结果和讨论)。

当信号较弱和/或分布在多个类别中且比FDR估计更敏感时,这种测量方法应该特别有用(参见下面的示例)。罗斯福可以用一个人愿意浪费多少钱的类比来解释。测试全球零假设可以首先确定是否值得花任何钱,然后可以使用FDR来估计一个人愿意浪费多少钱。

精炼

一旦人们确信存在显示基因相关变量富集或缺失的类别,并且在基于特定FDR或FWER选择合适的原始p值作为截止值后,尽可能准确地指定偏差是有用的。这意味着人们只想排除重要的类别,因为它们包含重要的后代类别。细化算法从叶子开始(即最具体的注释),递归删除在重要后代类别中注释的基因,并再次测试重要父类别中的其余基因(图). 这样,所有重要类别的列表可以限制为最具体的类别,从而使结果更易于解释和管理。此算法类似于埃利姆最近提出的算法[34]. 然而,与埃利姆或相关人员重量算法[34]我们将细化的结果解释为事后(post-hoc)测试。考虑一个假设的例子,其中基因相关变量在碳水化合物代谢类别中显著过度表达,这是由于糖酵解和三羧酸循环这两个后代类别中的过度表达所致。不管怎样,在碳水化合物代谢中注释的基因在数据集中的代表性都很高。糖酵解和三羧酸循环中注释的基因过度表达只是更具体的说法。我们发现区分重要类别和最具体的重要类别是有帮助和透明的,因此将这两种分析分开是有用的。

图3
图3

细化算法说明(a)在精炼之前,四个组被标记为含有基因1-4的显著组(红色)。(b) 在树的最深处,重要类别仍然重要(橙色)。在下一级,在删除重要后代类别(蓝色框)中的所有基因后,测试重要类别(箭头)。在本例中,类别仍然重要。(c) 对下一级的类别(箭头)重复此过程,并再次删除重要后代类别(蓝色框)中的所有基因。在本例中,经过细化后,类别不再重要。

结果和讨论

为了证明FUNC的有用性,我们分析了7034个同源基因的数据集,并对人类、黑猩猩、小鼠和大鼠进行了比较[25]. 我们询问啮齿动物或灵长类动物中是否有GO类进化速度快于预期。为此,我们添加了小鼠和大鼠(啮齿动物)以及人类和黑猩猩(灵长类动物)之间特定基因的氨基酸变化数量,并进行了上述二项式检验[参见附加文件2]. 这个过程将一个类别中的所有基因基本上作为一个基因来处理。注意,该测试的p值只是名义值,因为它假定氨基酸替代之间是独立的,但FUNC计算的全局p值、FWER和FDR是基于基因间的排列,因此控制了基因内氨基酸替代的依赖性。为了简单起见,我们将这里的分析局限于本体分子函数的结果。

在7043个基因中,4303个基因在本体分子功能中有注释(表2). 二项式检验是双向的,即对于每一类,它测试灵长类动物是否有更多的氨基酸变化,以及啮齿动物是否有更大的氨基酸变化。期望值由本体分子功能中注释的所有基因的氨基酸变化比率给出。啮齿动物和灵长类动物的整体p值分别为0.0019和0.0008,因为在进行的10000个排列中,分别只有19组和8组的最大p值等级等于或高于数据集(图。2). 这表明存在类别,灵长类动物进化速度快于啮齿动物,啮齿动物进化速度慢于灵长类。这并不是因为不同类别的啮齿动物和灵长类动物的突变率不同,因为在相应的测试中,沉默部位的变化并没有显示出如此显著的分组(数据未显示)。有趣的是,灵长类进化速度较快的类别中,没有一个类别的FDR或FWER估计值低于0.05,这说明全局p值在检测是否偏离原假设方面比单个类别的FDR-FWER估算值更敏感。当FDR阈值为0.2时,灵长类动物的38个类别进化速度更快。为了获得具有最具体注释的类别,我们在相应的原始p值处运行了求精算法,从而得到13个类别(表2). 这些类别在灵长类动物中的进化速度可能更快,因为它们在灵长目动物中经历了比啮齿动物更多的积极选择,或者因为它们在啮齿动物中进化时受到的约束比灵长类少(参见[25]用于讨论)。嗅觉受体,也在这里确定(表2),被认为是在灵长类动物比啮齿类动物更少的约束下进化的,因为灵长类中发现的假基因比例更高[35]这表明,更敏感的全球检验统计在分析的示例中确定了生物相关类别。

表2人类和黑猩猩快速进化的类别

结论

我们提供了软件包FUNC,它增强了研究人员将其数据与通常以本体形式提供的基因注释关联起来的能力。FUNC目前有两个主要缺点。首先,它没有提供任何结果的图形表示,例如GOMiner提供的结果[36]. 其次,它不允许简单地排列样本关联变量而不是基因关联变量。这在某些情况下是有用的[23]并已由一些程序实现[16,20,23]. 然而,尽管有这两个缺点,FUNC与现有工具相比仍有相当大的优势:它集成了四种适合分析基因表达数据和DNA序列数据的测试,其中两种测试(两个基因相关计数的二项式测试和四个基因相关数的2×2列联表测试)未在其他GO分析程序中实现。FUNC还提供了两种已建立的多重校正方法(FDR和FWER)以及一种新的总体显著性估计,特别适用于弱信号数据。此外,实现的细化算法是一种有用且透明的方法,用于从重要GO类别列表中提取最具体的生物信息。最后,FUNC是UNIX/GNU Linux平台上一个文档丰富的独立工具,也可以通过web服务进行访问,这使得它的使用比许多其他可用的GO分析工具更加灵活。因此,FUNC提供了灵活、统计严谨和新颖的工具来分析各种全基因组数据的功能注释。

可用性和要求

项目名称:FUNC公司

项目主页: 网址:http://func.eva.mpg.de

操作系统:Unix/GNU Linux

编程语言:C++、Perl、bash

其他要求:R数学库(libRmath)

许可证:GNU GPL 2.0版

工具书类

  1. 基因本体:生物统一的工具。基因本体联盟。《自然遗传学》2000,25(1):25-29。10.1038/75556

    第条 公共医学中心 谷歌学者 

  2. Draghici S、Khatri P、Martins RP、Ostermeier GC、Krawetz SA:基因表达的全球功能分析。基因组学2003,81(2):98–104。10.1016/S0888-7543(02)00021-6

    第条 计算机辅助系统 公共医学 谷歌学者 

  3. Young A、Whitehouse N、Cho J、Shaw C:OntologyTraverser:GO分析的R包。生物信息学2005,21(2):275-276。10.1093/生物信息学/bth495

    第条 计算机辅助系统 公共医学 谷歌学者 

  4. Pandey R,Guru RK,Mount DW:Pathway Miner:从分子通路中提取基因关联网络,用于预测基因表达微阵列数据的生物学意义。生物信息学2004,20(13):2156–2158。10.1093/生物信息学/bth215

    第条 计算机辅助系统 公共医学 谷歌学者 

  5. Beissbarth T,Speed TP:GOstat:在一组基因中发现统计上表现过度的基因本体。生物信息学2004,20(9):1464–1465。10.1093/生物信息学/bth088

    第条 计算机辅助系统 公共医学 谷歌学者 

  6. Masseroli M,Martucci D,Pinciroli F:GFINDer:通过动态注释、统计分析和挖掘的基因组功能整合发现者。核酸研究2004,32(Web服务器版):W293–300。

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  7. Zhang B,Schmoyer D,Kirov S,Snoddy J:GOTree Machine(GOTM):一个使用基因本体层次结构解释有趣基因集的网络平台。BMC生物信息学2004,5:16。10.1186/1471-2105-5-16

    第条 公共医学中心 公共医学 谷歌学者 

  8. Ben-Shaul Y,Bergman H,Soreq H:使用基因表达的连续测量来识别功能基因类别中细微的相关变化。生物信息学2005,21(7):1129–1137。10.1093/生物信息学/bti149

    第条 计算机辅助系统 公共医学 谷歌学者 

  9. Al-Shahrour F,Diaz-Uriarte R,Dopazo J:FatiGO:一个用于发现基因本体术语与基因组之间重要关联的网络工具。生物信息学2004,20(4):578–580。10.1093/生物信息学/btg455

    第条 计算机辅助系统 公共医学 谷歌学者 

  10. Berriz GF、King OD、Bryant B、Sander C、Roth FP:用FuncAssociate表征基因集。生物信息学2003,19(18):2502–2504。10.1093/生物信息学/btg363

    第条 计算机辅助系统 公共医学 谷歌学者 

  11. Castillo-Davis CI,Hartl DL:GeneMerge——后基因组分析、数据挖掘和假设检验。生物信息学2003,19(7):891–892。10.1093/生物信息学/btg114

    第条 计算机辅助系统 公共医学 谷歌学者 

  12. Benjamini Y,Hochberg Y:控制错误发现率:一种实用且强大的多重测试方法。J R Statist Soc B 1995,57(1):289–300。

    谷歌学者 

  13. Manly KF、Nettleton D、Hwang JT:基因组学、先验概率和多重假设的统计检验。《基因组研究》2004,14(6):997–1001。10.1101/gr.2156804

    第条 计算机辅助系统 公共医学 谷歌学者 

  14. Reiner A,Yekutieli D,Benjamini Y:使用错误发现率控制程序识别差异表达基因。生物信息学2003,19(3):368–375。10.1093/生物信息学/btf877

    第条 计算机辅助系统 公共医学 谷歌学者 

  15. Ge YC,Dudoit S,Speed TP:微阵列数据分析的基于重采样的多重测试。测试2003,12(1):1–77。

    第条 谷歌学者 

  16. Barry WT、Nobel AB、Wright FA:基因表达研究中功能类别的显著性分析:结构化排列方法。生物信息学2005,21(9):1943-1949。10.1093/生物信息学/bti260

    第条 计算机辅助系统 公共医学 谷歌学者 

  17. Mootha VK、Lindgren CM、Eriksson KF、Subramanian A、Sihag S、Lehar J、Puigserver P、Carlsson E、Ridderstrale M、Laurila E、Houstis N、Daly MJ、Patterson N、Mesirov JP、Golub TR、Tamayo P、Spiegelman B、Lander ES、Hirschorn JN、Altshuler D、,Groop LC:参与氧化磷酸化的PGC-1alpha应答基因在人类糖尿病中协调下调。《自然遗传学》2003,34(3):267–273。1038/ng1180年10月10日

    第条 计算机辅助系统 公共医学 谷歌学者 

  18. Volinia S、Evangelisti R、Francioso F、Arcelli D、Carella M、Gasparini P:目标:表达谱的自动化基因本体分析。核酸研究2004,32(Web服务器版):W492-9。

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  19. Zeeberg BR、Qin H、Narasimhan S、Sunshine M、Cao H、Kane DW、Reimers M、Stephens R、Bryant D、Burt SK、Elnekave E、Hari DM、Wynn TA、Cunningham-Rundles C、Stewart DM、Nelson D、Weinstein JN:High-Throughput GoMiner,一种用于解释多微阵列实验的“工业实力”综合基因本体工具,并应用于常见可变免疫缺陷(CVID)的研究。BMC生物信息学2005,6(1):168。10.1186/1471-2105-6-168

    第条 公共医学中心 公共医学 谷歌学者 

  20. Subramanian A、Tamayo P、Mootha VK、Mukherjee S、Ebert BL、Gillette MA、Paulovich AP、Pomeroy SL、Golub TR、Lander ES、Mesirov J:基因集富集分析:解释全基因组表达谱的基于知识的方法。美国国家科学院院刊2005,102(43):15545–15550。10.1073/pnas.0506580102

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  21. Tian L、Greenberg SA、Kong SW、Altschuler J、Kohane IS、Park PJ:在表达谱研究中发现具有统计意义的途径。美国国家科学院院刊2005,102(38):13544–13549。10.1073/pnas.0506577102

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  22. Osier MV,Zhao H,Cheung KH:使用基因本体数据库解释微阵列时处理多重测试。BMC生物信息学2004,5:124。10.1186/1471-2105-5-124

    第条 公共医学中心 公共医学 谷歌学者 

  23. Breslin T,Eden P,Krogh M:功能注释分析与Catmap的比较。BMC生物信息学2004,5(1):193。10.1186/1471-2105-5-193

    第条 公共医学中心 公共医学 谷歌学者 

  24. McDonald JH,Kreitman M:果蝇Adh基因座的适应性蛋白质进化。《自然》1991,351(6328):652–654。10.1038/351652a0

    第条 计算机辅助系统 公共医学 谷歌学者 

  25. Chimpanzee_Sequenting_and_Analysis_Consortium:黑猩猩基因组的初始序列以及与人类基因组的比较。《自然》2005,437(7055):69–87。10.1038/自然04072

    第条 谷歌学者 

  26. Kelso J、Visagie J、Theiler G、Christoffels A、Bardien S、Smedley D、Otgaar D、Greyling G、Jongeel CV、McCarthy MI、Hide T、Hide W:eVOC:统一基因表达数据的受控词汇。《基因组研究》2003,13(6A):1222-1230。10.1101/克.985203

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  27. Yekutieli D,Benjamini Y:基于重采样的错误发现率,用于控制相关测试统计的多个测试程序。《统计计划参考》1999年,82(1-2):171-196。10.1016/S0378-3758(99)00041-5

    第条 谷歌学者 

  28. Westfall PH,Young SS:基于重新采样的多重测试:p值调整的示例和方法。纽约,John Wiley&Sons,Inc。;1993

    谷歌学者 

  29. Velculescu VE,Zhang L,Vogelstein B,Kinzler KW:基因表达的系列分析。《科学》1995,270(5235):484–487。10.1126/科学.270.5235.484

    第条 计算机辅助系统 公共医学 谷歌学者 

  30. Fay JC,Wu CI:蛋白质进化中的序列差异、功能约束和选择。《基因组学与人类遗传学年鉴》2003,4:213-235。10.1146/anurev.genom.4020303.162528

    第条 计算机辅助系统 公共医学 谷歌学者 

  31. Damian D、Gorfine M:关于GSEA程序的统计问题。《自然遗传学》2004,36(7):663;作者回复663。10.1038/ng0704-663a

    第条 公共医学 谷歌学者 

  32. Hsueh H,Chen JJ,Kodell RL:多元性检验中真零假设数量估算方法的比较。生物医药统计杂志2003,13(4):675–689。10.1081/BIP-120024202

    第条 公共医学 谷歌学者 

  33. Benjamini Y,Yekutieli D:依赖性下多重测试中错误发现率的控制。Ann Stat 2001,29:1165–1188。10.1214/aos/1013699998

    第条 谷歌学者 

  34. Alexa A,Rahnenfuhrer J,Lengauer T:通过去相关GO图结构改进基因表达数据中功能组的评分。生物信息学2006,22(13):1600-1607。10.1093/生物信息学/btl140

    第条 计算机辅助系统 公共医学 谷歌学者 

  35. Gilad Y,Man O,Paabo S,Lancet D:人类特异性嗅觉受体基因缺失。美国国家科学院院刊2003,100(6):3324–3327。10.1073/pnas.0535697100

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  36. Zeeberg BR、Feng W、Wang G、Wang MD、Fojo AT、Sunshine M、Narasimhan S、Kane DW、Reinhold WC、Lababidi S、Bussey KJ、Riss J、Barrett JC、Weinstein JN:GoMiner:基因组和蛋白质组数据的生物解释资源。《基因组生物学》2003,4(4):R28。10.1186/gb-2003-4-4-r28

    第条 公共医学中心 公共医学 谷歌学者 

下载参考资料

致谢

我们非常感谢Janet Kelso对手稿的评论。这项工作得到了联邦教育部、马克斯·普朗克学会、欧盟委员会第六个新兴科学技术框架计划(PKB140404)和德国Forschungsgemeinschaft的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信凯·普吕弗.

其他信息

作者的贡献

KP开发并编写了该软件,BM、HHD、GW和PK促成并构思了该软件的早期版本,ER和SP提供了资源,ML构思了统计分析,WE构思了研究并编写了手稿。所有作者都阅读并批准了手稿。

电子补充材料

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用本文

普吕弗,K.,穆泽尔,B.,Do,HH。等。FUNC:用于检测基因集和本体注释之间的重要关联的软件包。BMC生物信息学 8, 41 (2007). https://doi.org/10.1186/1471-2105-8-41

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-8-41

关键词