双面Fisher精确测试第页-类别的值反映了对无效假设的检验,即相对于仅凭偶然性就可以预期的结果,类别既没有丰富标记的基因,也没有耗尽标记的基因。也就是说,它反映了无效假设,即对于每个类别,属于该类别的标记基因的比例与不属于该类的标记基因比例之间没有差异。这两组基因是相互排斥的,正如费舍尔精确测试所要求的那样。请注意,无效假设的谓词不包括“属于其余类别联合的标记基因”。该谓词不能确保互斥性。统计问题可以用经典的2×2列联表(表1).
无效假设可以表述为:
H(H)0:第页1-第页2= 0,
哪里第页1=n个(f)/n个和第页2= (N个(f)-n个(f))/(N个-n个). 双面第页-Fisher精确检验的值是观察表的概率总和,这些观察表给出的极值至少与实际观察到的值相同,前提是零假设为真[23–25]. 使用Fisher精确检验意味着我们是以固定的边际总和为条件的(n个,N个-n个,N个(f),N个-N个(f))在零假设下。有关固定边际值含义的讨论,请参见示例[23–25].
请注意,2×2表不需要任何关于层次结构拓扑结构的信息,也不需要关于除测试所应用的类别之外的任何类别中包含多少基因的信息。我们使用了双面测试,它检测到两个方向的比例存在显著差异(即,当类别中标记基因的比例高于或低于随机概率的预期时)。显然,类似于此处用于所有标记基因的计算也可以用于分别测试欠表达和过表达基因的等效零假设。与具有超几何分布的Z统计量以及基于它的测试不同,Fisher的精确测试甚至适用于包含少量基因的类别。我们的Fisher精确测试的Java实现基于Øyvind Langsrud的Javascript[26].
应记住此统计公式的以下局限性,以及第页-应该明智地解释价值观。
随机实验和分类错误
统计模型不包括GO中基因分类的实验误差和任何不确定性。也许,如果有足够的关于这些误差源的信息(我们基本上从来没有),它们可以被包括在统计模型中,例如通过重新采样技术。
基因表征偏差
微阵列基因集(或来自其他类型基因组或蛋白质组实验的基因集)通常是所有基因的有偏见的表示。因此,根据所研究的基因定义的必要性,富集和耗尽在生物学意义上也可能有偏差。另一种方法是用基因组(或代表性样本)中的总基因集列表替换微阵列上的总基因组列表,但这种方法引入了另一个偏差来源:在确定N个和n个但没有机会被标记。
GO联合体数据库对人类基因关联的偏见
GO财团[1]提供了一组平面文件,用于指示几个物种的基因名称和GO类别之间的关联[27]. 尽管人类的平面文件非常全面,但我们发现使用GO Consortium下载的MySQL脚本文件创建的数据库对人类基因进行GO注释的命中率很低[28]. 当基因名称以HUGO名称的格式使用和基因名称以“HUGO_HUMAN”的格式使用时,命中率都很低我们尝试了后一种格式,因为平面文件通常包含附加在人类基因名称后面的“_HUMAN”。相反,当我们结合使用鼠标(MGI)和老鼠(RGD)关联文件时,点击次数是合理的。因此,我们现在经常使用鼠标和大鼠注释来获取人类数据。我们目前正在增强GO Consortium数据库中的人类关联,以提供更丰富的人类基因名称注释。这一目标将通过使用MatchMiner数据库来整合GO Consortium数据库中的信息来实现[27]以及Swiss-Prot、TrEMBL和TrEMBL-新数据库[29]GoMiner将在近期内为人类数据实现该数据库。MySQL脚本文件将免费提供,并且应该比程序开发人员和最终用户当前可用的脚本文件有所改进。
基因数据的非依赖性
一个类别中的基因表达值可能因以下任何原因而相互关联。它们可能代表相同的基因、具有相似功能的亲密家族成员、相同途径中的基因或执行生物功能的替代途径中的遗传基因。GO中的基因分类可能因类似原因而相关。这种关系如何影响统计数据?答案最容易通过想象一个类别只包含五个相同基因的实例来理解(可能是因为使用了五个不同的标识符,而没有被识别为代表同一基因)。这一类别可能表现为显著丰富(五分之五的基因被标记)或显著枯竭(五分之一的基因没有被标记)。但适当的价值n个在这些情况下,确定统计显著性将是1,而不是5。GoMiner的配套程序MatchMiner[30,31]通过识别相同基因的复制品来处理这个问题,即使它们由不同的标识符表示。
除了“同基因”之外,其他可能的相关性来源又如何?我们也想取消复制它们吗?一般来说,答案是“不”。同一途径中的基因相关性正是我们经常试图识别的现象。我们不希望通过统计测试来调整(实际上是消除)这种关系的影响。亲密家庭成员可能被视为中间病例。GoMiner中实现的统计模型假设,作为我们的先验知识状态,我们知道两个“基因”什么时候是相同的,但如果它们不相同,则对它们的关系一无所知。这似乎是唯一可用的课程。然而,对于每个类别,GoMiner提供了表中给出的基因身份和数字1–有足够的信息供知识丰富的用户决定消除亲密的家庭成员或路径合作伙伴(如果需要)。
多重比较问题
如果在分析之前还没有决定要检查哪个特定的基因类别,那么应该对获得第页-指示具有统计意义的富集或耗竭的值。例如,对于1000个类别,如果我们将临界值设置为第页= 0.05. 纠正此问题的最常见方法是Bonferroni(例如,请参见[32]),其中临界值除以试验次数(在本例中为1000)。然而,这种方法假设类别的独立性,并且过于保守,以至于很难检测到真实的积极因素。还开发了一些不太保守的统计方法,但在这里对它们进行审查超出了本文的范围。基于重采样的方法将在未来几个月纳入GoMiner。
总的来说第页-引用的值应被视为启发式度量,可用作可能的统计显著性指标,而不是形式推理的结果。这个第页-例如,可以使用值对类别进行排序,以确定最感兴趣的类别。
作为另一个有用的测量方法,我们计算了相对富集因子,R(右)e(电子),定义为
R(右)e(电子)= (n个(f)/n个)/(N个(f)/N个)
图中显示为蓝色数字1a个也显示了过度表达(红色数字)和欠表达(绿色数字)的类似数量。当然,消耗是由一个比统一少的浓缩因子表示的。