比较非截止值和基于截止值的评分函数
我们分析了van’t Veer的乳腺癌数据集等. [13]具有基于截止值的评分功能,使用不同的截止值。表1显示15个类别的结果第页-来自截止独立评分的值,表明第页-价值在很大程度上取决于截止点的选择。这进一步通过基于最小截止值的非常不同的截止值来说明第页-获得了值。提供了一个包含所有类别的表格作为补充[参见附加文件2].
与基于截止值的备选方案之间的差异相比,结果如表所示1对于两个独立的截止点是合理一致的第页-值,使用Wilcoxon秩和和基于最小截止值第页-值。这个第页-基于Wilcoxon秩和的值通常大于基于最小截止值的值第页-值。由于后者受到最小化过程的影响,因此必须将其解释为分数,而不是第页-值,因此需要进行额外分析以发现统计显著性[7,8].
比较零假设
使用Wilcoxon秩和,我们比较了不同零假设的结果。研究了三个公开可用的数据集[11,13,20]. 如图所示1,第页-基于基因排列的值往往低于基于样本标签排列的值。对于较小的类别第页-值,存在显著差异,尤其是对于包含20个以上基因的大类别。由于基因置换无效假设假设了独立的基因,我们预计基因不相关的GO类别具有大致相同的基因第页-在两种不同的零假设下的值,而基因高度相关的重要类别的值会更低第页-值使用基因置换无效假设。为了说明这种共表达效应,我们选择了两大类,“羧酸代谢”和“M相”,如图所示1在van’t Veer的数据集中等. [13],“羧酸代谢”与第页-两个零假设的值,而“M阶段”有一个第页-值为10-7使用基因排列,但更高第页-值为3·10-2使用样本标签排列。如图所示2“M期”排名最高的基因确实比“羧酸代谢”排名最靠前的基因更为共存。
在表中2比较了不同零假设的类别等级。有明显的差异,前十大类别之间只有一小部分重叠。正如上面所讨论的,我们可以清楚地看到基因置换无效假设的趋势,即找到包含很多基因的类别。附录中提供了一个包含所有类别的表格[参见附加文件3].
表2还显示了使用两个可选的截断独立评分函数获得的类别排名:GSEA中使用的Kolmogorov-Smirnov评分[17]以及基于最小截止值的第页-FuncAssociate中使用的值[7]和iGA[8]. 这两个备选方案不计算个人p-类别的值,但根据所选分数对类别进行排名。然而,他们给出的结果与通过Wilcoxon秩和和基因置换获得的结果相似。这是意料之中的,因为第页-通过基因排列计算值,并在GSEA中采用得分[17]与科尔莫戈罗夫·斯米尔诺夫(Kolmogorov-Smirnov)相似,对类别进行排名第页-基于基因排列的值就可以了。应该注意的是,GSEA、FuncAssociate和iGA计算了多个修正的假设第页-值,但这些不会更改类别的排名。
可能存在差异(表中未显示其本身2)在Kolmogorov-Smirnov得分和最小化之间第页-一方面是价值评分,另一方面是Wilcoxon秩和,用于处理只有一部分基因表达与研究问题显著相关的类别。如果剩余的看似无关紧要的基因按预期随机分布在排名列表中,则位于排名列表顶部的重要基因将为该类别的所有三个评分功能打好分。然而,如果这些不太重要的基因在列表中的位置高于随机预期(尽管不足以影响Kolmogorov-Smirnov或min-第页分数),威尔科森秩和将认为该类别更重要。相反,如果不太重要的类别基因在列表底部占优势,Wilcoxon秩和得分函数将认为该类别不重要,而其他两个得分将仅基于排名靠前的基因赋予该类别高度显著性。看起来不重要的基因的排名是否比随机预期的结果更好或更差,这当然是一个口味问题,也有可能是使用几个评分函数,它们可以相互补充。然而,如表所示,这些差异远小于与选择零假设相关的差异2.
多类别测试
测试的类别越多,就越有可能至少有一个类别得到非常小的第页-偶然的价值。为了更好地评估最佳评分类别的统计显著性,我们使用Catmap通过排列测试计算错误发现率和家族错误率。这也为我们提供了有效数量的独立类别,N个效率,如方法中所述。
GO包含许多小类别,在针对生物学结论的研究中可以合理忽略这些小类别,它们包括在图中1主要是为了突出零假设之间的差异。在进行多类别测试时,我们将研究局限于包含20多个基因的大类别。我们分别测试了3个子本体(生物过程、分子功能和细胞成分)。
正如上面的讨论所预期的那样,一些共表达基因的类别变得很小第页倍数随机基因排列的错误发现率很低。相反,当使用样本标签排列时,最小的第页倍数在van’t Veer的数据集中获得等. [13]生物过程类别“有机酸代谢”包含83个基因,p=3.10-4和第页倍数= 0.02. 有趣的是,文献中已知有机酸代谢与乳腺癌相关[21,22]. 对于这个数据集和生物过程类别,前15个类别中的错误发现率为38%。
对于所有3个子本体,类别的有效数量,N个效率,约占全部类别数量的一半,N个在van’t Veer的数据集中等. [13]这些数字是N个效率=83与N个生物过程=166,N个效率=69与N个=119(分子功能),以及N个效率=22与N个=42,对于蜂窝组件。对于所有类别,大类别的实际数量为N个=327,而N个效率= 152. 使用相同数据集和类别的随机基因排列,我们得到N个效率= 170. 事实上N个效率因为这两个零假设非常接近,这是我们在所有示例中看到的一个普遍现象(数据未显示)。此外,对于所研究的所有数据集和本体,N个效率约占类别总数的一半。如果这是GO类别的一般特征,那么简单的Bonferroni校正对于小型第页-值。
图3表明与有效类别数的拟合较好;在排列结果可用的范围内,其偏差不超过2倍。图中的示例3通过100.000个样本标签排列获得,并且最小第页-1000个随机基因列表的值被发现。
应该注意的是,无论何时在项目中检查多个排名列表,都应该纠正这种多假设测试的额外来源。Corá给出了基于截止值的分数函数的这种修正的示例等. [23].