摘要

总结:基因组数据、转录组数据、蛋白质组数据和单核苷酸多态性数据等“组学”数据一直在快速增长。经济数据是大规模、高通量的数据。这些数据挑战了传统的统计方法,需要进行多次测试。已开发出Bonferroni程序、Benjamini–Hochberg(BH)程序和Westfall–Young程序等多项测试程序,其中一些控制家族错误率,另一些控制错误发现率(FDR)。这些程序在某些情况下有效,不能应用于所有类型的大规模数据。为了解决组学数据分析中这一具有统计挑战性的问题,我们提出了一种生成一组多重测试程序的通用方法。该方法基于BH定理。通过选择C值,可以实现特定的多重测试程序。例如,通过设置C=1.22,我们的方法生成BH过程。当C<1.22时,我们的方法生成弱控制FDR的过程,当C>1.22时程序强控制FDR。C=G(基因或测试数量)和C=0的分别是Bonferroni程序和单一测试程序。这是这个家庭中的两个极端程序。为了让人们在实践中选择合适的多次测试程序,我们开发了一种算法,通过该算法可以正确可靠地估计FDR。仿真结果表明,我们的方法在各种场景下都能很好地精确估计FDR,并且我们用三个实际数据集说明了我们的方法的应用。

可用性和实施:我们的程序在Matlab中实现,可根据要求提供。

联系人:hxu@gru.edu

补充信息: 补充数据可在生物信息学在线。

1简介

“组学”技术的进步导致大规模数据的巨大发展,如微阵列数据、转录组数据、代谢组数据和蛋白质组数据。这些“组学”数据使我们能够全面了解复杂的生物过程、遗传和环境因素之间的相互作用以及复杂疾病的病理机制,如糖尿病、心脏病、高血压和各种癌症,通过识别差异表达的基因,对功能基因、通路或网络进行聚类或分类。这种大规模数据或高通量数据挑战了传统的统计检验(埃夫隆等。, 2001;牛顿等。, 2001;平移等。, 2003;棕褐色等。, 2006;塔瑟等。, 2001)因为传统的统计测试都是单项测试。在单假设检验中,阈值α对于确定检验是否显著有意义,因为α是人群中事件发生的概率阈值。然而,阈值α=0.05对于组学数据的多重统计分析仍然无效,因为例如,在鉴定10000个基因时,在显著性水平为0.05时,至少有500个偶然发现(尼科尔斯和哈亚斯卡,2003年;塔瑟等。, 2001). 因此,需要针对多次测试调整阈值α。目前,已经开发了几种用于调整阈值α或调整的统计程序P(P)-多个测试中的值。其中,Bonferroni程序,Holm程序(霍尔姆,1979年)Hochberg程序(霍克伯格,1988年),Westfall和Young程序(Westfal and Young,1993年)Sidak程序(Nichols和Hayasaka,2003年)Benjamini–Hochberg(BH)程序(本杰米尼和霍奇伯格,1995年)和Benjamini–Liu程序(Benjamini和Liu,1999年)是典型的多重测试方法。在这些程序中,BH程序在实践中应用最广泛。但我们发现,真假发现率(FDR)并不总是与BH程序的估计FDR保持一致,所有现有的多重测试程序实际上都是多重测试程序家族的特例,范围从单一测试程序到Bonferroni程序;换句话说,这些程序给出了不同的拒绝空间(图1). 在实践中,我们的模拟还表明,BH程序通常会大大高估或低估真实的FDR。为了在大规模统计分析中准确估计FDR,我们提出了一种基于BH定理的方法,在Bonferroni程序的一系列单一测试程序中生成一组多重测试程序,并提出了一个模拟算法来选择所需的程序。

 拒收区域。对于所有要测试的基因来说,单一测试程序是一条最重要的(坚实的)线。Bonferroni(Bon-)程序是所有基因的底线(破折号和点),其拒绝区域是(破折线和点)线下的区域(=其中是调整的)。BH程序是基因i的上垂线(破线),其反对区域是对角线()下的区域,其中是调整后的
图1。

拒收区域。单次测试程序是一条顶部(实心)线论坛所有要测试的基因。Bonferroni(Bon-)程序是带有论坛对于所有基因及其拒绝的区域是(破折号和点)线下的区域(=论坛哪里论坛是调整过的论坛。BH过程是一条带论坛对于基因我,其拒收面积为对角线下面积(论坛)其中论坛是调整过的论坛

2方法

2.1假设检验的拒绝区

在这里,我们重点讨论了单一测试程序[A(s)]、Bonferroni[A(B)]和BH多重测试程序[B(BH)]的拒绝范围。如中所示图1,用于G公司待测试假设中,单一测试程序的拒绝范围最大:论坛哪里α是一个概率阈值,而Bonferroni多次试验程序的拒绝面积最小:论坛论坛这是两个极端的拒绝区域。在单一测试程序中,论坛假设会被偶然拒绝,而Bonferroni多重测试程序有机会论坛拒绝G公司假设,这被称为家庭错误率。BH多次试验程序的拒收面积是对角线下的面积,是单次试验程序的一半,论坛哪里-假设。但不同于单一测试程序论坛为所有假设和Bonferroni多重测试程序设置,其中论坛/G公司对于所有假设,BH多重测试程序是一个程序,从G公司到1,调整后的论坛值位于对角线上,其拒绝区域为论坛/2.因此,伯克希尔哈撒韦多重测试程序介于单一测试程序和邦费罗尼多重测试程序之间。因此,从理论上讲,可以给出具有拒绝区域的任何多次试验程序论坛论坛.

2.2 Benjamini-Hochberg定理

对于无效假设论坛,测试它们有相应的P(P)-值论坛.让论坛服从命令P(P)-值及其相应的有序空假设论坛然后,我们有一个BH程序:

k个成为最大的对于其中论坛,然后全部论坛将被拒绝。 

T型神灵

对于独立统计检验和假零假设的任何配置,上述程序将FDR控制在显著性水平α(本杰米尼和霍奇伯格,1995年).

该定理基于以下引理:

 
艾玛
定义=/(+S公司)作为FDR,其中S公司分别是真假设和假假设中的发现数量论坛独立的P(P)-与真零假设对应的值,其中论坛以及任何论坛P(P)-对应于假零假设的值,其中论坛,BH过程满足不等式
(1)
通过积分不等式方程式(1),我们获得
(2)
FDR被控制(Benjamini和Hochberg,1995年). 因为论坛,任何具有以下功能的过程
(3)
也满足不等式方程式(2)并控制FDR,其中是从1到的有序数字,论坛是的任何函数论坛.来自公式(3)可以看出,当论坛=Bonferroni程序论坛=1或BH程序论坛=.

2.3功能论坛

假设我们有一组观察到的P(P)-值论坛, … ,论坛, …,论坛对于G零假设论坛。将其排名为论坛论坛具有相应的有序零假设论坛论坛哪里-排名空间中的第个位置对应于k个在未排序的空间中。我们声明所有假设论坛有趣的时候论坛以逐步升级的方式论坛是调整过的论坛.实现总体调整论坛对整个观测到的FDR进行任何控制P(P)-值,我们需要一个控制序列。为此,让一组G公司q值是线性秩序列论坛哪里= 1,..,G公司论坛.然后,我们将两个相邻q值之间的差值与它们之和的比值定义为
(4)
取子集比率之和,
(5)
哪里论坛,= 2, 3, … ,G公司在整个排名集中,我们有
(6)
因此,控制序列由一组分级速率组成,其功率为C:
(7)
其中C被称为控制值。在控制序列中,我们有论坛对于论坛论坛对于论坛.根据控制顺序被发现为
(8)
论坛然后调整为
(9)

方程式(9)给出了从单一测试程序到Bonferroni程序的多个程序系列。C值是所谓的控制值,因为它对论坛; 换句话说,不同的C值对假阳性结果的控制程度不同。例如,当C=0时,则论坛论坛为所有人P(P)-值,这是单一测试程序;什么时候论坛,那么论坛论坛或C=G>1000,论坛论坛为所有人P(P)-值,这只是Bonferroni程序;如果C=1.22,我们有论坛,这只是BH程序(图2). 因此,在C类> 1.22,方程式(9)生成一组比BH程序具有更强的FDR控制的多重测试程序,而C类<1.22,它生成了另一组多重测试程序,与BH程序相比,FDR控制较弱(图2). 因此,该方法不仅可以实现现有的多次试验程序,而且可以通过选择适当的C值来产生新的程序(图2).

 多个程序。通过在等式9上使用C=0.50、…1.22、…3.0来创建用于测试在两种条件之间差异表达的7129个基因的这些多重测试程序。与图1中的BH过程(虚线)相比,C=1.22(深紫色实线)的过程是BH过程。因此,C>1.22的程序比BH程序对FDR的控制更强,而C<1.22的步骤对FDR控制弱于BH程序
图2。

多个程序。这些用于测试7129个在两种条件下差异表达的基因的多重测试程序是通过使用C=0.50,…1.22,…3.0方程式9。与中的BH过程(虚线)相比图1,C=1.22(深紫色实线)的过程是BH过程。因此,C>1.22的程序比BH程序对FDR的控制更强,而C<1.22的步骤对FDR控制弱于BH程序

2.4 FDR控制的C值选择

为了控制FDR,我们需要选择一个C值来生成多重测试过程。理论上,可以使用置换方法(雷纳等。, 2003)确定多次试验程序。但正如我们将在第3节中看到的,排列并不是一个好方法,因为它往往会大大低估罗斯福。因此,我们在此提出了一种替代方法,用于为实际数据集选择理想的C值。为了便于讨论,我们将算法集中在传统的两个条件(或两类)上t吨-测试方法。

我们的算法包括以下九个步骤,其中第2步是计算每个基因的均值、方差和距离,第3步和第4步是使用参数引导程序模拟数据,第5步和第6步是使用一组多个程序估计FDR: 

S公司步骤1

将一种统计方法和一套多重程序应用于实际数据,并通过比较有序的P(P)-值到M(M)调整后的组论坛值:论坛哪里= 1, … ,M(M),论坛是通过统计方法在实际数据中发现的数量-第C级。

 
S公司步骤2

计算平均值论坛和方差论坛基因表达值(=1,…,G)条件k个(k个=1,2)来自真实数据集,距离论坛每个基因的两个平均值之间,论坛,并将d值从最大到最小排序。

 
S公司步骤
调整距离值
(10)
哪里论坛是(0,1]中的输入值,也是一个输入参数值,并且论坛。在这里论坛用于调整较大的估计比率(论坛s) C水平较低时的结果。在这里论坛哪里论坛是在-第C级。
 
S公司步骤4
确定实际数据集的分布。对于微阵列数据,正态分布是好的,对于转录组数据,可以考虑负二项分布或泊松分布。这里,作为一个例子,我们关注微阵列数据,并使用正常的伪随机生成器在每个条件下从基因到基因生成表达噪声:
(11)
哪里第页第页-第个复制,第页= 1, … ,论坛哪里论坛是条件中的复制编号k个,论坛是基因的标准偏差状况良好k个.我们设置论坛在两种条件下生成相同的表达式噪声分布。然后将调整后的d值随机分配给论坛基因:
(12a)
如果论坛,
(12 b)
否则,其中论坛是基因之间的统一随机变量,以及b条是一个权重值。如果满足以下条件,则b值应较小论坛(发现的最小估计比率)大于论坛(调查结果的最小实际比率);否则,b值应该更大。
 
S公司5

对模拟数据应用相同的统计方法,并获得一组通用电气公司-给定分布的值。应用方程式(7)方程式(9)以及一组M C值,以创建M个多次测试程序,这些程序已在实际数据中使用,并进行多次比较。

 
S公司步骤6

因为给出了差异表达的基因,所以计算错误的发现并计算FDR。

 
S公司步骤7

论坛,b条通过将估计的发现比率集与实际发现比率集进行拟合来确定。我们从论坛==b条=1,并大致检查M多次测试程序确定的结果的估计比率集是否与实际比率集相匹配。如果是,请转至步骤8;否则,重置论坛,和/或b条值(参见第4节),然后再次执行步骤3–5,直到估计的比率集接近实际值。

 
S公司步骤8

重复步骤4-6大约15次,计算结果估计比率的平均值,并估计每个C水平的FDR值。

 
S公司步骤9

使用多项式回归平滑估计的FDR。方法是绘制M个估计FDR与M个C值(从最小到最大)的关系图,得出一条观察线,使用多项式回归线拟合观察线,然后求解回归系数论坛并使用多项式回归方程计算每个C值对应的FDR。多项式回归的顺序取决于拟合。这在Excel中很容易完成。

绘制由M多项测试程序确定的实际和估计比率集,并拟合具有交集的线性回归模型论坛和回归系数论坛.如果论坛0.1和论坛,则估计的比率集的结果几乎与M多次测试过程中的实际比率集相同,并且真实的FDR集也将与估计的FDR集合一起给出;C值将通过选择校准的FDR来选择。否则,通过重置参数重复步骤4–7、b和论坛直到论坛0.1和论坛.

2.5统计方法的性能

使用baySeq包进行经验贝叶斯分析;在edgeR软件包中实现了Fisher精确检验和广义线性模型(GLM)。程序包baySeq和edgeR从Bioconductor下载。这两个组件使用BH程序进行调整P(P)-值(以估计FDR)。贝塔t吨-在Matlab中进行了测试。我们还使用BH程序来调整P(P)-值。使用从Bioconductor下载的qvalue包执行q值方法。此软件包具有GUI界面。我们加载了P(P)-两个样本的值t吨-测试qvalue.gui接口并执行q值计算,获得q值。我们选择q值≤0.05的DE基因。

我们的多重过程方法和C值选择算法在Matlab中实现。

3结果

3.1仿真评估

我们使用塔瑟等。的(2001年)微阵列数据来说明该算法。我们从网站上下载了数据http://www-stat.stanford.edu/~tibs/SAM/数据包括7129个基因和8个人类淋巴母细胞系样本,其中4个样本用电离辐射处理,其余样本用非电离辐射处理作为对照。从实际的微阵列数据中,获得了两种条件下每个基因表达值的平均值和方差,并使用一个正常的伪随机生成器、两个平均值中的任何一个、每个基因的两个标准差中的任意一个和四个重复来创建两个具有相等方差的7129个基因的噪声表达数据集。然后,通过线性和随机分配条件影响生成模拟数据论坛关于两种条件对两个噪声数据集中30%基因的差异表达U型是(0,1]中的一个统一变量。请注意,我们的模拟程序在分配其表达值时在这30%的基因之间产生了强烈的依赖性。我们应用了一个经典的两个条件t吨-对该模拟数据集进行测试,并将M=140的C值从0.01设置为1.4,以创建140个用于多次测试的程序,并获得140个结果比率。通过应用上述算法并调整a、b和论坛值,我们发现当= 0.001,b条=5和论坛=0.054,140个调查结果的估计比率和实际比率非常接近。因此,结果在15次重复模拟中平均,并显示在图3.图3A表明,估计值与实际发现比率的绘图线几乎是一条带交点的对角线论坛=−0.009≈0和回归系数论坛=1.0576≈1,因此估计的比率结果集与实际结果几乎相同。发件人图3B、 还可以看到,估计的FDR与真实的FDR的图点几乎在对角线上,这表明估计的FDR在每个FDR点处与其真实值大致相同。

 FDR估计的仿真示例。(A)评估结果与实际比率的对比图。通过140个测试程序和我们的算法,从基于Tusher等人(2001)的模拟数据集微阵列数据中获得了估计和实际的结果比率。实线是回归线,虚线是观察值。(B)通过140个程序从伪真实数据集中获得的真实FDR的估计图。实线是一条对角线,其上估计的FDR等于每个FDR点的真实值,虚线是估计的DFR
图3。

FDR估计的模拟示例。(A类)评估结果与实际比率的对比图。通过140个测试程序和我们的算法从基于模拟数据集的数据中获得了估计和实际的结果比率塔瑟等。(2001)微阵列数据。实线是回归线,虚线是观察值。(B类)根据140个程序从伪真实数据集中获得的真实FDR进行估计的绘图。实线是一条对角线,其上估计的FDR等于每个FDR点的真实值,虚线是估计的DFR

接下来,我们用负二项分布模拟转录组数据。我们通过设置13000个mRNA亚型、两种条件(控制和疾病状态)、每种条件下的六个复制文库、概率来进行模拟=U型哪里U型是随机均匀变量,论坛尺寸=1000U型对于每个亚型。负二项伪随机生成器和这些设置参数用于创建两个方差相等的噪声转录组数据集,然后论坛对于条件(或治疗),mRNA亚型差异转录的影响值随机线性分配给两个噪声数据集中10%的mRNA亚型别,其中u个=(0,1]是统一变量。因此,获得了10%差异转录亚型、六次重复和两种条件的模拟数据。有一批现有方法可用于寻找两种条件下差异转录的mRNA亚型:经验贝叶斯方法(Hardcastle和Kelly,2010年),Fisher精确测试(Robinson和Smyth,2008年)、GLM(麦卡锡等。, 2012)和Betat吨-测试(巴格利等。, 2003). 这些方法都使用BH程序估计FDR。类似于图3B、 我们在这里使用模拟转录组数据集来评估基于四种统计方法的BH程序。我们在这些方法的结果中绘制了真实的FDR,并使用BH程序从cuttop=~0到~0.21绘制了估计的FDR。图4结果表明,在经验Bayesian、GLM和Fisher精确检验中,尤其是在Beta中,BH估计的FDR曲线t吨-测试结果远低于其理论线(真实FDR与真实FDR),表明在这些方法中,BH程序严重低估了FDR。

 现有统计方法中真实FDR与BH估算FDR的曲线图。估算曲线是通过绘制估算FDR与真实FDR之间的曲线来绘制的,该曲线沿~0至~0.21的截止线,理论线是通过绘制真实FDR与沿着相同截止线的真实FDR的对角线来绘制的。真实的FDR是通过在模拟数据集中的FDR截止点计算统计方法发现的假阳性来计算的,并且估计的FDR是通过统计方法预测的。真实和估计的FDR在三个模拟数据集上取平均值。(A)精确检验,(B)广义线性模型,(C)经验贝叶斯,(D)贝塔t检验
图4。

现有统计方法中真实FDR与BH估算FDR的曲线图。估算曲线是通过绘制估算FDR与真实FDR之间的曲线来绘制的,该曲线沿~0至~0.21的截止线,理论线是通过绘制真实FDR与沿着相同截止线的真实FDR的对角线来绘制的。真实FDR是通过计算模拟数据集中FDR截止点处统计方法结果中的假阳性来计算的,估计的FDR是用统计方法预测的。真实和估计的FDR在三个模拟数据集上取平均值。(A类)精确的测试(B类)广义线性模型(C类)经验贝叶斯(D类)βt检验

为了在各种微阵列实验中充分显示我们的多重测试方法的统计特性,我们还生成了27个场景中的模拟数据集。我们的模拟基于塔瑟等。的(2001)微阵列数据。我们设置了三个条件(或治疗)效应水平:A=100、200和300;差异表达基因的比例分为三个等级:P=10、20和30%,样本量分为三级:n=4、6和18。条件效应论坛随机分配到基因的P。这种分配在基因之间产生了强相关性表达。我们的多步骤方法和FDR估计算法应用于这些模拟数据集。由于有大量模拟数据集,我们无法显示调查结果的估计和实际比率以及估计和真实FDR的概况,如所示图3A和B,针对每个场景;相反,我们列出了通过传统t检验方法获得的结果数量,以及通过选择一个程序获得的真实和估计的FDR数量,该程序的估计FDR小于但最接近于0.05的截止值。为了演示我们的算法,我们还应用了置换(雷纳等。, 2003)和q值(Storey和Tibshirani,2003年)这27个模拟数据集的处理方法。结果总结如下补充表S1.

可以在中看到补充表S1所选C值在0.9–1.32范围内变化,包括C=1.22。如中所示图12,C=1.22生成BH程序。因此,BH程序只是我们的多个程序之一。在每个给定场景中,我们的方法在每个C值处估计的FDR接近其真实值,但在场景3和场景17中,真实FDR值略大于其估计值;所有其他FDR都被稍微高估了,这意味着我们对FDR的估计是保守的。补充表S1还给出了通过执行q值方法获得的结果(Storey和Tibshirani,2003年). 我们的方法和q值方法在大多数模拟数据集中都有相似数量的发现。然而,q值方法在九种情况下低估了FDR(33.3%)。因此,由于FDR估计的保守性,我们的方法明显优于q值方法。通过使用置换算法,FDR在所有27种情况下都被严重低估(补充表S1),表明置换不是估计FDR的理想方法。

3.2应用

应用多重过程方法的第一个示例是Tusher公司等。的(2001)微阵列数据。如上所示,数据由7129个基因组成。塔瑟等。(2001)试图在四个经电离辐射处理的人类淋巴母细胞系样品和四个未经电离辐射的样品之间找到差异表达的基因。我们将140个C值从0.1设置为1.39,以创建140个多次测试程序。由于C值>0.92没有产生有意义的结果(没有发现),我们使用经典的两个条件从实际数据中获得了83个发现的实际比率t吨-试验方法。调整后,我们发现=0.02,b=2.9和论坛=0.3,并重复我们的算法过程15次,生成一组83个估计的发现比率和一组83个估计的FDR。我们在图5回归线几乎是一条有交点的对角线论坛= 0.0008论坛0和回归系数论坛= 0.9451≈1. 因此,结果的估计比率与每个C值的实际比率几乎相同。因此,中给出的模拟FDR图5A2可用于估计83个C值的真实FDR。图5A2表明,当C值=0.92时,最小FDR为0.36,远大于截止值0.05。因此,在FDR截止值为0.05时,在经过电离辐射处理的人类淋巴母细胞系和对照细胞系之间,未发现该数据集中的基因存在差异表达。该结果与塔瑟等。(2001)其中,SAM中估计的最小FDR为0.12。

 我们的方法在实际数据中的应用。通过使用一组140个程序对来自真实数据集的两种条件下的基因差异表达进行多重t检验,获得了真实的比率结果集。通过使用我们的方法,从15个模拟数据集(每个数据集都与实际数据相似)中获得了结果的估计比率集。所有给定程序的估计结果比率必须与其实际值一致,以便可靠地估计每个程序生成的真实FDR。第1列:调查结果的估计与实际比率图。实线是回归线,虚线是观察线。第2列:预估FDR与C值的关系图(程序)。A行:Tusher等人(2001年)提供的电离辐射微阵列数据。在人cDNA阵列上检测到4个经电离辐射处理的人淋巴母细胞系样品和4个未经电离辐射的样品中表达的7129个基因。B行:数据是从Broad Institute Cancer Program data Set下载的急性白血病微阵列数据。该数据集包含12582个基因,这些基因在24个急性淋巴细胞白血病(ALL)细胞株和28个急性髓细胞白血病(AML)细胞系中的表达值通过寡核苷酸阵列进行了测量。C行:拟南芥微阵列数据(Lee等人,2009年)。该数据集包含22810个基因,在植物拟南芥基因芯片上检测到C58感染茎和对照茎的差异表达,每个基因有3个重复
图5。

我们的方法在实际数据中的应用。通过使用一组140个程序对来自真实数据集的两种条件下的基因差异表达进行多重t检验,获得了真实的比率结果集。通过使用我们的方法,从15个模拟数据集(每个数据集都与实际数据相似)中获得了结果的估计比率集。所有给定程序的估计结果比率必须与其实际值一致,以便可靠地估计每个程序生成的真实FDR。第1列:调查结果的估计与实际比率图。实线是回归线,虚线是观察线。第2列:估计FDR与C值的曲线图(程序)。A行:电离辐射微阵列数据由塔瑟等。(2001)在人cDNA阵列上检测到4个经电离辐射处理的人淋巴母细胞系样品和4个未经电离辐射的样品中表达的.7129个基因。B行:数据是从Broad Institute Cancer Program data Set下载的急性白血病微阵列数据。该数据集由12582个基因组成,通过寡核苷酸阵列测量了它们在24个急性淋巴细胞白血病(ALL)细胞系和28个急性髓细胞白血病(AML)细胞系中的表达值。C行:拟南芥微阵列数据(等。2009). 该数据集包含22810个基因,检测到这些基因在受C58感染的茎秆和对照茎秆之间的差异表达,每个基因在植物上有3个重复拟南芥基因芯片

第二个例子是白血病微阵列数据下载自http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi该数据集由12582个基因组成,通过寡核苷酸阵列检测了它们在24个急性淋巴细胞白血病(ALL)细胞系、20个髓系淋巴细胞白血病细胞系和28个急性髓系白血病(AML)细胞株中的表达值。在这里,我们选择了两种白血病细胞类型ALL和AML进行差异表达测试。这是两个样本大小较大且不相等的条件的示例。对于这个数据集,我们输入了140个从0.1到1.39的C值,并从经典的不成对双条件中生成了140个实际比率t吨-测试。调整后,我们获得= 0.5,b条=1.5和论坛=0.05,并应用我们的算法通过140个程序估计一组FDR,重复15次。结果如所示图5B.如中所示图5B1,调查结果的估计与实际比率的绘图点几乎落在具有交叉点的对角线上论坛和回归系数论坛这表明,在每个C级水平上,估计的发现比率几乎与实际比率相同。因此,真实的FDR集合可以由估计的FDR集合给出。图5B2显示,当C=1.31时,FDR=0.049723接近0.05,在ALL和AML细胞系之间鉴定出582个基因差异表达。

第三个例子是拟南芥微阵列数据。探索是否拟南芥基因对由转移DNA(T-DNA)编码的癌基因或由农杆菌属进入植物细胞,等。(2009)接种受伤幼体后3h和6d进行微阵列实验拟南芥含有C58株和GV3101株的植物,GV310株是C58株的同源株,仅缺乏转铁蛋白-DNA,但具有病毒D2、病毒E2、病毒E3和病毒F等蛋白毒力因子(Vergunst公司等。, 2000,2003). 受伤但未感染的秸秆被用作对照。例如,我们刚刚从GEO(GEO登录:GSE14106)网站下载了接种后6天的数据(网址:http://www.ncbi.nlm.nih.gov/geo/). 该数据由22810个基因组成,分别来自受感染的C58和对照秸秆,每个秸秆有三个重复。我们执行了经典的两个条件t吨-在此数据集上测试方法,并应用我们的多过程方法进行多次测试。我们将140个C值从0.01设置为1.4,以创建140个程序,并从两种条件中获得140个实际发现比率t吨-测试。调整后,我们发现= 0.08,b条=15和论坛= 0.035. 使用这些参数,我们通过140个程序对15个重复获得了140个估计的发现和FDR比率。图5C1显示,观察到的估计与实际发现比率的绘图线与预测线完全重叠。因为十字路口论坛和回归系数论坛,估计结果与实际结果比率的观察线是一条对角线,因此,在每个C值处,估计结果比率与实际比率是一一相同的。因此,真正的FDR集可以由估计的FDR集合给出。图5C2显示,在C=1.2,FDR=0.0497的条件下,在年轻肿瘤和对照茎之间鉴定出1427个基因的差异表达(表1). 然而,使用折叠变换方法,等。(2009)刚刚鉴定出196个差异表达基因P(P)< 0.01. 两者都有很大的不同。为了验证我们的发现,我们显示了1427个DE基因的原始数据的热图图6.图6结果表明,在下调过程中,所有498个基因在年轻冠瘿瘤中的表达值明显低于对照(参考)茎秆(分别以深红色和黄色显示),而在上调过程中,全部929个基因在冠瘿肿瘤中的表达也明显高于对照茎秆。也就是说,在1427个基因中,肿瘤和对照明显由基因表达分开。在这三个重复中,1427个基因有差异表达。

热图。行中有1427个基因在年轻肿瘤之间差异表达(接种后6d),对照茎和列中有三个对照(参考)茎重复(右侧)和三个年轻肿瘤重复(左侧),其中498个基因在C58菌株中相对于对照茎下调,和929在C58菌株中相对于对照秸秆上调。黄色是最低的表达式值,深红色是最高的表达式值
图6。

热图。行中有1427个基因被发现在年轻肿瘤(接种后第6天)之间存在差异表达,而对照茎和柱是三个对照(参考)茎重复物(右侧)和三个年轻肿瘤重复物(左侧),其中498个基因在C58菌株中相对于对照茎下调,和929在C58菌株中相对于对照秸秆上调。黄色是最低的表达式值,深红色是最高的表达式值

表1。

拟南芥微阵列数据(等。, 2009)

C值调查结果数量预计FDR
121210.0667
1.0220710.0650162
1.1715470.05227295
1.1814990.0514162
1.1914620.05055855
1.2014270.0497
1.2113890.04884055
1.2213460.0479802
1.387850.0340922
1.397500.03321655
1.407210.03234
C值调查结果数量预计FDR
121210.0667
1.0220710.0650162
1.1715470.05227295
1.1814990.0514162
1.1914620.05055855
1.2014270.0497
1.2113890.04884055
1.2213460.0479802
1.387850.0340922
1.397500.03321655
1.407210.03234
表1。

通过多重过程发现DE基因的数量拟南芥微阵列数据(等。, 2009)

C值调查结果数量预计FDR
121210.0667
1.0220710.0650162
1.1715470.05227295
1.1814990.0514162
1.1914620.05055855
1.2014270.0497
1.2113890.04884055
1.2213460.0479802
1.387850.0340922
1.397500.03321655
1.407210.03234
C值调查结果数量预计FDR
121210.0667
1.0220710.0650162
1.1715470.05227295
1.1814990.0514162
1.1914620.05055855
1.2014270.0497
1.2113890.04884055
1.2213460.0479802
1.387850.0340922
1.397500.03321655
1.407210.03234

4讨论

概率阈值论坛调整为论坛哪里论坛被称为控制错误发现的速率。单一测试程序和Bonferroni程序是两种极端程序。如所示图1,单个测试程序是一条顶部水平线论坛所有G试验均为1,而Bonferroni程序是一条底部水平线论坛=所有G测试的1/G。BH程序具有控制错误发现的速度论坛=/G其中=1…,G,这是一条对角线。它们都是我们方法的特例。有趣的是,如果方程式(9)更改为
(13)
然后,我们的多个过程可以切换方程式(9)中给出的降压程序方程式(13):用于论坛=0,我们有论坛,而对于论坛=1,我们有论坛和升压程序一样,通过改变C值论坛-值也会被更改,以便创建一组新的多重测试过程。如果C类=0,则论坛=1和论坛对于所有假设,这是唯一的测试程序。如果论坛,那么论坛≈0和论坛/G表示所有假设,这只是Bonferroni程序。如果论坛以便论坛,= 1, … ,G公司,那么论坛就是霍尔姆程序。如果论坛以便论坛,我们得到了一个近似的BH程序。这些表明,在我们的多重过程方法中,降压过程等同于升压过程。

如中所示表1,我们的方法有点类似于SAM(塔瑟等。, 2001)和RAM(棕褐色等。, 2006)因为一组C值(过程)等同于一组阈值(论坛)用于声明SAM和RAM中观察到的排名统计数据和估计的排名空统计数据之间的重要测试。但是,如中所示图3和中补充表S1我们的方法通过约束发现的估计比率与每个给定C值的实际比率相同或近似,从而确保估计的FDR接近其真实值,而SAM和RAM没有任何约束来确保FDR的估计是可靠的。27个模拟数据集表明,我们的方法对于准确估计不同样本大小、不同条件效应和不同比例基因在不同研究生物系统中差异表达的FDR非常有效。三个实际数据集也表明,即使在样本大小较大且不相等或样本大小很小但阵列上检测到大量基因的情况下,我们的方法也表现良好。

在微阵列和转录组学实验中,基因的数量极为庞大(特征空间的维数达到数十甚至数十万),而生物条件的数量极低,导致基因在表达上高度相关。这意味着这种全基因组数据是高度依赖的数据。我们的模拟和实际结果表明,基因表达之间的依赖性并不影响FDR的估计,即使多重程序基于假设的独立性(BH定理)。这是因为对发现比率的估计也是基于高度相关的基因表达。

理论上,我们的递增或递减多重过程不仅适用于任何统计方法,而且我们的C值选择算法(过程)也可以推广到任何其他统计测试,或者通过改变分布适用于任何数据。例如,如果实际数据集是计数数据,例如转录组数据或基因表达序列分析(SAGE)数据,则可以通过在泊松、伽马、二项式或负二项式分布上选择适当的参数来进行我们算法中的模拟。但在实践中,我们的方法不适用于统计分布不明确的情况。

此外,与现有的大规模统计方法如SAM相比(塔瑟等。, 2001)、RAM(棕褐色等。, 2006),ODP公司(故事等。, 2007)、Cyber T(Baldi and Long,2001年),利马(Smyth,2004年;斯迈思等。, 2005)和q值(Storey和Tibshirani,2003年),我们的方法需要更多的时间来确定参数值,以便在选定的一组C值中,发现的估计比率与实际比率相同或非常接近,或者说,论坛接近0并且论坛至1。实际上,论坛,b条可以通过注意以下内容轻松确定值,如中所示方程式10,较大的论坛-值将允许调整更大的d值和更小的一个-值会使这些d值变小,然后变大论坛-M端附近的值会变小;根据公式12,b值越大,两个条件之间所有微分表达式的差异越大,结果会越多论坛-靠近1端的值将被放大。我们的经验是,首先我们看一下论坛-值集和论坛-使用设置的值论坛==b条=1并确定b值,以便在1端论坛-值接近论坛-值。然后我们设置了一个小-值和调整论坛因此论坛-值和论坛-M端的值小于公差值,例如0.01。此外,可以先修复较小的论坛-值,然后调整-值。然而,约束条件是论坛接近0并且论坛至1。

确认

作者感谢两位匿名评论员提供了许多建设性建议。

基金:H.X.得到了佐治亚摄政大学的校内资助。

利益冲突:未声明。

参考文献

巴格利
灵魂
SAGE中的差异表达:解释库之间的正常变化
生物信息学
2003
,卷。 
19
(第
1477
-
1483
)
巴尔迪
P(P)
AD公司
用于微阵列表达数据分析的贝叶斯框架:正则化t吨-基因变化的检验和统计推断
生物信息学
2001
,卷。 
17
(第
509
-
519
)
本杰米尼
Y(Y)
霍克伯格
Y(Y)
控制错误发现率:一种实用而有效的多重测试方法
J.R.Stat.Soc.B公司
1995
,卷。 
57
(第
289
-
300
)
本杰明
Y(Y)
线路接口单元
W公司
控制错误发现率的无分布多重测试过程
J.统计计划。推断
1999
,卷。 
82
(第
163
-
170
)
埃夫隆
B类
微阵列实验的经验贝叶斯分析
美国统计协会。
2001
,卷。 
96
(第
1151
-
1160
)
哈德卡斯尔
TJ公司
凯莉
灵魂
baySeq:识别序列计数数据中差异表达的经验贝叶斯方法
BMC生物信息学
2010
,卷。 
11
第页。 
422
 
霍克伯格
Y(Y)
多个显著性检验的更清晰Bonferroni程序
生物特征
1988
,卷。 
75
(第
800
-
802
)
霍尔姆
S公司
一种简单的顺序拒绝多重测试程序
扫描。J.统计。
1979
,卷。 
6
(第
65
-
70
)
顺时针
根癌农杆菌通过调节病原体防御促进肿瘤诱导拟南芥塔利亚纳
植物细胞
2009
,卷。 
21
(第
2948
-
2962
)
麦卡锡
流行音乐播音员
生物变异多因子RNA-Seq实验的差异表达分析
核酸研究。
2012
,卷。 
40
(第
4288
-
4297
)
牛顿
妈妈
表达比率的差异可变性:改进微阵列数据中基因表达变化的统计推断
J.计算。生物。
2001
,卷。 
8
(第
37
-
52
)
尼科尔斯
T型
哈亚斯卡
S公司
控制功能性神经影像学中的家庭错误率:一项比较综述
统计方法医学研究。
2003
,卷。 
12
(第
419
-
446
)
平移
W公司
用微阵列数据检测差异表达基因的混合模型方法
功能。集成。基因组学
2003
,卷。 
(第
117
-
124
)
雷纳
A类
使用错误发现率控制程序识别差异表达基因
生物信息学
2003
,卷。 
19
(第
368
-
375
)
罗宾逊
医学博士
斯迈思
GK公司
负二项离散度的小样本估计及其在SAGE数据中的应用
生物统计学
2008
,卷。 
9
(第
321
-
332
)
斯迈思
GK公司
微阵列实验中评估基因表达差异的线性模型和经验Bayes方法
统计应用程序。遗传学。分子生物学。
2004
,卷。 
  
第3条
斯迈思
GK公司
使用阵列内复制点评估微阵列实验中的差异表达
生物信息学
2005
,卷。 
21
(第
2067
-
2075
)
故事
JD公司
大规模显著性测试的最佳发现程序,并应用于比较微阵列实验
生物统计学
2007
,卷。 
8
(第
414
-
432
)
故事
JD公司
提比什拉尼
R(右)
全基因组研究的统计意义
程序。美国国家科学院。科学。美国
2003
,卷。 
100
(第
9440
-
9445
)
棕褐色
YD公司
微阵列数据的排序分析:一种识别差异表达基因的有效方法
基因组学
2006
,卷。 
88
(第
846
-
854
)
塔瑟
平均电压
微阵列用于电离辐射反应的显著性分析
程序。美国国家科学院。科学。美国
2001
,卷。 
98
(第
5116
-
5121
)
Vergunst公司
自动控制
病毒B/D4依赖性蛋白移位农杆菌属变成植物细胞
科学类
2000
,卷。 
290
(第
979
-
982
)
弗贡斯特
自动控制
通过VirB/D4转运系统识别根癌农杆菌VirE2易位信号不需要VirE1
植物生理学。
2003
,卷。 
133
(第
978
-
988
)
韦斯特法尔
P(P)
年轻
LS(负载感应)
基于重采样的多重测试
1993
纽约州纽约市
威利

作者注释

副主编:Ziv Bar-Joseph

补充数据