摘要

动机:样本量计算在实验设计中非常重要,在微阵列或蛋白质组实验中更是如此,因为只能重复几次。在涉及这些实验的多重测试问题中,控制假发现率(FDR)或正发现率(pFDR)比控制I类错误(如家族错误率(FWER))更有效、更合理。在控制FDR时,通过控制I型误差估计样本量的传统方法不再适用。

结果:我们提出的方法适用于控制FDR。样本量计算简单明了,需要最少的计算,如两个样本所示t吨-测试和F类-测试。基于对所得样本量的模拟,证明通过q值程序可以实现功率。

可利用性:如有要求,可提供实现所述方法的Matlab代码。

联系人: pliu@iastate.edu

补充信息:补充数据可在生物信息学在线。

1简介

微阵列和蛋白质组实验在许多生物学科中变得流行和重要,例如神经科学(Mandel.,2003)药物基因组学、遗传病和癌症诊断(Heller,2002). 这些实验在材料(样品、试剂、设备等)和实验室人力方面都相当昂贵。许多微阵列实验仅使用少量重复(2-8)(Yang和Speed,2003). 在许多情况下,样本量不足以实现可靠的统计推断,导致资源浪费。因此,科学家经常提出以下问题。样本量应该有多大?

为了回答这个问题,我们将计算控制一些错误率并达到所需功率的样本大小。在计算单个测试的样本量时,要控制的错误率通常是I型错误率,即通过拒绝真零假设得出假阳性结论的概率。然而,我们同时测试了大量的假设,每个假设都与一个基因有关。因此,多重测试通常应用于微阵列数据的分析。在这种情况下,有几种错误率需要控制,例如系列错误率(FWER)或错误发现率(FDR)。假设有基因芯片上的基因和每个基因的差异表达意义进行测试。测试结果总结如下表1,其中,例如,V(V)是误报数R(右)是被拒绝的数量测试(Benjamini和Hochberg,1995).

表1。

测试结果假设

假设接受拒绝总计
Null为trueU型V(V) 0
可选trueT型S公司 1

总计W公司R(右)
假设接受拒绝总计
Null真U型V(V) 0
备选真T型S公司 1

总计W公司R(右)
表1。

测试结果假设

假设接受拒绝总计
Null真U型V(V) 0
可选trueT型S公司 1

总计W公司R(右)
假设接受拒绝总计
Null真U型V(V) 0
可选trueT型S公司 1

总计W公司R(右)
FWER定义为产生至少一个误报错误的概率:FWER=Pr(V(V)≥ 1). 拒绝I类错误率为α的每个单独测试根据Bonferroni的论证类型,保证FWER在强意义上控制在α水平,即FWER≤α,适用于零假设和替代假设的任何组合。本杰米尼和霍奇伯格(1995)提出了另一种控制FDR的错误类型,定义为被拒绝假设中假阳性的预期比例:
(1)
故事(2002)建议控制正向FDR(pFDR),即。
(2)

在许多基因组数据的情况下,如微阵列,Storey和Tibshirani认为(2003)更合理、更强大地控制FDR或pFDR,而不是FWER。然而,传统上,样本量是以特定的I类错误率计算的,不能直接应用于FDR控制。

几篇文章已经解决了微阵列实验中的样本量计算问题(Hwang.,2002; Lee和Whitmore,2002; Warnes和Liu,2006.Lee和Whitmore(2002)在控制假阳性数时,使用方差分析模型计算样本量表(E类[V(V)]). 黄星京(2002)提出了一种首先识别差异表达基因,然后在Fisher判别分析缩小的空间上计算功率和样本大小的方法。Warnes和Liu(2006)提出了一种基于累积图的方法来可视化功率和样本量之间的权衡。一些文章解决了不同设计中的样本量计算问题(Dobbin和Simon,2005)或特定设置,如分类(华.,2005). 上述方法控制类型I错误,而不是FDR。

最近,有几篇文章研究了在控制FDR的同时计算样本量的必要性,并提出了实现这一目标的方法。(2003)应用几个不等式得到与FDR控制水平相对应的I型错误率。由于应用的不平等,样本量可能被高估。帕维坦人(2005)研究了几个工作特性曲线,以可视化FDR、灵敏度和样本量之间的关系。尽管他们的方法在计算样本量时很有用,但没有提供简单的直接算法。荣格(Jung)(2005)导出了FDR与I型错误率之间的关系式。然后,FDR由适当级别的I类错误率控制。英镑和程(2005)提出了一种迭代搜索样本大小的算法,在该样本大小下可以实现FDR的期望功率和受控水平。由于FDR控制程序在包括微阵列分析在内的许多问题的多项测试中越来越流行,因此在设计实验时能够计算控制FDR所需的样本量非常重要。

在这里,我们提出了一种在控制FDR的同时计算多次测试的样本量的程序。首先,对于非差异表达基因的比例和要控制的FDR水平的任何估计,我们为每个样本大小找到一个排斥区域。然后计算每个样本大小的所选拒绝区域的功率。根据期望功率,最终确定样本大小。

荣格的方法(2005)我们在完成初稿后就知道了这一点,与其他方法相比,它与我们提出的方法更为相关。Jung和我们的方法都基于相同的模型假设,导致相同的FDR表达式。然后通过研究FDR表达式与一个量的关系来控制它,这个量是Jung的I型错误率和我们的临界值(拒绝区域)Z轴-测试和t吨-测试。将我们的方法应用于Jung的设置时,也会产生相同的结果。然而,我们的方法比Jung的方法更具图形性。这使得功率和样本大小之间的权衡得以可视化,并在修改用户定义的数量(如功率)时提供快速答案。

尽管有相似之处,本文将该方法进一步扩展到几个不同的方向,我们发现我们的方法非常令人满意。首先,我们将我们的方法应用于F类-广泛用于微阵列数据分析的测试(崔.,2005). 其次,当表达水平的均值和方差在基因之间发生变化时,我们仔细研究了我们的方法,这是微阵列的一个重要而实用的设置。第三,我们还通过仿真表明q个-Storey提出的控制FDR的价值程序(2004)使用我们建议的样本量达到了令人满意的目标功率。这积极地回答了这样一个问题,即是否有任何统计程序可以实现该方法所声称的目标功率。最后,我们还将我们的方法与Yang进行了比较(2003)英镑和程(2005)与其他文章相比,它提供了更多定义良好的算法。我们的仿真表明,我们提出的方法是优越的。

文章结构如下。第2节用两个示例描述了我们提出的方法t吨-测试和F类-测试。第3节,我们报告了模拟研究的结果,将基于该方法的功率与q值程序的实际结果进行了比较。第4节总结了我们的结果。

Matlab中的建议方法代码可用于实现该方法。

2方法

在本节中,我们首先说明我们的想法,然后展示如何将所提出的方法应用于两种微阵列实验设计。

2.1建议的方法

该方法源自pFDR的定义。H(H) = 如果零假设为真且H(H) = 1如果替代假设为真。在微阵列实验中,H(H) = 1代表基因的差异表达,而H(H) = 0表示没有差异表达式。我们假设如Storey的定理1(2002)所有测试都是相同的、独立的,并且伯努利分布有Pr(H(H)= 0) = π0,式中π0被解释为非差异表达基因的比例。根据Storey定理,
(3)
哪里T型表示测试统计量,Γ表示拒绝区域。因为基因的数量很大,通常从5000到30个不等000,无重大发现的概率接近于零(Storey和Tibshirani,2003). 因此,我们的结果也适用于控制FDR,因为FDR=pFDR·Pr(R(右)>0)和Pr(R(右)>0)接近1。假设FDR水平被选为α,则通过简单代数推导出以下关系(见附录A)。
(4)
为了简化符号,我们将表示
(5)
为了实现FDR水平为α(或更小),我们选择拒绝区域Γ,使得方程的右侧(4)等于(或小于)∧(见附录A)。

2.2所提方法的应用

微阵列实验通常是为了发现不同处理之间差异表达的基因。如Smyth中所述,微阵列的扫描强度数据通常经过质量控制、转换和标准化(2003)和Quackenbush(2002). 我们假设数据在应用统计测试之前首先经过这些步骤。在实验之前,我们没有观察结果来检查分布。似乎有理由作出一个方便的假设,即预处理数据的分布是正常的,因此是两个样本t吨-测试和F类-测试是适用的。计算样本量的其他拟议方法也做出了相同的假设(Dobbin和Simon,2005; 荣格,2005; .,2005; 黄星京.,2002).

2.2.1用t检验进行两样本比较

假设我们想用两个样本找出治疗组和对照组之间差异表达的基因t吨-测试。每个基因的测试假设是H(H)0: μT、 克= μC、 克H(H)1: μT、 克≠μC、 克,其中μT、 克和μC、 克是的平均表达式th基因分别用于治疗组和对照组。x个分别表示治疗组和对照组的观察到的基因表达水平th基因和j个第个复制。假设治疗组和对照组的方差相等th基因是:
(6)
哪里论坛是合并样本方差,论坛论坛是观察到的基因表达水平的平均值分别用于两组。测试统计T型有一个中心t吨-零假设下的非中心分布t吨-替代假设下的分布。如果|T型| >c(c),其中c(c)有待确定。应用方程式(4),我们发现临界值c(c)满足以下条件:
(7)
其中Td日(·θ)是非中心的累积分布函数(c.d.f)t吨-分配d日自由度和非中心性参数θ。此外,Td日(·)为Td日(·θ),θ=0。在(7)中,
(8)
式中Δ= μT、 克- μC、 克是治疗组和对照组的平均表达之间的真正差异σ是基因的标准偏差在本节中,我们假设一个简化的情况,即Δσ所有基因都是相同的。第2.2.3节当Δσ基因不同。所以下标已在此节中删除。

(7)的右侧在c(c)因此c(c)存在时是唯一的。同样的注释也适用于这两个方程式(14)和(17)在后面的章节中。有关证明,请参见附录C。在回答裁判的问题时,我们发现最小(超过c(c))FDR水平为正,发生在c(c)→ ∞. 这很有趣,因为I型错误没有这样的正下限。然而,随着样本量的增加,最小FDR很快收敛到零。参见附录中的图S1。

找到临界值后,计算功率并确定样本大小。当两组样本大小相同时,平衡设计是一种特殊而常见的情况:
(9)

图1当FDR控制在5%时,绘制功率与样本大小的关系图。例如,我们想确定当π0= 90 %. 假设需要2倍的变化(相应地,Δ=log2(2) =1),σ=0.5,则Δ/σ=2。在中使用中间曲线图1a、 80%的期望功率需要每组9个样本。

图1。

功率与样本大小的关系图t吨-测试。将FDR控制在5%,我们应用所提出的方法计算每个样本大小的功率。面板()代表Δ/σ=2和面板(b条)Δ/σ=5。

我们已经包括了π0相对较小(50%)图1.当π0因为微阵列的标准化方法通常依赖于大π的假设,所以微阵列数据应该谨慎地进行标准化0即少量差异表达的基因。在这种情况下,我们建议使用家政基因来执行标准化。如果使用适当的σ估计(基于适当的标准化值),我们的方法仍然适用。

我们将σ取为0.2,这是Warnes和Liu中U133微阵列数据集标准偏差的中位数(2006)即健康志愿者的人类平滑肌细胞的基因表达水平。(一位裁判向我们提到,人体样本和U133A阵列的中值σ通常在0.7左右。在这种情况下,我们将σ设置为0.7。)(2005),0.2大约是颗粒细胞肿瘤微阵列数据的剩余标准偏差的第90个百分位。(这里第90个百分位是一个保守的选择,因为如果我们使用的百分比小于90%,所需的样本量就会更小。)如果仍然是2倍的变化(Δ=log2(2) =1)被认为是真实的影响大小,则Δ/σ=5。从中间曲线图1b、 对应π0=0.9,可以确定需要4个样本才能获得至少80%的功率。

2.2.2与F检验的多样本比较

对于比较几种治疗方法的微阵列实验,应用了不同的设计方案(Yang和Speed,2003). 假设没有任何复制,设计需要幻灯片。我们称之为为这个设计幻灯片一套。例如,我们想比较三种独立治疗方法之间的基因表达,例如三种基因型小鼠的肝脏(Horton.,2003). 如果我们应用如中所示的回路设计图2,双色微阵列实验需要一组三张幻灯片。无论复制品是不同的生物样品还是不同的技术重复,只要在计算中使用适当的参数(均值和方差),我们的方法都是适用的。我们建议在实验中使用不同的生物样品,因为这将提供更一般的结论。问题是有多少组幻灯片足以获得足够的功率和受控的FDR。

图2。

微阵列实验的设计示例,用于比较三种处理方法之间的基因表达。按照惯例,每个箭头代表一个双色数组,绿色标记的样本位于尾部,红色标记的样本在箭头的头部。此设计需要三个阵列用于一个环路。

对于每个单独的基因,实验设计可以用相同的线性模型来表示i、 我= 1,2,…,n个
(10)
哪里β(第页×1) 是基因参数的载体Y(Y)是的观测矢量th基因在第th组,X(X)是设计矩阵εg、 我是错误项。在本节中,假设误差在基因和集合之间是独立的。对于中的设计图2Y(Y)将是标准化基因表达水平的对数比率th基因和两个可估算参数可以是处理I和处理II之间的基因表达差异,以及处理I和治疗III之间的差异(Yang和Speed,2003). 那么设计矩阵是
对于更复杂的设计,可以构建更复杂的模型,对于归一化过程中未修正的效果,例如阵列效果、染料效果和块效果,应添加相应的术语。例如,见崔(2005). 对于n个设计幻灯片集,最小平方估计β是:
(11)
假设误差为正态分布,论坛也是正态分布的,
我们可以应用这个结果,对这些参数及其线性对比度进行统计推断。
一般来说,假设感兴趣的问题是测试H0:L′β=0小时1:L′β≠0,其中L(左)是一个第页×k个系数矩阵(k个第页)或第页×1个向量用于感兴趣的线性对比度。为了简单起见,我们省略了下标因为我们假设相同的测试分别适用于所有基因。这个F类-测试基于n个可以使用以下测试统计信息构建集合:
(12)
低于H(H)0F类n个跟随aF类-分配k个d日(n个)自由度,其中d日(n个)是的函数n个并取决于设计。例如,d日(n个)用于中所示的设计图2是3n个-2.低于H(H)1F类n个遵循非中心F类-具有相同自由度和非中心性参数λ的分布:
(13)
其中∑=σ2L′(X′X)-1L(左)/n个.
应用方程式(4),我们得到
(14)
计算所需样本量的步骤相同。在这里,我们选择c(c)满足方程式(14). 与(7)类似c(c)to(14)在存在时是唯一的。参见附录C。使用这样的c(c),我们计算功率Pr(F类n个>c(c)|H(H)=1),然后根据n个附录中的图S2显示了与图1.

2.2.3Δ不相等的情况和σ

到目前为止,我们一直认为所有基因都有相同的参数集。在这种情况下,所有基因的平均功率将与单个基因的功率相同。实际上,每个基因可能有一组不同的参数。如果我们以双样本比较为例,基因特异性参数包括σ、标准偏差和Δ治疗组和对照组的平均表达之间的真正差异。

研究Δσ依赖,我们假设它们遵循概率密度函数π(Δ, σ). 分布可以是参数分布,也可以是非参数分布,这是根据类似实验的数据估计出来的。例如,在设计实验时,可以进行初步研究,据此可以估计参数的分布。在这种情况下,我们的程序可以扩展到计算样本大小,同时获得所有基因的平均功率。这里的平均功率是指相对于π(Δ, σ),
(15)
使用方程式(15)以及类似于方程式的论点(4),我们得出结论,如果
(16)
哪里
当我们将此应用于t吨-测试,类似于方程式(7),方程式(16)成为
(17)
其中分子等于2·T型n个1+n个2-2个(-c(c))分母等于
(18)
注意θ定义见(8)。如前所述,Td日(·θ)表示t吨-分配。然后求解临界值c(c)并应用相同的程序获得所需的样本大小。解决方案c(c)存在时是唯一的,请参见附录C。相同的技术扩展到F类-测试或其他感兴趣的测试。
为了更详细地说明我们的想法,我们假设差异表达基因的平均差异表达水平Δ,遵循正态分布,所有基因的表达水平方差遵循逆伽马分布:
我们使用π1)和π2)表示Δ的p.d.fσ分别是。然后我们求解c(c)基于方程式(17)和(18)FDR的特定水平(α)和非差异表达基因的比例(π0). 这涉及到集成。为了处理积分,例如在(18)中,内积分等于(推导见附录B)
(19)

对于以下方面的集成σ,我们可以将自适应Lobatto求积应用于数值积分,这样可以进行稳定的计算,以获得c(c)。此数值积分的计算可立即提供答案。一旦我们得到答案c(c)对于每个样本量,我们相应地计算幂,并基于幂找到所需的样本量。

模拟

本文中提出的计算样本量有多现实?更具体地说,如果所需功率为80%,FDR = 5%,我们的方法得出两个样本比较的样本量为9t吨-测试,是否有一个统计测试可以用9张幻灯片实现所有的操作特性?为了找出答案,我们用计算出的样本量模拟数据,并用FDR控制程序进行多次测试。然后我们检查:

  • 多次测试是否实际产生了计算样本量所需的功率,以及

  • 观察到的FDR是否与我们想要控制的水平相当。

如果我们能找到一个统计程序,在计算的样本量下达到所需的FDR和功率,那么我们的程序就被证明是实用的。事实确实如此。

有几个程序可以控制FDR,例如Storey和Tibshirani提出的q值程序(2003)和Storey(2004)以及Benjamini和Hochberg提出的程序(19952000). 这些程序都由罗斯福保守控制(Storey.,2004). 为了进行模拟研究,我们应用Storey中概述的q值程序(2004)控制FDR。手稿的早期版本在Storey和Tibshirani中应用了该程序(2003)结果与这里的报告相似。

当观测值(基因)相互独立时,我们首先测试所提出的方法。在微阵列环境中,我们假设共有5000个基因,并且治疗组和对照组的样本大小相等(n个1=n个2=n个). 基因特异性方差,论坛,是根据逆伽马分布模拟的。与Wright和Simon中的相同(2003),我们选择了1/σ2~Γ(3,1),因为这种分布很好地逼近了我们所分析的几个微阵列数据集。对于对照组,基因表达值由论坛对于治疗组,我们设置Δ=0(对于非差异表达基因),并模拟Δ论坛对于差异表达的基因,基因表达值由论坛.

模拟涉及几个参数,π0(非差异表达基因的比例),σΔ(效应大小的标准偏差),对于相关情况,相关系数ρ。为了评估样本量计算方法的准确性,我们采用析因设计进行模拟,每个因子(参数)的水平(值)总结如下表2对于48个参数设置中的每一个,对于多次测试,FDR控制在5%。

表2。

模拟研究中的参数值

参数模拟中的值
π00.995, 0.95, 0.9, 0.8
σΔ0.2、1、2
ρ0, 0.2, 0.5, 0.8
参数模拟中的值
π00.995, 0.95, 0.9, 0.8
σΔ0.2, 1, 2
ρ0, 0.2, 0.5, 0.8
表2。

模拟研究中的参数值

参数模拟中的值
π00.995, 0.95, 0.9, 0.8
σΔ0.2, 1, 2
ρ0, 0.2, 0.5, 0.8
参数模拟中的值
π00.995, 0.95, 0.9, 0.8
σΔ0.2, 1, 2
ρ0, 0.2, 0.5, 0.8

对于独立案例的每个参数设置,我们计算每个样本大小的预期功率,并生成功率曲线,如所述第2节。我们还模拟了200组数据并执行t吨-用q值程序测试每个数据集(Storey.,2004)控制FDR。对200个模拟数据集的观测功率进行平均,并记录观测到的错误发现比例。与仿真结果相比,基于我们计算的预期功率曲线与所有参数设置的仿真结果几乎没有区别。示例如所示图3a.因此,我们提出的方法提供了对样本大小的准确估计。观察到的FDR也接近控制水平(5%),如图3b、 证明Storey程序的有效性(2004).

图3。

模拟结果。()观察到的功率曲线用虚线绘制,而基于我们的计算的预期功率曲线用不同π的实线绘制0的。对于所有三π0而预期功率和观测功率之间的差异几乎无法区分。(b条)对应于的三个参数设置的观察到的错误发现率(FDR)()绘制。5%的受控水平用虚线表示。

由于许多基因可能作为群体发挥作用,因此很可能在基因表达数据中存在依赖性。为了检查所提出的方法在违反独立性假设时的性能,还根据依赖性结构模拟了基因表达水平(Ibrahim.,2002). 然后应用与上述相同的测试程序,并将所得功率曲线与我们的计算进行比较。

更具体地说,差异表达基因的基因表达水平根据以下描述的层次结构在25个区块中进行模拟第4节易卜拉欣的(2002):
哪里X(X)Y(Y)(= 1,2.…,G、 我,我= 1,2,…,n个)是对照组的基因表达水平(用X(X))和治疗组(索引为Y(Y))分别是。对于非差异表达基因,我们模拟μXg公司同上,设置μYg公司= μXg公司,据此我们模拟基因表达水平X(X)Y(Y)请注意,相关系数ρ等于论坛论坛带Δ= μYg公司- μX克功率曲线示例如所示图4。对于依赖案例的所有36个参数设置,其中34个显示的结果与图4a.这表明预期功率与实际功率非常接近。有两种设置,预期功率和计算值之间的差异相对较大。图4b包括较差的(ρ = 0.8)。即使在这种情况下,基于我们计算的样本大小的预期功率也与模拟结果非常接近。
图4。

模拟结果。观察到的功率曲线用虚线绘制,而基于我们的计算的预期功率曲线用实线绘制,用于不同的参数设置()和(b条).

当Δ论坛所有基因都是一样的,仿真结果表明,我们的方法可以为独立基因和依赖数据提供准确的样本大小估计,与上述仿真结果类似。

有几篇文章讨论了在控制FDR的同时计算样本量的问题。在这些文章中,杨(2003)英镑和程(2005)提供了明确定义的算法。我们在两个样本的背景下将我们的方法与这些方法进行了比较t吨-固定Δ试验论坛.表3结果表明,基于本文方法计算的样本量与基于仿真结果所需的实际样本量相吻合。杨的方法得到了与我们相似的答案,只是在某些情况下,它有点保守。Pounds和Cheng算法的答案在一种情况下过于宽松(当Δ/σ=1) 与其他两种方法相比,与正确答案的偏差更大。

表3。

样本量计算方法的比较,包括杨氏方法、Pounds和Cheng方法(PC),本文提出的方法(LH)与实际模拟结果(Simu)

Δ/ σ = 2Yang的个人计算机左侧西姆
π0 = 0.58766
π0 = 0.91010910
π0 = 0.9511111111
Δ/ σ = 2Yang的个人计算机左侧西姆
π0 = 0.58766
π0 = 0.91010910
π0 = 0.9511111111
Δ /σ = 1Yang的个人计算机左侧西姆
π0 = 0.522121818
π0 = 0.930162930
π0 = 0.9534183333
Δ /σ = 1Yang的个人计算机左侧西姆
π0 = 0.522121818
π0 = 0.930162930
π0 = 0.9534183333

根据80%的期望功率和5%的FDR选择样本量。

表3。

样本量计算方法的比较,包括Yang方法、Pounds方法和Cheng方法(PC),本文提出的方法(LH)与实际模拟结果(Simu)

Δ/ σ = 2Yang的个人计算机左侧Simu公司
π0 = 0.58766
π0 = 0.91010910
π0 = 0.9511111111
Δ/ σ = 2Yang的个人计算机左侧西姆
π0 = 0.58766
π0 = 0.91010910
π0 = 0.9511111111
Δ /σ = 1Yang的个人计算机左侧西姆
π0 = 0.522121818
π0 = 0.930162930
π0 = 0.9534183333
Δ /σ = 1Yang的个人计算机左侧西姆
π0 = 0.522121818
π0 = 0.930162930
π0 = 0.9534183333

根据80%的期望功率和5%的FDR选择样本量。

4讨论

微阵列实验中包含的阵列数量直接影响数据分析的能力。制定选择样本大小的指南至关重要。由于与这些数据集相关的巨大维度,在许多情况下,控制FWER是非常保守的(Storey和Tibshirani,2003). 相反,由Benjamini和Hochberg提出的FDR(1995)和Storey(2002)似乎是一种更适合控制的错误率,并已广泛应用于微阵列分析。因此,获得一种能够控制FDR并保证一定功率的样本大小的方法非常重要。

该方法很容易应用,如所述第2节对于t吨-和F类-测试。只要有一个明确的形式来计算单个测试的I型误差和功率,所提出的方法可以推广到其他测试。本文提出的方法允许在设计实验时以最小的工作量计算准确的样本量。

致谢

作者感谢两位评论员和格雷戈里·沃恩斯博士的深刻评论和建议。我们还感谢王冲博士指出数值积分的洛巴托求积。

参考文献

本杰米尼
Y(Y)
霍克伯格
Y(Y)
控制错误发现率:一种实用而有效的多重测试方法
J.R.Stat.Soc.B公司
1995
,卷。 
57
(第
289
-
300
)
本杰米尼
Y(Y)
霍克伯格
Y(Y)
独立统计多重测试中错误发现率的自适应控制
J.爱德华。行为。斯达。
2000
,卷。 
25
(第
60
-
83
)
X(X)
黄星京
JTG公司
J型
叶片
新冠肺炎
丘吉尔
通用航空公司
通过收缩方差分量估计改进差异基因表达的统计检验
生物统计学
2005
,卷。 
6
(第
59
-
75
)
多宾
K(K)
西蒙
R(右)
用于类别比较和预后分类的微阵列实验中的样本量确定
生物统计学
2005
,卷。 
6
(第
27
-
38
)
海勒
美赞臣
DNA微阵列技术:设备、系统和应用
每年。生物识别版本。工程师。
2002
,卷。 
4
(第
129
-
153
)
霍顿
JD公司
沙阿
沃灵顿
青年成就组织
安德森
NN公司
公园
软件
棕色
毫秒
戈尔茨坦
JL公司
转基因小鼠和敲除小鼠寡核苷酸微阵列数据的联合分析确定直接SREBP靶基因
程序。国家。阿卡德。科学。美国
2003
,卷。 
100
(第
12027
-
12032
)
J型
Z轴
洛维
J型
苏(Suh)
E类
多尔蒂
急诊室
不同分类规则的最佳特征数量与样本大小的函数关系
生物信息学
2005
,卷。 
21
(第
1509
-
1515
)
黄星京
D类
施密特
华盛顿州
斯特凡诺普洛斯
G公司
斯特凡诺普洛斯
G公司
微阵列数据中最小样本量和歧视性表达模式的确定
生物信息学
2002
,卷。 
18
(第
1184
-
1193
)
易卜拉欣
JG公司
M(M)
灰色
RJ公司
基于DNA微阵列数据的基因表达贝叶斯模型
美国统计协会。
2002
,卷。 
97
(第
88
-
99
)
荣格(Jung)
上海
微阵列数据分析中FDR控制的样本量
生物信息学
2005
,卷。 
21
(第
3097
-
3104
)
机器翻译
惠特莫尔
通用航空公司
DNA微阵列研究的功率和样本量
《统计医学》。
2002
,卷。 
21
(第
3543
-
3570
)
曼德尔
S公司
魏因雷布
O(运行)
尤迪姆
MBH公司
用cDNA微阵列评估帕金森病模型和神经保护药物的作用
趋势药理学。科学。
2003
,卷。 
24
(第
184
-
191
)
帕伊坦
Y(Y)
米歇尔斯
S公司
科斯切尔尼
S公司
古斯南托
A类
钳子
A类
微阵列研究的错误发现率、敏感性和样本量
生物信息学
2005
,卷。 
21
(第
3017
-
3024
)
英镑
S公司
C类
错误发现率的样本量确定
生物信息学
2005
,卷。 
21
(第
4263
-
4271
)
Quackenbush公司
J型
微阵列数据规范化和转换
自然遗传学。供应商。
2002
,卷。 
32
(第
496
-
501
)
斯迈思
GK公司
YH公司
速度
T型
微阵列数据分析中的统计问题
方法分子生物学。
2003
,卷。 
224
(第
111
-
136
)
故事
JD公司
错误发现率的直接方法
J.R.Stat.Soc.B公司
2002
,卷。 
64
(第
479
-
498
)
故事
JD公司
提比什拉尼
R(右)
全基因组研究的统计意义
程序。国家。阿卡德。科学。美国
2003
,卷。 
100
(第
9440
-
9445
)
故事
JD公司
泰勒
JE公司
西格蒙德
D类
强控制、保守点估计和同步速率:统一方法
J.R.Stat.Soc.B公司
2004
,卷。 
66
(第
187
-
205
)
华恩丝
希腊
线路接口单元
2006年6月技术报告《微阵列实验样本量估算》
2006
罗切斯特大学
生物统计与计算生物学系
赖特
千兆瓦
西蒙
马来西亚令吉
用于检测小型微阵列实验中差异基因表达的随机方差模型
生物信息学
2003
,卷。 
19
(第
2448
-
2455
)
YH公司
速度
T型
比较微阵列实验的设计与分析
基因表达芯片数据的统计分析
2003
查普曼和霍尔/CRC出版社
第页
51
 

作者注释

副主编:Joaquin Dopazo

补充数据