Power and sample size estimation in microarray studies

Wei-Jiun Lin; Huey-Miin Hsueh; James J Chen

doi:10.1186/1471-2105-11-48

BMC生物信息学。2010; 11:48。

2010年1月25日在线发布。数字对象标识：10.1186/1471-2105-11-48

预防性维修识别码：项目经理2837028

PMID：20100337

微阵列研究中的功率和样本量估计

林伟钧，¹ 许美音，²和James J Chen（詹姆斯·J·陈）^1,^三

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 附加文件1该方法算法的软件为该方法的算法提供了软件和实例。
1471-2105-11-48-S1.TXT号（320万）
GUID:816FBADE-06A8-4A34-B180-AD5ABA830EF1

摘要

背景

在进行微阵列实验之前，需要确定的一个重要问题是为了有足够的能力识别差异表达基因所需的阵列数量。本文讨论了微阵列实验中常见的问题公式、参数规范和样本量估计方法中的一些关键问题。样本量估算的常用方法被定义为达到规定灵敏度所需的最小样本量（检测到的真正差异表达基因的比例）平均值以指定的错误发现率（FDR）级别和指定的预期比例(π₁)阵列中真正的差异表达基因。不幸的是，在这样的配方中检测到指定灵敏度的概率可能很低。我们将样本量问题表述为达到指定灵敏度所需的阵列数量95%概率在规定的显著性水平。提出了一种利用小样本导频数据集估计样本量的置换方法。该方法解释了基因之间的相关性和效应大小异质性。

结果

为了达到期望的平均灵敏度，可以使用单变量方法计算基于通用公式的样本量估计，而不考虑基因之间的相关性。这种样本量问题的公式是不充分的，因为检测到指定灵敏度的概率可能低于50%。另一方面，通过所提出的置换方法计算出的所需样本量将确保以95%的概率至少检测到所需的灵敏度。该方法对于一个实际示例数据集（使用每组4-6个样本的小型先导数据集）表现良好。

结论

我们建议制定样本量问题，以95%的概率检测特定比例的差异表达基因。此公式确保以高概率找到所需的真阳性比例。所提出的置换方法考虑了相关性结构和效应大小的异质性，仅使用一个小的先导数据集就可以很好地工作。

背景

DNA微阵列技术为同时研究数百或数千个不同基因的表达谱提供了工具。微阵列研究的一个基本目标是确定在感兴趣的实验条件下差异表达的基因子集。在进行微阵列实验之前，需要确定的一个重要问题是为了有足够的能力识别差异表达基因所需的阵列（重复）数量。

针对不同的I类错误规范，如家庭错误率（FWE），已经开发了许多样本量估计方法[1-三]，错误发现率（FDR）[4-8]，以及假阳性的数量[7，9]。微阵列研究的样本量通常计算为达到指定功率所需的阵列数量平均值（例如[三-6，9，10]). 这种能力，即预期检测到的真正差异表达基因的比例，被称为敏感性。通过计算样本量估计值以达到规定的灵敏度平均值，检测到的真正差异表达基因的比例往往低于平均值。因此，计算的样本量往往会给出过于乐观的结果。或者，Wang和Chen[2]，Tsai等人[7]邵和曾[8]提出了一种替代公式：计算样本量以确保以指定的概率检测到至少指定的灵敏度水平。这将被称为（置信）概率公式。

当制定样本量问题以达到规定的灵敏度时平均值，我们将表明，可以使用单变量样本量公式简单地计算所需的样本量，而不考虑基因之间的依赖性。另一方面，如果问题的形式是以特定的概率达到特定的灵敏度，则需要估计灵敏度分布的百分位。在这种情况下，需要考虑基因之间的依赖性。Tsai等人[7]提出了一种在所有基因具有恒定功率的独立或等相关正态分布模型下控制比较误差率（CWER）的方法。邵和曾[8]提出了一种在正态分布下估计一般相关矩阵的无模型方法。他们使用了72个样本的数据集来说明相关性矩阵的估计。然而，先导数据的大小通常很小，每组10个或更少，并且真阳性的估计方差通常为负（零），导致我们的模拟研究中对样本大小的估计较差。提比什拉尼[10]提出了一种用于估计特定样本量的FDR和平均灵敏度的置换方法。Tibshirani的方法只需要少量的试验数据集，并且完全无模型，即不需要对测试统计的分布、效应大小和相关性进行假设。然而，检验统计量的标准差估计值（标准误差）取决于样本量。小样本量的测试统计值的变化比大样本量的变化大。由于试验数据集的样本量通常很小，因此基于小试验数据集得出的截止水平通常会超过所需样本的实际截止水平，从而导致对所需样本量的过高估计。

本文概述了幂规范和参数规范，并提出了概率公式下样本容量确定的置换方法([2，7，8]). Tibshirani的方法[10]通过加入一个调整因子来改进以获得更正确的排列分布。该方法使用每组4到6个样本的小型试验数据集；该方法需要的样本比Tibshirani少[10]方法。当试验数据集的样本量较大时，所提出的方法和Tibshirani[10]方法是等效的。

方法

让米表示在数组中研究的基因数量，其中米₀和米₁分别是非差异表达基因和差异表达基因的数量。给定显著性水平α（按比较误差率）米测试可以总结为一个2×2的表（表（表11).

表1

测试m个假设时的四种可能结果。

真实自然状态	宣布重要	声明不重要	总计
无效的	V（V）	S公司	米₀

备选方案	U型	T型	米₁

总计	R（右）	米-R（右）	米

在单独的窗口中打开

V（V）是被错误拒绝的真零假设的数量；

U型是正确拒绝的真实替代假设的数量；

S公司是正确未被拒绝的真零假设的数量；

T型是未被错误拒绝的替代假设的数量；

R（右）是被拒绝的空假设总数米测验。

V（V）/米₀是宣布显著的未差异表达基因的比例，其期望值是每次比较的错误率E(V（V）)/米₀=α.V（V）/R（右）是已声明的重要基因在已声明的、实际上没有差异表达的重要基因总数中的比例。它的期望值是错误发现率E(V（V）/R（右）) =q个，给定R（右）> 0.U型/米₁是正确声明的真正差异表达基因的比例。在诊断问题中，这个比例通常被称为真阳性率或灵敏度。通过取期望值，我们得到了“平均灵敏度”E(U型)/米₁，表示为λ.

样本量估计

在样本量估计中，米，米₁和（标准化）效果大小δ= (δ₁,...,δ_米1)因为差异表达基因是由研究者预先指定的。估计达到规定灵敏度所需的样本量λ₀一般来说，这很简单。自米₁和λ₀是预先指定的，给定FDR级别q个*每次比较误差率的相应显著性水平α很容易计算。设置α= [米₁λ₀q个*]/[米₀(1-q个*)]，FDR将控制在q个*足够大的米₁和米₀.

如果δ_我=δ₀对所有人来说都是不变的我，然后是比较功率（1-β)单变量检验的结果与λ₀.给定α，δ₀、和（1-β) =λ₀，样本量可以基于单变量样本量计算，如下所示

(1)

哪里t吨_α和t吨_β是a的百分位数t吨-分配。如果δ_我那么，是不同的β_我=t吨^-1( 保存图片、插图等的外部文件。对象名为1471-2105-11-48-i2.gif )根据方程式（1）。样本量n个*可以通过以下公式计算

（2）

所需的样本量为n个= ⌈n个*É，其中n个*⌉是大于或等于的最小整数n个*. 给定样本大小n个经计算，一个真正差异表达基因的单变量测试结果可以用贝努利随机变量建模，成功概率至少为（1-β_我)自n个≥n个*. 实际检测的预期数量至少为米₁λ₀无论基因之间的相关结构如何，因此平均可以达到期望的灵敏度。大多数样本量估计方法要么基于此方法，要么基于扩展[三-6，9-11]。然而，根据该公式计算的样本量不足；下面显示了一个独立模型下的简单演示。

鉴于米，π₁(=米₁/米)，效果大小恒定δ_我=δ₀，q个*,λ₀，以及计算的样本量n个（基于方程1），在独立模型下，检测到的真正差异表达基因的总数U型是具有成功概率（1）的二项式随机变量-β) (≥λ₀自从n个≥n个*). 概率ϕ_λ0至少确定λ₀的分数米₁差异表达基因可以计算为二项式概率之和[2，7]:

(3)

使用方程（1）估计样本量的方法称为单变量方法。表第3-5列表22显示估计的样本大小n个，平均灵敏度λ和概率ϕ_λ0在λ₀= 0.6, 0.7, 0.8, 0.9. 计算中使用的参数为：米= 2,000,π₁= 5%, 10%, 20%,δ₀=2和q个* = 0.05. 可以看出ϕ_λ0可以小于60%。也就是说，使用此公式计算所需阵列可能会导致实验的灵敏度低于指定的λ₀概率超过40%。

表2

独立模型下的平均公式与95%概率公式。^一

		平均配方：单变量法			95%概率公式：二项式方法

π₁	λ₀	n个^b条	λ	ϕ_λ0	n个^c（c）	λ	ϕ_λ0
5%	60%	9	0.70	0.985	9	0.70	0.985
	70%	9	0.70	0.576	10	0.81	0.997
	80%	10	0.81	0.681	11	0.88	0.993
	90%	12	0.92	0.866	13	0.95	0.992
10%	60%	8	0.70	0.999	8	0.70	0.999
	70%	8	0.71	0.687	9	0.82	1
	80%	9	0.82	0.841	10	0.89	1
	90%	11	0.93	0.977	11	0.93	0.977
20%	60%	7	0.72	1	7	0.72	1
	70%	7	0.74	0.975	7	0.74	0.975
	80%	8	0.85	0.996	8	0.85	0.996
	90%	9	0.91	0.792	10	0.95	1

在单独的窗口中打开

a.估计样本量n个，平均灵敏度λ和概率ϕ_λ0对于规定的灵敏度λ₀=独立模型下的60%、70%、80%、90%。计算中使用的参数为：米= 2,000,π₁= 5%, 10%, 20%,δ₀=2和q个* = 0.05.

b.样本量n个由方程式（1）中的单变量方法计算得出，以获得灵敏度λ₀平均而言。

c.样本量n个使用Tsai等人[7]确保概率的方法ϕ_λ0至少检测到λ₀差异表达基因的比例至少为95%。

或者，王和陈[2]将问题公式化为：达到指定灵敏度所需的阵列数量λ₀有可能ϕ_λ0.在此配方中λ₀和ϕ_λ0需要指定，但不一定相等。这个ϕ_λ0设置为95%，因为它符合使用95%置信概率的常见统计实践。在此配方下，对于指定的λ₀计算所需的阵列数量，使平均灵敏度大于λ₀和5^第个百分位数，λ₅灵敏度分布U型/米₁大于λ₀:

在独立和恒定效应规模模型中，Tsai等人[7]使用方程（1）和（3）估计所需的样本量，即二项式方法。表第6-8列表22显示估计的样本大小n个，平均灵敏度λ，以及概率ϕ_λ0对于λ₀= 0.6, 0.7, 0.8, 0.9. 第8列中的概率均高于95%，原因是n个≥n个*. 该程序将确保以至少95%的概率检测到特定比例的差异表达基因。

在表中表2，2，理论结果表明，这两种方法给出了相当接近的样本量估计。估计值的差异反映了两种公式的差异；什么时候δ₀=2，差值最大为1。对于给定的灵敏度，所需的样本大小随着效应大小的增加而增加δ₀减少，估计值中两个公式的差异较大。我们使用与表中相同的参数计算样本大小表22对于δ₀= 1. 样本量差异大约是表的四倍表22（未显示数据）。

样本量估计的置换方法

提比什拉尼[10]提出了一种置换方法，利用先导数据集评估样本大小，来解释基因之间的依赖性和不均匀效应大小。此方法用于估计所需的样本量。由于导频数据的样本大小通常小于所需的样本大小，因此导频数据生成的零分布具有更多变化；简单地使用小样本数据集生成的空分布可能会高估所需的样本大小。从提比什拉尼改进的程序[10]下面提出了对样本量估计进行适当调整的方法。

为了简单起见，假设每组中的样本大小相等，表示为n个=n个₀=n个₁从一些试验数据开始，每组至少有4个样本，表示为n个_0便士和n个_1便士分别用于对照组和治疗组。对于指定的米，米₁，δ= (δ₁, ...,δ_米1),q个*、和λ₀，两个样本的算法t吨-测试描述如下。

算法：样本量估计（参见附加文件1对于软件应用程序）

1.设置α= [米₁λ₀q个*]/[米₀(1 -q个*)]，使用Tsai等人的方法[7]（表第6列表2）2)找到所需的样本量作为初始样本量n个.

2.计算调整系数（f）=（f）₁（f）₂哪里保存图片、插图等的外部文件。对象名为1471-2105-11-48-i6.gif ，、和t吨_{数据流，第页}是第页^第个a的百分位数t吨-分配数据流自由度。

3.生成b条-第个置换样本。

4.计算t吨-所有基因排列样本的统计和样本标准差。

5.分别乘以t吨-按因子统计（f）并添加保存图片、插图等的外部文件。对象名为1471-2105-11-48-i8.gif 到一组随机选择的米₁t吨-产生排列的差异表达基因的统计t吨-统计学秒_b条= {秒_0b条，秒_1b条}，其中秒_0b条是非差异表达基因的集合，并且秒_1b条是差异表达基因的集合秒_0b条=（f）t吨_0b条和秒_1b条=（f）t吨_1b条+ 保存图片、插图等的外部文件。对象名为1471-2105-11-48-i8.gif ，其中t吨_0b条和t吨_1b条是的向量t吨-统计，δ是效果大小的向量是样本标准偏差的矢量。

6.存储排列统计信息秒_b条.

7.对所有可能的排列重复3-6，b条= 1, 2, ...,N个，其中N=(n个_0便士+n个_1便士)C类n个_0便士

8.通过汇集来自非差异表达基因集的所有排列统计数据来构建零分布秒₀= {秒₀₁，秒₀₂, ...,秒_0N个}. 找到100×(α/2)^第个和100×（1-α/2)^第个百分位数作为临界值。

9.计算真阳性的显著性数量u个_b条对于中的每个统计秒_1b条对于每个置换样本b条= 1, 2, ...,N个.

10.订单u个₁，u个₂, ...,u个_N个，然后找到5个^第个百分位数，表示为u个*.

11.比较u个*至米₁λ₀.如果u个* ≥米₁λ₀，停止并报告n个作为样本量估计；否则，增加n个1，然后转到2。

在所提出的算法中，置换t吨-汇集所有可能排列的非差异表达基因的统计数据，以估计测试统计数据的零分布（步骤8）。真阳性数(U型)由于每个排列样本中的差异表达基因集已知，因此对每个排列样本进行了估计（步骤9）。真阳性数的分布U型及其5^第个百分位数u个*估计（步骤10）。为了减少排列分布的过度变化，建议的方法包括调整因子：（f）=（f）₁（f）₂。调整系数由两个比例系数组成：（f）₁和（f）₂第一个因素，（f）₁，说明了试点研究和计划研究之间的不同样本量以及第二比例因子，（f）₂，使用的最大似然估计t吨-统计[12]。当试点数据的样本量较大时，这两个因素（f）₁和（f）₂收敛到1，提议和Tibshirani[10]方法是等效的。（请注意，Tibshirani的方法是基于平均公式提出的。）由于置换技术用于估计临界值和灵敏度分布，因此对t吨-统计和统计之间的相关性。此外，该方法不需要估计所有基因之间的协方差矩阵，这在导频数据集样本量较小时会导致计算困难。

结果

进行了两次模拟分析，以评估上述两种样本量估计公式。第一次分析在独立和恒定效应大小模型下评估了这两种配方。两种配方的理论结果如表所示表2。2模拟分析提供了经验验证。第二个分析在相关模型下评估了四种方法：1）单变量方法（例如Jung[4]); 2）邵和曾[8]无模型方法，3）Tibshirani[10]置换法；以及4）所提出的置换方法。单变量方法是为平均公式设计的，而其他三种方法是使用先导数据集以95%的概率考虑的。表中的相同模型参数表22用于评估。I类错误率基于将FDR设置为q个* = 0.05. 请注意，有许多具有不同策略的多重测试FDR程序。例如，Storey的FDR程序[13]包括对非差异表达基因数量的估计米₀然而，为了最大限度地减少估计中的变化带来的混淆影响米₀，我们只是使用了米₀在我们的仿真分析中。计算给定参数值的样本大小。FDR的经验估计，平均灵敏度λ和概率ϕ_λ0然后进行计算和评估。使用true米₀在FDR的控制下，对提议的程序进行直接验证。

第一次模拟研究的目的是验证表中所示两种方法的样本量、灵敏度和95%概率的理论结果表22在独立模型下。我们从表的第3列或第6列中生成了1000个模拟样本，每组样本大小表2。2。对于空模型，米₀=米× (1 -π₁)基因来自独立标准正常N（0,1）；对于替代模型，米₁=米×π₁基因是基于独立的正常N生成的(δ₀, 1). 对于每个模拟样本集t吨-计算统计学和相应的p值，以及FDR水平的假阳性和真阳性的数量q个*=0.05。FDR的经验估计，平均灵敏度λ和概率ϕ_λ0然后进行计算。估计ϕ_λ0是1000个模拟中真阳性数不小于的时间比例米₁×λ₀.

表表3三显示了两种方法的实证结果。在这两种方法中，经验FDR似乎接近名义水平。对于单变量方法，经验平均灵敏度λ除了π₁=0.05和λ₀= 70%. 概率ϕ_λ0小于50%，对于π₁=0.05和λ₀= 70%. 对于二项式方法，经验平均灵敏度λ的都大于指定的级别。大多数可能性ϕ_λ0的值超过95%，除了π₁= 0.05,λ₀= 60%,π₁= 0.10,λ₀=90%和π₁= 0.20,λ₀= 70%. 表的实证结果表3三通常与表中所示的理论值一致表2。2也就是说，使用单变量方法计算的样本量通常会达到规定的平均灵敏度；然而，达到规定灵敏度的概率可以低于50%。

表3

表2中理论结果的验证。^一

		平均配方				95%概率公式

		单变量法				二项式方法				置换
π₁	λ₀	n个^b条	q个	λ	ϕ_λ0	n个^c（c）	q个	λ	ϕ_λ0	n个^d日

5%	60%	9	0.0505	0.69	0.937	9	0.0505	0.69	0.937	11.3（0.453）
	70%	9	0.0505	0.69	0.497	10	0.0502	0.80	0.983	12.5（0.507）
	80%	10	0.0502	0.80	0.506	11	0.0494	0.87	0.961	14.2(0.485)
	90%	12	0.0492	0.91	0.730	13	0.0484	0.95	0.965	17.1(0.568)
10%	60%	8	0.0490	0.71	0.997	8	0.0490	0.71	0.997	9.8(0.361)
	70%	8	0.0490	0.71	0.589	9	0.0506	0.81	1	10.8(0.368)
	80%	9	0.0506	0.81	0.688	10	0.0503	0.88	0.999	12.1(0.291)
	90%	11	0.0497	0.93	0.921	11	0.0497	0.93	0.921	14.6(0.491)
20%	60%	7	0.0498	0.73	1	7	0.0498	0.73	1	8.0（0.089）
	70%	7	0.0498	0.73	0.901	7	0.0498	0.73	0.901	9.0(0.045)
	80%	8	0.0491	0.84	0.966	8	0.0491	0.84	0.966	10.1(0.224)
	90%	9	0.0501	0.90	0.627	10	0.0497	0.94	0.999	12.2(0.384)

在单独的窗口中打开

a.FDR的经验估计q个，平均灵敏度λ、和概率ϕ_λ0平均公式的单变量方法和95%概率公式的二项式方法。计算中使用的参数为：米= 2,000,δ₀=2，和q个* = 0.05.

b.样本量n个由方程式（1）中的单变量方法计算得出，以获得灵敏度λ₀平均而言。

c.样本量n个使用Tsai等人[7]确保灵敏度的方法λ₀概率为95%。

d.样本大小n个使用建议的排列方法计算（标准偏差），以确保灵敏度λ₀在独立模型下，以95%的概率对群体规模4进行了初步研究。

为了进行比较，表的最后一列还提供了使用组大小为4的试验数据集的拟议排列方法的样本大小估计值的平均值和标准偏差表3。三。引导数据是从每次模拟的正态分布中随机生成的。提出的方法往往会高估多达五个阵列所需的样本量。

第二个分析是评估四种方法，即单变量方法（Jung[4])、Shao和Tseng[8]，提比什拉尼[10]，并在使用已知结肠癌数据集的相关模型下提出置换方法[14]。结肠癌数据集[14]由22个正常结肠肿瘤组织和40个结肠肿瘤组织样本组成，共有2000个基因。分析包括两个步骤。第一步根据每组样本量为4和6的试验数据集，评估了三种95%概率公式方法获得的样本量估计值。第二步将第一步提出的方法估计的样本量与单变量方法估计的样本量进行比较。

在第一步中，从结肠数据集中随机选择4个样本，每组不进行替换，以形成试点数据集。上述算法用于估计所提方法和Tibshirani的样本大小[10]方法。例如，对于π₁= 5%,q个*=0.05和λ₀=90%，初始样本量为n个=13（表第6列表2）2)和α= 0.00249. 恒定的效果大小δ_我=δ₀已考虑=2。对于建议的排列方法（f）是（f）₁=0.6777和（f）₂= 保存图片、插图等的外部文件。对象名为1471-2105-11-48-i10.gif =1.155，而Tibshirani未进行调整[10]方法。对于邵和曾[8]无模型方法，相关矩阵t吨-统计数据是通过使用来自先导数据集的所有可能的置换数据集进行估计的。然而，邵氏和曾氏[8]大多数情况下，无模型方法存在计算困难。详情稍后给出。

重复该过程1000次，从每组中选择大小为4的不同先导数据集，以说明先导数据集的变化。Tibshirani样本量估计的平均值和标准偏差[10]和建议的方法进行了计算，如表的第4列和第5列所示表4。4一元方法被视为标准方法，估计值列于第3列。Tibshirani估计的所需样本量[10]或者在每种情况下，所提出的方法都大于单变量方法。在每种情况下，单变量方法和提出的方法之间的差异小于每组5个数组。来自Tibshirani的平均值和标准差估计[10]该方法比所提出方法的估计值大得多。差异随着λ₀增加或π₁减少。注意，在独立模型下，拟议方法的样本量和标准偏差估计值较小（表（表3三).

表4

建议方法和Tibshirani的样本量估计（标准偏差）[10]效应大小为2的相关模型下的置换方法。^一

			小组规模4的试点研究		小组初步研究尺寸6		大小为62的完整数据

π₁	λ₀	n个^b条	n个^c（c）	n个^d日	n个^c（c）	n个^d日	n个^{e（电子）}
5%	60%	9	12.2(2.931)	20.2(6.529)	12.7(2.193)	14.9(3.347)	9.5
	70%	9	13.1(2.848)	21.6(6.209)	13.4(2.330)	15.9(3.504)	10.3
	80%	10	14.3(3.017)	23.6(6.399)	14.4(2.335)	17.2(3.547)	11.5
	90%	12	16.3(2.997)	27.1(6.303)	16.1(2.365)	19.5（3.559）	13.7
10%	60%	8	10.9(2.409)	15.7(4.664)	11.5(2.015)	12.5(2.828)	8.1
	70%	8	11.8(2.544)	16.8(4.858)	12.1(2.096)	13.4(2.971)	8.8
	80%	9	13.0(2.601)	18.6(4.809)	13.0（2.033）	14.4(2.852)	9.8
	90%	11	14.7(2.944)	21.5(5.250)	14.6(2.275)	16.4(3.099)	11.8
20%	60%	7	9.8(2.184)	12.2（3.608）	10.3(1.832)	10.4(2.390)	6.7
	70%	7	10.4(2.236)	12.8(3.675)	10.7(1.899)	10.9(2.446)	7.3
	80%	8	11.4(2.414)	14.2(3.709)	11.6(1.995)	11.9(2.506)	8.2
	90%	9	13.1(2.515)	16.5(3.902)	13.0(2.074)	13.6(2.603)	9.9

在单独的窗口中打开

a.样本量估计基于使用结肠肿瘤数据的1000次重复[14]每组4个样本和6个样本作为试验数据集。计算中使用的参数为：米= 2,000,δ₀=2和q个*=0.05。

b.单变量方法。

c.建议的排列方法

d.提比什拉尼人[10]置换法。

e.邵和曾[8]无模型方法使用全部62个样本。

对初始试验数据集的6个样本重复该过程。估计值如第6列和第7列所示。建议的程序从两个试点样本大小得出了一致的结果；然而，Tibshirani的结果[10]方法有很大不同。Tibshirani方法没有充分考虑试点样本大小。当试点样本量远小于所需样本量时，Tibshirani对样本量的高估[10]方法变得严重。随着试点研究规模越来越接近所需的样本规模，Tibshirani[10]所提出的方法将给出类似的结果。

在我们的仿真中，Shao和Tseng中的算法B[8]无法在所有1000次复制中成功为组大小为4的试点数据生成解决方案。当组大小增加到6时，该算法仅在以下情况下有效π₁= 20%,λ₀=60%和70%；样本量估计值的平均值（标准偏差）分别为6.4（0.012）和6.8（0.012”）。估计值似乎太小而不正确。该方法似乎不适用于小样本。使用整个结肠癌数据集[14]在62个样本中，样本量估计值如第8列所示。与单变量方法相比，估计通常需要多出一个或两个数组，但比提出的方法少。自从Tibshirani[10]方法给出了更大的估计值，Shao和Tseng[8]给出的估计值小于建议的方法。在第二步分析中，对单变量方法和建议的方法进行了评估。

两种方法的性能比较与表中所示类似表3。三这些数据是从结肠癌数据集而不是从独立模型下的正常随机变量中取样的，没有进行替换。样本大小基于表的第3列或第4列表4。4。然后对数据进行随机排列，以消除两组之间的差异，以及一个共同的效应大小δ₀=2被添加到一组随机选择的米₁肿瘤组中的基因。对于每个重新采样的数据集，使用置换测试生成p值，并使用以下公式计算假阳性和真阳性的数量q个* = 0.05. 计算置换测试的重复次数为10000次。FDR的经验估计，λ和ϕ_λ0已计算。整个过程重复1000次。

表表55显示了对q个*,λ、和ϕ_λ0对于这两种方法。这两种方法都能很好地控制FDR并达到所需的灵敏度。因此，可以预期这两种方法在实践中具有令人满意的性能。然而，对于单变量方法，经验ϕ_λ0估计值在55%到75%之间，只有一个是80%。人们必须承担敏感度低于规定水平的风险。

表5

FDR的经验估计，平均灵敏度λ、和概率ϕ_λ0根据单变量方法和基于表4结果的建议方法。

		平均配方：单变量法				95%概率公式：建议的方法

π₁	λ₀	n个	q个	λ	ϕ_λ0	n个	q个	λ	ϕ_λ0
5%	60%	9	0.0412	0.65	0.661	13	0.0431	0.94	0.976
	70%	9	0.0424	0.65	0.558	14	0.0443	0.97	0.984
	80%	10	0.0389	0.76	0.611	15	0.0458	0.99	0.993
	90%	12	0.0460	0.91	0.743	17	0.0426	1	0.998
10%	60%	8	0.0427	0.66	0.666	11	0.0474	0.92	0.964
	70%	8	0.0419	0.66	0.585	12	0.0478	0.96	0.973
	80%	9	0.0431	0.78	0.666	13	0.0450	0.98	0.981
	90%	11	0.0466	0.92	0.800	15	0.0475	1	0.994
20%	60%	7	0.0433	0.69	0.711	10	0.0447	0.94	0.975
	70%	7	0.0448	0.69	0.634	11	0.0498	0.97	0.987
	80%	8	0.0428	0.81	0.703	12	0.0496	0.99	0.994
	90%	9	0.0442	0.89	0.716	14	0.0488	1	1

在单独的窗口中打开

的效果大小δ₀=2（表（表4）4)使用结肠癌数据集在相关模型下验证所提出的置换方法[14]。实际上，效果大小可以小得多。我们使用与表中相同的参数计算样本大小表44具有效果大小δ₀=1，对于两个试验样品尺寸4和6。样本量估计如表所示表6。6.建议的程序对两个试点样本大小给出了类似的结果，这与以下结果一致δ₀=表中的2表4。4。单变量方法和建议方法之间的差异约为每组15个数组。Tibshirani家族[10]对于4个和6个导频样本，每个组需要多达67个和35个额外阵列。邵和曾的估算[8]只有当试点研究规模大于或等于所需样本规模时，才能对方法进行评估。

表6

建议方法和Tibshirani的样本量估计（标准偏差）[10]效应大小为1的相关模型下的排列方法。^一

			小组初步研究尺寸4		小组初步研究尺寸6		的全部数据尺寸62

π₁	λ₀	n个^b条	n个^c（c）	n个^d日	n个^c（c）	n个^d日	n个^{e（电子）}
5%	60%	26	39.4(11.166)	77.8(22.283)	40.5(8.743)	56.8(12.376)	29
	70%	29	43.0(11.659)	84.5(24.442)	43.5(8.913)	61.1(13.570)	31.7
	80%	33	48.7(13.104)	92.2(23.398)	47.8(9.138)	65.4(13.134)	NaN公司
	90%	40	56.8(13.846)	106.3(25.373)	54.3(9.168)	74.1(13.846)	NaN公司
10%	60%	23	34.9(9.140)	60.9（18.692）	36.8(8.074)	48.5(12.212)	25
	70%	26	38.8(9.821)	66.2(18.993)	40.0(8.408)	52.0(11.819)	27.8
	80%	29	43.3(10.399)	72.5(18.492)	43.3(8.475)	55.8（11.662）	31.4
	90%	35	50.2(10.649)	83.7(20.271)	49.5(8.593)	64.0(12.485)	NaN公司
20%	60%	19	31.1(9.066)	47.0（14.301）	32.6(7.572)	39.8(9.552)	20.7
	70%	22	34.4(8.740)	50.4(14.156)	35.7(7.816)	42.6(9.570)	23.4
	80%	25	38.6(9.611)	55.5(15.393)	39.0(7.766)	46.6(10.415)	27
	90%	31	44.7(9.655)	63.6(14.919)	44.5(7.999)	52.3(10.313)	32.3

在单独的窗口中打开

a.样本量估计基于使用结肠肿瘤数据的1000次重复[14]每组4个样本和6个样本作为试验数据集。计算中使用的参数为：米＝2000，δ₀=1和q个* = 0.05.

b.单变量方法。

c.建议的排列方法

d.提比什拉尼人[10]置换法。

e.邵和曾[8]无模型方法使用全部62个样本。

讨论和结论

在进行微阵列实验之前，确定所需的样本量是一个重要问题。样本量问题通常表示为达到规定灵敏度所需的阵列数量λ平均而言。本文证明了在该公式下计算的样本量可能具有灵敏度λ平均在规定的水平，但概率ϕ_λ由于灵敏度分布的差异，达到规定的灵敏度可能很低（小于50%）。此外，在这个公式下，本文表明，无论基因表达水平之间的相关结构如何，样本量都可以用单变量方法计算；解释相关性的程序，如Li等人[6]不需要（表（表5）。5). 这些发现与Jung报告的结果一致[4]多宾和西蒙[11]。然而，本文为这种方法提供了理论解释。

在置信概率公式下，估计样本大小时需要考虑基因表达之间的依赖性，因为敏感性分布的百分位数不仅取决于单个基因的影响大小，还取决于它们的相关性。我们基于Tibshirani提出的方法提出了一种置换方法[10]，但包括一个调整系数和一个要求，以95%的概率达到特定的灵敏度。调整系数可以更准确地估计功率和样本大小。邵和曾[8]还根据置信概率制定了所需的样本量。在正态假设下，邵和曾[8]使用初步数据集提出了基因间轻度相关性的算法。他们表明，他们的方法对72个样本的示例数据集很有效。然而，在我们的结肠数据集模拟中使用他们的算法B（结肠数据集的平均相关性约为0.4），当初始样本量为4或6时，真阳性的估计方差可能为负。他们的程序对于样本量较小的小样本试验数据集没有很好的表现。实际上，试点数据的样本量通常很小。我们的模拟研究表明，我们的程序可以很好地处理每组4到6个样本。然而，当相关性很小时，我们的程序似乎过高估计了所需的样本量，尤其是在小效应量的情况下。在这种情况下，我们的模拟结果表明（f）₂可能不需要（未显示数据）。

用于数据分析的特定多重测试程序的选择会影响样本量估计中的错误率和功率。在数据分析中使用保守的程序可能会降低研究的“力量”；有时，计算出的样本量可能具有低于指定水平的灵敏度。例如，在本文中，计算基于非差异基因的真实数量米₀然而，如果数据分析使用高估值米₀比如Benjamini和Hochberg程序[15]，则功率可能低于所需水平。另一种方法是使用基因总数米而不是非差异基因的数量米₀估计样本量。无论使用哪种多重测试程序进行数据分析，该程序均应产生适当的样本量，以达到规定概率的期望灵敏度。

作者的贡献

JJC构思了这项研究并撰写了手稿。JJC和WJL开发了该方法并证明了理论结果。WJL实现了这些算法。HMH改进了平均和95%置信概率公式的概念。JJC、HMH和WJL进行了分析。所有作者阅读并批准了最终手稿。

补充材料

附加文件1：

该方法算法的软件为该方法的算法提供了软件和实例。

单击此处获取文件^{（3.2K，德克萨斯州）}

致谢

Huey-Miin Xsueh的研究是在访问NCTR时完成的。作者非常感谢审稿人对本文的修改和改进提出了许多有益的意见和建议。本文中的观点是作者的观点，并不一定代表美国食品和药物管理局的观点

工具书类

Yang MCK、Yang JJ、McIndoe RA。微阵列实验设计：功率和样本大小的考虑。生理基因组学。2003;16:24–28. doi:10.1152/生理基因组学.0037.2003。[公共医学] [交叉参考][谷歌学者]
王四杰、陈俊杰。用于在微阵列实验中识别差异表达基因的样本大小。计算机生物学杂志。2004;11:714–726. doi:10.1089/cmb.2004.11.714。[公共医学] [交叉参考][谷歌学者]
Jung S-H，Bang H，Young S.微阵列数据分析中多重测试的样本量计算。生物统计学。2005;6:157–169. doi:10.1093/biostatistics/kxh026。[公共医学] [交叉参考][谷歌学者]
Jung S-H。微阵列数据分析中FDR控制的样本量。生物信息学。2005;21：S3097–3104。doi:10.1093/bioinformatics/bti456。[公共医学] [交叉参考][谷歌学者]
Pounds S，Cheng C.错误发现率的样本量测定。生物信息学。2005;21:4263–4267. doi:10.1093/bioinformatics/bti699。[公共医学] [交叉参考][谷歌学者]
Li SS，Bigler J，Lampe JW，Potter JD，Feng Z.微阵列的FDR控制测试程序和样本量测定。统计学医学。2005;24:2267–2280. doi:10.1002/sim.2119。[公共医学] [交叉参考][谷歌学者]
Tsai C-A，Wang S-J，Chen D-T。基因表达微阵列实验的样本量。生物信息学。2005;21:1502–1508. doi:10.1093/bioinformatics/bti162。[公共医学] [交叉参考][谷歌学者]
Shao Y，Tseng C-H。微阵列研究中FDR控制的依赖性调整样本量计算。统计医学。2007;26:4219–4237. doi:10.1002/sim.2862。[公共医学] [交叉参考][谷歌学者]
Lee M-L、Whitmore G.Power和DNA微阵列研究的样本量。统计学医学。2002;21:3543–70. doi:10.1002/sim.1335。[公共医学] [交叉参考][谷歌学者]
Tibshirani R.评估微阵列实验中样本大小的简单方法。BMC生物信息学。2006;7：106.网址：10.1186/1471-2105-7-106。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Dobbin K，Simon R.微阵列实验中用于类别比较和预后分类的样本量测定。生物统计学。2005;6:27–38. doi:10.1093/biostatistics/kxh015。[公共医学] [交叉参考][谷歌学者]
Hedges LV，奥尔金一世。荟萃分析的统计方法。学术出版社；1985[谷歌学者]
Storey JD公司。错误发现率的直接方法。英国皇家统计学会杂志，B辑。2002;64:479–498. doi:10.1111/1467-9868.00346。[交叉参考][谷歌学者]
Alon U，Barkai N，Notterman DA。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。国家科学院院刊。1999;96:6745–6750. doi:10.1073/pnas.96.12.6745。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Benjamini Y，Hochberg Y。控制错误发现率：一种实用且强大的多重测试方法。英国皇家统计学会杂志，B辑。1995;57:289–300. [谷歌学者]

文章来自BMC生物信息学由以下人员提供BMC公司

微阵列研究中的功率和样本量估计

林伟钧

Huey-Miin Schueh先生

James J Chen（詹姆斯·J·陈）

关联数据

摘要

背景

结果

结论

背景

方法

表1

样本量估计

表2

样本量估计的置换方法

结果

表3

表4

表5

表6

讨论和结论

作者的贡献

补充材料

致谢

工具书类