微阵列研究中的功率和样本量估计
,1 ,2和1,三 林伟钧
1美国AR 72079杰斐逊FDA国家毒理学研究中心个性化营养与医学部
Huey-Miin Schueh先生
2台湾台北国立成池大学统计系
James J Chen(詹姆斯·J·陈)
1美国AR 72079杰斐逊FDA国家毒理学研究中心个性化营养与医学部
三中国医科大学生物统计研究所和生物统计中心,台湾台中
1美国AR 72079杰斐逊FDA国家毒理学研究中心个性化营养与医学部
2台湾台北国立成池大学统计系
三中国医科大学生物统计研究所和生物统计中心,台湾台中
通讯作者。 2009年8月18日收到;2010年1月25日接受。
版权©2010 Lin等人;持牌人BioMed Central Ltd。 - 补充资料
附加文件1该方法算法的软件为该方法的算法提供了软件和实例。
GUID:816FBADE-06A8-4A34-B180-AD5ABA830EF1
摘要
背景
在进行微阵列实验之前,需要确定的一个重要问题是为了有足够的能力识别差异表达基因所需的阵列数量。本文讨论了微阵列实验中常见的问题公式、参数规范和样本量估计方法中的一些关键问题。样本量估算的常用方法被定义为达到规定灵敏度所需的最小样本量(检测到的真正差异表达基因的比例)平均值以指定的错误发现率(FDR)级别和指定的预期比例(π1)阵列中真正的差异表达基因。不幸的是,在这样的配方中检测到指定灵敏度的概率可能很低。我们将样本量问题表述为达到指定灵敏度所需的阵列数量95%概率在规定的显著性水平。提出了一种利用小样本导频数据集估计样本量的置换方法。该方法解释了基因之间的相关性和效应大小异质性。
结果
为了达到期望的平均灵敏度,可以使用单变量方法计算基于通用公式的样本量估计,而不考虑基因之间的相关性。这种样本量问题的公式是不充分的,因为检测到指定灵敏度的概率可能低于50%。另一方面,通过所提出的置换方法计算出的所需样本量将确保以95%的概率至少检测到所需的灵敏度。该方法对于一个实际示例数据集(使用每组4-6个样本的小型先导数据集)表现良好。
结论
我们建议制定样本量问题,以95%的概率检测特定比例的差异表达基因。此公式确保以高概率找到所需的真阳性比例。所提出的置换方法考虑了相关性结构和效应大小的异质性,仅使用一个小的先导数据集就可以很好地工作。
背景
DNA微阵列技术为同时研究数百或数千个不同基因的表达谱提供了工具。微阵列研究的一个基本目标是确定在感兴趣的实验条件下差异表达的基因子集。在进行微阵列实验之前,需要确定的一个重要问题是为了有足够的能力识别差异表达基因所需的阵列(重复)数量。
针对不同的I类错误规范,如家庭错误率(FWE),已经开发了许多样本量估计方法[1-三],错误发现率(FDR)[4-8],以及假阳性的数量[7,9]。微阵列研究的样本量通常计算为达到指定功率所需的阵列数量平均值(例如[三-6,9,10]). 这种能力,即预期检测到的真正差异表达基因的比例,被称为敏感性。通过计算样本量估计值以达到规定的灵敏度平均值,检测到的真正差异表达基因的比例往往低于平均值。因此,计算的样本量往往会给出过于乐观的结果。或者,Wang和Chen[2],Tsai等人[7]邵和曾[8]提出了一种替代公式:计算样本量以确保以指定的概率检测到至少指定的灵敏度水平。这将被称为(置信)概率公式。
当制定样本量问题以达到规定的灵敏度时平均值,我们将表明,可以使用单变量样本量公式简单地计算所需的样本量,而不考虑基因之间的依赖性。另一方面,如果问题的形式是以特定的概率达到特定的灵敏度,则需要估计灵敏度分布的百分位。在这种情况下,需要考虑基因之间的依赖性。Tsai等人[7]提出了一种在所有基因具有恒定功率的独立或等相关正态分布模型下控制比较误差率(CWER)的方法。邵和曾[8]提出了一种在正态分布下估计一般相关矩阵的无模型方法。他们使用了72个样本的数据集来说明相关性矩阵的估计。然而,先导数据的大小通常很小,每组10个或更少,并且真阳性的估计方差通常为负(零),导致我们的模拟研究中对样本大小的估计较差。提比什拉尼[10]提出了一种用于估计特定样本量的FDR和平均灵敏度的置换方法。Tibshirani的方法只需要少量的试验数据集,并且完全无模型,即不需要对测试统计的分布、效应大小和相关性进行假设。然而,检验统计量的标准差估计值(标准误差)取决于样本量。小样本量的测试统计值的变化比大样本量的变化大。由于试验数据集的样本量通常很小,因此基于小试验数据集得出的截止水平通常会超过所需样本的实际截止水平,从而导致对所需样本量的过高估计。
本文概述了幂规范和参数规范,并提出了概率公式下样本容量确定的置换方法([2,7,8]). Tibshirani的方法[10]通过加入一个调整因子来改进以获得更正确的排列分布。该方法使用每组4到6个样本的小型试验数据集;该方法需要的样本比Tibshirani少[10]方法。当试验数据集的样本量较大时,所提出的方法和Tibshirani[10]方法是等效的。
方法
让米表示在数组中研究的基因数量,其中米0和米1分别是非差异表达基因和差异表达基因的数量。给定显著性水平α(按比较误差率)米测试可以总结为一个2×2的表(表).
表1
真实自然状态 | 宣布重要 | 声明不重要 | 总计 |
---|
无效的 | V(V) | S公司 | 米0 |
|
备选方案 | U型 | T型 | 米1 |
|
总计 | R(右) | 米-R(右) | 米 |
V(V)/米0是宣布显著的未差异表达基因的比例,其期望值是每次比较的错误率E(V(V))/米0=α.V(V)/R(右)是已声明的重要基因在已声明的、实际上没有差异表达的重要基因总数中的比例。它的期望值是错误发现率E(V(V)/R(右)) =q个,给定R(右)> 0.U型/米1是正确声明的真正差异表达基因的比例。在诊断问题中,这个比例通常被称为真阳性率或灵敏度。通过取期望值,我们得到了“平均灵敏度”E(U型)/米1,表示为λ.
样本量估计
在样本量估计中,米,米1和(标准化)效果大小δ= (δ1,...,δ米1)因为差异表达基因是由研究者预先指定的。估计达到规定灵敏度所需的样本量λ0一般来说,这很简单。自米1和λ0是预先指定的,给定FDR级别q个*每次比较误差率的相应显著性水平α很容易计算。设置α= [米1λ0q个*]/[米0(1-q个*)],FDR将控制在q个*足够大的米1和米0.
如果δ我=δ0对所有人来说都是不变的我,然后是比较功率(1-β)单变量检验的结果与λ0.给定α,δ0、和(1-β) =λ0,样本量可以基于单变量样本量计算,如下所示
哪里t吨α和t吨β是a的百分位数t吨-分配。如果δ我那么,是不同的β我=t吨-1()根据方程式(1)。样本量n个*可以通过以下公式计算
所需的样本量为n个= ⌈n个*É,其中n个*⌉是大于或等于的最小整数n个*. 给定样本大小n个经计算,一个真正差异表达基因的单变量测试结果可以用贝努利随机变量建模,成功概率至少为(1-β我)自n个≥n个*. 实际检测的预期数量至少为米1λ0无论基因之间的相关结构如何,因此平均可以达到期望的灵敏度。大多数样本量估计方法要么基于此方法,要么基于扩展[三-6,9-11]。然而,根据该公式计算的样本量不足;下面显示了一个独立模型下的简单演示。
鉴于米,π1(=米1/米),效果大小恒定δ我=δ0,q个*,λ0,以及计算的样本量n个(基于方程1),在独立模型下,检测到的真正差异表达基因的总数U型是具有成功概率(1)的二项式随机变量-β) (≥λ0自从n个≥n个*). 概率ϕλ0至少确定λ0的分数米1差异表达基因可以计算为二项式概率之和[2,7]:
使用方程(1)估计样本量的方法称为单变量方法。表第3-5列显示估计的样本大小n个,平均灵敏度λ和概率ϕλ0在λ0= 0.6, 0.7, 0.8, 0.9. 计算中使用的参数为:米= 2,000,π1= 5%, 10%, 20%,δ0=2和q个* = 0.05. 可以看出ϕλ0可以小于60%。也就是说,使用此公式计算所需阵列可能会导致实验的灵敏度低于指定的λ0概率超过40%。
表2
| | 平均配方: 单变量法 | 95%概率公式: 二项式方法 |
---|
| |
|
|
---|
π1 | λ0 | n个b条 | λ | ϕλ0 | n个c(c) | λ | ϕλ0 |
---|
5% | 60% | 9 | 0.70 | 0.985 | 9 | 0.70 | 0.985 |
| 70% | 9 | 0.70 | 0.576 | 10 | 0.81 | 0.997 |
| 80% | 10 | 0.81 | 0.681 | 11 | 0.88 | 0.993 |
| 90% | 12 | 0.92 | 0.866 | 13 | 0.95 | 0.992 |
10% | 60% | 8 | 0.70 | 0.999 | 8 | 0.70 | 0.999 |
| 70% | 8 | 0.71 | 0.687 | 9 | 0.82 | 1 |
| 80% | 9 | 0.82 | 0.841 | 10 | 0.89 | 1 |
| 90% | 11 | 0.93 | 0.977 | 11 | 0.93 | 0.977 |
20% | 60% | 7 | 0.72 | 1 | 7 | 0.72 | 1 |
| 70% | 7 | 0.74 | 0.975 | 7 | 0.74 | 0.975 |
| 80% | 8 | 0.85 | 0.996 | 8 | 0.85 | 0.996 |
| 90% | 9 | 0.91 | 0.792 | 10 | 0.95 | 1 |
或者,王和陈[2]将问题公式化为:达到指定灵敏度所需的阵列数量λ0有可能ϕλ0.在此配方中λ0和ϕλ0需要指定,但不一定相等。这个ϕλ0设置为95%,因为它符合使用95%置信概率的常见统计实践。在此配方下,对于指定的λ0计算所需的阵列数量,使平均灵敏度大于λ0和5第个百分位数,λ5灵敏度分布U型/米1大于λ0:
在独立和恒定效应规模模型中,Tsai等人[7]使用方程(1)和(3)估计所需的样本量,即二项式方法。表第6-8列显示估计的样本大小n个,平均灵敏度λ,以及概率ϕλ0对于λ0= 0.6, 0.7, 0.8, 0.9. 第8列中的概率均高于95%,原因是n个≥n个*. 该程序将确保以至少95%的概率检测到特定比例的差异表达基因。
在表中,理论结果表明,这两种方法给出了相当接近的样本量估计。估计值的差异反映了两种公式的差异;什么时候δ0=2,差值最大为1。对于给定的灵敏度,所需的样本大小随着效应大小的增加而增加δ0减少,估计值中两个公式的差异较大。我们使用与表中相同的参数计算样本大小对于δ0= 1. 样本量差异大约是表的四倍(未显示数据)。
样本量估计的置换方法
提比什拉尼[10]提出了一种置换方法,利用先导数据集评估样本大小,来解释基因之间的依赖性和不均匀效应大小。此方法用于估计所需的样本量。由于导频数据的样本大小通常小于所需的样本大小,因此导频数据生成的零分布具有更多变化;简单地使用小样本数据集生成的空分布可能会高估所需的样本大小。从提比什拉尼改进的程序[10]下面提出了对样本量估计进行适当调整的方法。
为了简单起见,假设每组中的样本大小相等,表示为n个=n个0=n个1从一些试验数据开始,每组至少有4个样本,表示为n个0便士和n个1便士分别用于对照组和治疗组。对于指定的米,米1,δ= (δ1, ...,δ米1),q个*、和λ0,两个样本的算法t吨-测试描述如下。
算法:样本量估计(参见附加文件1对于软件应用程序)
1.设置α= [米1λ0q个*]/[米0(1 -q个*)],使用Tsai等人的方法[7](表第6列)找到所需的样本量作为初始样本量n个.
2.计算调整系数(f)=(f)1(f)2哪里,、和t吨数据流,第页是第页第个a的百分位数t吨-分配数据流自由度。
3.生成b条-第个置换样本。
4.计算t吨-所有基因排列样本的统计和样本标准差。
5.分别乘以t吨-按因子统计(f)并添加到一组随机选择的米1t吨-产生排列的差异表达基因的统计t吨-统计学秒b条= {秒0b条,秒1b条},其中秒0b条是非差异表达基因的集合,并且秒1b条是差异表达基因的集合秒0b条=(f)t吨0b条和秒1b条=(f)t吨1b条+,其中t吨0b条和t吨1b条是的向量t吨-统计,δ是效果大小的向量是样本标准偏差的矢量。
6.存储排列统计信息秒b条.
7.对所有可能的排列重复3-6,b条= 1, 2, ...,N个,其中N=(n个0便士+n个1便士)C类n个0便士
8.通过汇集来自非差异表达基因集的所有排列统计数据来构建零分布秒0= {秒01,秒02, ...,秒0N个}. 找到100×(α/2)第个和100×(1-α/2)第个百分位数作为临界值。
9.计算真阳性的显著性数量u个b条对于中的每个统计秒1b条对于每个置换样本b条= 1, 2, ...,N个.
10.订单u个1,u个2, ...,u个N个,然后找到5个第个百分位数,表示为u个*.
11.比较u个*至米1λ0.如果u个* ≥米1λ0,停止并报告n个作为样本量估计;否则,增加n个1,然后转到2。
在所提出的算法中,置换t吨-汇集所有可能排列的非差异表达基因的统计数据,以估计测试统计数据的零分布(步骤8)。真阳性数(U型)由于每个排列样本中的差异表达基因集已知,因此对每个排列样本进行了估计(步骤9)。真阳性数的分布U型及其5第个百分位数u个*估计(步骤10)。为了减少排列分布的过度变化,建议的方法包括调整因子:(f)=(f)1(f)2。调整系数由两个比例系数组成:(f)1和(f)2第一个因素,(f)1,说明了试点研究和计划研究之间的不同样本量以及第二比例因子,(f)2,使用的最大似然估计t吨-统计[12]。当试点数据的样本量较大时,这两个因素(f)1和(f)2收敛到1,提议和Tibshirani[10]方法是等效的。(请注意,Tibshirani的方法是基于平均公式提出的。)由于置换技术用于估计临界值和灵敏度分布,因此对t吨-统计和统计之间的相关性。此外,该方法不需要估计所有基因之间的协方差矩阵,这在导频数据集样本量较小时会导致计算困难。
结果
进行了两次模拟分析,以评估上述两种样本量估计公式。第一次分析在独立和恒定效应大小模型下评估了这两种配方。两种配方的理论结果如表所示模拟分析提供了经验验证。第二个分析在相关模型下评估了四种方法:1)单变量方法(例如Jung[4]); 2) 邵和曾[8]无模型方法,3)Tibshirani[10]置换法;以及4)所提出的置换方法。单变量方法是为平均公式设计的,而其他三种方法是使用先导数据集以95%的概率考虑的。表中的相同模型参数用于评估。I类错误率基于将FDR设置为q个* = 0.05. 请注意,有许多具有不同策略的多重测试FDR程序。例如,Storey的FDR程序[13]包括对非差异表达基因数量的估计米0然而,为了最大限度地减少估计中的变化带来的混淆影响米0,我们只是使用了米0在我们的仿真分析中。计算给定参数值的样本大小。FDR的经验估计,平均灵敏度λ和概率ϕλ0然后进行计算和评估。使用true米0在FDR的控制下,对提议的程序进行直接验证。
第一次模拟研究的目的是验证表中所示两种方法的样本量、灵敏度和95%概率的理论结果在独立模型下。我们从表的第3列或第6列中生成了1000个模拟样本,每组样本大小。对于空模型,米0=米× (1 -π1)基因来自独立标准正常N(0,1);对于替代模型,米1=米×π1基因是基于独立的正常N生成的(δ0, 1). 对于每个模拟样本集t吨-计算统计学和相应的p值,以及FDR水平的假阳性和真阳性的数量q个*=0.05。FDR的经验估计,平均灵敏度λ和概率ϕλ0然后进行计算。估计ϕλ0是1000个模拟中真阳性数不小于的时间比例米1×λ0.
表显示了两种方法的实证结果。在这两种方法中,经验FDR似乎接近名义水平。对于单变量方法,经验平均灵敏度λ除了π1=0.05和λ0= 70%. 概率ϕλ0小于50%,对于π1=0.05和λ0= 70%. 对于二项式方法,经验平均灵敏度λ的都大于指定的级别。大多数可能性ϕλ0的值超过95%,除了π1= 0.05,λ0= 60%,π1= 0.10,λ0=90%和π1= 0.20,λ0= 70%. 表的实证结果通常与表中所示的理论值一致也就是说,使用单变量方法计算的样本量通常会达到规定的平均灵敏度;然而,达到规定灵敏度的概率可以低于50%。
表3
| | 平均配方 | 95%概率公式 |
---|
| |
|
|
---|
| | 单变量法 | 二项式方法 | 置换 |
---|
π1 | λ0 | n个b条 | q个 | λ | ϕλ0 | n个c(c) | q个 | λ | ϕλ0 | n个d日 |
|
5% | 60% | 9 | 0.0505 | 0.69 | 0.937 | 9 | 0.0505 | 0.69 | 0.937 | 11.3(0.453) |
| 70% | 9 | 0.0505 | 0.69 | 0.497 | 10 | 0.0502 | 0.80 | 0.983 | 12.5(0.507) |
| 80% | 10 | 0.0502 | 0.80 | 0.506 | 11 | 0.0494 | 0.87 | 0.961 | 14.2(0.485) |
| 90% | 12 | 0.0492 | 0.91 | 0.730 | 13 | 0.0484 | 0.95 | 0.965 | 17.1(0.568) |
10% | 60% | 8 | 0.0490 | 0.71 | 0.997 | 8 | 0.0490 | 0.71 | 0.997 | 9.8(0.361) |
| 70% | 8 | 0.0490 | 0.71 | 0.589 | 9 | 0.0506 | 0.81 | 1 | 10.8(0.368) |
| 80% | 9 | 0.0506 | 0.81 | 0.688 | 10 | 0.0503 | 0.88 | 0.999 | 12.1(0.291) |
| 90% | 11 | 0.0497 | 0.93 | 0.921 | 11 | 0.0497 | 0.93 | 0.921 | 14.6(0.491) |
20% | 60% | 7 | 0.0498 | 0.73 | 1 | 7 | 0.0498 | 0.73 | 1 | 8.0(0.089) |
| 70% | 7 | 0.0498 | 0.73 | 0.901 | 7 | 0.0498 | 0.73 | 0.901 | 9.0(0.045) |
| 80% | 8 | 0.0491 | 0.84 | 0.966 | 8 | 0.0491 | 0.84 | 0.966 | 10.1(0.224) |
| 90% | 9 | 0.0501 | 0.90 | 0.627 | 10 | 0.0497 | 0.94 | 0.999 | 12.2(0.384) |
为了进行比较,表的最后一列还提供了使用组大小为4的试验数据集的拟议排列方法的样本大小估计值的平均值和标准偏差。引导数据是从每次模拟的正态分布中随机生成的。提出的方法往往会高估多达五个阵列所需的样本量。
第二个分析是评估四种方法,即单变量方法(Jung[4])、Shao和Tseng[8],提比什拉尼[10],并在使用已知结肠癌数据集的相关模型下提出置换方法[14]。结肠癌数据集[14]由22个正常结肠肿瘤组织和40个结肠肿瘤组织样本组成,共有2000个基因。分析包括两个步骤。第一步根据每组样本量为4和6的试验数据集,评估了三种95%概率公式方法获得的样本量估计值。第二步将第一步提出的方法估计的样本量与单变量方法估计的样本量进行比较。
在第一步中,从结肠数据集中随机选择4个样本,每组不进行替换,以形成试点数据集。上述算法用于估计所提方法和Tibshirani的样本大小[10]方法。例如,对于π1= 5%,q个*=0.05和λ0=90%,初始样本量为n个=13(表第6列)和α= 0.00249. 恒定的效果大小δ我=δ0已考虑=2。对于建议的排列方法(f)是(f)1=0.6777和(f)2==1.155,而Tibshirani未进行调整[10]方法。对于邵和曾[8]无模型方法,相关矩阵t吨-统计数据是通过使用来自先导数据集的所有可能的置换数据集进行估计的。然而,邵氏和曾氏[8]大多数情况下,无模型方法存在计算困难。详情稍后给出。
重复该过程1000次,从每组中选择大小为4的不同先导数据集,以说明先导数据集的变化。Tibshirani样本量估计的平均值和标准偏差[10]和建议的方法进行了计算,如表的第4列和第5列所示一元方法被视为标准方法,估计值列于第3列。Tibshirani估计的所需样本量[10]或者在每种情况下,所提出的方法都大于单变量方法。在每种情况下,单变量方法和提出的方法之间的差异小于每组5个数组。来自Tibshirani的平均值和标准差估计[10]该方法比所提出方法的估计值大得多。差异随着λ0增加或π1减少。注意,在独立模型下,拟议方法的样本量和标准偏差估计值较小(表).
表4
建议方法和Tibshirani的样本量估计(标准偏差)[10]效应大小为2的相关模型下的置换方法。一
| | | 小组规模4的试点研究 | 小组初步研究 尺寸6 | 大小为62的完整数据 |
---|
| | |
|
|
|
---|
π1 | λ0 | n个b条 | n个c(c) | n个d日 | n个c(c) | n个d日 | n个e(电子) |
---|
5% | 60% | 9 | 12.2(2.931) | 20.2(6.529) | 12.7(2.193) | 14.9(3.347) | 9.5 |
| 70% | 9 | 13.1(2.848) | 21.6(6.209) | 13.4(2.330) | 15.9(3.504) | 10.3 |
| 80% | 10 | 14.3(3.017) | 23.6(6.399) | 14.4(2.335) | 17.2(3.547) | 11.5 |
| 90% | 12 | 16.3(2.997) | 27.1(6.303) | 16.1(2.365) | 19.5(3.559) | 13.7 |
10% | 60% | 8 | 10.9(2.409) | 15.7(4.664) | 11.5(2.015) | 12.5(2.828) | 8.1 |
| 70% | 8 | 11.8(2.544) | 16.8(4.858) | 12.1(2.096) | 13.4(2.971) | 8.8 |
| 80% | 9 | 13.0(2.601) | 18.6(4.809) | 13.0(2.033) | 14.4(2.852) | 9.8 |
| 90% | 11 | 14.7(2.944) | 21.5(5.250) | 14.6(2.275) | 16.4(3.099) | 11.8 |
20% | 60% | 7 | 9.8(2.184) | 12.2(3.608) | 10.3(1.832) | 10.4(2.390) | 6.7 |
| 70% | 7 | 10.4(2.236) | 12.8(3.675) | 10.7(1.899) | 10.9(2.446) | 7.3 |
| 80% | 8 | 11.4(2.414) | 14.2(3.709) | 11.6(1.995) | 11.9(2.506) | 8.2 |
| 90% | 9 | 13.1(2.515) | 16.5(3.902) | 13.0(2.074) | 13.6(2.603) | 9.9 |
对初始试验数据集的6个样本重复该过程。估计值如第6列和第7列所示。建议的程序从两个试点样本大小得出了一致的结果;然而,Tibshirani的结果[10]方法有很大不同。Tibshirani方法没有充分考虑试点样本大小。当试点样本量远小于所需样本量时,Tibshirani对样本量的高估[10]方法变得严重。随着试点研究规模越来越接近所需的样本规模,Tibshirani[10]所提出的方法将给出类似的结果。
在我们的仿真中,Shao和Tseng中的算法B[8]无法在所有1000次复制中成功为组大小为4的试点数据生成解决方案。当组大小增加到6时,该算法仅在以下情况下有效π1= 20%,λ0=60%和70%;样本量估计值的平均值(标准偏差)分别为6.4(0.012)和6.8(0.012”)。估计值似乎太小而不正确。该方法似乎不适用于小样本。使用整个结肠癌数据集[14]在62个样本中,样本量估计值如第8列所示。与单变量方法相比,估计通常需要多出一个或两个数组,但比提出的方法少。自从Tibshirani[10]方法给出了更大的估计值,Shao和Tseng[8]给出的估计值小于建议的方法。在第二步分析中,对单变量方法和建议的方法进行了评估。
两种方法的性能比较与表中所示类似这些数据是从结肠癌数据集而不是从独立模型下的正常随机变量中取样的,没有进行替换。样本大小基于表的第3列或第4列。然后对数据进行随机排列,以消除两组之间的差异,以及一个共同的效应大小δ0=2被添加到一组随机选择的米1肿瘤组中的基因。对于每个重新采样的数据集,使用置换测试生成p值,并使用以下公式计算假阳性和真阳性的数量q个* = 0.05. 计算置换测试的重复次数为10000次。FDR的经验估计,λ和ϕλ0已计算。整个过程重复1000次。
表显示了对q个*,λ、和ϕλ0对于这两种方法。这两种方法都能很好地控制FDR并达到所需的灵敏度。因此,可以预期这两种方法在实践中具有令人满意的性能。然而,对于单变量方法,经验ϕλ0估计值在55%到75%之间,只有一个是80%。人们必须承担敏感度低于规定水平的风险。
表5
FDR的经验估计,平均灵敏度λ、和概率ϕλ0根据单变量方法和基于表4结果的建议方法。
| | 平均配方: 单变量法 | 95%概率公式: 建议的方法 |
---|
| |
|
|
---|
π1 | λ0 | n个 | q个 | λ | ϕλ0 | n个 | q个 | λ | ϕλ0 |
---|
5% | 60% | 9 | 0.0412 | 0.65 | 0.661 | 13 | 0.0431 | 0.94 | 0.976 |
| 70% | 9 | 0.0424 | 0.65 | 0.558 | 14 | 0.0443 | 0.97 | 0.984 |
| 80% | 10 | 0.0389 | 0.76 | 0.611 | 15 | 0.0458 | 0.99 | 0.993 |
| 90% | 12 | 0.0460 | 0.91 | 0.743 | 17 | 0.0426 | 1 | 0.998 |
10% | 60% | 8 | 0.0427 | 0.66 | 0.666 | 11 | 0.0474 | 0.92 | 0.964 |
| 70% | 8 | 0.0419 | 0.66 | 0.585 | 12 | 0.0478 | 0.96 | 0.973 |
| 80% | 9 | 0.0431 | 0.78 | 0.666 | 13 | 0.0450 | 0.98 | 0.981 |
| 90% | 11 | 0.0466 | 0.92 | 0.800 | 15 | 0.0475 | 1 | 0.994 |
20% | 60% | 7 | 0.0433 | 0.69 | 0.711 | 10 | 0.0447 | 0.94 | 0.975 |
| 70% | 7 | 0.0448 | 0.69 | 0.634 | 11 | 0.0498 | 0.97 | 0.987 |
| 80% | 8 | 0.0428 | 0.81 | 0.703 | 12 | 0.0496 | 0.99 | 0.994 |
| 90% | 9 | 0.0442 | 0.89 | 0.716 | 14 | 0.0488 | 1 | 1 |
的效果大小δ0=2(表)使用结肠癌数据集在相关模型下验证所提出的置换方法[14]。实际上,效果大小可以小得多。我们使用与表中相同的参数计算样本大小具有效果大小δ0=1,对于两个试验样品尺寸4和6。样本量估计如表所示.建议的程序对两个试点样本大小给出了类似的结果,这与以下结果一致δ0=表中的2。单变量方法和建议方法之间的差异约为每组15个数组。Tibshirani家族[10]对于4个和6个导频样本,每个组需要多达67个和35个额外阵列。邵和曾的估算[8]只有当试点研究规模大于或等于所需样本规模时,才能对方法进行评估。
表6
建议方法和Tibshirani的样本量估计(标准偏差)[10]效应大小为1的相关模型下的排列方法。一
| | | 小组初步研究 尺寸4 | 小组初步研究 尺寸6 | 的全部数据 尺寸62 |
---|
| | |
|
|
|
---|
π1 | λ0 | n个b条 | n个c(c) | n个d日 | n个c(c) | n个d日 | n个e(电子) |
---|
5% | 60% | 26 | 39.4(11.166) | 77.8(22.283) | 40.5(8.743) | 56.8(12.376) | 29 |
| 70% | 29 | 43.0(11.659) | 84.5(24.442) | 43.5(8.913) | 61.1(13.570) | 31.7 |
| 80% | 33 | 48.7(13.104) | 92.2(23.398) | 47.8(9.138) | 65.4(13.134) | NaN公司 |
| 90% | 40 | 56.8(13.846) | 106.3(25.373) | 54.3(9.168) | 74.1(13.846) | NaN公司 |
10% | 60% | 23 | 34.9(9.140) | 60.9(18.692) | 36.8(8.074) | 48.5(12.212) | 25 |
| 70% | 26 | 38.8(9.821) | 66.2(18.993) | 40.0(8.408) | 52.0(11.819) | 27.8 |
| 80% | 29 | 43.3(10.399) | 72.5(18.492) | 43.3(8.475) | 55.8(11.662) | 31.4 |
| 90% | 35 | 50.2(10.649) | 83.7(20.271) | 49.5(8.593) | 64.0(12.485) | NaN公司 |
20% | 60% | 19 | 31.1(9.066) | 47.0(14.301) | 32.6(7.572) | 39.8(9.552) | 20.7 |
| 70% | 22 | 34.4(8.740) | 50.4(14.156) | 35.7(7.816) | 42.6(9.570) | 23.4 |
| 80% | 25 | 38.6(9.611) | 55.5(15.393) | 39.0(7.766) | 46.6(10.415) | 27 |
| 90% | 31 | 44.7(9.655) | 63.6(14.919) | 44.5(7.999) | 52.3(10.313) | 32.3 |
讨论和结论
在进行微阵列实验之前,确定所需的样本量是一个重要问题。样本量问题通常表示为达到规定灵敏度所需的阵列数量λ平均而言。本文证明了在该公式下计算的样本量可能具有灵敏度λ平均在规定的水平,但概率ϕλ由于灵敏度分布的差异,达到规定的灵敏度可能很低(小于50%)。此外,在这个公式下,本文表明,无论基因表达水平之间的相关结构如何,样本量都可以用单变量方法计算;解释相关性的程序,如Li等人[6]不需要(表). 这些发现与Jung报告的结果一致[4]多宾和西蒙[11]。然而,本文为这种方法提供了理论解释。
在置信概率公式下,估计样本大小时需要考虑基因表达之间的依赖性,因为敏感性分布的百分位数不仅取决于单个基因的影响大小,还取决于它们的相关性。我们基于Tibshirani提出的方法提出了一种置换方法[10],但包括一个调整系数和一个要求,以95%的概率达到特定的灵敏度。调整系数可以更准确地估计功率和样本大小。邵和曾[8]还根据置信概率制定了所需的样本量。在正态假设下,邵和曾[8]使用初步数据集提出了基因间轻度相关性的算法。他们表明,他们的方法对72个样本的示例数据集很有效。然而,在我们的结肠数据集模拟中使用他们的算法B(结肠数据集的平均相关性约为0.4),当初始样本量为4或6时,真阳性的估计方差可能为负。他们的程序对于样本量较小的小样本试验数据集没有很好的表现。实际上,试点数据的样本量通常很小。我们的模拟研究表明,我们的程序可以很好地处理每组4到6个样本。然而,当相关性很小时,我们的程序似乎过高估计了所需的样本量,尤其是在小效应量的情况下。在这种情况下,我们的模拟结果表明(f)2可能不需要(未显示数据)。
用于数据分析的特定多重测试程序的选择会影响样本量估计中的错误率和功率。在数据分析中使用保守的程序可能会降低研究的“力量”;有时,计算出的样本量可能具有低于指定水平的灵敏度。例如,在本文中,计算基于非差异基因的真实数量米0然而,如果数据分析使用高估值米0比如Benjamini和Hochberg程序[15],则功率可能低于所需水平。另一种方法是使用基因总数米而不是非差异基因的数量米0估计样本量。无论使用哪种多重测试程序进行数据分析,该程序均应产生适当的样本量,以达到规定概率的期望灵敏度。
作者的贡献
JJC构思了这项研究并撰写了手稿。JJC和WJL开发了该方法并证明了理论结果。WJL实现了这些算法。HMH改进了平均和95%置信概率公式的概念。JJC、HMH和WJL进行了分析。所有作者阅读并批准了最终手稿。
补充材料
附加文件1:该方法算法的软件为该方法的算法提供了软件和实例。
致谢
Huey-Miin Xsueh的研究是在访问NCTR时完成的。作者非常感谢审稿人对本文的修改和改进提出了许多有益的意见和建议。本文中的观点是作者的观点,并不一定代表美国食品和药物管理局的观点
工具书类
- Yang MCK、Yang JJ、McIndoe RA。微阵列实验设计:功率和样本大小的考虑。生理基因组学。2003;16:24–28. doi:10.1152/生理基因组学.0037.2003。[公共医学] [交叉参考][谷歌学者]
- 王四杰、陈俊杰。用于在微阵列实验中识别差异表达基因的样本大小。计算机生物学杂志。2004;11:714–726. doi:10.1089/cmb.2004.11.714。[公共医学] [交叉参考][谷歌学者]
- Jung S-H,Bang H,Young S.微阵列数据分析中多重测试的样本量计算。生物统计学。2005;6:157–169. doi:10.1093/biostatistics/kxh026。[公共医学] [交叉参考][谷歌学者]
- Jung S-H。微阵列数据分析中FDR控制的样本量。生物信息学。2005;21:S3097–3104。doi:10.1093/bioinformatics/bti456。[公共医学] [交叉参考][谷歌学者]
- Pounds S,Cheng C.错误发现率的样本量测定。生物信息学。2005;21:4263–4267. doi:10.1093/bioinformatics/bti699。[公共医学] [交叉参考][谷歌学者]
- Li SS,Bigler J,Lampe JW,Potter JD,Feng Z.微阵列的FDR控制测试程序和样本量测定。统计学医学。2005;24:2267–2280. doi:10.1002/sim.2119。[公共医学] [交叉参考][谷歌学者]
- Tsai C-A,Wang S-J,Chen D-T。基因表达微阵列实验的样本量。生物信息学。2005;21:1502–1508. doi:10.1093/bioinformatics/bti162。[公共医学] [交叉参考][谷歌学者]
- Shao Y,Tseng C-H。微阵列研究中FDR控制的依赖性调整样本量计算。统计医学。2007;26:4219–4237. doi:10.1002/sim.2862。[公共医学] [交叉参考][谷歌学者]
- Lee M-L、Whitmore G.Power和DNA微阵列研究的样本量。统计学医学。2002;21:3543–70. doi:10.1002/sim.1335。[公共医学] [交叉参考][谷歌学者]
- Tibshirani R.评估微阵列实验中样本大小的简单方法。BMC生物信息学。2006;7:106.网址:10.1186/1471-2105-7-106。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Dobbin K,Simon R.微阵列实验中用于类别比较和预后分类的样本量测定。生物统计学。2005;6:27–38. doi:10.1093/biostatistics/kxh015。[公共医学] [交叉参考][谷歌学者]
- Hedges LV,奥尔金一世。荟萃分析的统计方法。学术出版社;1985[谷歌学者]
- Storey JD公司。错误发现率的直接方法。英国皇家统计学会杂志,B辑。2002;64:479–498. doi:10.1111/1467-9868.00346。[交叉参考][谷歌学者]
- Alon U,Barkai N,Notterman DA。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。国家科学院院刊。1999;96:6745–6750. doi:10.1073/pnas.96.12.6745。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
- Benjamini Y,Hochberg Y。控制错误发现率:一种实用且强大的多重测试方法。英国皇家统计学会杂志,B辑。1995;57:289–300. [谷歌学者]