跳到主要内容

一种评估微阵列实验中样本大小的简单方法

摘要

背景

在这篇简短的文章中,我们讨论了一种评估微阵列实验中样本大小要求的简单方法。

结果

我们的方法从基于排列的一组先导数据分析的输出开始,例如来自SAM包的输出。然后,对于给定的假设平均差和不同的样本大小,我们估计了一系列基因的假发现率和假阴性率;这些也可以根据基因能力和I型错误进行解释。我们还讨论了我们的方法在其他类型的反应变量中的应用,例如生存结果。

结论

我们的方法似乎对微阵列实验中的样本量评估有用。

背景

评估微阵列数据的样本大小是一项棘手的工作。数据很复杂,人们可能会试图从这些数据中回答生物学问题。我们应该做什么假设,应该提供什么数量作为输出?

最近有一些论文讨论了这个问题。中的作者[2]利用ANOVA模型并为各种替代模型提供功率计算。在[4]采用决策理论方法和分层贝叶斯模型。中的作者[8]检查技术和生物变异性在确定样本量中的作用。在[5]假设这些基因是独立的,具有相等的方差,并报告了错误发现率和敏感性。ssize包[7]也假设基因是独立的,但使用先导数据来估计方差。它侧重于功率和I类错误。建议[6]假设基因独立;此外,还考虑了所有基因之间具有相同相关性的便利(但不现实)情况。

所有这些方法都可能有缺点,即假设基因(或两者)的方差相等或独立。这些假设在实际的微阵列数据中经常被违背,并可能对样本大小计算产生实际影响。

我们在提案中避免了这些假设。我们首先从一组先导数据的基于排列的分析的输出开始。由此我们估计了每个基因的标准差,以及基因的总体零分布。然后,对于给定的假设平均差,我们估计了一系列基因的假发现率(FDR)和假阴性率(FNR)。现在,许多作者倾向于将FDR比家庭错误率(FWER)作为微阵列研究的适当错误度量。后者是至少有一个假阳性调用的概率,考虑到我们预计数千个基因中会有许多假阳性调用,FWER似乎没有那么相关。

由于计算是基于数据排列的基因得分,因此考虑了基因之间的相关性。使用排列分布可以避免对单个基因的分布进行参数假设。通过使用分数而不是原始数据,我们避免了从具有复杂(未知)相关性结构的人群中模拟新数据的困难任务。

我们从FDR和FNR以及功率和I型误差两个方面解释了我们的结果。我们的提案在SAM包的当前版本中实施[1].

我们的主要关注点是微阵列实验,以确定哪些基因在两种不同的实验条件下差异表达,如治疗与对照。然而,我们的方法也适用于其他环境,例如将生存时间与基因表达相关联的研究。

我们在年获悉该提案[]来自裁判;我们当时还不知道这篇论文是怎么写的。该论文中基于重采样的方法与这里描述的方法非常接近。一些差异是:a)通过将测试统计数据而非数据转换,我们的方法适用于超越双样本问题的一般设置,如生存数据,以及b)我们在评估样本量时不仅报告了错误发现率,也报告了假阴性率。

建议的方法

首先,我们需要一些定义。1总结了对一组基因。

表1一组基因的m假设检验的可能结果。行表示总体的真实状态,列是基于数据的决策规则的结果。

我们有罗斯福=电压/电阻和FNR=T型/(m-右),电源=S/m(平方米)1和类型1错误=伏/米0为了简单起见,为了评估样本大小,我们选择了我们的规则,以便基因的数量称为显著(R(右))与群体中非空基因的数量相同(1). 这意味着1-power=FDR,type I error=FNR。因此,可以方便地将FDR解释为每个基因的功率减去一,FNR也是如此。

以下是两类不成对情况的计算细节(下面我们指出了其他数据类型所需的更改)。x个 ij公司 是基因的表达在样品中j个;C类 j个 是的索引集n个 j个 组中的样本j个,用于j个=1或2。两样本非配对t统计量为

d日 = x个 ¯ 2 x个 ¯ 1 ( 1 ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=第0页第8页第2页第2页第9页@

哪里

= [ ( 1 / n个 1 + 1 / n个 2 ) { j个 C类 1 ( x个 j个 x个 ¯ 1 ) 2 + j个 C类 2 ( x个 j个 x个 ¯ 2 ) 2 } / ( n个 1 + n个 2 2 ) ] 1 / 2 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0dc8meaabacacacacaacaGaaeqabababaqababeGadaakeaaacqaqaqaacgZb WCdaWgaaWcbaGaemyAaKgabeaakiabg2da9iabcUfaBjabcIcaOiabigdaXiabc+caViabd6gaUnaaBaaalaaacqaXaqmaeqaaOGaey4kaSIaeGymaeJaei4la8IaemOBa42aaSbaaSqaaiabikdaYaqabaGccqGGPaqkcqGG7bWEdaaeqbqaaiabcIcaOiabdIha4naaBaaaleaacqWGPbqAcqWGQbGAaeqaaOGaeyOeIafmiEaGNbaebadaWgaaWcbaGaemyAaKMaeGymaedabaakiabcMcaPmaaCaaaleqabaGaeGOmaidaaOGaey4kaSYaaaaaaaacqGGOaaakaWG4baeEdaWgaaWCbaGaemyAlaKMaemOAa OgabeaakiabgkHiTiqbdIha4zaaraWaaSbaaSqaaibdMgaPjabikdaYaqabaGccqGGPaqkdaahaaWcbeqaaia公司bickdaYaaakiabc2ha9jabc+caViabcIcaOiabd6gaUnaaBaaalaaacqaXaqmaeqaaOGaey4kaSIaemOBa42aaSbaaSqaaiabikdaYaqabaGccqGHsislcqaIYaGmcqGGQPaqkcqGGDbqxdaaaaWcbeqaaiabadaXiabc+caViabikdaYaaaaeaacqWGQbGAcqGHiiIZcqWGdbWqdaWgaaadbaGaeGOmaidabeaaaSqab0GaeyyeIuoaaSqaaiabdQgaQjabgIGiolabdoeadnaaBaaameaacqaXaqmaeqaaaWcbeqdcqGHris5aaaaa@76C3@

注意,这是SAM方法中使用的基因得分;关于交换常数,请参阅下面的备注。如果σ 基因的组内标准差是真的吗(假设每组相同),然后 2估计

无功功率,无功功率 ( x个 ¯ 2 x个 ¯ 1 ) = σ 2 ( 1 / n个 1 + 1 / n个 2 ) 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=v r0dc8meaabacacacacaacaGaaeqabababaqababeGadaakeacyGG2bGD cqGGHbqycqGGYbGCcqGGOaakcuWG4baEgaqeamaaBaaaleaacqWGPbqAcqaIYaGmaeqaaOGaeyOeI0IafmiEaGNbaebadaWgaaWcbaGaemyAaKMaeGymaedabeaakiabcMcaPiabg2da9GGaciab=n8aZnaaDaaaleaacqWGPbqAaeacqaIYaGmaaGccqGGOaakcqaXaqmcqGGVaWlcqWGUbGBdaWgaaWcbaGaeGymaedabaakiabgUcaRiabigdaXiabc+caViabd6gaUnaaBAalaacqaIYaGmaekaaOGaeiykaKcaaa@4C49@

因此δ第2组中每个样本的一个基因单位导致得分平均增加d日 属于 δ / ( σ 1 / n个 1 + 1 / n个 2 ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqababaqababeGaaaakaaiiGacqWF0oazcqGGGVaWlcqGGOaakcqWfdpWCdaWgaaWcbaGaemyAaKgabeaakmaaaabaGaeGymaeJaei4la8IaemOBa42aaSbaaSbaaqaaiabigdaXaqabaGccqGHRaWkcqaIXaqmcqGGVawlcqWGUbGBdaWgaa WcbaGAeGOmaidabeaaaaaaaaaaQaaaQaEGmaidabaaaaaaEQaaaOGaeiykakaKcaa@3DF@ (我们假设第1组和第2组中的样本比例保持不变,因为我们改变了样本大小)。

从一些试点数据开始,这建议采用以下程序来评估样本量:

  1. 1

    估计分数的零分布和每个基因的标准偏差σ ,通过随机排列类标签并重新计算排列数据的基因得分。

  2. 2

    对于k个(真正改变的基因数量)从(比如)10个到/2,执行以下操作:

  • 采样一组分数排列分布的分数

  • 添加 δ / ( σ ^ 1 / n个 1 + 1 / n个 2 ) 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=wr0dc8meaabacacacacaacaGaaeqabababaqababeGaaaiiiiGacqWF 0oazcqGGVaWlcqGGOaakcuWFdpWCgaqcamaaaBaaaleaacqWGPbqAaeqaaOwaaaacqaIXaqmcqGGVAWlcqWGUbGBdaWgaaWcbaGaeGymaedabeaakiabgUcaRiabigda夏布+caViabd6gaUnaaBaaaleaacqaIYaGmaeqaaaqabaGccqGGPaqkaaa@3E05@ 在第二节课中随机选择一组k个这些分数中的一个。

  • 找到切入点c(c)等于k个绝对值排名第1

  • 估计规则的FDR和FNR|d日 | >c(c)这是直截了当的,因为我们知道哪些基因是真正的非空基因(它们是上面增加的基因)。

  1. 三。

    重复步骤2B类时间并报告每个时间的中间结果k个我们还报告了FDR的第10百分位和第90百分位B类排列。

在我们的例子中,我们使用了相对较少的重复次数(B类=20); 这使得该过程快速并且给出足够精确的估计。对于双样本问题,我们通常需要每个类至少有4或5个样本的试验数据。

该过程的结果提供了关于如果增加样本量,FDR和FNR将如何改进的信息。了解平均差的值δ是适当的还是合理的,可以查看这些值 x个 ¯ 2 x个 ¯ 1 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabebeGadaaacacuWG4baEgaqeamaaBaaaleaacqWGPbqAcqaIYaGmaeqaaOGaeyOeI0IafmiEaGNbaebadaWgaaWcbaGaemyAaKMaeGymaedabaaaaaaaa@35B5@ 在试点数据中的重要基因中。

这种方法可以很容易地应用于其他设计和其他类型的响应参数。对于配对数据,我们取n个1=个2=个/2(记住n个是总样本量)。上述所有食谱都保持不变。对于一类数据变量= σ 2 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaaaiiGacqWFdpWCdachaaWcbaGaemyAaKgabaGaeGOmaidaaaa@30F0@ /n个.

对于生存数据和Cox的比例风险模型,组间平均差异的类似物是部分似然得分统计的分子,我们表示为 因此,我们定义了基因特异性方差 σ 2 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaaaiiGacqWFdpWCdachaaWcbaGaemyAaKgabaGaeGOmaidaaaa@30F0@ 通过关系var( ) = σ 2 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaaaiiGacqWFdpWCdachaaWcbaGaemyAaKgabaGaeGOmaidaaaa@30F0@ /n个,我们解释shift参数δ相对于 .的单位 然而,它们不是很容易解释,所以我们使用导频数据作为指导。例如,如果在我们的试验数据中,我们称为重要的基因具有| |>100,我们可以设置δ在我们的样本量评估中=100。

备注

在SAM方法中,分母 分数(1)替换为 +0,其中0是可互换常数。它缩小了表达接近0的基因的数量(0≈ 0).

一个例子

我们在两个类别中生成了一些初步数据:共有1000个基因和20个样本,每个类别中有10个样本。每个测量值都是标准高斯分布(即试验数据中各组之间没有差异)。我们进行了SAM排列分析,假设数据为对数基数2,并指定Iog的平均差22 = 1.0. 这对应于类别1与类别2的2倍的平均差异。结果如图所示1.

图1
图1

模拟数据的结果。这些基因是独立产生的。每个面板使用建议的方法显示估计的FDR和FNR(实心红色和绿色曲线)以及第10和90个百分位(请记住,在我们的设置中,FDR=1次方,FNR=I型错误)。在0.05处绘制一条水平线。水平轴上的数量–基因数量–指的是真实非空基因的假设数量,以及称为显著的基因数量。我们看到,对于20的导频数据样本量来说,FDR可能过高,但当样本量加倍到40时,FDR会显著提高。

记住,水平轴上的数量–基因数量–指的是真实非空基因的假设数量,以及称为显著的基因数量。

我们看到,根据真正改变2倍的基因数量,样本量应该增加到60或100,以便将FDR降低到10%或5%。假阴性率始终很低,当n个=60或100。

我们的方法是否提供了对FDR和FNR的准确估计?对于上一个示例的设置,我们直接从基础模型的重复模拟数据中估计了FDR和FNR。结果如图所示2.

图2
图2

第一次模拟研究的结果。这里,FDR和FNR是通过基础模型的直接模拟来估计的。

注意图之间的相似性12当然,对于实际数据,第二种方法(从基础模型生成数据)将不可用,因为基础模型未知。

显示了第二个示例。这里有20个样本和100个基因的10个区块,每个区块中的基因具有0.5英寸的成对相关性。平均结构与前一示例中的相同。我们看到,FDR和FNR曲线与图中的曲线相似1但10%和90%的曲线要宽得多。由于估计的确定性较低,因此建议采用较大的样本量,以确保合理的低FDR。这说明了保持基因相关结构的重要性,即假设基因之间的独立性(不切实际)是不安全的。

图3
图3

第二个模拟示例的结果(相关基因)。

讨论

我们提出了一种评估样本大小的简单方法,首先对一些试点数据进行基于排列的分析。该方法给出了错误发现率和错误阴性率的合理准确估计,作为样本总数的函数。我们的提案在SAM包中实施-Excel插件和R包萨姆[1].

工具书类

  1. Gilbert Chu、Balasubramanian Narasimhan、Robert Tibshirani、Virginia Tusher:微阵列(sam)软件的显著性分析。[http://www-stat.stanford.edu/~提布斯/萨姆/]

  2. Lee M-LT,佐治亚州惠特摩尔:微阵列研究的功率和样本量。 医学统计学2002, (21):3543–3570. 10.1002/时1335

    谷歌学者 

  3. Li SS、Bigler J、Lampe JW、Potter JD、Feng Z:微阵列的Fdr控制测试程序和样本量测定。 医学统计学2005年,(24):2267–2280。10.1002/sim.2119

    谷歌学者 

  4. Muller P、Parmigiani G、Robert C、Rousseau J:多重测试的最佳样本量:基因表达微阵列案例。 J Amer统计协会2005,99:990–1001. 10.1198/016214504000001646

    第条 谷歌学者 

  5. Pawitan Y、Michiels S、Koscielny A、Gusnanto S、Ploner A:微阵列研究的错误发现率、敏感性和样本量。 生物信息学2005, (21):3017–24. 10.1093/生物信息学/bti448

    谷歌学者 

  6. 陈安才(Chen-An Tsai)、王素珍(Sue-Jane Wang)、陈敦才(Dung-Tsa Chen)、陈俊杰(James ChenJ):基因表达微阵列实验的样本量。 生物信息学2005, (21):1502–1508.

    谷歌学者 

  7. 警告G,Liu P:微阵列实验的样本量估计。提交给生物信息学;在R中ssize包。2005

    谷歌学者 

  8. Wei C、Li J、Bumgartner R:用于检测微阵列实验中差异表达基因的样本大小。 BMC基因组学2004, (5):1–10.

    谷歌学者 

下载参考资料

致谢

我们要感谢两位裁判的宝贵意见。作者得到了国家科学基金会拨款DMS-9971405和国家卫生研究院合同号N01-HV-28183的部分支持。

作者信息

作者和附属机构

作者

通讯作者

通信至罗伯特·蒂施莱尼.

作者提交的图像原始文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于这篇文章

引用这篇文章

Tibshirani,R.微阵列实验中评估样本大小的简单方法。BMC生物信息学 7, 106 (2006). https://doi.org/10.1186/1471-2105-7-106

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-7-106

关键词