A simple method for assessing sample sizes in microarray experiments

Tibshirani, Robert

doi:10.1186/1471-2105-7-106

方法论文章
开放式访问
出版：2006年3月2日

一种评估微阵列实验中样本大小的简单方法

罗伯特·蒂施莱尼¹

BMC生物信息学 体积 7，物品编号：106(2006)引用这篇文章

9177访问
77引文
韵律学详细信息

摘要

背景

在这篇简短的文章中，我们讨论了一种评估微阵列实验中样本大小要求的简单方法。

结果

我们的方法从基于排列的一组先导数据分析的输出开始，例如来自SAM包的输出。然后，对于给定的假设平均差和不同的样本大小，我们估计了一系列基因的假发现率和假阴性率；这些也可以根据基因能力和I型错误进行解释。我们还讨论了我们的方法在其他类型的反应变量中的应用，例如生存结果。

结论

我们的方法似乎对微阵列实验中的样本量评估有用。

背景

评估微阵列数据的样本大小是一项棘手的工作。数据很复杂，人们可能会试图从这些数据中回答生物学问题。我们应该做什么假设，应该提供什么数量作为输出？

最近有一些论文讨论了这个问题。中的作者[2]利用ANOVA模型并为各种替代模型提供功率计算。在[4]采用决策理论方法和分层贝叶斯模型。中的作者[8]检查技术和生物变异性在确定样本量中的作用。在[5]假设这些基因是独立的，具有相等的方差，并报告了错误发现率和敏感性。ssize包[7]也假设基因是独立的，但使用先导数据来估计方差。它侧重于功率和I类错误。建议[6]假设基因独立；此外，还考虑了所有基因之间具有相同相关性的便利（但不现实）情况。

所有这些方法都可能有缺点，即假设基因（或两者）的方差相等或独立。这些假设在实际的微阵列数据中经常被违背，并可能对样本大小计算产生实际影响。

我们在提案中避免了这些假设。我们首先从一组先导数据的基于排列的分析的输出开始。由此我们估计了每个基因的标准差，以及基因的总体零分布。然后，对于给定的假设平均差，我们估计了一系列基因的假发现率（FDR）和假阴性率（FNR）。现在，许多作者倾向于将FDR比家庭错误率（FWER）作为微阵列研究的适当错误度量。后者是至少有一个假阳性调用的概率，考虑到我们预计数千个基因中会有许多假阳性调用，FWER似乎没有那么相关。

由于计算是基于数据排列的基因得分，因此考虑了基因之间的相关性。使用排列分布可以避免对单个基因的分布进行参数假设。通过使用分数而不是原始数据，我们避免了从具有复杂（未知）相关性结构的人群中模拟新数据的困难任务。

我们从FDR和FNR以及功率和I型误差两个方面解释了我们的结果。我们的提案在SAM包的当前版本中实施[1].

我们的主要关注点是微阵列实验，以确定哪些基因在两种不同的实验条件下差异表达，如治疗与对照。然而，我们的方法也适用于其他环境，例如将生存时间与基因表达相关联的研究。

我们在年获悉该提案[三]来自裁判；我们当时还不知道这篇论文是怎么写的。该论文中基于重采样的方法与这里描述的方法非常接近。一些差异是：a）通过将测试统计数据而非数据转换，我们的方法适用于超越双样本问题的一般设置，如生存数据，以及b）我们在评估样本量时不仅报告了错误发现率，也报告了假阴性率。

建议的方法

首先，我们需要一些定义。表1总结了米对一组米基因。

表1一组基因的m假设检验的可能结果。行表示总体的真实状态，列是基于数据的决策规则的结果。

全尺寸桌子

我们有罗斯福=电压/电阻和FNR=T型/(m-右)，电源=S/m（平方米）₁和类型1错误=伏/米₀为了简单起见，为了评估样本大小，我们选择了我们的规则，以便基因的数量称为显著(R（右）)与群体中非空基因的数量相同(米₁). 这意味着1-power=FDR，type I error=FNR。因此，可以方便地将FDR解释为每个基因的功率减去一，FNR也是如此。

以下是两类不成对情况的计算细节（下面我们指出了其他数据类型所需的更改）。让x个_ij公司是基因的表达我在样品中j个;C类_j个是的索引集n个_j个组中的样本j个，用于j个=1或2。两样本非配对t统计量为

${d日}_{我} = \frac{{\bar{x个}}_{我 2} - {\bar{x个}}_{我 1}}{秒_{我}} (1)$

哪里

$秒_{我} = [(1 / {n个}_{1} + 1 / {n个}_{2}) {\sum_{j个 \in {C类}_{1}} {({x个}_{我 j个} - {\bar{x个}}_{我 1})}^{2} + \sum_{j个 \in {C类}_{2}} {({x个}_{我 j个} - {\bar{x个}}_{我 2})}^{2}} / ({n个}_{1} + {n个}_{2} - 2)]^{1 / 2}$

注意，这是SAM方法中使用的基因得分；关于交换常数，请参阅下面的备注。如果σ_我基因的组内标准差是真的吗我（假设每组相同），然后秒_我²估计

$无功功率，无功功率 ({\bar{x个}}_{我 2} - {\bar{x个}}_{我 1}) = σ_{我}^{2} (1 / {n个}_{1} + 1 / {n个}_{2})$

因此δ第2组中每个样本的一个基因单位导致得分平均增加d日_我属于 $δ / (σ_{我} \sqrt{1 / {n个}_{1} + 1 / {n个}_{2}})$ （我们假设第1组和第2组中的样本比例保持不变，因为我们改变了样本大小）。

从一些试点数据开始，这建议采用以下程序来评估样本量：

1
估计分数的零分布和每个基因的标准偏差σ_我，通过随机排列类标签并重新计算排列数据的基因得分。
2
对于k个（真正改变的基因数量）从（比如）10个到米/2，执行以下操作：

采样一组米分数排列分布的分数
添加 $δ / ({\hat{σ}}_{我} \sqrt{1 / {n个}_{1} + 1 / {n个}_{2}})$ 在第二节课中随机选择一组k个这些分数中的一个。
找到切入点c（c）等于k个绝对值排名第1
估计规则的FDR和FNR|d日_我| >c（c）这是直截了当的，因为我们知道哪些基因是真正的非空基因（它们是上面增加的基因）。

三。
重复步骤2B类时间并报告每个时间的中间结果k个我们还报告了FDR的第10百分位和第90百分位B类排列。

在我们的例子中，我们使用了相对较少的重复次数(B类=20); 这使得该过程快速并且给出足够精确的估计。对于双样本问题，我们通常需要每个类至少有4或5个样本的试验数据。

该过程的结果提供了关于如果增加样本量，FDR和FNR将如何改进的信息。了解平均差的值δ是适当的还是合理的，可以查看这些值 ${\bar{x个}}_{我 2} - {\bar{x个}}_{我 1}$ 在试点数据中的重要基因中。

这种方法可以很容易地应用于其他设计和其他类型的响应参数。对于配对数据，我们取n个₁=个₂=个/2（记住n个是总样本量）。上述所有食谱都保持不变。对于一类数据变量= $σ_{我}^{2}$ /n个.

对于生存数据和Cox的比例风险模型，组间平均差异的类似物是部分似然得分统计的分子，我们表示为对_我因此，我们定义了基因特异性方差 $σ_{我}^{2}$ 通过关系var(对_我) = $σ_{我}^{2}$ /n个，我们解释shift参数δ相对于对_我.的单位对_我然而，它们不是很容易解释，所以我们使用导频数据作为指导。例如，如果在我们的试验数据中，我们称为重要的基因具有|对_我|>100，我们可以设置δ在我们的样本量评估中=100。

备注

在SAM方法中，分母秒_我分数（1）替换为秒_我+秒₀，其中秒₀是可互换常数。它缩小了表达接近0的基因的数量（秒₀≈ 0).

一个例子

我们在两个类别中生成了一些初步数据：共有1000个基因和20个样本，每个类别中有10个样本。每个测量值都是标准高斯分布（即试验数据中各组之间没有差异）。我们进行了SAM排列分析，假设数据为对数基数2，并指定Iog的平均差₂2 = 1.0. 这对应于类别1与类别2的2倍的平均差异。结果如图所示1.

记住，水平轴上的数量–基因数量–指的是真实非空基因的假设数量，以及称为显著的基因数量。

我们看到，根据真正改变2倍的基因数量，样本量应该增加到60或100，以便将FDR降低到10%或5%。假阴性率始终很低，当n个=60或100。

我们的方法是否提供了对FDR和FNR的准确估计？对于上一个示例的设置，我们直接从基础模型的重复模拟数据中估计了FDR和FNR。结果如图所示2.

注意图之间的相似性1和2当然，对于实际数据，第二种方法（从基础模型生成数据）将不可用，因为基础模型未知。

图三显示了第二个示例。这里有20个样本和100个基因的10个区块，每个区块中的基因具有0.5英寸的成对相关性。平均结构与前一示例中的相同。我们看到，FDR和FNR曲线与图中的曲线相似1但10%和90%的曲线要宽得多。由于估计的确定性较低，因此建议采用较大的样本量，以确保合理的低FDR。这说明了保持基因相关结构的重要性，即假设基因之间的独立性（不切实际）是不安全的。

讨论

我们提出了一种评估样本大小的简单方法，首先对一些试点数据进行基于排列的分析。该方法给出了错误发现率和错误阴性率的合理准确估计，作为样本总数的函数。我们的提案在SAM包中实施-Excel插件和R包萨姆[1].

工具书类

Gilbert Chu、Balasubramanian Narasimhan、Robert Tibshirani、Virginia Tusher：微阵列（sam）软件的显著性分析。[http://www-stat.stanford.edu/~提布斯/萨姆/]
Lee M-LT，佐治亚州惠特摩尔：微阵列研究的功率和样本量。 医学统计学2002, (21):3543–3570. 10.1002/时1335
谷歌学者
Li SS、Bigler J、Lampe JW、Potter JD、Feng Z：微阵列的Fdr控制测试程序和样本量测定。 医学统计学2005年，（24）：2267–2280。10.1002/sim.2119
谷歌学者
Muller P、Parmigiani G、Robert C、Rousseau J：多重测试的最佳样本量：基因表达微阵列案例。 J Amer统计协会2005,99:990–1001. 10.1198/016214504000001646
第条谷歌学者
Pawitan Y、Michiels S、Koscielny A、Gusnanto S、Ploner A：微阵列研究的错误发现率、敏感性和样本量。 生物信息学2005, (21):3017–24. 10.1093/生物信息学/bti448
谷歌学者
陈安才（Chen-An Tsai）、王素珍（Sue-Jane Wang）、陈敦才（Dung-Tsa Chen）、陈俊杰（James ChenJ）：基因表达微阵列实验的样本量。 生物信息学2005, (21):1502–1508.
谷歌学者
警告G，Liu P：微阵列实验的样本量估计。提交给生物信息学；在R中ssize包。2005
谷歌学者
Wei C、Li J、Bumgartner R：用于检测微阵列实验中差异表达基因的样本大小。 BMC基因组学2004, (5):1–10.
谷歌学者

下载参考资料

致谢

我们要感谢两位裁判的宝贵意见。作者得到了国家科学基金会拨款DMS-9971405和国家卫生研究院合同号N01-HV-28183的部分支持。

作者信息

作者和附属机构

健康研究与政策，斯坦福大学，加利福尼亚州斯坦福，94305，美国
罗伯特·蒂施莱尼

作者

罗伯特·蒂施莱尼
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

通信至罗伯特·蒂施莱尼.

作者提交的图像原始文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章，根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于这篇文章

引用这篇文章

Tibshirani，R.微阵列实验中评估样本大小的简单方法。BMC生物信息学 7, 106 (2006). https://doi.org/10.1186/1471-2105-7-106

下载引文

收到:2005年10月4日
认可的:2006年3月2日
出版:2006年3月2日
内政部:https://doi.org/10.1186/1471-2105-7-106

一种评估微阵列实验中样本大小的简单方法

摘要

背景

结果

结论

背景

建议的方法

备注

一个例子

讨论

工具书类

致谢

作者信息

作者和附属机构

通讯作者

作者提交的图像原始文件

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

关于这篇文章

引用这篇文章

关键词

BMC生物信息学

联系我们

一种评估微阵列实验中样本大小的简单方法

摘要

背景

结果

结论

背景

建议的方法

备注

一个例子

讨论

工具书类

致谢

作者信息

作者和附属机构

通讯作者

作者提交的图像原始文件

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

关于这篇文章

引用这篇文章

分享这篇文章

关键词

BMC生物信息学

联系我们