×

在应用于RNA-seq数据控制FDR的同时,使用最大平均功率进行最佳测试。 (英语) Zbl 1418.62066号

摘要:最近的RNA-seq技术是研究基因表达的一种有吸引力的方法。RNA-seq数据分析的一个最重要的目标是检测不同处理之间差异表达的基因。尽管已经出版了几种统计方法,但对于这些方法是否是最优的或如何搜索最优测试,没有理论依据。此外,大多数提议的测试都是为了测试不同治疗方法的平均表达水平是否完全相同而设计的,而有时生物学家对检测表达变化大于某个阈值的基因感兴趣。当前方法的另一个问题是错误发现率(FDR)控制没有得到很好的研究。在这份手稿中,我们提出了一个测试来解决上述所有问题。在模型假设下,我们推导出了一个最优测试,该测试能够在相同水平上控制FDR的测试中实现平均功率的最大值。我们还提供了一个近似版本近似最大平均功率(AMAP)测试,用于实际实施。所提出的方法允许测试比大多数先前研究考虑的更普遍的零假设,并且它导致了控制FDR的自然方法。通过仿真研究,我们表明,我们的测试比其他方法(包括广泛使用的edgeR、DESeq和baySeq方法)具有更高的功率,并且比实际中常用的其他两种FDR控制程序具有更好的FDR控制。为了演示,我们还将所提出的方法应用于从玉米中获得的真实RNA-seq数据集。

MSC公司:

62F03型 参数假设检验
62F05型 参数检验的渐近性质
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Anders,序列计数数据的差异表达分析,Nature Precidings 11 pp R106–(2010)
[2] 本杰米尼,《控制错误发现率:一种实用而有力的多重测试方法》,《皇家统计学会杂志:B辑57,第289页–(1995)·Zbl 0809.62014号
[3] Bloom,《通过简短测序测量差异基因表达:与双通道基因表达微阵列的定量比较》,BMC Genomics 10 pp 221–(2009)·doi:10.1186/1471-2164-10-221
[4] Bullard,mrna-seq实验中归一化和差异表达的统计方法评估,BMC生物信息学11第94页–(2010)·兹比尔05766221 ·数字对象标识代码:10.1186/1471-2105-11-94
[5] Chen,最大平均功率(MAP)测试,《统计学中的通信理论与方法》,第36页,第2237页–(2007年)·Zbl 1124.62007年 ·doi:10.1080/03610920701215480
[6] Covshoff,叶肉细胞缺陷玉米c4光合发育的去调节,《植物生理学》146页1469–(2008)·doi:10.1104/pp.107.113423
[7] Hardcastle,bayseq:识别序列计数数据中差异基因表达的经验贝叶斯方法,BMC生物信息学11 pp 422–(2010)·doi:10.1186/1471-2105-11-422
[8] Hwang,缩小适用于微阵列数据分析的均值和方差的最佳测试,遗传学和分子生物学中的统计应用9 pp第36条-(2010)·Zbl 1304.92044号 ·数字对象标识代码:10.2202/1544-6115.1587
[9] Ji,rna-seq中异构体表达的统计推断,生物信息学25 pp 1026–(2008)
[10] Kvam,《从rna-seq数据检测差异表达基因的统计方法比较》,《美国植物学杂志》99第248页–(2012)·doi:10.3732/ajb.1100340
[11] Li,《寻找一致模式:识别RNA-seq数据差异表达的非参数方法》,《医学研究中的统计方法》(2011年)
[12] Li,rna测序数据的归一化、测试和错误发现率估计,《生物统计学》13第523页–(2012)·Zbl 06064274号 ·doi:10.1093/biostatistics/kxr031
[13] Li,《玉米叶片转录组的发育动力学》,《自然遗传学》42 pp 1060–(2010)·doi:10.1038/ng.703
[14] MacCarthy,《相对于折叠式变化阈值的测试重要性是一种治疗》,生物信息学25,第765页–(2009)·Zbl 05743821号 ·doi:10.1093/bioinformatics/btp053
[15] Marioni,Rna-seq:《技术再现性评估和与基因表达阵列的比较》,《基因组研究》第18页第1509页–(2008)·doi:10.1101/gr.079558.108
[16] Morazavi,通过rna-seq绘制和量化哺乳动物转录体,《自然方法》5,第621页–(2008年)·doi:10.1038/nmeth.1226
[17] Nelder、Quasi-likelihood和pseudo-likelihood不是一回事,《应用统计杂志》27页1007–(2000)·doi:10.1080/0226677600050173328
[18] Oshlack,《从RNA-seq读取到差异表达结果》,《基因组生物学》11第220页–(2010)·doi:10.1186/gb-2010-11-12-220
[19] Peart,结构不同的组蛋白脱乙酰酶抑制剂调节的基因的识别和功能意义,美国国家科学院院刊102页3697–(2005)·doi:10.1073/pnas.0500369102
[20] Pickrell,《理解人类基因表达变异与rna测序的机制》,《自然》第464页第768页–(2010年)·doi:10.1038/nature08872
[21] Robinson,rna-seq数据差异表达分析的标度归一化方法,《基因组生物学》11 pp R25–(2010)·doi:10.1186/gb-2010-11-3-r25
[22] Robinson,用于评估标签丰度差异的适度统计测试,生物信息学23第2881页–(2007)·doi:10.1093/bioinformatics/btm453
[23] Robinson,负二项离散度的小样本估计,及其在sage数据中的应用,生物统计学9,第321页–(2008)·Zbl 1143.62312号 ·doi:10.1093/biostatistics/kxm030
[24] Storey,全基因组研究的统计意义,《美国国家科学院院刊》100页9440–(2003)·Zbl 1130.62385号 ·doi:10.1073/pnas.1530509100
[25] Sultan,通过kuman转录组的深度测序对基因活性和选择性剪接的全球观点,《科学》321卷第956页–(2008年)·doi:10.1126/science.1160342
[26] Wang,使用超高通量测序探索植物转录组,功能基因组学中的精简9第118页–(2010)·doi:10.1093/bfgp/elp057
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。