×

使用混合物对差异表达分析中的过度分散异质性进行建模。 (英语) Zbl 1390.62237号

摘要:下一代测序技术现在已成为衡量基因表达的一种可选方法。要分析的数据是读取计数,通常使用负二项分布进行建模。与此概率框架相关的一个相关问题是过度分散参数的可靠估计,这一点得到了每个基因通常可观察到的有限重复次数的支持。已经提出了许多策略来估计这个参数,但当差异分析是目的时,它们通常会导致基于插件估计的程序,我们在这里表明,估计框架和测试框架之间的这种差异可能会导致无法控制的I类错误。相反,我们提出了一个混合模型,允许每个基因与其他表现出类似变异性的基因共享信息。为了进行差异表达分析,开发了三种一致的统计检验。我们通过一项广泛的模拟研究表明,相对于普通程序,所提出的方法提高了检测差异表达基因的灵敏度,因为它达到了I型误差的标称值,同时保持了差异表达基因和非差异表达基因之间的鉴别能力。该方法最后在前列腺癌RNA-Seq数据上进行了说明。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62甲12 多元分析中的估计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anders,序列计数数据的差异表达分析,《基因组生物学》11 pp R106–(2010)·doi:10.1186/gb-2010-11-10-r106
[2] Auer,用于测试RNA-seq数据的两阶段泊松模型,《遗传学和分子生物学中的统计应用》,第10页,第1页–(2011年)·Zbl 1296.92139号 ·数字对象标识代码:10.2202/1544-6115.1627
[3] 本杰米尼,《控制错误发现率:一种实用而有力的多重测试方法》,《皇家统计学会杂志》,B辑(方法学)57页289–(1995)·Zbl 0809.62014号
[4] Delmar,基因表达数据差异分析方差的混合模型,《皇家统计学会杂志》,C辑(应用统计学)54,第31页–(2005)·Zbl 1490.62350号 ·doi:10.1111/j.1467-9876.2005.00468.x
[5] Dempster,通过EM算法获得不完整数据的最大似然,皇家统计学会杂志,B辑(方法学)39 pp 1–(1977)·Zbl 0364.62022号
[6] Di,用于评估RNA-Seq差异基因表达的NBP负二项模型,《遗传学和分子生物学中的统计应用》10第1页–(2011年)·Zbl 1296.92026号 ·数字对象标识代码:10.2202/1544-6115.1637
[7] Fraley,基于模型的聚类、判别分析和密度估计,《美国统计协会杂志》97第611页–(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[8] Frazee,单碱基分辨率下RNA-seq数据的差异表达分析,生物统计学第413页–(2014)·doi:10.1093/biostatistics/kxt053
[9] Hardcastle,BaySeq:用于识别序列计数数据中差异表达的经验贝叶斯方法,BMC生物信息学11第1页–(2010)·doi:10.1186/1471-2105-11-422
[10] Klambauer,DEXUS:《在未知条件下识别RNA-Seq研究中的差异表达》,《核酸研究》42第1页–(2013)
[11] Law,Voom:《精确权重解锁RNA-seq读取计数线性模型分析工具》,《基因组生物学》第15页R29–(2014)·doi:10.1186/gb-2014-15-2-r29
[12] Li,《数字转录组分析所需标签密度的测定:雄激素敏感性前列腺癌模型的应用》,《美国国家科学院院刊》105页20179–(2008)·doi:10.1073/pnas.0807121105
[13] Li,《寻找一致模式:识别RNA-Seq数据差异表达的非参数方法》,《医学研究中的统计方法》22,第519页–(2013)·doi:10.1177/0962280211428386
[14] Li,RNA测序数据的归一化、测试和错误发现率估计,生物统计学13,第523页–(2012)·doi:10.1093/biostatistics/kxr031
[15] Love,使用DESeq2对RNA-seq数据的折叠变化和离散度进行适度估计,《基因组生物学》15第550页–(2014)·doi:10.1186/s13059-014-0550-8
[16] Lund,《使用准相似性和缩小的离散估计检测RNA序列数据中的差异表达》,《遗传学和分子生物学的统计应用》11,第8页–(2012年)·Zbl 1296.92187号 ·doi:10.1551/544-6115.1826
[17] Marioni,RNA-seq:《技术再现性评估及与基因表达阵列的比较》,《基因组研究》18页1509–(2008)·doi:10.1101/gr.079558.108
[18] McCarthy,关于生物变异的多因子RNA-seq实验的差异表达分析,核酸研究40,第4288页–(2012)·doi:10.1093/nar/gks042
[19] McLachlan,G.Peel,D.2000有限混合模型,概率统计中的Willey级数·Zbl 0963.62061号 ·doi:10.1002/0471721182
[20] Robinson,edgeR:数字基因表达数据差异表达分析的生物导体包,生物信息学26 pp 139–(2010)·doi:10.1093/bioinformatics/btp616
[21] Robinson,负二项离散度的小样本估计,及其在SAGE数据中的应用,生物统计学9,第321页–(2008)·Zbl 1143.62312号 ·doi:10.1093/biostatistics/kxm030
[22] Soneson,compcodeR-RNA-seq数据差异表达方法基准测试的R包,生物信息学30 pp 2517–(2014)·doi:10.1093/bioinformatics/btu324
[23] Soneson,《RNA-seq数据差异表达分析方法的比较》,BMC生物信息学14 pp 91–(2013)·doi:10.1186/1471-2105-14-91
[24] 不久,生物学和医学的高通量测序,分子系统生物学9第1页–(2013)
[25] Tarazona,RNA-seq的差异表达:一个深度问题,基因组研究21第2213页–(2011)·doi:10.1101/gr.124321.111
[26] van der Vaart,A.2000渐近统计·Zbl 0910.62001号
[27] Wang,DEGseq:从RNA-seq数据中识别差异表达基因的R包,生物信息学26第136页–(2010)·doi:10.1093/生物信息学/btp612
[28] Wang,RNA-Seq:转录组学的革命性工具,《自然评论遗传学》10,第57页–(2009)·doi:10.1038/nrg2484
[29] Wu,一种新的离散收缩估计器改进了RNA-seq数据中的差异表达检测,生物统计学14 pp 232–(2013)·doi:10.1093/biostatistics/kxs033
[30] Yu,小样本RNA-seq实验负二项模型中离散度的收缩估计,生物信息学29 pp 1275–(2013)·doi:10.1093/bioinformatics/btt143
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。