×

RNA-seq数据差异表达分析的半参数贝叶斯方法。 (英语) 兹比尔1329.62444

概述:RNA-sequencing(RNA-seq)技术彻底改变了农业生物学家研究基因表达的方式,并产生了大量等待分析的数据。检测差异表达基因是RNA-seq数据分析的基本步骤之一。在本文中,我们使用泊松-伽马层次模型或等效的负二项模型对RNA-seq实验的计数数据进行建模。我们推导了一种半参数贝叶斯方法,将Dirichlet过程作为两种处理方法之间褶皱变化分布的先验模型。提出了一种基于Gibbs算法的微分表达式分析推理策略。几项仿真研究的结果表明,我们提出的方法优于其他方法,包括广泛应用的edgeR和DESeq方法。我们还讨论了我们的方法在数据集中的应用,该数据集比较了玉米叶片中束鞘细胞和叶肉细胞之间的基因表达。

MSC公司:

62页第12页 统计在环境和相关主题中的应用
62G07年 密度估算
2015年1月62日 贝叶斯推断
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Anders,S.和Huber,W.(2010),“序列计数数据的差异表达分析”,《基因组生物学》,11,R106。
[2] Antoniak,C.(1974),“Dirichlet过程的混合及其在贝叶斯非参数问题中的应用”,《统计学年鉴》,2(6),1152-1174·Zbl 0335.60034号
[3] Blackwell,D.和MacQueen,B.J.(1973年),“通过Polya Urn Schemes的Ferguson分配”,《统计年鉴》,第1(2)期,第353-355页·Zbl 0276.62010
[4] Bullard,J.H.、Purdom,E.A.、Hansen,K.D.和Dudoit,S.(2010),“mRNA-Seq实验中归一化和差异表达的统计方法评估”,BMC生物信息学,11,94。
[5] Benjamini,Y.和Hochberg,Y.(1995),“控制错误发现率:一种实用而有力的多重测试方法”,《皇家统计学会杂志》,B辑(方法学)57,289-300·Zbl 0809.62014号
[6] Do,K.A.、Müller,P.和Tang,F.(2005),“差异基因的贝叶斯混合模型”,《皇家统计学会杂志》,C辑(应用统计学),54,627-644·Zbl 1490.62353号
[7] Escobar,M.D.(1994),“用Dirichlet过程先验估计正态均值”,《美国统计协会杂志》,第89期,第268-277页·Zbl 0791.62039号
[8] Ferguson,T.S.(1973),“一些非参数问题的贝叶斯分析”,《统计年鉴》,1209-230·Zbl 0255.62037号
[9] Gelfand A.E.和Smith,F.M.(1990),“基于抽样的边际密度计算方法”,《美国统计协会杂志》,85(410),398-409·Zbl 0702.62020号
[10] Geman,S.和Geman D.(1984),“随机松弛、吉布斯分布和图像的贝叶斯恢复”,模式分析和机器智能,IEEE事务,6721-741·Zbl 0573.62030号
[11] Genovese,C.和Wasserman,L.(2003),“贝叶斯和频繁多重测试”,《贝叶斯统计》,第7期,第145-161页。
[12] Gilks,W.R.(1992),“吉布斯抽样的自适应拒绝抽样”,《应用统计学》,第41期,第337-348页·Zbl 0825.62407号
[13] Green,P.J.和Richardson,S.(2001),“利用和不利用Dirichlet过程模拟异质性”,《斯堪的纳维亚统计杂志》,28:355-375·Zbl 0973.62031号
[14] Hardcastle,T.J.和Kelly K.A.(2010),“baySeq:识别序列计数数据中差异表达的经验贝叶斯方法”,BMC生物信息学,11(422)。
[15] Kalli M.、Griffin J.和Walker S.(2011年)。“切片取样混合模型”,统计与计算,193-105·Zbl 1256.65006号
[16] Kvam,V.M.,Liu,P.和Si,Y.(2012),“从RNA-Seq数据检测差异表达基因的统计方法比较”,《美国植物学杂志》,99(2),248-256。
[17] Law,C.W.,Chen,Y.,Shi,W.和Smyth,G.K.(2014),“Voom:精确权重解锁RNA-seq读取计数的线性模型分析工具”,基因组生物学,15,R29。
[18] Li,P.、Ponnala,L.、Gandotra,N.、Wang,L.,Si,Y.、Austa,S.L.、Kebrom,T.H.、ET AL.(2010),“玉米叶片转录组的发育动力学”,《自然遗传学》,42,1060-1067。
[19] Muller,P.和Fernando,A.Q.(2004),“非参数贝叶斯数据分析”,《统计科学》,19(1),95-110·Zbl 1057.62032号
[20] Neal,R.M.(2000),“Dirichlet过程混合模型的马尔可夫链抽样方法”,《计算与图形统计杂志》,9(2),249-265。
[21] Newton,M.A.、Noueiry,A.、Sarkar,D.和Ahlquist,P.(2004),“用半参数层次混合法检测差异基因表达”,《生物统计》,第5155-176页·Zbl 1096.62124号
[22] Plummer,M.、Best,N.、Cowles,K.和Vines,K.(2006年)。“CODA:MCMC的收敛诊断和输出分析”,R News,6,7-11。
[23] Reeb,P.D.和Steibel,J.P.(2013)。“评估RNA测序实验的统计分析模型”,Front Genet,4178。
[24] Robinson,M.D.和Oshlack,A.(2010年)。“RNA-seq数据差异表达分析的尺度归一化方法”,《基因组生物学》,11,R25。
[25] Robinson,M.D.和Smyth,G.K.(2007),“评估标记丰度差异的中等统计测试”,生物信息学,232881-2887。
[26] Si,Y.和Liu,P.(2013),“在控制FDR的同时应用于RNA-seq数据的最大平均功率的最佳测试”,生物计量学,69,594-605·Zbl 1418.62066号
[27] Soneson,C.和Delorenzi,M.(2013),“RNA-seq数据差异表达分析方法的比较”,BMC生物信息学,14,91。
[28] Tausta,S.L.、Li,P.、Si,Y.、Gandotra,N.、Liu,P.,Sun,Q.、Brutnell,T.P.和Nelson,T.(2014),“玉米叶片中Kranz细胞转录特异性的发育动力学揭示了C4相关过程的早期发生”,《实验植物学杂志》,65(13),3543-3555。
[29] Tierney,L.(1994),“探索后验分布的马尔可夫链”,《统计年鉴》,22(4),1701-1728·Zbl 0829.62080号
[30] Wu,Y.和Ghosal,S.(2010),“The<InlineEquation ID=“IEq196”><EquationSource Format=“TEX”>\[L1\]<Equation Source Formation=“MATHML”><math-xmlns:xlink=”http://www.w3.org/1999/xlink“>Bayes程序多元Bayes密度估计中Dirichlet混合的L1-一致性”,《多元分析杂志》,1012411-2419·兹比尔1198.62028
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。