×

利用RNA-seq数据检测差异表达基因,使用反向选择解释相关协变量的影响。 (英语) Zbl 1329.62446号

摘要:转录组数据分析中的一个常见挑战是识别差异表达基因,即平均转录丰度水平在科学感兴趣的因子水平上不同的基因。使用RNA测序(RNA-seq)技术,可以同时测量多个生物样本中数千个基因的转录丰度水平。转录物丰度RNA-seq测量的部分变化可能与每个实验单位或RNA样本测量的连续和/或类别协变量的变化有关。忽略相关协变量或建模不相关协变量的影响可能对识别差异表达基因有害。我们提出了一种反向选择策略,用于选择一组协变量,在搜索差异表达基因时考虑了这些协变量的影响。我们通过一项RNA-seq研究的分析来说明我们的方法,该研究旨在确定两个不同品系的猪之间差异表达的基因,这两个品系的差异选择用于剩余饲料摄入。我们使用模拟来展示我们的反向选择程序相对于忽略或调整所有测量协变量的替代策略的优势。

MSC公司:

62页第12页 统计在环境和相关主题中的应用
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anders,S.和Huber,W.(2010),“序列计数数据的差异表达分析”,《基因组生物学》,11:R106。
[2] Bullard,J.H.、Purdom,E.、Hansen,K.D.和Dudoit,S.(2010),“mRNA序列实验中标准化和差异表达统计方法的评估”,BMC生物信息学,11:94。
[3] Burden,C.J.、Qureshi,S.E.和Wilson,S.R.(2014),“RNA-seq计数数据差异表达分析的误差估计”,PeerJ,2,e576。
[4] Di,Y.,Schafer,D.W.,Cumbie,J.S.和Chang,J.S(2011),“评估RNA-Seq差异基因表达的NBP负二项式模型”,《遗传学和分子生物学的统计应用》,10(1),1-28·Zbl 1296.92026号
[5] Gentleman,R.C.、Carey,V.J.、Bates,D.M.等人(2004),“生物导体:计算生物学和生物信息学的开放软件开发”,《基因组生物学》,第5卷,R80页。
[6] Grenander,U.(1956年),“死亡率计量理论”,《斯堪的纳维亚精算杂志》,第2125-153页·Zbl 0077.33715号
[7] Hardcastle,T.J.和Kelly,K.A.(2010),“baySeq:识别序列计数数据中差异表达的经验贝叶斯方法”,BMC生物信息学,11(1),422。
[8] Law,C.W.、Chen,Y.、Shi,W.和Smyth,G.K.(2014),“Voom:精确权重解锁RNA-seq读取计数的线性模型分析工具”,《基因组生物学》,15(2),R29。
[9] Leek,J.(2014),“svaseq:从测序数据中去除批量效应和其他不必要的噪声”,核酸研究,42(21),e161。
[10] Leek,J.和Storey,J.(2007),“通过替代变量分析捕捉基因表达研究中的异质性”,《公共科学图书馆·遗传学》,3(9),1724-1735。
[11] Liang,K.和Nettleton,D.(2012),“错误发现率控制和估计的自适应和动态自适应程序”,《皇家统计学会杂志:B辑》,74163-182·Zbl 1411.62226号
[12] Lorenz,D.J.、Gill,R.S.、Mitra,R.和Datta,S.(2014),“使用RNA-seq数据检测差异表达基因”,《下一代测序数据的统计分析》Springer,第25-49页。
[13] Lu,J.,Tomfohr,J.K.和Kepler,T.B.(2005),“识别多个SAGE库中的差异表达:过度分散的对数线性模型方法”,BMC生物信息学,6:165。
[14] Lund,S.P.、Nettleton,D.、McCarthy,D.J.和Smyth,G.K.(2012年),“使用具有收缩分散估计的类似然法检测RNA序列数据中的差异表达”,《遗传学和分子生物学的统计应用》,第11卷第5期,第8条·Zbl 1296.92187号
[15] Marioni,J.C.、Mason,C.E.、Mane,S.M.、Stephens,M.和Gilad,Y.(2008),“RNA-seq:技术再现性评估和与基因表达阵列的比较”,《基因组研究》,18(9),1509-1517。
[16] McCarthy,D.J.、Chen,Y.和Smyth,G.K.(2012),“关于生物变异的多因素RNA-seq实验的差异表达分析”,《核酸研究》,40428-4297。
[17] Miller,A.(2002),回归CRC出版社的子集选择·Zbl 1051.62060号
[18] Mortazavi,A.、Williams,B.A.、McCue,K.、Schaeffer,L.和Wold,B.(2008),“通过RNA-Seq对哺乳动物转录组进行绘图和量化”,Nat Methods。,5(7), 621-628.
[19] Nettleton,D.、Hwang,J.、Caldo,R.和Wise,R.(2006),“从p值的直方图中估计真零假设的数量”,《农业、生物和环境统计杂志》,第11337-356页。
[20] R核心团队(2012),R:统计计算语言与环境,R统计计算基金会,奥地利维也纳,ISBN 3-900051-07-0。
[21] Risso,D.、Ngai,J.、Speed,T.P.和Dudoit,S.(2014a),“利用控制基因或样本的因子分析对RNA-seq数据进行归一化”,《自然生物技术》,32(9),896-902。
[22] Risso,D.、Ngai,J.、Speed,T.P.和Dudoit,S.(2014b),“尖峰标准在RNA-seq标准化中的作用”,《下一代测序数据弹簧的统计分析》,第169-190页。
[23] Ritchie,M.E.、Phipson,B.、Wu,D.、Hu,Y.、Law,C.W.、Shi,W.和Smyth,G.K.(2015),“limma为RNA测序和微阵列研究提供差异表达分析”,核酸研究,第gkv007页。
[24] Robinson,M.D.和Oshlack,A.(2010),“RNA-seq数据差异表达分析的尺度归一化方法”,《基因组生物学》,11:R25。
[25] Robinson,M.D.和Smyth,G.K.(2008a),“评估标记丰度差异的中等统计检验”,BMC生物信息学,232881-2887。
[26] Robinson,M.D.和Smyth,G.K.(2008b),“负二项离散度的小样本估计及其在SAGE数据中的应用”,《生物统计》,第9期,第321-332页·Zbl 1143.62312号
[27] Storey,J.D.(2002),“错误发现率的直接方法”,《皇家统计学会期刊:B辑》,64,479-498·Zbl 1090.62073号
[28] Van De Wiel,M.A.、Leday,G.G.、Pardo,L.、Rue,H.、Van Der Vaart,A.W.和Van Wieringen,W.N.(2012),“通过估计多重收缩先验对RNA测序数据进行贝叶斯分析”,生物统计学,p.kxs031。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。