×

通过适应RNA-seq长度偏差的程序控制假发现率。 (英语) Zbl 1390.62324号

摘要:在RNA-Seq实验中,给定基因的映射读数数量与其表达水平和长度成比例。因为较长的基因比较短的基因产生更多的序列片段,所以预计即使两个基因具有相同的表达水平,较长的基因也会有更多的总读取数。这一特征产生了长度偏差,使得重要基因的比例随着基因长度的增加而增加。然而,长基因在生物学上并不比短基因更有意义。因此,应适当纠正长度偏差,以确定RNA-Seq中重要基因的准确列表。为此,我们提出了两种基于加权FDR和分离FDR方法的多重测试程序。这两种方法使用关于差异基因长度的先验信息,同时将假发现率(FDR)控制在(α)。在加权-FDR控制程序中,我们将每个基因的长度纳入了先前的权重。当基因长度较短时,这些权重会增加功率;当基因长度较长时,权重会降低功率。在分离-FDR控制过程中,我们根据基因长度对所有基因进行顺序排序,然后将这些基因分为短基因和长基因两个亚组。然后分别对每个亚组进行自适应Benjamini-Hochberg程序。将提出的方法与现有方法进行了比较,并在两个数值算例和一个模拟研究中进行了评估。我们得出结论,加权(p)值程序适当地减少了RNA-Seq的长度偏差。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安德斯,S。;Huber,W.,序列计数数据的差异表达分析,基因组生物学,11,R106(2010)
[2] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用而有力的多重测试方法》,《皇家统计学会杂志》。B.系列统计方法,57,289-300(1995)·Zbl 0809.62014号
[3] Bullard,J.H。;Purdom,E。;Hansen,K.D。;Dudoit,S.,《mRNA-Seq实验中归一化和差异表达统计方法的评估》,BMC生物信息学,11,94(2010)
[4] 蔡,T。;Sun,W.,《分组假设的同步测试:在多个干草堆中寻找针头》,《美国统计协会杂志》,1041467-1481(2009)·兹比尔1205.62005
[5] Efron,B.,《同时推断:什么时候应该合并假设检验问题?》?,《统计年鉴》,2197-223(2008)·Zbl 1137.62010年
[6] 高,L。;方,Z。;张凯。;Zhi,D。;Cui,X.,基因集分析中RNA-seq数据的长度偏差校正,生物信息学,27,5,662-669(2010)
[7] Genovese,C.R。;罗德,K。;Wasserman,L.,具有(p\)值权重的错误发现控制,生物特征,93,509-524(2006)·Zbl 1108.62070号
[8] Hardcastle,T.J。;Kelly,K.A.,bayseq:识别序列计数数据中差异表达的经验贝叶斯方法,BMC生物信息学,11,422(2010)
[9] Kvam,V.M。;刘,P。;Si,Y.,《从RNA-seq数据中检测差异表达基因的统计方法比较》,《美国植物学杂志》,99,2,248-256(2012)
[10] 李,J。;Tibshirani,R.,《寻找一致模式:识别RNA-seq数据差异表达的非参数方法》,《医学研究中的统计方法》(2011年)
[11] 李,J。;Witten,D.M。;约翰斯通,I.M。;Tibshirani,R.,RNA测序数据的归一化、测试和错误发现率估计,生物统计学,13223-538(2012)
[12] 马里奥尼,J.C。;梅森,C.E。;马内,S.M。;斯蒂芬斯,M。;Gilad,Y.,RNA-seq:技术再现性评估和与基因表达阵列的比较,《基因组研究》,第18期,第1509-1517页(2008年)
[13] Morris,B.,评论微阵列、经验贝叶斯和两组模型,《统计科学》,23,34-40(2008),B.Efron著·兹比尔1327.62049
[14] Mortazavi,A。;威廉姆斯,文学学士。;McCue,K。;谢弗,L。;Wold,B.,《通过RNA-Seq对哺乳动物转录体进行定位和量化》,《自然方法》,第7621-628页(2008年)
[15] Oshlack,A。;Wakefield,M.J.,RNA-seq数据中的转录长度偏差混淆了系统生物学,《生物学指南》,2009年第4期,第14页
[16] 医学博士罗宾逊。;麦卡锡,D.J。;Smyth,G.K.,edgeR:数字基因表达数据差异表达分析的生物导体包,生物信息学,26,1,139-140(2010)
[17] 罗德,K。;德夫林,B。;Wasserman,L.,《提高全基因组关联研究的能力:权重提示量表》,《遗传流行病学》,31741-747(2007)
[18] 罗德,K。;Wasserman,L.,《全基因组显著性水平和加权假设检验》,统计科学,24398-411(2009)·Zbl 1329.62435号
[19] Storey,J.D.,《错误发现率的直接方法》,《皇家统计学会期刊》,B辑,64,479-495(2002)·Zbl 1090.62073号
[20] Sun,L。;克雷乌,R.V。;帕特森,A.D。;Bull,S.B.,大规模假设检验的分层错误发现控制及其在全基因组关联研究中的应用,遗传流行病学,30119-530(2006)
[21] 特拉内尔,C。;威廉姆斯,文学学士。;Pertea,G。;Mortazavi,A。;关颖珊(Kwan,G.)。;van Baren,M.J.,通过RNA-Seq进行转录组装和量化揭示了细胞分化过程中未标记的转录物和亚型转换,《自然生物技术》,28,511-515(2010)
[22] Wang,L。;Z.Feng。;王,X。;王,X。;Zhang,X.,DEGseq:从RNA-seq数据中识别差异表达基因的R包,生物信息学,26,136-138(2010)
[23] Wasserman,L。;Roeder,K.,高维变量选择,《统计年鉴》,372178-2201(2009)·兹比尔1173.62054
[24] Yang,T。;Jeong,S.,消除RNA-seq基因水平偏差的分组假发现率,进化生物信息学,9467-478(2013)
[25] Young,医学博士。;韦克菲尔德,M.J。;Smyth,G.K。;Oshlack,A.,《RNA-seq的基因本体分析:选择偏差的解释》,《基因组生物学》,11,R14(2010)
[26] 郑伟。;Chung,L。;Zhao,H.,RNA测序数据中的偏差检测和校正,BMC生物信息学,12290(2011)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。