摘要
背景
结果
结论
背景
排序深度
复制
高效的实验设计
方法
结果
统计方法的比较:edgeR、DESeq和NBPSeq使用空值下的模拟数据
统计方法的比较:DESeq和edgeR使用15%DE转录物的模拟数据
检测DE作为生物复制次数的函数 n个
作为测序深度函数的DE检测
跨多元化实验设计策略的DE检测
折叠式变换作为DE的指示器
讨论
DE算法的比较:edgeR、DESeq和NBPSeq
复制对DE检测的影响
测序深度对DE检测的影响
多路复用实验设计
结论
方法
负二项模型与生物变异模拟
RNA-Seq中DE的R包
edgeR(版本2.4.0,生物导体)
DESeq(1.6.1版,生物导体)
NBPSeq(0.1.4版,CRAN)
合成数据集的构建
-
1 为了测试零假设下的性能,将调节因子设置为 θ 我 =所有成绩单为1。 -
2 为了测试在存在替代假设的情况下检测DE的能力,调节因子 θ 我 已设置为1+ X(X) 我 对于随机选择的7.5%的转录物(上调),(1+ X(X) 我 ) −1 进一步7.5%(下调),剩余85%的转录本为1,其中 X(X) 我 均数为1的同分布独立指数随机变量。
真阳性率和假阳性率的计算
在零假设下
在存在替代假设的情况下
模拟可变级别的序列数据和复制
多路复用实验设计
-
50%测序深度下的2对2生物复制 -
33%测序深度下的3对3生物重复 -
在25%测序深度下进行4次与4次生物复制 -
在17%测序深度下进行6次与6次生物复制 -
在13%的测序深度下,8个生物重复与8个生物复制 -
在8%测序深度下进行12次与12次生物复制 -
32对32个生物重复,测序深度为3% -
96对96个生物重复,测序深度为1%
参考文献
Mortazavi A,Williams BA,McCue K,Schaeffer L,Wold B:通过RNA-seq绘制和量化哺乳动物转录组。 自然方法。 2008, 5 (7): 621-628. 10.1038/nmeth.1226。 Trapnell C、Williams BA、Pertea G、Mortazavi A、Kwan G、van Baren MJ、Salzberg SL、Wold BJ、Pachter L:转录物组装和RNA-Seq量化揭示了细胞分化过程中未标记的转录物和亚型转换。 国家生物技术。 2010, 28: 511-515. 10.1038/nbt.1621。 Guttman M、Garber M、Levin JZ、Donaghey J、Robinson J、Adiconis X、Fan L、Koziol MJ、Gnirke A、Nusbaum C、Rinn JL、Lander ES、Regev A:小鼠细胞类型特异性转录体的从头重建揭示了lincRNAs的保守多元结构。 国家生物技术。 2010年,28:503-510。 10.1038/nbt.1633。 Haas BJ,Zody MC:推进RNA-Seq分析。 国家生物技术。 2010, 28: 421-423. 10.1038/nbt0510-421。 Pan Q,Shai O,Lee LJ,Frey BJ,Blencowe BJ:通过高通量测序深入研究人类转录组中的选择性剪接复杂性。 自然遗传学。 2008, 40: 1413-1415. 10.1038/ng.259。 Lovci MT,Li HR,Fu XD,Yeo GW:通过双随机启动策略对基因表达和选择性剪接进行RNA-seq分析。 方法分子生物学。 2011, 729: 247-255. 10.1007/978-1-61779-065-2_16. Bullard JH、Purdom E、Hansen KD、Dudoit S:mRNA-seq实验中归一化和差异表达的统计方法评估。 BMC生物信息。 2010, 11: 94-10.1186/1471-2105-11-94. Oshlack A,Robinson医学博士,Young医学博士:从RNA-seq读取到差异表达结果。 基因组生物学。 2010年11月:220-10.1186/gb-2010-11-12-220。 Dom JC、Lottaz C、Borodina T、Himmelbauer H:高通量DNA测序的超短读数据集中的重大偏差。 《核酸研究》2008,36:e105-10.1093/nar/gkn425。 Hansen KD,Brenner SE,Dudoit S:随机六聚体启动引起的Illumina转录组测序偏差。 《核酸研究》2010,38:e131-10.1093/nar/gkq224。 Sendler E、Johnson GD、Krawetz SA:影响RNA测序分析的本地和全球因素。 分析生物化学。 2011, 419: 317-322. 10.1016/j.ab.2011.08.013。 吕B,于杰,徐杰,陈杰,赖M:一种通过家政基因归一化从基于计数的数字数据库中检测差异表达基因的新方法。 基因组学。 2009, 94: 211-216. 2016年10月10日/j.ygeno.2009.05.003。 Willenbrock H、Salomon J、Sökilde R、Barken KB、Hansen TN、Nielsen FC、Möller S、Litman T:定量miRNA表达分析:比较微阵列与下一代测序。 RNA。 2009, 15: 2028-2034. 10.1261/rna.1699809。 Zheng W,Chung LM,Zhao H:RNA测序数据中的偏差检测和校正。 BMC生物信息。 2011, 12: 290-10.1186/1471-2105-12-290. Roberts A、Trapnell C、Donaghey J、Rinn JL、Pachter L:通过修正片段偏差改进RNA-Seq表达估计。 基因组生物学。 2011年12月:R22-10.1186/gb-2011-12-3-R22。 Canales RD、Luo Y、Willey JC、Austermiller B、Barbacioru CC、Boysen C、Hunkappiller K、Jensen RV、Knight CR、Lee KY、Ma Y、Maqsodi B、Papallo A、Peters EH、Poulter K、Ruppel PL、Samaha RR、Shi L、Yang W、Zhang L、Goodsaid FM:用定量基因表达平台评估DNA微阵列结果。 国家生物技术。 2006, 24: 1115-1122. 10.1038/nbt1236。 Risso D,Schwartz K,Sherlock G,Dudoit S:RNA-seq数据的GC含量标准化。 BMC生物信息。 2011, 12: 480-10.1186/1471-2105-12-480. Oshlack A,Wakefield MJ:RNA-seq数据中的转录长度偏差混淆了系统生物学。 生物直接。 2009, 4: 14-10.1186/1745-6150-4-14. Auer PL、Srivastava S、Doerge RW:差异表达——下一代及以后。 功能基因组学简介。 2011年10月1093/bfgp/elr041日。 数字对象标识: Fang Z,Cui X:RNA-seq实验中的设计和验证问题。 生物信息简介。 2011, 12: 280-287. 10.1093/bib/bbr004。 Wang Y,Ghaffari N,Johnson CD,Braga-Neto-UM,Wang H,Chen R,Zhou H:通过RNA-seq评估鸡转录组的覆盖率和深度。 BMC生物信息。 2011年12月(补充10):S5-10.1186/1471-2105-12-S10-S5。 Łabaj PP、Leparc GG、Linggi BE、Markillie LM、Wiley HS、Kreil DP:定量转录表达谱中RNA-Seq精确度的表征和改进。 生物信息学。 2011年第27期:i383-391。 10.1093/bioinformatics/btr247。 Marioni JC、Mason C、Mane SM、Stephens S、Gilad Y:RNA-seq:技术可复制性评估和与基因表达阵列的比较。 《基因组研究》2008,18:1509-1517。 10.1101/gr.079558.108。 Pickrell JK、Marioni JC、Pai AA、Degner JF、Engelhardt BE、Nkadori E、Veyrieras JB、Stephens M、Gilad Y、Pritchard JK:通过RNA测序了解人类基因表达变异的机制。 自然。 2010, 464: 768-72. 10.1038/nature08872。 Anders S,Huber W:序列计数数据的差异表达分析。 基因组生物学。 2010年,11(10):R106-10.1186/gb-2010-11-10-R106。 Kvam VM,Liu P,Si Y:从RNA-seq数据中检测差异表达基因的统计方法比较。 《美国生物医学杂志》,2012,99(2):248-256。 10.3732/ajb.1100340。 Porreca GJ、Zhang K、Li JB、Xie B、Austin D、Vassallo SL、LeProust EM、Peck BJ、Emig CJ、Dahl F、Gao Y、Church GM、Shendure J:人类外显子大集合的多重扩增。 自然方法。 2007, 4: 931-936. 10.1038/nmeth1110。 Smith AM、Heisler LE、St Onge RP、Farias Hesson E、Wallace IM、Bodeau J、Harris AN、Perry KM、Giaever G、Pourmand N、Nislow C:高度复用条形码测序:一种对合并样本进行并行分析的有效方法。 《核酸研究》2010,38:e142-10.1093/nar/gkq368。 Wang L,Si Y,Dedow LK,Shao Y,Liu P,Brutnell TP:基于Illumina的股特异性复合RNA-seq的低成本库构建协议和数据分析管道。 《公共科学图书馆·综合》。 2011年6月:e26426-10.1371/journal.pone.0026426。 Alon S、Vigneault F、Eminaga S、Christodoulou DC、Seidman JG、Church GM、Eisenberg E:miRNA高通量多重测序中的条形码偏差。《基因组研究》2011,21:1506-1511。 10.1101/gr.121715.111。 Timmermans MJ、Dodsworth S、Culverwell CL、Bocak L、Ahrens D、Littlewood DT、Pons J、Vogler AP:为什么使用条形码? 用于分子系统学的线粒体基因组高通量多重测序。 《核酸研究》2010,38:e197-10.1093/nar/gkq807。 Robinson MD,Oshlack A:RNA-seq数据差异表达分析的标度归一化方法。 基因组生物学。 2010年11月:R25-10.1186/gb-2010-11-3-R25。 Di Y,Schafer D,Cumbie J,Chang J:评估RNA-seq差异基因表达的NBP负二项模型。 基因和分子生物学统计应用。 2011年10月:第24条- 周永华,夏克,赖特FA:一种强大而灵活的RNA序列计数数据分析方法。 生物信息学。 2011, 27: 2672-2678. 10.1093/bioinformatics/btr449。 Singh D,Orellana CF,Hu Y,Jones CD,Liu Y,Chiang DY,Liu J,Prins JF:FDM:利用RNA-seq数据检测差异转录的基于图形的统计方法。 生物信息学。 2011, 27: 2633-2640. 10.1093/bioinformatics/btr458。 Li B,Dewey CN:RSEM:基于RNA-Seq数据的准确转录定量,有或没有参考基因组。 BMC生物信息学。 2011, 12: 323-10.1186/1471-2105-12-323. Tarazona S、Garcia-Alcalde F、Dopazo J、Ferrer A、Conesa A:RNA-seq的差异表达:深度问题。 《基因组研究》2011,21:2213-2223。 10.1101/gr.124321.111。 Langmead B,Hansen KD,Leek JT:用MYRNA进行云尺度RNA测序差异表达分析。基因组生物学。 2010年11月:R83-10.1186/gb-2010-11-8-R83。 Robinson M,Smyth G:评估标记丰度差异的中等统计检验。 生物信息学。 2007, 23 (21): 2881-2887. 10.1093/bioinformatics/btm453。 Anders S:使用DESeq软件包分析RNA-Seq数据。 2010, [ http://www.bioconductor.org/help/course-materials/2011/BioC2011/LabStuff/DESeq.pdf ], McIntyre LM、Lopiano KK、Morse AM、Amin V、Oberg AL、Young LJ、Nuzhdin SV:RNA-seq:技术变异性和取样。 BMC基因组学。 2011, 12: 293-10.1186/1471-2164-12-293. Bashir A,Bansal V,Bafna V:设计深度测序实验:检测结构变异和估计转录物丰度。 BMC基因组学。 2010年,11:385-10.1186/1471-2164-11-385。 Robinson M,McCarthy D,Smyth G:edgeR:用于数字基因表达数据差异表达分析的生物导体包。 生物信息学。 2010, 26: 139-140. 10.1093/bioinformatics/btp616。 Stephen S、Cullerne D、Spriggs A、Helliwell C、Lovell D、Taylor JM:BioKanga:一套高性能生物信息学应用程序。 2012年的筹备工作[ http://code.google.com/p/biokanga/ ], JabRef开发团队:JabRef。 JabRef开发团队2010。 [ http://jabref.sourceforge.net/faq.php ], Muller A:TeXMed–PubMed 2002-2012的BibTeX接口。 [ http://www.bioinformatics.org/texmed/ ], Chen H,Boutros PC:VennDiagram:在R.BMC Bioinf中生成高度可定制的维恩图和欧拉图的软件包。 2011, 12: 35-10.1186/1471-2105-12-35.
作者信息
作者和附属机构
通讯作者
其他信息
竞争性利益
作者的贡献
电子辅助材料
12864_2012_4667_MOESM1_ESM.pdf
12864_2012_4667_MOESM2_ESM.pdf
12864_2012_4667_MOESM4_ESM.eps
12864_2012_4667_MOESM5_ESM.pdf
权利和权限