跳到主要内容

ReCount:一种分析成熟RNA-seq基因计数数据集的多实验资源

摘要

1背景

RNA测序是一种灵活而强大的新方法,用于测量基因、外显子或异构体的表达。为了最大限度地利用RNA测序数据,需要新的统计方法来进行聚类、差异表达和其他分析。开发新统计方法的一个主要障碍是缺乏RNA测序数据集,这些数据集可以在R等通用统计软件包中轻松获得和分析。为了加快开发过程,我们创建了一个分析成熟的RNA测序数据库资源。

2说明

ReCount是RNA-seq基因计数表和辅助数据的在线资源。表格是根据18项不同的已发表研究的原始RNA测序数据建立的,这些研究包括475个样本和80多亿个读数。使用Myrna软件包,读取数据被对齐,与基因模型重叠,并制成表格,以备统计分析。为了便于分析,将计数表和表型数据合并到Bioconductor ExpressionSet对象中。ReCount还包含用于处理样本的Myrna清单文件和R源代码,允许统计和计算科学家考虑其他参数值。

3结论

通过合并许多研究的数据集并提供已经处理过的数据。将fastq格式转换为现成的格式。RData和。txt文件,ReCount有助于RNA-seq计数数据的分析和方法开发。我们预计ReCount也将对那些希望考虑RNA-seq的交叉研究比较和替代标准化策略的研究人员有用。

背景

RNA-seq,即mRNA的短程测序,已经成为研究基因表达的一种强大而灵活的工具[1]. 与其他新技术一样,RNA-seq数据的分析需要开发新的统计方法。许多RNA-seq实验的数据是公开的,但将原始数据处理成适合统计分析的形式仍然具有挑战性[2]. 这种困难加上使用第二代测序技术的高昂成本意味着大多数计算科学家只能处理有限数量的样本[]. 然而,复制对于理解RNA测序中的生物变异至关重要[4].

基因表达总览[5]是一个有用的存储库,包含处理过的和原始的微阵列数据,但处理过的RNA-seq数据没有可比较的资源。我们汇编了一个名为ReCount的资源,由18个不同实验中475个样本的比对、预处理的RNA-seq数据组成。我们的数据库便于统计和生物信息学研究人员使用R、Bioconductor等标准工具分析RNA-seq计数数据[6]和MATLAB。ReCount中对齐和预处理的数据可以直接进行分析,用于开发和比较新的分析方法,或进行检查以确定交叉研究效果。ReCount数据库还包含用于处理样本的Myrna清单文件和R源代码,允许统计和计算科学家考虑其他参数值。

结构和内容

内容

我们从表中描述的18个实验中收集数据1[724]. 对于每个实验,ReCount包含.txt格式的计数表,对每个样本编码Ensembl中每个基因重叠的读取次数[25]给定生物体基因组的注释。ReCount还包括每个样本的手动管理的表型信息(例如性别、菌株、时间点),可作为.txt文件获得。计数和表型表被编译成ExpressionSet对象,这些对象可以从ReCount下载,并且可以使用R中的标准Bioconductor工具轻松加载和分析。

表1可供下载的数据集(截断为35 bp)

施工

为了构建计数表,我们使用了Myrna 1.1.2的Amazon Elastic MapReduce版本[26]. 作为输入,Myrna需要一个清单文件,列出每个样本的所有排序读取文件的URL位置。Myrna清单文件是ReCount的一部分;这些文件中的大多数URL都是指存储在NCBI序列读取存档(SRA)中的读取[27].

对于由配对测序数据组成的研究,只考虑每对的第一配偶。许多研究还包括使用Myrna处理的技术复制品池-技术-reps选项。此选项将在校准和分析之前从技术副本中读取的数据集中起来。传递给Myrna的其他选项包括bowtie-args=“-v 2-m 1”,gene-footprint=交叉、和从中间开始. Thegene-footprint=交叉参数导致使用“联合-交叉”基因模型。这个鲍蒂阿尔格斯参数指定读取对齐有效时不允许超过两个不匹配,并且放弃使用多个对齐的读取。这个从中间参数指出,当将read的对齐与基因足迹重叠时,所考虑的碱基数量应该从read的中间(而不是3'或5'端)开始测量。最后,我们提供了使用Myrna创建的计数表和表达式集截断=35选项,它截断大于35个基点到35个基点的读数。对于同时使用多个研究的数据,截断使研究之间更具可比性;它还降低了读取跨越拼接接头从而被丢弃的可能性。然而,对于希望利用完整读取长度的研究人员,我们还提供了在没有截断选项。

ReCount中提供的计数表尚未规范化。在分析过程中,如前所述,每个样本中的基因计数通常通过除以样本中非零基因计数分布的第75个百分位进行标准化[11]但ReCount中提供的数据允许研究人员开发、评估和比较替代标准化方案。

实用程序和讨论

用户界面

ReCount网站提供了互动版的Table1.ExpressionSets、计数表和表型表可从表中下载。与Myrna一起使用的清单文件、使用的特定Myrna命令以及用于创建ExpressionSets的R代码也可以从ReCount网站下载。这些脚本允许研究人员将替代标准化或替代Myrna参数化的效果与ReCount数据库中包含的数据集的规范版本进行比较。该站点还包含有关可下载内容的更多详细信息,以及一组在使用ExpressionSets时可能有用的R命令。

实用程序:示例应用程序

ReCount促进了仅使用单个研究中的少量样本无法进行的研究。在这里,我们提供两个玩具示例来说明ReCount数据库的潜在实用程序。这两个示例都使用了读取截断为35 bp的数据集。

应用1:归一化方法的比较

ReCount中显示的计数表尚未规范化,这有助于规范化和预处理方法之间的比较。例如,我们比较了第75百分位标准化[11]带分位数归一化[28]使用两种不同品系小鼠(深不可测地ReCount中可用的数据集[20]). 我们分析了36536个总基因,首先删除了计数为零或样本间无差异的基因(23697个基因)。对于这两种标准化类型,每个基因都使用F检验在两个菌株之间进行差异表达测试。有696个基因差异表达,错误发现率为5%(Benjamini-Hochberg多重测试校正[29]在这两个分析中,177个仅使用分位数归一化进行差异表达,35个仅使用第75百分位数归一进行差异表达。分位数标准化方案的差异表达基因集比第75百分位标准化方案的差异表达基因集大一点,但重叠仍然很大。这个简单的分析展示了一种比较标准化方案的方法;它还表明,基于这两种成熟的归一化方案中的哪一种,微分表达式分析的结果差别很小。

应用2:使用多项研究的数据进行分析

许多研究中可比较数据的可用性有助于以前可能相当繁琐的分析。例如,我们考虑张[8]和蒙哥马利[12]数据。这两项研究分析了29名相同的个体。Cheung小组对永生化B细胞进行了测序,Montgomery等人使用了淋巴母细胞系,因此测序中使用的细胞类型非常相似。因此,检查这29个样本并比较两项研究之间的基因表达,可以深入了解RNA-seq中存在的一些技术变异。作为差异表达的一个非常基本的分析,我们使用表中每个基因的参数配对t检验,比较了张研究和蒙哥马利研究中受试者的测量基因表达。基因表达差异显著不同于零的基因被认为是研究之间的差异表达。(对多次测试进行Benjamini-Hochberg校正;使用0.05的假发现率临界值来确定显著性)。在测试的52580个基因中,有3633个(6.9%)在研究之间存在差异表达。我们还注意到,39752个基因(75.6%)无法进行差异表达测试,因为两个样本中的所有计数均为零。因此,在其中一项研究中,至少一个样本中有12828个非零基因计数的基因中,有3633个(28.3%)存在差异表达。这种模式可以在调整后的p值的直方图中看到(图1). 该分析表明RNA-seq中存在批式效应;理想情况下,差异表达将非常罕见,因为在每个研究中都分析了相同的人和相似的细胞类型。

图1
图1

Cheung和Montgomery的29个样本差异表达分析的调整p值直方图直方图中的p值来自两项研究中至少一项中25%非零计数基因的配对t检验。接近零的峰值在某种程度上表明了两项研究之间的技术差异。

作为使用ReCount中的多个数据集进行分析的另一个示例,我们对Montgomery数据执行了一个简单的差分表达式分析[12]和皮克雷尔的数据[13]这是种族差异表达分析的代理:蒙哥马利组对具有北欧或西欧血统的犹他州居民(HapMap CEU人群)进行了测序,皮克雷尔组对尼日利亚伊巴丹的约鲁巴人(HapMap YRI人群)进行测序。以前的研究已经解决了这个问题(例如[30,31]),但ReCount有助于调查解决问题的其他方法。作为起点,我们进行了与前一次类似的分析:对于52580个基因中的每一个,我们对蒙哥马利和皮克雷尔数据中的75%的标准化计数进行了参数化双样本t检验,如果Benjamini-Hochberg校正的p值小于0.05,则使用Benjamini-Hochberg校正进行多重测试,并考虑CEU和YRI群体之间的基因差异表达。在测试的52580个基因中,4669个(8.9%)被发现存在差异表达。这4669个基因占差异表达测试基因的36.0%,即在至少一个群体中具有非零计数的基因(图2). 我们注意到,这些百分比略高于先前分析中报告的百分比,这并不令人惊讶,因为这里存在技术和生物变异性,而先前分析中的变异性大多是技术性的。可以对这4669个感兴趣的基因进行后续分析,例如,可以将这组基因与之前研究中发现的差异表达基因组进行比较,或者可以可视化单个基因的表达模式。我们将这些基本分析作为希望同时利用ReCount的多个数据集的研究人员的起点。

图2
图2

YRI和CEU人群差异表达分析的调整后p值直方图直方图中的p值来自两项研究中至少一项中25%非零计数基因的两个样本t检验。接近零的峰值表明差异基因表达可能由技术或生物变异引起。

讨论

ReCount的预压缩、免费可用数据与通用统计软件兼容,将鼓励对方法开发感兴趣的统计学家解决RNA-seq数据分析中出现的问题。通过在一个中央、可访问的位置提供大量RNA-seq数据,ReCount促进了上述分析和其他一些分析。例如,另一个有趣的应用可能是尝试复制其他研究的结果(例如,差异表达基因的百分比)。此外,预处理中使用的所有命令和清单文件都可以在网站上找到,因此如果用户需要其他参数化,可以创建自己的计数表:例如,可以将其他对齐参数传递给Bowtie,可以更改截断长度,或池-技术-reps选项可以删除。

结论

ReCount解决了对RNA测序感兴趣的统计研究人员的两个关键问题:(1)许多可用研究中的小样本量和(2)开发分析成熟RNA测序数据的计算困难。通过提供Myrna清单文件和在ReCount中复制计数表的R脚本,我们的数据库还允许灵活地探索大量有组织的RNA测序数据集。我们预计ReCount将作为易于分析的RNA测序数据的资源,对统计学和生物信息学界都有用。

可用性和要求

ReCount可在以下位置公开访问:http://bowtie-bio.sf.net/重新计票.

工具书类

  1. Wang Z,Gerstein M,Snyder M:RNA-Seq:转录组学的革命性工具。Nat Rev Genet 2009,10:57–63。10.1038/编号2484

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  2. Stein LD:基因组信息学中的云计算案例。《基因组生物学》2010年11月207日。10.1186/gb-2010-11-5-207

    第条 公共医学中心 公共医学 谷歌学者 

  3. Hansen KD、Wu Z、Irizarry RA、Leek JT:测序技术不能消除生物变异性。《国家生物技术》2011,29(7):572-573。10.1038/nbt.1910

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  4. Auer PL,Doerge RW:RNA测序数据的统计设计和分析。遗传学2010,185:405–416。10.1534遗传学。10.114983

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  5. Barrett T、Troup DB、Wilhite SE、Ledoux P、Evangelista C、Kim IF、Tomashevsky M、Marshall KA、Phillippy KH、Sherman PM、Muertter RN、Holko M、Ayanbule O、Yefanov A、Sobolera A:NCBI GEO:功能基因组数据集存档-10年后。核酸研究2011,39(补充1):D1005-D1010。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  6. RC、Carey VJ、Bates DM、Bolstad B、Dettling M、Dudoit S、Ellis B、Gautier L、Ge Y、Gentry J、Hornik K、Hothorn T、Huber W、Iacus S、Irizarry R、Leich F、Li C、Maechler M、Rossini AJ、Sawitzki G、Smith C、Smiths G、Tierney L、Yang JY、Zhang J:生物导体:计算生物学和生物信息学的开放软件开发。《基因组生物学》2004,5(10):R80。10.1186/gb-2004-5-10-r80

    第条 公共医学中心 公共医学 谷歌学者 

  7. 来自Illumina2011的人体地图2.0数据。[http://www.ensembl.info/blog/2011/05/24/human-bodymap-2–0-来自照明的数据/]

  8. Cheung VG、Nayak RR、Wang IX、Elwyn S、Cousins SM、Morley M、Spielman RS:人类基因表达的多态顺式和反式调节。《公共科学图书馆·生物》2010,8(9):e1000480。10.1371/journal.pbio.1000480

    第条 公共医学中心 公共医学 谷歌学者 

  9. 核心LJ,瀑布JJ,Lis JT:新生RNA测序揭示了人类启动子的广泛暂停和分化起始。《科学》2008,322(5909):1845–1848。10.1126/科学116228

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  10. Blekhman R、Marioni JC、Zumbo P、Gilad Y:灵长类动物的性别特异性和谱系特异性选择性剪接。《基因组研究》2010,20(2):180–189。10.1101/gr.099226.109

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  11. Bullard JH、Purdom E、Hansen KD、Dudoit S:mRNA-Seq实验中归一化和差异表达的统计方法评估。BMC生物信息学2010,11:94。10.1186/1471-2105-11-94

    第条 公共医学中心 公共医学 谷歌学者 

  12. Montgomery SB、Sammeth M、Gutierrez-Arcelus M、Lach RP、Ingle C、Nisbett J、Guigo R、Dermitzakis ET:在高加索人群中使用第二代测序的转录组遗传学。《自然》2010,464(7289):773–777。10.1038/性质08903

    第条 中国科学院 公共医学 谷歌学者 

  13. Pickrell JK、Marioni JC、Pai AA、Degner JF、Engelhardt BE、Nkadori E、Veyrieras JB、Stephens M、Gilad Y、Pritchard JK:通过RNA测序了解人类基因表达变异的机制。《自然》2010,464(7289):768–772。10.1038/性质08872

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  14. Sultan M、Schulz MH、Richard H、Magen A、Klingenhoff A、Scherf M、Seifert M、Borodina T、Soldatov A、Parkhomchuk D、Schmidt D、O'Keefe S、Haas S、Vingron M、Lehrach H、Yaspo ML:通过人类转录组的深度测序对基因活动和选择性剪接的全球观点。《科学》2008,321(5891):956–960。10.1126/科学.1160342

    第条 中国科学院 公共医学 谷歌学者 

  15. Wang ET、Sandberg R、Luo S、Khrebtukova I、Zhang L、Mayr C、Kingsmore SF、Schroth GP、Burge CB:人类组织转录体中的替代亚型调控。《自然》2008,456(7221):470-476。10.1038/性质07509

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  16. Katz Y,Wang ET,Airoldi EM,Burge CB:鉴定亚型调控的RNA测序实验的分析和设计。Nat Methods 2010,7(12):1009–1015。10.1038/nmeth.1528

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  17. Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B:通过RNA-Seq对哺乳动物转录体进行定位和量化。Nat Methods 2008,5(7):621–628。10.1038/nmeth.1226

    第条 中国科学院 公共医学 谷歌学者 

  18. Trapnell C、Williams BA、Pertea G、Mortazavi A、Kwan G、Van Baren MJ、Salzberg SL、Wold BJ、Pachter L:通过RNA-Seq进行的转录组装和定量揭示了细胞分化过程中未标记的转录物和同种型转换。《国家生物技术》2010,28(5):511–515。10.1038/nbt.1621

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  19. Yang F,Babak T,Shendure J,Disteche CM:小鼠通过RNA测序逃避X失活的全球调查。《基因组研究》2010,20(5):614–622。10.1101/gr.10320.109

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  20. Bottomly P、Walter NA、Hunter JE、Darakijian P、Kawane S、Buck KS、Searles RP、Mooney M、McWeeney SK、Hitzemann R:使用RNA-Seq和微阵列评估C57BL/6J和DBA/2J小鼠纹状体中的基因表达。《公共科学图书馆·综合》2011,6(3):e17820。10.1371/journal.pone.0017820

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  21. Nagalakshmi U,Wang Z,Waern K,Shou C,Raha D,Gerstein M,Snyder M:通过RNA测序确定的酵母基因组转录图谱。《科学》2008,320(5881):1344–1349。10.1126/科学.1158441

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  22. Hammer P、Banck MS、Amberg R、Wang C、Petznick G、Luo S、Khrebtukova I、Schroth GP、Beyerlein P、Beutler AS:mRNA-seq,用于慢性疼痛中神经系统转录组学的不可知剪接位点发现。《基因组研究》2010,20(6):847-860。10.1101/gr.101204.109

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  23. Hillier LW、Reinke V、Green P、Hirst M、Marra MA、Waterston RH:秀丽线虫多聚腺苷化转录组的大规模平行测序。《基因组研究》2009,19(4):657-666。10.1101/克.088112.108

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  24. Graveley BR、Brooks AN、Carlson JW、Duff MO、Landolin JM、Yang L、Artieri CG、van Baren MJ、Boley N、Booth BW、Brown JB、Cherbas L、Davis CA、Dobin A、Li R、Lin W、Malone JH、Mattiuzzo NR、Miller D、Sturgill D、Tuch BB、Zaleski C、Zhang D、Blanchette、Dudoit S、Eads B、Green RE、Hammonds A、Jiang L、Kapranov P、Langton L、Perrimon N、Sandler JE、,Wan KE、Willingham A、Zhang Y、Zou Y、Andrews J、Bickel PJ、Brenner SE、Brent MR、Cherbas P、Ginergas TR、Hoskins RA、Kaufman TC、Oliver B、Celniker SE:果蝇发育转录组。《自然》2011,471(7339):473-479。10.1038/自然9715

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  25. Flicek P、Amode MR、Barrell D、Beal K、Brent S、Chen Y、Clapham P、Coates G、Fairley S、Fitzgerald S、Gordon L、Hendrix M、Hourlier T、Johnson N、Kahari A、Keefe D、Keenan S、Kinsella R、Kokocinski F、Kulesha E、Larsson P、Longden I、McLaren W、Overduin B、Pritchard B、Riat HS、Rios D、Ritchie GR、Ruffier M、Schuster M、Sobral D、Spudich D、,Tang YA、Trevanion S、Vandrovcova J、Villella AJ、White S、Wilder SP、Zadisa A、Zamora J、Aken BL、Birney E、Cunningham F、Dunham I、Durbin R、Fernandez-Suarez XM、Herrero J、Hubbard TJ、Parker A、Proctor G、Vogel J、Searle SM:合奏2011。《核酸研究》2011,39(补充1):D800。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  26. Langmead B,Hansen KD,Leek JT:Myrna的云尺度RNA测序差异表达分析。《基因组生物学》2010,11(8):R83。10.1186/gb-2010-11-8-r83

    第条 公共医学中心 公共医学 谷歌学者 

  27. Leinone R、Sugawara H、Shumway M:序列读取存档。《核酸研究》2011,39(增刊1):D19-D21。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  28. Bolstad B,Irizarry R,Au strand M,Speed T:基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学2003,19(2):185–193。10.1093/生物信息学/19.2.185

    第条 中国科学院 公共医学 谷歌学者 

  29. Benjamini Y,Hochberg Y:控制错误发现率:一种实用且强大的多重测试方法。英国皇家统计学会杂志。B系列(方法学)1995,289–300。

    谷歌学者 

  30. Storey JD、Madeoy J、Strout JL、Wurfel M、Ronald J、Akey JM:人类内部和之间的基因表达变异。《美国人类遗传学杂志》2007,80(3):502-509。10.1086/512017

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  31. Spielman RS、Bastone LA、Burdick JT、Morley M、Ewens WJ、Cheung VG:常见的遗传变异解释了种族之间基因表达的差异。《自然遗传学》2007,39(2):226–231。10.1038/ng1955年

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

下载参考资料

确认和资金

作者想感谢与卡斯珀·汉森和拉斐尔·伊里扎里的讨论。亚马逊网络服务教育研究拨款和彭博JHSPH教师创新奖为该研究提供了支持。BL得到了NIH拨款P41-HG004059和R01-HG005220的支持。美国国立卫生研究院拨款T32GM074906支持AF。

作者信息

作者和附属机构

作者

通讯作者

与的通信本·兰美德杰弗里·特里克.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

JL和BL构思了这项研究。AF和BL贡献了新方法并建立了数据库。AF、JL和BL撰写了论文。所有作者阅读并批准了最终手稿。

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Frazee,A.C.、Langmead,B.和Leek,J.T.ReCount:分析成熟RNA-seq基因计数数据集的多实验资源。BMC生物信息学 12,449页(2011年)。https://doi.org/10.1186/1471-2105-12-449

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-12-449

关键词