×

转录组学:使用MapReduce量化非均匀读取分布。 (英语) Zbl 1416.92127号

摘要:RNA-seq是一种高通量的下一测序技术,用于估计转录组中所有转录物的浓度。该方法涉及复杂的准备和后处理步骤,可能会引入偏差,并且该技术会产生大量数据[A.科内萨等人,“RNA-seq数据分析最佳实践调查”,《基因组生物学》。17、第1、13号(2016年;doi:10\.1186/s13059-016-0881-8);F.米查姆,“高通量序列数据中系统错误的识别和纠正”,BMC生物信息学12,No.1,451(2011;doi:10\.1186/1471-2105-12-451)].因此,处理RNA-seq数据的两个重要挑战是处理大量数据的能力,以及量化公共RNA-seq数据集中偏差的方法。我们描述了一种基于序列模体相关性分析的新分析方法,该方法使用Apache Spark上的MapReduce在深外显子水平量化下一代测序(NGS)数据中的偏差。我们的实现是专门为处理大型数据集而设计的,并允许在提供MapReduce的云服务提供商上进行扩展和部署。在调查黑腹角雉(D.melanogaster)物种的野生和突变生物类型时,我们发现与其他基序序列相比,带有Gs序列(或其补体)的基序序列表现出较低的基序-对相关性。这与野生型数据中的平均外显子GC含量无关,但在突变数据中存在轻微依赖性。因此,虽然两个数据集显示出相同的趋势,但两个样本之间存在显著差异。

MSC公司:

92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] S.Aerts,ku leuven的S.Aerts计算生物学实验室(LCB),http://gbiomed.kuleuven.be/english/research/50000622/lcb/。(2012)[在线;2017年1月4日访问]。
[2] Alnasir,J.和Shanahan,H.P.,《序列读取档案中协议测序步骤注释的调查》,GigaScience4(2015)23。
[3] Apache软件基金会,Hadoop 2.7文档,http://hadoop.apache.org/文档/r2.7.2/。(2016)[在线;2017年1月6日访问]。
[4] S.R.存档,序列读取存档概述(SRA),https://trace。ncbi.nlm.nih.gov/Traces/sra/sra.cgi/。(2017)[在线;2017年1月3日访问]。
[5] ArrayExpress、EMBL-EBI、ArrayExpress功能基因组数据,https://www.ebi.ac.uk/arrayexpress/。(2017)[在线;2017年1月3日访问]。
[6] Chen,Y.C.et al.,下一代测序数据中gc偏差对从头开始基因组组装的影响,PLoS one8(4)(2013)e62856。
[7] Conesa,A.等人,《RNA-seq数据分析最佳实践调查》,《基因组生物学》17(1)(2016)13。
[8] Edgar,R.,《基因表达总览:NCBI基因表达和杂交阵列数据存储库》,《核酸研究》30(1)(2002)207-210。
[9] Fish,B.等人,《关于mapreduce的计算复杂性》,摘自《分布式计算国际研讨会》(Springer,2015),第1-15页·Zbl 1394.68176号
[10] Hansen,K.D.、Brenner,S.E.和Dudoit,S.,随机六聚体启动引起的Illumina转录组测序偏差,核酸研究38(12)(2010)e131。
[11] Hughes,J.,《为什么函数编程很重要》,《计算机杂志》32(2)(1989)98-107。
[12] Kukurba,K.R.和Montgomery,S.B.,RNA测序和分析,《冷泉港协议》2015(11)(2015)pdb-top084970。
[13] Lämmel,R.,《重新审视谷歌mapreduce编程模型》,《计算机编程科学》70(1)(2008)1-30·Zbl 1129.68414号
[14] Leinonen,R.、Sugawara,H.和Shumway,M.,序列读取档案,核酸研究39(数据库版)(2011)D19-21。
[15] Li,H.等人,《序列比对/地图格式和样本工具》,《生物信息学》25(16)(2009)2078-2079。
[16] Li,J.,Jiang,H.和Wong,W.H.,《rna-seq数据中短读速率的非均匀性建模》,《基因组生物学》11(5)(2010)1。
[17] Liu,R.,Loraine,A.E.和Dickerson,J.A.,植物系统中使用rna-seq进行差异选择性剪接检测的计算方法比较,BMC生物信息学15(1)(2014)1。
[18] Lykke-Andersen,S.和Jensen,T.H.,《剪掉它:转录组中噪音的沉默》,《自然结构与分子生物学》13(10)(2006)860。
[19] Meacham,F.等人,《高通量序列数据中系统误差的识别和校正》,BMC生物信息学12(1)(2011)451。
[20] Memon,F.N.等人,《使用云计算识别g-四倍体对affymetrix 3'阵列的影响》,《综合生物信息学杂志》7(111)(2010)。
[21] Mendenhall,W.和Sincich,T.,《工程与科学统计》(Dellen Publishing Company,San Francisco,CA,USA,1992)·Zbl 0776.62004号
[22] Mortazavi,A.等人,《通过RNA-seq对哺乳动物转录体进行绘图和量化》,《自然方法》5(7)(2008)621-628。
[23] Naval-Sánchez,M.等人,《比较基序发现与比较转录组学相结合产生准确的靶组和增强子预测》,《基因组研究》23(1)(2013)74-88。
[24] Ozsolak,F.等人,《直接RNA测序》,Nature461(7265)(2009)814-818。
[25] Palidwor,G.A.、Perkins,T.J.和Xia,X.,由gc突变偏倚引起的密码子偏倚的一般模型,《公共科学图书馆·综合》5(10)(2010)e13431。
[26] Park,J.W.等人,使用rnaseq mats从RNA测序数据中识别差异选择性剪接事件,深度测序数据分析(2013)171-179。
[27] Raz,T.等人,基于测序的基因表达测量的协议依赖性,PLoS One6(5)(2011)e19287。
[28] Risso,D.et al.,RNA-seq数据的Gc含量标准化,BMC生物信息12(1)(2011)480。
[29] Roberts,A.等人,《通过修正片段偏差改进RNA-Seq表达估计》,《基因组生物学》12(3)(2011)R22。
[30] N.Sanger,Ensembl,GTFGFF文件格式规范,http://www.ensembl.org/info/website/upload/gff.html。(2012)【在线;2016年11月15日访问】。
[31] Shendure,J.等人,《高级测序技术:方法和目标》,《自然评论遗传学》5(5)(2004)335-344。
[32] Snir,M.,MPI-完整参考:MPI核心,第1卷(麻省理工学院出版社,1998年)。
[33] Stalteri,M.A.和Harrison,A.P.,《在非对称性基因芯片中映射到同一基因的多个探针集的解释》,BMC生物信息学8(1)(2007)1。
[34] Stephens,Z.D.等人,《大数据:天文学还是基因组学?《公共科学图书馆·生物学》13(7)(2015)1-11。
[35] Struhl,K.,转录噪声和RNA聚合酶ii启动的保真度。《自然结构分子生物学》14(2)(2007)103-105。
[36] Taylor,R.C.,《hadoop/mapreduce/hbase框架及其在生物信息学中的当前应用概述》,BMC生物信息学11(Suppl 12)(2010)S1。
[37] Upton,G.J.、Langdon,W.B.和Harrison,A.P.,G-spots导致不规则微阵列中的错误表达测量,BMC Genomics9(1)(2008)1。
[38] Wagner,G.P.,Kin,K.和Lynch,V.J.,使用RNA-seq数据测量mRNA丰度:样本之间的Rpkm测量不一致,《生物科学理论》131(4)(2012)281-285。
[39] Wang,Z.、Gerstein,M.和Snyder,M.,RNA-seq:转录组学的革命性工具,《自然评论遗传学》10(1)(2009)57-63。
[40] Zheng,W.,Chung,L.M.和Zhao,H.,RNA测序数据中的偏差检测和校正,BMC生物信息学12(1)(2011)1。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。