×

MSIQ:多个RNA-seq样本的联合建模,用于准确的亚型定量。 (英语) Zbl 1393.62078号

摘要:下一代RNA测序(RNA-seq)技术已广泛用于高通量评估全长RNA亚型丰度。RNA-seq数据提供了对基因表达水平和转录组结构的深入了解,使我们能够更好地了解基因表达的调控和基本生物学过程。由于测序实验中的信息丢失,从RNA-seq数据中准确量化亚型具有挑战性。来自同一组织或细胞类型的多个RNA-seq数据集的最近积累为提高亚型定量的准确性提供了新的机会。然而,现有的多个RNA-seq样本的统计或计算方法要么将样本合并为一个样本,要么在估计异构体丰度时为样本分配相等的权重。这些方法忽略了不同样本质量中可能存在的异质性,并可能导致偏差和不可信的估计。在本文中,我们开发了一种方法,我们称之为“多个RNA-seq样本的联合建模,以实现准确的亚型量化”(MSIQ),通过在贝叶斯框架下集成多个RNA-seq样本,实现更稳健的亚型定量。我们的方法旨在(1)识别具有相同质量的一致样本组和(2)通过联合建模多个RNA-seq样本并允许在一致组上具有更高的权重来提高异构体定量的准确性。我们表明,MSIQ提供了一致的异构体丰度估计值,并且通过对黑腹果蝇基因的模拟研究,我们证明了MSIQ与其他方法相比的准确性和有效性。通过对人类胚胎干细胞、脑组织和HepG2永生化细胞系的实际RNA-seq数据的应用研究,我们证明了MSIQ相对于现有方法的优势。我们还对RNA-seq样品异质性和不同实验方案如何影响异构体定量准确性进行了全面分析。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
2015年1月62日 贝叶斯推断
62J15型 配对和多重比较;多重测试
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adamski,M.G.、Gumann,P.和Baird,A.E.(2014)。一种基于输入样本量的标准高通量qPCR表达数据定量分析方法。公共图书馆综合9 e103917。
[2] Barrett,T.、Wilhite,S.E.、Ledoux,P.、Evangelista,C.、Kim,I.F.、Tomashevsky,M.、Marshall,K.A.、Phillippy,K.H.、Sherman,P.M.、Holko,M.等人(2013)。NCBI GEO:功能基因组数据集存档-更新。核酸研究41 D991-D995。
[3] Behr,J.、Kahles,A.、Zhong,Y.、Sreedharan,V.T.、Drewe,P.和Rätsch,G.(2013)。MITIE:在多个样本中同时进行基于RNA-Seq的转录物鉴定和量化。生物信息学29 2529-2538。
[4] Bernard,E.、Jacob,L.、Mairal,J.和Vert,J.-P.(2014)。利用网络流从RNA-Seq数据中高效识别和量化RNA亚型。生物信息学30 2447-2455。
[5] Collado-Torres,L.、Nellore,A.、Kammers,K.、Ellis,S.E.、Taub,M.A.、Hansen,K.D.、Jaffe,A.E.、Langmead,B.和Leek,J.T.(2017)。使用Retail2进行可重复的RNA-seq分析。《自然生物技术》35 319-321。
[6] Conesa,A.、Madrigal,P.、Tarazona,S.、Gomez-Cabrero,D.、Cervera,A.、McPherson,A.、Szcze-si-niak,M.W.、Gaffney,D.J.、Elo,L.、Zhang,X.等人(2016)。RNA-seq数据分析最佳实践调查。基因组生物学.17 13。
[7] Germain,P.-L.,Vitrillo,A.,Adamo,A.,Laise,P.,Das,V.和Testa,G.(2016)。RNOntheBENCH:用于基准RNAseq量化和差异表达方法的计算和经验资源。核酸研究44 5054-5067。
[8] Griebel,T.、Zacher,B.、Ribeca,P.、Raineri,E.、Lacroix,V.、Guigó,R.和Sammeth,M.(2012年)。使用通量模拟器对通用RNA-Seq实验进行建模和模拟。核酸研究40 10073-10083。
[9] Hansen,K.D.、Wu,Z.、Irizarry,R.A.和Leek,J.T.(2011)。测序技术并不能消除生物变异性。《自然生物技术》29 572-573。
[10] Harrow,J.、Frankish,A.、Gonzalez,J.M.、Tapanari,E.、Diekhans,M.、Kokocinski,F.、Aken,B.L.、Barrell,D.、Zadisa,A.、Searle,S.等人(2012年)。GENCODE:ENCODE项目的参考人类基因组注释。基因组研究22 1760-1774。
[11] Jiang,H.和Wong,W.H.(2009)。RNA-Seq亚型表达的统计推断。生物信息学25 1026-1032。
[12] Kanitz,A.、Gypas,F.、Gruber,A.J.、Gruper,A.R.、Martin,G.和Zavolan,M.(2015)。比较评估从RNA-seq数据计算推断转录亚型丰度的方法。基因组生物学.16 1-26。
[13] Katz,Y.、Wang,E.T.、Airoldi,E.M.和Burge,C.B.(2010)。分析和设计RNA测序实验以确定亚型调控。自然方法7 1009-1015。
[14] Kent,W.J.、Sugnet,C.W.、Furey,T.S.、Roskin,K.M.、Pringle,T.H.、Zahler,A.M.和Haussler,D.(2002)。UCSC的人类基因组浏览器。基因组研究12 996-1006。
[15] Kulkarni,M.M.(2011年)。使用NanoString nCounter系统进行数字多路复用基因表达分析。货币。协议。分子生物学。25B.10单元。
[16] Li,B.和Dewey,C.N.(2011年)。RSEM:有或无参考基因组的RNA-Seq数据的准确转录定量。BMC生物信息。12 323。
[17] Li,J.J.、Jiang,C.-R.、Brown,J.B.、Huang,H.和Bickel,P.J.(2011)。下一代mRNA测序(RNA-Seq)数据的稀疏线性建模,用于异构体发现和丰度估计。程序。国家。阿卡德。科学。美国108 19867-19872。
[18] Li,W.V.、Zhao,A.、Zhang,S.和Li,J.J.(2018)。补充“MSIQ:多个RNA-seq样本的联合建模以实现准确的亚型定量”。DOI:10.1214/17-AOAS1100SUPP·Zbl 1393.62078号
[19] Lin,Y.-Y.、Dao,P.、Hach,F.、Bakhshi,M.、Mo,F.,Lapuk,A.、Collins,C.和Sahinalp,S.C.(2012年)。CLIIQ:人群中表达亚型的准确比较检测和量化。生物信息学算法178-189。柏林施普林格。
[20] Macaulay,I.C.和Voet,T.(2014)。单细胞基因组学:进展和未来展望。公共科学图书馆Genet.10 e1004126。
[21] Mezlini,A.M.、Smith,E.J.、Fiume,M.、Buske,O.、Savich,G.L.、Shah,S.、Aparicio,S.、Chiang,D.Y.、Goldenberg,A.和Brudno,M.(2013)。iReckon:根据RNA-seq数据同步发现亚型并估计丰度。基因组研究23 519-529。
[22] Mortazavi,A.、Williams,B.A.、McCue,K.、Schaeffer,L.和Wold,B.(2008)。通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法5 621-628。
[23] Pachter,L.(2011)。RNA-Seq转录定量模型。预印本。可从arXiv:1104.3889获得。
[24] Patro,R.、Mount,S.M.和Kingsford,C.(2014)。旗鱼使用轻量级算法从RNA-seq读取中实现无对齐异构体量化。《自然生物技术》32 462-464。
[25] Pruitt,K.D.、Brown,G.R.、Hiatt,S.M.、Thibaud-Nissen,F.、Astashyn,A.、Ermolaeva,O.、Farrell,C.M.、Hart,J.、Landrum,M.J.、McGarvey,K.M.等人(2014年)。参考序列:哺乳动物参考序列的更新。核酸研究42 D756-D763。
[26] Quail,M.A.、Smith,M.、Coupland,P.、Otto,T.D.、Harris,S.R.、Connor,T.R.、Bertoni,A.、Swerdlow,H.P.和Gu,Y.(2012)。三个下一代测序平台的故事:Ion Torrent、Pacific Biosciences和Illumina MiSeq测序器的比较。BMC基因组学13 341。
[27] Roberts,A.和Pachter,L.(2013)。用于测序实验实时分析的流式片段分配。自然方法10 71-73。
[28] Rosenbloom,K.R.、Armstrong,J.、Barber,G.P.、Casper,J.、Clawson,H.、Diekhans,M.、Dreszer,T.R.、Fujita,P.A.、Guruvado,L.、Haeussler,M.等人(2015)。加州大学旧金山分校基因组浏览器数据库:2015年更新。核酸研究43 D670-D681。
[29] Rossell,D.、Attolini,C.S.-O、Kroiss,M.和Stöcker,A.(2014)。从配对RNA测序数据中量化选择性剪接。Ann.应用。统计数字8 309·Zbl 1454.62388号
[30] Sakharkar,M.K.、Chow,V.T.和Kangueane,P.(2004)。人类基因组中外显子和内含子的分布。硅生物。4 387-393。
[31] Steijger,T.、Abril,J.F.、Engström,P.G.、Kokocinski,F.、Hubbard,T.J.、Guigó,R.、Harrow,J.、Berton,P.、Consortium,R.等人(2013年)。RNA-seq转录重建方法的评估。自然方法10 1177-1184。
[32] Trapnell,C.、Pachter,L.和Salzberg,S.L.(2009年)。Tophat:通过RNA-Seq发现拼接接头。生物信息学25 1105-1111。
[33] Trannell,C.、Williams,B.A.、Pertea,G.、Mortazavi,A.、Kwan,G.,Van Baren,M.J.、Salzberg,S.L.、Wold,B.J.和Pachter,L.(2010年)。RNA-Seq对转录物的组装和定量揭示了细胞分化过程中未标记的转录物和异构体的转换。《自然生物技术》28 511-515。
[34] Wang,Z.、Gerstein,M.和Snyder,M.(2009)。RNA-Seq:转录组学的革命性工具。Nat.Rev.Genet.10 57-63.《自然评论》。
[35] Wu,A.R.,Neff,N.F.,Kalisky,T.,Dalerba,P.,Treutlein,B.,Rothenberg,M.E.,Mburu,F.M.,Mantalas,G.L.,Sim,S.,Clarke,M.F.等人(2014年)。单细胞RNA测序方法的定量评估。自然方法11 41-46。
[36] Ye,Y.和Li,J.J.(2016)。NMFP:一种基于非负矩阵分解的预选方法,用于提高从RNA-seq数据中识别mRNA亚型的准确性。BMC基因组学17 127。
[37] Zhang,J.,Kuo,C.-C.J.和Chen,L.(2014)。WemIQ:用于RNA-seq数据的准确和稳健的亚型量化方法。生物信息学31 878-885。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。