×

BNP-seq:序列计数数据的贝叶斯非参数差异表达分析。 (英语) Zbl 1398.62337号

摘要:我们在贝叶斯非参数框架下对高通量测序计数数据进行差异表达分析,消除了现有算法中通常需要的复杂的特殊预处理步骤。我们建议使用γ(β)负二项过程,该过程使用样本特定的负二项概率(离散)参数考虑不同的测序深度,通过比较基因特定的负二项式离散(概率)参数的后验分布来检测差异表达的基因。这些模型参数是通过借用基因和样本的统计强度来推断的。对模拟和实际RNA测序计数数据的大量实验表明,所提出的差异表达分析算法在接收器工作特性和精确重调用曲线下的面积方面明显优于先前提出的算法。本文的补充材料可在网上获得。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62G05型 非参数估计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德斯,S。;Huber,W.,序列计数数据的差异表达分析,基因组生物学,11,R106,(2010)
[2] 安德斯,S。;Pyl,P.T。;Huber,W.m.,Htseq–一个用于处理高通量测序数据的python框架,生物信息学, (2014)
[3] Baldewijns,M。;蒂杰森,V。;范登·伊恩登,G。;Van Laere,S。;布鲁肯斯,A。;罗斯卡姆斯,T。;Van Poppel,H。;De Bruine,A。;Griffoen,A。;Vermeulen,P.,根据组织形态学定量和qrt–PCR mrna表达谱,高级别透明细胞肾细胞癌比低级别肾细胞癌具有更高的血管生成活性,英国癌症杂志, 96, 1888-1895, (2007)
[4] 布利斯,C.I。;Fisher,R.A.,将负二项分布拟合到生物数据,生物计量学, 9, 176-200, (1953)
[5] 布罗德里克,T。;Mackey,L。;佩斯利,J。;Jordan,M.I.,组合聚类和β负二项式过程,IEEE模式分析和机器智能汇刊, 37, 290-306, (2015)
[6] Bui,M.H。;Seligson,D。;韩,K.-r。;潘塔克,A.J。;多雷·F·J。;黄,Y。;Horvath,S。;公元前Leibovich。;肖普拉,S。;Liao,S.-Y.等人,碳酸酐酶IX是晚期肾透明细胞癌存活率的独立预测因子,对预后和治疗的影响,临床癌症研究, 9, 802-811, (2003)
[7] Bullard,J.H。;Purdom,E。;Hansen,K.D。;Dudoit,S.,mrna序列实验中标准化和差异表达统计方法的评估,BMC生物信息学, 11, 94, (2010)
[8] 布洛克,A。;张,L。;奥尼尔,A。;Percy,A。;苏哈泰姆,V。;Mier,J。;阿特金斯,M。;Bhatt,R.,血浆血管生成素-2(ANG2)作为肾细胞癌(RCC)的血管生成生物标志物,ASCO年度会议记录, 28, (2010)
[9] 肾透明细胞癌的综合分子特征,自然,499,43-49,(2012)
[10] 卡隆,F。;Teh,Y.W。;Murphy,B.T.,用于分析聚类排名数据的贝叶斯非参数plackett–luce模型,应用统计学年鉴, 8, 1145-1181, (2014) ·兹比尔1454.62153
[11] 朱强(Chu,Q.)。;Han,N。;袁,X。;聂,X。;Wu,H。;陈,Y。;郭,M。;于斯。;Wu,K.,DACH1抑制肾癌细胞的cyclin D1表达、细胞增殖和肿瘤生长,血液学与肿瘤学杂志, 7, 1, (2014)
[12] 达塔,S。;D.奈特尔顿。,下一代序列数据的统计分析、概率前沿与统计科学,(2014),Springer International Publishing,纽约·Zbl 1296.92001号
[13] 医学硕士Dillies。;Rau,A。;Aubert,J。;Hennequet-Anier,C。;Jeanmougin,M。;仆人,N。;凯姆,C。;马洛特,G。;卡斯特尔,D。;Estelle,J.等人,《照明高通量RNA测序数据分析标准化方法的综合评估》,生物信息学简介, 14, 671-683, (2013)
[14] Ferguson,T.S.,一些非参数问题的贝叶斯分析,统计年刊, 1, 209-230, (1973) ·Zbl 0255.62037号
[15] Gasparre,G。;Hervuet,E。;de Laplanche,E。;Demont,J。;Pennisi,L.F。;科伦贝尔,M。;Mège-Lechevallier,F。;Scoazec,J.-Y。;博诺拉,E。;Smeets,R.等人,突变线粒体DNA的克隆扩增与良性肾嗜酸细胞瘤中的肿瘤形成和复合物I缺乏有关,人类分子遗传学, 17, 986-995, (2008)
[16] R.C.先生。;凯里·V·J。;贝茨,医学博士。;博斯塔德,B。;Dettling,M。;Dudoit,S。;埃利斯,B。;Gautier,L。;Ge,Y。;Gentry,J.等人,《生物导体:计算生物学和生物信息学的开放软件开发》,基因组生物学,5,R80,(2004)
[17] 格林伍德,M。;Yule,G.U.,《对代表多个事件的频率分布性质的调查》,特别是关于多个疾病发作或重复事故的发生,英国皇家统计学会杂志, 83, 255-279, (1920)
[18] Hardcastle,T.J。;Kelly,K.A.,Bayseq:识别序列计数数据中差异表达的经验贝叶斯方法,BMC生物信息学, 11, 422, (2010)
[19] 何,Z。;Bateman,A.,Progranulin(颗粒上皮前体,PC-cell-derived growth factor,acrogranin)介导组织修复和肿瘤发生,分子医学杂志, 81, 600-612, (2003)
[20] Hjort,N.L.,基于生命历史数据模型中贝塔过程的非参数贝叶斯估计,统计年刊, 18, 1259-1294, (1990) ·Zbl 0711.62033号
[21] Joyce,C.,定量RT-PCR,RT-PCR协议, 13, 83-92, (2002)
[22] J.F.C.金曼。,泊松过程,(1993年),纽约:牛津大学出版社·Zbl 0771.60001号
[23] Kullback,S。;Leibler,R.A.,《信息与充分性》,数理统计年报, 22, 79-86, (1951) ·Zbl 0042.38403号
[24] 李·H·J。;梁振林。;黄,S.M。;Lim,J.-S。;Yoon,D.-Y。;李·H·J。;Kim,J.M.,IL-32的过度表达是局部透明细胞肾癌患者的一个新的预后因素,肿瘤学信件, 3, 490-496, (2012)
[25] 李,J。;Tibshirani,R.,《寻找一致模式:一种用于识别RNA-seq数据中差异表达的非参数方法》,医学研究中的统计方法, 22, 519-536, (2013)
[26] 李,J。;Witten,D.M。;约翰斯通,I.M。;Tibshirani,R.,RNA测序数据的归一化、测试和错误发现率估计,生物统计学,(2011年)
[27] 李,X。;贾,Z。;沈毅。;一川,H。;贾维克,J。;Nagele,R.G。;Goldberg,G.S.,乳腺、肾脏和前列腺肿瘤中sdpr和fhl1表达的协同抑制,癌症科学, 99, 1326-1333, (2008)
[28] Liao,S.-Y。;奥雷里奥,O.N。;Jan,K。;扎瓦达,J。;Stanbridge,E.J.,将MN/CA9蛋白鉴定为肾透明细胞癌的可靠诊断生物标志物,癌症研究, 57, 2827-2831, (1997)
[29] 刘,H。;Brannon,A.R。;Reddy,A.R。;Alexe,G。;塞勒,M.W。;阿雷奥拉,A。;Oza,J.H。;姚,M。;Juan,D。;Liou,L.S.等人,确定癌症中微rna失调的mrna靶点:应用于透明细胞肾细胞癌,BMC系统生物学, 4, 1, (2010)
[30] Lorenz,D.J。;吉尔,R.S。;密特拉·R。;Datta,S.,使用RNA-seq数据检测差异表达基因,下一代测序数据的统计分析(2014年),25-49岁,纽约斯普林格
[31] 爱,M.I。;Huber,W。;Anders,S.,使用deseq2对RNA-seq数据的折叠变化和离散度进行适度估计,基因组生物学, 15, 1-21, (2014)
[32] Lovén,J。;奥兰多,D.A。;Sigova,A.A。;林,C.Y。;Rahl,P.B。;Burge,C.B。;Levens,D.L。;Lee,T.I。;Young,R.A.,《重新审视全球基因表达分析》,单元格, 151, 476-482, (2012)
[33] 鲁·R。;季,Z。;李,X。;翟,Q。;赵,C。;江,Z。;张,S。;聂,L。;Yu,Z.,Mir-145在肾细胞癌中发挥抑癌作用,靶向两个癌基因ANGPT2和NEDD9,癌症研究与临床肿瘤学杂志, 140, 387-397, (2014)
[34] 微阵列质量控制(MAQC)-II基于微阵列预测模型开发和验证的通用实践研究,自然生物技术, 28, 827-838, (2010)
[35] 麦克伦登,R。;弗里德曼,A。;比格纳,D。;Van Meir,E.G。;布拉特·D·J。;Mastrogianakis,G.M。;奥尔森·J·J。;Mikkelsen,T。;雷曼,N。;Aldape,K.等人,综合基因组特征定义了人类胶质母细胞瘤基因和核心通路,自然, 455, 1061-1068, (2008)
[36] Metzker,M.L.,《下一代测序技术》,遗传学自然评论,2010年11月31日至46日
[37] 宫田,Y。;科加,S。;神田,S。;Nishikido,M。;Hayashi,T。;Kanetake,H.,肾细胞癌中环氧合酶-2的表达与肿瘤细胞增殖、凋亡、血管生成、基质金属蛋白酶-2的表达和生存率的关系,临床癌症研究, 9, 1741-1749, (2003)
[38] 莫里斯,M.R。;Hesson,L.B。;瓦格纳,K.J。;摩根,N.V。;Astuti,D。;Lees,R.D。;库珀,W.N。;Lee,J。;温和,D。;Macdonald,F.等人,wilms肿瘤和成人肾细胞癌的多基因甲基化分析,癌基因, 22, 6794-6801, (2003)
[39] Mortazavi,A。;威廉姆斯,B.A。;McCue,K。;谢弗,L。;Wold,B.,通过RNA-seq绘制和量化哺乳动物转录体,自然方法, 5, 621-628, (2008)
[40] Oshlack,A。;Robinson,医学博士。;Young,M.D.,从RNA-seq读取到差异表达结果,基因组生物学, 11, 1-10, (2010)
[41] 拉帕波特,F。;Khanin,R。;梁,Y。;Pirun,M。;Krek,A。;Zumbo,P。;梅森,C.E。;新墨西哥州索契。;Betel,D.,RNA-seq数据差异基因表达分析方法的综合评估,基因组生物学,14,R95,(2013)
[42] 里索,D。;Ngai,J。;速度,T.P。;Dudoit,S.,使用控制基因或样本的因子分析对RNA-seq数据进行标准化,自然生物技术, 32, 896-902, (2014)
[43] 尖峰标准在RNA-seq标准化中的作用,下一代测序数据的统计分析,169-190,(2014),纽约斯普林格
[44] 罗伯茨。;特拉内尔,C。;多纳吉,J。;Rinn,J.L。;Pachter,L.,通过修正片段偏差改进RNA-seq表达估计,基因组生物学, 12, 1, (2011)
[45] Robinson,医学博士。;麦卡锡,D.J。;Smyth,G.K.,Edger:用于数字基因表达数据差异表达分析的生物导体包,生物信息学, 26, 139-140, (2010)
[46] Robinson,医学博士。;Oshlack,A.,RNA-seq数据差异表达分析的尺度归一化方法,基因组生物学, 11, 1-9, (2010)
[47] Robinson,医学博士。;Smyth,G.K.,评估标记丰度差异的中等统计检验,生物信息学, 23, 2881-2887, (2007)
[48] Schena,M。;沙龙,D。;Davis,R.W。;Brown,P.O.,用互补DNA微阵列定量监测基因表达模式,科学类, 270, 467, (1995)
[49] 新泽西州Schurch。;斯科菲尔德,P。;吉尔林斯基,M。;科尔,C。;谢尔斯特涅夫。;辛格,V。;Wrobel,N。;加尔比,K。;辛普森,G.G。;Owen-Hughes,T.等人,RNA-seq实验需要多少生物复制,你应该使用哪种差异表达工具?,核糖核酸, 22, 839-851, (2016)
[50] 测序质量控制联盟对RNA-seq准确性、再现性和信息含量进行综合评估,自然生物技术, 32, 903-914, (2014)
[51] 史,L。;里德·L·H。;琼斯,W.D。;Shippy,R。;沃林顿,J.A。;贝克,S.C。;柯林斯,P.J。;德朗格维尔,F。;川崎,E.S。;Lee,K.Y.等人,微阵列质量控制(MAQC)项目显示了基因表达测量的平台间和平台内再现性,自然生物技术, 24, 1151-1161, (2006)
[52] Smyth,G。;Verbyla,A.,广义线性模型中残差最大似然估计的条件似然法,英国皇家统计学会杂志, 58, 565-572, (1996) ·Zbl 0853.62052号
[53] Soneson,C。;Delorenzi,M.,RNA-seq数据差异表达分析方法的比较,BMC生物信息学, 14, 91, (2013)
[54] 唐,S.-W。;Chang,W.-H。;苏,Y.-C。;陈,Y.-C。;Lai,Y.-H。;Wu,P.-T。;徐,C.-I。;林,W.C。;赖,M.-K。;Lin,J.-Y.,MYC通路在透明细胞肾细胞癌中被激活,对透明细胞肾癌细胞的增殖至关重要,癌症信件, 273, 35-43, (2009)
[55] 特鲁杜,M。;贾纳斯,S。;兰扎尼,C。;Debaix,H。;谢弗,C。;池田,M。;Citterio,L。;德马雷茨,S。;Trevisani,F。;Ristagno,G.等人,常见的非编码UMOD基因变体通过增加尿调节蛋白的表达诱导盐敏感性高血压和肾损伤,自然医学, 19, 1655-1660, (2013)
[56] Tun,H.W。;洛杉矶马洛。;罗梅林,C.A。;库珀,S.J。;克雷内特,P。;Wu,K。;Luxon,B.A。;辛哈,M。;Anastasiadis,P.Z。;Copland,J.A.,透明细胞肾细胞癌的通路特征和细胞分化,公共图书馆,5,e10696,(2010)
[57] 王,L。;冯,Z。;王,X。;王,X。;Zhang,X.,Degseq:一个R包,用于从RNA-seq数据中识别差异表达基因,生物信息学, 26, 136-138, (2010)
[58] 王,Z。;Gerstein,M。;Snyder,M.,RNA-seq:转录组学的革命性工具,遗传学自然评论, 10, 57-63, (2009)
[59] West,M.,贝叶斯因子回归模型第页},小{\ itn个}“范式,贝叶斯统计, 7, 733-742, (2003)
[60] 徐,J。;苏,Z。;Hong,H。;蒂里·米格(Thierry-Mieg,J.)。;蒂里·米格,D。;Kreil博士。;梅森,C.E。;Tong,W。;Shi,L.,通过RNA-seq对人类参考RNA样本进行跨平台超深转录组分析,科学数据, 1, 140020-140020, (2013)
[61] 山崎,T。;塞基,N。;Yamada,Y。;Yoshino,H。;Hidaka,H。;Chiyomaru,T。;诺哈塔,N。;Kinoshita,T。;中川,M。;Enokida,H.,肿瘤抑制microrna-138通过靶向肾癌中的波形蛋白,促进细胞迁移和侵袭,国际肿瘤学杂志, 41, 805-817, (2012)
[62] 张振华。;Jhaveri,D.J。;马歇尔,V.M。;哥伦比亚特区鲍尔。;Edson,J。;Narayanan,R.K。;罗宾逊,G.J。;伦德伯格,A.E。;巴特利特,P.F。;Wray,N.R.等人,《RNA-seq数据差异表达分析技术的比较研究》,公共图书馆,9,e103207,(2014)
[63] 周,L。;陈,J。;李,Z。;李,X。;胡,X。;黄,Y。;X.赵。;Liang,C。;Wang,Y。;Sun,L.等人,《micrornas和mrnas的综合分析:位于xq27上的microrna》。3例与肾透明细胞癌相关,公共图书馆,5,e15224,(2010)
[64] 周,M。;Carin,L.,负二项过程计数和混合建模,IEEE模式分析和机器智能汇刊, 37, 307-320, (2015)
[65] 周,M。;Hannah,L。;邓森,D。;Carin,L.,贝塔负二项过程和泊松因子分析,AISTATS公司, 1462-1471, (2012)
[66] 周,M。;O.H.M.帕迪拉。;Scott,J.G.,从负二项式过程族导出的随机计数矩阵的先验,美国统计协会杂志, 111, 1144-1156, (2016)
[67] Zyprych-Walczak,J.(Zyprych-Walczak,J.)。;萨贝尔斯卡,A。;Handschuh,L。;Klamecka,K。;Figlerowicz,M。;Siatkowski,I.,归一化方法对RNA-seq数据分析的影响,国际生物医学研究, (2015)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。