×

兹马思-数学第一资源

二项族中离散参数的收缩及其在微分外显子跳跃中的应用。(英语) Zbl 1400.62284号
摘要:基因组学中测序实验的普遍性导致了计数数据方法在高通量基因组数据分析中的应用越来越多。收缩法在提高统计方法性能方面的重要性仍然存在。一个常见的例子是基因表达数据,其中每个基因的计数通常被建模为某种形式的过度分散泊松。每基因离散度参数的收缩估计导致了离散度估计的改进,特别是在少数样本的情况下。
我们提出了一个不同的计数设置使用测序数据:通过一个过度分散的二项式模型比较不同的比例使用。我们的动机是在mRNA序列实验中检测差异外显子跳跃。我们介绍了一种新的收缩方法,用双二项分布来模拟过分散B、 埃夫隆[上午。Stat.Assoc.81709–721(1986年;Zbl 0611.62072)].
我们的方法(WEB-Seq)是一种经验Bayes策略,用于产生离散度的收缩估计,并有效地检测差异比例使用,并且与edgeR为基因表达数据开发的加权似然策略密切相关[M、 D.罗宾逊等,“评估tag丰度差异的缓和统计测试”,Bioinform。23号,第21号,2881–2887(2007年;doi:10.1093/bioinformatics/btm453)“edgeR:用于数字基因表达数据差异表达分析的生物导体包”,Bioinform。26号,第1期,第139–140页(2010年;doi:doi.org/10.1093/bioinformatics/btp616)]. 我们分析了它在模拟数据集和真实数据上的行为,表明我们的方法是快速、强大的,并且与其他方法相比能够精确控制FDR。我们在CRAN上提供的R包doublexpseq中提供了我们方法的实现。

理学硕士:
第62页 统计学在生物学和医学科学中的应用;元分析
6207年 岭回归;收缩估计量(套索)
62C12 经验决策程序
92D20 蛋白质序列,DNA序列
PDF格式 BibTeX公司 XML 引用
参考文献:
[1] Anders,S.和Huber,W.(2010年)。序列计数数据的微分表达式分析。基因组生物学。11 106。
[2] Anders,S.,Reyes,A.和Huber,W.(2012年)。从RNA序列数据中检测外显子的差异使用。基因组研究22 2008-2017。
[3] Barbosa Morais,N.L.,Irimia,M.,Pan,Q.,Xiong,H.Y.,Guerossov,S.,Lee,L.J.,Slobodeniuc,V.,Kutter,C.,Watt,S.,Colak,R.,Kim,T.,Miskitta Ali,C.M.,Wilson医学博士,Kim,P.M.,Odom,D.T.,Frey,B.J.和Blencowe,B.J.(2012年)。脊椎动物物种选择性剪接的进化景观。科学338 1587-1593。
[4] (杰米尼,1995)。控制错误发现率:一种实用而有效的多重测试方法。J、 罗伊。统计学家。Soc。爵士。乙57 289-300。·Zbl 0809.62014
[5] Bourgon,R.,绅士R.和Huber,W.(2010年)。独立滤波提高了高通量实验的检测能力。程序。自然。阿卡德。科学。美国107 9546-9551。
[6] Brooks,A.N.,Yang,L.,Duff,M.O.,Hansen,K.D.,Park,J.W.,Dudoit,S.,Brenner,S.E.和Graveley,B.R.(2011年)。果蝇和哺乳动物RNA调控图谱的保存。基因组研究21 193-202。
[7] Brooks,A.N.,Choi,P.S.,de Waal,L.,Sharifnia,T.,Imielinski,M.,Saksena,G.,Pedamallu,C.S.,Sivachenko,A.,Rosenberg,M.,Chmielecki,J.,Lawrence,M.S.,DeLuca,D.S.,Getz,G.和Meyerson,M.(2014年)。对与U2AF1体细胞突变相关的转录组变化的泛癌症分析揭示了常见的剪接事件改变。公共科学图书馆一号9 e87361。
[8] 癌症基因组图谱研究网络(2011年)。卵巢癌的基因组综合分析。自然474 609-615。
[9] Denoaud,F.,Aury,J.-M.,Silva,C.D.,Noel,B.,Rogier,O.,Delledonne,M.,Morgante,M.,Valle,G.,Wincker,P.,Scarpelli,C.,Jaillon,O.和Artiguenave,F.(2008年)。用大规模RNA测序解释基因组。基因组生物学。9 R175。
[10] Dolzhenko,E.和Smith,A.D.(2014年)。在多因素全基因组亚硫酸氢盐测序实验中应用β二项回归进行高精度甲基化差异分析。BMC生物信息学15 215。
[11] 埃夫隆,B.(1986年)。双指数族及其在广义线性回归中的应用。J、 阿默尔。统计学家。协会81 709-721。·Zbl 0611.62072·内政部:10.2307/2289002
[12] Feng,H.,Conneely,K.N.和Wu,H.(2014年)。从单核苷酸解析测序数据中检测差异甲基化位点的贝叶斯层次模型。核酸研究42 e69-e69。
[13] M.M.J.,加尼姆·吉恩,J.,加尼姆·吉恩,J.,加尼姆·吉恩,J.,兰迪姆·吉恩,2010)。小鼠细胞型特异性转录体从头算重建揭示了lincRNAs保守的多外显子结构。纳特。生物技术。28503-510。
[14] Hardcastle,T.J.和Kelly,K.A.(2010年)。BaySeq:识别序列计数数据中差异表达的经验贝叶斯方法。BMC生物信息学11 422。
[15] Hardcastle,T.J.和Kelly,K.A.(2013年)。具有β二项分布的成对高通量测序数据的经验贝叶斯分析。BMC生物信息学14 135。
[16] Hu,Y.,Huang,Y.,Du,Y.,Orellana,C.F.,Singh,D.,Johnson,A.R.,Monroy,A.,Kuan,P.F.,Hammond,S.M.,Makowski,L.,Randell,S.H.,Chiang,D.Y.,Hayes,D.N.,Jones,C.,Liu,Y.,Prins,J.F.和Liu,J.J.(2013年)。差异剪接:用RNA序列在全基因组范围内检测差异剪接事件。核酸研究41 e39。
[17] 江华、黄文华(2009)。RNA序列中亚型表达的统计推断。生物信息学25 1026-1032。
[18] Jørgensen,B.(1997年)。色散模型理论。统计学和应用概率专著76。查普曼和霍尔,伦敦。·Zbl 0928.62052
[19] Katz,Y.,Wang,E.T.,Airoldi,E.M.和Burge,C.B.(2010年)。RNA测序实验的分析与设计。纳特。方法71009-1015。
[20] Law,C.W.,Chen,Y.,Shi,W.和Smyth,G.K.(2014年)。精确权重解锁用于RNA序列读取计数的线性模型分析工具。基因组生物学。15 R29。
[21] Leng,N.,Dawson,J.A.,Thomson,J.A.,Ruotti,V.,Rissman,A.I.,Smits,B.M.G.,Haag,J.D.,Gould,M.N.,Stewart,R.M.和Kendziorski,C.(2013年)。EBSeq:RNA序列实验中推理的经验Bayes层次模型。生物信息学29 1035-1043。
[22] Marioni,J.C.,Mason,C.E.,Mane,S.M.,Stephens,M.和Gilad,Y.(2008年)。RNA-seq:技术重复性的评估和与基因表达阵列的比较。基因组研究18 1509-1517。
[23] McCarthy,D.J.,Chen,Y.和Smyth,G.K.(2012年)。关于生物变异的多因子RNA序列实验差异表达分析。核酸研究40 4288-4297。
[24] 国家人类基因组研究所(2014年)。选择性拼接。可在·www.genome.gov网站
[25] Pan,Q.,Shai,O.,Lee,L.J.,Frey,B.J.和Blencowe,B.J.(2008年)。通过高通量测序对人类转录组中选择性剪接复杂性的深入研究。纳特。吉奈特。1413-1415年。
[26] Pawitan,Y.(2001年)。全似然:统计建模和似然推断。牛津大学出版社,伦敦。·Zbl 1013.62001
[27] R核心团队(2013年)。R: 一种用于统计计算的语言和环境。R统计计算基金会,维也纳,奥地利。
[28] Richard,H.,Schulz,M.H.,Sultan,M.,Nürnberger,A.,Schrinner,S.,Balzereit,D.,Dagand,E.,Rasche,A.,Lehrach,H.,Vingron,M.,Haas,S.A.和Yaspo,M.-L.(2010年)。从RNA序列实验中外显子表达水平预测替代异构体。核酸研究38 e112。
[29] Robinson,医学博士,Mccarthy,D.J.和Smyth,G.K.(2010年)。edgeR:用于数字基因表达数据差异表达分析的生物导体包。生物信息学(英国牛津)26 139-140。
[30] Robinson,M.D.和Smyth,G.K.(2007年)。评估标签丰度差异的适度统计测试。生物信息学23 2881-2887。
[31] (Robinson,G.M.K.,2008年)。负二项离差的小样本估计及其在SAGE数据中的应用。生物统计学9 321-332。·Zbl 1143.62312·doi:10.1093/biostatistics/kxm030
[32] Ruddy,S.,Johnson,M.和Purdom,E.(2015a)。对“二项式族中色散参数的收缩,以及对微分外显子跳跃的应用”的补充A。·Zbl 1400.62284号·doi:10.1214/15-AOAS871·dx.doi.org网站
[33] Ruddy,S.,Johnson,M.和Purdom,E.(2015b)。“二项式族中色散参数的收缩,及其在微分外显子跳跃中的应用”补充B。·Zbl 1400.62284号·doi:10.1214/15-AOAS871·dx.doi.org网站
[34] Ruddy,S.,Johnson,M.和Purdom,E.(2015c)。对“二项式族中色散参数的收缩,以及对微分外显子跳跃的应用”的补充C。·Zbl 1400.62284号·doi:10.1214/15-AOAS871·dx.doi.org网站
[35] Salzman,J.,Jiang,H.和Wong,W.H.(2010年)。RNA序列数据的统计建模。技术报告编号:BIO-252,生物统计部,斯坦福大学,帕洛阿尔托。·Zbl 1219.62173·doi:10.1214/10-STS343
[36] Shen,S.,Park,J.W.,Huang,J.,Dittmar,K.A.,Lu,Z.-x.,Zhou,Q.,Carstens,R.P.和Xing,Y.(2012年)。MATS:从RNA序列数据中灵活检测差异选择性剪接的贝叶斯框架。核酸研究40 e61。
[37] Shi,Y.和Jiang,H.(2013年)。rSeqDiff:用层次似然比检验从RNA序列数据中检测差异异构体的表达。公共图书馆一号8 e79448。
[38] Smyth,G.K.(2005年)。Limma:微阵列数据的线性模型。在使用R和生物导体的生物信息学和计算生物学解决方案中(R.绅士,V.J.Carey,W.Huber,R.A.Irizarry和S.Dudoit,eds.)第397-420页。斯普林格,纽约。
[39] Sun,D.,Xi,Y.,Rodriguez,B.,Park,H.J.,Tong,P.,Meong,M.,Goodell,M.A.和Li,W.(2014年)。MOABS:基于模型的亚硫酸氢盐测序数据分析。生物基因组。15 R38。
[40] Trapnell,C.,Pachter,L.和Salzberg,S.L.(2009年)。TopHat:用RNA序列发现剪接连接。生物信息学25 1105-1111。
[41] Trapnell,C.,Williams,B.A.,Pertea,G.,Mortazavi,A.,Kwan,G.,van Baren,M.J.,Salzberg,S.L.,Wold,B.J.和Pachter,L.(2010年)。通过RNA-seq的转录组装和量化揭示了细胞分化过程中未标记的转录物和异构体转换。纳特。生物技术。28511号。
[42] Venables,J.P.,Klinck,R.,Koh,C.,Gervais Bird,J.,Bramard,A.,Inkel,L.,Durand,M.,Couture,S.,U.,Froehlich,U.,Lapointe,E.,Lucier,J.-F.,Thibault,P.,Rancourt,C.,Tremblay,K.,Prinos,P.,Chabot,B.和Elela,S.A.(2009年)。选择性剪接的癌症相关调控。自然出版集团16 670-676。
[43] Wang,X.(2006年)。加权似然逼近贝叶斯推理。卡纳德。J、 统计学家。34 279-298。·11462ZB2.3072升·doi:10.1002/cjs.5550340206
[44] 威廉姆斯博士(1982年)。logistic线性模型中的外二项式变异。J、 罗伊。统计学家。Soc。爵士。公元前144-148年。·Zbl 0488.62055·内政部:10.2307/2347977
[45] Wu,T.D.和Nacu,S.(2010年)。快速和SNP容忍检测复杂变异和剪接短读。生物信息学(英国牛津)26873-881。
[46] Wu,H.,Wang,C.和Wu,Z.(2013年)。一种新的离散收缩估计器改进了RNA序列数据中的差异表达检测。生物统计学14232-243。
[47] Wu,J.,Akerman,M.,Sun,S.,McCombie,W.R.,Krainer,A.R.和Zhang,M.Q.(2011年)。剪接陷阱:一种量化单细胞条件下选择性剪接的方法。生物信息学27 3010-3016。
[48] Yang,X.,Todd,J.A.,Clayton,D.和Wallace,C.(2012年)。集合DNA测序数据分析的二项式变异法。生物信息学28 2898-2904。
[49] Yu,D.,Huber,W.和Vitek,O.(2013年)。小样本RNA序列实验负二项模型离散度的收缩估计。生物信息学29 1275-1282。
[50] Zhou,Y.H.,Xia,K.和Wright,F.A.(2011年)。一种强大而灵活的RNA序列计数数据分析方法。生物信息学(英国牛津)27 2672-2678。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。