×

非齐次泊松过程的变点模型及其在下一代DNA测序拷贝数分析中的应用。 (英语) Zbl 1243.62112号

小结:我们提出了一个非均匀泊松过程的灵活变点模型,该模型自然产生于下一代DNA测序,并导出了强度函数位移的得分和广义似然统计。我们构造了一个改进的贝叶斯信息准则(mBIC)来指导模型选择,并用点近似贝叶斯置信区间来评估分割的置信度。该模型应用于测序数据的DNA拷贝数分析,并在模拟峰值和实际数据集上进行评估。

MSC公司:

2005年6月2日 马尔可夫过程:估计;隐马尔可夫模型
62页第10页 统计学在生物学和医学中的应用;元分析
2015年1月62日 贝叶斯推断
62英尺25英寸 参数公差和置信区域
92C40型 生物化学、分子生物学
2009年6月26日 非马尔可夫过程:估计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bai,J.和Perron,P.(2003年)。多种结构变化模型的计算和分析。J.应用。计量经济学18 1-22。
[2] Bellman,R.(1961年)。关于使用动态规划通过线段逼近曲线。Commun公司。ACM 4 284·Zbl 0100.12901号 ·数字对象标识代码:10.1145/366573.366611
[3] Benjamini,Y.和Speed,T.(2011年)。高通量测序中GC含量偏差的估计和校正。技术报告804,加州大学伯克利分校统计系。
[4] Boeva,V.、Zinovyev,A.、Bleakley,K.、Vert,J.-P.、Janoueix-Lerosey,I.、Delatre,O.和Barillot,E.(2011年)。使用GC-content归一化对深度排序数据中的拷贝数更改进行无控制调用。生物信息学27 268-269。
[5] Campbell,P.J.、Stephens,P.J、Pleasance,E.D.、O’Meara,S.、Li,H.、Santarius,T.、Stebbings,L.A.、Leroy,C.、Edkins,S.,Hardy,C.、Teague,J.W.、Menzies,A.、Goodhead,I.、Turner,D.J.、Clee,C.M.、Quail,M.A.、Cox,A.、Brown,C.、Durbin,R.、Hurles,M.、Edwards,P.A.、Bignell,G.R.、Stratton,M.R.和Futreal,P.A(2008)使用全基因组大规模平行配对测序鉴定癌症中的体获得性重排。《自然遗传学》40 722-729。
[6] Chen,H.、Xing,H.和Zhang,N.R.(2011)。使用高密度基因分型阵列估计肿瘤中父母特异性DNA拷贝数。公共科学图书馆计算。生物学7 e1001060,15。
[7] Cheung,M.-S.、Down,T.A.、Latorre,I.和Ahringer,J.(2011)。高通量测序数据中的系统偏差及其BEADS校正。核酸研究39 e103。
[8] Chiang,D.Y.、Getz,G.、Jaffe,D.B.、O'Kelly,M.J.、Zhao,X.、Carter,S.L.、Russ,C.、Nusbaum,C.、Meyerson,M.和Lander,E.S.(2009年)。具有大规模并行测序的拷贝数改变的高分辨率映射。自然方法6 99-103。
[9] Cobb,G.W.(1978年)。尼罗河问题:一个转折点问题的有条件解决方案。生物特征65 243-251·Zbl 0394.62074号 ·doi:10.1093/biomet/65.2.243
[10] Conrad,D.F.、Andrews,T.D.、Carter,N.P.、Hurles,M.E.和Pritchard,J.K.(2006)。人类基因组中缺失多态性的高分辨率调查。自然遗传学。38 75-81.
[11] Dom,J.C.、Lottaz,C.、Borodina,T.和Himmelbauer,H.(2008)。高通量DNA测序的超短读取数据集中存在大量偏差。核酸研究36 e105。
[12] Hinkley,D.V.(1970年)。关于随机变量序列中变化点的推断。生物特征57 1-17·Zbl 0198.51501号 ·doi:10.1093/biomet/57.1.1
[13] Hornik,K.(2005)。CLUster合奏的CLUE。统计软件杂志14。
[14] Hornik,K.(2010年)。线索:星团集合R包版本0.3-34。
[15] Ivakhno,S.、Royce,T.、Cox,A.J.、Evers,D.J.、Cheetham,R.K.和Tavaré,S.(2010)。CNAseg——从第二代测序数据中识别癌症拷贝数变化的新框架。生物信息学26 3051-3058。
[16] Khaja,R.、Zhang,J.、MacDonald,J.R.、He,Y.、Joseph-George,A.M.、Wei,J.,Rafiq,Q.C.M.、Shago,M.、Pantano,L.、Aburatani,H.、Jones,K.、Redon,R.,Hurles,M.,Armengol,L.,Estivill,X.、Mural,R.J.、Lee,C.、Scherer,S.和Feuk,L.(2007)。基因组组装比较以确定人类基因组中的结构变异。《自然遗传学》38 1413-1418。
[17] Lai,T.L.、Xing,H.和Zhang,N.R.(2007)。基于阵列的比较基因组杂交数据分析的随机分割模型。生物统计学9 290-307·Zbl 1143.62082号 ·doi:10.1093/生物统计学/kxm031
[18] Lai,W.R.、Johnson,M.D.、Kucherlapati,R.和Park,P.J.(2005)。阵列CGH数据中识别放大和删除的算法的比较分析。生物信息学21 3763-3770。
[19] Lavielle,M.(2005)。对转换点问题使用惩罚对比度。信号处理85 1501-1510·兹比尔1160.94341 ·doi:10.1016/j.sigpro.2005.01.012
[20] Lipson,D.、Aumann,Y.、Ben-Dor,A.、Linial,N.和Yakhini,Z.(2006年)。有效计算DNA拷贝数数据分析的区间分数。J.计算。生物13 215-228(电子版)·Zbl 1119.92325号 ·doi:10.1089/cmb.2006.13.215
[21] McCarroll,S.A.、Hadnott,T.N.、Perry,G.H.、Sabeti,P.C.、Zody,M.C.、Barrett,J.C.、Dallaire,S.、Gabriel,S.B.、Lee,C.、Daly,M.J.、Altshuler,D.M.和国际HapMap联盟(2006)。人类基因组中常见的缺失多态性。自然遗传学38 86-92。
[22] 梅德韦杰夫·P、斯坦丘·M和布鲁德诺·M(2009)。通过下一代测序发现结构变化的计算方法。自然方法6 S13-S20。
[23] Olshen,A.B.、Venkatraman,E.S.、Lucito,R.和Wigler,M.(2004)。用于分析基于阵列的DNA拷贝数数据的循环二进制分割。生物统计学5 557-572·兹比尔1155.62478 ·doi:10.1093/biostatistics/kxh008
[24] Olshen,A.B.、Bengtsson,H.、Neuvial,P.、Spellman,P.T.、Olsheng,R.A.和Seshan,V.E.(2011)。使用循环二进制分割的配对肿瘤-正常研究中父母特定的拷贝数。生物信息学27 2038-2046。
[25] Rabinowitz,D.(1994年)。检测疾病发病率中的集群。《变化点问题》(South Hadley,MA,1992)。数理统计研究所讲稿——专题系列23 255-275。加利福尼亚州海沃德IMS·兹比尔1158.60352 ·doi:10.1214/lnms/1215463129
[26] Redon,R.、Ishikawa,S.、Fitch,K.R.、Feuk,L.、Perry,G.H.、Andrews,D.T.、Fiegler,H.、Shapero,M.H.,Carson,A.R.、Chen,W.、Cho,E.K.、Dallaire,S..、Freeman,J.L.、Gonzalez,J.R.、Gratacos,M.、Huang,J.、Kalaitzopoulos,D.、Komura,D.、Macdonald,J.R、Marshall,C.R.、Mei,R.,Montgomery,L.,Nishimura,K.、Okamura,K、Shen,F.、。,Somerville,M.J.、Tchinda,J.、Valsesia,A.、Woodwark,C.、Yang,F.、Zhang,J.,Zerjal,T.,Zhang、J.、Armengol,L.、Conrad,D.F.、Estivill,X.、Tyler-Smith,C.、Carter,N.P.、Aburatani,H.、Lee,C.、Jones,K.W.、Scherer,S.W.和Hurles,M.E.(2006年)。人类基因组拷贝数的全球变异。自然444 444-454。
[27] Schwarz,G.(1978年)。估算模型的维度。Ann.Statist公司。6 461-464. ·兹伯利0379.62005 ·doi:10.1214/aos/1176344136
[28] Shah,S.P.、Lam,W.L.、Ng,R.T.和Murphy,K.P.(2007年)。模拟阵列CGH数据中重复出现的DNA拷贝数变化。生物信息学23 450-458。
[29] Siegmund,D.(1988年a)。某些随机场最大值的近似尾部概率。安·普罗巴伯。16 487-501·Zbl 0646.60032号 ·doi:10.1214/aop/1176991769
[30] Siegmund,D.(1988年b)。变点问题中的置信集。国际。统计师。版次:56 31-48·Zbl 0684.62028号 ·doi:10.2307/1403360
[31] Siegmund,D.O.、Yakir,B.和Zhang,N.R.(2011年)。检测对齐序列中的同时变化间隔。附录申请。统计数字5 645-668·Zbl 1223.62166号 ·doi:10.1214/10-AOAS400
[32] Venkatraman,E.S.和Olshen,A.B.(2007年)。一种用于阵列CGH数据分析的快速循环二进制分割算法。生物信息学23 657-663。
[33] Walther,G.(2010年)。使用扫描统计优化和快速检测空间簇。Ann.Statist公司。38 1010-1033. ·Zbl 1183.62076号 ·doi:10.1214/09-AOS732
[34] Wang,P.、Kim,Y.、Pollack,J.、Narasimhan,B.和Tibshirani,R.(2005)。一种在阵列CGH数据中调用增益和损耗的方法。生物统计学6 45-58·Zbl 1069.92014年9月 ·doi:10.1093/biostatistics/kxh017
[35] Willenbrock,H.和Fridlyand,J.(2005)。比较研究:将分割应用于阵列CGH数据以进行下游分析。生物信息学21 4084-4091。
[36] Xie,C.和Tammi,M.T.(2009年)。CNV-seq,一种利用高通量测序检测拷贝数变化的新方法。BMC生物信息学10 80。
[37] Yoon,S.、Xuan,Z.、Makarov,V.、Ye,K.和Sebat,J.(2009)。使用读取覆盖深度对拷贝数变体进行灵敏而准确的检测。基因组研究19 1586-1592。
[38] Zhang,N.R.(2010)。正常和肿瘤基因组中的DNA拷贝数分析。《计算与系统生物学前沿》(J.Feng、W.Fu和F.Sun主编)。计算生物学15 259-281。斯普林格,伦敦。
[39] Zhang,N.R.和Siegmund,D.O.(2007年)。一种改进的贝叶斯信息准则,用于比较基因组杂交数据的分析。生物统计学63 22-32309·Zbl 1206.62174号 ·文件编号:10.1111/j.1541-0420.2006.00662.x
[40] Zhang,N.R.、Siegmund,D.O.、Ji,H.和Li,J.Z.(2010)。检测多个序列中的同时变化点。生物特征97 631-645·Zbl 1195.62168号 ·doi:10.1093/biomet/asq025
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。