×

使用高通量SNP阵列评估染色体改变的隐马尔可夫模型。 (英语) Zbl 1400.62285号

小结:染色体DNA的特征是个体之间在整个染色体水平上的变异(例如,染色体拷贝数发生改变的非整倍体)、片段变化(包括插入、缺失、反转和易位)以及小基因组区域的变化(包括单核苷酸多态性)。染色体DNA中发生的各种变化,其中许多可以使用高密度单核苷酸多态性(SNP)微阵列检测到,与正常变异以及疾病有关,因此特别值得关注。这些包括拷贝数(缺失和重复)和基因型(例如,纯合子区域的出现)的变化。隐马尔可夫模型(HMM)特别适用于检测此类变化,建模相邻SNP之间的空间相关性。在这里,我们通过整合拷贝数、基因型调用和相应的不确定性度量(如果可用),改进了以前使用HMM框架在高通量SNP阵列中进行推理的方法。使用模拟和实验数据,我们特别演示了置信分数如何在概率框架中控制平滑。R包VanillaICE中提供了用于将HMM拟合到SNP阵列数据的软件。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Affymetrix(2006年)。Brlmm:一种改进的基因芯片人类定位500k阵列集的基因型调用方法。Affymetrix公司技术报告。
[2] Aggarwal,A.、Leong,S.H.、Lee,C.、Kon,O.L.和Tan,P.(2005)。肿瘤表达谱的小波变换揭示了非整倍体在肿瘤转录组上的普遍基因组印记。,癌症研究65 186-194。
[3] Aguirre,A.J.,Brennan,C.,Bailey,G.,Sinha,R.,Feng,B.,Leo,C.,Zhang,Y.,Zhang,J.D.,Bardeesy,N.,Cauwels,C.,Cordon-Cardo,C.,Redston,M.S.,DePinho,R.A.和Chin,L.(2004)。胰腺癌基因组的高分辨率特征。,程序。国家。阿卡德。科学。美国101 9067-9072。
[4] Altug-Teber,O.,Dufke,A.,Poths,S.,Mau-Holzmann,U.A.,Bastepe,M.,Colleaux,L.,Cormier-Daire,V.,Eggermann,T.,Gillessen-Kaesbach,G.,Bonin,M.和Riess,O.(2005)。用于检测单亲二体的快速微阵列全基因组分析。,26 153-159.
[5] Beroukhim,R.、Lin,M.、Park,Y.、Hao,K.、Zhao,X.、Garraway,L.A.、Fox,E.A.、Hochberg,E.P.、Mellinghoff,I.K.、Hofer,M.D.、Descazeaud,A.、Rubin,M.A.、Meyerson,M.,Wong,W.H.、Sellers,W.R.和Li,C.(2006)。使用高密度寡核苷酸SNP阵列从未配对肿瘤推断异基因缺失。,公共科学图书馆计算。生物2 e41。
[6] Carvalho,B.、Bengtsson,H.、Speed,T.P.和Irizarry,R.A.(2007年)。高密度寡核苷酸SNP阵列数据的探索、标准化和基因型调用。,生物统计学8 485-499·Zbl 1144.62088号 ·doi:10.1093/biostatistics/kxl042
[7] 钱伯斯,J.M.(1998)。,使用数据编程。纽约州施普林格·Zbl 0902.68022号
[8] Colella,S.、Yau,C.、Taylor,J.M.、Mirza,G.、Butler,H.、Clouston,P.、Bassett,A.S.、Seller,A.、Holmes,C.和Ragoussis,J.(2007)。QuantiSNP:一种客观的Bayes hidden-Markov模型,用于使用SNP基因分型数据检测和准确绘制拷贝数变化。,核酸研究35 2013-2025。
[9] Dempster,A.、Laird,D.和Rubin,D.(1977年)。通过EM算法获得不完整数据的最大似然。,J.罗伊。统计师。Soc.序列号。B 39 1-38。JSTOR公司:·Zbl 0364.62022号
[10] Di,X.,Matsuzaki,H.,Webster,T.A.,Hubbell,E.,Liu,G.,Dong,S.,Bartell,D.,Huang,J.,Chiles,R.,Yang,G.、mei Shen,M.,Kulp,D.,Kennedy,G.C.,mei,R.、Jones,K.W.和Cawley,S.(2005)。用于在寡核苷酸微阵列上筛选和分型超过100K SNPs的基于动态模型的算法。,生物信息学21 1958-1963。
[11] Dutt,A.和Beroukhim,R.(2007年)。癌症单核苷酸多态性阵列分析。,货币。操作。昂科尔。19 43-49.
[12] Eichler,E.E.、Nickerson,D.A.、Altshuler,D.、Bowcock,A.M.、Brooks,L.D.、Carter,N.P.、Church,D.M.、Felsenfeld,A.、Guyer,M.、Lee,C.、Lupski,J.R.、Mullikin,J.C.、Pritchard,J.K.、Sebat,J.、Sherry,S.T.、Smith,D.、Valle,D.和Waterston,R.H.(2007年)。完成人类遗传变异图。,自然447 161-165。
[13] Eilers,P.H.C.和de Menezes,R.X.(2005)。阵列CGH数据的分位数平滑。,生物信息学21 1146-1153。
[14] Engel,E.(2006)。对单亲双生子中染色体拯救的痴迷:孟德尔隐性违法和压印版权侵权。,《欧洲遗传学杂志》。14 1158-1169.
[15] Freeman,J.L.、Perry,G.H.、Feuk,L.、Redon,R.、McCarroll,S.A.、Altshuler,D.M.、Aburatani,H.、Jones,K.W.、Tyler-Smith,C.、Hurles,M.E.、Carter,N.P.、Scherer,S.W.和Lee,C.(2006)。拷贝数变异:基因组多样性的新见解。,基因组研究16 949-961。
[16] Fridlyand,J.、Snijders,A.、Pinkel,D.、Albertson,D.和Jain,A.(2004)。阵列CGH数据分析的隐马尔可夫模型方法。,《多元分析杂志》。90 132-153. ·Zbl 1047.92026号 ·doi:10.1016/j.jmva.2004.02.008
[17] Guha,S.、Li,Y.和Neuberg,D.(2006)。,阵列CGH数据的贝叶斯隐马尔可夫建模。伯克利电子出版社·Zbl 1469.62368号
[18] Houseman,E.A.、Coull,B.A.和Betensky,R.A.(2006年)。基因组数据的特征特定惩罚潜在类别分析。,生物统计学62 1062-1070·Zbl 1116.62120号 ·doi:10.1111/j.1541-0420.2006.00566.x
[19] Hsu,L.、Self,S.G.、Grove,D.、Randolph,T.、Wang,K.、Delrow,J.J.、Loo,L.和Porter,P.(2005)。基于阵列的比较基因组杂交数据的小波去噪。,生物统计学6 211-226·Zbl 1071.62104号 ·doi:10.1093/biostatistics/kxi004
[20] Hua,J.、Craig,D.W.、Brun,M.、Webster,J.,Zismann,V.、Tembe,W.、Joshipura,K.、Huentelman,M.J.、Dougherty,E.R.和Stephan,D.A.(2007)。SNiPer HD:通过高密度SNP阵列的期望最大化算法提高了基因型调用的准确性。,生物信息学23 57-63。
[21] Huang,J.、Wei,W.、Chen,J.和Zhang,J.,Liu,G.,Di,X.、Mei,R.、Ishikawa,S.、Aburatani,H.、Jones,K.W.和Shapero,M.H.(2006年)。CARAT:一种使用高密度寡核苷酸阵列检测DNA拷贝数变化等位基因的新方法。,BMC生物信息学7 83。
[22] Huang,T.、Wu,B.、Lizardi,P.和Zhao,H.(2005)。使用惩罚最小二乘回归检测DNA拷贝数变化。,生物信息学21 3811-3817。
[23] Hupe,P.、Stransky,N.、Thiery,J.P.、Radvanyi,F.和Barillot,E.(2004)。阵列CGH数据分析:从信号比率到DNA区域的增益和损耗。,生物信息学20 3413-3422。
[24] Kennedy,G.C.、Matsuzaki,H.、Dong,S.、min Liu,W.、Huang,J.、Liu,G.、Su,X.、Cao,M.、Chen,W.和Z.、Liu、W.、Yang,G.,Di,X.Ryder,T.、He,Z.、Surti,U.、Phillips,M.S.、Boyce-Jacino,M.T.、Fodor,S.A.和Jones,K.W.(2003)。复杂DNA的大规模基因分型。,自然生物技术。21 1233-1237.
[25] Laframboise,T.、Harrington,D.和Weir,B.A.(2006年)。PLASQ:一种基于广义线性模型的程序,用于根据SNP阵列数据确定癌细胞中的等位基因剂量。,生物统计学8 323-326·Zbl 1144.62098号 ·doi:10.1093/biostatistics/kxl012
[26] Lai,W.R.、Johnson,M.D.、Kucherlapati,R.和Park,P.J.(2005)。阵列CGH数据中放大和删除识别算法的比较分析。,生物信息学21 3763-3770。
[27] Lai,Y.和Zhao,H.(2005)。使用基于SNP阵列的CGH数据检测DNA拷贝数变化的染色体区域的统计方法。,计算。生物化学。29 47-54. ·Zbl 1095.92054号 ·doi:10.1016/j.compbiochem.2004年12月04日
[28] Lin,M.,Wei,L.J.,Sellers,W.R.,Lieberfarb,M,Wong,W.H.和Li,C.(2004)。dChipSNP:基于SNP阵列的异相丢失数据的显著性曲线和聚类。,生物信息学20 1233-1240。
[29] McClellan,J.M.、Susser,E.和King,M.C.(2007年)。精神分裂症:一种由多个罕见等位基因引起的常见疾病。,英国精神病学杂志190 194-199。
[30] Nannya,Y.,Sanada,M.,Nakazaki,K.,Hosoya,N.,Wang,L.,Hangaishi,A.,Kurokawa,M..,Chiba,S.,Bailey,D.K.,Kennedy,G.C.和Ogawa,S.(2005)。使用高密度寡核苷酸单核苷酸多态性基因分型阵列检测拷贝数的稳健算法。,癌症研究65 6071-6079。
[31] Newton,M.A.、Gould,M.N.、Reznikoff,C.A.和Haag,J.D.(1998)。关于等位基因缺失数据的统计分析。,《医学总汇》第17卷第1425-1445页。
[32] Ninomiya H.、Nomura K.、Satoh Y.、Okumura S.、Nakagawa K.、Fujiwara M.、Tsuchiya E.和Ishikawa Y.(2006年)。肺癌的遗传不稳定性:染色体、微卫星和微卫星不稳定性及杂合性丢失的同步分析。,英国癌症杂志94 1485-1491。
[33] Olshen,A.B.、Venkatraman,E.S.、Lucito,R.和Wigler,M.(2004)。用于分析基于阵列的DNA拷贝数数据的循环二进制分割。,生物统计学5 557-572·Zbl 1155.62478号 ·doi:10.1093/biostatistics/kxh008
[34] Picard,F.、Robin,S.、Lavielle,M.、Vaisse,C.和Daudin,J.J.(2005)。阵列CGH数据分析的统计方法。,BMC生物信息学6 1471-2105。
[35] Rabbee,N.和Speed,T.P.(2006)。affymetrix SNP阵列的基因型调用算法。,生物信息学22 7-12。
[36] Rabiner,L.R.(1989)。关于隐藏马尔可夫模型和语音识别中的选定应用的教程。,程序。IEEE 77 257-286标准。
[37] Redon,R.,Ishikawa,S.,Fitch,K.R.,Feuk,L.,Perry,G.H.,Andrews,T.D.,Fiegler,H.,Shapero,M.H.,Carson,A.R.,Chen,W.,Cho,E.K.,Dallaire,S..,Freeman,J.L.,Gonzalez,J.R.,Gratacos,M.,Huang,J.,Kalaitzopoulos,D.,Komura。,Somerville,M.J.、Tchinda,J.、Valsesia,A.、Woodwark,C.、Yang,F.、Zhang,J.,Zerjal,T.,Zhang、J.、Armengol,L.、Conrad,D.F.、Estivill,X.、Tyler-Smith,C.、Carter,N.P.、Aburatani,H.、Lee,C.、Jones,K.W.、Scherer,S.W.和Hurles,M.E.(2006年)。人类基因组拷贝数的全球变异。,自然444 444-454。
[38] 罗宾逊,W.P.(2000)。导致单亲双生子障碍的机制及其临床后果。,传记22 452-459。
[39] Scharpf,R.B.、Ting,J.C.、Pevsner,J.和Ruczinski,I.(2007年)。SNP芯片:SNP阵列数据的R类和方法。,生物信息学23 627-628。
[40] Sebat,J.、Lakshmi,B.、Malhotra,D.、Troge,J.,Lese-Martin,C.、Walsh,T.、Yamrom,B.、Yoon,S.、Krasnitz,A.、Kendall,J.和Leotta,A.、Pai,D.,Zhang,R.、Lee,Y.H.、Hicks,J.。,M。C.、Skuse,D.、Geschwind,D.H.、Gilliam,T.C.、Ye,K.和Wigler,M.(2007年)。新拷贝数突变与自闭症的密切关联。,科学316 445-449。
[41] Shah,S.P.、Xuan,X.、DeLeeuw,R.J.、Khojasteh,M.、Lam,W.L.、Ng,R.和Murphy,K.P.(2006年)。使用稳健HMM将拷贝数多态性整合到阵列CGH分析中,生物信息学22 e431-e439。
[42] Shaw-Smith,C.、Redon,R.、Rickman,L.、Rio,M.、Willatt,L.和Fiegler,H.、Firth,H.和Sanlaville,D.、Winter,R.和Colleaux,L.,Bobrow,M.以及Carter,N.P.(2004)。基于微阵列的比较基因组杂交(array-CGH)检测学习障碍/精神发育迟滞和畸形患者的亚显微染色体缺失和重复。,医学遗传学杂志。41 241-248.
[43] Szatmari,P.、Paterson,A.D.、Zwaigenbaum,L.、Roberts,W.、Brian,J.、Liu,X.Q.、Vincent,J.B.、Skaug,J.L.、Thompson,A.P.、Senman,L.、Feuk,L.、Qian,C.、Bryson,S.E.、Jones,M.B.、Marshall,C.R.、Scherer,S.W.、Vieland,V.J.、Bartlett,C.、Mangin,L.V.、Goedken,R.、Segre,A.、Pericak Vance,M.A.、Cuccaro,M.L.、Gilbert,J.R。,Wright,H.H.,Abramson,R.K.,Betancur,C.,Bourgeron,T.,Gillberg,C.,Leboyer,M.,Buxbaum,J.D.,Davis,K.L.,Hollander,E.,Silverman,J.M.,Hallmayer,J.,Lotspeich。N.,Gilliam,T.C.,Herbert,M.,Lajonchere,C.,Ledbetter,D.H.,Lese-Martin,C.,Miller,J.,Nelson,S.,Samango-Sprouse,C.A.,Spence,S.、State,M.、Tanzi,R.E.,Coon,H.,Dawson,G.,Devlin,B.,Estes,A.,Flodman,P.,Klei,L.,McMahon,W.M.,Minshew,N.,Munson,M.A.、Stodgell,C.、Tepper,P.G.、Wijsman,E.M.、Yu,C.E.、Roge,B.、Mantoulan,C.、Wittemeyer,K.、Poustka,A.、Felder,B.、Klauck,S.M.、Schuster,C.、Poustca,F.、Bolt,S.、Feineis-Matthews,S.,Herbrecht,E.、Schmotzer,G.、Tsiantis,J.、Papanikolaou,K.,Maestrini,E.、Bacchelli,E.、Blasi,F.,Carone,S.和Toma,C.、Van Engeland,H.、。,de Jonge,M.、Kemner,C.、Koop,F.、Langemeijer,M.,Hijimans,C.、Staal,W.G.、Baird,G.、Bolton,P.F.、Rutter,M.L.、Weisblatt,E.、Green,J.、Aldred,C.、Wilkinson,J.A.、Pickles,A.、Le Couteur,A.、Berney,T.、McConachie,H.、Bailey,A.J.、Francis,K.、Honeyman,G.,Hutchinson,A.、Parr,J.R.、Wallace,S.、Monaco,A.P.、Barnby,G。,Kobayashi,K.、Lamb,J.A.、Sousa,I.、Sykes,N.、Cook,E.H.、Guter,S.J.、Leventhal,B.L.、Salt,J.、Lord,C.、Corsello,C.、Hus,V.、Weeks,D.E.、Volkmar,F.、Tauber,M.、Fombonne,E.和Shih,A.(2007年)。利用遗传连锁和染色体重排绘制孤独症风险基因座。,自然遗传学。39 319-328.
[44] Ting,J.、Ye,Y.、Thomas,G.、Ruczinski,I.和Pevsner,J.(2006)。利用SNPscan分析和显示SNP数据中的染色体异常。,BMC生物信息学7 25。
[45] Venkatraman,E.S.和Olshen,A.B.(2007年)。一种用于阵列CGH数据分析的快速循环二进制分割算法。,生物信息学23 657-663。
[46] Viterbi,A.(1967年)。卷积码的误差界和渐近最优解码算法。,IEEE传输。通知。理论13 260-269·Zbl 0148.40501号 ·doi:10.1109/TIT.1967.1054010
[47] Wang,P.、Kim,Y.、Pollack,J.、Narasimhan,B.和Tibshirani,R.(2005)。一种在阵列CGH数据中调用增益和损耗的方法。,生物统计学6 45-58·Zbl 1069.92014年9月 ·doi:10.1093/biostatistics/kxh017
[48] Wang,W.、Carvalho,B.、Miller,N.、Pevsner,J.、Chakravarti,A.和Irizarry,R.A.(2007年)。使用等位基因特异性混合模型估计全基因组拷贝数。在中,RECOMB 137-150·doi:10.1089/cmb.2007.0148
[49] Willenbrock,H.和Fridlyand,J.(2005)。比较研究:将分割应用于阵列CGH数据以进行下游分析。,生物信息学21 4084-4091。
[50] Zhao,X.,Li,C.,Paez,J.G.,Chin,K.,Jänne,P.A.,Chen,T.H.,Girard,L.,Minna,J.,Christiani,D.,Leo,C.,Gray,J.W.,Sellers,W.R.和Meyerson,M.(2004)。使用单核苷酸多态性阵列对癌症基因组中拷贝数和等位基因改变的综合看法。,癌症研究64 3060-3071。
[51] 周,X.,Mok。S.C.、Chen,Z.、Li,Y.和Wong,D.T.W.(2004)。使用affymetrix 10k SNP映射阵列对口腔癌前进展的杂合性缺失(loh)和拷贝数异常(cna)进行同步分析。,嗯,遗传学。115 327-330之间。
[52] Zhou,X.、Rao,N.P.、Cole,S.W.、Mok,S.C.、Chen,Z.和Wong,D.T.(2005)。利用高密度单核苷酸多态性阵列同时分析杂合性缺失和比较基因组杂交的进展。,癌症遗传学。细胞遗传学。159 53-57.
[53] Zlotogora,J.(2004)。患有常染色体隐性遗传疾病的儿童的父母并不总是各自突变等位基因的携带者。,嗯,遗传学。114 521-526.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。