×

外显子组测序数据中CNV检测的读取计数建模。 (英语) Zbl 1296.92049号

小结:染色体上高通量测序读取的深度不同,使得观察样本中相对于参考物的拷贝数变异(CNV)成为可能。在外显子组和其他靶向测序项目中,技术因素增加了读取深度的变化,同时减少了观察位置的数量,增加了识别CNV的困难。我们提出了一种隐马尔可夫模型,用于从原始读取计数数据中检测CNV,该模型使用控制集的背景读取深度以及其他位置协变量(如GC含量)。将exomeCopy模型应用于大型X染色体外显子组测序项目,以识别大型独特CNV的列表。然后使用来自公开可用外显子组测序数据的跨平台控制集恢复模型预测并经实验验证的CNV。仿真表明,检测杂合和纯合CNV的灵敏度很高,优于标准化和最先进的分割方法。

MSC公司:

92B15号机组 普通生物统计学
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 1000基因组项目联合会(2010年):“群体规模测序的人类基因组变异图”,《自然》,467,1061-1073。;
[2] Alkan,C.、J.M.Kidd、T.Marques-Bonet、G.Aksay、F.Antonacci、F.Hormozdiari、J.O.Kitzman、C.Baker、M.Malig、O.Mutlu、S.C.Sahinalp、R.A.Gibbs和E.E.Eichler(2009):“使用下一代测序的个性化拷贝数和片段重复图”,《自然遗传学》,41,1061-1067。;
[3] Anders,S.和W.Huber(2010):“序列计数数据的差异表达分析”,基因组生物学,11,R106+。;
[4] Benjamini,Y.和T.P.Speed(2011):“高通量测序中GC含量偏差的估计和校正”,加州大学伯克利分校技术报告。;
[5] Bliss,C.I.和R.A.Fisher(1953):“将负二项分布拟合到生物数据”,《生物计量学》,第9期。;
[6] Boeva,V.、A.Zinovyev、K.Bleakley、J.-P.Vert、I.Janoueix-Lerosey、O.Delatter和E.Barillot(2011年):“使用GC含量标准化,在深度排序数据中无控制调用拷贝数变化”,生物信息学,27,268-269。;
[7] 坎贝尔、P.J.、P.J·斯蒂芬斯、E.D.普莱森斯、S.O’Meara、H.Li、T.桑塔利斯、L.A.斯特宾斯、C.勒罗伊、S.埃德金斯、C.哈迪、J.W.提格、A.孟席斯、I.古德黑德、D.J.特纳、C.M.克莱、M.A.奎尔、A.考克斯、C.布朗、R.杜宾、M.E.赫尔斯、P.A.W.爱德华兹、G.R.比涅尔、M.R.斯特拉顿和P.A.未来(2008):“利用全基因组大规模平行配对测序鉴定癌症中的体获得性重排”,《自然遗传学》,40722-729。;
[8] 2020-01-09 02:34:23Chiang,D.Y.,G.Getz,D.B.Jaffe,M.J.T.O'Kelly,X.Zhao,S.L.Carter,C.Russ,C.Nusbaum,M.Meyerson,and E.S.Lander(2008):“利用大规模平行测序对拷贝数变化进行高分辨率映射”《自然方法》,6,99-103http://gateway.webofknowledge.com/gateway/gateway.cgi?GWVersion=2&amp;SrcApp=合作伙伴_APP&amp;SrcAuth=LinksAMR&amp;键UT=000262370200032&amp;DestLinkType=FullRecord&amp;DestApp=ALL_WOS&amp;UsrCustomerID=b7bc2757938ac7a7a821505f8243d9f3</pub-id><pub-id pub-id type=“pmid”>19043412</pub-id></mixed-citation>;
[9] Conrad,D.F.,D.Pinto,R.Redon,L.Feuk,O.Gokcumen,Y.Zhang,J.Aerts,T.D.Andrews,C.Barnes,P.Campbell,T.Fitzgerald,M.Hu,C.H.Ihm,K.Kristianson,D.G.MacArthur,J.R.MacDonald,I.Onyiah,A.W.Pang,S.Robson,K.Stirrups。Hurles(2010):“人类基因组拷贝数变异的起源和功能影响”,《自然》,464704-712。;
[10] Fridlyand,J.(2004):“阵列CGH数据分析的隐马尔可夫模型方法”,《多元分析杂志》,90,132-153·Zbl 1047.92026号
[11] 绅士,R.,V.Carey,D.Bates,B.Bolstad,M.Dettling,S.Dudoit,B.Ellis,L.Gautier,Y.Ge,J.Gentry,K.Hornik,T.Hothorn,W.Huber,S.Iacus,R.Irizarry,F.Leich,C.Li,M.Maechler,A.Rossini,G.Sawitzki,C.Smith,G.Smyth,L.Tierney,J.Yang,J.Zhang(2004):《生物导体:计算生物学和生物信息学的开放软件开发》,《基因组生物学》,5,R80+。;
[12] Glessner,J.T.,K.Wang,G.Cai,O.Korvatska,C.E.Kim,S.Wood,H.Zhang,A.Estes,C.W.Brune,J.P.Bradfield,M.Imielinski,E.C.Frackelton,J.Reichert,E.L.Crawford,J.Munson,P.M.A.Sleiman,R.Chiavacci,K.Annaiah,K.Thomas。阿纳格诺斯托、T.樱井、R.M.加梅、D.S.陆克文、D.Zurawiecki、C.J.麦克道尔、L.K.戴维斯、J.米勒、D.J.波西、S.迈克尔斯、A.科莱夫松、J.M.西尔弗曼、R.伯尼尔、S.E.利维、R.T.舒尔茨、G.道森、T.奥利、W.M.麦克马洪、T.H.瓦辛克、J.A.斯威尼、J.I.纽伦伯格、H.库恩、J.S.苏克利夫、N.J.明休、S.F.A.格兰特、M.布坎,E.H.Cook、J.D.Buxbaum、B.Devlin、G.D.Schellenberg和H.Hakonarson(2009):“自闭症全基因组拷贝数变化揭示了泛素和神经元基因”,《自然》,459569-573。;
[13] Gonzalez,E.、H.Kulkarni、H.Bolivar、A.Mangano、R.Sanchez、G.Catano、R.J.Nibbs、B.I.Freedman、M.P.Quinones、M.J.Bamshad、K.K.Murthy、B.H.Rovin、W.Bradley、R.A.Clark、S.A.Anderson、R.J.O'Connell、B.K.Agan、S.S.Ahuja、R.Bologna、L.Sen、M.J.Dolan和S.K.Ahuja(2005):“CCL3L1基因片段重复对HIV-1/AIDS易感性的影响”,《科学》,3071434-1440。;
[14] 2020-01-09 02:34:23Harismendy,O.,P.Ng,R.Strausberg,X.Wang,T.Stockwell,K.Beeson,N.Schork,S.Murray,E.Topol,S.Levy,and K.Frazer(2009):“针对人群测序研究的下一代测序平台评估”<italic>基因组生物学</italic>,10,R32+<pub-id pub-id type=“doi”>10.1186/gb-2009-10-3-r32http://gateway.webofknowledge.com/gateway/gateway.cgi?GWVersion=2&amp;SrcApp=合作伙伴_APP&amp;SrcAuth=LinksAMR&amp;键UT=000266544500012&amp;DestLinkType=FullRecord&amp;DestApp=ALL_WOS&amp;UsrCustomerID=b7bc2757938ac7a7a821505f8243d9f3; ·doi:10.1186/gb-2009-10-3-r32
[15] Hedges,D.J.,T.Guettouche,S.Yang,G.Bademci,A.Diaz,A.Andersen,W.F.Hulme,S.Linker,A.Mehta,Y.J.K.Edwards,G.W.Beecham,E.R.Martin,M.A.Pericak-Vance,S.Zuchner,J.M.Vance,J.R.Gilbert(2011):“SOLiD测序平台上三种目标富集策略的比较”,《公共科学图书馆·综合》,6,e18595+。;
[16] Herman,D.S.、G.K.Hovingh、O.Iartchouk、H.L.Rehm、R.Kucherlapati、J.G.Seidman和C.E.Seidman(2009):“基于过滤器的亚基因杂交捕获可实现重测序和拷贝数检测。”《自然方法》,6507-510。;
[17] Ivakhno,S.、T.Royce、A.J.Cox、D.J.Evers、R.K.Cheetham和S.Tavaré(2010):“CNAsega从第二代测序数据中识别癌症拷贝数变化的新框架”,生物信息学,26,3051-3058。;
[18] Kleinjan,D.-J.和V.van Heyningen(1998):“人类遗传病中的位置效应”,《人类分子遗传学》,第7期,1611-1618页。;
[19] Li,Y.,N.Vinckenbosch,G.Tian,E.Huerta-Sanchez,T.Jiang,H.Jing,A.Albrechtsen,G.Andersen,H.Cao,T.Korneliussen,N.Grarup,Y.Guo,I.Hellman,X.Jin,Q.Li,J.Liu,X.Liu,T.Sparso,M.Tang,H.Wu,R.Wu,H.Yang、J.Wang、T.Hansen、O.Pedersen、R.Nielsen和J.Wang2010年:“对200个人类外显子进行重复测序可识别出过多的低频非同义编码变体”,《自然遗传学》,42,969-972。;
[20] Madrigal,I.、L.Rodríguez-Revinga、L.Armengol、E.González、B.Rodriguez、C.Badenas、A.Sánchez、F.Martínez、M.Guitat、I.Fernández、J.A.Arranz、M.Tejada、L.A.Pérez-Jurado、X.Estivill和M.Milá(2007):“X染色体连锁精神发育迟滞患者中拷贝数变异的X染色体拼接路径阵列检测”BMC基因组学,8443+。;
[21] Marioni,J.C.、N.P.Thorne和S.Tavaré(2006):“生物HMM:用于分割阵列CGH数据的异构隐马尔可夫模型”,《生物信息学》,第22期,第1144-1146页。;
[22] 梅德韦杰夫、P.、M.斯坦丘和M.布鲁德诺(2009):“利用下一代测序发现结构变化的计算方法”,《自然方法》,第6期,S13-S20。;
[23] 2020-01-09 02:34:23Miller,C.A.,O.Hampton,C.Coarfa和A.Milosavljevic(2011):“ReadDepth:检测短序列读取中拷贝数变化的并行R包”,《公共科学图书馆·综合》,6,e16327+<pub-id pub-id type=“汤姆森ISI”>http://gateway.webofknowledge.com/gateway/gateway.cgi?GWVersion=2&amp;SrcApp=合作伙伴_APP&amp;SrcAuth=LinksAMR&amp;键UT=000286834300050&amp;DestLinkType=FullRecord&amp;DestApp=ALL_WOS&amp;UsrCustomerID=b7bc2757938ac7a7a821505f8243d9f3</pub-id><pub-id pub-id type=“doi”>10.1371/journal.pone.0016327</pub-id></mixed-citation>; ·doi:10.1371/journal.pone.0016327
[24] Nord,A.、M.Lee、M.C.King和T.Walsh(2011):“从靶向高通量序列数据中准确鉴定CNV”,BMC Genomics,12184+。;
[25] O'Roak,B.J.,P.Deriziotis,C.Lee,L.Vives,J.J.Schwartz,S.Girirajan,E.Karakoc,A.P.MacKenzie,S.B.Ng,C.Baker,M.J.Rieder,D.A.Nickerson,R.Bernier,S.E.Fisher,J.Shendure,and E.Eichler(2011):“散发性自闭症谱系障碍的外显子序列确定了严重的从头突变”,《自然遗传学》,43, 585-589.;
[26] Pang,A.、J.MacDonald、D.Pinto、J.Wei、M.Rafiq、D.Conrad、H.Park、M.Hurles、C.Lee、J.C.Venter、E.Kirkness、S.Levy、L.Feuk和S.Scherer(2010):“建立一个完整的人类个体基因组结构变异图,”基因组生物学,11,R52+。;
[27] 普鲁伊特·K·D、J·哈罗、R·A·哈特、C·沃林、M·迪肯斯、D·R·马格洛特、S·塞尔、C·M·法雷尔、J·E·洛夫兰、B·J·鲁夫、E·哈特,M·M·苏纳、M·J·朗德鲁姆、B·阿肯、S·艾灵、R·拜尔施、J·费尔南德斯·巴内特、J·L·切里、V·科尔文、M·狄库乔、M·凯利斯、J·李、M·F·林、M·舒斯特、A·什凯达、C·阿米德、G·布朗、O·杜卡尼娜,A.Frankish、J.Hart、B.L.Maidak、J.Mudge、M.R.Murphy、T.Murph、J.Rajan、B.Rajput、L.D.Riddick、C.Snow、C.Steward、D.Webb、J.A.Weber、L.Wilming、W.W.Wu、E.Birney、D.Haussler、T.Hubbard、J.Ostell、R.Durbin和D.Lipman(2009):“共识编码序列(CCDS)项目:为人类和小鼠基因组识别一个共同的蛋白质编码基因集。”基因组研究,191316-1323。;
[28] R开发核心团队(2011):R:统计计算的语言和环境,R统计计算基金会,奥地利维也纳。;
[29] Rabiner,L.R.(1989):“语音识别中隐藏马尔可夫模型和选定应用的教程”,《IEEE学报》,77,257-286。;
[30] Robinson,M.D.、D.J.McCarthy和G.K.Smyth(2010):“edgeR:数字基因表达数据差异表达分析的生物导体包”。生物信息学(英国牛津),26,139-140。;
[31] Sathirapongsasuti,J.F.,H.Lee,B.A.Horst,G.Brunner,A.J.Cochran,S.Binder,J.Quackenbush和S.F.Nelson(2011):“基于外显子序列的拷贝数变异和杂合性检测丢失:外显子CNV。”生物信息学(英国牛津)。;
[32] 2020-01-09 02:34:23<mixed-citation><milestone-end/><milestone-start rational=“page”content-type=“28”/>Sebat,J.、B.Lakshmi、D.Malhotra、J.Troge、C.Lese-Martin、T.Walsh、B.Yamrom、S.Yoon、A.Krasnitz、J.Kendall、A.Leotta、D.Pai、R.Zhang、Y.-H.Lee、J.Hicks、S.J.Spence、A.T.Lee、K.Puura、T.Lehtimäki、D.Ledbetter、P.K.Gregersen、J。Bregman,J.S.Sutcliffe,V.Jobanputra,W.Chung,D.Warburton,M.-C.C.King,D.Skuse,D.H.Geschwind,T.C.Gilliam,K.Ye和M.Wigler(2007):“新拷贝数突变与自闭症的强关联。”<italic>《科学》(纽约,纽约)</italic>,316445-449。<pub-id-pub-id-type=“ThomsonISI”>http://gateway.webofknowledge.com/gateway/gateway.cgi?GWVersion=2&amp;SrcApp=合作伙伴_APP&amp;SrcAuth=LinksAMR&amp;键UT=000245813400056&amp;DestLinkType=FullRecord&amp;DestApp=ALL_WOS&amp;UsrCustomerID=b7bc2757938ac7a7a821505f8243d9f3;
[33] Shen,J.J.和N.R.Zhang(2011):“非均匀泊松过程的变点模型及其在下一代DNA测序拷贝数分析中的应用”,斯坦福大学生物统计系技术报告。;
[34] St Clair,D.(2009):“拷贝数变异与精神分裂症”,《精神分裂症公报》,第35期,第9-12页。;
[35] Venkatraman,E.S.和A.B.Olshen(2007):“用于阵列CGH数据分析的快速循环二进制分割算法”,生物信息学,23,657-663。;
[36] Weese,D.,A.-K.Emde,T.Rausch,A.Döring,and K.Reinert(2009):“RazerSfast read mapping with sensitivity control”,《基因组研究》,第19期,第1646-1654页。;
[37] Xie,C.和M.Tammi(2009):“CNV-seq,一种使用高通量测序检测拷贝数变化的新方法”,BMC生物信息学,10,80+。;
[38] Yoon,S.、Z.Xuan、V.Makarov、K.Ye和J.Sebat(2009):“使用读取覆盖深度敏感准确地检测拷贝数变体”,《基因组研究》,第19期,第1586-1592页。;
[39] Zhang,J.,L.Feuk,G.E.Duggan,R.Khaja,and S.W.Scherer(2006):“用于显示和分析人类基因组中拷贝数和其他结构变体的生物信息学资源的开发”,《细胞遗传学和基因组研究》,115,205-214。;
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。