沈,卡罗尔;沈,托尼;林,吉米 NGS数据对准算法的比较评估:特点、考虑因素、实现和未来。 (英语) Zbl 1457.68339号 Elloumi,Mourad(编辑),《下一代测序数据的算法》。技术、方法和应用。查姆:斯普林格。187-202 (2017). 摘要:由于大规模并行测序使用较短读数的性质,为比对而开发的算法对广泛采用下一代排序(NGS)。在为不同目的开发各种不同算法方面取得了很大进展。研究人员现在能够将敏感高效的比对算法用于多种应用,包括全基因组变异研究、定量RNA-seq表达分析、二级RNA结构研究、微RNA发现、使用ChIP-sequencing识别蛋白质结合位点、,识别组蛋白修饰模式用于表观遗传学研究,同时对齐多个基因组用于比较基因组学,以及组装从头开始的基因组和转录组。在临床环境中,与参考基因组的比对导致了病原体的快速发现、罕见遗传病致病突变的识别、肿瘤基因组中染色体异常的检测,以及其他许多同样依赖于快速且经济高效的全基因组测序的进步。有关整个系列,请参见[Zbl 1383.68005号]. MSC公司: 68瓦32 字符串上的算法 92D10型 遗传学和表观遗传学 92D20型 蛋白质序列,DNA序列 软件:虾;香皂;图案猎人;BSMAP公司;BS搜索器;MapSplice(贴图拼接);HIVE-六边形;俾斯麦;BWA公司;蝴蝶结2;PSAR对齐;苏格拉底;STAR公司;CAP miR序列;BatMeth公司;帕什;CUSHAW公司;MAP-RSeq地图 PDF格式BibTeX公司 XML格式引用 \textit{C.Shen}等人,in:下一代测序数据的算法。技术、方法和应用。查姆:斯普林格。187-202(2017;Zbl 1457.68339) 全文: 内政部 参考文献: [1] Dalca,A.V.,Brudno,M.:利用高通量测序数据发现基因组变异。简介。生物信息。11(1), 3-14 (2010) ·doi:10.1093/bib/bbp058 [2] Engstrom,P.G.等人:RNA-seq数据拼接比对程序的系统评估。自然方法。10(12), 1185-1191 (2013) ·doi:10.1038/nmeth.2722 [3] Zhong,C.,Zhang,S.:使用稀疏动态编程实现RNA二级结构的高效对齐。BMC生物信息学。14, 269 (2013) ·doi:10.1186/1471-2105-14-269 [4] Sun,Z.等人:CAP miRSeq:一种用于微小RNA测序数据的综合分析管道。BMC基因组学。15, 423 (2014) ·doi:10.1186/1471-2164-15-423 [5] Johnson,D.S.等人:体内蛋白质-DNA相互作用的全基因组绘图。科学。316(5830), 1497-1502 (2007) ·doi:10.1126/科学.1141319 [6] Hong,C.等人:概率比对提高了亚硫酸氢盐测序数据的准确性和读取覆盖率。BMC生物信息学。14337(2013)·doi:10.1186/1471-2105-14-337 [7] Kim,J.,Ma,J.:PSAR-align:使用概率抽样改进多序列比对。生物信息学。30(7), 1010-1012 (2014) ·doi:10.1093/bioinformatics/btt636 [8] Li,R.等人:利用大规模并行短阅读测序进行人类基因组的从头组装。基因组研究20(2),265-272(2010)·doi:10.10101克/克097261.109 [9] Naccache,S.N.等人:云兼容生物信息学管道,用于从下一代临床样本测序中快速识别病原体。基因组研究24(7),1180-1192(2014)·doi:10.1101/gr.171934.113 [10] Ng,B.G.等:UDP-半乳糖转运蛋白SLC35A2的嵌合体导致先天性糖基化障碍。Am.J.Hum.遗传学。92(4), 632-636 (2013) ·doi:10.1016/j.ajhg.2013.03.012 [11] Green,R.C.等人:探索从临床测序中返回偶然发现的一致性和不一致性。遗传学。《医学杂志》第14卷(4期),第405-410页(2012年)·doi:10.1038/gim.2012.21 [12] Goh,V.等:下一代测序有助于诊断患有闪烁突变导致胆汁淤积性肝衰竭的儿童。《儿科杂志》。胃肠病学。螺母。54(2), 291-294 (2012) ·doi:10.1097/MPG.0b013e318227e53c [13] Schroder,J.等人:苏格拉底:通过重新对齐软剪裁读取来识别肿瘤基因组中的基因组重排。生物信息学。30(8), 1064-1072 (2014) ·doi:10.1093/bioinformatics/btt767 [14] Rizzo,J.M.,Buck,M.J.:“下一代”DNA测序的关键原理和临床应用。癌症预防。研究(菲律宾)5(7),887-900(2012)·doi:10.1158/1940-6207.CAPR-11-0432 [15] Shang,J.等人:下一代测序数据分析中多重比对仪的评估和比较。生物识别。2014年第16号国际研究报告(2014年)·doi:10.1155/2014/309650 [16] Metzker,M.L.:测序技术——下一代。Genet国家牧师。11(1), 31-46 (2010) ·doi:10.1038/nrg2626 [17] 兰德,E.S.:人类基因组测序的初步影响。自然。470(7333), 187-197 (2011) ·doi:10.1038/nature09792 [18] Li,H.,Homer,N.:下一代测序的序列比对算法调查。简介。生物信息。11(5),473-483(2010)·doi:10.1093/bib/bbq015 [19] Li,R.等:SOAP2:一种改进的超快工具,用于短阅读对齐。生物信息学。25(15), 1966-1967 (2009) ·doi:10.1093/bioinformatics/btp336 [20] Margulies,M.等人:微细加工高密度微石反应器中的基因组测序。自然。437(7057), 376-380 (2005) [21] David,M.等人:《SHRiMP2:敏感但实用的短读映射》。生物信息学。27(7), 1011-1012 (2011) ·doi:10.1093/bioinformatics/btr046 [22] Li,H.,Durbin,R.:使用Burrows-Wheeler变换进行快速准确的短读对齐。生物信息学。25(14), 1754-1760 (2009) ·doi:10.1093/bioinformatics/btp324 [23] Langmead,B.,Trapnell,C.,Pop,M.,Salzberg,S.:短DNA序列与人类基因组的超快和记忆效率比对。基因组生物学。10(3),R25(2009)·doi:10.1186/gb-2009-10-3-r25 [24] Bentley,D.R.等人:使用可逆终止剂化学进行准确的全人类基因组测序。自然。456(7218), 53-59 (2008) ·doi:10.1038/nature07517 [25] Smith,A.D.,Xuan,Z.,Zhang,M.Q.:使用质量分数和更长的读取时间可以提高Solexa读取映射的准确性。BMC生物信息学。9(128), 128 (2008) ·doi:10.1186/1471-2105-9-128 [26] Hoffmann,S.等人:使用索引结构快速映射具有不匹配、插入和删除的短序列。PLoS计算机。生物学5(9),e1000502(2009)·doi:10.1371/journal.pcbi.1000502 [27] Ondov,B.D.等人:应用生物系统SOLiD序列数据到功能基因组应用参考基因组的有效映射。生物信息学。24(23), 2776-2777 (2008) ·doi:10.1093/bioinformatics/btn512 [28] Kim,D.等人:TopHat2:在存在插入、缺失和基因融合的情况下精确对齐转录组。基因组生物学。14(4),R36(2013)·doi:10.1186/gb-2013-14-4-r36 [29] Rothberg,J.M.等人:一种实现非光学基因组测序的集成半导体器件。自然。475(7356), 348-352 (2011) ·doi:10.1038/nature10242 [30] Quail,M.A.等人:三个下一代测序平台的故事:离子激流、太平洋生物科学和Illumina MiSeq测序器的比较。BMC基因组学。13, 341 (2012) ·doi:10.1186/1471-2164-13-341 [31] Novocraft Technologies:Novoalign 2014年6月30日。可从以下位置获得:http://www.novocraft.com/main/index.php (2014). 2014年9月20日访问 [32] Langmead,B.,Salzberg,S.L.:与Bowtie 2进行快速定距对准。自然方法。9(4), 357-359 (2012) ·doi:10.1038/nmeth.1923 [33] Otto,C.,Stadler,P.F.,Hoffmann,S.:缺乏对齐?新一代测序绘图器segemehl再次出现。生物信息学。1837-1843年(2014年)·doi:10.1093/bioinformatics/btu146 [34] Caboche,S.等人:高通量测序中使用的映射算法的比较:应用于Ion Torrent数据。BMC基因组学。15, 264 (2014) ·doi:10.1186/1471-2164-15-264 [35] Altschul,S.F.、Gish,W.、Miller,W.,Myers,E.W.、Lipman,D.J.:基本局部对齐搜索工具。分子生物学杂志。215(3), 8 (1990) ·doi:10.1016/S0022-2836(05)80360-2 [36] Smith,T.F.,Waterman,M.S.:常见分子子序列的识别。分子生物学杂志。147(1), 195-197 (1981) ·doi:10.1016/0022-2836(81)90087-5 [37] Ma,B.,Tromp,J.,Li,M.:PatternHunter:更快、更敏感的同源搜索。生物信息学。18(3), 440-445 (2002) ·doi:10.1093/bioinformatics/18.3.440 [38] Ruffalo,M.、LaFramboise,T.、Koyutürk,M.:下一代序列读取对齐算法的比较分析。生物信息学。27(20), 2790-2796 (2011) ·doi:10.1093/bioinformatics/btr477 [39] Cao,X.,Cheng,L.S.,Tung,A.K.H.:使用q-Grams索引DNA序列。DASFAA,《计算机科学讲义》,第3453卷:第13页(2005年) [40] Weese,D.等人:带灵敏度控制的RazerS-快速读取映射。基因组研究19(9),1646-1654(2009)·doi:10.1101/gr.088823.108 [41] Ferragina,P.,Manzini,G.:应用的机会主义数据结构。第41届计算机科学基础研讨会论文集,美国加利福尼亚州雷东多海滩,第9页。(2000) [42] Liu,Y.,Schmidt,B.,Maskell,D.L.:CUSHAW:基于Burrows-Wheeler变换的与CUDA兼容的大基因组短读比对器。生物信息学。28(14), 1830-1837 (2012) ·doi:10.1093/生物信息学/bts276 [43] Santana-Quintro,L.等人:HIVE-hexagon:用于下一代测序数据分析的高性能并行序列比对。《公共科学图书馆·综合》。9(6),e99033(2014)·doi:10.1371/journal.pone.0099033 [44] Li,H.,Durbin,R.:使用Burrows-Wheeler变换进行快速准确的长读数对齐。生物信息学。26(5), 589-595 (2010) ·doi:10.1093/bioinformatics/btp698 [45] Lindner,R.,Friedel,C.C.:RNA序列背景下比对算法的综合评估。《公共科学图书馆·综合》。7(12),e52403(2012)·doi:10.1371/journal.pone.0052403 [46] Wu,T.D.,Nacu,S.:复杂变体的快速和SNP耐受检测以及短阅读中的剪接。生物信息学。26(7), 873-881 (2010) ·doi:10.1093/bioinformatics/btq057 [47] Wang,K.,et al.:MapSplice:精确映射RNA-seq读数以发现剪接连接。核酸研究38(18),e178(2010)·doi:10.1093/nar/gkq622 [48] Dobin,A.等人:STAR:超快速通用RNA-seq对准器。生物信息学。29(1), 15-21 (2013) ·doi:10.1093/bioinformatics/bts635 [49] Kertesz,M.等人:酵母中RNA二级结构的全基因组测量。自然。467(7311), 103-107 (2010) ·doi:10.1038/nature09322 [50] Underwood,J.G.等人:FragSeq:使用高通量测序进行转录组宽RNA结构探测。自然方法。7(12), 995-1001 (2010) ·doi:10.1038/nmeth.1529 [51] Lucks,J.B.等人:通过引物延伸测序分析选择性2’-羟基酰化的多重RNA结构特征(SHAPE-Seq)。程序。国家。阿卡德。科学。《美国参考》108(27),11063-11068(2011)·doi:10.1073/pnas.1106501108 [52] Zhang,K.,Shasha,D.:树之间编辑距离的简单快速算法和相关问题。SIAM J.计算。18, 1245-1262 (1989) ·Zbl 0692.68047号 ·数字对象标识代码:10.1137/0218082 [53] Jiang,T.,Wang,L.,Zhang,K.:树对齐-树编辑的替代方法。西奥。计算。科学。143, 137-148 (1995) ·Zbl 0873.68150号 ·doi:10.1016/0304-3975(95)80029-9 [54] Hochsmann,M.,Toller,T.,Giergerich,R.,Kurtz,S.:RNA二级结构的局部相似性。摘自:《第二届IEEE计算机学会生物信息学会议论文集》,华盛顿特区,(2003年)。第159-168页 [55] Li,Y.等人:用于microRNA深度测序数据分析的软件工具的性能比较和评估。《核酸研究》40(10),4298-4305(2012)·doi:10.1093/nar/gks043 [56] Krueger,F.,Andrews,S.R.:Bismark:用于亚硫酸氢盐-Seq应用的灵活对准剂和甲基化调用者。生物信息学。27(11), 1571-1572 (2011) ·doi:10.1093/bioinformatics/btr167 [57] Xi,Y.,Li,W.:BSMAP:全基因组亚硫酸氢盐序列MAPping程序。BMC生物信息学。10232(2009年)·doi:10.1186/1471-2105-10-232 [58] Coarfa,C.等人:Pash 3.0:使用大规模并行DNA测序对基因组和表观基因组变异进行读取映射和综合分析的通用软件包。BMC生物信息学。11, 572 (2010) ·doi:10.1186/1471-2105-11-572 [59] Lim,J.Q.等:BatMeth:改进的亚硫酸氢盐测序绘图器读取DNA甲基化。基因组生物学。13(10),R82(2012)·doi:10.1186/gb-2012-13-10-r82 [60] Chen,P.Y.,Cokus,S.J.,Pellegrini,M.:BS Seeker:亚硫酸氢盐测序的精确映射。BMC生物信息学。11, 203 (2010) ·数字对象标识代码:10.1186/1471-2105-11-203 [61] Kunde-Ramamoorthy,G.等人:全基因组亚硫酸氢盐测序映射算法的比较和定量验证。《核酸研究》42(6),e43(2014)·doi:10.1093/nar/gkt1325 [62] Schatz,M.C.,Langmead,B.,Salzberg,S.L.:云计算和DNA数据竞赛。自然生物技术。28(7), 691-693 (2010) ·doi:10.1038/nbt0710-691 [63] Maji,R.K.,et al.:PVT:加速下一代序列分析的有效计算程序。BMC生物信息学。15, 167 (2014) ·doi:10.1186/1471-2105-15-167 [64] Onsongo,G.等人:在临床实验室中实现基于云的下一代测序数据分析。BMC研究注释。7, 314 (2014) ·doi:10.1186/1756-0500-7-314 [65] Reid,J.G.等人:将基因组学引入云端:部署下一代序列分析管道Mercury。BMC生物信息学。15(1), 30 (2014) ·doi:10.1186/1471-2105-15-30 [66] Oldach,L.:爱迪科基因组首次销售NGS处理器。In:生物信息技术世界,剑桥健康技术研究所,2014 [67] Kalari,K.R.等人:MAP-RSeq:RNA测序的梅奥分析管道。BMC生物信息学。15(1), 224 (2014) ·doi:10.1186/1471-2105-15-224 [68] Chin,C.-S.等人:从长期读取的SMRT测序数据中获得的非杂交、成品微生物基因组组合。自然方法。10(6), 563-569 (2013) ·doi:10.1038/nmeth.2474 [69] English,A.C.等人:小心差距:利用太平洋生物科学RS长读测序技术升级基因组。《公共科学图书馆·综合》。7(11),e47768(2012)·doi:10.1371/journal.pone.0047768 [70] Branton,D.等人:纳米孔测序的潜力和挑战。自然生物技术。26(10), 1146-1153 (2008) ·doi:10.1038/nbt.1495 [71] Laszlo,A.H.等人:解码天然DNA的长纳米孔测序读数。自然生物技术。32(8), 829-833 (2014) ·doi:10.1038/nbt.2950 [72] A.乌马特·doi:10.1093/生物信息系统/btu437 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。