×

用于在NGS数据中查找图案的字符串匹配和对齐算法。 (英语) Zbl 1457.68333号

Elloumi,Mourad(编辑),《下一代测序数据的算法》。技术、方法和应用。查姆:施普林格。235-264 (2017).
摘要:高通量下一代测序(NGS)技术的发展允许以读取的形式,即生物体基因组的短片段,以低成本大规模提取大量生物序列。NGS的出现给计算机科学家和生物信息学家带来了新的问题,导致设计了对齐和合并读取的算法,以获得高效的基因组重建。在本章中,我们将重点介绍能够快速准确地确定两个读取是否相似的方法,以及允许分析使用NGS技术提取的生物序列的方法。特别是,总结和讨论了最广泛的字符串匹配、基于对齐和无对齐算法。
关于整个系列,请参见[Zbl 1383.68005号].

MSC公司:

68瓦32 字符串上的算法
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 454-罗什。网址:http://www.454.com/
[2] pacbio读取的炫目汇编程序。http://www.homolog.us/blogs/blog/2014/02/14/dazzle-assembler-pacbio-reads-gene-myers/
[3] 伊鲁米纳。http://www.illumina.com网站/
[4] 离子激流。https://www.thermofisher.com/it/en/home/brands/ion-torrent.html
[5] 太平洋生物科学。http://www.pacb.com网站/
[6] Almeida,J.S.,Vinga,S.:任意离散序列的通用序列图(USM)。BMC生物信息。3, 6 (2002) ·doi:10.1186/1471-2105-3-6
[7] Altschul,S.F.、Gish,W.、Miller,W.,Myers,E.W.、Lipman,D.J.:基本局部对齐搜索工具。分子生物学杂志。215(3), 403-410 (1990) ·doi:10.1016/S0022-2836(05)80360-2
[8] Arora,S.,Karger,D.,Karpinski,M.:NP-hard问题稠密实例的多项式时间近似方案。摘自:第二十七届ACM计算机理论年会论文集,第284-293页。ACM,纽约(1995)·Zbl 0968.68534号
[9] Bergeron,B.P.:生物信息学计算。Prentice Hall Professional,Englewood Cliffs(2003年)
[10] Blazewicz,J.、Frohmberg,W.、Kierzynka,M.、Pesch,E.、Wojciechowski,P.:在多个GPU上具有高效回溯例程的蛋白质对齐算法。BMC生物信息。12(1),181(2011)·数字对象标识代码:10.1186/1471-2105-12-181
[11] Boyer,R.S.,Moore,J.S.:快速字符串搜索算法。Commun公司。ACM 20(10),762-772(1977)·Zbl 1219.68165号 ·doi:10.1145/359842.359859
[12] Cormen,T.H.,Leiserson,C.E.,Rivest,R.L.,Stein,C.等人:《算法导论》,第2卷。麻省理工学院出版社,剑桥(2001)·Zbl 1047.68161号
[13] 艾森斯坦,M.:序列优势之战。自然生物技术。30(11), 1023-1026 (2012) ·doi:10.1038/nbt.2412
[14] 弗雷德金:试着回忆。Commun公司。ACM 3(9),490-499(1960)·电话:10.1145/367390.367400
[15] Giancarlo,R.,Scaturro,D.,Utro,F.:计算生物学中的文本数据压缩:简介。生物信息学25(13),1575-1586(2009)·Zbl 1298.68087号 ·doi:10.1093/bioinformatics/btp117
[16] 古斯菲尔德:《字符串、树和序列的算法:计算机科学和计算生物学》。剑桥大学出版社,剑桥(1997)·Zbl 0934.68103号 ·doi:10.1017/CBO9780511574931
[17] Hide,W.,Burke,J.,da Vison,D.B.:d2的生物学评估,一种用于高性能序列比较的算法。J.计算。生物学1(3),199-215(1994)·doi:10.1089/cmb.1999.199
[18] 休谟,A.,星期日,D.:快速字符串搜索。软件:实际。实验21(11),1221-1248(1991)
[19] Jones,N.C.,Pevzner,P.:生物信息学算法简介。麻省理工学院出版社,剑桥(2004)
[20] Just,W.:SP-核多序列比对的计算复杂性。J.计算。生物学8(6),615-623(2001)·doi:10.1089/106652701753307511
[21] Karp,R.M.,Rabin,M.O.:高效随机模式匹配算法。IBM J.Res.Dev.31(2),249-260(1987)·Zbl 0653.68054号 ·doi:10.1147/rd.312.0249
[22] Kleene,S.C.:神经网络和有限自动机中事件的表示。技术代表,DTIC文件(1951年)
[23] Knuth,D.E.,Morris,J.H.Jr.,Pratt,V.R.:字符串中的快速模式匹配。SIAM J.计算。6(2), 323-350 (1977) ·Zbl 0372.68005号 ·数字对象标识代码:10.1137/0206024
[24] Kozen,D.:kleene代数和正则事件代数的完备性定理。Inf.计算。110(2), 366-390 (1994) ·Zbl 0806.68082号 ·doi:10.1006/inco.1994.1037
[25] Kuksa,P.,Pavlovic,V.:高效无对齐DNA条形码分析。BMC生物信息。10(补充14),S9(2009)。doi:10.1186/1471-2105-10-S14-S9。http://dx.doi.org/10.1186/1471-2105-10-S14-S9 ·doi:10&issue=补充。
[26] Langmead,B.,Salzberg,S.L.:与领结2的快速间隙对准。《自然科学方法》9(4),357-359(2012)·doi:10.1038/nmeth.1923年
[27] Langmead,B.,Trapnell,C.,Pop,M.,Salzberg,S.:短DNA序列与人类基因组的超快速和记忆有效比对。基因组生物学。10(3),R25(2009)·doi:10.1186/gb-2009-10-3-r25
[28] Li,H.,Durbin,R.:使用Burrows-Wheeler变换进行快速准确的短读对齐。生物信息学25(14),1754-1760(2009)·doi:10.1093/bioinformatics/btp324
[29] Li,H.,Homer,N.:下一代测序的序列比对算法调查。简介。生物信息。11(5), 473-483 (2010) ·doi:10.1093/bib/bbq015
[30] Li,M.,Vitnyi,P.M.:科尔莫戈洛夫复杂性及其应用简介,第3版。纽约施普林格出版公司(2008)·Zbl 1185.68369号 ·doi:10.1007/978-0-387-49820-1
[31] 刘,L.,李,Y.,李,S.,胡,N.,何,Y.、Pong,R.,Lin,D.,Lu,L.、Law,M.:下一代测序系统的比较。J.生物识别。生物技术。2012, 251364 (2012). doi:10.1155/2012/251364·doi:10.1155/2012/251364
[32] McCreight,E.M.:一种空间经济后缀树构造算法。J.ACM 23(2),262-272(1976)·Zbl 0329.68042号 ·数字对象标识代码:10.1145/321941.321946
[33] Metzker,M.L.:测序技术——下一代。Nat.Rev.基因。11(1), 31-46 (2010). doi:10.1038/nrg2626。http://dx.doi.org/10.1038/nrg2626 ·doi:10&doi=10.1038/nrg2626
[34] Morgenstern,B.,Frech,K.,Dress,A.,Werner,T.:对话:通过多重序列比对发现局部相似性。生物信息学14(3),290-294(1998)·doi:10.1093/生物信息学/14.3.290
[35] Needleman,S.B.,Wunsch,C.D.:适用于搜索两种蛋白质氨基酸序列相似性的通用方法。分子生物学杂志。48(3), 443-453 (1970) ·doi:10.1016/0022-2836(70)90057-4
[36] 佩夫兹纳,P.:《计算分子生物学:算法方法》。麻省理工学院出版社,剑桥(2000)·Zbl 0972.92011号
[37] Polychronopoulos,D.,Weitschek,E.,Dimitrieva,S.,Bucher,P.,Felici,G.,Almirantis,Y.:使用特征向量和基于规则的分类器对选择性约束DNA元素进行分类。基因组学104(2),79-86(2014)·doi:10.1016/j.ygeno.2014.07.004
[38] Rivest,R.L.:部分匹配检索算法。SIAM J.计算。5(1), 19-50 (1976) ·Zbl 0331.68064号 ·doi:10.1137/0205003
[39] Savel,D.M.,LaFramboise,T.,Grama,A.,Koyutürk,M.:使用错误的多种表现形式对NGS读取进行基于后缀树的纠错。载:《生物信息学、计算生物学和生物医学信息学国际会议论文集》,BCB'13,第351:351-351:358页。ACM,纽约(2013)。doi:10.1145/2506583.2506644。http://doi.acm.org/10.1145/2506583.2506644 ·doi:10.1145/2506583.2506644
[40] Setubal,J.C.,Meidanis,J.:计算分子生物学导论。PWS出版公司,波士顿(1997)
[41] Shang,J.、Zhu,F.、Vongsangnak,W.、Tang,Y.、Zhang,W.和Shen,B.:用于下一代测序数据分析的多重比对仪的评估和比较。生物识别。2014年国际研究报告(309650)(2014年)
[42] Smith,T.F.,Waterman,M.S.:常见分子子序列的识别。分子生物学杂志。147(1), 195-197 (1981) ·doi:10.1016/0022-2836(81)90087-5
[43] Sokol,D.,Benson,G.,Tojeira,J.:串联在编辑距离上重复。生物信息学23(2),e30-e35(2007)·doi:10.1093/bioinformatics/btl309
[44] Song,K.,Ren,J.,Zhai,Z.,Liu,X.,Deng,M.,Sun,F.:基于下一代测序读数的无对齐序列比较。J.计算。生物学20(2),64-79(2013)·doi:10.1089/cmb.2012.0228
[45] Sonnhammer,E.L.,Durbin,R.:适用于基因组DNA和蛋白质序列分析的具有动态阈值控制的点矩阵程序。基因167(1),GC1-GC10(1995)
[46] Stephen,G.A.:字符串搜索算法。新加坡世界科学出版公司(1994年)·Zbl 0831.68028号 ·数字对象标识代码:10.1142/2418
[47] Thompson,J.D.、Higgins,D.G.、Gibson,T.J.:CLUSTAL W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。《核酸研究》22(22),4673-4680(1994)·doi:10.1093/nar/22.22.4673
[48] Ukkonen,E.:后缀树的在线构造。《算法》14(3),249-260(1995)·Zbl 0831.68027号 ·doi:10.1007/BF01206331
[49] Vinga,S.,Almeida,J.:无对齐序列比较——综述。生物信息学19(4),513-523(2003)·doi:10.1093/bioinformatics/btg005
[50] Wang,L.,Jiang,T.:关于多重序列比对的复杂性。J.计算。生物学1(4),337-348(1994)·doi:10.1089/cmb.1994.1.337
[51] Weiner,P.:线性模式匹配算法。在:1973年第14届交换与自动机理论年度研讨会IEEE会议记录,SWAT’08,第1-11页。IEEE,纽约(1973)
[52] Weitschek,E.,Cunial,F.,Felici,G.:使用紧凑逻辑公式对k-mer频率上的细菌基因组进行分类。摘自:数据库和专家系统应用(DEXA)——第25届生物知识发现国际研讨会,第69-73页。IEEE计算机学会,华盛顿(2014)
[53] Weitschek,E.,Cunial,F.,Felici,G.:LAF:无逻辑对齐及其在细菌基因组分类中的应用。生物数据最小值8(1),1(2015)·doi:10.1186/s13040-015-0073-1
[54] 魏切克,E·doi:10.1186/1756-0500-7-869
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。