×

高通量测序的全文索引。 (英语) Zbl 1457.68076号

Elloumi,Mourad(编辑),《下一代测序数据的算法》。技术、方法和应用。查姆:斯普林格。41-75 (2017).
摘要:高通量测序技术的最新进展要求新的算法在高效数据结构上工作,这些数据结构专门用于分析大量序列数据。本章描述了这种称为全文索引的数据结构,以表示给定文本(或文本集合)中包含的所有子字符串(或达到一定长度的子字符串)。
关于整个系列,请参见[Zbl 1383.68005号].

MSC公司:

68第05页 数据结构
68瓦32 字符串上的算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abouelhoda,M.,Kurtz,S.,Ohlebusch,E.:用增强的后缀数组替换后缀树。J.离散算法2,53-86(2004)·Zbl 1115.92303号 ·doi:10.1016/S1570-8667(03)00065-0
[2] Adheroh,D.,Bell,T.,Mukherjee,A.:Burrows-Wheeler变换:数据压缩、后缀数组和模式匹配。施普林格科学与商业媒体,柏林(2008)·数字对象标识代码:10.1007/978-0-387-78909-5
[3] Arlazarov,V.,Dinic,E.,Kronrod,M.,Faradzev,I.:关于有向图传递闭包的经济构造。多克。阿卡德。Nauk 11,194(1970)·Zbl 0214.23601号
[4] Bauer,M.J.,Cox,A.J.,Rosone,G.,Sciortino,M.:下一代测序数据集的轻量级LCP构建。摘自:《生物信息学中的算法》,第326-337页。施普林格,柏林(2012)·Zbl 1370.68338号
[5] Bauer,M.J.,Cox,A.J.,Rosone,G.:构造和反转字符串集合bwt的轻量级算法。西奥。计算。科学。483, 134-148 (2013) ·Zbl 1292.68176号 ·doi:10.1016/j.tcs.2012.02
[6] Burkhardt,S.,Kärkkäinen,J.:使用间隙q-grams进行更好的过滤。基金。通知。56(1,2), 51-70 (2003) ·Zbl 1031.68092号
[7] Burkhardt,S.,Crauser,A.,Ferragina,P.,Lenhof,H.P.,Rivals,E.,Vingron,M.:使用后缀数组进行基于q-gram的数据库搜索。摘自:第三届国际计算分子生物学年会论文集(RECOMB-99),第77-83页(1999)
[8] Burrows,M.,Wheeler,D.J.:一种块分类无损数据压缩算法。技术报告124,数字SRC研究报告(1994)
[9] Cazaux,B.,Lecroq,T.,Rivals,E.:从索引数据结构到de Bruijn图。摘自:组合模式匹配,第89-99页。柏林施普林格出版社(2014)·兹比尔1407.68107
[10] Cormen,T.H.,Leiserson,C.E.,Rivest,R.L.,Stein,C.:算法导论。麻省理工学院,剑桥,马萨诸塞州(2001)·Zbl 1047.68161号
[11] Crochemore,M.、Grossi,R.、Kärkkäinen,J.、Landau,G.M.:计算Burrows-Wheeler变换的基于常量空间比较的算法。摘自:组合模式匹配,第74-82页。柏林施普林格出版社(2013)·Zbl 1381.68313号
[12] Döring,A.,Weese,D.,Rausch,T.,Reinert,K.:SeqA是用于序列分析的高效通用C++库。BMC生物信息。9, 11 (2008) ·doi:10.1186/1471-2105-9-11
[13] Emde,A.K.,Grunert,M.,Weese,D.,Reinert,K.,Sperling,S.R.:MicroRazerS:小RNA读取的快速校准。生物信息学26(1),123-124(2010)·doi:10.1093/bioinformatics/btp601
[14] Emde,A.K.,Schulz,M.H.,Weese,D.,Sun,R.,Vingron,M.,Kalscheuer,V.M.,Haas,S.A.,Reinert,K.:使用splazers检测单端和双端测序数据中具有准确断点的基因组indel变体。生物信息学28(5),619-627(2012)·doi:10.1093/生物信息系统/bts019
[15] Farach-Colton,M.,Ferragina,P.,Muthukrishnan,S.:关于后缀树结构的排序复杂性。J.ACM 47(6),987-1011(2000)·Zbl 1094.68694号 ·数字对象标识代码:10.1145/355541.355547
[16] Faro,S.,Lecroq,T.:准确的在线字符串匹配问题:最新结果综述。ACM计算。调查。45(2), 13 (2013) ·Zbl 1293.68314号 ·doi:10.1145/2431211.2431212
[17] Ferragina,P.,Manzini,G.:压缩文本索引。J.ACM 52(4),552-581(2005)·Zbl 1323.68261号 ·doi:10.1145/1082036.1082039
[18] Ferragina,P.,Gagie,T.,Manzini,G.:外部存储器中的轻量级数据索引和压缩。Algorithmica算法63(3),707-730(2012)·Zbl 1241.68062号 ·doi:10.1007/s00453-011-9535-0
[19] Galil,Z.,Giancarlo,R.:近似字符串匹配的数据结构和算法。J.复杂性4(1),33-72(1988)·Zbl 0646.68078号 ·doi:10.1016/0885-064X(88)90008-8
[20] Giegerich,R.,Kurtz,S.:祈使后缀树结构和纯功能后缀树结构的比较。科学。计算。程序。25, 187-218 (1995) ·Zbl 0853.68100号 ·doi:10.1016/0167-6423(95)00003-8
[21] Giegerich,R.,Kurtz,S.,Stoye,J.:惰性后缀树的高效实现。柔和。实际。实验33(11),1035-1049(2003)·doi:10.1002/spe.535
[22] Gog,S.,Beller,T.,Moffat,A.,Petri,M.:从理论到实践:使用简洁的数据结构即插即用。摘自:实验算法,第326-337页。柏林施普林格出版社(2014)
[23] Grossi,R.,Vitter,J.S.:压缩后缀数组和后缀树,用于文本索引和字符串匹配。SIAM J.计算。35(2), 378-407 (2005) ·Zbl 1092.68115号 ·doi:10.1137/S0097539702402354
[24] Grossi,R.、Gupta,A.、Vitter,J.S.:高阶熵压缩文本索引。摘自:第14届ACM-SIAM离散算法年会论文集,SODA'03,第841-850页。宾夕法尼亚州费城工业和应用数学学会(2003年)·Zbl 1092.68584号
[25] Gusfield,D.:字符串、树和序列的算法:计算机科学和计算生物学。剑桥大学出版社,纽约(1997)·Zbl 0934.68103号 ·doi:10.1017/CBO9780511574931
[26] 汉明,R.W.:错误检测和纠错代码。系统。《技术期刊》29,147-160(1950)·Zbl 1402.94084号 ·doi:10.1002/j.1538-7305.1950.tb00463.x
[27] Hon,W.K.,Lam,T.W.,Sadakane,K.,Sung,W.K,Yiu,S.M.:构建压缩后缀数组的高效时空算法。《算法》48(1),23-36(2007)·Zbl 1123.68137号 ·doi:10.1007/s00453-006-1228-8
[28] 英特尔:英特尔^®64和IA-32体系结构优化参考手册。英特尔公司,加利福尼亚州圣克拉拉(2011)
[29] Jacobson,G.:节省空间的静态树和图。摘自:1989年第30届计算机科学基础年会,第549-554页。IEEE,纽约(1989)
[30] Kasai,T.,Lee,G.,Arimura,H.,Arikawa,S.,Park,K.:后缀数组中的线性时间最长公共前缀计算及其应用。摘自:第十二届组合模式匹配年度研讨会论文集,CPM'01,第181-192页。施普林格,柏林(2001)·Zbl 0990.68639号
[31] Kehr,B.、Weese,D.、Reinert,K.:恒星:快速准确的局部对准。BMC生物信息。12(补遗9),S15(2011)·doi:10.1186/1471-2105-12-S9-S15
[32] Langmead,B.,Trapnell,C.,Pop,M.,Salzberg,S.:短DNA序列与人类基因组的超快和记忆效率比对。基因组生物学。10(3),R25(2009)·doi:10.1186/gb-2009-10-3-r25
[33] Li,H.,Durbin,R.:使用burrows-wheeler变换快速准确地进行短读对齐。生物信息学25(14),1754-1760(2009)·doi:10.1093/bioinformatics/btp324
[34] Li,H.、Handsaker,B.、Wysoker,A.、Fennell,T.、Ruan,J.、Homer,N.、Marth,G.、Abecasis,G.和Durbin,R.,1000基因组项目数据处理子组:序列比对/地图格式和SAMtools。生物信息学25(16),2078-2079(2009)·doi:10.1093/bioinformatics/btp352
[35] Louza,F.A.,Telles,G.P.,Ciferri,C.D.D.A.:外部存储器广义后缀和LCP数组构造。摘自:组合模式匹配,第201-210页。柏林施普林格出版社(2013)·Zbl 1381.68072号
[36] Manber,U.,Myers,E.:后缀数组:在线字符串搜索的新方法。载于:《美国职业道德规范》90,第319-327页。SIAM,费城(1990)·Zbl 0800.68364号
[37] Manber,U.,Myers,E.:后缀数组:在线字符串搜索的新方法。SIAM J.计算。22(5), 935-948 (1993) ·Zbl 0784.68027号 ·doi:10.1137/0222058
[38] Mantaci,S.,Restivo,A.,Rosone,G.,Sciortino,M.:Burrows-Wheeler变换的扩展。西奥。计算。科学。387(3), 298-312 (2007) ·Zbl 1144.68024号 ·doi:10.1016/j.tcs.2007.07.014
[39] Manzini,G.:对Burrows-Wheeler变换的分析。J.ACM 48(3),407-430(2001)·Zbl 1323.68262号 ·doi:10.1145/382780.382782
[40] McCreight,E.M.:一种空间经济后缀树构造算法。J.ACM 23(2),262-272(1976)·Zbl 0329.68042号 ·数字对象标识代码:10.1145/321941.321946
[41] Morrison,D.R.:Patricia–检索字母数字编码信息的实用算法。J.ACM 15(4),514-534(1968)·数字对象标识代码:10.1145/321479.321481
[42] Navarro,G.,Mäkinen,V.:压缩全文索引。ACM计算。调查。39(1), 2:1-2:61 (2007) ·Zbl 1321.68263号
[43] Ohlebusch,E.:生物信息学算法:序列分析、基因组重排和系统发育重建。不来梅Oldenbusch(2013)·Zbl 1295.92011年
[44] Puglishi,S.,Smyth,W.,Turpin,A.:后缀数组构造算法的分类。摘自:Holub,J.(编辑)《2005年布拉格弦学会议论文集》,布拉格,第1-30页(2005)
[45] Rausch,T.、Emde,A.K.、Weese,D.、Döring,A.、Notredame,C.、Reinert,K.:基于分段的多序列比对。生物信息学24(16),i187-192(2008)·doi:10.1093/bioinformatics/btn281
[46] Rausch,T.、Koren,S.、Denisov,G.、Weese,D.、Emde,A.K.、Döring,A.、Reinert,K.:一种基于一致性的共识算法,用于从头开始和引用引导的短读序列组装。生物信息学25(9),1118-1124(2009)·doi:10.1093/bioinformatics/btp131
[47] Schulz,M.H.,Weese,D.,Rausch,T.,Döring,A.,Reinert,K.,Vingron,M.:快速自适应变阶马尔可夫链构造。收录:Crandall,K.,Lagergren,J.(编辑)《生物信息学中的算法》。《计算机科学讲义》,第5251卷,第306-317页。柏林施普林格出版社(2008)·doi:10.1007/978-3-540-87361-7_26
[48] Schulz,M.H.、Weese,D.、Holtgrewe,M.、Dimitrova,V.、Niu,S.、Reinert,K.、Richard,H.:Fiona:一种并行和自动的读取错误纠正策略。生物信息学30(17),i356-i363(2014)·doi:10.1093/bioinformatics/btu440
[49] Shi,F.:多字符串后缀数组:一种在线多字符串搜索方法。收录:Jaffar,J.、Yap,R.(编辑)《并发与并行、编程、网络与安全》。计算机科学课堂讲稿,第1179卷,第11-22页。施普林格,柏林(1996)。DOI 10.1007/BFb0027775。http://dx.doi.org/10.1007/BFb0027775 ·doi:10.1007/BFb0027775
[50] Simpson,J.T.,Durbin,R.:使用压缩数据结构高效从头组装大基因组。基因组研究22(3),549-556(2012)·doi:10.1101/gr.126953.111
[51] Sirausa,E.:高通量测序的近似字符串匹配。柏林弗雷大学博士论文(2015)
[52] Sirausa,E.、Weese,D.、Reinert,K.:使用近似种子和多重回溯快速准确地读取地图。《核酸研究》41(7),e78(2013)·doi:10.1093/nar/gkt005
[53] Sirausa,E.,Weese,D.,Reinert,K.:具有近似种子和多重回溯的可伸缩字符串相似性搜索/连接。载于:《2013年EDBT/ICDT联合研讨会论文集》,第370-374页。ACM,纽约(2013)
[54] Ukkonen,E.:后缀树上的近似字符串匹配。摘自:组合模式匹配,第228-242页。柏林施普林格(1993)
[55] Ukkonen,E.:后缀树的在线构造。《算法》14(3),249-260(1995)·Zbl 0831.68027号 ·doi:10.1007/BF01206331
[56] Weese,D.:高通量测序中的指标和应用。柏林弗雷大学博士论文(2013)
[57] Weese,D.,Schulz,M.H.:通过延迟频率索引在约束条件下进行高效字符串挖掘。摘自:《第八届数据挖掘工业会议论文集》(ICDM’08)。LNAI,第5077卷,第374-388页。柏林施普林格出版社(2008)
[58] 韦纳,P。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。