纳迪亚·本·恩西拉;蒂埃里·勒克罗克;穆拉德·埃卢米 索引高度相似DNA序列的算法。 (英语) Zbl 1457.68332号 Elloumi,Mourad(编辑),《下一代测序数据的算法》。技术、方法和应用。查姆:斯普林格。3-39(2017年)。 摘要:数字数据的可用性每天都以非凡的方式增长。这是由高通量新技术产生的DNA序列的情况下一代排序(NGS)。因此,有可能对生物体的几个基因组进行测序,并进行一个项目(http://www.1000genomes.org)现在提供大约2500个人类基因组(序列超过30亿个字符(A、C、G、T))。有关整个系列,请参见[Zbl 1383.68005号]. MSC公司: 68瓦32 字符串上的算法 92D20型 蛋白质序列,DNA序列 软件:巴特里西亚 PDF格式BibTeX公司 XML格式引用 \textit{N.Ben-Nsira}等人,in:下一代测序数据的算法。技术、方法和应用。查姆:斯普林格。3--39(2017;Zbl 1457.68332) 全文: 内政部 参考文献: [1] Aho,A.V.,Corasick,M.J.:高效字符串匹配:书目搜索的辅助工具。Commun公司。ACM 18(6),333-340(1975)·Zbl 0301.68048号 ·doi:10.1145/360825.360855 [2] Alatabbi,A.,Barton,C.,Iliopoulos,C.S.,Mouchard,L.:通过二进制编码和字级操作查询高度相似的结构化序列。收录于:Iliadis,L.S.、Maglogiannis,I.、Papadopoulos,H.、Karatzas,K.、Sioutas,S.(编辑)《人工智能应用与创新国际研讨会论文集》,AIAI 2012,第二部分。IFIP《信息和通信技术进展》,第382卷,第584-592页。查姆施普林格(2012) [3] Apostolico,A.:子词树的无数优点。收录:Apostolico,A.,Galil,Z.(编辑)《单词组合算法》。北约高级科学研究所丛书,第12卷,第85-96页。柏林施普林格(1985)·Zbl 0572.68067号 ·doi:10.1007/978-3-642-82456-26 [4] Arroyuelo,D.,Navarro,G.,Sadakane,K.:减少LZ索引的空间需求。收录:Lewenstein,M.,Valiente,G.(编辑)《第17届组合模式匹配年度研讨会论文集》,CPM 2006,巴塞罗那。计算机科学课堂讲稿,第4009卷,第318-329页。施普林格,柏林(2006)·Zbl 1196.68076号 [5] Bell,T.、Cleary,J.G.、Witten,I.H.:文本压缩。Prentice Hall,Upper Saddle River(1990年) [6] Blumer,A.、Blumer、J.、Haussler,D.、Ehrenfeucht,A.、Chen,M.-T、Seiferas,J.:识别文本子单词的最小自动化。西奥。计算。科学。40, 31-55 (1985) ·Zbl 0574.68070号 ·doi:10.1016/0304-3975(85)90157-4 [7] Blumer,A.、Blumer、J.、Haussler,D.、McConnell,R.、Ehrenfeucht,A.:高效文本检索和分析的完整反转文件。J.ACM 34(3),578-595(1987)·Zbl 1433.68118号 ·电话:10.1145/28869.28873 [8] Burrows,M.,Wheeler,D.J.:一种块分类无损数据压缩算法。技术报告124,数字SRC研究(1994) [9] Cover,T.M.,Thomas,J.A.:信息理论的要素。霍博肯·威利(2012)·Zbl 1140.94001号 [10] Crochemore,M.,Lecroq,T.:《数据库系统百科全书》,第3179-3182页。斯普林格,海德堡(2009)·Zbl 1183.68252号 [11] Crochemore,M.,Rytter,W.:文本算法。牛津大学出版社,牛津(1994)·Zbl 0844.68101号 [12] Crochemore,M.,Vérin,R.:关于紧有向非循环词图。收录:Mycielski,J.、Rozenberg,G.、Salomaa,A.(编辑)《逻辑与计算机科学结构》。纪念安德烈·埃伦菲希特的论文选集。计算机科学讲义,第1261卷,第192-211页。柏林施普林格(1997) [13] Do,H.H.,Jansson,J.,Sadakane,K.,Sung,W.-K.:类似序列的快速相对Lempel-Ziv自我指数。收录于:Snoeyink,J.、Lu,P.、Su,K.、Wang,L.(编辑)《信息和管理中算法和算法方面的边界联合国际会议论文集》,一汽-美国运通2012年,北京。计算机科学课堂讲稿,第7285卷,第291-302页。柏林施普林格出版社(2012)·Zbl 1304.68045号 [14] Farach,M.:大字母的最佳后缀树结构。摘自:第38届计算机科学基础年度研讨会论文集,FOCS 1997,佛罗里达州迈阿密海滩,第137-143页(1997) [15] Farach-Colton,M.,Ferragina,P.,Muthukrishnan,S.:关于后缀树结构的排序复杂性。J.ACM 47(6),987-1011(2000)·Zbl 1094.68694号 ·数字对象标识代码:10.1145/355541.355547 [16] Ferragina,P.,Manzini,G.:机会数据结构与应用。摘自:第41届计算机科学基础年会,FOCS 2000,加利福尼亚州雷东多海滩,第390-398页(2000) [17] Ferragina,P.,Manzini,G.:机会主义指数的实验研究。摘自:第十二届ACM-SIAM离散算法年会论文集,SODA 2001,华盛顿特区,第269-278页。费城工业和应用数学学会(2001年)·Zbl 1002.68519号 [18] Ferragina,P.,Manzini,G.:压缩文本索引。J.ACM 52(4),552-581(2005)·Zbl 1323.68261号 ·doi:10.1145/1082036.1082039 [19] Ferragina,P.,Manzini,G.,Veli,M.,Navarro,G.:一种字母友好的形式-index。收录:Apostolico,A.,Melucci,M.(编辑)第11届字符串处理和信息检索国际会议论文集,SPIRE 2004,帕多瓦。计算机科学课堂讲稿,第3246卷,第150-160页。施普林格,柏林(2004)·Zbl 1111.68429号 [20] Ferragina,P.,Manzini,G.,Mäkinen,V.,Navarro,G.:序列和全文索引的压缩表示。ACM事务处理。算法3(2),20(2007)·Zbl 1321.68263号 ·数字对象标识代码:10.1145/1240233.1240243 [21] Grossi,R.,Vitter,J.S.:压缩后缀数组和后缀树,用于文本索引和字符串匹配(扩展抽象)。载于:Yao,F.F.,Luks,E.M.(编辑)《第32届ACM计算理论年度研讨会论文集》,STOC 2000,俄勒冈州波特兰,第397-406页(2000)·Zbl 1296.68035号 [22] Grossi,R.,Vitter,J.S.:压缩后缀数组和后缀树,用于文本索引和字符串匹配。SIAM J.计算。35(2),378-407(2005)·Zbl 1092.68115号 ·doi:10.1137/S0097539702402354 [23] Grossi,R.、Gupta,A.、Vitter,J.S.:高阶熵压缩文本索引。摘自:第14届ACM-SIAM离散算法年会论文集,SODA 2003,马里兰州巴尔的摩,第841-850页(2003)·Zbl 1092.68584号 [24] Grossi,R.、Gupta,A.、Vitter,J.S.:当索引等于压缩时:压缩后缀数组和应用程序的实验。摘自:第15届ACM-SIAM离散算法年会论文集,SODA 2004,新奥尔良,LA,第636-645页。费城工业和应用数学学会(2004)·Zbl 1318.68079号 [25] 古斯菲尔德:《字符串、树和序列的算法:计算机科学和计算生物学》。剑桥大学出版社,剑桥(1997)·Zbl 0934.68103号 ·doi:10.1017/CBO9780511574931 [26] Holub,J.,Crochemore,M.:关于紧凑DAWG的实施。收录于:Champarnaud,J.-M.,Maurel,D.(编辑)《第七届自动化实现和应用国际会议论文集》,CIAA 2002,修订论文,图尔斯。计算机科学课堂讲稿,第2608卷,第289-294页。柏林施普林格出版社(2003)·Zbl 1033.68551号 [27] Huang,S.,Lam,T.W.,Sung,W.-K,Tam,S.-L.,Yiu,S.-M:索引相似的DNA序列。参见:Chen,B.(编辑)《第六届信息与管理算法问题国际会议论文集》,AAIM 2010,威海。计算机科学讲义,第6124卷,第180-190页。柏林施普林格出版社(2010年)·Zbl 1286.68110号 [28] Inenaga,S.,Hoshino,H.,Shinohara,A.,Takeda,M.,Arikawa,S..,Mauri,G.,Pavesi,G.:紧有向非循环词图的在线构造。收录:Lewenstein,M.,Valiente,G.(编辑)《第17届组合模式匹配年度研讨会论文集》,CPM 2006,巴塞罗那。计算机科学课堂讲稿,第4009卷,第169-180页。施普林格,柏林(2006)·Zbl 1084.68137号 [29] Itoh,H.,Tanaka,H.:一种在内存中构造后缀数组的有效方法。摘自:1999年字符串处理和信息检索研讨会论文集和群件国际研讨会,第81-88页(1999) [30] Kärkkäinen,J.,Sanders,P.:简单线性工作后缀数组构造。收录人:Baeten,J.C.M.,Lenstra,J.K.,Parrow,J.,Woeginger,G.J.(编辑)《第30届国际自动化、语言和编程学术研讨会论文集》,ICALP 2003,埃因霍温。《计算机科学讲义》,第2719卷,第943-955页。柏林施普林格出版社(2003)·Zbl 1039.68042号 [31] Kärkkäinen,J.,Ukkonen,E.:用于字符串匹配的Lempel-Ziv解析和次线性大小索引结构。收录:第三届南美弦乐处理研讨会(WSP)会议记录。Citeser(1996) [32] Kim,D.K.,Sim,J.S.,Park,H.,Park,K.:后缀数组的线性时间构造。收录于:Baeza-Yates,R.A.,Chávez,E.,Crochemore,M.(编辑)第14届组合模式匹配年度研讨会论文集,CPM 2003,Morelia,Michocán。计算机科学讲义,第2676卷,第186-199页。柏林施普林格出版社(2003)·Zbl 1279.68068号 [33] Ko,P.,Aluru,S.:后缀数组的空间有效线性时间构造。收录于:Baeza-Yates,R.A.,Chávez,E.,Crochemore,M.(编辑)第14届组合模式匹配年度研讨会论文集,CPM 2003,Morelia,Michocán。计算机科学讲义,第2676卷,第200-210页。柏林施普林格出版社(2003)·Zbl 1279.68069号 [34] Kurtz,S.:减少后缀树的空间需求。柔和-实际。专家。29(13), 1149-1171 (1999) ·doi:10.1002/(SICI)1097-024X(199911)29:13<1149::AID-SPE274>3.0.CO;2-O型 [35] Kuruppu,S.、Puglishi,S.J.、Zobel,J.:基因组的相对Lempel-Ziv压缩,用于大规模存储和检索。收录:查韦斯,E.,Lonardi,S.(eds.)《第17届字符串处理和信息检索国际研讨会论文集》,SPIRE 2010,Los Cabos。计算机科学课堂讲稿,第6393卷,第201-206页。柏林施普林格出版社(2010年)·Zbl 1397.68073号 [36] Larsson,N.J.,Sadakane,K.:更快的后缀排序。西奥。计算。科学。387(3), 258-272 (2007) ·Zbl 1144.68022号 ·doi:10.1016/j.tcs.2007.07.17 [37] Lempel,A.,Ziv,J.:关于有限序列的复杂性。IEEE传输。Inf.理论22(1),75-81(1976)·Zbl 0337.94013号 ·doi:10.1109/TIT.1976.1055501 [38] Mäkinen,V.:紧凑后缀数组——一种节省空间的全文索引。芬丹。通知。56(1-2), 191-210 (2003) ·Zbl 1031.68053号 [39] Mäkinen,V.,Navarro,G.:压缩压缩后缀数组。收录于:Sahinalp,S.C.、Muthukrishnan,S.、Dogrusöz,U.(编辑)《第十五届组合模式匹配年度研讨会论文集》,CPM 2004,伊斯坦布尔。计算机科学课堂讲稿,第3109卷,第420-433页。施普林格,柏林(2004)·兹比尔1103.68481 [40] Mäkinen,V.,Navarro,G.:简洁后缀数组的新搜索算法和时间/空间权衡。赫尔辛基大学技术报告C-2004-20(2004) [41] Mäkinen,V.,Navarro,G.:基于运行长度编码的简洁后缀数组。北欧J.计算。12(1), 40-66 (2005) ·Zbl 1085.68031号 [42] Manber,U.,Myers,G.:后缀数组:在线字符串搜索的新方法。SIAM J.计算。22(5), 935-948 (1993) ·Zbl 0784.68027号 ·doi:10.1137/0222058 [43] Maniscalco,M.A.,Puglisi,S.J.:更快的轻量级后缀数组构建。摘自:《第17届澳大利亚组合算法研讨会论文集》,艾尔斯·洛克,乌鲁鲁,第16-29页(2006) [44] Manzini,G.,Ferragina,P.:设计轻量级后缀数组构造算法。《算法》40(1),33-50(2004)·Zbl 1082.68867号 ·doi:10.1007/s00453-004-1094-1 [45] McCreight,E.D.:一种空间经济后缀树构造算法。J.ACM 23(2),262-272(1976)·Zbl 0329.68042号 ·数字对象标识代码:10.1145/321941.321946 [46] Morrison,D.:检索字母数字编码信息的帕特里夏算法。J.ACM 15(4),514-534(1968)·数字对象标识代码:10.1145/321479.321481 [47] Na,J.C.、Park,H.、Crochemore,M.、Holub,J.、Iliopoulos,C.S.、Mouchard,L.、Park、K.:排列后缀树:类似数据的有效索引。收录于:Lecroq,T.,Mouchard,L.(编辑)《第24届组合算法国际研讨会论文集》,IWOCA 2013,鲁昂。计算机科学讲义,第8288卷。柏林施普林格出版社(2013)·兹比尔1407.68115 [48] Na,J.C.、Park,H.、Lee,S.、Hong,M.、Lecroq,T.、Mouchard,L.、Park、K.:排列后缀数组:类似数据的实用索引。摘自:Oren Kurland,M.L.,Porat,E.(eds.)《第20届字符串处理和信息检索国际研讨会论文集》,2013年,耶路撒冷。计算机科学课堂讲稿,第8214卷,第243-254页。柏林施普林格出版社(2013) [49] Navarro,G.:使用Ziv-Lempel trie索引文本。In:Laender,A.H.F.,Oliveira,A.L.(eds.)《第九届字符串处理和信息检索国际研讨会论文集》,SPIRE 2002,里斯本。计算机科学课堂讲稿,第2476卷,第325-336页。柏林施普林格出版社(2002年) [50] Navarro,G.,Mäkinen,V.:压缩全文索引。ACM计算。Surv公司。39(1), 2 (2007) ·Zbl 1321.68263号 ·doi:10.145/1216370.1216372 [51] Nekrich,Y.:线性和近似线性空间中的正交范围搜索。摘自:Dehne,F.K.H.A.,Sack,J.-R.,Zeh,N.(编辑)《第十届算法和数据结构国际研讨会论文集》,WADS 2007,Halifax。计算机科学课堂讲稿,第4619卷,第15-26页。柏林施普林格出版社(2007)·Zbl 1209.68162号 [52] Procházka,P.,Holub,J.:使用FM-index压缩类似的生物序列。收录于:Bilgin,A.,Marcellin,M.W.,Serra-Sagristá,J.,Storer,J.A.(编辑)数据压缩会议,DCC 2014,雪鸟,UT,2014年3月26日至28日,第312-321页。IEEE,纽约(2014) [53] Puglishi,S.J.、Smyth,W.F.、Turpin,A.H.:后缀数组构造算法的分类。ACM计算。Surv公司。39(2), 4 (2007) ·doi:10.145/1242471.1242472 [54] Rytter,W.:Lempel-Ziv因子分解在基于语法的压缩近似中的应用。西奥。计算。科学。302(1), 211-222 (2003) ·Zbl 1051.68088号 ·doi:10.1016/S0304-3975(02)00777-6 [55] Sadakane,K.:压缩后缀数组的新文本索引功能。《算法杂志》48(2),294-313(2003)·Zbl 1100.68563号 ·doi:10.1016/S0196-6774(03)00087-7 [56] Schürmann,K.-B.,Stoye,J.:快速后缀数组构造的复合算法。摘自:Demetrescu,C.,Sedgewick,R.,Tamassia,R.(编辑)《第七届算法工程与实验研讨会论文集》和《第二届分析算法与组合数学研讨会论文集,ALENEX/ANALCO 2005,不列颠哥伦比亚省温哥华,第77-85页。SIAM,费城(2005) [57] Sirén,J.、Välimäki,n.、Mäkinen,V.、Navarro,G.:Run-length压缩指数对于高度重复的序列集合来说更为优越。摘自:Amir,A.、Turpin,A.、Moffat,A.(编辑)第15届字符串处理和信息检索国际研讨会论文集,2008年SPIRE,墨尔本。计算机科学讲义,第5280卷,第164-175页。柏林施普林格出版社(2008)·Zbl 1345.68124号 [58] Ukkonen,E.:后缀树的在线构造。算法14(3),249-260(1995)·Zbl 0831.68027号 ·doi:10.1007/BF01206331 [59] Ukkonen,E.,Wood,D.:带有后缀自动机的近似字符串匹配。算法10(5),353-364(1993)·Zbl 0779.68038号 ·doi:10.1007/BF01769703 [60] 韦纳,P。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。