×

交替BWT:算法视角。 (英语) Zbl 1435.68087号

摘要:Burrows-Wheeler变换(BWT)是1994年为数据压缩引入的一个单词变换。它已成为设计自索引数据结构的基本工具,在科学和工程的几个领域具有重要应用。交替Burrows-Wheeler变换(ABWT)是最近引入的另一种变换[I.M.Gessel先生等,《欧洲期刊》Comb。33,第7期,1537–1546(2012年;Zbl 1244.05016号)] 并在词的组合数学领域学习。它类似于BWT,只是它使用交替的词典编纂顺序,而不是通常的顺序。基于以下方面的结果[作者,Lect.Notes Compute.Sci.11088,1-17(2018;Zbl 1436.68102号)], 在我们已经证明BWT和ABWT是一类更大的可逆变换的一部分的情况下,这里我们提供了对新变换ABWT的组合和算法研究。我们通过证明BWT和ABWT是上述类中唯一的秩可逆的,这是一个保证有效可逆性的新概念,从而在BWT与ABWT之间建立了一个深刻的类比。此外,我们还证明了后向搜索过程可以有效地推广到ABWT;这一结果表明,ABWT也可以用作高效压缩全文索引的基础。最后,我们证明了结合使用差分覆盖后缀排序算法可以有效地计算ABWT[J·Kärkkäinen等,J.ACM 53,第6期,918–936(2006;Zbl 1326.68111号)] 用线性时间算法求单词相对于交替词典编纂顺序的最小循环旋转。

MSC公司:

68页30 编码和信息理论(压缩、压缩、通信模型、编码方案等)(计算机科学方面)
68兰特 单词组合学
68瓦32 字符串上的算法

软件:

BWA公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Belazzougui,D。;Navarro,G.,表示序列的最佳上界和下界,ACM Trans。算法,11,4,第31条pp.(2015)·Zbl 1398.68103号
[2] Bonomo,S。;Mantaci,S。;Restivo,A。;Rosone,G。;Sciortino,M.,《在多集合中对单词的变位和后缀进行排序》,国际期刊《发现》。计算。科学。,25, 08, 1161-1175 (2014) ·Zbl 1310.68172号
[3] Booth,K.S.,《词典学最小循环子串》,Inf.Process。莱特。,10, 4/5, 240-242 (1980) ·Zbl 0444.68064号
[4] Burrows,M。;Wheeler,D.J.,块排序数据压缩算法(1994),数字系统研究中心,技术报告
[5] 查宾,B。;Tate,S.,通过修改排序从Burrows-Wheeler变换获得更高压缩,(DCC(1998),IEEE计算机学会),532,完整版本可从
[6] 科尔伯恩,C.J。;Ling,A.C.H.,不同覆盖的法定人数,Inf.Process。莱特。,75,1-2,9-12(2000年)·Zbl 1339.68089号
[7] 考克斯,A。;Bauer,M。;雅各比,T。;Rosone,G.,用Burrows-Wheeler变换对基因组序列数据库进行大规模压缩,生物信息学,28,11,1415-1419(2012)
[8] 考克斯·A·J。;加罗法罗,F。;Rosone,G。;Sciortino,M.,用于非常大的字符串集合的轻型LCP结构,J.Discrete。算法,37,17-33(2016)·Zbl 1362.68303号
[9] 克罗西莫尔,M。;Désarménien,J。;Perrin,D.,关于Burrows-Wheeler变换的注释,Theor。计算。科学。,332, 567-572 (2005) ·Zbl 1070.68126号
[10] Daykin,J。;Groult,R。;Guesnet,Y。;Lecroq,T.等人。;Lefebvre,A。;莱昂纳德,M。;埃利桑那州普里厄尔·加斯顿。,字符串排序及其在Burrows-Wheeler变换中的应用综述,Theor。计算。科学。(2017)
[11] Dolce,F。;Restivo,A。;Reutenauer,C.,《关于广义林登词》,Theor。计算。科学。,777, 232-242 (2019) ·Zbl 1426.68229号
[12] Duval,J.-P.,有序字母表上的分解单词,J.算法,4,4,363-381(1983)·Zbl 0532.68061号
[13] Egidi,L。;F.A.Louza。;Manzini,G。;Telles,G.P.,序列集合与应用程序的外部内存BWT和LCP计算,算法分子生物学。,第14、1条第6页(2019年)·Zbl 1494.92085号
[14] Fenwick,P.,用于块排序文本压缩的Burrows-Wheeler变换:原理和改进,计算。J.,39,9,731-740(1996)
[15] 费伦齐,S。;Zamboni,L.Q.,聚类单词和区间交换,J.整数序列。,16,2,第13.2.1条第(2013)页·Zbl 1291.68305号
[16] 费拉吉纳,P。;Giancarlo,R。;Manzini,G。;Sciortino,M.,在最佳线性时间内增强文本压缩,J.ACM,52,4,688-713(2005)·Zbl 1323.68260号
[17] 费拉吉纳,P。;Manzini,G.,《机会主义数据结构与应用》(FOCS 2000(2000),IEEE计算机学会),390-398
[18] 费拉吉纳,P。;Manzini,G.,《压缩文本索引》,美国计算机学会杂志,52,552-581(2005)·Zbl 1323.68261号
[19] 费拉吉纳,P。;尼托,I。;Venturini,R.,《关于优化文本分区以提高其压缩性》,《算法》,61,1,51-74(2011)·Zbl 1221.68302号
[20] Gagie,T。;Manzini,G。;Sirén,J.,Wheeler graphs:基于BWT的数据结构框架,Theor。计算。科学。,698, 67-78 (2017) ·兹比尔1380.68145
[21] Gessel,I.M。;Restivo,A。;Reutenauer,C.,单词和多串项链之间的双射词,《欧洲期刊》Comb。,33, 7, 1537-1546 (2012) ·Zbl 1244.05016号
[22] Gessel,I.M。;Reutenauer,C.,《给定循环结构和下降集的计数排列》,J.Comb。理论,Ser。A、 64、2、189-215(1993)·Zbl 0793.05004号
[23] Giancarlo,R。;Manzini,G。;Restivo,A。;Rosone,G。;Sciortino,M.,《基于块排序的单词转换:超越魔法BWT》,(DLT.DLT,LNCS,第11088卷(2018年),斯普林格国际出版公司),1-17·Zbl 1436.68102号
[24] Giancarlo,R。;Manzini,G。;Rosone,G。;Sciortino,M.,《一类新的可搜索和可证明的高度可压缩字符串变换》,(CPM.CPM,LIPIcs,第128卷(2019年),Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik),第12页·Zbl 1529.68095号
[25] Giancarlo,R。;Restivo,A。;Sciortino,M.,《通过组合优化从第一原理到Burrows和Wheeler变换及其以外》,Theor。计算。科学。,387, 236-248 (2007) ·Zbl 1144.68019号
[26] Gusfield,D.,《字符串、树和序列的算法——计算机科学和计算生物学》(1997),剑桥大学出版社·Zbl 0934.68103号
[27] Kärkkäinen,J。;Sanders,P.,简单线性工作后缀数组构造,(自动机,语言与编程。自动机,语言与编程,LNCS,第2719卷(2003),施普林格-柏林-海德堡),943-955·Zbl 1039.68042号
[28] Kärkkäinen,J。;桑德斯,P。;Burkhardt,S.,线性工作后缀数组构造,J.ACM,53,918-936(2006)·Zbl 1326.68111号
[29] Kimura,K。;Koike,A.,使用短读数据的Burrows-Wheeler变换进行超快速SNP分析,生物信息学,31,10,1577-1583(2015)
[30] 李,H。;Durbin,R.,《使用Burrows-Wheeler变换进行快速准确的长读数校准》,生物信息学,26,5,589-595(2010)
[31] Lothaire,M.,《单词应用组合数学》,《数学及其应用百科全书》(2005),剑桥大学出版社:剑桥大学出版社,纽约州纽约市,美国·Zbl 1133.68067号
[32] 梅基宁,V。;Belazzougui,D。;库尼亚尔,F。;Tomescu,A.I.,《基因组尺度算法设计:高通量测序时代的生物序列分析》(2015),剑桥大学出版社
[33] 曼塔奇,S。;Restivo,A。;Rosone,G。;Sciortino,M.,Burrows-Wheeler变换的扩展,Theor。计算。科学。,387, 3, 298-312 (2007) ·Zbl 1144.68024号
[34] Mantaci,S。;Restivo,A。;Rosone,G。;Sciortino,M.,《序列比较的新组合方法》,理论计算。系统。,42, 3, 411-429 (2008) ·兹伯利1136.68047
[35] Mantaci,S。;Restivo,A。;Rosone,G。;Sciortino,M.,Burrows-Wheeler变换和游程编码,(单词组合学,第十一届国际会议论文集。单词组合学。第十一届世界会议论文集,2017年。《单词组合学》,第十一届国际会议论文集。词汇组合学,第十一届国际会议论文集,Words 2017,LNCS,第10432卷(2017),Springer),228-239·Zbl 1405.68466号
[36] Mantaci,S。;Restivo,A。;Rosone,G。;西奥蒂诺,M。;Versari,L.,通过RLE测量BWT的聚集效应,Theor。计算。科学。,698, 79-87 (2017) ·Zbl 1380.68174号
[37] Mantaci,S。;Restivo,A。;Sciortino,M.,Burrows-Wheeler变换和Sturmian单词,Inf.过程。莱特。,86, 241-246 (2003) ·Zbl 1162.68511号
[38] Mantaci,S。;Restivo,A。;Sciortino,M.,《生物序列的距离度量:一些最新方法》,《国际期刊近似原因》。,47, 1, 109-124 (2008) ·Zbl 1183.92035号
[39] Manzini,G.,Burrows-Wheeler变换的分析,美国计算机学会,48,3407-430(2001)·Zbl 1323.68262号
[40] Manzini,G。;Ferragina,P.,工程轻量级后缀数组构造算法,Algorithmica,40,33-50(2004)·Zbl 1082.68867号
[41] Navarro,G.,《紧凑数据结构-实用方法》(2016),剑桥大学出版社
[42] I.帕克。;Redlich,A.,《abc-permutations中的长周期》,Funct。分析。其他数学。,287-92(2008年)·Zbl 1175.05141号
[43] 北卡罗来纳州普雷扎。;北卡罗来纳州皮桑蒂。;西奥蒂诺,M。;Rosone,G.,通过eBWT位置聚类检测SNP,算法分子生物学。,14, 1, 3 (2019)
[44] Restivo,A。;Rosone,G.,Burrows-Wheeler变换和回文丰富度,Theor。计算。科学。,410, 30-32, 3018-3026 (2009) ·兹比尔1173.68055
[45] Restivo,A。;Rosone,G.,《Burrows-Wheeler变换中单词的平衡和聚类》,Theor。计算。科学。,412, 27, 3019-3032 (2011) ·兹比尔1220.68081
[46] Reutenauer,C.、Mots de Lyndon généralisés、sémin。洛塔尔。梳。,54,第B54h条pp.(2006)·Zbl 1183.68445号
[47] Rosone,G。;Sciortino,M.,数据压缩和单词组合之间的Burrows-Wheeler变换,(《计算的本质》,《逻辑、算法、应用》,第九届欧洲可计算性会议论文集。计算的本质。逻辑,算法,应用,第九届欧洲可计算性会议论文集。计算的本质。逻辑、算法、应用,第九届欧洲可计算性会议论文集,CiE 2013,LNCS,第7921卷(2013),Springer),353-364·Zbl 1370.68088号
[48] Schindler,M.,《无损数据压缩的快速块排序算法》(DCC(1997),IEEE计算机学会),469
[49] Shiloach,Y.,《快速规范化循环字符串》,J.Algorithms,2,2,107-121(1981)·Zbl 0459.68035号
[50] 辛普森,J。;Puglishi,S.J.,《带简单Burrows-Wheeler变换的单词》,《电子》。J.库姆。,15,第R83条pp.(2008)·兹比尔1183.68446
[51] Yang,L。;张,X。;Wang,T.,基于Burrows-Wheeler变换的生物序列之间的Burrows-Heeler相似性分布,J.Theor。生物,262,4742-749(2010)·Zbl 1403.92192号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。