×

惠勒图:基于BWT的数据结构的框架。 (英语) Zbl 1380.68145号

摘要:著名的Burrows-Wheeler变换(BWT)最初是为单个字符串定义的,但已经为字符串集、标记树、德布鲁因图等开发了变体。在本文中,我们提出了一个包含许多变体的框架,我们希望它能简化对更多变体的搜索。
我们首先定义了惠勒图,并证明了它们具有一种称为路径一致性的特性。我们证明,如果有限状态自动机的状态图是一个Wheeler图,那么通过它的路径相干性,我们可以对节点进行排序,以便对于任何字符串,通过处理该字符串可以从初始状态到达的节点都是连续的。这意味着即使自动机是非确定性的,我们仍然可以紧凑地存储它,并用它快速处理字符串。
然后,我们通过为相关问题设计简单的有限状态自动机,并表明其状态图是惠勒图,从而重新推导了BWT的几个变体。

MSC公司:

68磅05分 数据结构
68页30 编码和信息理论(压缩、压缩、通信模型、编码方案等)(计算机科学方面)
65年第68季度 算法和问题复杂性分析
65年第68季度 形式语言和自动机
68兰特 计算机科学中的图论(包括图形绘制)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Adgeroh,D。;贝尔·T。;Mukherjee,A.,The Burrows-Wheeler Transform:数据压缩、后缀数组和模式匹配(2008),Springer Science&Business Media
[2] Bauer,M.J。;考克斯·A·J。;Rosone,G.,《构造和反转字符串集合BWT的轻量级算法》,Theoret。计算。科学。,483, 134-148 (2013) ·Zbl 1292.68176号
[3] Belazzougui,D。;库尼亚尔,F。;Kärkkäinen,J。;Mäkinen,V.,双向Burrows-Wheeler变换的通用简洁表示,(欧洲算法研讨会(2013),施普林格),133-144·Zbl 1394.68449号
[4] Belazzougui,D。;Gagie,T。;梅基宁,V。;普雷维塔利,M。;Puglishi,S.J.,双向变阶de Bruijn图,(拉丁美洲理论信息学研讨会(2016),Springer),164-178·Zbl 1415.68063号
[5] Beller,T。;Ohlebusch,E.,用于泛基因组分析的压缩de Bruijn图的高效构造,(组合模式匹配年度研讨会(2015),Springer),40-51·Zbl 1432.68602号
[6] 鲍,A。;Onodera,T。;Sadakane,K。;Shibuya,T.,Succinct de Bruijn graphs,(生物信息学算法国际研讨会(2012),Springer),225-235·Zbl 1414.68020号
[7] 新泽西州布里萨博。;Cerdeira-Pena,A。;Fariña,a。;Navarro,G.,使用后缀数组的紧凑RDF存储,(SPIRE.SPIRE,LNCS,vol.9309(2015),Springer),103-115
[8] 新泽西州布里萨博。;Fariña,a。;Galaktionov,D。;Rodríguez,M.A.,《网络上的紧凑行程表示》(SPIRE.SPIRE,LNCS,第9954卷(2016年)),240-253
[9] Burrows,M。;Wheeler,D.,《块分类无损数据压缩算法》(1994),数字设备公司,技术代表124
[10] 奇基,R。;Limasset,A。;杰克曼,S。;辛普森,J.T。;梅德韦杰夫,P.,《关于de Bruijn图的表示》,J.Compute。《生物学》,22,5,336-352(2015)
[11] Claude,F。;纳瓦罗,G。;Ordónez,A.,《小波矩阵:大字母的有效小波树》,Inform。科学。,47, 15-32 (2015)
[12] Durbin,R.,使用位置Burrows-Wheeler变换(PBWT)的高效单倍型匹配和存储,生物信息学,30,9,1266-1272(2014)
[13] 费拉吉纳,P。;吉安卡洛,R。;Manzini,G.,小波树的无数优点,Inform。和计算。,207, 849-866 (2009) ·Zbl 1167.68020号
[14] 费拉吉纳,P。;Giancarlo,R。;Manzini,G。;Sciortino,M.,在最佳线性时间内增强文本压缩,J.ACM,52,688-713(2005)·Zbl 1323.68260号
[15] 费拉吉纳,P。;González,R。;纳瓦罗,G。;Venturini,R.,《压缩文本索引:从理论到实践》,ACM J.Exp.Algorithmics,13(2009)·Zbl 1284.68255号
[16] 费拉吉纳,P。;Luccio,F。;Manzini,G。;Muthukrishnan,S.,《为实现最佳简洁性而构建标记树》(第46届IEEE计算机科学基础研讨会论文集,第46届EEE计算机科学基础会议论文集,FOCS’05(2005)),184-193
[17] 费拉吉纳,P。;Luccio,F。;Manzini,G。;Muthukrishnan,S.,《通过两个zip压缩和搜索XML数据》,(第15届国际万维网会议,第15届世界万维网大会,WWW’06(2006)),751-760
[18] 费拉吉纳,P。;Luccio,F。;Manzini,G。;Muthukrishnan,S.,压缩和索引标记树,以及应用程序,J.ACM,57(2009)·Zbl 1326.68132号
[19] 费拉吉纳,P。;Manzini,G.,《机会主义数据结构与应用》,(第41届IEEE计算机科学发现研讨会(2000)),390-398
[20] 费拉吉纳,P。;Manzini,G.,索引压缩文本,美国计算机学会,52,4,552-581(2005)·Zbl 1323.68261号
[21] 费拉吉纳,P。;文丘里尼,R.,压缩permuterm指数,(SIGIR(2007),ACM),535-542
[22] 费拉吉纳,P。;文丘里尼,R.,压缩permuterm指数,ACM Trans。算法,7,1,10:1-10:21(2010)·兹比尔1295.68108
[23] Gagie,T。;Manzini,G。;Venturini,R.,《用于订单预留匹配的编码》,(第25届欧洲算法年会论文集,第25届欧盟算法年会文献集,ESA 2017(2017),达格斯图尔出版社:德国达格斯图出版社)·Zbl 1442.68038号
[24] Gagie,T。;纳瓦罗,G。;Puglishi,S.J.,《小波树新算法及其在信息检索中的应用》,Theoret。计算。科学。,426, 25-41 (2012) ·Zbl 1243.68161号
[25] Ganguly,A。;沙阿·R。;Thankachan,S.V.,pBWT:为参数化模式匹配和相关问题实现简洁的数据结构,(第28届ACM-SIAM离散算法研讨会,第28届AC M-SIAM分散算法研讨会,SODA’17(2017),SIAM),397-407·Zbl 1410.68098号
[26] Gessel,I.M。;Restivo,A。;Reutenauer,C.,单词和多串项链之间的双射,《欧洲J.Combina.》,33,7,1537-1546(2012)·Zbl 1244.05016号
[27] Gessel,I.M。;Reutenauer,C.,具有给定循环结构和下降集的计数置换,J.组合理论。A、 第64189-215页(1993年)·Zbl 0793.05004号
[28] 格罗西,R。;古普塔,A。;Vitter,J.S.,高阶熵压缩文本索引,(第14届ACM-SIAM离散算法研讨会论文集,第14届ADAM-SIAM离散算法研讨会,SODA'03(2003),SIAM),841-850·Zbl 1092.68584号
[29] 格罗西,R。;Vitter,J.S.,压缩后缀数组和后缀树及其在文本索引和字符串匹配中的应用,(第32届ACM计算理论研讨会(2000)论文集),397-406·Zbl 1296.68035号
[30] 尊敬的W。;卢,C。;沙阿·R。;Thankachan,S.V.,圆形图案的简洁索引,(ISAAC.ISAAC,LNCS,第7074卷(2011年),施普林格出版社),673-682·Zbl 1350.68302号
[31] 库切洛夫,G。;萨利霍夫,K。;Tsur,D.,使用双向索引的近似字符串匹配,Theoret。计算。科学。,638, 145-158 (2016) ·Zbl 1345.68304号
[32] Lam,T.W。;李,R。;Tam,A。;Wong,S。;吴,E。;Yiu,S.-M.,《通过双向BWT进行高通量短读校准》,(IEEE生物信息学和生物医学国际会议,IEEE国际生物信息学与生物医学会议,BIBM’09(2009),IEEE),31-36
[33] 李,D。;刘春明。;罗,R。;Sadakane,K。;Lam,T.-W.,Megahit:通过简洁的de Bruijn图实现大型复杂宏基因组组装的超快速单节点解决方案,生物信息学,31,10,1674-1676(2015)
[34] Mäkinen,V.,紧凑后缀数组,(第11届组合模式匹配研讨会论文集。第11届联合模式匹配研讨会文献集,LNCS,第1848卷(2000),Springer-Verlag),305-319·兹比尔0964.68511
[35] 梅基宁,V。;Belazzougui,D。;库尼亚尔,F。;Tomescu,A.I.,《基因组尺度算法设计》(2015),剑桥大学出版社
[36] Mantaci,S。;Restivo,A。;Rosone,G。;Sciortino,M.,《burrows-wheeler变换的扩展及其在序列比较和数据压缩中的应用》,(CPM.CPM,LNCS,第3537卷(2005),Springer),178-189·Zbl 1130.68314号
[37] Mantaci,S。;Restivo,A。;Rosone,G。;Sciortino,M.,Burrows-Wheeler变换的扩展,定理。计算。科学。,387, 3, 298-312 (2007) ·Zbl 1144.68024号
[38] Mantaci,S。;Restivo,A。;Sciortino,M.,Burrows-Wheeler变换到单词的扩展,(DCC(2005),IEEE计算机学会),469
[39] Manzini,G.,《Burrows-Wheeler变换的分析》,J.ACM,48,3,407-430(2001)·Zbl 1323.68262号
[40] Na,J.C。;Kim,H。;最小值,S。;帕克,H。;勒克罗克,T。;莱昂纳德,M。;Mouchard,L。;Park,K.,FM缺口对齐指数(2016)
[41] Na,J.C。;Kim,H。;帕克,H。;勒克罗克,T。;莱昂纳德,M。;Mouchard,L。;Park,K.,FM-index of alignment:类似字符串的压缩索引,Theoret。计算。科学。,638, 159-170 (2016) ·Zbl 1345.68123号
[42] Navarro,G.,《紧凑数据结构:实用方法》(2016),剑桥大学出版社
[43] 纳瓦罗,G。;Mäkinen,V.,压缩全文索引,ACM Compute。调查。,39,1,第2条,第(2007)页·Zbl 1321.68263号
[44] Novak,A.M。;加里森,E。;Paten,B.,位置Burrows-Wheeler变换的图形扩展及其应用,(生物信息学算法国际研讨会(2016),Springer),246-256
[45] 萨克斯,J.G.,《约翰·戈弗雷·萨克斯的诗》(1881年),霍顿,米夫林等人。
[46] 苏厄德,J.,Thebzip公司2主页(1996)
[47] 苏厄德,J.,The瓦尔格林主页(2000)
[48] Shchur,V。;Durbin,R.,Tree consistent PBWT及其在重建祖先重组图和人口统计推断中的应用,(海报发表于第19届国际计算分子生物学研究年会(RECOMB)(2015))
[49] Sirén,J.,变分图索引,(第19届算法工程和实验会议,第19届计算工程和实验大会,ALENEX’17(2017),SIAM),13-27·兹比尔1430.68104
[50] J.én爵士。;瓦利马基,N。;Mäkinen,V.,路径查询索引图及其在基因组研究中的应用,IEEE/ACM Trans。计算。生物信息学。,11, 2, 375-388 (2014)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。