×

不确定字符串分解和退化文本转换。 (英语) Zbl 1370.68243号

概要:数据爆炸问题继续升级,需要新颖而巧妙的解决方案。以数据中的重复结构为重点的模式推理是一个强有力的领域,旨在通过简洁的描述缩小数据量。Burrows-Wheeler变换计算字母串在字母表上的排列,由于其可逆性和数据聚类特性,非常适合于压缩相关的应用程序。为了提高空间效率,可以将转换的输入预处理为Lyndon因子。与基于字母的字符串的经典确定性方法不同,我们考虑了数据不确定性的场景:不确定的退化的字符串是一组字母。我们首先定义不确定林登词并建立其关联的唯一字符串分解;然后我们介绍这部小说退化Burrows-Wheeler变换可以应用不定Lyndon因式分解。Burrows-Wheeler型变换的核心计算是对输入字符串的所有共轭进行线性排序——我们在lex扩展排序的退化情况下实现了这一点。与原始形式一样,不定Lyndon因式分解和退化变换及其逆都可以在线性时间和空间中计算出退化字符串的总输入大小。规则的分子生物字符串产生了大量大数据应用——将其推广到简并字符串的一个重要动机是它们广泛用于表达DNA序列中的多态性。

MSC公司:

68兰特 单词组合学
68瓦32 字符串上的算法
92D20型 蛋白质序列,DNA序列

软件:

布瓦香皂
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Adheroh,D.,Bell,T.,Mukherjee,A.:Burrows-Wheeler变换:数据压缩、后缀数组和模式匹配。施普林格,纽约(2008)·数字对象标识代码:10.1007/978-0-387-78909-5
[2] Antoniou,P.,Daykin,J.W.,Iliopoulos,C.S.,Kourie,D.,Mouchard,L.,Pissis,S.P.:将高通量技术中唯一出现的短序列映射到参考基因组。摘自:第九届IEEE国际生物医学信息技术与应用会议记录(ITAB 2009)。(2009). doi:10.1109/ITAB.2009.5394394·Zbl 1100.68087号
[3] Apostolico,A.,Crochemore,M.:快速平行Lyndon因式分解及其应用。数学。系统。理论28(2),89-108(1995)·Zbl 0815.68066号 ·doi:10.1007/BF01191471
[4] Bauer,M.J.,Cox,A.J.,Rosone,G.,Sciortino,M.:下一代测序数据集的轻量级LCP构建。CoRR.arXiv:1305.0160(2013)·Zbl 1370.68338号
[5] Breslauer,D.,Grossi,R.,Mignosi,F.:简单的实时常量空间字符串匹配。收录于:Giancarlo,R.,Manzini,G.(编辑)CPM,《计算机科学讲稿》第6661卷,第173-183页(2011)·Zbl 1339.68325号
[6] Burrows,M.,Wheeler,D.J.:块排序无损数据压缩算法。技术报告124,数字设备公司(1994)·Zbl 1133.68067号
[7] Chemillier,M.:周期性音乐序列和林登词。软计算。8(9), 611-616 (2004) ·Zbl 1064.00506号
[8] Chen,K.T.,Fox,R.H.,Lyndon,R.C.:自由微分学IV,下中心级数的商群。安。数学。68, 81-95 (1958) ·Zbl 0083.01403号 ·doi:10.2307/1970044
[9] Crochemore,M.,Désarménien,J.,Perrin,D.:关于Burrows-Wheeler变换的注释。西奥。计算。科学。332(1-3)、567-572(2005)·Zbl 1070.68126号 ·doi:10.1016/j.tcs.2004.11.014
[10] Crochemore,M.,Grossi,R.,ärkkäinen,J.K.,Landau,G.M.:计算Burrows-Wheeler变换的基于常量空间比较的算法。摘自:第24届组合模式匹配(CPM)年度研讨会论文集,第74-82页(2013)·兹比尔1381.68313
[11] Crochemore,M.,Perrin,D.:双向字符串匹配。J.ACM 38(3),651-675(1991)·Zbl 0808.68063号 ·数字对象标识代码:10.1145/116825.116845
[12] 戴金,D.E.,戴金,J.W.:字符串的类Lyndon因子分解和V阶因子分解。J.离散算法1357-365(2003)·Zbl 1100.68087号 ·doi:10.1016/S1570-8667(03)00039-X
[13] 戴金,D.E.,戴金,J.W.:字符串的唯一最大因式分解族的性质和构造。发现的国际期刊。计算。科学。19(4), 1073-1084 (2008) ·Zbl 1155.68063号 ·网址:10.1142/S0129054108006133
[14] Daykin,J.W.,Smyth,W.F.:使用V阶的Burrows-Wheeler变换的双射变体。西奥。计算。科学。531, 77-89 (2014) ·Zbl 1359.68332号 ·doi:10.1016/j.tcs.2014.03.014
[15] Duval,J.-P.:在有序字母表上分解单词。J.算法4(4),363-381(1983)·Zbl 0532.68061号 ·doi:10.1016/0196-6774(83)90017-2
[16] Fredricksen,H.,Maiorana,J.:k色珠子项链和k元Bruijn序列。离散数学。23(3), 207-210 (1978) ·Zbl 0384.05004号 ·doi:10.1016/0012-365X(78)90002-X
[17] Gil,J.Y.,Scott,D.A.:双射字符串排序转换。CoRR.arXiv:1201.3077(2012)
[18] Holub,J.,Smyth,W.F.:不定字符串的算法。摘自:第14届澳大利亚组合算法研讨会(AWOCA)会议记录,第36-45页(2003)·兹比尔1270.68099
[19] Iliopoulos,C.、Mouchard,L.、Rahman,M.:简并DNA/RNA序列模式匹配和分布式模式匹配的新方法。数学。计算。科学。2(4), 557-569 (2008) ·Zbl 1160.68684号 ·doi:10.1007/s11786-007-0029-z
[20] Iliopoulos,C.,Rahman,M.,Voráček,M.,Vagner,L.:基于退化字符串的子序列和超序列的有限自动机算法。《离散算法》8(2),117-130(2010)·Zbl 1201.68066号 ·doi:10.1016/j.jda.2008.10.04
[21] Kärkkäinen,J.,Kempa,D.,Puglishi,S.J.:缩短BWT反演时间。收录于:《数据压缩会议论文集》,第99-108页(2012年)
[22] Ko,P.,Aluru,S.:后缀数组的空间效率线性时间构造。摘自:第14届组合模式匹配(CPM)年度研讨会论文集,第200-210页(2003)·Zbl 1279.68069号
[23] Kufleitner,M.:关于Burrows-Wheeler变换的双射变体。收录于:《线谱学学报》,第65-79页(2009年)·Zbl 1175.90407号
[24] Langmead,B.,Trapnell,C.,Pop,M.,Salzberg,S.L.:短DNA序列与人类基因组的超快和记忆效率比对。基因组生物学。10(3),R25(2009)·doi:10.1186/gb-2009-10-3-r25
[25] Li,H.,Durbin,R.:使用Burrows-Wheeler变换进行快速准确的短读对齐。生物信息学25(14),1754-1760(2009)·doi:10.1093/bioinformatics/btp324
[26] Li,R.,Yu,C.,Li,Y.,Lam,T.W.,Yiu,S.M.,K.,Wang,J.:Soap2:一种改进的超快工具,用于短读对齐。生物信息学25(15),1966-1967(2009)·doi:10.1093/bioinformatics/btp336
[27] Lothaire,M.:单词组合学。第2版。雷丁,马萨诸塞州(1983年);剑桥大学出版社,剑桥(1997)。艾迪森·韦斯利(1983)·Zbl 0514.2004年5月
[28] Lothaire,M.:单词的应用组合数学(数学及其应用百科全书)。剑桥大学出版社,纽约州纽约市(2005)·Zbl 1133.68067号 ·doi:10.1017/CBO9781107341005
[29] 林登,R.C.:关于伯恩赛德的问题。事务处理。美国数学。Soc.77202-215(1954)·Zbl 0058.01702号
[30] 林登,R.C.:关于伯恩赛德的问题II。事务处理。美国数学。Soc.78(2),329-332(1955)·Zbl 0066.27701号
[31] Mantaci,S.,Restivo,A.,Rosone,G.,Sciortino,M.:Burrows-Wheeler变换的扩展及其在序列比较和数据压缩中的应用。摘自:第16届组合模式匹配(CPM)年会论文集,第178-189页(2005)·Zbl 1130.68314号
[32] Neuburger,S.,Sokol,D.:简洁的2D字典匹配。《算法》65(3),662-684(2013)·兹比尔1270.68099 ·doi:10.1007/s00453-012-9615-9
[33] Perret,L.:对基于Lyndon单词的公钥密码系统的选择性密文攻击。IACR Cryptol ePrint Arch 2005,14(2005)
[34] Reutenauer,C.:自由李代数。伦敦数学学会专著新系列。牛津大学出版社,牛津(1993)·Zbl 0798.17001号
[35] Salson,M.、Lecroq,T.、Léonard,M.和Mouchard,L.:更新Burrows-Wheeler变换的四阶段算法。西奥。计算。科学。410(43), 4350-4359 (2009) ·兹比尔1187.68685 ·doi:10.1016/j.tcs.2009.07.016
[36] Smyth,B.:字符串中的计算模式。ACM Press Bks,Addison-Wesley,Pearson(2003)
[37] 蔡毅:约束最长公共子序列问题。信息处理。莱特。88(4), 173-176 (2003) ·Zbl 1175.90407号 ·doi:10.1016/j.ipl.2003.07.001
[38] Wu,S.,Manber,U.:快速文本搜索:允许错误。Commun公司。ACM 35(10),83-91(1992)·数字对象标识代码:10.1145/135239.135244
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。