LIPIcs,第223卷

第33届组合模式匹配年会(CPM 2022)



缩略图PDF

事件

CPM 2022,2022年6月27日至29日,捷克共和国布拉格

编辑

希德奥·班奈
  • 日本东京医学和牙科大学M&D数据科学中心
简·霍卢布
  • 捷克布拉格捷克技术大学理论计算机科学系

出版物详细信息

  • 发布时间:2022-06-22
  • 出版商:Schloss Dagstuhl–Leibniz Zentrum für Informatik
  • 国际标准图书编号:978-3-95977-234-1
  • DBLP:数据库/conf/cpm/cpm2022

接入号码

文件

找不到与您的筛选选择匹配的文档。
文件
完整卷
LIPIcs,第223卷,CPM 2022,完整卷

作者:Hideo Bannai和Jan Holub


摘要
LIPIcs,第223卷,CPM 2022,完整卷

引用为

第33届组合模式匹配年会(CPM 2022)。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第1-470页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{bannai_et_al:LIPIcs.CPM.2022,title={{LIPIcs,第223卷,CPM 2022,完整卷}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={1--470},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022},URN={URN:nbn:de:0030-drops-161265},doi={10.4230/LIPIcs.CPM.2022},annote={关键词:LIPIcs,第223卷,CPM 2022,完整卷}}
文件
前部物质
封面、目录、前言、会议组织

作者:板井秀夫和Jan Holub


摘要
封面、目录、前言、会议组织

引用为

第33届组合模式匹配年会(CPM 2022)。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第0:i-0:xviii页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{bannai_et_al:LIPIcs.CPM.2022.0,author={Bannai、Hideo和Holub,Jan},title={{正文,目录,前言,会议组织}},booktitle={第33届组合模式匹配年会(CPM 2022)},页面={0:i--0:xvii},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.0},URN={URN:nbn:de:0030-drops-161271},doi={10.4230/LIPIcs.CPM.2022.0},注释={关键词:前言、目录、前言、会议组织}}
文件
邀请的谈话
组合重构邀请(邀请演讲)

作者:伊藤武弘


摘要
组合重构研究组合搜索问题实例的可行解所形成的解空间上的可达性及相关问题。例如,作为可满足性问题的解空间,我们可以考虑由给定CNF公式的满足真值分配引起的超立方体的子图。然后,可满足性的可达性问题是询问两个给定的满足真值赋值是否包含在解空间的同一连通分量中的问题。对重构问题的研究有来自各种领域的动机,如谜题、统计物理和工业。近十年来,人们从算法的角度对可满足性、独立集和着色等许多核心组合搜索问题的重构问题进行了深入研究。尽管已经获得了几个有效的可解决案例,但许多重构问题通常是PSPACE完全问题。在这次演讲中,我将广泛介绍组合重构。

引用为

伊藤武弘。组合重构邀请(邀请谈话)。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第1:1页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{ito:LIPIcs.CPM.2022.1,author={伊藤,武弘},title={{组合重新配置邀请}},booktitle={第33届组合模式匹配年会(CPM 2022)},页面={1:1--1:1},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.1},URN={URN:nbn:de:0030-drops-161281},doi={10.4230/LIPIcs.CPM.2022.1},annote={关键词:组合重构,图算法}}
文件
受邀演讲
使用自动机和决策过程证明模式匹配结果(受邀演讲)

作者:杰弗里·沙利特


摘要
带加法的自动序列的一阶理论是可判定的,这意味着人们通常可以使用Hamoon Mousavi编写的自由软件Walnut“自动”证明这些序列的组合属性。在本次演讲中,我将以Kempa和Prezza于2018年提出的最小尺寸字符串吸引子度量为例,解释这是如何做到的。使用基于逻辑的方法,我们还可以证明自动序列的字符串吸引子的更一般的属性。这是与卢克·谢弗的联合工作。

引用为

杰弗里·沙利特。使用自动机和决策程序证明模式匹配的结果(邀请谈话)。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第2:1-2:3页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{shallit:LIPIcs.CPM.2022.2,author={Shallit,Jeffrey},title={{使用自动机和决策过程证明模式匹配结果}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={2:1--2:3},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.2},URN={URN:nbn:de:00030-drops-161297},doi={10.4230/LIPIcs.CPM.2022.2},annote={关键词:有限自动机,决策过程,自动序列,Thue-Morse序列,Fibonacci词,字符串吸引子}}
文件
邀请的谈话
高级模式匹配问题的紧凑文本索引:参数化、有序同构、2D等(受邀演讲)

作者:Sharma V.Thankachan公司


摘要
在过去二十年中,我们见证了各种紧凑的数据结构的设计,用于在索引文本上进行模式匹配[Navarro,2016]。流行指数,如FM-index[Paolo Ferragina和Giovanni Manzini,2005年],压缩后缀数组/树[Roberto Grossi和Jeffrey Scott Vitter,2005年;Kunihiko Sadakane,2007年],最近的r-index[Travis Gagie等人,2020年;Takaaki Nishimoto和Yasuo Tabei,2021]等。,在紧凑空间中捕获经典后缀数组/树的关键功能[Udi Manber和Eugene W.Myers,1993;Peter Weiner,1973]。主要依靠Burrows-Wheeler变换(BWT)及其相关操作[Burrows和Wheeler,1994]。然而,紧凑编码一些高级后缀树(ST)变体,如参数化ST[Brenda S.Baker,1993;S.Rao Kosaraju,1995;Juan Mendivelso等人,2020],有序同构/保留ST[Maxime Crochemore等人,2016],二维ST[Raffaele Giancarlo,1995;Dong Kyue Kim等人,1998]等[Sung Gwan Park等人,2019;涩谷铁雄,2000年]——统称为后缀树,但缺少后缀链接[Richard Cole和Ramesh Hariharan,2003年],这是一个挑战。之前的技术不容易扩展,因为这些变体不具备支持压缩的标准ST的某些结构特性。然而,最近在这些方向上取得了一些有限的进展[Arnab Ganguly等人,2017年;Travis Gagie等人,2017;Gianni Decaroli等人,2017);Dhrumil Patel和Rahul Shah,2021;Arnab Ganguly等人,2021年;Sung{-}黄金和黄{-}猜赵,2021年;宋朝{-}黄金和黄{-}猜赵,2021年;Arnab Ganguly等人,2017年;Arnab Ganguly等人,2022年;Arnab Ganguly等人,2021]。本次演讲将对他们进行简要的调查,并强调一些有趣的开放问题。

引用为

Sharma V.Thankachan公司。高级模式匹配问题的紧凑文本索引:参数化、有序同构、2D等(受邀演讲)。在第33届组合模式匹配年度研讨会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第3:1-3:3页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{thankachan:LIPIcs.CPM.2022.3,author={Thankachan,Sharma V.},title={{高级模式匹配问题的紧凑文本索引:参数化、有序同构、2D等}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={3:1--3:3},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.3},URN={URN:nbn:de:0030-drops-161300},doi={10.4230/LIPIcs.CPM.2022.3},annote={关键词:文本索引,后缀树,字符串匹配}}
文件
情节匹配的精细复杂性

作者:菲利普·比尔(Philip Bille)、英格·李·戈茨(Inge Li Görtz)、谢·莫泽斯(Shay Mozes)、特蕾莎·安娜·斯坦纳(Teresa Anna Steiner)和奥伦·魏曼(Oren Weimann)


摘要
给定两个字符串S和P,情节匹配问题是找到S中包含P作为子序列的最短子串。这个问题最著名的上界是Das等人(1997)提出的Õ(nm),其中n,m分别是S和P的长度。尽管这个问题已经得到了很好的研究,并且在数据挖掘中有很多应用,但这个界限从未得到改善。在本文中,我们通过证明不存在O((nm)^{1-ε})算法(即使对于二进制字符串)来说明为什么会出现这种情况,除非强指数时间假设(SETH)是错误的。然后,我们考虑该问题的索引版本,其中S被预处理为用于回答事件匹配查询P的数据结构。我们证明,对于任何τ,存在使用O(n+(n/(τ))^k)空间的数据结构,该数据结构在O(k·τ·log log n)时间内回答长度为k的任何P的事件匹配查询。我们用一个几乎匹配的下界来补充这个上界,这表明任何回答时间O(n^δ)中长度为k的模式的片段匹配查询的数据结构都必须使用Ω(n^{k-kδ-O(1)})空间,除非强k-集分离猜想是假的。最后,对于k=2的特殊情况,我们提出了一种使用有界整数矩阵的快速min-plus乘法快速构造数据结构的方法。

引用为

菲利普·比尔(Philip Bille)、英格·李·戈茨(Inge Li Görtz)、谢·莫泽斯(Shay Mozes)、特蕾莎·安娜·斯坦纳(Teresa Anna Steiner)和奥伦·魏曼(Oren Weimann)。情节匹配的精细复杂性。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第4:1-4:12页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{bill_et_al:LIPIcs.CPM.2022.4,author={Bille、Philip和G{o}rtz、Inge Li和Mozes、Shay和Steiner、Teresa Anna和Weimann、Oren},title={{情节匹配的细粒度复杂性}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={4:1--4:12},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.4},URN={URN:nbn:de:0030-drops-161312},doi={10.4230/LIPIcs.CPM.2022.4},annote={关键词:模式匹配,细粒度复杂性,最长公共子序列}}
文件
用核桃对部分单词中的正方形和立方体进行机械证明

作者:约翰·马切克


摘要
核桃是一种可以证明关于自动序列单词的组合学定理的软件。我们可以应用此软件来证明新结果,也可以复制一些旧结果,避免部分单词中的正方形和立方体。我们还定义了部分词中的反方形概念,并开始研究仅包含固定数量的不同正方形和反方形的二进制部分词。

引用为

约翰·马查切克。部分单词中正方形和立方体的核桃机械证明。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第5:1-5:11页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{machacek:LIPIcs.CPM.2022.5,作者={Machacek,John},title={{用胡桃木对部分单词中的正方形和立方体进行机械证明}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={5:1--5:11},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.5},URN={URN:nbn:de:0030-drops-161320},doi={10.4230/LIPIcs.CPM.2022.5},annote={关键词:部分单词,正方形,反正方形,立方体,胡桃木}}
文件
以最大删除次数为参数的最长公共子序列的FPT算法

作者:Laurent Bulteau、Mark Jones、Rolf Niedermeier和Till Tantau


摘要
在NP-hard最长公共子序列问题(LCS)中,给定一组字符串,任务是找到一个字符串,该字符串可以通过尽可能少的删除操作从每个输入字符串中获得。LCS是最基本的字符串问题之一,在各个领域有着广泛的应用,在算法和复杂性研究领域得到了很多关注。欧文(Irving)和弗雷泽(Fraser)[CPM’92]在2014年的一篇调查论文中对一种算法进行了重大改进,我们表明,当通过每个输入字符串的最大删除次数进行参数化时,LCS是固定参数可处理(FPT)的。鉴于我们算法的运行时间相对适中(当参数为常数时为线性时间),并且在几个应用程序中预期的参数值较小,我们相信,我们纯粹的理论分析最终可以为这个众所周知的硬字符串问题的新的、准确的和实用的算法铺平道路。

引用为

劳伦特·布尔托(Laurent Bulteau)、马克·琼斯(Mark Jones)、罗尔夫·尼德迈尔(Rolf Niedermeier)和蒂尔·坦套(Till Tantau)。由最大删除数参数化的最长公共子序列的FPT算法。在第33届组合模式匹配年会(CPM 2022)上。《莱布尼茨国际信息学论文集》,第223卷,第6:1-6:11页,Schloss Dagstuhl–Leibniz Zentrum für Informatik(2022)


将BibTex复制到剪贴板

@会议记录{bulteau_et_al:LIPIcs.CPM.2022.6,author={Bulteau、Laurent和Jones、Mark和Niedermeier、Rolf和Tantau、Till},title={{由最大删除数参数化的最长公共子序列的FPT算法}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={6:1--6:11},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.6},URN={URN:nbn:de:0030-drops-161338},doi={10.4230/LIPIcs.CPM.2022.6},annote={关键词:NP-hard字符串问题,多序列对齐,中心字符串,参数化复杂性,搜索树算法,枚举算法}}
文件
超越最长字母重复的子序列问题

作者:赖文峰、李扬格、朱滨海、邹鹏


摘要
受序列中重复模式计算的启发,提出了一个新的基本问题,称为最长字母重复子序列(LLDS)。给定一个长度为n的序列S,对于[k]中的所有i和[k-1]中的j,字母重复子序列是S的一个子序列,其形式为x₁^{d𔔑}x⁄^{d⁄},x_k^{d_k},其中x_i∈∑、x_j≠x_{j+1}和d_i≥2。可以很容易地获得计算S的最长字母重复子序列(LLDS)的线性时间算法。在本文中,我们重点讨论这个问题的两种变体。我们首先考虑当∑为无界时的约束形式,每个字母在S中出现至少6次,∑中的所有字母都必须出现在解中。我们证明了这个问题是NP难的(进一步的扭曲表明这个问题不允许任何多项式时间近似)。减少量可能来自最简单的SAT版本,即NP-complete,(≤2,1,≤3)-SAT,其中每个变量最多出现两次正变量,精确出现一次负变量,每个子句最多包含三个字面值,某些子句必须正好包含两个字面值。(我们希望这项技术将作为一种通用工具,帮助我们证明仅涉及一个序列的一些更复杂序列问题的NP-hardness,这比至少使用两个输入序列要困难得多,我们在本文末尾成功地将其应用于LLDS问题的一些额外变体。)然后我们证明,当每个字母在S中最多出现3次时,问题允许因子1.5-O(1/n)近似。最后,我们考虑加权版本,其中块x_i^{d_i}(d_i≥2)的权重可以是任何可能不随d_i增长的正函数。我们给出了该版本的一个非平凡O(n²)时间动态规划算法,即计算权重最大的S的LD序列。

引用为

赖文峰(Wenfeng Lai)、李扬格(Adiesha Liyanage)、朱滨海(Binhai Zhu)和邹鹏(Peng Zou)。超越最长的字母重复序列问题。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第7:1-7:12页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{lai_et_al:LIPIcs.CPM.2022.7,作者={Lai、Wenfeng和Liyanage、Adiesha和Zhu、Binhai和Zou、Peng},title={{超出最长字母重复的子序列问题}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={7:1--7:12},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.7},URN={URN:nbn:de:0030-drops-161348},doi={10.4230/LIPIcs.CPM.2022.7},annote={关键词:分段重复,串联重复,最长公共子序列,NP-完全性,动态编程}}
文件
IS-算法的约简比:最坏和随机情况

作者:文森特·朱格


摘要
我们研究了IS-算法,这是一种著名的计算单词后缀数组的线性时间算法。该算法依赖于将输入单词w转换为另一个单词,称为w的简化单词,该单词至少要短两倍;然后,该算法递归地计算简化单词的后缀数组。在本文中,我们研究了IS-算法的约简比,即输入单词的长度与将k倍输入单词约简后得到的单词的长度之比。我们研究了两种最坏的情况,在这两种情况下我们都得到了精确的结果,而在随机情况下我们证明了一些强收敛现象。最后,我们证明了,如果输入单词是一个随机选择的长度为n的单词,我们不应该期望比log(log(n))递归函数调用多得多。

引用为

文森特·朱格。IS-算法的约简比:最坏和随机情况。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第8:1-8:23页,达格斯图尔-莱布尼兹-泽特鲁姆信息学院(2022)


将BibTex复制到剪贴板

@会议记录{juge:LIPIcs.CPM.2022.8,author={Jug\'{e},Vincent},title={{IS算法的约简比:最坏和随机情况}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={8:1--8:23},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.8},URN={URN:nbn:de:0030-drops-161357},doi={10.4230/LIPIcs.CPM.2022.8},annote={关键词:单词组合,后缀数组,IS算法}}
文件
de Bruijn序列的任意长度类似物

作者:阿比纳夫·内洛尔和雷切尔·沃德


摘要
设α̃是一个大小为K的字母表𝒜中的长度为L的循环字符序列,这样对于每一个正整数m≤L,作为α\771;的子串,\119964;上任何长度为m的字符串的出现次数为⌊L/K^m⌋或⌈L/K ^mᝑ。对于任意正整数N,当L=K^N时,α̃是一个N阶de Bruijn序列,当L≠K^N,αȻ与de Bruij序列具有许多性质。我们描述了一种算法,该算法使用O(L log K)空间,对O(L)时间内K≥2和L≥1的任意组合输出一些α̃。该算法扩展了Lempel对二进制de Bruijn序列的递归构造。使用Python编写的实现可在https://github.com/nelloreward/pkl。

引用为

阿比纳夫·内洛尔(Abhinav Nellore)和雷切尔·沃德(Rachel Ward)。任意长度类似于de Bruijn序列。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第9:1-9:20页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{nellore_et_al:LIPIcs.CPM.2022.9,author={内洛尔、阿比纳夫和沃德、瑞秋},title={{任意长度类似于de Bruijn序列}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={9:1--9:20},series={Leibniz国际信息学论文集(LIPIcs)},ISBN={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/documents/10.4230/LIPIcs.CPM.2022.9},URN={URN:nbn:de:0030-drops-161361},doi={10.4230/LPIcs.CPM.2022.9},annote={关键词:de Bruijn序列,de Bruij词,Lempel的D-态射,Lempel's同态}}
文件
部分排列的比较、维护和应用

作者:Avivit Levy、Ely Porat和B.Riva Shalom


摘要
本文重点介绍部分置换的概念及其在算法任务中的使用。∑上的部分置换是一个双射π{par}:∑∑⁄映射子集∑σ到子集∑б∑,其中,|∑|=|∑|(|∑|表示集∑的大小)。直观地说,如果映射对不形成冲突,则两个部分置换是一致的。这一概念在本文中得到了正式定义,可以在部分排列之间进行一致且信息丰富的比较。我们将部分置换协议问题(PPA)形式化如下。给定字母表∑上部分置换的两个集A₁,A⁄,每个集的大小为n,输出所有对(π_i,π_j),其中π_l∈A \8321;,π_ j∈A⁄并且π_i与π_j一致。然后研究了使用数据结构有效维护动态部分置换集的可能性,以检索部分置换的一致性,并给出了否定和肯定的结果。应用我们的研究可以指出在数据库中进行有效基因序列比较的有效方法与无效方法,或通过神经网络进行图像处理的自动颜色变换数据增强技术。它还表明,除非强指数时间假设(SETH)失败,从而否定了最近提出的一个公开问题,否则不可能在通用字典字母表上有效地解决带一个缺口的严格参数化字典匹配(PDMOG)。

引用为

Avivit Levy、Ely Porat和B.Riva Shalom。部分排列比较、维护和应用。在第33届组合模式匹配年会(CPM 2022)上。《莱布尼茨国际信息学论文集》,第223卷,第10:1-10:17页,Schloss Dagstuhl–Leibniz Zentrum für Informatik(2022)


将BibTex复制到剪贴板

@会议记录{levy_et_al:LIPIcs.CPM.2022.10,作者={Levy,Avivit and Porat,Ely and Shalom,B.Riva},title={{部分排列比较、维护和应用}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={10:1--10:17},series={莱布尼茨国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.10},URN={URN:nbn:de:0030-drops-161376},doi={10.4230/LIPIcs.CPM.2022.10},annote={关键词:部分排列,部分单词,基因比较,颜色转换,带空白的字典匹配,参数化匹配,SETH假设}}
文件
双向r索引

作者:荒川尤马、纳瓦罗冈萨洛和萨达卡内


摘要
索引高度重复的文本在生物信息学和版本化存储库等领域非常重要。Burrows-Wheeler变换(BWT)的运行长度压缩提供了一种特别适合文本索引的压缩表示。r-索引就是这样一个索引。它可以在空间的O(r)字中快速定位模式的出现次数,其中r是BWT中的等号运行次数。它的定位机制是沿着模式的后向搜索保持一个后缀数组样本,并在后向搜索完成后计算该样本的所有模式位置。在本文中,我们进一步开发了该算法,并提出了一种新的双向文本索引,称为br索引,它支持在前向和后向方向上扩展匹配的模式,并在空间的O(r+r)个词内定位搜索的任何步骤中出现的模式,其中r_r是反向文本的BWT中等号运行的次数。我们的实验表明,br-index捕获了文本的长时间重复,并且在文本搜索中优于现有索引,允许一些不匹配,但内部部分除外。

引用为

荒川尤马、纳瓦罗冈萨洛·纳瓦罗和萨达坎·库尼希科。双向r索引。在第33届组合模式匹配年会(CPM 2022)上。《莱布尼茨国际信息学论文集》,第223卷,第11:1-11:14页,Schloss Dagstuhl–Leibniz Zentrum für Informatik(2022)


将BibTex复制到剪贴板

@会议记录{arakawa_et_al:LIPIcs.CPM.2022.11,author={荒川、尤马和纳瓦罗、冈萨罗和萨达卡内、库尼希科},title={{双向r-索引}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={11:1--11:14},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.11},URN={URN:nbn:de:0030-drops-161386},doi={10.4230/LIPIcs.CPM.2022.11},annote={关键词:压缩文本索引,Burrows-Wheeler变换,高度重复的文本集合}}
文件
制作德布鲁因图欧拉

作者:Giulia Bernardini、Huiping Chen、Grigorios Loukides、Solon P.Pissis、Leen Stougie和Michelle Sweering


摘要
如果一个有向多重图有一个电路,每个边只使用一次,则称其为欧拉图。欧拉定理告诉我们,弱连通有向多重图是欧拉的当且仅当每个节点平衡。给定字母∑上字符串的集合S,S的k阶de Bruijn图(dBG)是一个有向多重图G{S,k}(V,E),其中V是S中字符串的长度-(k-1)子串的集合,并且G{S、k}包含重数为m_{u,V}的边(u,V),当且仅当字符串u[0]●V等于字符串u●V[k-2]这个字符串在S中的字符串中总共出现了m_{u,v}次。让G_{∑,k}(v_{σ,k{,E_{∑)是∑^k的完整dBG。G_{S,k}S上的欧拉扩张(EE)问题要求用一组来自v_{∑,k}的节点和来自E_{Δ,k{的边的最小多集𝒜来扩展G_{S,k}S,使其成为欧拉扩张。请注意,扩展dBG在算法上比扩展一般有向多重图更具挑战性,因为dBG中的某些边根据定义是禁止的。扩展dBG是序列组装的核心[Medvedev等人,WABI 2007],这是生物信息学中最重要的任务之一。我们的工作相对于现有工作的新颖之处在于,我们不仅允许复制G_{S,k}的现有边,而且还允许添加新的边和节点,以便(i)连接多个组件,(ii)降低总EE成本。通过最短公共超弦的约简很容易证明G_{S,k}上的EE是NP-hard。我们进一步证明,通过3-SAT的高度非平凡约简,即使不允许添加新节点,EE仍然是NP-hard。因此,我们研究了dBG中EE的以下两个问题:1) 当G_{S,k}非弱连通时,我们被要求使用最小权生成树来连接其d>1分量,该树的边是底层G_{∑,k}上的路径,权重是相应的路径长度。这种连接方式确保不会添加新的不平衡节点。我们证明了这个问题可以在𝒪(|V|klogd+|E|)时间内得到解决,这几乎是最优的,因为G{S,k}的大小是\119978;(|V| klog d+|E |)。2) 当G{S,k}不平衡时,我们被要求将G{S、k}推广到H{S、k}(Vü,Eü𝒜),使得H{S,k}的每个节点都是平衡的,并且增加边的总数| \119964;|最小化。我们证明了这个问题可以在最佳的𝒪(k|V|+|E|+|𝒜)时间内得到解决。让我们强调一下,尽管我们的主要贡献是理论上的,但我们为上述两个问题设计的算法是实用的。我们将这两种算法结合在一种方法中,使任何dBG都是欧拉的;并通过实验表明,在实际dBG上获得的可行解的成本大大小于现有贪婪方法获得的相应成本。

引用为

朱利娅·贝尔纳迪尼、陈慧萍、格里戈里奥斯·卢基德斯、索隆·P·皮西斯、利恩·斯托吉和米歇尔·斯威林。《绘制布鲁因图形-欧拉里安》。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第12:1-12:18页,达格斯图尔-莱布尼兹-泽特鲁姆信息学院(2022)


将BibTex复制到剪贴板

@会议记录{bernardini_et_al:LIPIcs.CPM.2022.12,author={贝尔纳迪尼、朱莉亚和陈、惠平和卢基德斯、格里戈里奥斯和皮西斯、梭伦·P·斯托吉、利恩和斯威林、米歇尔·},title={{Making de Bruijn Graphs Eulerian}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={12:1--12:18},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.12},URN={URN:nbn:de:0030-drops-161391},doi={10.4230/LIPIcs.CPM.2022.12},annote={关键词:字符串算法,图算法,欧拉图,de Bruijn图}}
文件
背对背在线林登森林建设

作者:Golnaz Badkobeh、Maxime Crochemore、Jonas Ellert和Cyril Nicaud


摘要
Lyndon单词是一个在词典上小于所有非平凡循环的单词(例如ananas是Lyndon词;banana不是Lyndon词汇,因为它的循环abanan较小)。Lyndon森林(或等效的Lyndon表)确定了一个单词的最大Lyndon因子,并且具有很大的组合兴趣,例如当发现单词中的最大重复时。虽然计算林登森林的最佳线性时间算法是已知的,但没有一种是在线工作的。我们提出了以反向在线方式计算单词的林登森林的算法,从后向前处理输入单词。我们假设一个通用的有序字母表,即符号的唯一基本操作是比较less-equal-greater形式。我们从一个朴素的算法开始,并表明,尽管它具有二次最坏情况行为,但它已经在随机均匀绘制的单词上花费了预期的线性时间。然后,我们引入了一种更复杂的算法,在最坏的情况下需要线性时间。它借鉴了Bille等人(ICALP 2020)的离线算法,结合了反向在线设置所需的新技术。虽然这种背对背的计算方法相当自然(参见Franek和Liut,PSC 2019),但实现线性时间所需的步骤却令人惊讶地复杂。我们设想,我们的算法将有助于在线计算单词的最大重复次数。

引用为

Golnaz Badkobeh、Maxime Crochemore、Jonas Ellert和Cyril Nicaud。背对背在线林登森林建设。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学会议录(LIPIcs),第223卷,第13:1-13:23页,达格斯图尔宫-莱布尼兹-泽特鲁姆-富尔信息学(2022)


将BibTex复制到剪贴板

@会议记录{badkobeh_et_al:LIPIcs.CPM.2022.13,author={Badkobeh、Golnaz和Crochemore、Maxime和Ellert、Jonas和Nicaud、Cyril},title={{前后联机林登森林建设}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={13:1--13:23},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.13},URN={URN:nbn:de:0030-drops-161404},doi={10.4230/LIPIcs.CPM.2022.13},annote={关键词:林登因子分解,林登森林,林登表,林登数组,右林登树,笛卡尔树,标准因子分解,在线算法}}
文件
笛卡尔树子序列匹配

作者:小泉筑波、启武、三野拓哉、内内田顺介和有村弘基


摘要
Park等人[TCS 2020]观察到,两个(数字)字符串之间的相似性可以通过笛卡尔树来捕捉:字符串的笛卡尔树是通过选取字符串的最小值作为树的根递归构造的二叉树。如果等长的两个字符串的笛卡尔树同构,则称其为笛卡尔树匹配。Park等人[TCS 2020]提出了以下笛卡尔树子串匹配(CTMStr)问题:给定长度为n的文本字符串T和长度为m的模式字符串,找到文本字符串T的每个连续子串S=T[i.j],以便S和P笛卡尔树匹配。他们展示了如何在Õ(n+m)时间内解决这个问题。本文引入了笛卡尔树子序列匹配(CTMSeq)问题,该问题要求找到T的每个最小子串S=T[i.j],从而使S包含笛卡尔树与P匹配的子序列S'表示动态前置查询的更新/查询时间。通过使用合适的动态前导数据结构,我们获得了CTMSeq的O(mn log log n)-时间和O(n log m)-空间解。这与CTMSeq和密切相关的顺序保护子序列匹配(OPMSeq)形成了对比,Bose等人[IPL 1998]证明了OPMSeq]是NP-hard。

引用为

小泉筑波、启武、三野拓哉、内内田顺介和有村宏纪。笛卡尔树子序列匹配。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第14:1-14:18页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{oizumi_et_al:LIPIcs.CPM.2022.14,作者={Oizumi、Tsubasa和Kai、Takeshi和Mieno、Takuya和Inenaga、Shunsuke和Arimura、Hiroki},title={{笛卡尔树子序列匹配}},booktitle={第33届组合模式匹配年会(CPM 2022)},pages={14:1-14:18},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.14},URN={URN:nbn:de:0030-drops-161414},doi={10.4230/LIPIcs.CPM.2022.14},annote={关键词:字符串算法,模式匹配,笛卡尔树子序列匹配,顺序保持匹配,情节匹配}}
文件
最长公共子序列变量的多项式时间等价性和精化算法

作者:浅野裕一、杰斯珀·简森、林国辉、宫野英治、小野博太郎和北岛达通


摘要
计算两个序列的最长公共子序列(简称LCS)是计算机科学中的一个经典而又基本的问题。在本文中,我们研究了LCS的四种变体:重复有界最长公共子序列问题(RBLCS)[Yuichi Asahiro等人,2020年],多集受限公共子序列(MRCS)[Radu Stefan Mincu和Alexandru Popa,2018年],双面填充最长公共次序列问题(2FLCS),以及单面填充最长公共子序列问题(1FLCS)[Mauro Castelli等人,2017年;Mauro Castelli等,2019]。虽然原始LCS可以在多项式时间内求解,但所有这四个变量都是已知的NP-hard。最近,针对RBLCS提出了一种基于O(1.44225ⁿ)时间的精确动态规划(DP)算法[Yuichi Asahiro等人,2020年],其中两个输入序列具有长度n和poly(n)。我们首先确定MRCS、1FLCS和2FLCS都与RBLCS多项式等价。然后,我们为RBLCS设计了一种改进的基于DP-的算法,该算法在O(1.41422ⁿ)时间内运行,这意味着MRCS、1FLCS和2FLCS也可以在O(1.4 1422᢯。最后,我们给出了2FLCS的多项式时间2-近似算法。

引用为

浅野裕一、杰斯珀·简森、林国辉、宫野英二、小野博太郎和北岛达通。最长公共子序列变量的多项式时间等价性和精化算法。在第33届组合模式匹配年度研讨会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第15:1-15:17页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{asahiro_et_al:LIPIcs.CPM.2022.15,作者={Asahiro、Yuichi和Jansson、Jesper和Lin、Guohui和Miyano、Eiji和Ono、Hirotaka和Utashima、Tadatoshi},title={{最长公共子序列变量的多项式时间等价和精化算法}},booktitle={第33届组合模式匹配年会(CPM 2022)},pages={15:1-15:17},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.15},URN={URN:nbn:de:0030-drops-161424},doi={10.4230/LIPIcs.CPM.2022.15},annote={关键词:重复有界最长公共子序列问题、多集限制最长公共子序列问题、单侧填充最长公共子序列问题、双侧填充最长公共子序列问题、精确算法和近似算法}}
文件
关于具有相同长度-k子串的字符串

作者:朱利娅·贝尔纳迪尼、阿莱西奥·孔蒂、埃斯特班·加博里、罗伯托·格罗西、格里戈里奥斯·卢基德斯、索伦·佩西斯、朱利娅·蓬兹和米歇尔·斯威林


摘要
让Substr_k(X)表示给定字符串X对于给定整数k>0的长度-k子字符串集。我们研究了以下基本的字符串问题,称为z-最短𝒮k-等价字符串:给定一个由n个长度-k个字符串组成的集\119982-k和一个整数z>0,列出z个最短的不同字符串T₁,…,T_z,使得对于所有i∈[1,z],Subsr_k(T_i)=\119982;_k。在许多实际应用中,z-最短𝒮_k-等价字符串问题作为编码问题自然出现;例如,在数据隐私、数据压缩和生物信息学中。1-最短的𝒮_k等价字符串,称为最短的𝒮_k等价字符串,要求最短的字符串X,使得Substra_k(X)=𝒮_k。我们的主要贡献总结如下:-给定一个有向图G(V,E),有向中国邮递员(DCP)问题要求有一个最短的闭合行走,该行走至少访问G的每一条边一次。使用最小成本流算法,DCP可以在[E||V|)时间内求解。通过非平凡约简,我们证明了如果二进制字母表上的最短等价字符串具有近线性时间解,那么DCP也是如此。-我们证明了由最短𝒮_k-等价字符串输出的最短字符串的长度以𝒪(k+n²)为单位。我们通过证明z个最短字符串的总长度为𝒪(zk+zn²+z²n)来推广这个界。我们通过显示一般有向图中z最短欧拉游动的总长度的(渐近紧)界来推导这些上界。-我们提出了一种在𝒪(nk+n²log²n+zn²logn+|output|)时间内求解z最短𝒮k等价字符串的算法。如果z=1,时间变为𝒪(nk+n²log²n),因为输入的大小是\119978;(nk+n²),输出的大小是。

引用为

朱利娅·贝尔纳迪尼、阿莱西奥·孔蒂、埃斯特班·加博里、罗伯托·格罗西、格里戈里奥斯·卢基德斯、索隆·P·皮西斯、朱利亚·蓬兹和米歇尔·斯威林。《相同长度的弦乐-k衬底》。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第16:1-16:17页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{bernardini_et_al:LIPIcs.CPM.2022.16,author={贝尔纳迪尼、朱莉亚和孔蒂、阿莱西奥和加博里、埃斯特班和格罗西、罗伯托和卢基德斯、格里戈里奥斯和皮西斯、索隆·P和蓬兹、朱莉娅和斯威林、米歇尔·},title={{在具有相同长度的字符串上-k个子字符串}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={16:1--16:17},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.16},URN={URN:nbn:de:0030-drops-161439},doi={10.4230/LIPIcs.CPM.2022.16},annote={关键词:字符串算法,单词组合,de Bruijn图,中国邮差}}
文件
具有统一操作成本的标准化编辑距离是一个度量

作者:Dana Fisman、Joshua Grogin、Oded Margalit和Gera Weiss


摘要
我们证明了当所有编辑操作的成本相同时,[Marzal and Vidal 1993]中提出的标准化编辑距离是一个度量。这弥补了文献中长期存在的差距,几位作者指出,在一般情况下,该距离不满足三角形不等式,并且不知道在统一情况下是否满足该距离,即所有编辑成本相等。当人们认为Marzal和Vidal的距离不是度量时,我们将该度量与文献中提出的两个标准化度量进行了比较,并确定了一些关键属性,解释了为什么原始距离(现在也被称为度量)对于某些应用来说更好。我们的检查是从形式验证的角度进行的,但属性及其重要性是以不确定应用程序的方式陈述的。

引用为

达娜·菲斯曼(Dana Fisman)、约书亚·格罗金(Joshua Grogin)、奥德·马加利特(Oded Margalit)和杰拉·韦斯(Gera Weiss)。具有统一操作成本的标准化编辑距离是一个度量。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第17:1-17:17页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@在诉讼中{fisman_et_al:LIPIcs.CPM.2022.17,作者={费斯曼、达纳和格罗金、约书亚和玛加利特、奥德和韦斯、杰拉},title={{统一作业成本的标准化编辑距离是公制}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={17:1--17:17},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.17},URN={URN:nbn:de:0030-drops-161446},doi={10.4230/LIPIcs.CPM.2022.17},annote={关键词:编辑距离,规范化距离,三角形不等式,公制}}
文件
动态k-失配问题

作者:拉斐尔·克利福德(Raphaöl Clifford)、巴韦·加鲁里科斯基(PawełGawrychowski)、托马斯·科库马卡(Tomasz Kociumaka)、丹尼尔·马丁(Daniel P.Martin)和普尔泽米斯·瓦夫·乌兹南斯基


摘要
文本到模式的汉明距离问题要求计算长度为m的给定模式与长度为n≥m的给定文本的所有长度为m子字符串之间的汉明距。我们将重点放在该问题研究得很好的k失配版本上,其中仅当距离不超过阈值k时才需要返回距离。此外,我们假设n≤2m(通常,可以将文本划分为重叠块)。在这项工作中,我们为支持两种操作的k不匹配问题的动态版本开发了数据结构:更新在模式或文本中执行单字母替换,而查询在给定索引i的情况下,返回模式和从位置i开始的文本子串之间的汉明距离,或报告距离超过k。首先,我们描述了一个具有更新时间和查询时间的简单数据结构。通过相当复杂的技术,我们证明了更新时间和查询时间也是可以实现的。这两种解决方案可能为m^{Ω(1)}≤k≤√m的动态k失配问题提供了一个本质上最优的权衡:我们证明,在这种情况下,在3SUM猜想的条件下,在n^{𝒪(1)}-时间初始化后,不能同时实现所有操作(更新和查询)的k^{1-Ω(1)}时间。对于k≥√m,相同的下限不包括每次操作达到m^{1/2-Ω(1)}的时间。众所周知,对于恒定大小的字母,这一点非常严格:Clifford等人(STACS 2018)在这种情况下已经实现了每次操作的时间(√m),但他们对于大字母的解决方案每次操作都要花费时间(m^{3/4})。我们通过开发一个权衡算法来改进和扩展后一个结果,该算法在给定参数1≤x≤k的情况下,实现了更新时间(m/k+√{mk/x})和查询时间(x)。特别是,对于k≥√m,适当选择x会产生每次操作的时间,即当仅提供平凡阈值k=m时的时间(m^{2/3})。

引用为

拉斐尔·克利福德(Raphaöl Clifford)、巴韦·加鲁里科斯基(PawełGawrychowski)、托马斯·科库马卡(Tomasz Kociumaka)、丹尼尔·马丁(Daniel P.Martin)和普尔泽米斯·瓦夫·乌兹南斯基。动态k-失配问题。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第18:1-18:15页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{clifford_et_al:LIPIcs.CPM.2022.18,author={Clifford,Rapha\“{e} 我加鲁里科斯基、巴威、科齐马卡、托马斯和马丁、丹尼尔·P和乌兹纳{n} 滑雪板,Przemys{\l}aw},title={{动态k-不匹配问题}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={18:1--18:15},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.18},URN={URN:nbn:de:00030-drops-161454},doi={10.4230/LIPIcs.CPM.2022.18},annote={关键词:模式匹配,汉明距离,动态算法}}
文件
最小高度的可转位弹性方正图

作者:尼古拉·里佐和维利·梅基宁


摘要
可索引的弹性创始人图最近被提出作为支持快速模式匹配查询的基因组学应用程序的数据结构。考虑将多序列比对MSA[1..m,1..n]分割为b块MSA[1.m,1..j₁],MSA[1..m,j𔔋+1..j⁄],…,MSA[1..m,j_{b-1}+1..n]。通过在每个块中合并删除间隙符号后等效的字符串,将字符串作为块的节点,将原始MSA连接作为边,从而获得弹性创建图(EFG)。如果节点标签仅作为那些从同一块的节点开始的路径的前缀出现,我们将弹性创始人图称为可索引的。Equi等人(ISAAC 2021)表明,此类EFG支持快速模式匹配,并研究了它们的构造,即最大化块数和最小化块的最大长度,但最大化块中不同字符串的最大数量的情况尚待解决,我们称之为图高。对于简化的无间隙设置,我们给出了一个O(mn)时间算法,通过结合分割算法和方正图中的先前结果,来找到MSA的分割,以最小化生成的可索引方正图的高度。对于一般设置,已知技术在常数字母∑上产生了一个线性时间参数化解,在最坏情况下取时间O(mn²log |∑|),因此我们研究了前缀感知高度的精确度量,它省略了作为另一个考虑字符串的前缀的字符串的计数。最小化最大前缀感知高度的可索引EFG为原始高度提供了一个下限:通过利用Belazzougui等人(CPM 2021)从MSA行构建的后缀树和在恒定时间内回答加权祖先查询的数据结构,我们给出了一个O(mn)-该高度下最优EFG的时间算法。

引用为

尼古拉·里佐和维利·梅基宁。最小高度的可转位弹性方正图。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第19:1-19:19页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{rizzo_et_al:LIPIcs.CPM.2022.19,作者={Rizzo、Nicola和M\“{a} 激动素,维利},title={{最小高度的可转位弹性方正图}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={19:1--19:19},series={莱布尼茨国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.19},URN={URN:nbn:de:0030-drops-161467},doi={10.4230/LIPIcs.CPM.2022.19},annote={关键词:多序列比对、模式匹配、数据结构、分段算法、动态编程、后缀树}}
文件
次线性时间中最长的回文子串

作者:Panagiotis Charalampopoulos、Solon P.Pissis和Jakub Radoszewski


摘要
我们重温了计算最长字母子串的经典算法问题。这个问题可以通过著名的𝒪(n)-时间算法来解决[Manacher,J.ACM 1975],其中n是输入字符串的长度。对于小字母,\119978(n) 在单词RAM计算模型中不一定是最优的:字母[0,σ)上的长度为n的字符串可以存储在𝒪(n logσ/log n)空间中,并在𝒴。我们设计了一个简单的计算最长回文子串的𝒪(n logσ/log n)时间算法。特别是,当σ=2^{o(log n)}时,我们的算法在次线性时间内工作。我们的技术依赖于周期性和Kempa和Kociumaka[STOC 2019]的𝒪(n logσ/log n)-时间可构建数据结构,该数据结构在𝒪(1)时间内回答最长的常见扩展查询。

引用为

Panagiotis Charalampopoulos、Solon P.Pissis和Jakub Radoszewski。次线性时间中最长的回文子串。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第20:1-20:9页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{charalampopoulos_et_al:LIPIcs.CPM.2022.20,作者={Charalampopoulos,Panagiotis和Pissis,Solon P.和Radoszewski,Jakub},title={{次线性时间中最长的回文子串}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={20:1--20:9},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.20},URN={URN:nbn:de:0030-drops-161472},doi={10.4230/LIPIcs.CPM.2022.20},annote={关键词:字符串算法,最长回文子串,最长公共扩展}}
文件
双偏序模式的置换模式匹配

作者:劳伦特·布尔托(Laurent Bulteau)、纪尧姆·费尔丁(Guillaume Fertin)、文森特·朱格(Vincent Jugé)和圣维亚莱特(Stéphane Vialette)


摘要
本文研究了双偏序模式匹配(DPOP匹配)问题,它是置换模式匹配问题的自然扩展。置换模式匹配以σ和π两个置换作为输入,并询问π中是否存在σ的出现;而DPOP匹配采用在同一集合X和置换π上定义的两个偏序P_v和P_P,并询问π中是否存在值(位置)与P_v(位置)一致的|X|元素。Posets P_v和P_P的目的是放松置换σ以前施加的条件,因为σ在位置和值上都产生总阶。我们的问题通常是NP-hard(如排列模式匹配),我们考虑对输入的几个参数/属性的限制,例如,限定模式的大小,假设偏序集的对称性(即P_v和P_P相同),假设一个部分序是总(分别是弱)序,限定偏序集中最长链/反链的长度,或禁止π中的特定模式。对于每一个这样的限制,我们提供的结果共同为问题的算法复杂性提供了一个(n几乎)完整的前景。

引用为

Laurent Bulteau、Guillaume Fertin、Vincent Jugé和Stéphane Vialette。双部分序模式的置换模式匹配。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第21:1-21:17页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{bulteau_et_al:LIPIcs.CPM.2022.21,author={Bulteau、Laurent和Fertin、Guillaume和Jug、Vincent和Vialette、St{e} 显影},title={{双偏序模式的置换模式匹配}},booktitle={第33届组合模式匹配年会(CPM 2022)},pages={21:1-21:17},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.21},URN={URN:nbn:de:0030-drops-161481},doi={10.4230/LIPIcs.CPM.2022.21},annote={关键词:偏序、排列、模式匹配、算法复杂性、参数化复杂性}}
文件
弦所有旋转最短覆盖的线性时间计算

作者:马克西姆·克罗切莫尔(Maxime Crochemore)、科斯塔斯·伊利奥普洛斯(Costas S.Iliopoulos)、雅库布·拉多舍夫斯基(Jakub Radoszewski)、沃杰西奇·莱特(Wojciech Rytter)、朱利叶斯·斯特拉辛斯基(Juliusz Straszyñski)、托马斯·瓦


摘要
我们证明,在单词RAM模型中,长度为n的字符串在整数字母表上的所有旋转的最短覆盖长度可以在𝒪(n)时间内计算,从而改进了Crochemore等人的𝒪(n log n)-时间算法(Theor.Comput.Sci.,2021)。与Crochemore等人类似,我们使用了弦S的旋转覆盖与S³中的种子和正方形的关系。字符串S的关键参数是S的所有旋转的本原覆盖数ξ(S)。我们首先证明Crochemore等人的算法的时间复杂度可以稍微提高,从而导致时间复杂度ξ(S)。然而,我们也证明了在最坏情况下ξ(S)是Ω(|S|log|S|)。这是获得线性时间算法的主要困难。我们克服了这个问题,获得了字符串中运行的另一个应用程序。

引用为

马克西姆·克罗切莫尔(Maxime Crochemore)、科斯塔斯·伊利奥普洛斯(Costas S.Iliopoulos)、雅库布·拉多舍夫斯基(Jakub Radoszewski)、沃杰西奇·莱特(Wojciech Rytter)、朱利叶斯·斯特拉辛斯基(Juliusz Straszyñski)、托马斯·瓦尔。弦所有旋转最短覆盖的线性时间计算。第33届组合模式匹配年会(CPM 2022)。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第22:1-22:15页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@在诉讼中{番红花_et_al:LIPIcs.CPM.2022.22,author={Crochemore、Maxime和Iliopoulos、Costas S.和Radoszewski、Jakub和Rytter、Wojciech和Straszy{n} 滑雪板朱利叶斯和沃尔(Juliusz and Wale)、托马兹和祖巴(Tomasz and Zuba)、威克托(Wiktor)、,title={{字符串所有旋转最短覆盖的线性时间计算}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={22:1--22:15},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.22},URN={URN:nbn:de:0030-drops-161495},doi={10.4230/LPIcs.CPM.202.22},annote={关键词:覆盖,准周期,循环旋转,种子,运行}}
文件
2D字符串的矩形瓷砖盖

作者:雅库布·拉多舍夫斯基(Jakub Radoszewski)、沃伊切赫·莱特(Wojciech Rytter)、朱利叶斯·斯特拉辛斯基(Juliusz Straszyñski)、托马斯·瓦尔南(Tomasz Wale nn)和维克托·祖巴(Wiktor Zuba)


摘要
我们考虑了2D-string的瓦片覆盖,它是1D-string周期性的推广。我们说,如果S可以分解为非重叠的2D链,每个链都等于a或a^T,其中a^T是a的转置,那么2D链a就是2D链S的瓦片覆盖层。我们证明,对于任意ε>0,N大小的2D环的所有瓦片覆盖都可以在𝒪(N^{1+ε})时间内计算。我们还展示了一种线性时间算法,用于计算作为2D字符串的瓦片覆盖的所有1D字符串。

引用为

雅库布·拉多舍夫斯基(Jakub Radoszewski)、沃伊切赫·莱特(Wojciech Rytter)、朱利叶斯·斯特拉辛斯基(Juliusz Straszyñski)、托马斯·韦恩(Tomasz Wale nn)和维克托·祖巴(Wiktor Zuba)。2D字符串的矩形瓷砖盖。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第23:1-23:14页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{radoszewski_et_al:LIPIcs.CPM.2022.23,author={Radoszewski、Jakub和Rytter、Wojciech和Straszy{n} 滑雪板朱利叶斯和沃尔(Juliusz and Wale)、托马兹和祖巴(Tomasz and Zuba)、威克托(Wiktor)、,title={{2D-Strings}}的矩形瓷砖盖,booktitle={第33届组合模式匹配年会(CPM 2022)},页数={23:1--23:14},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.23},URN={URN:nbn:de:0030-drops-161508},doi={10.4230/LPIcs.CPM.202.23},annote={关键词:瓦片覆盖,周期,高效算法}}
文件
根据树叶上的顺序对树进行重新排序

作者:Laurent Bulteau、Philippe Gambette和Olga Seminck


摘要
在本文中,我们研究了两个问题,即重新排序树以适应作为输入的树叶上的顺序,这两个问题在生物信息学、OTCM和OTDE的系统发育树比较中已经介绍过。第一个问题是找到一个顺序,使叶上输入顺序的反转次数最小化,而第二个问题是从树中删除最小的叶数,使其与其余叶上的输入顺序一致。我们证明了当最大度无界时,这两个问题都是NP-完全问题,同时也是树对齐问题,回答了Henning Fernau、Michael Kaufmann和Mathias Poths在2010年提出的两个问题。我们提供了一个OTDE的多项式时间算法,其中最大度由一个常数和一个参数小于要删除的叶数的FPT算法限定。我们的结果不仅对生物信息学有实际意义,而且对数字人文学科也有实际意义。例如,评估从层次聚类算法获得的树状图与其叶子的时间顺序的一致性。我们探索了我们的结果在树上的实际应用的可能性,这些树是通过对法国作家的文学作品进行聚类而获得的,在模拟数据上,我们使用Python中的算法实现。

引用为

Laurent Bulteau、Philippe Gambette和Olga Seminck。根据树叶上的顺序对树进行重新排序。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第24:1-24:15页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{bulteau_et_al:LIPIcs.CPM.2022.24,author={Bulteau、Laurent和Gambette、Philippe和Seminck、Olga},title={{根据树叶上的顺序对树重新排序}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={24:1--24:15},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.24},URN={URN:nbn:de:0030-drops-161516},doi={10.4230/LIPIcs.CPM.2022.24},annote={关键词:树,聚类,顺序,排列,反转,FPT算法,NP-hardness,树绘制,OTCM,OTDE,TTDE}}
文件
字符串集合BWT变量的理论和实验分析

作者:大卫·森扎托和苏珊娜·利普塔克


摘要
Mantaci等人[Theor.Comput.Sci.,2007]引入的扩展Burrows-Wheeler-Transform(eBWT)是Burrows-Heeler-Conform(BXT)到多字符串集的推广。虽然原始的BWT是基于词典顺序的,但eBWT使用了欧米伽顺序,这在重要方面与词典顺序不同。有许多工具可用于计算字符串集合的BWT;然而,在大多数情况下,它们生成的数据结构与最初定义的数据结构以及彼此不同。在本文中,我们从理论和实践两个角度回顾了这些BWT变体之间的差异,并在几个具有不同特征的实际数据集上进行了比较。我们发现,根据数据集的特征,差异可能很大,并且在许多高度相似的短序列集合中差异最大。广泛使用的参数r,即BWT的运行次数,也显示了不同BWT变体之间的显著差异;在我们的数据集上,其变化的乘数高达4.2。

引用为

大卫·森扎托(Davide Cenzato)和苏珊娜·利普塔克(Zsuzsanna Lipták)。字符串集合BWT变量的理论和实验分析。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第25:1-25:18页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{cenzato_et_al:LIPIcs.CPM.2022.25,author={Cenzato、Davide和Lipt\'{a} k个,Zsuzsanna},title={{字符串集合的BWT变体的理论和实验分析}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={25:1--25:18},series={Leibniz国际信息学论文集(LIPIcs)},ISBN={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.25},URN={URN:nbn:de:0030-drops-161529},doi={10.4230/LIPIcs.CPM.2022.25},annote={关键词:Burrows-Wheeler-Transform,扩展BWT,字符串集合,重复性度量,r,压缩}}
文件
{RePair}语法是斐波那契单词最小的语法

作者:Takuya Mieno、Shunsuke Inenaga和Takashi Horiyama


摘要
基于语法的压缩是一种无损数据压缩方案,它使用只生成w的无上下文语法表示给定字符串w。虽然计算生成给定字符串w的最小语法通常是NP-hard,但已经提出了一些在实践中运行良好的多项式时间基于语法的压缩器。RePair由Larsson和Moffat于1999年提出,是一种基于语法的压缩器,它递归地替换字符串中所有可能出现的最频繁二元数。由于可以选择多个最频繁的二元数来替换,RePair的不同实现可能会导致不同的语法。在本文中,我们证明了产生斐波那契单词F_k的最小文法可以用RePair完全刻画,其中F_k表示第k个斐波那奇单词。也就是说,任何RePair实现生成的F_k的所有语法都是F_k最小的语法,没有其他语法可以是F_k最小的语法。据我们所知,Fibonacci单词是RePair最适合的第一个非平凡的无限字符串族。

引用为

Takuya Mieno、Shunsuke Inenaga和Takashi Horiyama。{RePair}语法是斐波那契单词最小的语法。在第33届组合模式匹配年度研讨会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第26:1-26:17页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{mieno_et_al:LIPIcs.CPM.2022.26,author={三野、Takuya和Inenaga、Shunsuke和Horiyama、Takashi},title={{\{RePair\}语法是斐波那契单词的最小语法}},booktitle={第33届组合模式匹配年会(CPM 2022)},页码={26:1-26:17},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.26},URN={URN:nbn:de:0030-drops-161530},doi={10.4230/LIPIcs.CPM.2022.26},annote={关键词:基于语法的压缩,斐波那契单词,RePair,最小语法问题}}
文件
Run-Length编码字符串上的最小缺词

作者:赤木图鲁、冈部昭太郎、三野拓彦、中岛由通和英奈嘉


摘要
如果w在T中没有出现(作为子串),并且w的所有适当子串都出现在T中,则字符串w被称为另一个字符串T的最小缺失字。报告给定长度n的字符串T中MAW(T)集合的最新数据结构需要O(n)空间,可以在O(n|)查询时间。本文提出了从字符串的压缩表示中计算MAW的问题。特别是,我们关注字符串的最基本压缩表示,即运行长度编码(RLE),它用^p表示相同字符a的每次最大运行,其中p是运行的长度。设m为字符串T的RLE-size。使用RLE将MAW分类为五个不相交集ℳ₁、\8499neneneev、𔰄、[8499]、\8324]、𔣧,我们根据RLE-sizem给出了i=1,2,4,5时\8499»_i中MAW数量的匹配上界和下界,但𔯾除外其大小不受m的限制。然后,我们提出了一个紧凑的O(m)空间数据结构,它可以在最优O(|MAW(T)|)时间内报告所有MAW。

引用为

赤木图鲁、冈部昭太郎、三野拓彦、中岛由通和英奈嘉。运行长度编码字符串上的最少缺少单词。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第27:1-27:17页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{akagi_et_al:LIPIcs.CPM.2022.27,作者={赤城、Tooru和Okabe、Kouta和Mieno、Takuya和Nakashima、Yuto和Inenaga、Shunsuke},title={{Run-Length编码字符串上的最小缺词}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={27:1--27:17},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.27},URN={URN:nbn:de:0030-drops-161545},doi={10.4230/LIPIcs.CPM.2022.27},annote={关键词:字符串算法,单词组合,最少缺少单词,运行长度编码}}
文件
子串一致等价关系下模式匹配问题的并行算法

作者:达瓦亚夫·贾加尔赛汗(Davaajav Jargalsaikhan)、迪普塔拉马·亨德良(Diptarama Hendrian)、吉中良彦(Ryo Yoshinaka)和新原良美(Ayumi Shinohara)


摘要
给定字母表上的文本和模式,模式匹配问题将搜索文本中出现的所有模式。等价关系≈是子串一致等价关系(SCER),如果对于两个字符串X和Y,X≈Y意味着|X|=|Y|,并且对于所有1≤i≤j≤|X|,X[i:j]≈Y[i:j]。在本文中,我们提出了一种有效的并行算法,用于任何SCER下的模式匹配。对于长度为m的模式和长度为n的文本,我们的算法在优先级并发读并发写并行随机访问机器(P-CRCW PRAM)上运行,时间为O(ξ_m^t log³m),功为O(τ_n^t+ξ_m ^ t log²m),ξ_m^w是依赖于SCER的参数,通常在n和m中分别为线性。

引用为

Davaajav Jargalsaikhan、Diptarama Hendrian、Ryo Yoshinaka和Ayumi Shinohara。子串一致等价关系下模式匹配问题的并行算法。在第33届组合模式匹配年度研讨会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第28:1-28:21页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{jargalsaikhan_et_al:LIPIcs.CPM.2022.28,作者={Jargalsaikhan,Davaajav和Hendrian,Diptarama和Yoshinaka,Ryo和Shinohara,Ayumi},title={{子串一致等价关系下模式匹配问题的并行算法}},booktitle={第33届组合模式匹配年会(CPM 2022)},页数={28:1--28:21},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.28},URN={URN:nbn:de:0030-drops-161552},doi={10.4230/LIPIcs.CPM.2022.28},annote={关键词:并行算法,子串一致等价关系,模式匹配}}
文件
利用字符串压缩有效构建重复文本的BWT

作者:迭戈·迪亚斯·多明格斯和冈萨洛·纳瓦罗


摘要
我们提出了一种新的半外部算法,该算法在线性期望时间内构建Bauer等人(也称为BCR BWT)的Burrows-Wheeler变换变体。当输入量大且重复时,我们的方法使用压缩技术来降低计算成本。具体地说,我们建立在诱导后缀排序(ISS)的基础上,并使用运行长度和语法压缩来保持中间结果的紧凑形式。我们的压缩格式不仅节省了空间,而且加快了所需的计算。我们的实验表明,当文本重复时,可以节省大量的空间和计算时间。平均而言,我们比基线压缩方法快3.7倍,同时保持类似的内存消耗。这些结果使我们的方法脱颖而出,成为唯一一种(据我们所知)可以在大约7.3小时内构建25个人类基因组(75GB)集合的BCR BWT,并且只使用27GB的工作内存。

引用为

迭戈·迪亚斯·多明格斯和冈萨洛·纳瓦罗。使用字符串压缩有效地构造重复文本的BWT。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第29:1-29:18页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)


将BibTex复制到剪贴板

@会议记录{diazdominguez_et_al:LIPIcs.CPM.2022.29,作者={D{'\i}az-Dom{'\i}nguez,Diego和Navarro,Gonzalo},title={{使用字符串压缩为重复文本高效构造BWT}},booktitle={第33届组合模式匹配年度研讨会(CPM 2022)},页数={29:1--29:18},series={Leibniz国际信息学论文集(LIPIcs)},国际标准图书编号={978-3-95977-234-1},ISSN={1868-8969},年份={2022},体积={223},editor={Bannai、Hideo和Holub,Jan},publisher={Schloss Dagstuhl--Leibniz Zentrum f{\“u}r Informatik},地址={Dagstuhl,德国},URL={https://drops.dagstuhl.de/entities/document/10.4230/LIPIcs.CPM.2022.29},URN={URN:nbn:de:0030-drops-161564},doi={10.4230/LIPIcs.CPM.2022.29},annote={关键词:BWT,字符串压缩,重复文本}}

过滤器


问题/备注/反馈
X(X)

Dagstuhl出版社反馈


感谢您的反馈!

已提交反馈

无法发送消息

请稍后再试或发送电子邮件