文件Open Access徽标

字符串集合BWT变量的理论和实验分析

作者 戴维德·森扎托 , 苏珊娜·利普塔克



PDF格式
缩略图PDF

文件

LIPIcs公司。CPM.2022.25.pdf格式
  • 文件大小:1.84 MB
  • 18页

文件标识符

作者详细信息

戴维德·森扎托
  • 意大利维罗纳大学计算机科学系
苏珊娜·利普塔克
  • 意大利维罗纳大学计算机科学系

致谢

我们要感谢马西米利亚诺·罗西为我们提供了一些经过清洗和过滤的数据集。

引用为获取BibTex

大卫·森扎托(Davide Cenzato)和苏珊娜·利普塔克(Zsuzsanna Lipták)。字符串集合BWT变量的理论和实验分析。在第33届组合模式匹配年会(CPM 2022)上。莱布尼茨国际信息学论文集(LIPIcs),第223卷,第25:1-25:18页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2022)
https://doi.org/10.4230/LIPIcs.CPM.2022.25

摘要

Mantaci等人[Theor.Comput.Sci.,2007]引入的扩展Burrows-Wheeler-Transform(eBWT)是Burrows-Heeler-Conform(BXT)到多字符串集的推广。虽然原始的BWT是基于词典顺序的,但eBWT使用了欧米伽顺序,这在重要方面与词典顺序不同。有许多工具可用于计算字符串集合的BWT;然而,在大多数情况下,它们生成的数据结构与最初定义的数据结构以及彼此不同。在本文中,我们从理论和实践两个角度回顾了这些BWT变体之间的差异,并在几个具有不同特征的实际数据集上进行了比较。我们发现,根据数据集的特征,差异可能很大,并且在许多高度相似的短序列集合中差异最大。广泛使用的参数r,即BWT的运行次数,也显示了不同BWT变体之间的显著差异;在我们的数据集上,其变化的乘数高达4.2。

主题分类

ACM科目分类
  • 计算理论→数据压缩
  • 应用计算→生物信息学
关键词
  • Burrows-Wheeler变换
  • 扩展BWT
  • 字符串集合
  • 重复性措施
  • 第页
  • 压缩

韵律学

工具书类

  1. 赤木图鲁(Tooru Akagi)、福纳克西三井(Mitsuru Funakoshi)和英内加顺介(Shunsuke Inenaga)。串式压缩机的灵敏度和重复性测量。CoRR,abs/2107.08612021。网址:http://arxiv.org/abs/2107.08615.
  2. Hideo Bannai、Travis Gagie和Tomohiro I.完善r指数。西奥。计算。科学。,812:96-108, 2020. 网址:https://doi.org/10.1016/j.tcs.2019.08.005.
  3. 马库斯·鲍尔(Markus J.Bauer)、安东尼·考克斯(Anthony J.Cox)和乔瓦娜·罗森(Giovanna Rosone)。构造和反转字符串集合BWT的轻量级算法。西奥。计算。科学。,483:134-148, 2013. 网址:https://doi.org/10.1016/j.tcs.2012.02.002.
  4. 杰森·本特利(Jason W.Bentley)、丹尼尔·吉布尼(Daniel Gibney)和莎玛·桑卡琴(Sharma V.Thankachan)。关于BWT的复杂性,通过字母表重新排序最小化运行。第28届欧洲算法年会(ESA 2020),LIPIcs第173卷,第15:1-15:13页,2020年。网址:https://doi.org/10.4230/LIPS.ESA.2020.15.
  5. 保拉·博尼佐尼(Paola Bonizzoni)、吉安卢卡·德尔拉·维多瓦(Gianluca Della Vedova)、尤里·皮罗拉(Yuri Pirola)、马克·普雷维塔利(Marco Previtali)和拉斐拉·里齐(Raffaella Rizzi)。多线程多字符串Burrows-Wheeler变换和最长公共前缀数组。J.计算。生物学,26(9):948-9612019年。网址:https://doi.org/10.1089/cmb.2018.0230.
  6. Christina Boucher、Davide Cenzato、Zsuzsanna Lipták、Massimiliano Rossi和Marinella Sciortino。计算原始eBWT更快、更简单、内存更少。程序中。第28届字符串处理和信息检索国际研讨会(SPIRE 2021),LNCS第12944卷,第129-142页,2021年。网址:https://doi.org/10.1007/978-3-030-86692-1_11.
  7. Christina Boucher、Ondrej Cvacho、Travis Gagie、Jan Holub、Giovanni Manzini、Gonzalo Navarro和Massimiliano Rossi。PFP压缩后缀树。程序中。第23届算法工程与实验研讨会(ALENEX 2021),第60-72页。SIAM,2021年。网址:https://doi.org/10.1137/1.9781611976472.5.
  8. 克里斯蒂娜·鲍彻(Christina Boucher)、特拉维斯·加吉(Travis Gagie)、阿兰·库内尔(Alan Kuhnle)、本·兰美德(Ben Langmead)、乔瓦尼·曼奇尼(Giovanni Manzini)和塔赫尔·门(Taher Mu。构建大型BWT的无前缀解析。算法分子生物学。,14(1):13:1-13:15, 2019. 网址:https://doi.org/10.1186/s13015-019-0148-5.
  9. 迈克尔·伯罗斯(Michael Burrows)和大卫·J·惠勒(David J.Wheeler)。一种块排序无损数据压缩算法。《技术报告124》,数字设备公司,1994年。谷歌学者
  10. Bastien Cazaux和Eric Rivals。通过Aho-Corasick自动机链接BWT和XBW:应用程序到运行时编码。程序中。第30届组合模式匹配年度研讨会(CPM 2019),LIPIcs第128卷,第24:1-24:20页,2019年。网址:https://doi.org/10.4230/LIPIcs.CPM.2019.24.
  11. Shubham Chandak、Kedar Tatwawadi、Idoia Ochoa、Mikel Hernaez和Tsachy Weissman。SPRING:用于FASTQ数据的下一代压缩机。生物信息。,35(15):2674-2676, 2019. 网址:https://doi.org/10.1093/bioinformatics/bty1015.
  12. 达斯汀·科巴斯(Dustin Cobas)、特拉维斯·加吉(Travis Gagie)和冈萨洛·纳瓦罗(Gonzalo Navarro)。快速小样本r指数。程序中。第32届组合模式匹配年会(CPM 2021),LIPIcs第191卷,第13:1-13:16页。达格斯图尔-莱布尼兹·泽特鲁姆宫(Schloss Dagstuhl-Leibniz-Zentrum für Informatik),2021年。网址:https://doi.org/10.4230/LIPIcs.CPM.2021.13.
  13. 安东尼·考克斯(Anthony J.Cox)、马库斯·鲍尔(Markus J.Bauer)、托比亚斯·雅科比(Tobias Jakobi)和乔瓦娜·罗森(Giovanna Rosone)。利用Burrows-Wheeler变换对基因组序列数据库进行大规模压缩。生物信息。,28(11):1415-1419, 2012. 网址:https://doi.org/10.1093/bioinformatics/bts173.
  14. 迭戈·迪亚斯·多明格斯和冈萨洛·纳瓦罗。从语法压缩DNA测序读取高效构建扩展的BWT。CoRR,abs/2102.039612021。网址:http://arxiv.org/abs/1202.03961.
  15. 罗伯特·C·埃德加。更新16S核糖体RNA OTU的97%识别阈值。生物信息。,34(14):2371-2375, 2018. 网址:https://doi.org/10.1093/bioinformatics/bty113.
  16. 拉维尼亚·埃吉迪(Lavinia Egidi)、费利佩·卢扎(Felipe A.Louza)、乔瓦尼·曼齐尼(Giovanni Manzini)和吉尔赫梅·特尔斯(Guilherme P.Telles)。带应用程序的序列集合的外部内存BWT和LCP计算。算法分子生物学。,14(1):6:1-6:15, 2019. 网址:https://doi.org/10.1186/s13015-019-0140-0.
  17. 保罗·费拉吉纳、特拉维斯·加吉和乔瓦尼·曼齐尼。外部内存中的轻量级数据索引和压缩。算法,63(3):707-7302012。网址:https://doi.org/10.1007/s00453-011-9535-0.
  18. 保罗·费拉吉纳(Paolo Ferragina)、法布里奇奥·卢西奥(Fabrizio Luccio)、乔瓦尼·曼齐尼(Giovanni Manzini)和S.穆图克里希南(S.Muthukrishnan)。构建标记树以获得最佳简洁性,甚至更高的简洁性。程序中。第46届IEEE计算机科学基础研讨会(FOCS 2005),第184-193页,2005年。网址:https://doi.org/10.109/SFCS.2005.69.
  19. 保罗·费拉吉纳(Paolo Ferragina)、法布里奇奥·卢西奥(Fabrizio Luccio)、乔瓦尼·曼齐尼(Giovanni Manzini)和S.穆图克里希南(S.Muthukrishnan)。使用应用程序压缩和索引标记的树。美国医学杂志,57(1):4:1-4:332009。网址:https://doi.org/10.1145/1613676.1613680.
  20. 约翰·菲舍尔和弗洛里安·库皮茨。sais-lite-lcp。https://github.com/kurpicz/sais-lite-lcp。访问时间:2022-02-05。
  21. Travis Gagie、Garance Gourdel和Giovanni Manzini。压缩对齐的读取集并为其编制索引。程序中。第21届生物信息学算法国际研讨会(WABI 2021),LIPIcs第201卷,第13:1-13:21页,2021年。网址:https://doi.org/10.4230/LIPIcs.WABI.2021.13.
  22. Travis Gagie、Gonzalo Navarro和Nicola Prezza。BWT中的最优时间文本索引运行有界空间。程序中。第39届ACM-SIAM离散算法研讨会(SODA 2018),第1459-1477页,2018。网址:https://doi.org/10.1137/1.9781611975031.96.
  23. Joseph Yossi Gil和David Allen Scott。双射字符串排序转换。CoRR,abs/1201.30772012年。网址:http://arxiv.org/abs/1201.3077.
  24. 萨拉·朱利安尼(Sara Giuliani)、顺素克·伊内纳加(Shunsuke Inenaga)、苏桑娜·利普塔克(Zsuzsanna Lipták)、尼古拉·普雷扎(Nicola Prezza)、玛丽内拉·西奥尔蒂诺(Marinella Sciortino)和安娜·托法内。关于Burrows-Wheeler变换的运行次数的新结果。程序中。第47届国际计算机科学理论与实践发展趋势会议(SOFSEM 2021),LNCS第12607卷,第249-262页,2021年。网址:https://doi.org/10.1007/978-3-030-67731-2_18.
  25. Allison J.Greaney等人。SARS-CoV-2变异体通过改变免疫优势等级引发抗体反应。PLOS病原体,2022年2月18:1-27。网址:https://doi.org/10.1101/2021.10.12.464114.
  26. 伊利亚·格雷布诺夫。利比亚。https://github.com/IlyaGrebnov/libsais网站。访问时间:2022-02-05。
  27. 丹·古斯菲尔德。字符串、树和序列的算法-计算机科学和计算生物学。剑桥大学出版社,1997年。谷歌学者
  28. 詹姆斯·霍尔特和伦纳德·麦克米兰。多字符串BWT与应用程序的合并。生物信息。,30(24):3524-3531, 2014. 网址:https://doi.org/10.1093/bioinformatics/btu584.
  29. Dominik Kempa和Tomasz Kociumaka。Burrows-Wheeler变换猜想的解析。程序中。第61届IEEE计算机科学基础年度研讨会(FOCS 2020),第1002-1013页,2020年。网址:https://doi.org/10.109/FOCS46700.2020.00097.
  30. Dominik Köppl、Daiki Hashimoto、Diptarama Hendrian和Ayumi Shinohara。内插双射Burrows-Wheeler变换。程序中。第31届组合模式匹配年度研讨会(CPM 2020),LIPIcs第161卷,第21:1-21:15页,2020年。网址:https://doi.org/10.4230/LIPIcs.CPM.2020.21.
  31. 格雷戈里·库切洛夫(Gregory Kucherov)、莉拉·托特梅斯(Lilla Tóthmérész)和斯特凡·维亚莱特(Stéphane Vialette)。关于后缀数组的组合。Inf Process Lett,113(22-24):915-9202013年。网址:https://doi.org/10.1016/j.ipl.2013.09.009.
  32. Alan Kuhnle、Taher Mun、Christina Boucher、Travis Gagie、Ben Langmead和Giovanni Manzini。高效构建泛基因组学阅读比对的完整索引。程序中。第23届计算分子生物学年会(RECOMB 2019),LNCS第11467卷,第158-173页,2019年。网址:https://doi.org/10.1089/cmb.2019.0309.
  33. Ben Langmead和Steven L Salzberg。与Bowtie 2快速对准。《自然方法》,9(4):357-3592012。网址:https://doi.org/10.1038/nmeth.1923.
  34. Ben Langmead、Cole Trapnell、Mihai Pop和Steven L Salzberg。短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学,10:R252009。网址:https://doi.org/10.1186/gb-2009-10-3-r25.
  35. 李恒。快速构建长序列读取的FM-index。生物信息。,30(22):3274-3275, 2014. 网址:https://doi.org/10.1093/bioinformatics/btu541.
  36. Heng Li和Richard Durbin。使用Burrows-Wheeler变换快速准确地进行长读数对齐。生物信息学,26(5):589-5952010。网址:https://doi.org/10.1093/bioinformatics/btp698.
  37. Felipe A.Louza、Guilherme P.Telles、Simon Gog、Nicola Prezza和Giovanna Rosone。gsufsort:为字符串集合构造后缀数组、LCP数组和BWT。算法分子生物学。,15(1):18, 2020. 网址:https://doi.org/10.1186/s13015-020-00177-y.
  38. Felipe A.Louza、Guilherme P.Telles、Steve Hoffmann和Cristina Dutra de Aguiar Ciferri。外部存储器中的广义增强后缀数组构造。算法分子生物学。,12(1):26:1-26:16, 2017. 网址:https://doi.org/10.1186/s13015-017-0117-9.
  39. Swapan Mallick等人。西蒙斯基因组多样性项目:来自142个不同群体的300个基因组。《自然》,538(7624):201-2062016。网址:https://doi.org/10.1038/nature18964.
  40. 萨布丽娜·曼塔奇(Sabrina Mantaci)、安东尼奥·雷斯蒂沃(Antonio Restivo)、乔瓦娜·罗森(Giovanna Rosone)和玛丽内拉·西奥尔蒂诺(Marinella Sciortino)。Burrows-Wheeler变换的扩展。西奥。计算。科学。,387(3):298-312, 2007. 网址:https://doi.org/10.1016/j.tcs.2007.07.014.
  41. 乔瓦尼·曼齐尼。XBWT技巧。程序中。第23届字符串处理和信息检索国际研讨会(SPIRE 2016),LNCS第9954卷,第80-92页,2016年。网址:https://doi.org/10.1007/978-3-319-46049-9_8.
  42. 尤塔·莫里(Yuta Mori.libdivsufsort)。https://github.com/y-256/libdivsufsort网站。访问时间:2022-02-05。
  43. 冈萨洛·纳瓦罗。索引高度重复的字符串集合,第一部分:重复性度量。ACM计算。调查。,54(2):29:1-29:31, 2021. 网址:https://doi.org/10.1145/3434399.
  44. 基因组10K科学家社区。获得10000种脊椎动物全基因组序列的建议。J Hered。,100:659-674, 2009. 网址:https://doi.org/10.1093/jhered/esp086.
  45. Enno Ohlebusch公司。生物信息学算法:序列分析、基因组重排和系统发育重建。Oldenbusch Verlag,2013年。谷歌学者
  46. Enno Ohlebusch、Stefan Stauß和Uwe Baier。Trickier XBWT技巧。程序中。第25届字符串处理和信息检索国际研讨会(SPIRE 2018),LNCS第11147卷,第325-333页,2018年。网址:https://doi.org/10.1007/978-3-030-00479-8_26.
  47. 马可·奥利瓦(Marco Oliva)、马西米利亚诺·罗西(Massimiliano Rossi)、朱妮·塞伦(Jouni Sirén)、乔瓦尼·曼齐尼(Giovanni Manzini)、塔梅尔·卡维奇(Tamer Kahveci)、特拉维斯·加吉(Travis。有效合并r索引。程序中。第31届数据压缩会议(DCC 2021),第203-212页,2021年。网址:https://doi.org/10.109/DCC50243.2021.00028.
  48. 雅各布·潘塔莱奥尼。大型字符串集的BWT。CoRR,abs/1410.05622014年。网址:http://arxiv.org/abs/1410.0562.
  49. 西蒙·普格利西和贝拉·朱科娃。文档检索黑客。程序中。第19届国际实验算法研讨会(SEA 2021),LIPIcs第190卷,第12:1-12:12页,2021年。网址:https://doi.org/10.4230/LIPIcs.SEA.2021.12.
  50. 朱尼爵士。用于terabases的Burrows-Wheeler变换。程序中。第26届数据压缩会议(DCC 2016),第211-220页,2016年。网址:https://doi.org/10.1109/DCC.2016.17.
  51. Tyler N.Starr等人。SARS-CoV-2受体结合域的深度突变扫描揭示了折叠和ACE2结合的限制。细胞,182(5):1295-1310.e20.2020。网址:https://doi.org/10.1016/j.cell.2020.08.012.
  52. C.Sun等人。RPAN:3000个水稻基因组的水稻泛基因组浏览器。《核酸研究》,45(2):597-6052017年。网址:https://doi.org/10.1093/nar/gkw958.
  53. 1000基因组项目联盟。人类遗传变异的全球参考。《自然》,526:68-742015年。网址:https://doi.org/10.1038/nature15393.
  54. 1001基因组联盟。拟南芥全球种质资源的表观基因组多样性。细胞,166(2):492-5052016。网址:https://doi.org/10.1016/j.cell.2016.06.044.
  55. C.Turnbull等人。100000基因组项目:将全基因组测序引入NHS。英国医学杂志,3612018。网址:https://doi.org/10.1136/bmj.k1687.
  56. 西尔维·范登·霍克(Silvie Van den Hoecke)、朱迪思·维赫斯特(Judith Verhelst)、马尼克·维尔斯特克(Marnik Vuylsteke)和泽维尔·塞连斯(Xavier Saelens)。使用下一代DNA测序分析甲型流感病毒的遗传多样性。BMC基因组学,16(1):792015。网址:https://doi.org/10.1186/s12864-015-1284-z.
  57. Raf Winand等人,针对复杂混合样本中的16s rRNA基因进行细菌鉴定:第二代(Illumina)和第三代(Oxford纳米孔技术)测序技术的比较评估。分子科学国际期刊。,21(1):298, 2019. 网址:https://doi.org/10.3390/ijms21010298.
  58. Michael H.Woodworth等人。一名印度归国旅行者长期隐居后美国西部奥里斯念珠菌哨兵案件。微生物耐药性,25(5):677-68019。网址:https://doi.org/10.1089/mdr.2018.0408.
问题/备注/反馈
X(X)

Dagstuhl出版社反馈


感谢您的反馈!

已提交反馈

无法发送消息

请稍后再试或发送电子邮件