×

壁画

swMATH ID: 38867
软件作者: Wandelt,S。;Leser,美国。
描述: FRESCO:高度相似序列的参考压缩。在许多应用中,相似文本或序列的集合非常重要。突出的例子是文件或基因组序列的修订历史。现代高通量测序技术能够以越来越快的速度生成DNA序列。在减少生产DNA序列所需的实验时间和成本的同时,对序列分析和存储的计算需求也急剧增加。压缩是应对这一挑战的关键技术。最近,参考压缩方案在这个领域引起了很大的兴趣,它只存储待压缩输入和已知参考序列之间的差异。在本文中,我们提出了一个通用的开源框架来压缩大量生物序列数据,称为FRESCO,参考序列压缩框架。我们的基本压缩算法比类似的相关工作快1-2个数量级,同时实现了类似的压缩比。我们还提出了几种技术来进一步提高压缩比,同时保持速度上的优势:1)选择一个好的参考序列,2)重写参考序列以实现更好的压缩。此外,我们提出了一种新的方法,通过将参考压缩应用于已经参考压缩的文件(二阶压缩)来进一步提高压缩比。这种技术允许压缩比远远超过最先进的技术,例如,人类基因组的压缩比为4000:1或更高。我们在来自三个不同物种(超过1000个基因组,超过3TB)的大型数据集和维基百科页面的一系列版本上评估我们的算法。我们的结果表明,在现代硬件上,以高压缩比实时压缩高度相似的序列是可能的。
主页: http://m3nets.de/publications/TCBB2013.pdf
源代码:  https://github.com/hubsw/FRESCO网站
相关软件: githubZ标准布罗特利libdivsufsort公司r指数LZ77型
引用于: 1文件

连载1篇

1 算法

在1个字段中引用

1 计算机科学(68至XX)

按年份列出的引文