跳到主要内容
10.1145/3569951.35597577acm会议文章/章节视图摘要出版物页面珍珠会议记录会议集合
短纸

基于无损通用算法的FASTQ文件压缩基准测试

出版:2023年9月10日出版历史

摘要

FASTQ格式是一种基于文本的格式,用于存储生物序列(通常是核苷酸序列)及其用于基因组测序的相应质量分数。虽然大多数基于文本的格式使用传统方法(如tar和gzip)可以很好地压缩,但FASTQ文件通常非常大,使用这些方法无法很好地进行压缩,导致文件系统的大部分空间被用来存储这些数据集。由于大多数计算平台都是共享资源,因此平衡压缩和资源分配至关重要。本文研究了在混合使用吞吐量高性能计算集群中作业结束时运行的FASTQ文件的最佳通用压缩软件。由于大多数计算平台都是共享资源,因此平衡压缩和资源分配至关重要。研究发现,在本文测试的57种方法中,zpaq高压缩提供了最高的压缩比。然而,对于共享或限制系统资源的更真实的场景,我们建议使用pzstd介质作为FASTQ文件的一种良好的全方位压缩方法。它以快速的速度提供了高压缩比,同时在CPU和内存效率方面表现良好。

工具书类

  1. 2009年7月7日。Pzip(7za)。https://p7zip.sourceforge.net网址/谷歌学者谷歌学者
  2. 马克·阿德勒。2022.皮兹。https://github.com/madler/pigz谷歌学者谷歌学者
  3. 布罗特利2020。布罗特利。https://github.com/google/brotli谷歌学者谷歌学者
  4. Peter JA Cock、Christopher J Fields、Naohisa Goto、Michael L Heuer和Peter M Rice。2010年,桑格FASTQ文件格式用于带有质量分数的序列,以及Solexa/Illumina FASTQ变体。核酸研究38,6(2010),1767-1771。谷歌学者谷歌学者
  5. 拉塞·科林和贾坦。2022年x月。https://tukaani.org/xz/谷歌学者谷歌学者
  6. 戴尔2012。Dell PowerEdge R720机架式服务器。https://www.dell.com/en-us/shop/productdetailstxn/poweredge-r720谷歌学者谷歌学者
  7. 安东尼奥·迪亚兹·迪亚兹。2022.拉齐普。https://www.nonnu.org/lzip/谷歌学者谷歌学者
  8. 安东尼奥·迪亚兹·迪亚兹。2022.邮政编码。https://www.nonnu.org/lzip/plzip.html谷歌学者谷歌学者
  9. 国家生物技术信息中心。2022.SRA数据格式。(2022)。https://www.ncbi.nlm.nih.gov/sra/docs/sra-data-formats网站/谷歌学者谷歌学者
  10. 基因组1988。基因组[Internet]。贝塞斯达(医学博士):美国国家医学图书馆,国家生物技术信息中心;检索号SRX18322581,霍乱弧菌D2分离物gDNA序列测定;【引用日期:2023年4月19日】。https://www.ncbi.nlm.nih.gov/sra/SRX18322581[帐户]谷歌学者谷歌学者
  11. 杰夫·吉尔克里斯特(Jeff Gilchrist)。2021.并行BZIP2(PBZIP2)。http://compression.great-site.net/pbzip2/谷歌学者谷歌学者
  12. 米科拉伊兹德布斯基(Mikolaj Izdebski)。2015年,体重2磅。https://github.com/kjn/lbzip2/谷歌学者谷歌学者
  13. 康·科利瓦斯(Con Kolivas)。2006年。lrzip。https://github.com/ckolivas/lrzip谷歌学者谷歌学者
  14. lz4 2022年。lz4。https://lz4.github.io/lz4/谷歌学者谷歌学者
  15. 马特·马奥尼。2016年,zpaq。https://mattmahoney.net/dc/zpaq.html谷歌学者谷歌学者
  16. 元基因组1988。元基因组[Internet]。贝塞斯达(医学博士):美国国家医学图书馆,国家生物技术信息中心;检索号:SRX18799734,废水简短顺序【引用日期:2023年4月19日】。https://www.ncbi.nlm.nih.gov/sra/SRX18799734[附件]谷歌学者谷歌学者
  17. 吉姆·梅耶林和保罗·艾格特。2009年,GNU Gzip。自由软件基金会。https://www.gnu.org/software/gzip谷歌学者谷歌学者
  18. Jim Meyering和Paul Eggert。2018年GNU时间。自由软件基金会。https://www.gnu.org/software/time/谷歌学者谷歌学者
  19. 金德里奇·诺维。2014年像素。https://github.com/jnovy/pxz谷歌学者谷歌学者
  20. 马库斯·F。X.J.Oberhumer。2017年,lzop。https://www.lzop.org/谷歌学者谷歌学者
  21. 保罗·艾格特(Paul Eggert)、迈克·哈特尔(Mike Haertel)、大卫·海耶斯(David Hayes)、理查德·斯塔尔曼(Richard Stallman)和伦·托尔(Len Tower)。2021.GNU Diffutils公司。https://www.gnu.org/software/diffutils网站/谷歌学者谷歌学者
  22. CentOS项目。2020年。CentOS-7(2009)发行说明。https://wiki.centos.org/Manuals/ReleaseNotes/CentOS7.2009谷歌学者谷歌学者
  23. Meta Platforms,Inc.2023年。并行Z标准(PZ标准)。Meta Platforms公司。https://github.com/facebook/zstd/tree/master/contrib/pzstd谷歌学者谷歌学者
  24. Eric W Sayers、Jeffrey Beck、Evan E Bolton、Devon Bourexis、James R Brister、Kathi Canese、Donald C Comeau、Kathryn Funk、Sunghwan Kim、William Klimke,2021年。国家生物技术信息中心的数据库资源。核酸研究49,D1(2021),D10。谷歌学者谷歌学者
  25. 迈卡·斯奈德。2021.Bzip2。https://gitlab.com/bzip2/bzip2/谷歌学者谷歌学者
  26. 戴夫·瓦西列夫斯基。2020年皮克斯。https://github.com/jnovy/pxz谷歌学者谷歌学者
  27. xeon 2012。Intel®Xeon®处理器E5-2660。https://ark.intel.com/content/www/us/en/ark/products/64584/intel-xeon-processor-e52660-20m-cache-2-20-ghz-8-00-gts-intel-qpi.html【查阅日期:2023年4月14日】。谷歌学者谷歌学者
  28. Info-ZIP 2008。拉链。信息-ZIP。https://infozip.sourceforge.net/Zip.html谷歌学者谷歌学者
  29. Meta Platforms,Inc.2023年。Z标准。Meta Platforms公司。https://facebook.github.io/zstd/谷歌学者谷歌学者

索引术语

  1. 基于无损通用算法的FASTQ文件压缩基准测试

        建议

        评论

        登录选项

        检查您是否可以通过登录凭据或您的机构访问本文。

        登录

        完全访问权限

        • 文章指标

          • 下载次数(过去12个月)75
          • 下载次数(最近6周)17

          其他指标

        PDF格式

        以PDF文件查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器

        HTML格式

        以HTML格式查看本文。

        查看HTML格式