跳到内容

基因组数据库

存储库文件导航

许可证:麻省理工学院 阅读文档 Maven中央

硕士 开发
行动 行动
编解码器 编解码器

GenomicsDB建立在htslib公司以及用于导入、查询和转换变量数据的基于til的阵列存储系统。变量数据本质上是稀疏的(相对于整个基因组而言是稀疏的),使用稀疏数组数据存储非常适合存储此类数据。GenomicsDB是一种用C++编写的高性能可扩展数据存储,用于导入、查询和转换基因组变异数据。请参见基因组sdb.readthedocs.io用于文档和使用。

  • 支持的平台:Linux和MacOS。
  • 支持的文件系统:POSIX、HDFS、EMRFS(S3)、GCS和Azure Blob。

包括

  • 允许流式传输的JVM/Spark包装器变量上下文缓冲区与其他函数之间的C++层。GenomicsDB jar带有本地库,并且只有zlib依赖项定期发布在Maven中央.
  • 用于将VCF/BCF/CSV形式的变体增量摄入GenomicsDB以实现性能的本地工具。
  • MPI和Spark支持GenomicsDB的并行查询。

GenomicsDB打包到gatk4型并从庞大的用户群中定性地获益。

外部捐款

GenomicsDB是开源的,欢迎所有人参与。GenomicsDB根据麻省理工学院许可证和所有外部贡献者需要为他们的贡献授予麻省理工学院许可证。

创建Pull Request之前的清单

请确保代码是以Java/Scala的Javadoc风格编写的。对于Java/C/C++代码格式,大致遵循谷歌风格指南。请参见GenomicsDB风格指南