跳到内容

open2c/cooltools

cooltools:在Python中启用高分辨率Hi-C分析

Pytest公司 文档状态 最新版本PyPI 最新发布的Bioconda 内政部

你的冷却工具

染色体构象捕获技术揭示了基因组折叠的惊人复杂性。越来越多的实验室和多个联盟,包括4D核小体、国际核小体联盟和ENCODE,正在生成高分辨率数据集,以探测跨细胞状态、类型和生物体的基因组结构。更大的数据集增加了计算分析每个步骤的挑战,从存储到内存,再到研究人员的时间。最近引进的冷却器格式通过稀疏数据模型轻松处理高分辨率数据集的存储。

冷却工具利用此格式实现对高分辨率数据的灵活和可复制的分析。冷却工具提供了一套带有配对python API和命令行访问的计算工具,这有助于在高性能计算集群上或通过自定义分析笔记本实现工作流。作为打开2C生态系统,冷却工具还通过交互式笔记本文档详细介绍了高碳数据分析中的关键概念。有关更多信息,请参阅预印本:https://doi.org/10.101/2022.10.31.514564.

要求

安装冷却工具之前需要执行以下操作:

  • Python 3.7版+
  • numpy公司
  • 赛马

安装

pip安装冷却工具

或直接从github安装最新版本:

$pip安装https://github.com/open2c/cooltools/archive/refs/heads/master.zip

请参阅要求.txt文件以获取有关兼容依赖项的信息,尤其是冷却器生物框架.

文档和教程

文档可在此处找到:https://cooltools.readthedocs.io/en/latest/.

Cooltools提供了许多使用Open2c代码生态系统。对于新接触Hi-C分析的用户,我们建议按以下顺序阅读示例笔记本:

  • 可视化:如何加载和可视化存储在冷却器中的Hi-C数据。
  • 联系人与距离:如何计算作为基因组距离函数的接触频率,这是Hi-C地图中最突出的特征。
  • 隔间和鞍座:如何提取特征向量并创建反映A/B隔间的鞍图。
  • 绝缘和边界:如何提取绝缘轮廓并使用绝缘轮廓最小值调用边界。
  • 桩和平均模式:如何围绕CTCF等基因组特征创建平均图。

对于有兴趣从命令行运行分析的用户:

请注意,这些笔记本目前专注于哺乳动物的间期Hi-C分析,但很容易扩展到其他生物体和细胞环境。要克隆笔记本进行交互式分析,请访问https://github.com/open2c/open2c示例cooltools的文档是直接从这些笔记本生成的。

贡献

Cooltools欢迎捐款。工具的指导原则是:(i)尽可能简单,(ii)尽可能可解释,(iii)不应涉及可视化。以下适用于为cooltools提供新功能。

新功能应:

  • 明确定义问题
  • 讨论备选解决方案
  • 提供一个单独的示例(作为gist/booke/etc提供),解释其在多个数据集上的用例。
  • 与最新版本的冷却器和冷却工具兼容(例如,应能在最新版本冷却器生成的任何冷却器上运行)

新功能应:

  • 在不影响用户体验的情况下推广或扩展现有工具,并作为PR提交给相关工具
  • 或提取基因组组织的独特特征,并作为拉请求提交到沙箱

以新的方式使用现有工具的Vignettes应该作为pull请求提交,以将2c_vignette作为一个独特的jupyter笔记本,而不是提交到cooltools沙盒。此存储库的贡献栏最小。我们建议每个vignette都包含包版本信息,并对其他版本提出错误。如果有意义,可以使用cooltools下载的示例数据,以方便尝试分析。否则,可以指定数据源以供其他人获取。

在指南中可以找到贡献的实际方面在这里.

引用冷却工具

Open2C*、Nezar Abdennur*、Sameer Abraham、Geoffrey Fudenberg*、Ilya M.Flyamer*、Aleksandra A.Galitsyna*、Anton Goloborodko*、Maxim Imakaev、Betul A.Oksuz和Sergey V.Venev*。“Cooltools:在Python中实现高分辨率Hi-C分析”,bioRxiv,2022年11月1日。https://doi.org/10.101/2022.10.31.514564.