跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2020年5月1日;36(10):2980-2985.
doi:10.1093/bioinformatics/btaa073。

Coolpup.py:Hi-C数据的通用堆积分析

附属公司

Coolpup.py:Hi-C数据的通用堆积分析

伊利亚M Flyamer等。 生物信息学. .

摘要

动机:Hi-C是目前研究基因组全球3D组织的首选方法。Hi-C的一个主要限制是稳健地检测数据中的循环所需的测序深度。即使在单细胞Hi-C数据中,用于缓解这一问题的一种流行方法是高分辨率数据集中注释的峰值或其他特征的全基因组平均(堆积),以测量其在测序不太深入的数据中的显著性。然而,目前的工具并没有提供这种方法的计算效率和通用实现。

结果:在这里,我们描述了coolpup.p,它是一种对Hi-C数据进行堆积分析的通用工具。我们通过复制先前发表的关于凝集素和CTCF在3D基因组组织中的作用的研究结果,以及发现多梳驱动相互作用的新细节,来证明其实用性。我们还提出了堆积方法的一种新变体,可以帮助对循环交互进行统计分析。我们预计coolpup.py将有助于Hi-C数据分析,因为它可以方便使用、多功能和高效地生成堆积。

可用性和实施:Coolpup.py是一款跨平台、开源和免费(MIT授权)软件。源代码可从https://github.com/Phlya/coolpuppe可以从Python打包索引安装。

PubMed免责声明

数字

图1。
图1。
Hi-C数据规范化策略。(A类)使用小鼠ES细胞Hi-C数据(Bonev等。, 2017). 归一化方法在列中:矩阵平衡(迭代校正);无标准化;无法平衡堆积的覆盖率标准化。不同的平均区域以行显示:与CTCF关联的循环(n个 = 6536),与RING1B相关的回路(n个 = 104)(见材料和方法部分),第四个四分位的所有高RING1B峰区成对组合(通过RING1B-ChIP-seq读取计数)(n个 = 2660个峰区)。使用10个随机移动的控件生成的所有堆积。所有堆积都被归一化为左上角和右下角像素的平均值,以使它们达到相同的比例。显示中心像素的值。5千字节的分辨率,中心像素周围有100千字节的填充。颜色以对数表示,显示了丰富的相互作用。(B类)与(A)相同,但对于不同的方法,用平衡数据消除接触概率的距离依赖性。列中:每个ROI的单个随机移动控制区域;每个ROI随机移动10个控制;期望染色体宽度归一化;没有标准化。与(A)中的行相同。显示堆积左下角的平均富集度
图2。
图2。
堆积变化。(A类)CTCF-AID Hi-C数据(Nora等。, 2017). 25 kbp分辨率的数据,中心像素周围填充1000 kbp。(B类)与(A)中的5kbps分辨率数据相同的数据上的TAD(基于高绝缘区域定义)的局部重新缩放堆积。(C类)显示结构损失的单细胞Hi-C数据的循环和缩放TAD堆积Scc1公司−/−合子(Gassler等。, 2017). (D类)chr1上RING1B+/H3K27me3+CpG岛的两个锚固桩示例,没有可见的富集(顶部),或富集非常显著(底部)。锚固区域位于桩体的左侧,其坐标(包括填料)显示在左侧。左上角显示的中心像素值(“循环性”)。(电子)不受RING1B约束的CpG岛、受RING1约束的Cp G岛和受RINGB约束且也以H3K27me3标记的Cp g岛的“可循环性”值分布
图3。
图3。
整个细胞周期的染色质循环动力学。(A类)沿着细胞周期排列的单个细胞的Hi-C相互作用富集水平(长野等。CTCF和RING1B相关互动。前者仅限于100-800 kb的距离,而后者则显示所有大于100 kb的长度。曲线表示LOWESS平滑数据,便于解释。(B类)根据(A)中的数据在所有细胞周期阶段的富集值分布
图4。
图4。
性能分析。(A类)的运行时间(秒)酷小狗.py具有不同深度的两个Hi-C数据集的平均“循环”数不同。(B类)与(A)相同,但对于相互作用平均的线性区域的数量。还显示了HiCExplorer的运行时hicAggregate联系人。请注意,HiCExplorer的最长时间点需要超过512 Gb的RAM,因此未进行计算。(С)使用5000个线性区域和不同数量的岩芯进行相同分析的运行时间。颜色编码与(A)中相同

类似文章

引用人

工具书类

    1. Abdennur N.,Mirny L.A.(2019)Cooler:Hi-C数据和其他基因组标记阵列的可扩展存储。生物信息学,36311-316。-项目管理咨询公司-公共医学
    1. Abdennur N.等人(2018)间期中Condensin II失活不会影响染色质折叠或基因表达。bioRxiv,doi:10.1101/437459。
    1. Alabert C.等人(2015)组蛋白PTM跨细胞周期传播的两种不同模式。基因发展,29,585–590。-项目管理咨询公司-公共医学
    1. Barutcu A.R.等人(2016年)编写基因组:研究高阶染色质组织的染色体构象捕获方法简编。J.细胞。生理学。,231, 31–35.-项目管理咨询公司-公共医学
    1. Bonev B.等人(2017),小鼠神经发育过程中的多尺度3D基因组重组。细胞,171557–572.e24。-项目管理咨询公司-公共医学

出版物类型