跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2018年1月15日;9(1):189.
doi:10.1038/s41467-017-02525-w。

高分辨率TAD揭示了苍蝇基因组组织的DNA序列

附属公司

高分辨率TAD揭示了苍蝇基因组组织的DNA序列

菲德尔·拉米雷斯等。 国家公社. .

摘要

尽管有大量关于拓扑关联结构域(TAD)的新研究,但遗传信息在TAD形成中的作用仍未完全理解。在这里,我们使用我们的软件HiCExplorer(HiCExplorer.readthedocs.io)来注释果蝇中>2800个高分辨率(570 bp)TAD边界。我们鉴定了8个在边界富集的DNA基序,包括一个由M1BP蛋白结合的基序和两个新的边界基序。与哺乳动物相比,CTCF基序仅在非活性染色质两侧的一小部分边界上富集,而大多数活性边界包含由M1BP或Beaf-32蛋白结合的基序。我们证明,仅使用开放染色质位点的基序序列就可以准确预测边界。我们认为DNA序列通过在基因组中分配边界蛋白来指导基因组结构。最后,我们提供了一个交互式在线数据库,用于访问和探索苍蝇、小鼠和人类基因组的空间组织,网址为http://chroogenome.ie-freiburg.mpg.de .

PubMed免责声明

利益冲突声明

作者声明没有竞争性的经济利益。

数字

图1
图1
苍蝇的高分辨率TAD边界。350kb的示例区域显示来自Kc167细胞的Hi-C TAD。顶面板:从参考文献中获得的Hi-C接触矩阵。,箱子的大小是可变的(平均570 bp),并取决于DpnII限制位点的基因组位置。染色质状态轨迹包含参考文献中的五种分类:活性染色质、红色和黄色;非活性染色质,黑色;PcG,蓝色;HP1,绿色。TAD分离分数轨迹(方法部分)描述了两个侧翼区域之间接触的标准化测量(10–40 kb,用灰色线表示,蓝色线表示平均分数)。使用TAD分离分数估计的边界显示为垂直线。以下轨迹显示了Kc167和CTCF上已知边界蛋白CP190、Beaf-32和Su(Hw)的标准化ChIP-seq覆盖率。以下轨迹包含来自modEncode的组蛋白修改的ChIP芯片数据。该图像是使用HiCExplorer生成的。之所以选择这个特定区域,是因为可以看到许多不同的TAD;其他地区可以在http://chroogenome.ie-freiburg.mpg.de.b条边界到最近的CP190(共同绝缘蛋白协同因子)峰值的距离直方图。c(c)TAD内部和之间组蛋白标记的相关性。矩阵中的每个像素表示不同距离的所有TAD中组蛋白标记的皮尔逊相关性(方法部分)。d日基于组蛋白标记的TAD分类。每个TAD类型下面的数字分别表示:平均长度、TAD所占基因组的百分比以及该类型的TAD数量。e(电子)每种类型的连续TAD的箱线图。(f)TAD分值介于:活动和非活动或PcG、活动-活动、非活动-非活动和PcG-PcG之间。各组之间的差异都很显著(第页-值<=7.8E−5,Wilcoxon秩和检验)。TAD边界分类。如果TAD边界位于注释TSS的1000 bp以内,则在启动子处对其进行分类。小时组蛋白标记位于非促性腺激素和启动子边界。更多标记见补充图1i。非启动子和启动子边界的TAD分离分数。j个非启动子和启动子边界的DNA酶可及性
图2
图2
TAD边界由特定的基因定向和转录标记。TAD内部和外部发育阶段的平均表达相关性。TAD内的区域被缩放到15 kb。矩阵中的每个像素都包含不同距离的皮尔逊相关性。b条c(c)启动子位于TAD边界的基因与启动子不位于边界的基因的平均表达(在Kc167细胞中)和表达变异(在发育过程中)。d日相邻基因对之间的变异系数(跨发育阶段),要么由TAD边界(左)分隔,要么不由边界(右)分隔。线显示线性模型拟合(阴影区域:标准误差)
图3
图3
边界处丰富了八个图案。用于识别从头开始图案的策略概述。b条在启动子和非启动子边界富集的基序(以及Bonferroni-corrected第页-值)。使用两种方法估算富集度(方法部分):Ame和TRAP。c(c)通过模体结合亲和力对边界进行聚类(方法部分)。每一行代表一个边界。左面板:利用TRAP评分对基序结合亲和力进行聚类。得分越高,预测的结合力越强。虚线表示簇。以下面板:使用模体聚类结果,我们显示了与DNA结合的绝缘体蛋白(第二面板)、间接结合的其他蛋白(第三面板)和RNA Pol-II的ChIP-seq富集对应的热图。最后一个面板显示了参考中的内务管理增强程序。对于启动子的边界,热图集中在基因启动子上,对于非启动子边界,热像集中在2000 bp内最近的CP190峰上。ChIP-seq信号是在距离中心5000 bp的50 bp箱子中计算的。对于直接DNA-结合的ChIP,每个热图的范围从1到12,对于间接结合的ChIPs,从1到最大ChIP-seq值(基于补充图3b)。d日基序存在与边界处ChIP-seq峰折叠变化之间的关系。矩阵中的每个单元都包含具有图案的所有相应ChIP-seq峰的平均折叠变化。对于每一行,最大折叠变化被缩放为1。e(电子)包含一个边界基序的不同边界启动子的暂停指数。非边界启动子绘制为对照
图4
图4
启动子和非启动子边界基序显示出显著差异。根据基序的存在分组的边界处的TAD分离得分。在本分析中,我们认为如果基序与ChIP-seq峰重叠,则存在基序(方法部分)。条形图显示了以下所示图案之间的重叠。箱线图显示了各自TAD分离分数的分布。蓝色突出显示的集合的TAD分离分数分布显著大于TAD分离总分数。这个第页-数值(Wilcoxon秩和检验)如上图所示。同样,用红色突出显示的集合的分布要小得多。仅显示实例数大于10的图案组合。带有三个或更多图案的图案组合很少见。使用UpSetR绘制交点。图案重叠的概述见图4a。b条每个边界基序的侧翼TAD类型的频率(如图1d所示)。c(c)参考文献中染色质状态的频率。
图5
图5
使用机器学习预测边界。使用四种不同方法计算启动子边界的特征重要性:线性模型、逻辑回归、梯度增强模型(gbm)和随机森林。每种方法的重要性得分从0分到100分。除DNAse-seq外,每个特征都代表各自基序的结合亲和力(TRAP分数)。b条logistic回归、梯度升压模型和随机森林中启动子边界的敏感性和特异性。线性模型的输出可以在补充图5b中看到。c(c)功能排名,如,对于非启动子边界。d日非促性腺激素边界的敏感性和特异性。e(电子)高分辨率边界和预测边界的示例。高分辨率边界(基于TAD分离分数)被描述为Hi-C热图顶部的黑色三角形。预测边界显示为垂直虚线。Hi-C接触图下方的轨迹包含与启动子重叠的基序实例。为了帮助显示短基序,它们的基因组位置在每个方向上扩展了500 bp。最后一个轨迹基于modEncode中的DNase-seq描绘了开放染色质区域
图6
图6
HiCExplorer和Chorogenome导航器。Hi-C处理管道和HiCExplorer使用的命令。HiCExplorer易于安装(conda安装hicexplorer)易于使用、经过测试(自动测试和处理大量数据集)、有良好的文档记录(https://hicexplorer.readthedocs.io/)并准备在Galaxy框架中使用。b条Chorogenome导航器旨在成为可用Hi-C数据的存储库。目前,我们拥有来自苍蝇、老鼠和人类的数据。可以使用HiCBrowser创建自定义曲目(https://github.com/deeptools/HiC浏览器/)

类似文章

引用人

工具书类

    1. Dixon JR,Gorkin DU,Ren B.染色质结构域:染色体组织单位。分子细胞。2016;62:668–680. doi:10.1016/j.molcel.2016.05.018。-内政部-项目管理咨询公司-公共医学
    1. Dixon JR等。通过染色质相互作用分析确定的哺乳动物基因组拓扑结构域。自然。2012;485:376–380. doi:10.1038/nature11082。-内政部-项目管理咨询公司-公共医学
    1. Sexton T等人。果蝇基因组的三维折叠和功能组织原理。单元格。2012;148:458–472. doi:10.1016/j.cell.2012.01.010。-内政部-公共医学
    1. Hou C,Li L,Qin ZS,Corces VG。基因密度、转录和绝缘体有助于将果蝇基因组划分为物理域。分子细胞。2012;48:471–484. doi:10.1016/j.molcel.2012.08.031。-内政部-项目管理咨询公司-公共医学
    1. Rao SSP等。一张千基分辨率的人类基因组3D图揭示了染色质环的原理。单元格。2014;159:1665–1680. doi:10.1016/j.cell.2014.11.021。-内政部-项目管理咨询公司-公共医学

出版物类型

MeSH术语

LinkOut-更多资源