跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。2014; 515(7527): 371–375.
2014年11月19日在线发布。 数字对象标识:10.1038/自然13985
PMCID公司:项目经理4343047
NIHMSID公司:尼姆斯664131
PMID:25409826

鼠与人之间的调节信息保护原则

关联数据

补充资料

摘要

为了拓宽我们对基因调控机制进化的理解,我们在人-小鼠红系祖细胞、淋巴母细胞和胚胎干细胞系中生成了34个同源转录因子(TF)的占据谱。通过结合全基因组转录因子占用库、相关的表观遗传信号和共缔合模式,我们在这里推导了自小鼠和人类谱系分化以来基因调控特征的几个进化原理。TF占位序列的基因组分布特征、初级结合基序、染色质状态和DNA甲基化偏好都很保守。然而,直系DNA片段与直系TF结合的程度在TF之间和基因组位置上都不同:启动子处的结合比远端元件处的结合更为保守。值得注意的是,占位保守的TF占位序列往往是多效性的;它们在多种组织中发挥作用,也与许多TF共同作用。在具有潜在调节功能的位点上的单核苷酸变体富含占用保守的TF占据序列。

补充信息

本文的在线版本(doi:10.1038/nature13985)包含对授权用户可用的补充材料。

主题术语:功能基因组学

作为小鼠ENCODE项目的一部分,研究了小鼠和人类的全基因组转录因子(TF)占用储备和联合模式;许多方面都是保守的,但小鼠和人类中的同源DNA片段与TF结合的程度因TF和基因组位置而异,并且占据保守的TF的序列往往是多效性的,并且富含具有已知调节潜能的单核苷酸变体。

补充信息

本文的在线版本(doi:10.1038/nature13985)包含对授权用户可用的补充材料。

小鼠和人类的保守调控信息

作为小鼠ENCODE项目的一部分,Mike Snyder及其同事研究了小鼠和人类的全基因组转录因子(TF)占用储备、相关表观遗传信号和TF联合模式,以拓宽我们对哺乳动物基因调控机制进化的理解。结果表明,尽管TF占据序列的许多方面在两个物种中都是保守的,但人类和小鼠中的直系DNA片段与直系TF结合的程度在TF之间以及基因组位置上都有所不同。重要的是,保守占据的TF占据序列趋向于多效性;它们还富集已知具有调节潜力或与已知表型相关的单核苷酸变体(SNV)。

补充信息

本文的在线版本(doi:10.1038/nature13985)包含对授权用户可用的补充材料。

主要

确定小鼠和人类调节网络之间的相似性和差异不仅将提高我们对调节机制进化的理解,而且有助于解释从小鼠模型研究中得出的生物医学见解。最近对几个物种中八种TF的全基因组结合研究揭示了许多调控网络,自祖先分化为小鼠和人类以来,这些网络已经高度重组1,2,,4与其他物种的早期研究一致5这些结果与其他数据形成了鲜明对比,这些数据表明基因组DNA序列的保存可以成为发现调控区域的有用指南6调控景观在更远的物种中高度保守7考虑到大量已知TF及其功能多样性,需要对更广泛的TF进行综合研究,以解决这些明显的差异。此外,我们对TF占用率发散或守恒的功能后果的了解仍然有限。

鼠-人同源占用情况

为了研究物种间和不同细胞类型间TF结合区的保守性,我们生成并分析了小鼠和人类34个TF的全基因组结合谱的大量数据集。我们选择了一组不同的TF,包括那些通过特定一致序列结合DNA的TF、组成RNA聚合酶2(POL2)等通用转录机制的一部分的TF以及修饰或重塑染色质的TF(扩展数据图1a补充信息). 为了简单起见,我们将整个集合称为TF,尽管有些是一般因素。我们重点研究了32个TF在小鼠和人的红系祖细胞(小鼠红白血病MEL和人白血病K562细胞)和淋巴母细胞(小鼠淋巴瘤CH12和人B淋巴母细胞GM12878细胞)的细胞系模型中的占有率,并且我们还表明,结果与在小鼠和人类胚胎干细胞中获得的结果相似(扩展数据图8). 染色质免疫沉淀和大规模平行测序(ChIP-seq)分析是根据ENCODE标准使用重复实验进行的8共生成并分析了120个数据集。

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig5_ESM.jpg
TF ChIP-seq数据概述和分析工作流。

,本研究中的所有转录因子均根据物种和细胞类型进行分组。TF-DNA结合域列在第二列。无结合域的TF以灰色突出显示。检测的TF是交叉标记的,而未检测的TFs则用白色表示。b条,用于谱间和谱内比较的分析管道流程图。

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig12_ESM.jpg
胚胎干细胞和细胞系之间观察结果的一致性。

,五种TF OS在胚胎干细胞中的基因组分布。b条,人类和小鼠胚胎干细胞在不同基因组位置的占有率保护。c(c)胚胎干细胞中TF-OS的占有率保持与许多组织的功能相关。

保护和非保护功能

这些大量不同TF组的全基因组结合数据揭示了小鼠和人类之间TF占用的保守和非保守特征。首先,尽管大多数转录因子可以同时存在于启动子和末端位点,但每一个都表现出明显的偏好(图1a扩展数据图2a、b). 这种偏好在小鼠和人类之间高度保守(R(右)= 0.8;扩展数据图2c). ETS1是一个例外。尽管ETS1的主要基序在小鼠和人类之间是保守的(图1b)在人类中优先与启动子近端结合,但在小鼠中不结合。ETS1负责小鼠胸腺中T细胞标记物Thy-1的特异性表达9,我们认为其结合位置的显著差异可能导致小鼠和人类之间的免疫系统差异10第二,尽管大多数序列特异性TF的主要基序在小鼠和人类之间是保守的,但次要基序(例如,相关因子的基序;参见补充信息)倾向于特定血统(图1b扩展数据图2d),表明联合伙伴发生了变化。

保存图片、插图等的外部文件。对象名为41586_2014_BFnature13985_Fig1_HTML.jpg
同源TF OS之间的一般特征比较。

,每行代表一个TF,每列代表一个基因组区域。热图颜色显示了位于每个基因组区域的TF-OS(同一物种中不同细胞系的组合)的比例。b条,淋巴母细胞中检测到的序列特异性TF的Motif比较。在右边的面板中,每一行代表一个TF。基序保护的水平由颜色编码。USF2示例的详细结果显示在左侧面板中。根据占用信号,峰值被分为不同的箱子(左侧信号较高,右侧信号较低)。根据峰值箱的等级绘制每个箱中带有主题的峰值的比例(红线)以及每个箱中主题位置和峰值之间的平均距离(灰线)。红点表示具有该基序的控制区域(USF2 OS两侧±500 bp)的比例。NA,不可用。c(c)MEL和K562细胞之间TF OS染色质状态偏好比较。热图显示了与八种不同染色质状态(列)重叠的TF OS(行)的百分比。d日、MeDIP-seq和MRE-seq在MEL和K562细胞中的平均信号分布。以TF OS峰值为中心的5千基地侧翼区域被划分为50个基点的箱子。在每个箱子中收集信号。

PowerPoint幻灯片

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig6_ESM.jpg
TF OS分布和图案。

,MEL和K562细胞中TF OS相对于TSS的分布示意图。每行代表一个TF,每列代表一个基因组区域。热图颜色显示位于不同基因组区域的TF OS的比例。b条,类似于TF OS分布图在CH12和GM12878细胞中。c(c),小鼠和人类TF OS分布之间的相关性。点图显示了每个基因组区域中同源TF OS分布的相关性。每个点代表一个基因组区域中一个TF的OS比例。这个x个axis是小鼠基因组中的比例axis是人类基因组中的比例。d日在红系祖细胞(MEL和K562)中检测到的序列特异性TF的Motif比较。每一行代表一个TF。图案保存的级别是由颜色编码的。

由组蛋白修饰定义的同源TF占据序列(OSs)的首选染色质状态在小鼠和人类之间也保持不变。利用五种组蛋白修饰的数据,将小鼠和人类基因组分为八种染色质状态(图1c扩展数据图3a、b). 大多数TF OS位于启动子和增强子特有的状态(状态1-4)。相比之下,CTCF–凝集素复合物(CTCF、RAD21和SMC3)约50%的操作系统11,12位于状态5和8,标志着所有组蛋白修饰的静息区信号都很低。MAFK也显示出对静态区域的偏好。值得注意的是,CTCF–凝集素复合物和MAFK13可以调节基因组中的长程相互作用。状态偏好在小鼠和人类之间是保守的(图1c;R(右)= 0.9;扩展数据图3b)这表明这两个物种占据的片段的整体功能相似。事实上,通过不同的方法预测的增强子比例14,15,也是保守的(R(右)= 0.7) (扩展数据图4).

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig7_ESM.jpg
TF OS染色质状态和DNA甲基化状态偏好比较。

ChromHMM的发射矩阵由五个组蛋白修饰标记(H3K4me1、H3K4me3、H3K 36me3、H3 K27me3和H3K27ac)训练。b条热图显示了与ChromHMM使用CH12和GM12878细胞中的五种不同组蛋白标记生成的每个染色质状态(列)重叠的TF OS的比例。c(c),MeDIP-seq和MRE-seq在CH12和GM12878细胞中的平均信号分布。以TF OS峰值为中心的5-kb侧翼区域被划分为50-bp区。在每个箱子中收集信号。

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig8_ESM.jpg
同源TF OS中预测增强子的比例。

条形图显示了与预测增强子重叠的TF OS的比例。,产生MEL和K562细胞。b条,产生CH12和GM12878细胞。这个x个轴表示不同的TF轴表示与预测增强子重叠的TF OS的比例。

我们还通过甲基化DNA免疫沉淀(MeDIP)和甲基敏感限制性内切酶DNA消化后测序(MRE-seq)检测了TF-OS中的DNA甲基化情况16TF OS高度富集MRE-seq信号,而MeDIP-seq信号则被耗尽,这表明TF OS在这两种物种中通常都是次甲基化的(图1d扩展数据图3c).

TF和特定位置的占用率保护

TF结合区被丰富以保护DNA序列,显示出在ChIP-seq峰的±50碱基对(bp)内进化约束的强烈信号(图2a). 这一结果表明,纯化选择作用于许多TF OS中的DNA序列,但并不意味着所有TF OS都统一受到约束。大约50%的TF操作系统在小鼠和人类之间不对齐15因为它们都是谱系特异性序列,例如转座因子17或者它们已经偏离到不再对齐的程度。

保存图片、插图等的外部文件。对象名为41586_2014_BFnature13985_Fig2_HTML.jpg
TF OS的守恒和发散。

,蓝色和紫色线条代表人类和小鼠ChIP-seq峰值附近(±100 bp)的平均phyloP得分分布。灰色线表示随机选择的背景序列的分布。这个x个轴是到峰顶的距离axis是平均phyloP得分。b条,热图表示四个细胞系中TF(行)OS的占用守恒。颜色强度表示小鼠和人类在不同基因组区域(列)中保守的TF OS的比例。c(c),比较TF-OS和同源序列之间的染色质状态变化。可在小鼠和人类之间对齐的TF OS根据占用保护状态分为两组(“占用保护”与“占用不保护”)。顶部轴是TF-OS及其同源序列在每个染色质状态中的比例。染色质状态1和3的小鼠TF OS在人类同源序列中的底部详细染色质状态变化。饼图显示了第二个物种的染色质状态在同源序列中的分布。d日,比较TF-OS和同源序列之间的DNA甲基化变化。这个axis给出标准化的DNA甲基化信号(MeDIP-seq)。TF OS根据占用保护状态分为两类,如c(c).

PowerPoint幻灯片

然后,我们将重点放在TF OS的子集上,在该子集中,小鼠和人类之间的序列对齐,以确定同源DNA序列是否也被同源TF占据(详细信息请参见补充方法). 值得注意的是,TF OS中占有率保持不变的比例在TF之间和基因组位置之间都有显著差异(图2b). 对于几乎所有的TF,启动子区的占有率保持率始终较高,而远端区域的占有率则较低,这表明启动子可能比远端增强子受到更强的选择。对于结合近启动子的因子(NRF1和MAZ)和启动子区域中具有少数结合位点的因子(例如MEF2A和TAL1),观察到保守的启动子占据率。一个值得注意的例外是CTCF–cohesin复合体,它不仅显示了如前所述的高占用率保护18,但相对于转录起始位点(TSS),近端、中部和远端区域的保守性仍然很高(图2b). 这些占用率保护的变化模式是稳健的。一个潜在的混淆因素是启动子序列比其他调控区更保守,但通过序列保守性差异调整占有率保守性显示出类似的趋势,即启动子区域的OS比其他区域的OS更保守(扩展数据图5a). 同样,移除小鼠和人类之间峰值数量明显不同的少数TF并不会改变占用率的保护模式(扩展数据图5b补充信息).

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig9_ESM.jpg
通过顺序保护调整占用率保护。

,热图表示四个细胞系中TF(行)OS的调整占用率守恒。颜色强度表示小鼠和人类在不同基因组区域中保守的TF OS的比例(列)。为了消除不同基因组基因座的序列保守性变化带来的偏差,本分析仅包括小鼠和人类之间序列可以比对的TF OS。b条,热图类似于图2b排除了小鼠和人之间总结合峰数存在显著差异的TF。

接下来,我们研究了表观遗传因子如何影响小鼠和人类之间同源位点的TF结合。正如预期的那样,占位保守型TF OS的染色质状态分布非常相似。对于可在两个物种之间对齐但仅在一个物种中结合的TF OS的同源序列,较小比例处于增强子相关状态(状态3和状态4),较大比例处于抑制状态(状态7)或静止状态(状态5和状态8)染色质OS(图2c扩展数据图6a、b). 因此,在许多位点,物种特异性TF占有率的丧失伴随着向抑制或静止染色质的转变。相比之下,即使在TF结合缺失的情况下,第二物种的启动子状态(状态1和状态2)基本上保持不变。这一结果表明,其他TF可能有助于在这些区域保持启动子状态的保守性。我们还研究了TF-OS及其同源序列之间DNA甲基化水平的变化。这两种物种的保守型TF OS的DNA甲基化水平都很低(图2d扩展数据图6c)但在未结合的同源序列中,DNA甲基化水平显著增加。因此,TF占用的物种特异性损失也与DNA甲基化的物种特异性增加有关。

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig10_ESM.jpg
TF-OS和同源序列的表观遗传特征比较。

轴表示每个染色质状态中TF-OS的比例。根据占用保护状态,可在鼠标和人之间对齐的TF操作系统分为两类。每个面板表示TF OS在一个细胞系中的分布。b条,每个面板代表处于一个染色质状态的小鼠TF OS。每个面板中的饼图显示了人类同源序列中染色质状态的比例。左栏中的面板表示占用率保持的TF OS,右栏中的板表示可以对齐但不保持占用率的TF操作系统。c(c)轴表示标准化DNA甲基化信号(MeDIP-seq)。可在小鼠和人类之间对齐的TF OS根据占用保护状态分为两类(序列和占用都是保守的(OCC),序列是保守的但占用不保守的(SCNC))。每个面板代表一个单元格行中的分布。

占用率保护与多效性

我们提出,在多个组织中具有调节功能的TF OS将受到更大的选择压力,因此更有可能在占用时被保存。为了验证这个假设,我们首先检测了55个小鼠组织和细胞系中的DNase I超敏位点(DHS)15测量不同组织中每个TF OS的染色质可及性。因为DHS是调节元件活动的代表19,可在多个组织中访问的TF OS区域更有可能在这些组织中发挥作用。TF OS的染色质可及性表现出广泛的变化,从组织特异性到普遍存在的模式(图3a). 值得注意的是,TF OS在不同组织中具有更广泛的染色质可及性,显示出小鼠和人类之间的占用保护程度最高。纸巾使用和占用率保护之间的联系是普遍的;对大多数受检TF进行了观察(扩展数据图7b、c). 这种关联对几个潜在的混杂因素也很可靠。CTCF–凝集素复合物,在不同组织类型和物种中丰富且保守18,20,可能会使结果产生偏差;然而,在去除CTCF、RAD21或SMC3占据的所有基因组区域后,我们获得了类似的结果(扩展数据图7a). 几种组织和物种启动子区的保守性14也可能会使我们的分析产生偏差,但在去除位于TSS 2千碱基(kb)范围内的占位保守的TF OS后,我们仍然发现组织使用和TF占位保守之间的关联对远端TF OS是成立的(扩展数据图7d,e). 此外,特别检查与染色质信号预测的增强子重叠的远端TF OS14表明,假定增强子的广泛组织使用与小鼠和人类之间的占有率保持密切相关(图3b).

保存图片、插图等的外部文件。对象名为41586_2014_BFnature13985_Fig3_HTML.jpg
占有率的保持与多组织中染色质的可及性和增强子活性有关。

,占有率保护和染色质在多个组织中的可及性之间的关联。密度图表示不同细胞类型中TF OS在可接触染色质中的频率。这个x个axis是根据小鼠55个组织或细胞系中的DHS信号计算的香农指数密度;高值意味着TF OS位于许多细胞类型的可接近染色质中。红线表示在香农指数的每个区间内,占用率保持不变的TF OS的分数。b条,占用率保护和增强剂在几种组织中的使用之间的关联。密度图表示TF OS在染色质中的频率,表示不同细胞类型中增强子活性(使用组蛋白H3乙酰基Lys 27(H3K27ac)ChIP-seq信号计算)。这个x个轴是根据23个组织或细胞系的H3K27ac信号计算的香农指数。红线表示在香农指数的每个区间内,占用率保持不变的TF OS的分数。预增强剂,假定增强剂。c(c),转基因小鼠增强子测定10个占位保守的GATA1结合位点的结果。染色的胚胎图像通过不同组织中的活性突出显示:浅粉红色表示仅在心脏和血管组织中显示增强活性,深粉红色表示在其他组织中有活性。右侧面板显示了基因、组蛋白修饰预测的增强子、染色质状态(使用软件ChromHMM,参见方法)、因子占有率以及包含两个GATA1-OS的区域不同组织的DHS信号。

PowerPoint幻灯片

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig11_ESM.jpg
在一些组织中,占有率的保持与染色质的可及性和增强子活性有关。

,占有率保护和染色质在多个组织中的可及性之间的关联。密度图表示TF OS(由CTCF、RAD21和SMC3占据的去除的DNA序列)在不同数量的细胞类型中可接近的染色质中的频率。这个x个axis是根据55个小鼠组织或细胞系中的DHS信号计算的Shannon指数;高值意味着TF OS位于许多细胞类型的可接近染色质中。红线显示了在香农指数的每个区间内,占用率保持不变的TF OS的分数。b条,c(c)CH12和MEL细胞中每个TF(行)在多个组织中的占有率保持和染色质可及性之间的关联。TF操作系统根据香农指数(列)的值划分为不同的存储箱。颜色强度表示每个箱子内占用保守的TF OS的比例。d日,e(电子),类似于b条c(c)但仅适用于距离TSS 2 kb的TF操作系统。

对我们假设的预测是,职业保守型TF-OS往往在多个组织中活跃。为了从实验上验证这一预测,我们随机选择了10个保守的GATA1 OS。尽管OSs是根据红细胞特异性调节因子的占有情况选择的,但所有十个保守的OSs都与DHS峰值重叠,并预测许多组织中的增强子,如大脑(图3c). 进行测试时体内胚胎第11.5天转基因小鼠报告试验中的增强子活性,10个报告中有9个表现出较强的可重复性体内增强子活性,4个在中脑和神经管等非红细胞组织中活性(图3c). 我们扩展了我们的分析,以检查与之前测试的VISTA增强剂浏览器中的增强剂重叠的其他小鼠GATA1 OS(网址:http://enhancer.lbl.gov)21六种GATA1 OS对小鼠产生的阳性增强子分析具有特异性;只有一种(16%)在血管和心脏以外的组织中表达。相比之下,在另外12个保留占用的GATA1 OS中体内增强子活性,6(50%)在非红细胞组织如中脑中活跃(补充表5).

TFs联合的守恒与分歧

由于精确的基因调控需要不同TF之间复杂的相互作用,我们推测TF占用率的保存差异可能与不同的联合伙伴有关,至少部分相关。通过计算每个TF OS中所有TF的占用信号,我们发现,一般来说,与谱系特异性TF OS相比,占用保守的TF OS往往受更多TF的约束(P(P) < 2.2 × 10−16,双尾-测试;图4a)这表明,与多个TF的共同结合提高了对所占序列的净化选择水平。此外,通过检查每个共同相关的TF对(图4b),我们确定了在职业保守型结合位点与物种特异性结合位点之间,联合关联是否更加丰富(图4c扩展数据图9). 这些关系分为三类。在第一类中,TF的联合与占用率保护无关。例如,RAD21与MEL细胞中的CTCF高度相关;然而,这种联合在职业保守和物种特异性结合位点发生的频率相当。在第二类中,TF联合与占用率保护呈负相关。例如,MYC OS与增强子相关因子EP300的共同关联22,在鼠标特定的结合位点中高度富集。在最后一类中,TF共缔合与占有守恒呈正相关,例如MYC OS与共阻遏物SIN3A的共缔合(参考文献。23)这表明MYC相关阻遏物在小鼠和人类之间趋于保守。

保存图片、插图等的外部文件。对象名为41586_2014_BFnature13985_Fig4_HTML.jpg
TF的联合和占用保护。

密度图显示了每个TF结合区域中共相关TF数的分布。这个x个轴表示每个区域占用的TF总数。b条MEL细胞中的成对TF联合。颜色强度表示行和列中表示的TF与随机期望值(详见补充方法). 红色表示联合高于随机期望,蓝色表示联合低于随机期望。c(c),MEL细胞中条件TF OS占用保持。颜色强度代表给定TF(列),无论与其他TF(行)的联合在谱系特异性结合位点(绿色)或占用保守结合位点(红色)中更丰富。色标表示范围(–logP(P)值)的丰富意义。

PowerPoint幻灯片

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Fig13_ESM.jpg
占用率保护和成对TF联合之间的关系。

d日,按照中所述进行了占用率保护和TF联合关联分析图4c所有四种细胞系。四个细胞系中的TF保持相同的顺序,以便于可视化。

占用率保护和功能性SNV

在之前的一项研究中,我们通过结合高通量实验数据集、计算预测和手动注释,将假定的调控潜力分配给基因组变异24有趣的是,尽管在之前的分类中没有考虑保守,但我们发现具有高调节潜能的单核苷酸变体(SNV)在保守的TF OS中高度富集(扩展数据表1a). 此外,对全基因组关联研究(GWAS)单核苷酸多态性(SNPs)的分布作为TF OS占用保守性功能的研究表明,GWAS SNPs在占有保守性TF OS中显著富集(P(P) < 2.2 × 10−16Fisher精确试验;看见补充信息)与SNP数据库(dbSNP)中所有遗传变异的背景分布进行比较。在检查个体表型时,我们发现与一些表型(如I型糖尿病)相关的SNP在职业保守型TF OS中显著富集(P(P)=0.019,费希尔精确试验;扩展数据表1b). 然而,与其他表型(如肺功能)相关的SNP具有高度的人类特异性(P(P)=0.027,费希尔精确试验;扩展数据表1b). 因此,尽管GWAS单核苷酸多态性通常富集于占用保守的TF OS中,但这种富集是表型特异性的。

扩展数据表1

具有调节潜力的SNV富含占用保守的TF OS

保存图片、插图等的外部文件。对象名称为41586_2014_BFnature13985_Figa_ESM.jpg

RegulomeDB注释为具有高调节潜力的SNV富含占用保守的TF OS。

*1a类包括具有以下特征的SNV:eQTL+TF结合+匹配TF基序+匹配DNase足迹+DNase峰值。

**1b类包括具有以下特征的SNV:eQTL+TF结合+任何基序+DNA酶足迹+DNA酶峰值。

b条,GWAS SNP显示占用保守型TF OS或人类特定TF OS显著富集(以灰色突出显示)。

讨论

在此,我们报告了TF占用率的守恒与多效性函数相关。这一观察结果得到了以下方面的进一步验证体内转基因小鼠的增强子分析。据我们所知,这是首次对多效性TF OS及其占用率保护之间的关系进行系统调查和验证。调节模块的多效性功能使其受到一些约束,这些约束保留了潜在的主题和占用模式。然而,不同组织中的作用不需要由相同的TF来执行。与相同DNA基序结合的同源蛋白(例如,GATA5或GATA6)可能是GATA1 OS非红细胞组织中的活性蛋白,具有保守的占有率和多效性功能。这一预测可以在未来的研究中得到验证。

本研究中使用细胞系是因为它们提供了大量几乎相同的细胞来源,而获得足够数量的原代细胞用于这种规模的研究对于许多细胞类型来说都是有问题的。一个担忧是不同物种的细胞系可能并不完全相似。虽然不能排除这种可能性,但当我们将四种细胞系的表达谱与许多其他小鼠组织的表达谱进行比较时,我们发现MEL和K562,以及CH12和GM12878是最相似的对(补充图2a). 在全基因组组蛋白修饰特征中也发现了这种密切的相似性(补充图2b). 因此,我们得出结论,K562和MEL细胞系对与GM12878和CH12细胞系对非常相似,可以进行有意义的跨物种比较。另一个担忧是,在细胞系中观察到的趋势可能并不代表原始细胞。对小鼠和人类ES细胞中五种TF结合的检测证实了启动子结合的优先保守性以及DHS的占有保守性与多效性的相关性(扩展数据图8). 因此,从我们对细胞系中许多TF的检测中获得的原理可能适用于原代细胞中的TF。

方法

ChIP-seq公司

TF的ChIP如前所述进行25生物复制品的培养细胞分批次、分时间培养。简言之,5×107细胞生长到0.6–0.8×10的密度6每毫升细胞在1%甲醛中室温交联10分钟。使用Branson 250 Sonifer(功率设置为7,占空比为100%,间隔12×20 s)对核裂解产物进行超声处理,使得染色质片段的范围为50到2000 bp。用于ChIP-seq实验的对照IgG和TF抗体的信息列于补充表2蛋白质-DNA-TF抗体复合物捕获在蛋白A/G琼脂糖珠(Millipore 16-156/16-266)上,并在65°C的1%SDS-TE缓冲液中洗脱。在交联逆转和DNA纯化后,如所述制备ChIP DNA测序文库8在Illumina Genome Analyzer II和HiSeq 2000上对文库进行测序。

统一的ChIP-Seq数据处理管道

我们使用统一的处理流水线来识别小鼠和人类中的高置信度结合峰。读取映射:对于人类ChIP-Seq,以BAM文件形式的映射读取从圣克鲁斯加州大学(UCSC)数据协调中心(DCC)的ENCODE下载(http://encodeproject.org/ENCODE/downloads.html). 对于ChIP-seq鼠标,读取由BWA映射26。为了使映射协议标准化,我们使用自定义可映射性跟踪来筛选出多个映射读取,并且只保留唯一的映射读取(将该映射精确读取到基因组中的一个位置)。我们还筛选了所有位置和PCR重复项。质量控制:计算每个数据集的所有重复实验的几个质量指标。简言之,这些指标测量ChIP富集度、信噪比、测序深度、库复杂度和峰值调用的再现性8未通过最低质量控制阈值的ChIP-seq被丢弃,且未用于任何分析。峰值调用:所有ChIP-seq实验都是针对生产组指定的适当对照(输入DNA或从对照免疫沉淀中获得的DNA)进行评分的。我们使用SPP峰值调用者27确定并对潜在入住地点/高峰进行评分(排名)。为了获得最佳阈值,我们使用不可重复发现率(IDR)框架,通过利用数据集重复实验中峰值识别的再现性和秩一致性来确定高置信占用事件。有关使用IDR框架调用峰值的代码和详细的分步说明,请访问:https://sites.google.com/site/anshulkundaje/projects/idr黑名单:然后根据每个物种特别策划的经验黑名单对所有峰值集进行筛选(A.P.B.和A.K.,提交手稿)。简而言之,这些黑名单区域通常表现出以下特征:序列输入DNA和控制数据集以及开放染色质数据集中的非结构化和极高信号,与细胞类型无关;测序实验中多重映射与唯一映射读取的极值比率;与特定类型的重复区域重叠,例如着丝粒重复、端粒重复和卫星重复,这些重复区域中通常很少有独特的可映射位置。人类黑名单可从以下位置找到:http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeCapability/wgEncode AcMapabilityConsensusExclutable.bed.gz。鼠标黑名单可从以下网址下载:http://www.broadinstitute.org/~anshul/projects/mouse/黑名单/mm9-blacklist.bed.gz在本研究中,合并使用不同研究所产生的相同细胞系的相同TF的黑名单筛选IDR结合峰。鼠标中的所有原始读取文件、映射文件和峰值文件都存放在http://mouseencode.org。可以在中访问人员数据https://www.encodeproject.org网站。每个实验中的访问ID可以在中找到补充表2.

模体发现

为了比较老鼠和人类的调节网络,我们应用了从头开始我们之前开发的motif发现方法28并使用ChIP-seq数据集获得了高置信序列基序列表。对于每个ChIP-seq数据集,我们的计算管道报告了多达五个重要的图案。通常,其中一个基序是TF的典型基序,反映了其DNA结合特异性,我们称之为初级基序。如果TF没有DNA结合域,我们将最强的基序定义为其主基序。我们把剩下的图案称为次要图案。当比较一对同源TF的主要基序时,根据它们之间的相似性是否通过截止值(1.0×10−5). 因为一个TF可能有几个二级基序,如果一个子集(而不是全部)的基序是保守的,那么两个直向同源TF的二级基序是“部分保守的”。当人类TF和小鼠TF都没有第二个基序时,我们将情况指定为“不可用”基序。

铬HMM

铬HMM29应用于五种组蛋白修饰的ChIP-seq数据,学习用于分割每种细胞类型中映射基因组的多变量HMM模型。具体而言,首先从五种组蛋白修饰(H3K4me3、H3K4me1、H3K16me3、H3G27ac和H3K27me3)的复制品中汇集ChIP-seq映射读取。这些映射读取首先由ChromHMM在整个映射基因组的每个200-bp窗口中处理成二进制数据,以ChIP“输入”读取作为背景控制。为了从小鼠和人类中联合学习模型,首先通过连接小鼠mm9和人类hg19表构建伪基因组表,然后从所有四个细胞系的二值化数据中学习模型,给出一个具有一组通用发射参数和过渡参数的单一模型,然后,根据模型最可能的状态分配,使用该模型在所有单元类型中生成分段。我们尝试了多达20个状态的模型,并选择了一个八状态模型,因为从所有八个状态都具有明显不同的发射特性这一意义上看,它似乎最为简约,而在具有附加状态的模型中,状态之间的区别的可解释性则不太明确。

MeDIP-seq和MRE-seq

MeDIP-seq和MRE-seq实验如前所述进行16.使用BWA将读数与hg19和mm9对齐。MRE-seq读数因酶效率的差异而进一步标准化。

定义不同的基因组位置

TSS由ENCOCDE联盟定义15启动子区域定义为TSS上游和下游2kb。远端区域被定义为距离TSS 10 kb。其余基因组区域被定义为中间区域。所有三个基因组位置都是相互排斥的,在定义时优先考虑启动子、远端和中间。每个TF OS被分配到一个(并且只有一个)基因组位置。如果TF操作系统与多个区域重叠,则使用操作系统的中心来定义要分配的区域。

TF OS序列

phyloP类30摆动轨迹是从UCSC浏览器下载的。具体而言,hg19 phyloP46通路用于人类,mm9 phyloP30通路用于小鼠。在以TF峰值为中心的200-bp区域中,以一个碱基对分辨率计算平均phyloP得分。

人类和小鼠同源序列的相互映射

bnMapper(O.Denas、R.Sandstrom和J.Taylor,提交的手稿)使用默认设置的倒链(bnMapper.py-f BED12)绘制了人和小鼠之间的同源DNA序列。

RegulomeDB SNV和占用率保护

具有预先计算的调节电位的SNP可从以下网站下载:http://www.regulomedb.org/下载.dbSNP138从UCSC基因组浏览器下载。TF OS被分为两个专属组:职业保守组和人类特有组。计算具有高调节潜能的SNP数量和位于每组TF OS中的dbSNP数量。进行Fisher精确测试,以检查各组具有高调节潜力的SNP的富集情况。

GWAS SNPs和占用保护

GWAS目录文件下载自:http://www.genome.gov/admin/gwascatalog.txt移除与外显子重叠的铅SNP。对于每个主要SNP,如果SNP本身或连锁不平衡SNP位于给定的TF OS内,则将其分配给该TF OS。还删除了可分配给多个TF OS的主要SNP。进行双侧Fisher精确检验,以计算与所有dbSNP分布相比,每个特定表型的保守性富集,以及P(P)通过Benjamini–Hochberg程序进一步调整数值。

鸣谢

这项工作由拨款3RC2HG005602、5U54HG006996和1U54HG100699(M.P.S.)以及R01DK065806和RC2HG2005573(R.C.H.)资助。A.V.和L.A.P.得到了美国国家人类基因组研究所(NHGRI)拨款R01HG003988、U54HG006997以及美国复苏和再投资法案提供的补充资金的支持。这个体内增强子活性分析在E.O.Lawrence Berkeley国家实验室进行,并根据加利福尼亚大学能源合同部DE-AC02-05CH11231进行。我们感谢R.M.Myers提供了对人类胚胎细胞中ChIP-seq数据的访问。Illumina测序服务由斯坦福基因组学和个性化医学中心提供。

扩展数据图形和表格

PowerPoint幻灯片

图1的PowerPoint幻灯片(337K,ppt) 图2的PowerPoint幻灯片(297K,ppt) 图3的PowerPoint幻灯片(314000,ppt) 图4的PowerPoint幻灯片(308K,ppt)

作者贡献

Y.C.、B.-HK.、A.P.B.、W.W.、J.L.和Z.M.分析了数据。Z.M.、Y.C.、P.C.、X.Y.、D.P.、G.E.、T.K.、C.A.K.和B.G.准备并预处理ChIP-seq数据。V.S.和X.X.准备并预处理MRE-seq和MEDIP-seq数据。A.V.和N.D.进行了增强子分析。Y.C.、Z.M.、R.C.H.、M.P.S.、K.A.、T.W.、L.A.P.、Z.W.、S.L.和Y.L.在所有作者的参与下撰写了这篇论文。M.P.S.和R.C.H.协调并监督该项目。

竞争性利益

作者声明没有竞争性的经济利益。

脚注

程勇和马志海:这两位作者对这项工作做出了同样的贡献。

Mouse ENCODE Consortium:参与者及其附属机构的列表出现在补充信息.

Ross C.Hardison和Michael P.Snyder:这些作者共同监督了这项工作。

参与者信息

罗斯·C·哈迪逊,ude.usp@8hcr.

迈克尔·斯奈德,ude.drofnats@redynspm.

参考文献

1Odom DT等。组织特异性转录调控在人类和小鼠之间存在显著差异。自然遗传学。2007年;39:730–732. doi:10.1038/ng2047。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
2Schmidt D等人。五种脊椎动物ChIP-seq揭示了转录因子结合的进化动力学。科学。2010;328:1036–1040. doi:10.1126/science.1186176。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
3Stefflova K等人。密切相关哺乳动物中钴转录因子的合作性和快速进化。单元格。2013;154:530–540. doi:10.1016/j.cell.2013.07.007。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
4Kunarso G等人。转座元件重新连接了人类胚胎干细胞的核心调控网络。自然遗传学。2010;42:631–634. doi:10.1038/ng.600。[公共医学] [交叉参考][谷歌学者]
5Borneman AR等。转录因子结合位点在相关酵母物种中的差异。科学。2007年;317:815–819. doi:10.1126/science.1140748。[公共医学] [交叉参考][谷歌学者]
6Pennacchio LA,Rubin EM。确定哺乳动物调节序列的基因组策略。《自然·遗传学评论》。2001;2:100.doi:10.1038/35052548。[公共医学] [交叉参考][谷歌学者]
7He Q,et al.转录因子结合的高度保守性和六种基因组合调控的证据果蝇属物种。自然遗传学。2011;43:414–420. doi:10.1038/ng.808。[公共医学] [交叉参考][谷歌学者]
8Landt SG等。ENCODE和modENCODE联合体的ChIP-seq指南和实践。基因组研究。2012;22:1813.doi:10.1101/gr.136184.111。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
9Tokugawa Y,Koyama M,Silver J.Thy-1表达模式物种差异的分子基础。分子免疫学。1997;34:1263.doi:10.1016/S0161-5890(98)00010-8。[公共医学] [交叉参考][谷歌学者]
10Mestas J,Hughes CCW。关于小鼠而非人类:小鼠和人类免疫学的差异。免疫学杂志。2004;172:2731–2738. doi:10.4049/jimmunol.172.5.2731。[公共医学] [交叉参考][谷歌学者]
11Nitzsche A等。RAD21与多能性转录因子合作维持胚胎干细胞特性。《公共科学图书馆·综合》。2011;6:e19470。doi:10.1371/journal.pone.0019470。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
12Merkenschlager M,Odom DT。CTCF和粘附素:将基因调控元件与其靶标连接起来。单元格。2013;152:1285–1297. doi:10.1016/j.cell.2013.02.029。[公共医学] [交叉参考][谷歌学者]
13Sawado T,Igarashi K,Groudine M。β-主要珠蛋白基因转录的激活与NF-E2向β-珠蛋白LCR和基因启动子的募集有关。程序。美国国家科学院。科学。美国。2001;98:10226.doi:10.1073/pnas.181344198。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
14Shen Y等人顺式-小鼠基因组中的调控序列。自然。2012;488:116–120. doi:10.1038/nature11243。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
15Yue,F.等人。小鼠基因组中DNA元素的比较百科全书。自然10.1038/nature13992(本期)[PMC免费文章][公共医学]
16Xie M,等。特定转座因子家族中的DNA低甲基化与组织特异性增强子景观相关。自然遗传学。2013;45:836–841. doi:10.1038/ng.2649。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
17Sundaram,V.、Cheng,Y.、Snyder,M.P.和Wang,T.转座子对基因调控网络创新的广泛贡献。基因组研究10.1101/gr.168872.113(2014年10月15日)[PMC免费文章][公共医学]
18Schmidt D等人。逆转录转座子扩增波重塑了多种哺乳动物谱系中的基因组组织和CTCF结合。单元格。2012;148:335–348. doi:10.1016/j.cell.2011.11.058。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
19Gross DS,Garrard WT.染色质中的核酸酶超敏位点。每年。生物化学评论。1988;57:159–197. doi:10.1146/annurev.bi.57.070188.001111。[公共医学] [交叉参考][谷歌学者]
20Heintzman ND等。人类基因组中转录启动子和增强子的独特和预测染色质特征。自然遗传学。2007年;39:311–318. doi:10.1038/ng1966。[公共医学] [交叉参考][谷歌学者]
21Visel A、Minovitsky S、Dubchak I、Pennacchio LA。VISTA增强浏览器–组织特异性人类增强剂数据库。核酸研究。2007年;35:D88–D92。doi:10.1093/nar/gkl822。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
22Visel A等,ChIP-seq准确预测增强子的组织特异性活性。自然。2009;457:854–858. doi:10.1038/nature07730。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
23Kadamb R、Mittal S、Bansal N、Batra H、Saluja D.Sin3:对其转录调节功能的见解。《欧洲细胞生物学杂志》。2013;92:237–246. doi:10.1016/j.ejcb.2013.09.001。[公共医学] [交叉参考][谷歌学者]
24Boyle AP等人,使用RegulomeDB注释个人基因组中的功能变异。基因组研究。2012;22:1790–1797. doi:10.11101/gr.137323.112。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
25Kasowski M等人。人类之间转录因子结合的变异。科学。2010;328:232–235. doi:10.1126/science.1183621。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
26Li H,Durbin R.使用Burrows–Wheeler Transform快速准确地进行短读对齐。生物信息学。2009;25:1754–1760. doi:10.1093/bioinformatics/btp324。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
27Kharchenko PV、Tolstorukov MY、Park PJ。DNA结合蛋白ChIP-seq实验的设计和分析。自然生物技术。2008年;26:1351–1359. doi:10.1038/nbt.1508。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
28王杰,等。119个人类转录因子结合的基因组区域的序列特征和染色质结构。基因组研究。2012;22:1798–1812. doi:10.1101/gr.139105.112。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
29Ernst J,Kellis M.ChromHMM:染色质状态自动发现和表征。自然方法。2012;9:215–216。doi:10.1038/nmeth.1906。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
30Cooper GM等。哺乳动物基因组序列中约束的分布和强度。基因组研究。2005;15:901–913. doi:10.1101/gr.3577405。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自自然由以下人员提供自然出版集团