跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
公共科学图书馆-遗传学。2008年10月;4(10):e1000242。
2008年10月31日在线发布。 数字对象标识:10.1371/journal.pgen.1000242
预防性维修识别码:项目经理2567431
PMID:18974828

PRC1和PRC2占有率的全基因组分析确定了两类二价结构域

Bas van Steensel,编辑器

关联数据

补充资料

摘要

在胚胎干细胞(ES)中,具有重叠抑制(H3赖氨酸27三甲基化)和激活(H3赖氨酸4三甲基化”)组蛋白修饰的双价染色质域标记着2000多个基因的启动子。为了深入了解二价结构域的结构和功能,我们通过染色质免疫沉淀法在人类和小鼠ES细胞中绘制了多梳抑制复合物1和2(PRC1和PRC2)基因组的关键组蛋白修饰和亚单位,然后进行超高通量测序。我们发现二价结构域可以分为两类:第一类被PRC2和PRC1占据(PRC1-阳性),第二类被PRC2-特异结合(仅PRC2-阳性)。PRC1阳性二价结构域在分化时更有效地保留赖氨酸27的三甲基化,显示出染色质状态的严格保护,并与大量发育调节基因启动子相关,因此在功能上表现出不同。我们还使用计算基因组学来搜索多梳结合的序列决定因素。该分析表明,PRC2和PRC1的全基因组位置可以从CpG岛的位置、大小和潜在的基序内容中进行预测。我们认为,缺乏激活基序的大CpG岛通过在多能干细胞中招募多囊复合物的全部储备来赋予表观遗传记忆。

作者摘要

多梳组(PcG)蛋白在发育过程中基因表达的表观遗传调控中发挥着重要作用。PcG蛋白是组蛋白H3上催化赖氨酸27三甲基化的阻遏物。它们被催化赖氨酸4三甲基化的三羟类蛋白拮抗。最近对ES细胞的研究揭示了一种新的染色质模式,由重叠的赖氨酸27和赖氨酸4三甲基化组成。具有这些相反修饰的基因组区域被称为“二价结构域”,并提议沉默发育调控因子,同时保持它们对交替命运的“准备”。然而,我们对PcG调控和二价结构域的理解仍然有限。例如,二价结构域影响2000多个具有不同功能的启动子,这表明它们可能在不同的细胞过程中发挥作用。此外,PcG复合物靶向特定基因组区域的机制仍然完全未知。为了深入了解这些问题,我们使用超高通量测序在人类和小鼠ES细胞中绘制PcG复合物和相关修饰基因组。该数据确定了两类具有不同调节特性的二价结构域。它们还揭示了基因组序列和染色质状态之间的显著关系,这表明DNA序列在决定PcG复合体的全基因组定位,进而决定ES细胞中的二价结构域方面具有显著作用。

介绍

越来越多的证据表明,Polycomb-(PcG)和trithorax-group(trxG)蛋白及其相关组蛋白修饰对多能状态的可塑性、伴随ES细胞分化的基因表达的动态变化以及随后维持谱系特异性基因表达程序至关重要[1]——[4].

PcG蛋白是通过调节染色质结构发挥作用的转录阻遏物[2]——[4]它们位于两个主要复合物中,称为多梳抑制复合物1和2(PRC1和PRC2)。PRC2含有Ezh2,Ezh2催化组蛋白H3赖氨酸27三甲基化(H3K27me3),以及Eed和Suz12。PRC1含有Ring1,这是一种E3泛素连接酶,它在赖氨酸119(H2Aub1)处使组蛋白H2A发生单-双-酰化[5][6]其他PRC1组分包括Bmi1、Mel-18和Cbx家族蛋白,与H3K27me3具有亲和力[2][3].

PcG复合物和修饰组蛋白之间的相互作用被认为可以介导稳定的转录抑制[2][3]在流行的模型中,PRC2被招募到特定的基因组位置,在那里它催化H3K27me3。修饰的组蛋白反过来募集PRC1,PRC1催化H2Aub1,从而阻碍RNA聚合酶II的延伸[7][8]PRC1也可能通过尚未定义的机制影响PRC2的功能[2][3].

一些研究小组将染色质免疫沉淀(ChIP)与微阵列相结合,以检测单个PcG亚单位的基因组定位[9]——[13]Lee等人使用平铺阵列在人类ES细胞中定位PRC2亚单位Suz12,确定了近2000个基因靶点。Boyer等人使用启动子阵列来鉴定小鼠ES细胞中PRC2和PRC1成分共占用的512个基因。在这两项研究中,涉及的基因集高度富集了发育转录因子(TF),其中许多因子在ES细胞分化或PRC2缺乏的背景下表达降低。

同时对ES细胞组蛋白甲基化的研究导致了意外发现,PcG活性的几乎所有位点不仅携带抑制性H3K27me3修饰,而且还强烈富集激活的、trxG-相关的H3赖氨酸4三甲基化(H3K4me3)标记[14][15]具有两种相反修饰的基因组区域被称为“二价结构域”,并建议沉默发育调节因子,同时保持它们“准备好”应对不同的命运。ES细胞分化后,大多数二价启动子分解为“单价”状态。诱导基因进一步富集H3K4me3并失去H3K27me3,而许多非诱导基因保留H3K17me3但失去H3K4me3[15][16].

尽管取得了这些进展,我们对PcG调控和二价结构域的理解仍然有限。在当前的研究中,我们试图解决两个悬而未决的问题。第一个与所有二价结构域是否具有相同的调控结构有关。最近的观察表明,人类和小鼠ES细胞在2000多个启动子上显示重叠的H3K27me3和H3K4me3,其中只有一部分具有发育功能,这表明二价结构域可能反映多种不同的调控实体[16]——[18]第二个与PcG复合物靶向和ES细胞中二价结构域建立的机制有关。果蝇属,PcG复合物被招募到称为多梳反应元件(PRE)的DNA元件中。然而,这些元素的哺乳动物等效物尚未确定[4].

我们通过对小鼠和人类ES细胞中PcG复合物定位的全基因组分析来解决这些突出问题。我们使用了新开发的“ChIP-Seq”方法,该方法利用超高通量测序来生成蛋白质-DNA相互作用的独特综合图谱[16][19].

数据揭示了两类具有不同调节特性的二价结构域。第一类对应于具有PRC2和PRC1的二价结构域。这些“PRC1-阳性”二价结构域显示出显著的进化保守性,对应于ES细胞中的大H3K27me3区域,这些区域在分化时极有可能保留H3K17me3,并且占了涉及的发育调节基因的绝大多数。相比之下,仅与PRC2结合的PRC1负二价结构域是弱保守的,H3K27me3保留较差,并且大部分对应于膜蛋白或功能未知的基因。值得注意的是,ChIP-Seq数据的计算基因组分析表明,CpG岛的位置、大小和基序内容可以预测ES细胞中PRC2、PRC1和二价结构域的全基因组定位。基于这些数据,我们提出了一个模型,在该模型中,缺乏激活转录因子基序的大CpG岛通过在早期胚胎发生期间招募PRC2和PRC1,通过哺乳动物的发育传递表观遗传记忆元素。

结果

ChIP-Seq数据集概述

为了深入了解二价染色质的结构、功能和保守性,我们使用ChIP-Seq获得了ES细胞中PcG复合物成分和相关组蛋白修饰的全基因组图谱(表S1)。使用针对Ezh2、Suz12、Ring1B、H3K4me3、H3K27me3或H3K36me3的抗体免疫沉淀小鼠v6.5 ES细胞或人类H9 ES细胞的染色质(材料和方法)。我们还使用生物素-链霉亲和素相互作用(bioChIP)纯化转基因小鼠ES系的染色质,其中内源性Ring1B与生物素连接酶识别肽融合。使用Illumina基因组分析仪对每个ChIP实验中分离的DNA进行深度测序。对齐的阅读被整合到地图中,表明特定表位的富集是基因组位置的函数。总的来说,我们创建了八个全基因组图,每个图反映了200万到1100万个对齐的读取,并且总共代表了超过2 Gb的序列。所有数据都可在以下网址公开获取:http://www.broad.mit.edu/seq_platform/chip/.

ES细胞染色质状态的进化保护

使用相同抗体和方法获得的小鼠和人类ES细胞全基因组数据的可用性为研究多能干细胞染色质状态的保存提供了机会。我们系统地比较了13200个同源启动子的染色质状态,确定了同源基因组位点的显著相似性(图1A图S1;表S2第3章、和S4系列).

保存图片、插图等的外部文件。对象名称为pgen.1000242.g001.jpg
小鼠和人ES细胞染色质状态的保护。

(A) H3K4me3(绿色)、H3K27me3(红色)和H3K36me3(蓝色)的ChIP-Seq信号绘制在小鼠和人类ES细胞中120 kb的同源序列上。(B) 人类ES细胞中具有给定染色质状态的启动子的比例取决于其在小鼠ES细胞中的状态。(C) ChIP-Seq信号显示小鼠和人类ES细胞中具有不同染色质状态的发育调节基因座。发散状态对应于两种多能性模型之间的已知差异(见正文)。

在小鼠和人类ES细胞中,大约四分之三的基因启动子被H3K4me3标记。物种间有很强的对应关系,小鼠中>94%的启动子携带H3K4me3,人类中也携带H3K4me3。大约五分之一的H3K4me3启动子也携带H3K27me3,因此是二价的(小鼠:n=2978;人类:n=2529)(图S1C)。二价小鼠启动子中有一半以上在人类ES细胞中也携带二价染色质,这又是一种很强的保守性(图1B图S1A)。如前所示,许多双价小鼠启动子对应于同源盒TF或其他发育调节因子[14][15]这些基因类别显示出染色质状态的特别强的保守性,小鼠和人类之间约有70%的对应性。尽管如此,仍有许多发育调节因子的染色质状态因物种而异(图S3)。对这些基因的仔细检查揭示了一些有趣的案例,这些案例似乎反映了两种多能性模型之间的生物学差异:

  1. Fgf2、Fgfr3、Activin A、Lefty1和Lefty2的启动子在小鼠ES细胞中是二价的,但在人类中显示出活性“H3K4me3 only”状态(图1C)。这与这些基因的已知表达模式一致,这些基因与人类ES细胞特异性Activin/NODAL途径有关[20]——[22]另一个例子是SOCS1,它是一种STAT3信号的抑制剂,在人类ES细胞中特异表达,可以阻断LIF反应[23].
  2. 相反,染色质图谱揭示了仅在人类ES细胞中具有二价的发育调节因子,这些可能也与模型之间已知的生理差异有关(图1C)。示例包括Fgf4和Gbx2,它们与内细胞质量相关并在小鼠ES细胞中特异表达[20][24][25].

因此,对人类和小鼠ES细胞的比较分析表明,多能染色质状态得到了广泛的保护,同时也阐明了与信号通路和转录程序相关的不同染色质调节,已知这些细胞模型之间存在差异(另请参见图S3)。这里所看到的二价结构域的强保守性与之前在小鼠和人类ES细胞之间观察到的Oct4和Nanog靶点惊人的弱对应性形成对比[26]与之前的研究一致,我们的数据表明,H3K27me3和H3K4me3的全球模式与转录程序和细胞状态密切相关,二价组合是多能干细胞沉默发育调节因子的保守标记。

PcG复合占用定义了两类二价域

PRC2基本上占据所有二价结构域

为了深入了解二价结构域的建立和功能,我们接下来考虑了PcG复合物在小鼠ES细胞中的定位。PRC2组分Ezh2和Suz12的ChIP-Seq图显示,小鼠基因组中有3000多个位点因一个或两个因子而显著富集。大约四分之三的PRC2结合位点对应于已知的基因启动子:Ezh2占2461个启动子,而Suz12占1944个启动子。这些发起人之间有广泛的重叠,超过89%的Suz12目标也有Ezh2(rφ = 0.77). 二价启动子也有大量重叠:几乎所有Suz12和Ezh2靶基因都有二价组蛋白标记,相反,78%的二价启动基因有Ezh2或Suz12(图2A、C).

保存图片、插图等的外部文件。对象名称为pgen.1000242.g002.jpg
二价结构域的PcG复合占有率。

(A) H3K4me3、H3K27me3和PRC2亚基Suz12和Ezh2的ChIP-Seq信号在一组具有代表性的二价基因启动子中显示。(B) PRC1亚基Ring1B在这些位点的ChIP-Seq信号。(C) Venn图显示了H3K27me3、PRC2和Ring1B标记的启动子之间的重叠。(D) ChIP-Seq分类为“Ring1B阳性”或“Ring1B阴性”的二价启动子处的Ring1B的ChIP-qPCR数据。误差条显示标准偏差。

因为PRC2是已知唯一能够催化H3K27me3的络合物[2],我们考虑了ChIP-Seq未检测到PRC2的少数(22%)二价启动子。许多启动子显示H3K27me3的水平相对较低,我们考虑PRC2是否只是因为敏感性或阈值问题而缺失。与这种可能性相一致,ChIP和定量实时PCR(qPCR)证实每个启动子都有适度但显著的Ezh2富集(比率为2-7倍;图S2A)。这表明PRC2基本上存在于所有二价启动子中。值得注意的是,H3K27me3和PRC2之间的对应关系并不局限于注释的基因启动子,因为在与已知基因不对应的二价染色质的大约1000个位点上,接近普遍的PRC2结合也很明显(见材料和方法).

PRC1占据二价域的守恒子集

接下来,我们研究了PRC1的定位,重点是其催化成分Ring1B。ChIP-Seq图显示,小鼠ES细胞中约有1500个显著富集的基因组位点,包括1308个注释基因启动子。几乎所有(90%)Ring1B靶点都对应于结合PRC2的二价基因组区域。然而,只有39%的二价启动子富集于环1B(图2B、C)。这一入住率大约是鄂尔多斯2号观察到的入住率的一半。作为额外的度量,我们创建了一个Ezh2-ChIP-Seq数据集,其读取次数与Ring1B数据集完全相同(通过随机选择读取次数)。对该截断数据集的分析表明,74%的二价启动子与Ezh2结合(相比之下,完整的Ezh2-ChIP-Seq数据集的结合率为75%)。因此,测序深度不能解释鄂尔多斯2号和环1B号占用率之间的差异。

因此,ChIP-Seq分析表明,虽然PRC2普遍存在于二价启动子中,但PRC1仅占一个独特的亚群。由于PRC2和PRC1通常被描述为共同的基因和位点[9][10],我们试图通过正交方法确认这一意外结果,如下所示:

  1. 首先,我们使用ChIP和qPCR排除了二价启动子亚群中Ring1B缺失反映ChIP-Seq数据缺乏敏感性的可能性。该分析证实,环1B-负二价启动子也没有通过qPCR显示任何富集(图2D).
  2. 接下来,为了排除抗体相关的偏见,我们使用bioChIP从携带Ring1B和生物素连接酶识别肽融合的转基因ES细胞中纯化Ring1B-bound染色质(图S2B)。Ring1B-阳性二价启动子再次表现出一致的富集,而Ring1B阴性二价启动物表现出与背景对照相似的富集。
  3. 第三,为了测试环1B阳性和阴性二价结构域的存在是否是一种保守现象,我们通过ChIP-Seq检测了人类ES细胞中环1B的占有率。我们再次发现,环1B仅占据二价结构域的子集。PRC1的位置显示出显著的跨物种保守性:人类中60%的Ring1B-阳性启动子在小鼠中也为Ring1B阳性(表S4).
  4. 最后,为了证实环1B状态反映了PRC1状态,我们研究了一个独特的PRC1成分Bmi1的定位。通过在ES细胞中使用表位标记构建物,我们发现Bmi1特异性定位于Ring1B阳性二价结构域(图S2C)。这表明我们对环1B的研究结果通常适用于PRC1复合体。此后,这两组二价结构域被标记为“PRC1阳性”和“PRC1阴性”。

PRC1结合的二价结构域在功能上是不同的

Ring1B靶向的一组独特的二价启动子的鉴定促使我们研究PRC1占用的功能意义。我们对染色质调节、表观遗传记忆、发育和分化进行了一些引人注目的观察:

PRC1占用与功能抑制相关

我们首先考虑上述PRC1的物理靶点是否也受复合体的调节。由于Ring1B和Ring1A在功能上是多余的,我们采用了条件Ring1A/B双敲除ES细胞系统,其中通过添加4-羟基他莫昔芬(OHT)诱导Ring1B耗竭[13]我们描述了OHT处理48小时后的表达变化,此时Ring1B蛋白水平显著降低,而Oct4水平基本保持不变[8][13]我们发现32%的PRC1阳性二价启动子上调了至少50%,而所有基因中只有5%上调(图3B)。此时,较小比例的PRC1负二价启动子上调(16%)。两组之间的差异具有统计学意义(p<10−10),并且不能用基线表达水平来解释,因为无论PRC1状态如何,二价启动子的活性都很低。

保存图片、插图等的外部文件。对象名称为pgen.1000242.g003.jpg
PRC1阳性二价结构域在功能上是不同的。

(A) 方框图显示25第个, 50第个和75第个Ring1B阳性二价启动子、Ring1B-阴性二价启动子和仅H3K4me3启动子的百分位Ring1BChIP-Seq信号。(B) 图中显示了所示基因集PRC1缺陷ES细胞中上调(红色)或下调(蓝色)的基因部分(有关Ring1A/B dKO ES细胞模型的详细信息,请参阅文本)。PRC1-阳性二价启动子的比例明显较高(通过Fisher精确测试得出的p值),则明显存在去表达现象。(C) 人类同源基因也携带H3K27me3的二价小鼠启动子的比例显示,取决于小鼠ES细胞中的Ring1B状态。(D) H3K27me3保留在ES细胞衍生神经祖细胞(NPCs)中的二价启动子的比例取决于小鼠ES细胞中的Ring1B状态。(E) 在PRC1-阳性或PRC1-阴性二价基因集中过度表达的基因本体类别。

一些因素可能有助于降低这一较小组PRC1-负二价启动子的表达。在OHT治疗2天后测量表达时,这些变化可能反映了间接影响。此外,在不同的ES品系中进行了Ring1基因敲除实验和定位分析,这可能是一些差异的基础。尽管如此,事实上PRC1阳性集显示出更大的反应,这表明PRC1占用与功能抑制相关。作为对照,我们检测了与PRC2缺失相关的表达变化。我们发现,在缺乏PRC2成分Eed的ES细胞中,PRC1阳性和PRC1阴性二价启动子的去表达程度大致相同(图S4)[13].

PRC1-正二价结构域对应H3K27me3的大保守位点

接下来,我们询问组蛋白修饰的模式在两组二价结构域之间是否不同。我们观察到两个重要趋势。首先,与PRC1阴性二价结构域相比,PRC1阳性二价结构区与H3K27me3更大的区域相关(中位数为3.2 kb对1.0 kb)。规模大与H3K27me3在PRC1招募中的拟议角色一致[2][3]第二,PRC1阳性二价结构域表现出更大的染色质状态保守性:在71%的病例中,带有PRC1的二价小鼠启动子具有二价人类同源序列,相比之下,只有43%的没有PRC1的双价小鼠启动程序具有二价人同源序列(p<10−10;图3C)。因此,PRC1占有率与更大的二价结构域相关,这些结构域似乎反映了高度保守的功能。

PRC1-与发育调节基因相对应的正二价结构域

接下来,我们检查了与不同类别的二价启动子相关的基因靶点。PRC1阳性集包含大量编码TF的基因(30%,p<10−20),包括Hox、Sox、Pax和Pou结构域家族成员,或细胞信号和形态发生分子,如Wnts和Fgfs(图S3)。相反,对于编码膜蛋白的基因来说,PRC1负二价启动子组反而过度表达(50%;p<10−10)。值得注意的是,尽管PcG蛋白与发育TF密切相关,但这个二价结构域的PRC1-阴性(仅PRC2-)亚群显示出TF基因相对于基因组平均值的显著缺失(4.1%对10.2%;p<10−10).

PRC1-正二价结构域有效维持抑制性染色质环境

最后,我们比较了PRC1阳性和PRC1阴性二价启动子对ES细胞分化的影响。我们检查了来自同一ES细胞系的神经祖细胞(NPC)群体的ChIP-Seq数据[16]由于PRC1与抑制性染色质状态的维持有关,我们推断具有PRC1的启动子在分化时应更有效地保留H3K27me3。与此假设一致,我们发现33%的PRC1阳性二价启动子在NPC中保留H3K27me3,而PRC1阴性二价启动物仅为10%(p<10−10) (图3D)。许多在分化时失去抑制标记的PRC1阳性二价启动子与转录激活相关,因为大约五分之一的启动子在NPC中诱导至少5倍。因此,通过分化,PRC1占用与PcG-相关染色质标记的更稳定保留相关。

我们得出结论,基于ES细胞中的PcG复合占据率,可以定义两组不同的二价结构域。携带PRC2和PRC1的双价结构域更大,更保守,通过分化更有效地保留。他们占了涉及发展监管机构的绝大多数。相比之下,仅由PRC2占据的二价结构域维持不佳,对应于不同的非发育基因集,因此可能反映了交替的调节过程。

序列元素和基序预测ES细胞中PcG复合物的定位

接下来,我们研究了染色质图谱,以深入了解另一个尚未解答的基本问题,即PcG复合物最初补充和ES细胞中二价结构域形成的机制。多能性状态之前的广泛表观遗传重编程表明,基因组序列中的元素本身必须在这一过程中发挥中心作用[1][27][28]然而,这些决定PcG的序列元素的身份仍然难以捉摸。

PRC2与全基因组CG-Rich序列相关

为了确定可能有助于PcG招募的序列元素,我们应用了计算序列分析和新的ChIP-Seq数据。我们最初关注Ezh2,认为该催化PRC2亚单位最能反映初始招募机制。双价结构域和PcG靶点先前已被证明与CG-rich DNA相关;例如,人类ES细胞中约50%的Suz12结合位点对应于CpG岛[11][16][29]小鼠Ezh2的ChIP-Seq数据显示出更高的对应性,88%的富集区间与带注释的CpG岛一致。79%的病例中,H3K27me3富集区间与CpG岛相似。值得注意的是,与CpG岛重合的Ezh2/H3K27me3站点的比例大大高于H3K4me3站点(68%),H3K4me3站点之前与CpG-岛相关[15]它也远大于其他染色质结构(图S5)包括H3K9me3(1.1%)和H4K20me3(0.7%)。

当我们检查与注释CpG岛不对应的少数Ezh2结合位点(12%)时,我们发现这些位点中有四分之三重叠高度CG-丰富序列,刚好低于CpG岛屿的定义阈值(参见材料和方法)。包括这些位点,ES细胞基因组中97%以上的Ezh2结合位点对应于注释的CpG岛或其他高CG富集序列。这些结果表明,这种CG-rich序列在ES细胞的DNA水平上大部分未甲基化[27],可能有助于PRC2的招募和随后在二价结构域建立H3K27me3。

然而,只有少数CpG岛在ES细胞中携带Ezh2或H3K27me3,即PRC2阳性。大多数仅针对H3K4me3富集,且为PRC2-阴性(图4A)。因此,我们考虑了额外的序列特征是否区分了PRC2-阳性和PRC2-阴性CpG岛。我们整理了两组CpG岛,一组显示出基于ChIP-Seq的明确Ezh2结合(n=2608),另一组则没有任何Ezh2信号(n=9097)。为了最大限度地提高我们的分析能力,我们排除了CpG岛的一个子集,该岛显示了中等水平的Ezh2富集(n=3443)。

保存图片、插图等的外部文件。对象名称为pgen.1000242.g004.jpg
CG-密度和DNA基序出现预测全基因组PcG复合体定位。

(A) 小鼠ES细胞中具有给定染色质状态的CpG岛的比例。小鼠ES细胞中97%以上的Ezh2位点对应于CpG岛或其他高CG富集序列。系统筛选揭示了在(B)Ezh2-阳性CpG岛或(C)Ezh2-阴性CpG岛屿中过度表达的DNA基序集(括号中的富集)。(D) 小鼠ES细胞中牵连TF的表达水平。Ezh2阳性CpG岛中富集的基序对应于未表达的阻遏物或TF。在Ezh2阴性CpG岛中富集的基序对应于高表达的激活剂。(E) CpG岛的Ezh2 ChIP-Seq信号根据基序出现情况预测为PRC2-阳性或PRC2-阴性。(F) H3K27me3 CpG岛人类ES细胞的ChIP-Seq信号根据最初在小鼠中识别的基序的出现情况预测为PRC2-阳性或PRC2-阴性。

我们考虑了CpG岛长度、CG密度和所有可能二核苷酸的频率(图S6)作为潜在特征。PRC2-阳性CpG岛显示出更大的中位数长度(721 bp vs 526 bp)和稍低的中位数CpG观察到的预期比率(0.88 vs 0.92)。然而,长度和比率的总体分布在很大程度上是相似的,并且不区分PRC2正负集。

我们还比较了这些CpG岛集合的守恒性质。哺乳动物基因组包含约200个大区域,其特征是高度保守的非编码元素显著富集[30][31]CpG发散率极低[32]这些位点包含许多发育基因的启动子,其中大多数在ES细胞中是二价的[33]虽然有人认为这些位点中的保守元素有助于PcG募集,但我们发现只有~10%的Ezh2结合位点出现在这些区域内。总的来说,我们发现PRC2-阳性CpG岛相对于PRC2-阴性岛表现出较高的序列保守性,但分布重叠(材料和方法)。因此,保守性分析并没有对观察到的PRC2结合模式提供明显的解释。

基于主题内容可以区分PRC2-阳性CpG岛

因为PRC2-阳性和PRC2-阴性CpG岛之间的区别不能用简单的序列组成来解释,所以我们接下来考虑更复杂的序列基序。D.黑腹果蝇,PcG募集由特定TF识别的基序组合介导[4]因此,我们探讨了TF基序是否可以预测PRC2在哺乳动物ES细胞中的定位。由于苍蝇中涉及的基序和TF在脊椎动物中几乎没有保守性,我们扩大了分析范围,将TRANSFAC和Jaspar数据库中注释的所有668个脊椎动物DNA结合基序都包括在内[34][35].

我们使用了MAST算法[36]并从这些数据库中定位权重矩阵(PWM),以识别图案。采用无偏见的方法,我们搜索了Ezh2-阳性或Ezh2-阴性CpG岛上过度表达的基序。通过富集率对过度表达的基序进行排序,并使用Fisher精确检验确认其重要性。我们还排除了这样的可能性,即丰富的基序仅仅反映了潜在核苷酸含量的差异,方法是使用打乱的PWM重复每次调查。最后,由于TRANSFAC和Jaspar数据库中的因子和PWM之间存在冗余,因此使用聚类算法将高度相似的PWM分解为单个代表性模体。该分析在Ezh2-positive CpG岛上共产生了14个图案,其丰度在1.2到1.3倍之间,这些图案分为10个图案簇。它还揭示了鄂尔多斯负CpG岛上11个图案的丰度在2.3到6.0倍之间,分为6组(图4B、C图S8).

我们最初关注与Ezh2-阳性CpG岛相关的基序,因为这些基序可能介导PRC2的招募。虽然富集率相对较低,但可以想象可能需要多种因素的组合,如果蝇属然而,大多数相应的TF实际上并不在ES细胞中表达,而是在分化细胞中表达。这些包括沿特定分化途径诱导的发育调节因子,如MyoD(肌生成)、Lmo2(造血)、Brachyury(近轴中胚层)和Pou6F1(神经生成)[37]——[40]PRC2靶标包括许多具有复杂表达模式的发育基因,这可以解释为什么它们富含谱系特异性TF基序。因此,这些未表达的TF不太可能有助于PRC2在ES细胞中的定位。

然而,在Ezh2阳性岛中发现的三个因子在ES细胞中表达,这些情况说明了这一点(图4D)。表达最多的是神经元限制性沉默因子(NRSF/REST),这是ES细胞多能性所必需的一种强效转录抑制因子[41]值得注意的是,NRSF基序是哺乳动物基因组中特征最好且具有高度预测性的结合元件之一[42]第二个表达因子是Cux1,它也作为转录抑制因子发挥作用[43]第三个表达因子是NFκB,这是一种广泛研究的转录调节因子,具有与免疫、炎症和分化相关的多种功能[44]虽然NFκB已明确表达,但其活性在ES细胞中被多能性因子Nanog强烈抑制[45]因此,Ezh2-阳性CpG岛中丰富的基序被抑制因子或ES细胞中不活跃的TF识别(参见文本S2).

接下来,我们研究了Ezh2-negative CpG岛上丰富的图案。我们立即感到惊讶的是,这些基序被ES细胞中高度表达的几种特征鲜明的转录激活物所识别(图4C,D)。一些牵连因子在ES细胞调节网络中具有关键功能(例如NFY、Myc),而其他则是具有一般内务管理功能的构成性激活因子(例如Ets1;参见文本S2)[46]——[48]这些激活基序的富集程度远远大于上述Ezh2-阳性序列中识别的基序。因此,CpG岛上Ezh2结合的最强序列相关性似乎是缺席能够赋予转录活性的基序。

对CpG岛内的基序发生次数进行简单计数,可以准确预测约三分之二的Ezh2结合位点(参见材料和方法;图4E)。这与预测的Polycomb响应元件相比是有利的果蝇属,存在于实验确定的PcG结合位点的6至27%[4][49]——[51]值得注意的是,我们在小鼠中发现的基序对识别人类ES细胞中的PcG靶点也有相当大的预测价值(图4F).

总之,我们发现PRC2-阳性CpG岛的特征是抑制基序的过度表达和转录激活基序的强烈耗竭。虽然受牵连的阻遏物可能直接介导PRC2的募集,但每一种都已被深入研究,并与不同的生物过程相关联。相反,我们支持这样的观点,即激活基序的缺乏,以及在较小程度上,抑制基序的存在决定了ES细胞中的转录不活跃状态,允许PRC2结合。我们认为,CpG岛在PRC2募集中起着中心作用,并且在缺乏转录活性的情况下,ES细胞默认为双价染色质状态(参见讨论).

PRC1占据PRC2-Positive CpG大岛

最后,我们考虑了是否也可以从基因组序列预测PRC1关联。PRC1约占ES细胞中所有PRC2位点的一半,在没有第二个PcG复合体的情况下,基本上从未观察到PRC1。我们比较了两组Ezh2-阳性CpG岛,一组带环1B(n=1036),另一组不带环1b(n=981)(参见方法)。我们发现核苷酸含量(CG-密度、二核苷酸频率)或上述基序的出现没有显著差异。

相反,最好的预测指标似乎是富含CG的DNA的长度。PRC1阳性CpG岛的面积大约是仅携带PRC2的两倍(图S9)。它们也更有可能居住在靠近其他二价CpG岛屿的地方。考虑到CpG岛的大小和与其他二价岛的接近程度,可以准确预测70%以上PRC2-阳性CpG岛屿的PRC1状态(参见材料和方法)。因此,我们的研究结果表明,ES细胞中两个主要PcG复合体的全基因组定位可能在很大程度上可以根据CpG岛的位置、大小和潜在的基序内容进行预测。

讨论

我们应用ChIP-Seq和计算基因组分析来研究小鼠和人类ES细胞中关键组蛋白修饰和PcG亚基的全基因组分布,从而深入了解二价结构域的结构、功能和建立。

ChIP-Seq数据揭示了ES细胞中两组不同的二价结构域。一组基于PRC1和PRC2的共现性定义,显示出特殊的表观遗传特性,包括染色质状态的更高进化保守性和通过分化抑制染色质的强劲保留。这组基因非常丰富,可以用于发育目标,因为超过三分之一的相应基因编码TF、形态因子或细胞因子。与此形成鲜明对比的是,第二组仅由PRC2占据的二价结构域实际上相对于基因组平均值而言,TF基因的重表达不足,并且PcG相关染色质标记的保存和保留较弱。我们认为,在关键发育基因的表观遗传调控中,二价结构域和相关染色质的完整功能需要PcG机制的完整储备。

这些数据还提出了一个潜在的模型,用于理解PcG复合物的初始募集,以协调建立二价染色质。特别是,我们发现ES细胞中PRC2的结合完全局限于具有高CpG含量的序列,绝大多数是注释的CpG岛。给定CpG岛的状态——无论是携带PRC2和二价H3K4me3/H3K27me3染色质还是仅携带H3K4me3——与潜在的基序内容相关。带有PRC2的CpG岛显示出转录激活基序的显著缺失和抑制基序的适度富集。因此,PRC2似乎定位于ES细胞中转录沉默的CpG岛,因为它们缺乏激活的DNA序列基序。

CpG岛与trxG复合体和H3K4me3密切相关;前者的招募可能涉及CXXC蛋白与非甲基化CpG二核苷酸的亲和力[15][52][53]我们认为,CpG岛在默认情况下类似地介导哺乳动物ES细胞中H3K27me3的PcG募集和催化,除非默认情况被转录活性所覆盖。在该模型中,在任何给定的CpG岛上,PcG/H3K27me3和trxG/H3K4me3的范围由其基线转录状态决定,该状态由潜在的基序含量决定。在ES细胞中,转录状态是PcG状态上游的观点与PcG缺陷ES细胞中明显的细微转录变化一致[9][54]虽然我们的分析没有阐明潜在的机制,但PRC2募集也可能涉及对非甲基化CpG具有亲和力的蛋白质,或可能通过识别其他组蛋白修饰(如H3K4me3)间接介导。在任何一种情况下,一个基因座内的活性转录都会阻止稳定的PRC2结合,从而将其限制在非活性的CpG岛上。

大的PRC2-阳性CpG岛往往也携带PRC1。与这些岛屿相关的H3K27me3的扩张区域可能通过色域蛋白促进PRC1的募集[2][3]如上所述,携带PRC2和PRC1的二价结构域似乎具有独特的表观遗传调控特性。因此,我们提出,缺乏激活基序的大CpG岛通过在多能干细胞中招募两个关键PcG复合物来实现表观遗传调控。因此,这些岛屿可能反映出哺乳动物的记忆元件,类似于苍蝇中的多囊反应元件。

DNA序列和PcG定位之间的紧密对应可能对重要的细胞过程,如发育和表观遗传重编程有意义。诱导的多能干细胞(iPS)和ES细胞表现出几乎相同的染色质模式,包括二价结构域的位置[55][56]上述序列可作为植入前发育期间PcG复合体和二价结构域的稳健组装和适当定位的模板,或作为体细胞人工重编程到iPS细胞的模板[1][28].

那么,由遗传序列和相关转录程序完全编码的初始染色质状态的目的可能是什么?基于现有证据,我们认为PcG复合物和相关染色质通过加强诱导分化因子的抑制来缓冲多能基态。最初的染色质结构似乎也为伴随分化的动态表达变化以及随后的表观遗传控制参与维持谱系特异性转录程序做好了准备。我们的分析表明,这种表观遗传功能主要适用于携带PRC1的大型二价CpG岛。小的PRC1负二价结构域是否具有独特的调节功能,或者仅仅是为建立前者而进化的机制的副产品,还有待观察。

需要进一步的研究来确定介导PcG募集的精确DNA元素和蛋白质相互作用。如上所述,CG-rich序列的拟议中心作用意味着CXXC结构域或识别CG二核苷酸的其他蛋白质的参与。然而,有几个因素使我们对基因组研究结果的解释复杂化。特别是,CpG岛至少部分是由于生殖系中缺乏DNA甲基化的区域中CpG脱氨率降低的结果[27]PcG占据的区域在DNA水平上大部分是非甲基化的,至少在ES细胞中是如此[57]这有助于保留富含CG的序列。因此,进化动力学和/或靶区CpG含量普遍较高仍然可能掩盖了其他关键序列特征。

最后,应该强调的是,我们对PRC2和PRC1之间的关系以及它们基因组定位的序列的研究结果特别适用于ES细胞。PcG复合物在表达水平、化学计量和定位方面表现出显著的组织特异性[2][3][11][12]需要进一步研究,以了解PcG复合物的基因组定位和调节功能如何随分化、谱系规范、环境和疾病而变化。

材料和方法

细胞培养

小鼠v6.5(基因型129SvJae×C57BL6,雄性,第10-15代)ES细胞在DMEM(Sigma)中的成纤维饲养器上培养,DMEM中含有15%胎牛血清(Hyclone)、谷氨酸Max(Invitrogen)、MEM非必需氨基酸(Invitro)、pen/strep(Invitogen)、ESGRO(Chemicon)和2-巯基乙醇(Sigma),在37°C、5%CO下培养2 [16]收获前,这些细胞在无饲料涂胶组织培养板上传代2-3次。如上所述,培养表达来自内源性Ring1B基因座的Ring1B和生物素连接酶识别肽与来自Rosa26基因座的BirA生物素连合酶(香港,未出版)之间融合的转基因ES细胞系。

如所述培养人H9(雌性,第45代)ES细胞[58]以及网址:http://www.WiCell.org简而言之,在含有10%敲除血清替代物(Invitrogen)、10%血浆酸盐(Bayer Healthcare)、谷氨酸Max(2 mM)、pen/strep、MEM非必需氨基酸(0.1 mM),10 ng/mlβ-FGF(Invit罗gen)和2-巯基乙醇的敲除DMEM(Invirogen)中的辐照MEF(DR4菌株)上培养人ES细胞。细胞在37°C、5%CO下培养2.使用无MEF的ES细胞进行分析。无MEF培养物的制备方法如下:首先,通过将hES细胞短暂转移到明胶涂层板上(30分钟),在胰蛋白酶传代时耗尽MEF。然后将MEF-消减的ES细胞培养在涂有Matrigel(Invitrogen)的平板上。在Matrigel上生长的ES细胞用上述人ES细胞培养基支持,所述人ES细胞培养基首先在MEFs上调节24小时。使用前立即将新鲜β-FGF添加到调节培养基中。

Flag-Bmi1 mES细胞的产生

多西环素诱导的Flag-Bmi1转基因ES细胞系是通过PCR扩增1×Flag标记的Bmi1 ORF(Addgene),引物包括3×Flag标记以及EcoRI和XbaI限制酶位点(5′-GGAATTCCCACACAGAGACTAAAGACCATGACGGGGTGATATAAAAGATCATCATCGACACAGACG-3′5′-GCTCTAGAGCAGATGAAGTCTGACCATTAGTGTT-3′)。如前所述,将其克隆到pLox载体(pPGK-loxP-neoEGFP)中,并使用cre重组酶表达载体将其并入Ainv15小鼠ES细胞[59]如上所述,培养Flag-Bmi1 ES细胞与野生型mES细胞相似。收获前,通过在涂胶培养板上与1µg/ml多西环素孵育两天,诱导Flag-Bmi1表达。

染色质免疫沉淀和抗体

H3K4me3、H3K27me3和H3K36me3、Ring1B和Flag-Bmi1的ChIP实验如所述进行[15][16]ES细胞在1%甲醛中交联,用Branson 250 Sonifer(小鼠ES细胞)或Diagenode biolruptor(人类ES细胞)进行裂解和超声处理,以获得大小在200到700 bp之间的染色质片段。将溶解的染色质(全细胞裂解物或“WCE”)在ChIP稀释缓冲液(1∶10)中稀释,并在4°C下与抗体孵育过夜。蛋白质A琼脂糖珠(Sigma)用于捕获抗体-色素复合物,并用低盐、氯化锂以及TE(pH 8.0)洗涤缓冲液洗涤。富集的染色质片段在65℃下洗脱10 min,在65℃进行交联反转5 h,并用蛋白酶K(1 mg/ml)处理,然后用酚氯异戊醇提取,并沉淀乙醇。然后使用Quant-iT Picograen dsDNA检测试剂盒(Invitrogen)对ChIP DNA进行定量。

Ezh2和Suz12的ChIP实验是在核准备上进行的。在膨胀缓冲液(0.1 M Tris pH 7.6,10 mM KOAc,15 mM MgOAc,1%NP40)中培养交联ES细胞,在冰上培养20分钟,通过16G针20次并离心收集细胞核[60]然后按照上述方法对分离的细胞核进行裂解、超声处理和免疫沉淀。

使用转基因Ring1B-生物素连接酶识别肽ES细胞(如上)进行BioChIP分析。如上文所述,对细胞核进行分离、裂解和超声处理。Dynabeads M-280链霉亲和素(Invitrogen 112.05D)用于捕获生物素化的Ring1B-DNA复合物。除常规清洗外,用2%SDS缓冲液和高盐缓冲液(50 mM HEPES,pH 7.5,1 mM EDTA,500 mM NaCl,1%Triton X-100,0.1%脱氧胆酸盐)清洗珠子。通过在65°C的300 mM NaCl中培养Dynabeads过夜,同时进行洗脱和交联逆转[46]按照上述方法分离DNA。

本研究中使用的抗体包括抗H3K4me3(Abcam ab8580)、抗H3K27me3(Upstate 07-449)、抗-H3K36me3(Abcam ab9050)、抗Ezh2(Active Motif 39103)、抗Suz12(Abcam-ab12073)、抗Ring1B[61]和反标记(M2)(Sigma F1804)。抗体特异性的详细信息见文本S1.

测序文库制备和Illumina/Selexa测序

如前所述进行文库制备和超高通量测序[16]简单地说,使用end It DNA末端修复试剂盒(Epicentre)对1至10纳克(ng)的ChIP DNA进行末端修复和5′磷酸化。然后,我们使用基因组DNA样品制备试剂盒(Illumina)进行微小修改,遵循Illumina标准样品制备方案(v1.8)的第四步至第七步。Klenow将一个腺嘌呤添加到3′端(3′→5′exo负极)将双链Illumina适配器连接到ChIP片段的末端。将275 bp至700 bp之间的ChIP连接DNA片段进行凝胶纯化,并进行18个PCR周期。使用PicoGreen对准备好的文库进行量化,并按照标准操作程序在Illumina基因组分析仪上进行测序。

读取密度图和修改间隔的对齐和生成

如前所述,使用通用计算管道对每个ChIP实验的序列读取(36个碱基)进行编译、后处理并与适当的参考基因组对齐[16]对齐的读数用于估计与任何给定的基因组位置重叠的末端测序的ChIP片段的数量(以25bp的分辨率)。对于每个位置,我们计算了指向该位置的读取次数,并且接近于库片段的平均长度(~300 bp)。结果是可以通过UCSC基因组浏览器查看的高分辨率密度图[62]并用于下游分析。先前与微阵列分析和定量实时PCR的比较表明,ChIP-Seq密度图准确反映了富集[16].ChIP-Seq数据可以访问http://www.broad.mit.edu/seq_platform/chip/.

我们使用隐马尔可夫模型(HMM)来划分可能因特定染色质修饰或PcG蛋白而富集的染色体片段[16]为了模拟ChIP-Seq读取密度沿基因组的变化,我们定义了四种观察状态:掩蔽、低密度、中密度和高密度。将数据离散化为四种状态是基于已知修改区域与已知未修改区域的信号强度,如之前的ChIP-Seq、微阵列和ChIP-PCR分析中确定的[15][16],并针对每个样本进行调整。然后使用该模型在全基因组范围内区分富集区间和非富集区间。为了更准确地分类含有几个短穿插峰的富集区,并便于后续分析,合并了2kb内的区间。

启动子分类及基因和转录区间的定义

我们使用小鼠mm8和人类hg18基因组构建,将17760只小鼠和18522只人类17442和17383个基因的启动子分别定义为注释转录起始位点的−0.5 kb和+2.0 kb之间的序列。这些基因的转录物被定义为从转录开始到结束的范围[62]为了确定组蛋白标记或染色质相关蛋白富集的区域,我们通过将每条染色体的可比对部分划分为200 bp箱,并随机重新分配在该染色体上对齐的读取,生成了一个空假设背景模型。根据每个箱子的读数累积分布直方图,确定了截止阈值。通过对每个ChIP-Seq轨道进行1000次独立模拟,验证了计算出的背景截止阈值的稳定性,并显示出显著的不变性。对于启动子,在2.5kb启动子区域移动一个200bp的滑动窗口,并计算中值读取密度与背景的比值。然后使用该启动子位点任何窗口中获得的最大富集度进行进一步分析。根据经验确定所有轨道的最大富集截止阈值,然后根据各种组蛋白标记和PcG蛋白的最大富集度对启动子进行分类。将相同的程序应用于pan-H3(修饰不敏感)ChIP-Seq数据集作为对照,其中几乎没有发现明显的背景富集。环1B阳性二价启动子是根据标准化的ChIP-Seq信号定义的,占所有二价启动物的40%。基于缺乏ChIP-Seq富集,还定义了一组Ring1B-负二价启动子,包括所有二价启动子中的另外40%。其余具有不确定Ring1B ChIP-Seq信号的二价启动子(20%)被排除在该分析之外。

为了对人类和小鼠启动子状态进行保护分析,我们使用NCBI同源基因(构建58个)基因簇将同源人类启动子和转录物分配给17442个小鼠启动子和抄本,产生了一组13200个同源启动子和13625个同源转录物,可对人类和小鼠的染色质状态进行比较(ftp://ftp.ncbi.nih.gov/pub/HomoloGene公司/)。该分析排除了具有多个起始位点的基因。如前所述,启动子与CpG状态相关[16].

为了比较Ezh2和Ring1B在靶基因上的占有率,通过从完整的Ezh2读取池中随机选择与Ring1B相同数量的读取(~350万)来生成减少的Ezh2读取集。如上所述执行小鼠基因组的读取映射和启动子状态分析。

实时PCR

PCR引物对设计用于使用Primer3扩增指定的基因组区域(http://fokker.wi.mit.edu/primer3/input.htm)。在ABI 7000或7500检测系统上进行实时PCR检测。我们使用Quantitect SYBR绿色PCR混合物(Qiagen)和0.1 ng ChIP或0.1 ng未富集输入DNA(WCE)作为模板。日志2从三个独立的ChIP实验中获得的几何平均值计算富集度,每个实验通过重复PCR分析进行评估。通过对阴性基因组对照进行标准化,减去背景。

基因表达分析

Ring1A/B-dKO的基因表达数据(环1A −/−;环1B 飞行/飞行;罗莎26::CreERT2公司)ES细胞(三苯氧胺治疗和非治疗对照后2天,H.Koseki未发表数据)和Eed KO ES细胞(Eed−/−和对照Eed+/+ES)[13]使用Affymetrix Mouse Genome 430 2.0阵列获得的,使用基因表达数据分析包进行归一化(http://www.broad.mit.edu/cancer/software/genepattern)。CEL文件经过RMA、分位数归一化和背景校正处理[63]对于给定的比较(环1A/B-dKO与对照;或Eed−/−vs+/+),我们只考虑了其中至少一个实验具有“P”显著性调用的探针。计算每个通过探针的折叠变化。具有多个对应探针的基因被赋予几何平均折叠变化值。小鼠v6.5 mES和NPC的基因表达数据来自先前发布的Affymetrix mRNA图谱[16].

基因类富集分析

使用DAVID分析工具对Ring1B阳性和阴性集进行基因本体(GO)功能注释(http://david.abcc.ncifcrf.gov/home.jsp)。使用Bonferroni校正对P值进行了多假设检验调整。

CG内容和主题丰富分析

上述HMM用于定义小鼠ES细胞ChIP-Seq数据中每个修饰或染色质蛋白的富集区间。我们确定了Ezh2区间(以及其他表位的区间)与CG-rich序列重叠的程度。CpG岛坐标来自UCSC基因组浏览器[62]我们确定了所有与这些CpG岛坐标重叠的Ezh2层段,范围在500 bp以内。接下来,EMBOSS分析包[64]用于确定剩余Ezh2层段与“迷你”CpG岛重叠的部分,定义为100 bp窗口,GC含量至少为50%,O∶E比>0.6(而不是200 bp的标准CpG岛屿窗口)。

接下来,我们根据染色质状态对CpG岛进行分类(例如,Ezh2-阳性vs.Ezh2-阴性,H3K4me3-二价)。这是通过计算每个定义的CpG岛上的ChIP-Seq读取密度中位数,并使用随机读取的零背景模型设置阈值来完成的。在这些分析中,我们排除了不可分配区域内的CpG岛屿,这通常是因为序列的复杂性较低,因此无法通过ChIP-Seq进行评估(<7%的所有CpG岛)。为了最大化鉴别能力,我们排除了具有亚阈值Ezh2信号的中间CpG岛。

我们计算了不同CpG岛组的长度、CG密度和观察到的与预期的比率的中值和分布,并通过计算所有16个二核苷酸组合的频率来评估核苷酸含量。通过排列小鼠和大鼠之间的区域,并对两个物种之间的保护进行二核苷酸水平的比较,来确定每个CpG岛的保护得分。CpG和非CpG二核苷酸在Ezh2-bounded CpG岛中的保守水平略高(图S7).

接下来,我们筛选了TF基序出现的CpG岛集。668个位置权重矩阵(PWM)来自Jaspar(Release 3.0)[34])和TRANSFAC(9.4版;[35])数据库,不包括任何非脊椎动物因素。我们通过提取每个CpG岛以及长度等于其50%的侧翼序列,准备了一组Ezh2-阳性和Ezh2-阴性序列。MAST算法[36]然后用于在Ezh2-正负集中搜索显著的PWM匹配(p<5e-5)。发生率按长度标准化,并用于计算反映Ezh2-阳性集相对于Ezh2-阴性集富集的比率,反之亦然。我们使用Fisher精确检验和Bonferroni调整的p值确定了显著过度表达的基序。然后,对这些候选基序进行打乱、重新取核,如果打乱过程中观察到任何富集,则排除这些基序。

我们使用聚类算法将在其中一个集合中确定为丰富的相似模体折叠为单个一致序列[65]。这是必要的,因为数据库中存在高模体冗余。聚类后,将所有重叠50%以上的簇内基序作为一个实例计算。根据之前发布的v6.5 ES细胞Affymetrix mRNA图谱确定相应DNA结合蛋白的表达值[16].

使用一个简单的基于计数的模型来确定模体出现对Ezh2状态的预测程度。允许小鼠最大辨别力的基序内容如下:如果CpG岛(i)包含>8个‘Ezh2-positive’基序或(ii)包含>4个‘EZ2-positive'基序和<2个‘Ez2-negative’基模,则预测其为Ezh2-阳性。使用在小鼠中识别的基序预测人类中的Ezh2状态,但使用以下度量:如果CpG岛包含>15个“Ezh2-阳性”基序和<2个“EZ2-阴性”基序,则预测其为Ezh2-正。

为了量化环1B在CpG岛上的存在,我们考虑了控制区域中ChIP-Seq读数的分布。我们特别使用了所有可对齐的、仅H3K4me3的CpG岛作为我们的零假设背景模型。计算了这些岛屿上Ring1B ChIP-Seq读取密度的分布,并设置了阈值以最小化假阳性检测率。然后,我们计算了所有Ezh2-阳性CpG岛的滑动200 bp窗口中的Ring1B ChIP-Seq读取密度,其中CpG岛屿在其200 bp窗口的任何窗口中都具有最大富集度。为了获得最大的鉴别能力,我们排除了20%的CpG岛和低于阈值的Ring1B信号。使用PRC2-阳性CpG岛中CpG丰度的长度预测环1B状态。如果岛屿大于1200 bp或在另一个CpG岛的2 kb范围内,则预测为环1B阳性。

支持信息

图S1

小鼠和人类ES细胞染色质状态的比较。(A) 人类和小鼠之间13200个转录起始位点的H3K4me3保护。虚线表示用于将数据二值化以进行进一步分析的截止阈值。携带H3K4me3的基因可能是保守的(右上象限),而那些没有标记的基因(左下象限)也是保守的。人类和小鼠之间的甲基化差异不到12%(左上象限和右下象限)。(B) (A)中使用的相同区域的H3K27me3保护。小鼠和人类的大多数基因都没有标记H3K27me3(左下象限)。在小鼠中携带H3K27me3的基因中,只有略多于一半的基因在人类中也有这种情况。(右上下象限)。(C) 为17760个小鼠基因绘制的H3K4me3与H3K27me3在ESC中显示出三个显著标记:仅H3K4me3,(右下象限),H3K4-me3+H3K17me3/二价(右上象限)和“无标记”(左下象限”)。很少有基因只标记有H3K27me3(左上象限)。

(385万PDF)

图S2

Ezh2 ChIP、Ring1B bioChIP和Flag-Bmi1 ChIP的定量PCR富集。(A) 曲线图显示,在小鼠v6.5 ES细胞的二价基因启动子处,Ezh2的Log2 ChIP-qPCR富集。包括由ChIP-Seq分类为PRC2-bound(橙色)或PRC2-unbound(黄色)的启动子。(B) 图中显示了转基因小鼠ES细胞中Ring1B bioChIP-qPCR的Log2富集,该细胞在ChIP-Seq分类为PRC1-bound(紫色)或PRC1-unbound(蓝色)的二价启动子处表达生物素标记的Ring1B(mES*)。只有H3K4me3基因是绿色的。(C) 图显示在转基因小鼠ES细胞中Flag ChIP-qPCR的倍数富集,转基因小鼠ES细胞在ChIP-Seq分类为PRC1结合(紫色)或PRC1未结合(蓝色)的二价启动子处表达Flag标记的Bmi1(mEŜ)。

(0.31 MB PDF格式)

图S3

ES细胞途径中物种特异性因子的染色质状态。在小鼠和人类ES细胞中观察到的转录和信号通路中物种特异性因子的不同染色质状态反映了两种多能性模型之间已知的独特生物功能。

(0.28 MB PDF格式)

图S4

PRC2野生型(WT)和敲除型(KO)小鼠ES细胞的表达分析。PRC2敲除(Eed−/−)小鼠ES细胞中所有基因、Ring1B阳性二价和Ring1B-阴性二价基因的表达变化。

(0.15 MB PDF格式)

图S5

HMM定义的H3K4me3、H3K27me3、H3K36me3、H1K9me3、H2K20me3和Ezh2区间的CG富集度分析。(A) 直接重叠或在CpG岛500 bp范围内的间隔部分。(B) 间隔内任何200 bp窗口中观察到的最大CpG与预期比率。虚线标记0.6,这是用于定义CpG岛的标准之一。

(0.21 MB PDF格式)

图S6

Ezh2-阳性和Ezh2-阴性CpG岛的比较。在CpG观察到的预期比率(A)、CpG百分比(B)或GC百分比(C)方面没有观察到显著差异,而Ezh2-阳性CpG岛往往更长(中位数721 bp vs 526 bp;D)。

(0.22 MB PDF格式)

图S7

大鼠和小鼠间Ezh2-结合和Ezh2-未结合二核苷酸的保存。确定了大鼠(rn4)中两类CpG岛的对齐区域,并对两个物种之间的保守性进行了二核苷酸水平的比较。非CpG(A)和CpG。

(0.70 MB PDF格式)

图S8

Ezh2-阳性和Ezh2-阴性CpG岛的Motif簇及其各自的富集p值。Ezh2-阴性(A)和阳性(B)CpG岛的顶级基序(及其Fisher精确检验中的Bonferroni-corrected p值)。图案被聚集并折叠以减少冗余。

(49百万PDF)

图S9

环1B阳性和环1B阴性二价启动子中CpG岛的长度。环1B正二价CpG岛比仅受PRC2约束的二价Cp岛大。

(0.12 MB PDF格式)

表S1

显示对齐读取次数的ChIP-Seq数据集列表。

(0.28 MB PDF格式)

表S2

mES细胞中已分析启动子的染色质状态。

(3.72 MB XLS)

表S3

hES细胞中已分析启动子的染色质状态(Microsoft Excel文件)。

(2.81 MB XLS)

表S4

mES和hES细胞中分析启动子染色质状态的比较。

(1.69 MB XLS)

表S5

PCR引物用于小鼠ES细胞中的Ezh2、Ring1B和Flag-Bmi1 ChIP-qPCR。

(0.61 MB PDF格式)

文本S1

抗体特异性的支持信息。使用小鼠ES细胞蛋白提取物的Western blot证明了本研究中使用的抗Ring1B和抗Ezh2(活性Motif 39103)抗体的特异性*表示预期分子量。列出了以前证明所用抗体特异性的出版物。

(1.83 MB PDF格式)

文本S2

转录因子(TF)的相关参考文献,对应于牵连的基序,并在ES细胞中活跃。

(0.63 MB PDF格式)

致谢

我们感谢Broad Institute基因组测序平台的工作人员在试剂和数据生成方面提供的帮助。我们感谢Manolis Kellis、Pouya Kheradpour和Alex Meissner的有益讨论。我们感谢L.Zagachin和MGH RT-PCR核心对定量PCR的帮助。我们感谢Miguel Vidal提供的Ring1A KO细胞以及生成Ring1B条件敲除和转基因生物素Ring1B-ES细胞的试剂。plox(pPGK-loxP-neoEGFP)质粒是G.Daley赠送的礼物。

脚注

提交人声明,不存在相互竞争的利益。

MK由克劳彻基金会支持。ER得到了国家人类基因组研究所的机构培训拨款的支持。SK和ER部分由美国国立卫生研究院拨款R01 HG003367-01A1资助。EM由国家癌症研究所的机构培训拨款支持。香港得到基因组网络项目的支持。这项研究得到了国家人类基因组研究所、Burroughs Wellcome基金会、Culpeper基金会、哈佛干细胞研究所、马萨诸塞州总医院以及哈佛大学和麻省理工学院博德研究所的资助。

工具书类

1Jaenisch R,Young R.干细胞,多能性和核重编程的分子电路。单元格。2008;132:567–582. [PMC免费文章][公共医学][谷歌学者]
2Schuettengruber B、Chourrout D、Vervoort M、Leblanc B、Cavalli G。多梳和三疣蛋白对基因组的调控。单元格。2007;128:735–745。[公共医学][谷歌学者]
三。Sparmann A,van Lohuizen M.Polycomb消音器控制细胞命运、发育和癌症。Nat Rev癌症。2006;6:846–856.[公共医学][谷歌学者]
4Ringrose L,Paro R.多囊/三胸反应元件和细胞特性的表观遗传记忆。发展。2007;134:223–232.[公共医学][谷歌学者]
5de Napoles M、Mermoud JE、Wakao R、Tang YA、Endoh M等。多梳组蛋白Ring1A/B将组蛋白H2A的泛素化与可遗传基因沉默和X失活联系起来。开发单元。2004;7:663–676.[公共医学][谷歌学者]
6Wang H,Wang L,Erdjument-Bromage H,Vidal M,Tempst P,等。组蛋白H2A泛素化在多梳沉默中的作用。自然。2004;431:873–878.[公共医学][谷歌学者]
7周伟,朱平,王杰,Pascual G,Ohgi KA,等。组蛋白H2A单泛素化通过抑制RNA聚合酶II转录延伸抑制转录。分子细胞。2008;29:69–80. [PMC免费文章][公共医学][谷歌学者]
8Stock JK、Giadrossi S、Casanova M、Brookes E、Vidal M等。环1介导的H2A泛素化抑制小鼠ES细胞中二价基因处的稳定RNA聚合酶II。自然细胞生物学。2007;9:1428–1435.[公共医学][谷歌学者]
9Boyer LA、Plath K、Zeitlinger J、Brambrink T、Medeiros LA等。多梳复合物抑制小鼠胚胎干细胞中的发育调节因子。自然。2006;441:349–353.[公共医学][谷歌学者]
10Bracken AP、Dietrich N、Pasini D、Hansen KH、Helin K。Polycomb靶基因的全基因组定位揭示了它们在细胞命运转变中的作用。基因发育。2006;20:1123–1136. [PMC免费文章][公共医学][谷歌学者]
11Lee TI、Jenner RG、Boyer LA、Guenther MG、Levine SS等。Polycomb对人类胚胎干细胞发育调节因子的控制。单元格。2006;125:301–313. [PMC免费文章][公共医学][谷歌学者]
12Squazzo SL、O'Geen H、Komashko VM、Krig SR、Jin VX等。Suz12以细胞类型特异性的方式与基因组的沉默区域结合。基因组研究。2006;16:890–900. [PMC免费文章][公共医学][谷歌学者]
13Endoh M、Endo TA、Endoh T、Fujimura Y、Ohara O等。多梳组蛋白Ring1A/B在功能上与核心转录调控电路相连,以维持ES细胞的特性。发展。2008;135:1513–1524.[公共医学][谷歌学者]
14Azuara V、Perry P、Sauer S、Spivakov M、Jorgensen HF等。多能干细胞系的染色质特征。自然细胞生物学。2006;8:532–538.[公共医学][谷歌学者]
15Bernstein BE、Mikkelsen TS、Xie X、Kamal M、Huebert DJ等。双价染色质结构标志着胚胎干细胞中的关键发育基因。单元格。2006;125:315–326.[公共医学][谷歌学者]
16Mikkelsen TS、Ku M、Jaffe DB、Issac B、Lieberman E等。多能干细胞和谱系提交细胞染色质状态的全基因组图。自然。2007;448:553–560. [PMC免费文章][公共医学][谷歌学者]
17Pan G,Tian S,Nie J,Yang C,Ruotti V,等。人类胚胎干细胞组蛋白H3赖氨酸4和赖氨酸27甲基化的全基因组分析。细胞干细胞。2007;1:299–312.[公共医学][谷歌学者]
18赵西东,韩旭,周继良,刘杰,邱KP,等。组蛋白H3 Lys4和27个三甲基化的全基因组定位揭示了人类胚胎干细胞中不同的基因组亚群。细胞干细胞。2007;1:286–298。[公共医学][谷歌学者]
19Barski A、Cuddapah S、Cui K、Roh TY、Schones DE等。人类基因组中组蛋白甲基化的高分辨率分析。单元格。2007;129:823–837.[公共医学][谷歌学者]
20Wei CL、Miura T、Robson P、Lim SK、Xu XQ等。人类和小鼠ESC的转录组分析确定维持干细胞状态所需的不同路径。干细胞。2005;23:166–185.[公共医学][谷歌学者]
21Besser D.在未分化人类胚胎干细胞中表达淋巴结、lefty-a和lefty-B需要激活Smad2/3。生物化学杂志。2004;279:45076–45084.[公共医学][谷歌学者]
22Xu RH,Peck RM,Li DS,Feng X,Ludwig T,等。基本FGF和BMP信号抑制维持人类ES细胞的未分化增殖。自然方法。2005;2:185–190.[公共医学][谷歌学者]
23Schuringa JJ、van der Schaaf S、Vellenga E、Eggen BJ、Kruijer W.LIF在小鼠与人类胚胎癌(EC)细胞中诱导STAT3信号传导。实验细胞研究。2002;274:119–129.[公共医学][谷歌学者]
24Tesar PJ、Chenoweth JG、Brook FA、Davies TJ、Evans EP等。来自小鼠外胚层的新细胞系与人类胚胎干细胞具有共同的特征。自然。2007;448:196–199.[公共医学][谷歌学者]
25Goldin SN,Papaioannou VE。FGF4在着床周发育期间的旁分泌作用维持滋养层和原始内胚层。起源。2003;36:40–47.[公共医学][谷歌学者]
26Loh YH,Wu Q,Chew JL,Vega VB,Zhang W,等。Oct4和Nanog转录网络调节小鼠胚胎干细胞的多能性。Nat Genet。2006;38:431–440.[公共医学][谷歌学者]
27Bernstein BE,Meissner A,Lander ES。哺乳动物表观基因组。单元格。2007;128:669–681.[公共医学][谷歌学者]
28Surani MA、Hayashi K、Hajkova P.多能性的遗传和表观遗传调节器。单元格。2007;128:747–762.[公共医学][谷歌学者]
29Mohn F、Weber M、Rebhan M、Roloff TC、Richter J等。血统特异性多梳靶点和从头DNA甲基化定义了神经元祖细胞的限制和潜力。分子细胞。2008;30:755–766.[公共医学][谷歌学者]
30Woolfe A、Goodson M、Goode DK、Snell P、McEwen GK等。高度保守的非编码序列与脊椎动物的发育有关。《公共科学图书馆·生物学》。2005;:e7。 [PMC免费文章][公共医学][谷歌学者]
31Lindblad-Toh K,Wade CM,Mikkelsen TS,Karlsson EK,Jaffe DB,等。家犬基因组序列、比较分析和单倍型结构。自然。2005;438:803–819.[公共医学][谷歌学者]
32Tanay A、O'Donnell AH、Damelin M、Bestor TH。多梳结合位点下的超保守CpG域。美国国家科学院院刊。2007;104:5521–5526. [PMC免费文章][公共医学][谷歌学者]
33Bernstein E、Duncan EM、Masui O、Gil J、Heard E等。小鼠多梳蛋白与甲基化组蛋白H3和RNA有差异性结合,并富含兼性异染色质。分子细胞生物学。2006;26:2560–2569. [PMC免费文章][公共医学][谷歌学者]
34Sandelin A、Alkema W、Engstrom P、Wasserman WW、Lenhard B.JASPAR:真核转录因子结合图谱的开放存取数据库。核酸研究。2004;32:D91–94。 [PMC免费文章][公共医学][谷歌学者]
35Matys V、Fricke E、Geffers R、Gossling E、Haubrock M等。TRANSFAC:从模式到剖面的转录调控。核酸研究。2003;31:374–378. [PMC免费文章][公共医学][谷歌学者]
36Bailey TL,Gribskov M.使用p值组合证据:序列同源性搜索的应用。生物信息学。1998;14:48–54.[公共医学][谷歌学者]
37Weintraub H、Davis R、Tapscott S、Thayer M、Krause M等。肌D基因家族:肌肉细胞谱系规范中的节点。科学。1991;251:761–766.[公共医学][谷歌学者]
38Yamada Y、Warren AJ、Dobson C、Forster A、Pannell R等。T细胞白血病LIM蛋白Lmo2是成年小鼠造血所必需的。美国国家科学院院刊。1998;95:3890–3895。 [PMC免费文章][公共医学][谷歌学者]
39Donahue LM,Reinhart AJ。POU域基因在PNS衍生干细胞系RT4-AC的谱系承诺后的早期阶段有差异表达。大脑研究开发大脑研究。1998;106:1–12.[公共医学][谷歌学者]
40山口TP、高田S、吉川Y、吴N、麦克马洪AP。T(Brachyury)是近轴中胚层规范中Wnt3a的直接靶点。基因发育。1999;13:3185–3190. [PMC免费文章][公共医学][谷歌学者]
41Singh SK、Kagalwala MN、Parker Thornburg J、Adams H、Majumder S.REST保持胚胎干细胞的自我更新和多能性。自然。2008;453:223–227. [PMC免费文章][公共医学][谷歌学者]
42Johnson DS、Mortazavi A、Myers RM、Wold B。体内蛋白质-DNA相互作用的全基因组绘图。科学。2007;316:1497–1502.[公共医学][谷歌学者]
43Ellis T、Gambardella L、Horcher M、Tschanz S、Capol J等。转录抑制因子CDP(Cutl1)对肺和毛囊的上皮细胞分化至关重要。基因发育。2001;15:2307–2319. [PMC免费文章][公共医学][谷歌学者]
44Hayden MS,Ghosh S.向NF-kappaB发送信号。基因发育。2004;18:2195–2224.[公共医学][谷歌学者]
45Torres J,Watt FM.Nanog通过抑制NFkappaB并与Stat3合作来维持小鼠胚胎干细胞的多能性。自然细胞生物学。2008;10:194–201.[公共医学][谷歌学者]
46Kim J,Chu J,Shen X,Wang J,Orkin SH.胚胎干细胞多能性的扩展转录网络。单元格。2008;132:1049–1061. [PMC免费文章][公共医学][谷歌学者]
47Grskovic M,Chaivorapol C,Gaspar-Maia A,Li H,Ramalho-Santos M。小鼠和人类胚胎干细胞中活性顺调控序列的系统鉴定。公共科学图书馆-遗传学。2007;:e145。 [PMC免费文章][公共医学][谷歌学者]
48Hollenhorst PC、Shah AA、Hopkins C、Graves BJ。全基因组分析揭示了ETS基因家族中冗余和特异启动子占据的特性。基因发育。2007;21:1882–1894. [PMC免费文章][公共医学][谷歌学者]
49Negre N、Hennetin J、Sun LV、Lavrov S、Bellis M等。果蝇发育过程中PcG蛋白的染色体分布。《公共科学图书馆·生物学》。2006;4:e170。 [PMC免费文章][公共医学][谷歌学者]
50Schwartz YB、Kahn TG、Nix DA、Li XY、Bourgon R等。黑腹果蝇Polycomb靶标的全基因组分析。Nat Genet。2006;38:700–705.[公共医学][谷歌学者]
51Tolhuis B、de Wit E、Muijrers I、Teunissen H、Talhout W等。黑腹果蝇PRC1和PRC2多梳染色质结合的基因组全谱分析。Nat Genet。2006;38:694–699.[公共医学][谷歌学者]
52Voo KS、Carlone DL、Jacobsen BM、Flodin A、Skalnik DG。一种哺乳动物转录激活物的克隆,该转录激活物结合非甲基化CpG基序,并与DNA甲基转移酶、人类三叶虫和甲基-CpG结合域蛋白1共享CXXC结构域。分子细胞生物学。2000;20:2108–2121. [PMC免费文章][公共医学][谷歌学者]
53Birke M、Schreiner S、Garcia-Cuellar MP、Mahr K、Titgemeyer F等。原癌蛋白MLL的MT结构域与含CpG的DNA结合并区分甲基化。核酸研究。2002;30:958–965. [PMC免费文章][公共医学][谷歌学者]
54Pasini D、Bracken AP、Hansen JB、Capillo M、Helin K。胚胎干细胞分化需要多梳组蛋白Suz12。分子细胞生物学。2007;27:3769–3779. [PMC免费文章][公共医学][谷歌学者]
55Wernig M、Meissner A、Foreman R、Brambrink T、Ku M等。成纤维细胞体外重编程为多潜能类ES-cell状态。自然2007[公共医学][谷歌学者]
56Maherali N、Sridharan R、Xie W、Utikal J、Eminli S等。直接重编程的成纤维细胞显示出全球表观遗传重塑和广泛的组织贡献。细胞干细胞。2007;1:55–70。[公共医学][谷歌学者]
57Meissner A、Mikkelsen TS、Gu H、Wernig M、Hanna J等。多能干细胞和分化细胞的基因组DNA甲基化图谱。自然。2008;454:766–770. [PMC免费文章][公共医学][谷歌学者]
58Thomson JA、Itskovitz-Eldor J、Shapiro SS、Waknitz MA、Swiergiel JJ等。来源于人类囊胚的胚胎干细胞系。科学。1998;282:1145–1147.[公共医学][谷歌学者]
59Kyba M、Perlingero RC、Daley GQ。HoxB4赋予胚胎干细胞和卵黄囊造血祖细胞明确的淋巴细胞-髓样体植入潜能。单元格。2002;109:29–37.[公共医学][谷歌学者]
60Weinmann AS、Bartley SM、Zhang T、Zhang MQ、Farnham PJ。染色质免疫沉淀法克隆新型E2F靶启动子。分子细胞生物学。2001;21:6820–6832. [PMC免费文章][公共医学][谷歌学者]
61Atsuta T、Fujimura S、Moriya H、Vidal M、Akasaka T等。针对哺乳动物Ring1B蛋白的单克隆抗体的生产。杂交瘤。2001;20:43–46.[公共医学][谷歌学者]
62Kent WJ、Sugnet CW、Furey TS、Roskin KM、Pringle TH等。UCSC的人类基因组浏览器。基因组研究。2002;12:996–1006. [PMC免费文章][公共医学][谷歌学者]
63Reich M、Liefeld T、Gould J、Lerner J、Tamayo P等,《基因模式2.0》。Nat Genet。2006;38:500–501.[公共医学][谷歌学者]
64Rice P、Longden I、Bleasby A.EMBOSS:欧洲分子生物学开放软件套件。趋势Genet。2000;16:276–277.[公共医学][谷歌学者]
65Xie X,Lu J,Kulbokas EJ,Golub TR,Mootha V,等。通过比较几种哺乳动物,系统地发现人类启动子和3′UTR中的调控基序。自然。2005;434:338–345. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS遗传学由以下人员提供多环芳烃