CTCF在脊椎动物的转录调控中起着关键作用(有关综述,请参阅(Ohlsson等人,2001年) (Klenova等人,2002年) (Dunn和Davie,2003年)). 它首先通过结合鸡、小鼠和人类MYC癌基因启动子近端区域中的许多不同调节序列而被鉴定(Filippova等人,1996年;Lobanenkov等人,1990年). CTCF是一种普遍表达的核蛋白,具有11个锌指(ZF)DNA结合域(Filippova等人,1996年;Klenova等人,1993年). 这是至关重要的(Fedoriw等人,2004年)从果蝇到小鼠和人类都高度保守(Moon等人,2005年). CTCF的ZF3和ZF7中不同的DNA识别氨基酸位置的点突变已在多种选择为LOH的癌症中发现,在16q22处CTCF定位,表明其作为候选肿瘤抑制基因的作用(Filippova等人,1998年;Filippova等人,2002年).
初步生化分析表明,CTCF包含两个转录抑制区,可以作为转录抑制因子(Baniahmad等人,1990年;Burcin等人,1997年;Klenova等人,1993年;Lobanenkov等人,1990年). 然而,其他人发现它也可以在不同的序列环境中作为转录激活物发挥作用(Vostrov和Quitschke,1997年). 最近的研究已确定CTCF是脊椎动物绝缘体蛋白(Bell等人,1999年). 迄今为止,CTCF仍然是脊椎动物绝缘体形成过程中唯一涉及的主要蛋白质(Felsenfeld等人,2004年)包括参与基因印迹和单等位基因表达调控的基因(Fedoriw等人,2004年) (Ling等人,2006年)以及X染色体失活和X连锁失活的逃避(Filippova等人,2005年;Lee,2003年).
人们对确定真核生物基因组中潜在绝缘体的位置非常感兴趣,因为了解这些元素可以帮助理解顺式-调节元件协调靶基因的表达。每个真核基因的转录都始于启动子处的RNA聚合酶起始前复合物(PIC)的组装(卡多纳加,2004年),由序列特异性转录因子和顺式-监管要素。遗传学研究果蝇属首先确定了绝缘体在确保适当增强子/促进剂相互作用中的重要性(Udvardy等人,1985年). 最近的研究表明,绝缘体与脊椎动物常染色质/异染色质边界的建立有关(Felsenfeld等人,2004年;Gerasimova和Corces,2001年;Jeong和Pfeifer,2004年). 此外,已经证明IGF2/H19基因座中的绝缘体对该基因座的印记至关重要(贝尔和费尔森菲尔德,2000年;Hark等人,2000年;Kanduri等人,2000年).
绝缘体功能的机制尚不清楚。一种模型提出,绝缘体通过形成特殊的染色质结构来竞争增强子结合的激活子,从而阻止下游启动子的激活(Bulger和Groudine,1999年). 或者,绝缘体可以促进环的形成,例如,通过将染色体区域附着到核膜上(Yusufzai等人,2004年),使中间区域仅暴露于增强子和启动子之间的局部相互作用。与此模型一致,最近研究表明,CTCF可以介导哺乳动物细胞中的长距离染色体相互作用,提供了绝缘体建立调控域的可能机制(Kurukuti等人,2006年;Ling等人,2006年;Yusufzai等人,2004年). 每种机制在形成基因组表达中发挥作用的程度尚不清楚。基因组绝缘体的知识将为理解基因组的组织和功能提供一个急需的框架。
计算机识别人类基因组中潜在绝缘体的工作因对CTCF的DNA识别序列的不完全理解而受到阻碍。生化分析表明,11-锌指蛋白可以使用锌指结构域的不同组合结合不同的DNA靶序列(Filippova等人,1996年;Ohlsson等人,2001年). 因此,从在体外蛋白质/DNA相互作用分析和有限数量的已知绝缘体显示出广泛的序列变异,并且对于全基因组预测CTCF结合没有足够的特异性(Ohlsson等人,2001年). 最近,人们尝试通过染色质免疫沉淀,然后克隆和测序,系统地分离小鼠基因组中的绝缘体(Mukhopadhyay等人,2004年). 不幸的是,由于测序工作的规模有限,仅鉴定出约200个具有增强子阻断活性的DNA片段,每个片段由不同的CTCF结合位点驱动。然而,到目前为止,本研究尚未报道CTCF结合基序的一致性。
作为理解绝缘体如何促进人类细胞中基因表达的第一步,我们已经使用染色质免疫沉淀法定位了人类基因组中CTCF结合位点,然后使用基因组拼接微阵列进行检测(Kim等人,2005年b;Kim和Ren,2006年). 我们的分析产生了一个高分辨率的CTCF结合基因组图,平均有2.5个基因由一对CTCF的结合位点结合。我们还确定了大多数实验确定的CTCF结合基序的明确共识体内CTCF结合位点。我们表明,人类基因组中CTCF结合序列的位点在其他脊椎动物中高度保守,这与CTCF在细胞功能中广泛而基本的作用一致。此外,我们证明CTCF与DNA的结合在细胞间基本不变,其中一个子集以细胞类型依赖的方式与蛋白质相互作用。我们的研究结果为理解CTCF在人类细胞绝缘体功能、基因调控和基因组组织中的作用提供了一般资源。
结果
CTCF结合位点的全基因组定位
此前,我们开发了一种改进的全基因组定位分析策略,以确定人类细胞中转录因子结合位点通过基因组(Kim等人,2005年b). 该方法也称为ChIP-ChIP,涉及从甲醛交联细胞中免疫沉淀转录因子结合的DNA,然后用基因组拼接阵列进行检测。为了确定人类基因组中的CTCF结合位点,我们使用抗CTCF的单克隆抗体和来自原始人类成纤维细胞IMR90细胞的染色质提取物进行了相同的分析。CTCF结合DNA是通过一系列38个阵列进行鉴定的,这些阵列共包含1460万个50聚体寡核苷酸,沿着人类基因组的非重复序列,每隔100个碱基对(bp)均匀定位。通过应用一个简单的统计滤波,要求来自四个连续探针的信号高于阈值(平均对数比标准偏差的2.5倍),我们确定了15221个CTCF结合的基因组区域的初始列表(). 为了验证CTCF与这些假定的CTCF结合序列的结合,我们设计了一个新的寡核苷酸微阵列,以100bp的分辨率表示这些区域和周围序列。使用该阵列,我们用IMR90细胞的独立染色质样本对CTCF进行了ChIP-ChIP分析,并确认其与13804个区域的结合。
CTCF结合位点的染色体分布(a) 显示了IGF2/H19基因座的ChIP-ChIP分析结果。(b) H19/IGF2印迹控制区域的CTCF结合视图。(c) CTCF、ER和p53结合位点数量与每条染色体上基因数的相关性分析。(d) CTCF、ER和p53结合位点数量与每条染色体长度的相关性分析。
评估这些数据的准确性体内CTCF结合位点,我们首先随机选择84个(补充表1)并进行常规ChIP分析。该分析验证了CTCF与80(95%)个测试位点的结合(补充图2a),并表明我们的方法具有高度的特异性。
接下来,我们检测了人类基因组中60个先前表征的CTCF结合位点和绝缘体上的CTCF-结合,发现我们的分析检测到32个(约53%)(补充表2). 为了确定在其余28个位点检测CTCF结合失败是否是由于我们方法的中等敏感性,我们进行了常规ChIP分析,并检测到CTCF与其中四个位点的结合(补充图2b,补充表3). 由于这些已知的CTCF结合位点将被视为我们方法的假阴性,因此我们方法的灵敏度估计约为88%(36个中有32个)。
第三,我们检查了每个CTCF结合位点的多物种序列比对得分(PhastCon)(Siepel等人,2005年)以确定它们的序列守恒。显著比例(55%,P(P)< 2.2×10−16)CTCF结合位点在PhastCon评分为0.8或更高的脊椎动物中保守(补充图2c),表明我们分析中确定的大多数CTCF结合位点可能具有功能。
CTCF结合位点在基因组中的分布
为了描述CTCF结合位点是如何沿着人类基因组分布的,我们将其定位与总共20181个注释良好的人类基因进行了比较(Kent等人,2002年). 我们对CTCF结合位点与染色体上发现的基因或转录物的数量,或与每条染色体的总核苷酸长度进行了相关分析(,补充图3a). 作为对照,我们检测了最近在人类细胞中测定其基因组结合位点的两种增强子结合蛋白:雌激素受体(ER)(Carroll等人,2006年)和p53(Wei等人,2006年) (补充表4). 结果表明,CTCF的结合与每条染色体上的基因数量密切相关(第页2=0.85),相关程度远高于ER和p53。相反,CTCF结合仅与染色体长度弱相关(第页2=0.42),相关程度远低于两种转录激活蛋白(Carroll等人,2006年) (). 基于此分析,我们得出结论,CTCF结合位点沿基因组的分布与基因密切相关,并与其他已知的序列特异性转录因子不同。
对每条染色体上CTCF定位的独立分析也证实了CTCF结合与基因密度之间的密切关系。我们用一个滑动的2Mbp窗口分割每条染色体,并计算每个窗口内CTCF结合位点数量与基因之间的相关性。总的来说,CTCF结合位点与基因密切相关,相关系数为0.786。相比之下,随机生成的基因组位点与基因之间的平均相关系数仅为0.32(). CTCF结合位点与基因之间的相关程度与先前在同一细胞中定位的TAF1结合位点和基因之间的相关性相似(相关系数为0.792)。该分析表明,CTCF结合高度局限于基因,表现出与普通转录因子相同的特性。CTCF分布的这一特性与其在绝缘体中的作用一致,并表明CTCF在基因组中具有广泛的功能。
CTCF结合位点相对于基因的分布(a) 显示了11号染色体的基因和CTCF结合位点密度的染色体视图。箭头表示染色体中CTCF结合位点和基因数的总体相关性偏离平均值的区域。(b) 总结CTCF相对于已知基因5′端分布的直方图。(c) CTCF结合位点的饼图映射到基因组的外显子、内含子、启动子(起始位点的2.5 Kb范围内)和基因间区域。(d) 相关基因簇上CTCF结合位点的耗尽。嗅觉受体(OR)基因簇由一对CTCF结合位点结合,由一条长的红色垂直线表示。(e) 原钙粘蛋白γ基因座交替启动子上的CTCF结合位点的一个例子。红色垂直线表示CTCF结合位点。顶部面板中的蓝色条显示映射到该轨迹的探针的相对表达式。每个条的宽度表示每个基因的长度。
虽然CTCF结合位点的分布类似于TAF1等一般转录因子的分布,但两者之间存在重要差异。大多数TAF1结合位点(89%)接近已知转录物的5′端;相反,CTCF结合位点通常距离启动子很远,平均距离为48000bp(). 近一半(46%)的CTCF结合位点位于基因间(46%的)区域,这与其作为绝缘体的潜在作用一致。只有约20%的CTCF位点位于转录起始位点附近。出乎意料的是,大量CTCF结合位点位于基因内,22%位于内含子,12%位于外显子(). 聚腺苷化位点附近CTCF结合位点没有明显富集(补充图3b). CTCF近启动子的结合在很大程度上与基因活性呈负相关,因为大多数启动子(72%)不被通用转录因子TAF1占据。这一观察结果与CTCF可能在这些启动子中起阻遏作用的可能性一致。CTCF在内含子和外显子内的结合意义尚不清楚,但推测可能与其绝缘体功能有关,以阻断这些序列附近的增强子和沉默子。综合起来,这些结果表明CTCF结合位点在整个基因组中普遍存在,并显示出不同于增强子和启动子的独特分布。
虽然CTCF结合位点通常与染色体全长上的基因相关,但也有一些孤立的区域偏离了这一趋势(). 可以定义两种显著的位点类型:一种位点的特征是CTCF结合位点的相对缺失,另一种位点则是CTCF-结合位点的富集。我们可以将CTCF缺失位点定义为那些2 Mbp窗口,其CTCF结合位点的密度低于平均密度(小于每2 Mbp 2个,P(P)大多数染色体<0.05,补充表5). 同样,我们可以将CTCF富集的基因座定义为表现出高于平均CTCF位点密度的2Mbp窗口(P(P)< 0.001,补充表6). 我们观察到,CTCF缺失域往往包括相关基因家族和转录共同调控的基因簇,而CTCF富集域通常具有多个替代启动子(81%包含2个或更多替代启动子)。这两种情况都与CTCF结合位点作为绝缘体的假设一致。
我们通过仅考虑具有多个CTCF结合位点的基因或无CTCF绑定位点的基因簇,进一步表征了这两类区域。我们定义了13766个基因组区域,这些区域两侧是一对连续的CTCF结合位点,并将其命名CTCF公司第页空气定义的d日域(CPD)。大约43%(5969)的CPD包含至少一个完整的基因位点,而其余的CPD不包含完整的基因。基因组中约74%的基因全部被CTCF结合位点包围。其余的基因要么是端粒到CTCF结合位点(2.6%的基因),要么包含内部CTCF绑定位点(23%的基因”)。平均而言,在一个CPD中发现约2.5个基因。CPD的平均大小为212090bp。其中相当多(189个国家方案文件,P(P)<0.001)包含9个或更多基因,其中最大的一个包含多达56个基因(P(P)=3.42×10−56).列出了具有15个或更多基因的所有CPD,P(P)=2.2×10−8这些CPD通常对应于大量相关基因簇(Sproul等人,2005年)例如嗅觉受体(OR)基因簇()、ZNF基因簇、KRTAP基因簇(补充图4a)、I型干扰素(IFN)基因簇等。
表1
CTCF结合位点分布的两种不同模式(a) CPD中发现的基因簇。(b) 具有多个CTCF结合位点的基因。
(a) CPD中发现的基因簇 |
---|
协调 | 名称 | 描述 | #基因 |
---|
电话:11:48088265-56214717 | 或 | 嗅觉受体 | 56 |
查尔斯克:117723838-128460548 | | 不相关的 | 41 |
chr19:19616300-32957396 | ZNF14型 | 锌指蛋白 | 32 |
电话17:36319559-36906400 | KRTAP公司 | 角蛋白相关蛋白 | 30 |
电话:11:4616383-5358451 | 或 | 嗅觉受体 | 27 |
chr1:244426810-245310724 | 或 | 嗅觉受体 | 23 |
电话:69540367-71551475 | UGT2B;CSN;HTN公司 | UDP糖基转移酶2家族成员;酪蛋白α、β、κ | 23 |
电话:11:241380-652375 | 国际单项体育联合会 | 干扰素诱导的跨膜蛋白 | 22 |
电话:139574141-148258030 | 斯潘克斯牌手表 | 与SPANX核家族蛋白相关的精子蛋白 | 21 |
chr1:154908208-155781600 | 客户尽职调查1 | CD1抗原;嗅觉受体 | 20 |
chr16:1484561-1993646 | RP公司 | 核糖体蛋白质类 | 20 |
电话:122296512-122944407 | 或 | 嗅觉受体;锌指蛋白 | 20 |
chrX:153148757-153849359 | | 不相关的 | 20 |
电话:149246363-149655393 | 生命周期评价 | 晚期角化膜蛋白 | 19 |
电话19:59681836-60291665 | LILRA,基尔3DL | 白细胞相关免疫球蛋白样受体 | 19 |
电话:5:140209093-140679714 | PCDHB公司 | 原钙粘蛋白β | 19 |
chrX:150199685-151798057 | 马达加斯加 | 黑色素瘤抗原家族A蛋白 | 19 |
chr12:16404564-21817503 | SLCO公司 | 溶质载体有机阴离子转运蛋白家族蛋白 | 18 |
电话:19:48981708-49695890 | ZNF公司 | 锌指蛋白 | 18 |
合同编号:1:1097984-1346875 | TNFRSF公司 | 肿瘤坏死因子受体 | 17 |
电话:11:5662785-6228381 | 或 | 嗅觉受体 | 17 |
电话:11:59278847-60298781 | MS4A级 | 跨膜4域 | 17 |
电话:12:10794287-11530870 | TAS2R基因 | 味觉感受器 | 17 |
电话19:62681155-63092088 | ZNF549号 | 锌指蛋白 | 17 |
电话:27455959-27838284 | | 不相关的 | 17 |
chr21:44755457-45037442 | KRTAP公司 | 角蛋白相关蛋白 | 17 |
电话:144686322-145048785 | 不相关的 | | 17 |
chrX:100477190-101961011 | ARMCX公司 | 犰狳重复序列蛋白 | 17 |
chr1:165304985-167371954 | 塞尔 | 选择素 | 16 |
电话14:37750277-44792052 | | 不相关的 | 16 |
电话16:54948373-55293378 | 百万吨 | 金属硫蛋白 | 16 |
电话:8625711-9402805 | 或 | 嗅觉受体 | 16 |
电话:26135302-26312482 | HIST公司 | 组蛋白 | 16 |
chr6:27868447-27970998 | HIST公司 | 组蛋白 | 16 |
电话:10:73794396-74959208 | | 不相关的 | 15 |
chr14:19003935-19843534 | 或 | 嗅觉受体 | 15 |
chr19:41311124-42099100 | ZNF公司 | 锌指蛋白 | 15 |
电话:20931328-21385937 | 干扰素 | 干涉仪 | 15 |
(b) 具有多个CTCF结合位点的基因 |
协调 | 基因 | 描述 | #CTCF公司 | #开始 |
电话22:20777701-21573524 | IgLλ | 免疫球蛋白lambda位点 | 34 | 30 |
chr16:68542310-73012791 | LOC348174号 | 分泌蛋白LOC348174 | 29 | 三 |
chr22:18830549-20228404 | {“类型”:“entrez-protein”,“属性”:{“文本”:“Q8IYP7”,“term_id”:“380865484”}}问题8IYP7 | 类似于外周型苯二氮卓受体相关蛋白1 | 27 | 2 |
chr1:142300786-145375749 | {“type”:“entrez protein”,“attrs”:{“text”:“Q8N4E8”,“term_id”:“1372149872”}}问题8N4E8 | 神经母细胞瘤断点家族成员15 | 26 | 2 |
电话:7:71912639-74641641 | DKFZP434A0131号 | DKFZp434A0131蛋白异构体1 | 25 | 6 |
电话:7:71884863-74669359 | LOC541473号 | 类似FKBP6 | 25 | 2 |
电话:7:71882976-74679539 | 问题8N4N6 | 包含三部分图案73 | 25 | 2 |
chr16:14713046-18376428 | NPIP公司 | 核孔复合体相互作用蛋白 | 24 | 三 |
电话16:14835163-18480935 | 企9H049 | NODAL调制器2 | 24 | 三 |
电话:7:71912639-73751143 | DKFZP434A0131号 | DKFZp434A0131蛋白亚型1 | 20 | 三 |
电话17:31517173-33607593 | TBC1D3C(待定) | TBC1域家族成员3C | 20 | 4 |
电话:10:46077353-49152919 | {“类型”:“entrez-protein”,“属性”:{“文本”:“Q5RJ30”,“term_id”:“74757975”}}Q5RJ30型 | FRMPD2相关1 | 20 | 5 |
电话15:82659067-83578998 | 问题9BXM8 | 类似于顺高尔基基质蛋白GM130 | 18 | 2 |
chr16:14713046-16395314 | NPIP公司 | 核孔复合体相互作用蛋白 | 17 | 6 |
电话17:31517173-33369298 | TBC1D3C(待定) | TBC1域家族成员3C | 17 | 三 |
chr1:151647667-151975780 | MUC1公司 | MUC1粘蛋白异构体1前体 | 16 | 6 |
电话:31529509-32034747 | 第18615-2页 | RD RNA结合蛋白 | 16 | 2 |
chr7:141638111-142017270 | TCR贝塔 | T细胞受体β | 14 | 2 |
电话:11:130745778-131711925 | 问题9P121-2 | 神经亚胺 | 14 | 三 |
电话:140690435-140872730 | PCDHGA1公司 | 原钙粘蛋白γ亚家族A | 13 | 46 |
电话:10:78299367-79067583 | KCNMA1公司 | 大电导钙活化钾 | 11 | 1 |
电话14:21180948-22090938 | TCRα/δ | T细胞受体α基因座 | 11 | 14 |
电话:11:44537174-44929010 | TP53I11型 | p53诱导蛋白 | 11 | 1 |
图12:6304598-6648609 | O15420号机组 | 锌指蛋白384 | 11 | 1 |
与相关基因簇内CTCF结合位点的缺失相反,在显示广泛替代启动子使用的基因中,CTCF的结合位点显著集中。49个基因含有明显更多的CTCF结合位点(8个或更多,P(P)=0.0018,)包括原钙粘蛋白γ(PCDHG)、T细胞受体α/δ、β、γ位点(TCRα/δTCRβTCRγ)、免疫球蛋白重链位点(IgH)、轻链κ和λ位点(Ig LκIgLλ)等基因(补充图4b). 这些基因都含有大量的选择性启动子,其中大多数通过CTCF结合位点相互分离().
总之,CTCF结合位点以非随机方式沿基因组分布,这与之前描述的一般转录因子和序列特异性激活剂不同。在一个方面,CTCF结合位点的分布与一般转录因子相似,因为它们都密切跟踪每个染色体上的基因分布。相比之下,先前表征的序列特异性激活物的分布与基因密度的相关性较小,但与染色体长度的相关性更显著。然而,与通常与转录起始位点相关的一般转录因子不同,大多数CTCF位点位于启动子之外。CTCF定位的这种独特性质与其作为绝缘体结合蛋白的假定作用是一致的。
大多数体内假定绝缘体中的CTCF结合位点共享一个特定的序列基序
先前的研究表明,CTCF的结合模式存在差异和可变,并表明CTCF识别不同的序列(Ohlsson等人,2001年). 识别大量体内CTCF结合位点为更好地确定该DNA结合蛋白的体内识别序列提供了一个独特的机会。使用判别矩阵枚举器(DME)算法(Smith等人,2005年b),我们已经确定了一个基序,该基序最能将CTCF结合位点与其相邻的控制序列区分开来(). 这种20-碱基对基序类似于CTCF结合共识的一种特殊形式(贝尔和费尔森菲尔德,2000年)但在六个核苷酸位置(位置7、8、9、10、13和17,). 该基序存在于75%以上的实验确定的CTCF结合位点中,但不到17%的对照组周围序列中。它通常位于实验确定的CTCF结合片段的中间,如果它们作为蛋白质的接触点,这是意料之中的体内().
CTCF结合位点具有20-mer基序的特征(a) DNA标志(Workman等人,2005年)代表从ChIP-on-ChIP实验中定义的CTCF结合基序和先前报道的一致性CTCF绑定位点(Bell和Felsenfeld,2000年)如图所示。每个字母的高度代表核苷酸在每个位置的相对出现频率。(b) 实验确定的CTCF结合位点内高得分基序的分布。黄色水平线表示每个CTCF结合位点,蓝色短线表示CTCF连接位点内高得分20-mer基序的位置。(c) 12个CTCF(WT)和相应的洗牌(SH)探针的EMSA结果(补充表7)表明在CTCF结合位点内发现的12个基序中有11个基序被重组CTCF蛋白特异识别。
为了测试这个基序是否真的是CTCF识别序列,我们对上面确定的12个随机选择的CTCF结合位点进行了电泳迁移率变化分析(EMSA)。对于每个结合位点,我们设计了一个80-mer EMSA探针,中间带有可识别的20-mer CTCF基序(补充表7). 我们还通过在每个测试序列中随机改变20-mer CTCF基序设计了一个控制探针。在该试验中,12个探针中有11个被证实与重组CTCF蛋白特异性相互作用,而洗牌探针没有()表明CTCF确实识别了新识别的基序。未能与CTCF蛋白相互作用的一个探针可能代表一个较低的评分基序,该基序位于中心位置,但可能与真实的体内CTCF结合位点。
根据这些结果,我们得出结论,在我们的实验条件下,CTCF结合体内似乎是由一类类似序列介导的,这类序列由一致模体很好地描述。然而体内CTCF结合位点缺乏这个基序。其他分析未能确定这些区域内任何显著过度表达的基序。测试这些序列是否直接与CTCF结合在体外,我们已经生成了连续的重叠DNA片段来表示两个随机选择的没有基序的CTCF结合位点(补充表8),并执行EMSA。我们的结果证实了CTCF确实可以与这两个序列结合在体外(补充图5a、b). 因此体内CTCF结合位点可能具有不同的结合模式,并以不同的序列与该蛋白相互作用。需要额外的实验来解决这些位点CTCF的结合序列。
CTCF基序在脊椎动物中高度保守
CTCF蛋白在所有脊椎动物同源物的DNA结合域中显示出异常高的保守性,其氨基酸序列同源性超过95%。此外,CTCF DNA结合域内的少数氨基酸替换并没有映射到任何预测与DNA直接接触的残基(Pabo等人,2001年). 这种高度的序列保守性支持了CTCF的进化保守性功能,并预测CTCF结合位点也应该在其他脊椎动物基因组中保守性。与此预测一致,每个序列中的20-mer基序体内与随机洗牌基序相比,CTCF结合位点在进化上高度保守(补充图6).
此外,我们还搜索了整个人类基因组中CTCF基序的出现情况,提取了其他脊椎动物基因组中序列信息可用的对齐序列,并询问在相应的同源序列中是否也存在得分较高的CTCF模序。为了提高CTCF结合位点计算预测的特异性,我们将位置6、11、14和16的碱基限制在主要存在于实验定义的CTCF结合位点内的核苷酸(详见实验程序)。使用该方法,在人类基因组中共鉴定出31905个潜在的CTCF结合位点。在这些位点中,19271个可以与小鼠基因组对齐,6553个包含如上定义的CTCF共识基序。相比之下,在基因组中使用相同长度和碱基组成的随机矩阵进行类似搜索,平均只发现149个保守位点,表明CTCF结合序列高度保守(P(P)=1.27×10−8,). 除了小鼠基因组外,我们还检测了其他脊椎动物基因组中预测的人类CTCF结合序列的保守性,发现8082个(P(P)= 1.19×10−5), 8,154 (P(P)= 3.84×10−6), 6,362 (P(P)= 1.02×10−8), 263 (P(P)= 5.09×10−5)和204(P(P)= 5.48×10−5)分别在狗、牛、大鼠、鸡和斑马鱼基因组中显著保守(). 总计,人类基因组中经计算预测的12799个CTCF结合位点(31905个)在至少一个其他脊椎动物基因组中保守(不包括黑猩猩基因组,). 我们将这些高度保守的CTCF识别序列定义为潜在CTCF结合位点。
CTCF识别位点在其他脊椎动物中高度保守(a) 将在其他脊椎动物基因组中发现的CTCF结合基序的分布与每个基因组中随机洗牌的CTCF-基序的频率进行比较。(b) 计算预测的人类基因组中其他脊椎动物保守的CTCF结合位点的维恩图。右边的排列是不同保育水平的每个基序如何与其他物种的相应序列对齐的示例。(c) 鸡基因组和相应的洗牌探针中预测的2个CTCF(WT)结合位点的EMSA结果(补充表9).
人类基因组中保守的CTCF识别序列意味着其他物种中相应的基序也可能作为CTCF结合位点发挥作用。为了验证这一预测,我们对鸡基因组中两个预测的CTCF结合位点进行了EMSA(补充表9). 结果证实了CTCF与两个CTCF位点的结合在体外().
大多数CTCF结合位点位于不同的细胞类型中
为了评估不同细胞类型中CTCF结合的可变性,我们进行了ChIP-ChIP分析,以确定造血祖细胞系U937中的CTCF绑定位点。我们重点分析了一组44个基因组区域,代表人类基因组1%的样本,称为ENCODE区域(联合体,2004年;Kim等人,2005a)(ENCODE数组)。这些区域由ENCODE联盟半随机选择,作为基因组研究的通用平台。我们在这个实验中使用了前面描述的基因组拼接阵列(Kim等人,2005a). 这些阵列包含PCR产物作为探针,而不是寡核苷酸。我们在U937细胞中检测到232个位点,置信水平为P(P)< 0.000001 (),与IMR90站点中相同区域内检测到的225个(67%)CTCF站点中的151个站点重叠(). 限制较少的标准会导致更大程度的重叠(补充图7). 该分析表明,在IMR90细胞中检测到的大多数CTCF结合位点也被另一种细胞类型占据,这表明基因组中的大多数CTCFR结合位点可能是细胞类型不变的。
两种细胞类型CTCF结合的比较(a) ENCODE区域内IMR90和U937细胞中CTCF结合的代表性视图。第一个面板列出了该区域内所有已知的基因。第二和第三个面板分别显示IMR90和U937单元区域内的CTCF绑定数据。第四个面板显示了基于20-mer基序预测的CTCF结合位点。(b) 维恩图显示了置信水平下IMR90和U937细胞中CTCF结合的重叠,P(P)< 0.000001. (c) 通过定量实时PCR验证三个细胞类型特异性位点(补充表10).
另一方面,虽然U937和IMR90细胞中CTCF结合位点之间的重叠随着标准的放宽而增加,但并不是100%。CTCF结合位点的一个子集似乎以细胞类型依赖的方式与该蛋白相互作用。为了证实这一点,我们进行了常规的ChIP分析,以测试CTCF与两个IMR90特异位点和一个U937特异位点的结合(补充表10). 结果表明,两个IMR90特异性CTCF结合位点确实与IMR90细胞中的蛋白质相关,但与U937细胞中的蛋白无关,而U937特异性CTCFR结合位点与该蛋白质的相互作用方式相反(). 我们的结论是,基因组中的一部分CTCF结合位点可能受到细胞类型依赖性调控,尽管CTCF位点的全部数量仍有待确定。
脊椎动物基因组中CTCF结合位点的进化
由于我们能够通过计算绘制其他脊椎动物基因组中的CTCF结合位点,我们有兴趣了解这些位点在不同脊椎动物物种中是如何进化的,以及这些变化是否反映了CTCF的功能。我们在12799个进化上保守的CTCF识别序列中发现了14352个核苷酸变化。有趣的是,主要的碱基替换发生在位置16的胞嘧啶处,它恰好是共识序列中的主要CG二核苷酸(). 该位置的胞嘧啶到胸腺嘧啶的转换占所有核苷酸变化的近17%。在这个位置上C-T取代率异常高的一个解释是碱基处潜在的DNA甲基化(琼斯和拜林,2002年;Rideout等人,1990年)这与DNA甲基化对CTCF结合的调控一致。这一观察结果提出了一个有趣的进化模型,即通过简单地改变基因组中CTCF的结合来获得基因的差异调节,这一过程可以由环境和表观遗传因素促进。
CTCF结合位点在进化过程中表现出独特的核苷酸变化在所有可用脊椎动物基因组中绘制的CTCF基序内观察到的核苷酸变化。沿着20-mer基序绘制CTCF结合位点中观察到的碱基变化分布。
讨论
总之,我们已经生成了人类基因组中具有独特分布和序列特征的CTCF结合位点的高分辨率地图。该图不仅确认了大多数已知的绝缘体和CTCF结合位点,还确定了13000多个新的CTCF连接序列和潜在绝缘体。近80%的CTCF结合位点共享一个在进化过程中高度保守的共识基序。我们发现CTCF结合位点在细胞类型之间基本不变。我们的结果代表了全面鉴定人类基因组中依赖CTCF的绝缘体的关键一步。
人类基因组中CTCF结合位点的独特分布
与序列特异性转录激活物(如ER和p53)不同,CTCF结合位点在基因组中普遍存在,其染色体分布与基因密切相关。在这方面,CTCF类似于一般转录因子的行为。然而,CTCF结合位点的位置明显不同于一般转录因子的位置。除了相对较小的部分(20%)外,大多数CTCF结合发生在远离转录起始位点的位点(). 相反,近90%的TAF1结合位点位于启动子处。CTCF结合位点在基因组中的这种独特分布与这些序列作为绝缘体的潜在作用一致。
大约一半的CTCF结合位点远离基因。这些远端位点可能定义了绝缘体,在许多情况下与基因簇的边界一致,例如嗅觉受体基因簇。哺乳动物基因组中的许多基因被排列成簇,这些簇的存在意味着共享的长程元件(如位点控制区)对表达的协调调节,正如Hox和β-珠蛋白基因簇所观察到的那样(Sproul等人,2005年). 最近,一项研究表明,位于分离染色体上的OR基因簇共享一个增强子,该增强子仅与一个启动子选择性地相互作用,导致约1500个其他启动子中的一个高度专一激活(Lomvardas等人,2006年).
与CTCF的这种基因分离特性一致,CTCF结合位点与逃避X失活的基因边界一致(Filippova等人,2005年). X失活被证明涉及在女性基因组的两条X染色体之一上建立异染色质。最近的一项研究表明,X失活在失活的X染色体上并不均匀(Carrel和Willard,2005年),并鉴定了一些能够逃避染色体宽异染色质形成的基因簇。如果CTCF结合位点确实起到绝缘体的作用,那么人们可能会期望它们分离出X染色体上逃避失活的基因簇。事实上,我们在X染色体上观察到几个被CTCF结合位点包围的结构域(补充图8).
CTCF结合位点和选择性使用替代启动子
虽然近一半的CTCF结合位点位于基因之间的序列中,但相当数量的CTCF-位点位于基因内。目前尚不清楚这些序列是否起到绝缘体的作用。我们注意到,它们中的许多似乎在单个基因中分离了替代启动子,可能有助于替代启动子的使用。原钙粘蛋白γ基因座(PCDHG,)、T细胞受体α/δ、β、γ基因座(TCRα/δTCRβTCRγ)、免疫球蛋白重链(IgH)、轻链κ和λ基因座(IgLκIgLλ,补充图4b). 在每种情况下,CTCF结合都会分离在组织中显示不同活性的转录起始位点。大约52%的人类基因具有多个启动子。虽然替代促进剂的用法很常见(Carninci等人,2005年;Carninci等人,2006年;Kimura等人,2006年),其机制尚不清楚。通常认为,不同的启动子采用不同的调控机制来实现组织和时间特异性活动。CTCF结合位点打断替代启动子的观察结果可能表明绝缘体元件参与了不同细胞类型启动子的选择。
共识基序可以解释可能绝缘体中的大多数CTCF结合位点
我们研究的一个令人惊讶的发现是,绝大多数实验确定的CTCF结合位点都具有特定的20-mer基序。我们证明该基序在脊椎动物中高度保守,并可用于预测基因组中其他潜在的CTCF结合位点。此外,我们还表明,新表征的CTCF一致序列与CTCF蛋白特异性相互作用在体外考虑到CTCF可能识别的序列的巨大多样性在体外,我们发现在体内CTCF结合位点出乎意料。
另一方面,我们的结果并不排除存在额外的CTCF结合基序,这些基序可能被基因组中的绝缘体结合蛋白识别。事实上,重要的是要注意到体内结合位点不包含新表征的CTCF结合共识序列。分析时在体外,这些CTCF结合位点中的一些确实可以直接与CTCF相互作用,支持不同CTCF识别序列的存在。此外,许多先前表征的CTCF结合序列和绝缘体缺乏新识别的基序。CTCF完全有可能与不同类别的DNA序列结合,无论是直接结合还是与伴侣结合。到目前为止,我们的搜索未能在这一子集中找到另一个重要的主题体内CTCF结合位点。
总之,我们在这里报道了人类基因组中第一个CTCF结合的高分辨率图谱,揭示了CTCF功能的几个新方面。我们的结果为进一步研究CTCF在绝缘体功能、印迹和长距离染色体相互作用中的作用提供了急需的资源。
ChIP芯片数据的验证
使用0.5 ng CTCF ChIP DNA和未富集的总基因组DNA,使用iCycler™和SYBR green iQ™SYBR gree supermix试剂(Bio-Rad Laboratories)进行两次定量实时PCR。通过从CTCF ChIP DNA的Ct值中减去未富集DNA的Ct值(ΔCt=Ctctcf公司−Ct全部的). 然后如前所述估计ChIP DNA中测试的启动子序列相对于未富集的DNA的倍数富集(Bernstein等人,2005年;Cawley等人,2004年). 用于此分析的底漆列于补充表1.
主题分析
Motif发现按中所述执行(Smith等人,2005a;Smith等人,2005年b). 所有CTCF结合位点作为阳性序列,侧翼序列作为阴性序列。与阴性序列相比,阳性序列中的过度表达序列基序被选中。利用这个序列基序,我们生成了一个初始的20 bp位置权重矩阵(PWM)。根据整个CTCF结合位点集搜索这个20-mer PWM,结合位点中发现的所有基序用于生成最终的PWM。然后使用Storm程序搜索人类基因组(hg17)中是否存在该基序。在6、11、14和16位为存在关键核苷酸C、G、G和C选择高得分基序。然后使用UCSC基因组浏览器提供的liftOver和基因组比对信息,将得到的CTCF结合位点映射到14个脊椎动物基因组。然后使用Storm对每个序列进行评分,并根据人类基因组扫描筛选关键核苷酸。
电泳迁移率变化分析(EMSA)
EMSA按照说明进行(Pugacheva等人,2005年). 简而言之,CTCF(11ZF)和荧光素酶(Luc)的DNA结合域为在体外分别由pET-11ZF和T7对照质粒合成(Awad等人,1999年;Filippova等人,1996年)使用TnT T7快速耦合转录/翻译系统(Promega,Madison,WI,Cat.#L1170)。DNA片段(补充表2)在其5′端使用32P-γ-ATP和T4多核苷酸激酶。将标记的DNA进行凝胶纯化,并与等量的在体外-合成蛋白质,在室温下培养30分钟,然后在5%非变性聚丙烯酰胺凝胶上电泳。
统计显著性分析
通过比较绘制的位点数量与使用1000次迭代产生的随机模体绘制的位点数分布,分析计算绘制的CTCF位点的统计意义。随机脉宽调制是通过随机化20-mer CTCF基序内的位置得出的。通过使用泊松分布函数计算每个CPD中每个观察基因的预期概率或每个基因中每个CTCF结合位点的预期概率,分析CPD中观察到的基因簇和基因中多个CTCF绑定位点的统计意义。通过Mann-Whitney Wilcoxon检验分析了观察到的CTCF结合位点与随机位点相比的进化保守性的统计学意义。