Analysis of the vertebrate insulator protein CTCF binding sites in the human genome

Tae Hoon Kim; Ziedulla K. Abdullaev; Andrew D. Smith; Keith A. Ching; Dmitri I. Loukinov; Roland D. Green; Michael Q. Zhang; Victor V. Lobanenkov; Bing Ren

doi:10.1016/j.cell.2006.12.048

单元格。作者手稿；PMC 2008年10月27日发布。

以最终编辑形式发布为：

单元格。2007年3月23日；128(6): 1231–1245.

数字对象标识：2016年10月10日/j.cell.2006.12.048

预防性维修识别码：下午572726

NIHMSID公司：NIHMS21216

PMID：17382889

人类基因组中脊椎动物绝缘体蛋白CTCF结合位点的分析

泰勋·金,^1,^5,⁶ 齐杜拉·阿卜杜拉耶夫,² 安德鲁·史密斯,^三基思·A·钦,¹ 德米特里·卢基诺夫,² 罗兰·D·格林,⁴ 迈克尔·Q·张,^三维克托·洛巴连科夫,²和冰人^1,⁶

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1
NIHMS21216-补充-01.pdf（550万）
GUID:0071403B-E73B-48CF-A68D-6C9B973AC354

摘要

绝缘元件通过阻止异染色质的传播和限制转录增强子激活无关启动子来影响基因表达。在脊椎动物中，绝缘体的功能需要和CCCTC-结合因子（CTCF）结合，这是一种识别长而多样核苷酸序列的蛋白质。虽然绝缘体在基因调控中至关重要，但只有少数报道。在这里，我们描述了13804个人类基因组潜在绝缘体中的CTCF结合位点，这些位点是在原始人类成纤维细胞中实验发现的。这些序列大多位于远离转录起始位点的地方，其分布与基因密切相关。它们中的大多数符合高度保守的一致基序，适用于预测其他脊椎动物基因组中CTCF驱动的可能绝缘体。此外，CTCF定位在不同的单元类型之间基本上是不变的。我们的结果为研究CTCF位点的绝缘体功能和可能的其他一般和进化保守活动提供了资源。

CTCF在脊椎动物的转录调控中起着关键作用（有关综述，请参阅(Ohlsson等人，2001年) (Klenova等人，2002年) (Dunn和Davie，2003年)). 它首先通过结合鸡、小鼠和人类MYC癌基因启动子近端区域中的许多不同调节序列而被鉴定(Filippova等人，1996年；Lobanenkov等人，1990年). CTCF是一种普遍表达的核蛋白，具有11个锌指（ZF）DNA结合域(Filippova等人，1996年；Klenova等人，1993年). 这是至关重要的(Fedoriw等人，2004年)从果蝇到小鼠和人类都高度保守(Moon等人，2005年). CTCF的ZF3和ZF7中不同的DNA识别氨基酸位置的点突变已在多种选择为LOH的癌症中发现，在16q22处CTCF定位，表明其作为候选肿瘤抑制基因的作用(Filippova等人，1998年；Filippova等人，2002年).

初步生化分析表明，CTCF包含两个转录抑制区，可以作为转录抑制因子(Baniahmad等人，1990年；Burcin等人，1997年；Klenova等人，1993年；Lobanenkov等人，1990年). 然而，其他人发现它也可以在不同的序列环境中作为转录激活物发挥作用(Vostrov和Quitschke，1997年). 最近的研究已确定CTCF是脊椎动物绝缘体蛋白(Bell等人，1999年). 迄今为止，CTCF仍然是脊椎动物绝缘体形成过程中唯一涉及的主要蛋白质(Felsenfeld等人，2004年)包括参与基因印迹和单等位基因表达调控的基因(Fedoriw等人，2004年) (Ling等人，2006年)以及X染色体失活和X连锁失活的逃避(Filippova等人，2005年；Lee，2003年).

人们对确定真核生物基因组中潜在绝缘体的位置非常感兴趣，因为了解这些元素可以帮助理解顺式-调节元件协调靶基因的表达。每个真核基因的转录都始于启动子处的RNA聚合酶起始前复合物（PIC）的组装(卡多纳加，2004年)，由序列特异性转录因子和顺式-监管要素。遗传学研究果蝇属首先确定了绝缘体在确保适当增强子/促进剂相互作用中的重要性(Udvardy等人，1985年). 最近的研究表明，绝缘体与脊椎动物常染色质/异染色质边界的建立有关(Felsenfeld等人，2004年；Gerasimova和Corces，2001年；Jeong和Pfeifer，2004年). 此外，已经证明IGF2/H19基因座中的绝缘体对该基因座的印记至关重要(贝尔和费尔森菲尔德，2000年；Hark等人，2000年；Kanduri等人，2000年).

绝缘体功能的机制尚不清楚。一种模型提出，绝缘体通过形成特殊的染色质结构来竞争增强子结合的激活子，从而阻止下游启动子的激活(Bulger和Groudine，1999年). 或者，绝缘体可以促进环的形成，例如，通过将染色体区域附着到核膜上(Yusufzai等人，2004年)，使中间区域仅暴露于增强子和启动子之间的局部相互作用。与此模型一致，最近研究表明，CTCF可以介导哺乳动物细胞中的长距离染色体相互作用，提供了绝缘体建立调控域的可能机制(Kurukuti等人，2006年；Ling等人，2006年；Yusufzai等人，2004年). 每种机制在形成基因组表达中发挥作用的程度尚不清楚。基因组绝缘体的知识将为理解基因组的组织和功能提供一个急需的框架。

计算机识别人类基因组中潜在绝缘体的工作因对CTCF的DNA识别序列的不完全理解而受到阻碍。生化分析表明，11-锌指蛋白可以使用锌指结构域的不同组合结合不同的DNA靶序列(Filippova等人，1996年；Ohlsson等人，2001年). 因此，从在体外蛋白质/DNA相互作用分析和有限数量的已知绝缘体显示出广泛的序列变异，并且对于全基因组预测CTCF结合没有足够的特异性(Ohlsson等人，2001年). 最近，人们尝试通过染色质免疫沉淀，然后克隆和测序，系统地分离小鼠基因组中的绝缘体(Mukhopadhyay等人，2004年). 不幸的是，由于测序工作的规模有限，仅鉴定出约200个具有增强子阻断活性的DNA片段，每个片段由不同的CTCF结合位点驱动。然而，到目前为止，本研究尚未报道CTCF结合基序的一致性。

作为理解绝缘体如何促进人类细胞中基因表达的第一步，我们已经使用染色质免疫沉淀法定位了人类基因组中CTCF结合位点，然后使用基因组拼接微阵列进行检测(Kim等人，2005年b；Kim和Ren，2006年). 我们的分析产生了一个高分辨率的CTCF结合基因组图，平均有2.5个基因由一对CTCF的结合位点结合。我们还确定了大多数实验确定的CTCF结合基序的明确共识体内CTCF结合位点。我们表明，人类基因组中CTCF结合序列的位点在其他脊椎动物中高度保守，这与CTCF在细胞功能中广泛而基本的作用一致。此外，我们证明CTCF与DNA的结合在细胞间基本不变，其中一个子集以细胞类型依赖的方式与蛋白质相互作用。我们的研究结果为理解CTCF在人类细胞绝缘体功能、基因调控和基因组组织中的作用提供了一般资源。

结果

CTCF结合位点的全基因组定位

此前，我们开发了一种改进的全基因组定位分析策略，以确定人类细胞中转录因子结合位点通过基因组(Kim等人，2005年b). 该方法也称为ChIP-ChIP，涉及从甲醛交联细胞中免疫沉淀转录因子结合的DNA，然后用基因组拼接阵列进行检测。为了确定人类基因组中的CTCF结合位点，我们使用抗CTCF的单克隆抗体和来自原始人类成纤维细胞IMR90细胞的染色质提取物进行了相同的分析。CTCF结合DNA是通过一系列38个阵列进行鉴定的，这些阵列共包含1460万个50聚体寡核苷酸，沿着人类基因组的非重复序列，每隔100个碱基对（bp）均匀定位。通过应用一个简单的统计滤波，要求来自四个连续探针的信号高于阈值（平均对数比标准偏差的2.5倍），我们确定了15221个CTCF结合的基因组区域的初始列表(图1a，b). 为了验证CTCF与这些假定的CTCF结合序列的结合，我们设计了一个新的寡核苷酸微阵列，以100bp的分辨率表示这些区域和周围序列。使用该阵列，我们用IMR90细胞的独立染色质样本对CTCF进行了ChIP-ChIP分析，并确认其与13804个区域的结合。

在单独的窗口中打开

图1

CTCF结合位点的染色体分布

（a）显示了IGF2/H19基因座的ChIP-ChIP分析结果。（b） H19/IGF2印迹控制区域的CTCF结合视图。（c） CTCF、ER和p53结合位点数量与每条染色体上基因数的相关性分析。（d） CTCF、ER和p53结合位点数量与每条染色体长度的相关性分析。

评估这些数据的准确性体内CTCF结合位点，我们首先随机选择84个(补充表1)并进行常规ChIP分析。该分析验证了CTCF与80（95%）个测试位点的结合(补充图2a)，并表明我们的方法具有高度的特异性。

接下来，我们检测了人类基因组中60个先前表征的CTCF结合位点和绝缘体上的CTCF-结合，发现我们的分析检测到32个（约53%）(补充表2). 为了确定在其余28个位点检测CTCF结合失败是否是由于我们方法的中等敏感性，我们进行了常规ChIP分析，并检测到CTCF与其中四个位点的结合(补充图2b,补充表3). 由于这些已知的CTCF结合位点将被视为我们方法的假阴性，因此我们方法的灵敏度估计约为88%（36个中有32个）。

第三，我们检查了每个CTCF结合位点的多物种序列比对得分（PhastCon）(Siepel等人，2005年)以确定它们的序列守恒。显著比例（55%，P（P）< 2.2×10⁻¹⁶)CTCF结合位点在PhastCon评分为0.8或更高的脊椎动物中保守(补充图2c)，表明我们分析中确定的大多数CTCF结合位点可能具有功能。

CTCF结合位点在基因组中的分布

为了描述CTCF结合位点是如何沿着人类基因组分布的，我们将其定位与总共20181个注释良好的人类基因进行了比较(Kent等人，2002年). 我们对CTCF结合位点与染色体上发现的基因或转录物的数量，或与每条染色体的总核苷酸长度进行了相关分析(图1c、d,补充图3a). 作为对照，我们检测了最近在人类细胞中测定其基因组结合位点的两种增强子结合蛋白：雌激素受体（ER）(Carroll等人，2006年)和p53(Wei等人，2006年) (补充表4). 结果表明，CTCF的结合与每条染色体上的基因数量密切相关(第页²=0.85），相关程度远高于ER和p53。相反，CTCF结合仅与染色体长度弱相关(第页²=0.42），相关程度远低于两种转录激活蛋白(Carroll等人，2006年) (图1c，d). 基于此分析，我们得出结论，CTCF结合位点沿基因组的分布与基因密切相关，并与其他已知的序列特异性转录因子不同。

对每条染色体上CTCF定位的独立分析也证实了CTCF结合与基因密度之间的密切关系。我们用一个滑动的2Mbp窗口分割每条染色体，并计算每个窗口内CTCF结合位点数量与基因之间的相关性。总的来说，CTCF结合位点与基因密切相关，相关系数为0.786。相比之下，随机生成的基因组位点与基因之间的平均相关系数仅为0.32(图2a). CTCF结合位点与基因之间的相关程度与先前在同一细胞中定位的TAF1结合位点和基因之间的相关性相似（相关系数为0.792）。该分析表明，CTCF结合高度局限于基因，表现出与普通转录因子相同的特性。CTCF分布的这一特性与其在绝缘体中的作用一致，并表明CTCF在基因组中具有广泛的功能。

在单独的窗口中打开

图2

CTCF结合位点相对于基因的分布

（a）显示了11号染色体的基因和CTCF结合位点密度的染色体视图。箭头表示染色体中CTCF结合位点和基因数的总体相关性偏离平均值的区域。（b）总结CTCF相对于已知基因5′端分布的直方图。（c） CTCF结合位点的饼图映射到基因组的外显子、内含子、启动子（起始位点的2.5 Kb范围内）和基因间区域。（d）相关基因簇上CTCF结合位点的耗尽。嗅觉受体（OR）基因簇由一对CTCF结合位点结合，由一条长的红色垂直线表示。（e）原钙粘蛋白γ基因座交替启动子上的CTCF结合位点的一个例子。红色垂直线表示CTCF结合位点。顶部面板中的蓝色条显示映射到该轨迹的探针的相对表达式。每个条的宽度表示每个基因的长度。

虽然CTCF结合位点的分布类似于TAF1等一般转录因子的分布，但两者之间存在重要差异。大多数TAF1结合位点（89%）接近已知转录物的5′端；相反，CTCF结合位点通常距离启动子很远，平均距离为48000bp(图2b). 近一半（46%）的CTCF结合位点位于基因间（46%的）区域，这与其作为绝缘体的潜在作用一致。只有约20%的CTCF位点位于转录起始位点附近。出乎意料的是，大量CTCF结合位点位于基因内，22%位于内含子，12%位于外显子(图2c). 聚腺苷化位点附近CTCF结合位点没有明显富集(补充图3b). CTCF近启动子的结合在很大程度上与基因活性呈负相关，因为大多数启动子（72%）不被通用转录因子TAF1占据。这一观察结果与CTCF可能在这些启动子中起阻遏作用的可能性一致。CTCF在内含子和外显子内的结合意义尚不清楚，但推测可能与其绝缘体功能有关，以阻断这些序列附近的增强子和沉默子。综合起来，这些结果表明CTCF结合位点在整个基因组中普遍存在，并显示出不同于增强子和启动子的独特分布。

虽然CTCF结合位点通常与染色体全长上的基因相关，但也有一些孤立的区域偏离了这一趋势(图2a). 可以定义两种显著的位点类型：一种位点的特征是CTCF结合位点的相对缺失，另一种位点则是CTCF-结合位点的富集。我们可以将CTCF缺失位点定义为那些2 Mbp窗口，其CTCF结合位点的密度低于平均密度（小于每2 Mbp 2个，P（P）大多数染色体<0.05，补充表5). 同样，我们可以将CTCF富集的基因座定义为表现出高于平均CTCF位点密度的2Mbp窗口(P（P）< 0.001,补充表6). 我们观察到，CTCF缺失域往往包括相关基因家族和转录共同调控的基因簇，而CTCF富集域通常具有多个替代启动子（81%包含2个或更多替代启动子）。这两种情况都与CTCF结合位点作为绝缘体的假设一致。

我们通过仅考虑具有多个CTCF结合位点的基因或无CTCF绑定位点的基因簇，进一步表征了这两类区域。我们定义了13766个基因组区域，这些区域两侧是一对连续的CTCF结合位点，并将其命名CTCF公司第页空气定义的d日域（CPD）。大约43%（5969）的CPD包含至少一个完整的基因位点，而其余的CPD不包含完整的基因。基因组中约74%的基因全部被CTCF结合位点包围。其余的基因要么是端粒到CTCF结合位点（2.6%的基因），要么包含内部CTCF绑定位点（23%的基因”）。平均而言，在一个CPD中发现约2.5个基因。CPD的平均大小为212090bp。其中相当多（189个国家方案文件，P（P）<0.001）包含9个或更多基因，其中最大的一个包含多达56个基因(P（P）=3.42×10⁻⁵⁶).表1a列出了具有15个或更多基因的所有CPD，P（P）=2.2×10⁻⁸这些CPD通常对应于大量相关基因簇(Sproul等人，2005年)例如嗅觉受体（OR）基因簇(图2d)、ZNF基因簇、KRTAP基因簇(补充图4a)、I型干扰素（IFN）基因簇等。

表1

CTCF结合位点分布的两种不同模式

（a） CPD中发现的基因簇。（b）具有多个CTCF结合位点的基因。

（a） CPD中发现的基因簇
协调	名称	描述	#基因
电话：11:48088265-56214717	或	嗅觉受体	56
查尔斯克：117723838-128460548		不相关的	41
chr19:19616300-32957396	ZNF14型	锌指蛋白	32
电话17:36319559-36906400	KRTAP公司	角蛋白相关蛋白	30
电话：11:4616383-5358451	或	嗅觉受体	27
chr1:244426810-245310724	或	嗅觉受体	23
电话：69540367-71551475	UGT2B；CSN；HTN公司	UDP糖基转移酶2家族成员；酪蛋白α、β、κ	23
电话：11:241380-652375	国际单项体育联合会	干扰素诱导的跨膜蛋白	22
电话：139574141-148258030	斯潘克斯牌手表	与SPANX核家族蛋白相关的精子蛋白	21
chr1:154908208-155781600	客户尽职调查1	CD1抗原；嗅觉受体	20
chr16:1484561-1993646	RP公司	核糖体蛋白质类	20
电话：122296512-122944407	或	嗅觉受体；锌指蛋白	20
chrX:153148757-153849359		不相关的	20
电话：149246363-149655393	生命周期评价	晚期角化膜蛋白	19
电话19:59681836-60291665	LILRA，基尔3DL	白细胞相关免疫球蛋白样受体	19
电话：5:140209093-140679714	PCDHB公司	原钙粘蛋白β	19
chrX:150199685-151798057	马达加斯加	黑色素瘤抗原家族A蛋白	19
chr12:16404564-21817503	SLCO公司	溶质载体有机阴离子转运蛋白家族蛋白	18
电话：19:48981708-49695890	ZNF公司	锌指蛋白	18
合同编号：1:1097984-1346875	TNFRSF公司	肿瘤坏死因子受体	17
电话：11:5662785-6228381	或	嗅觉受体	17
电话：11:59278847-60298781	MS4A级	跨膜4域	17
电话：12:10794287-11530870	TAS2R基因	味觉感受器	17
电话19:62681155-63092088	ZNF549号	锌指蛋白	17
电话：27455959-27838284		不相关的	17
chr21:44755457-45037442	KRTAP公司	角蛋白相关蛋白	17
电话：144686322-145048785	不相关的		17
chrX:100477190-101961011	ARMCX公司	犰狳重复序列蛋白	17
chr1:165304985-167371954	塞尔	选择素	16
电话14:37750277-44792052		不相关的	16
电话16:54948373-55293378	百万吨	金属硫蛋白	16
电话：8625711-9402805	或	嗅觉受体	16
电话：26135302-26312482	HIST公司	组蛋白	16
chr6:27868447-27970998	HIST公司	组蛋白	16
电话：10:73794396-74959208		不相关的	15
chr14:19003935-19843534	或	嗅觉受体	15
chr19:41311124-42099100	ZNF公司	锌指蛋白	15
电话：20931328-21385937	干扰素	干涉仪	15
（b）具有多个CTCF结合位点的基因
协调	基因	描述	#CTCF公司	#开始
电话22:20777701-21573524	IgLλ	免疫球蛋白lambda位点	34	30
chr16:68542310-73012791	LOC348174号	分泌蛋白LOC348174	29	三
chr22:18830549-20228404	问题8IYP7	类似于外周型苯二氮卓受体相关蛋白1	27	2
chr1:142300786-145375749	问题8N4E8	神经母细胞瘤断点家族成员15	26	2
电话：7:71912639-74641641	DKFZP434A0131号	DKFZp434A0131蛋白异构体1	25	6
电话：7:71884863-74669359	LOC541473号	类似FKBP6	25	2
电话：7:71882976-74679539	问题8N4N6	包含三部分图案73	25	2
chr16:14713046-18376428	NPIP公司	核孔复合体相互作用蛋白	24	三
电话16:14835163-18480935	企9H049	NODAL调制器2	24	三
电话：7:71912639-73751143	DKFZP434A0131号	DKFZp434A0131蛋白亚型1	20	三
电话17:31517173-33607593	TBC1D3C（待定）	TBC1域家族成员3C	20	4
电话：10:46077353-49152919	Q5RJ30型	FRMPD2相关1	20	5
电话15:82659067-83578998	问题9BXM8	类似于顺高尔基基质蛋白GM130	18	2
chr16:14713046-16395314	NPIP公司	核孔复合体相互作用蛋白	17	6
电话17:31517173-33369298	TBC1D3C（待定）	TBC1域家族成员3C	17	三
chr1:151647667-151975780	MUC1公司	MUC1粘蛋白异构体1前体	16	6
电话：31529509-32034747	第18615-2页	RD RNA结合蛋白	16	2
chr7:141638111-142017270	TCR贝塔	T细胞受体β	14	2
电话：11:130745778-131711925	问题9P121-2	神经亚胺	14	三
电话：140690435-140872730	PCDHGA1公司	原钙粘蛋白γ亚家族A	13	46
电话：10:78299367-79067583	KCNMA1公司	大电导钙活化钾	11	1
电话14:21180948-22090938	TCRα/δ	T细胞受体α基因座	11	14
电话：11:44537174-44929010	TP53I11型	p53诱导蛋白	11	1
图12:6304598-6648609	O15420号机组	锌指蛋白384	11	1

在单独的窗口中打开

与相关基因簇内CTCF结合位点的缺失相反，在显示广泛替代启动子使用的基因中，CTCF的结合位点显著集中。49个基因含有明显更多的CTCF结合位点（8个或更多，P（P）=0.0018,表1b)包括原钙粘蛋白γ（PCDHG）、T细胞受体α/δ、β、γ位点（TCRα/δTCRβTCRγ）、免疫球蛋白重链位点（IgH）、轻链κ和λ位点（Ig LκIgLλ）等基因(补充图4b). 这些基因都含有大量的选择性启动子，其中大多数通过CTCF结合位点相互分离(图2e).

总之，CTCF结合位点以非随机方式沿基因组分布，这与之前描述的一般转录因子和序列特异性激活剂不同。在一个方面，CTCF结合位点的分布与一般转录因子相似，因为它们都密切跟踪每个染色体上的基因分布。相比之下，先前表征的序列特异性激活物的分布与基因密度的相关性较小，但与染色体长度的相关性更显著。然而，与通常与转录起始位点相关的一般转录因子不同，大多数CTCF位点位于启动子之外。CTCF定位的这种独特性质与其作为绝缘体结合蛋白的假定作用是一致的。

大多数体内假定绝缘体中的CTCF结合位点共享一个特定的序列基序

先前的研究表明，CTCF的结合模式存在差异和可变，并表明CTCF识别不同的序列(Ohlsson等人，2001年). 识别大量体内CTCF结合位点为更好地确定该DNA结合蛋白的体内识别序列提供了一个独特的机会。使用判别矩阵枚举器（DME）算法(Smith等人，2005年b)，我们已经确定了一个基序，该基序最能将CTCF结合位点与其相邻的控制序列区分开来(图3a). 这种20-碱基对基序类似于CTCF结合共识的一种特殊形式(贝尔和费尔森菲尔德，2000年)但在六个核苷酸位置（位置7、8、9、10、13和17，图3a). 该基序存在于75%以上的实验确定的CTCF结合位点中，但不到17%的对照组周围序列中。它通常位于实验确定的CTCF结合片段的中间，如果它们作为蛋白质的接触点，这是意料之中的体内(图3b).

在单独的窗口中打开

图3

CTCF结合位点具有20-mer基序的特征

（a） DNA标志(Workman等人，2005年)代表从ChIP-on-ChIP实验中定义的CTCF结合基序和先前报道的一致性CTCF绑定位点(Bell和Felsenfeld，2000年)如图所示。每个字母的高度代表核苷酸在每个位置的相对出现频率。（b）实验确定的CTCF结合位点内高得分基序的分布。黄色水平线表示每个CTCF结合位点，蓝色短线表示CTCF连接位点内高得分20-mer基序的位置。（c） 12个CTCF（WT）和相应的洗牌（SH）探针的EMSA结果(补充表7)表明在CTCF结合位点内发现的12个基序中有11个基序被重组CTCF蛋白特异识别。

为了测试这个基序是否真的是CTCF识别序列，我们对上面确定的12个随机选择的CTCF结合位点进行了电泳迁移率变化分析（EMSA）。对于每个结合位点，我们设计了一个80-mer EMSA探针，中间带有可识别的20-mer CTCF基序(补充表7). 我们还通过在每个测试序列中随机改变20-mer CTCF基序设计了一个控制探针。在该试验中，12个探针中有11个被证实与重组CTCF蛋白特异性相互作用，而洗牌探针没有(图3c)表明CTCF确实识别了新识别的基序。未能与CTCF蛋白相互作用的一个探针可能代表一个较低的评分基序，该基序位于中心位置，但可能与真实的体内CTCF结合位点。

根据这些结果，我们得出结论，在我们的实验条件下，CTCF结合体内似乎是由一类类似序列介导的，这类序列由一致模体很好地描述。然而体内CTCF结合位点缺乏这个基序。其他分析未能确定这些区域内任何显著过度表达的基序。测试这些序列是否直接与CTCF结合在体外，我们已经生成了连续的重叠DNA片段来表示两个随机选择的没有基序的CTCF结合位点(补充表8)，并执行EMSA。我们的结果证实了CTCF确实可以与这两个序列结合在体外(补充图5a、b). 因此体内CTCF结合位点可能具有不同的结合模式，并以不同的序列与该蛋白相互作用。需要额外的实验来解决这些位点CTCF的结合序列。

CTCF基序在脊椎动物中高度保守

CTCF蛋白在所有脊椎动物同源物的DNA结合域中显示出异常高的保守性，其氨基酸序列同源性超过95%。此外，CTCF DNA结合域内的少数氨基酸替换并没有映射到任何预测与DNA直接接触的残基(Pabo等人，2001年). 这种高度的序列保守性支持了CTCF的进化保守性功能，并预测CTCF结合位点也应该在其他脊椎动物基因组中保守性。与此预测一致，每个序列中的20-mer基序体内与随机洗牌基序相比，CTCF结合位点在进化上高度保守(补充图6).

此外，我们还搜索了整个人类基因组中CTCF基序的出现情况，提取了其他脊椎动物基因组中序列信息可用的对齐序列，并询问在相应的同源序列中是否也存在得分较高的CTCF模序。为了提高CTCF结合位点计算预测的特异性，我们将位置6、11、14和16的碱基限制在主要存在于实验定义的CTCF结合位点内的核苷酸（详见实验程序）。使用该方法，在人类基因组中共鉴定出31905个潜在的CTCF结合位点。在这些位点中，19271个可以与小鼠基因组对齐，6553个包含如上定义的CTCF共识基序。相比之下，在基因组中使用相同长度和碱基组成的随机矩阵进行类似搜索，平均只发现149个保守位点，表明CTCF结合序列高度保守(P（P）=1.27×10⁻⁸,图4a). 除了小鼠基因组外，我们还检测了其他脊椎动物基因组中预测的人类CTCF结合序列的保守性，发现8082个(P（P）= 1.19×10⁻⁵), 8,154 (P（P）= 3.84×10⁻⁶), 6,362 (P（P）= 1.02×10⁻⁸), 263 (P（P）= 5.09×10⁻⁵)和204(P（P）= 5.48×10⁻⁵)分别在狗、牛、大鼠、鸡和斑马鱼基因组中显著保守(图4a). 总计，人类基因组中经计算预测的12799个CTCF结合位点（31905个）在至少一个其他脊椎动物基因组中保守（不包括黑猩猩基因组，图4b). 我们将这些高度保守的CTCF识别序列定义为潜在CTCF结合位点。

在单独的窗口中打开

图4

CTCF识别位点在其他脊椎动物中高度保守

（a）将在其他脊椎动物基因组中发现的CTCF结合基序的分布与每个基因组中随机洗牌的CTCF-基序的频率进行比较。（b）计算预测的人类基因组中其他脊椎动物保守的CTCF结合位点的维恩图。右边的排列是不同保育水平的每个基序如何与其他物种的相应序列对齐的示例。（c）鸡基因组和相应的洗牌探针中预测的2个CTCF（WT）结合位点的EMSA结果(补充表9).

人类基因组中保守的CTCF识别序列意味着其他物种中相应的基序也可能作为CTCF结合位点发挥作用。为了验证这一预测，我们对鸡基因组中两个预测的CTCF结合位点进行了EMSA(补充表9). 结果证实了CTCF与两个CTCF位点的结合在体外(图4c).

大多数CTCF结合位点位于不同的细胞类型中

为了评估不同细胞类型中CTCF结合的可变性，我们进行了ChIP-ChIP分析，以确定造血祖细胞系U937中的CTCF绑定位点。我们重点分析了一组44个基因组区域，代表人类基因组1%的样本，称为ENCODE区域(联合体，2004年；Kim等人，2005a)（ENCODE数组）。这些区域由ENCODE联盟半随机选择，作为基因组研究的通用平台。我们在这个实验中使用了前面描述的基因组拼接阵列(Kim等人，2005a). 这些阵列包含PCR产物作为探针，而不是寡核苷酸。我们在U937细胞中检测到232个位点，置信水平为P（P）< 0.000001 (图5a、b)，与IMR90站点中相同区域内检测到的225个（67%）CTCF站点中的151个站点重叠(图5b). 限制较少的标准会导致更大程度的重叠(补充图7). 该分析表明，在IMR90细胞中检测到的大多数CTCF结合位点也被另一种细胞类型占据，这表明基因组中的大多数CTCFR结合位点可能是细胞类型不变的。

在单独的窗口中打开

图5

两种细胞类型CTCF结合的比较

（a） ENCODE区域内IMR90和U937细胞中CTCF结合的代表性视图。第一个面板列出了该区域内所有已知的基因。第二和第三个面板分别显示IMR90和U937单元区域内的CTCF绑定数据。第四个面板显示了基于20-mer基序预测的CTCF结合位点。（b）维恩图显示了置信水平下IMR90和U937细胞中CTCF结合的重叠，P（P）< 0.000001. （c）通过定量实时PCR验证三个细胞类型特异性位点(补充表10).

另一方面，虽然U937和IMR90细胞中CTCF结合位点之间的重叠随着标准的放宽而增加，但并不是100%。CTCF结合位点的一个子集似乎以细胞类型依赖的方式与该蛋白相互作用。为了证实这一点，我们进行了常规的ChIP分析，以测试CTCF与两个IMR90特异位点和一个U937特异位点的结合(补充表10). 结果表明，两个IMR90特异性CTCF结合位点确实与IMR90细胞中的蛋白质相关，但与U937细胞中的蛋白无关，而U937特异性CTCFR结合位点与该蛋白质的相互作用方式相反(图5c). 我们的结论是，基因组中的一部分CTCF结合位点可能受到细胞类型依赖性调控，尽管CTCF位点的全部数量仍有待确定。

脊椎动物基因组中CTCF结合位点的进化

由于我们能够通过计算绘制其他脊椎动物基因组中的CTCF结合位点，我们有兴趣了解这些位点在不同脊椎动物物种中是如何进化的，以及这些变化是否反映了CTCF的功能。我们在12799个进化上保守的CTCF识别序列中发现了14352个核苷酸变化。有趣的是，主要的碱基替换发生在位置16的胞嘧啶处，它恰好是共识序列中的主要CG二核苷酸(图6). 该位置的胞嘧啶到胸腺嘧啶的转换占所有核苷酸变化的近17%。在这个位置上C-T取代率异常高的一个解释是碱基处潜在的DNA甲基化(琼斯和拜林，2002年；Rideout等人，1990年)这与DNA甲基化对CTCF结合的调控一致。这一观察结果提出了一个有趣的进化模型，即通过简单地改变基因组中CTCF的结合来获得基因的差异调节，这一过程可以由环境和表观遗传因素促进。

在单独的窗口中打开

图6

CTCF结合位点在进化过程中表现出独特的核苷酸变化

在所有可用脊椎动物基因组中绘制的CTCF基序内观察到的核苷酸变化。沿着20-mer基序绘制CTCF结合位点中观察到的碱基变化分布。

讨论

总之，我们已经生成了人类基因组中具有独特分布和序列特征的CTCF结合位点的高分辨率地图。该图不仅确认了大多数已知的绝缘体和CTCF结合位点，还确定了13000多个新的CTCF连接序列和潜在绝缘体。近80%的CTCF结合位点共享一个在进化过程中高度保守的共识基序。我们发现CTCF结合位点在细胞类型之间基本不变。我们的结果代表了全面鉴定人类基因组中依赖CTCF的绝缘体的关键一步。

人类基因组中CTCF结合位点的独特分布

与序列特异性转录激活物（如ER和p53）不同，CTCF结合位点在基因组中普遍存在，其染色体分布与基因密切相关。在这方面，CTCF类似于一般转录因子的行为。然而，CTCF结合位点的位置明显不同于一般转录因子的位置。除了相对较小的部分（20%）外，大多数CTCF结合发生在远离转录起始位点的位点(图2b). 相反，近90%的TAF1结合位点位于启动子处。CTCF结合位点在基因组中的这种独特分布与这些序列作为绝缘体的潜在作用一致。

大约一半的CTCF结合位点远离基因。这些远端位点可能定义了绝缘体，在许多情况下与基因簇的边界一致，例如嗅觉受体基因簇。哺乳动物基因组中的许多基因被排列成簇，这些簇的存在意味着共享的长程元件（如位点控制区）对表达的协调调节，正如Hox和β-珠蛋白基因簇所观察到的那样(Sproul等人，2005年). 最近，一项研究表明，位于分离染色体上的OR基因簇共享一个增强子，该增强子仅与一个启动子选择性地相互作用，导致约1500个其他启动子中的一个高度专一激活(Lomvardas等人，2006年).

与CTCF的这种基因分离特性一致，CTCF结合位点与逃避X失活的基因边界一致(Filippova等人，2005年). X失活被证明涉及在女性基因组的两条X染色体之一上建立异染色质。最近的一项研究表明，X失活在失活的X染色体上并不均匀(Carrel和Willard，2005年)，并鉴定了一些能够逃避染色体宽异染色质形成的基因簇。如果CTCF结合位点确实起到绝缘体的作用，那么人们可能会期望它们分离出X染色体上逃避失活的基因簇。事实上，我们在X染色体上观察到几个被CTCF结合位点包围的结构域(补充图8).

CTCF结合位点和选择性使用替代启动子

虽然近一半的CTCF结合位点位于基因之间的序列中，但相当数量的CTCF-位点位于基因内。目前尚不清楚这些序列是否起到绝缘体的作用。我们注意到，它们中的许多似乎在单个基因中分离了替代启动子，可能有助于替代启动子的使用。原钙粘蛋白γ基因座（PCDHG，图2e)、T细胞受体α/δ、β、γ基因座（TCRα/δTCRβTCRγ）、免疫球蛋白重链（IgH）、轻链κ和λ基因座（IgLκIgLλ，补充图4b). 在每种情况下，CTCF结合都会分离在组织中显示不同活性的转录起始位点。大约52%的人类基因具有多个启动子。虽然替代促进剂的用法很常见(Carninci等人，2005年；Carninci等人，2006年；Kimura等人，2006年)，其机制尚不清楚。通常认为，不同的启动子采用不同的调控机制来实现组织和时间特异性活动。CTCF结合位点打断替代启动子的观察结果可能表明绝缘体元件参与了不同细胞类型启动子的选择。

共识基序可以解释可能绝缘体中的大多数CTCF结合位点

我们研究的一个令人惊讶的发现是，绝大多数实验确定的CTCF结合位点都具有特定的20-mer基序。我们证明该基序在脊椎动物中高度保守，并可用于预测基因组中其他潜在的CTCF结合位点。此外，我们还表明，新表征的CTCF一致序列与CTCF蛋白特异性相互作用在体外考虑到CTCF可能识别的序列的巨大多样性在体外，我们发现在体内CTCF结合位点出乎意料。

另一方面，我们的结果并不排除存在额外的CTCF结合基序，这些基序可能被基因组中的绝缘体结合蛋白识别。事实上，重要的是要注意到体内结合位点不包含新表征的CTCF结合共识序列。分析时在体外，这些CTCF结合位点中的一些确实可以直接与CTCF相互作用，支持不同CTCF识别序列的存在。此外，许多先前表征的CTCF结合序列和绝缘体缺乏新识别的基序。CTCF完全有可能与不同类别的DNA序列结合，无论是直接结合还是与伴侣结合。到目前为止，我们的搜索未能在这一子集中找到另一个重要的主题体内CTCF结合位点。

总之，我们在这里报道了人类基因组中第一个CTCF结合的高分辨率图谱，揭示了CTCF功能的几个新方面。我们的结果为进一步研究CTCF在绝缘体功能、印迹和长距离染色体相互作用中的作用提供了急需的资源。

材料和方法

有关实验方法和材料的详细说明，请访问单元格联机补充材料。所有原始和处理的数据都可以在http://licr-renlab.ucsd.edu/download（下载），UCSC基因组浏览器http://genome.ucsc.edu/和基因表达综合网址：http://www.ncbi.nlm.nih.gov/geo/（加入#GSE5559标准). E.Pugacheva及其同事已经对本研究中使用的单克隆CTCF抗体进行了表征和描述(Pugacheva等人，2005年)并可根据要求提供。

染色质免疫沉淀和微阵列实验

IMR90和U937细胞按照美国类型培养库的指导进行培养和维护。当细胞在平板上达到约80%的汇合时，收集细胞并用1%甲醛交联。按说明进行染色质免疫沉淀(Kim等人，2005年b)使用50ul九种CTCF单克隆抗体的等摩尔混合物和三种不同的阵列平台——一种全人类基因组拼接阵列(Kim等人，2005年b)，一个包含742156个寡核苷酸的浓缩阵列，以及覆盖ENCODE区域的PCR产物阵列(Kim等人，2005a). 如前所述进行微阵列数据分析(Kim等人，2005a；Kim等人，2005年b)（请参阅联机补充材料).

ChIP芯片数据的验证

使用0.5 ng CTCF ChIP DNA和未富集的总基因组DNA，使用iCycler™和SYBR green iQ™SYBR gree supermix试剂（Bio-Rad Laboratories）进行两次定量实时PCR。通过从CTCF ChIP DNA的Ct值中减去未富集DNA的Ct值（ΔCt=Ct_ctcf公司−Ct_全部的). 然后如前所述估计ChIP DNA中测试的启动子序列相对于未富集的DNA的倍数富集(Bernstein等人，2005年；Cawley等人，2004年). 用于此分析的底漆列于补充表1.

主题分析

Motif发现按中所述执行(Smith等人，2005a；Smith等人，2005年b). 所有CTCF结合位点作为阳性序列，侧翼序列作为阴性序列。与阴性序列相比，阳性序列中的过度表达序列基序被选中。利用这个序列基序，我们生成了一个初始的20 bp位置权重矩阵（PWM）。根据整个CTCF结合位点集搜索这个20-mer PWM，结合位点中发现的所有基序用于生成最终的PWM。然后使用Storm程序搜索人类基因组（hg17）中是否存在该基序。在6、11、14和16位为存在关键核苷酸C、G、G和C选择高得分基序。然后使用UCSC基因组浏览器提供的liftOver和基因组比对信息，将得到的CTCF结合位点映射到14个脊椎动物基因组。然后使用Storm对每个序列进行评分，并根据人类基因组扫描筛选关键核苷酸。

电泳迁移率变化分析（EMSA）

EMSA按照说明进行(Pugacheva等人，2005年). 简而言之，CTCF（11ZF）和荧光素酶（Luc）的DNA结合域为在体外分别由pET-11ZF和T7对照质粒合成(Awad等人，1999年；Filippova等人，1996年)使用TnT T7快速耦合转录/翻译系统（Promega，Madison，WI，Cat.#L1170）。DNA片段(补充表2)在其5′端使用³²P-γ-ATP和T4多核苷酸激酶。将标记的DNA进行凝胶纯化，并与等量的在体外-合成蛋白质，在室温下培养30分钟，然后在5%非变性聚丙烯酰胺凝胶上电泳。

统计显著性分析

通过比较绘制的位点数量与使用1000次迭代产生的随机模体绘制的位点数分布，分析计算绘制的CTCF位点的统计意义。随机脉宽调制是通过随机化20-mer CTCF基序内的位置得出的。通过使用泊松分布函数计算每个CPD中每个观察基因的预期概率或每个基因中每个CTCF结合位点的预期概率，分析CPD中观察到的基因簇和基因中多个CTCF绑定位点的统计意义。通过Mann-Whitney Wilcoxon检验分析了观察到的CTCF结合位点与随机位点相比的进化保守性的统计学意义。

补充材料

01

单击此处查看。^{（550万，pdf）}

致谢

我们非常感谢超级计算机中心为我们提供的计算机资源（美国国家卫生研究院NCRR颁发的NBCR奖项编号：P41 RR 08605）。本研究得到了美国国立卫生研究院Ruth L.Kirschstein National research Service Award F32CA108313（THK）、路德维希癌症研究所（BR）、U01HG003151（BR），R33CA105829（BR）和R21CA16365-01（RDG）和HG001696（MQZ）的部分支持，美国国家科学基金会EIA-032492（MQZ，国家过敏和传染病研究所（VVL）。

脚注

出版商免责声明：这是一份未经编辑的手稿的PDF文件，已被接受出版。作为对客户的服务，我们正在提供这份早期版本的手稿。手稿在以最终可引用的形式出版之前，将经过编辑、排版和校对结果证明。请注意，在制作过程中可能会发现可能影响内容的错误，适用于该期刊的所有法律免责声明均适用。

工具书类

Awad TA、Bigler J、Ulmer JE、Hu YJ、Moore JM、Lutz M、Neiman PE、Collins SJ、Renkawitz R、Lobanenkov VV、Filippova GN。甲状腺激素应答元件144介导的负转录调控需要多价因子CTCF与新的靶DNA序列结合。生物化学杂志。1999;274:27092–27098.[公共医学][谷歌学者]
Baniahmad A，Steiner C，Kohne AC，Renkawitz R.鸡溶菌酶消声器的模块化结构：异常甲状腺激素受体结合位点的参与。单元格。1990;61:505–514.[公共医学][谷歌学者]
Bell AC，Felsenfeld G.CTCF依赖性边界的甲基化控制Igf2基因的印迹表达。自然。2000;405:482–485.[公共医学][谷歌学者]
Bell AC，West AG，Felsenfeld G.脊椎动物绝缘体的增强子阻断活性需要蛋白质CTCF。单元格。1999;98:387–396.[公共医学][谷歌学者]
Bernstein BE、Kamal M、Lindblad-Toh K、Bekiranov S、Bailey DK、Huebert DJ、McMahon S、Karlsson EK、Kulbokas EJ、3rd、Gingeras TR等。人类和小鼠组蛋白修饰的基因组图和比较分析。单元格。2005;120:169–181.[公共医学][谷歌学者]
Bulger M，Groudine M。循环与链接：走向长距离基因激活模型。基因发育。1999;13:2465–2477.[公共医学][谷歌学者]
Burcin M、Arnold R、Lutz M、Kaiser B、Runge D、Lottspeich F、Filippova GN、Lobanenkov VV、Renkawitz R。鸡溶菌酶基因沉默子与激素受体的功能所需的负蛋白1与多价锌指阻遏物CTCF相同。分子细胞生物学。1997;17:1281–1288. [PMC免费文章][公共医学][谷歌学者]
Carninci P、Kasukawa T、Katayama S、Gough J、Frith MC、Maeda N、Oyama R、Ravasi T、Lenhard B、Wells C等。哺乳动物基因组的转录图谱。科学。2005;309：1559–1563。[公共医学][谷歌学者]
Carninci P、Sandelin A、Lenhard B、Katayama S、Shimokawa K、Ponjavic J、Semple CA、Taylor MS、Engstrom PG、Frith MC等。哺乳动物启动子结构和进化的全基因组分析。自然遗传学。2006;38:626–635.[公共医学][谷歌学者]
Carrel L，Willard HF.X失活曲线揭示了女性X连锁基因表达的广泛变异性。自然。2005;434:400–404.[公共医学][谷歌学者]
Carroll JS、Meyer CA、Song J、Li W、Geistlinger TR、Eeckhoute J、Brodsky AS、Keeton EK、Fertuck KC、Hall GF等。雌激素受体结合位点的全基因组分析。自然遗传学。2006;38：1289–1297。[公共医学][谷歌学者]
Cawley S、Bekiranov S、Ng HH、Kapranov P、Sekinger EA、Kampa D、Piccolboni A、Sementchenko V、Cheng J、Williams AJ等。人类21号和22号染色体上转录因子结合位点的无偏定位表明非编码RNA的广泛调控。单元格。2004;116:499–509.[公共医学][谷歌学者]
联合体TEP。ENCODE（DNA元素百科全书）项目。科学。2004;306:636–640.[公共医学][谷歌学者]
Dunn KL，Davie JR。转录调控因子CTCF的多种作用。生物化学细胞生物学。2003;81:161–167.[公共医学][谷歌学者]
Fedoriw AM，Stein P，Svoboda P，Schultz RM，Bartolomei MS。转基因RNAi揭示了CTCF在H19基因印迹中的基本功能。科学。2004;303:238–240.[公共医学][谷歌学者]
Felsenfeld G、Burgess-Beusse B、Farrell C、Gaszner M、Ghirlando R、Huang S、Jin C、Litt M、Magdinier F、Mutskov V等。染色质边界和染色质域。冷泉Harb Symb Quant生物。2004;69:245–250.[公共医学][谷歌学者]
Filippova GN、Cheng MK、Moore JM、Truong JP、Hu YJ、Nguyen DK、Tsuchiya KD、Disteche CM。X失活和逃逸染色体结构域之间的边界在早期发育过程中结合CTCF并缺乏CpG甲基化。开发单元。2005;8:31–42.[公共医学][谷歌学者]
Filippova GN、Fagerlie S、Klenova EM、Myers C、Dehner Y、Goodwin G、Neiman PE、Collins SJ、Lobanenkov VV。一种异常保守的转录阻遏物CTCF利用不同的锌指组合结合鸟类和哺乳动物c-myc癌基因的不同启动子序列。分子细胞生物学。1996;16:2802–2813. [PMC免费文章][公共医学][谷歌学者]
Filippova GN、Lindblom A、Meincke LJ、Klenova EM、Neiman PE、Collins SJ、Doggett NA、Lobanenkov VV。CTCF是一种广泛表达的转录因子，具有多重DNA序列特异性，定位于染色体片段16q22.1，是乳腺癌和前列腺癌常见缺失重叠的最小区域之一。基因染色体癌。1998;22:26–36.[公共医学][谷歌学者]
Filippova GN、Qi CF、Ulmer JE、Moore JM、Ward MD、Hu YJ、Loukinov DI、Pugacheva EM、Klenova EM、Grundy PE等。CTCF转录因子中肿瘤相关锌指突变选择性改变tts DNA结合特异性。癌症研究。2002;62:48–52.[公共医学][谷歌学者]
Gerasimova TI，Corces VG。染色质绝缘体和边界：对转录和核组织的影响。年度版次Genet。2001;35:193–208.[公共医学][谷歌学者]
Hark AT、Schoenherr CJ、Katz DJ、Ingram RS、Levorse JM、Tilghman SM。CTCF介导H19/Igf2位点的甲基化敏感增强子阻断活性。自然。2000;405:486–489.[公共医学][谷歌学者]
Jeong S，Pfeifer K.移动绝缘体边界。自然遗传学。2004;36:1036–1037.[公共医学][谷歌学者]
Jones PA，Baylin SB。表观遗传事件在癌症中的基本作用。Nat Rev基因。2002;三:415–428.[公共医学][谷歌学者]
卡多纳加JT。序列特异性DNA结合因子对RNA聚合酶II转录的调节。单元格。2004;116:247–257.[公共医学][谷歌学者]
Kanduri C、Pant V、Loukinov D、Pugacheva E、Qi CF、Wolffe A、Ohlsson R、Lobanekov VV。CTCF与H19基因上游绝缘体的功能关联是起源特异性和甲基化敏感的亲本。当前生物量。2000;10:853–856.[公共医学][谷歌学者]
Kent WJ、Sugnet CW、Furey TS、Roskin KM、Pringle TH、Zahler AM、Haussler D。UCSC的人类基因组浏览器。基因组研究。2002;12:996–1006. [PMC免费文章][公共医学][谷歌学者]
Kim TH、Barrera LO、Qu C、Van Calcar S、Trinklein ND、Cooper SJ、Luna RM、Glass CK、Rosenfeld MG、Myers RM、Ren B。直接分离和鉴定人类基因组中的启动子。基因组研究。2005年a；15:830–839. [PMC免费文章][公共医学][谷歌学者]
Kim TH，Barrera LO，Zheng M，Qu C，Singer MA，Richmond TA，Wu Y，Green RD，Ren B.人类基因组中活性启动子的高分辨率图谱。自然。2005年b；436:876–880. [PMC免费文章][公共医学][谷歌学者]
Kim TH，Ren B.蛋白质-DNA相互作用的全基因组分析。人类基因组学年度回顾2006[公共医学][谷歌学者]
Kimura K、Wakamatsu A、Suzuki Y、Ota T、Nishikawa T、Yamashita R、Yamamoto J、Sekine M、Tsuritani K、Waka guri H等。转录调控的多样性：大规模鉴定和表征人类基因的假定替代启动子。基因组研究。2006;16:55–65. [PMC免费文章][公共医学][谷歌学者]
Klenova EM、Morse HC、3rd、Ohlsson R、Lobanenkov VV。新的BORIS+CTCF基因家族独特地参与了正常生物学和癌症的表观遗传学。塞明癌症生物学。2002;12：399–414。[公共医学][谷歌学者]
Klenova EM、Nicolas RH、Paterson HF、Carne AF、Heath CM、Goodwin GH、Neiman PE、Lobanenkov VV。CTCF是鸡c-myc基因最佳转录活性所需的保守核因子，是一种以多种形式差异表达的11-Zn-finger蛋白。分子细胞生物学。1993;13:7612–7624. [PMC免费文章][公共医学][谷歌学者]
Kurukuti S、Tiwari VK、Tavoosidana G、Pugacheva E、Murrell A、Zhao ZH、Lobanenkov V、Reik W、Ohlsson R.H19印迹控制区的CTCF结合介导母体遗传的高阶染色质构象，以限制增强子接触Igf2。美国国家科学院院刊。2006;103：10684–10689。 [PMC免费文章][公共医学][谷歌学者]
Lee JT。X失活与常染色体印迹之间的分子联系：X失活是印迹进化的驱动力？当前生物量。2003;13：R242–254。[公共医学][谷歌学者]
Ling JQ，Li T，Hu JF，Vu TH，Chen HL，Qiu XW，Cherry AM，Hoffman AR。CTCF介导Igf2/H19和Wsb1/Nf1之间的染色体间共定位。科学。2006;312:269–272.[公共医学][谷歌学者]
Lobanenkov VV、Nicolas RH、Adler VV、Paterson H、Klenova EM、Polotskaja AV、Goodwin GH。一种新的序列特异性DNA结合蛋白，与鸡c-myc基因5′侧翼序列中CCCTC基序的三个规则间隔的直接重复序列相互作用。致癌物。1990;5:1743–1753.[公共医学][谷歌学者]
Lomvardas S、Barna G、Pisapia DJ、Mendelsohn M、Kirkland J、Axel R.染色体间相互作用和嗅觉受体选择。单元格。2006;126:403–413.[公共医学][谷歌学者]
Moon H、Filippova G、Loukinov D、Pugacheva E、Chen Q、Smith ST、Munhall A、Grewe B、Bartkuhn M、Arnold R等。CTCF从果蝇到人类都是保守的，并能阻断Fab-8绝缘体的增强子。EMBO代表。2005;6:165–170. [PMC免费文章][公共医学][谷歌学者]
Mukhopadhyay R、Yu W、Whitehead J、Xu J、Lezcano M、Pack S、Kanduri C、Kanduri M、Ginjala V、Vostrov A等。染色质绝缘体蛋白CTCF在全基因组DNA无甲基化域的结合位点。基因组研究。2004;14:1594–1602. [PMC免费文章][公共医学][谷歌学者]
Ohlsson R、Renkawitz R、Lobanenkov V。CTCF是一种与表观遗传学和疾病相关的独特的多功能转录调节器。趋势Genet。2001;17:520–527.[公共医学][谷歌学者]
Pabo CO、Peisach E、Grant RA。新型Cys2His2锌指蛋白的设计与筛选。生物化学年度收益。2001;70:313–340.[公共医学][谷歌学者]
Pugacheva EM、Tiwari VK、Abdullaev Z、Vostrov AA、Flanagan PT、Quitschke WW、Loukinov DI、Ohlsson R、Lobanenkov VV。XIST启动子点突变家族病例揭示了CTCF结合与X染色体失活的先发制人选择之间的相关性。人类分子遗传学。2005;14:953–965.[公共医学][谷歌学者]
Rideout WM，3rd，Coetzee GA，Olumi AF，Jones PA.5-甲基胞嘧啶作为人类LDL受体和p53基因的内源性诱变剂。科学。1990;249:1288–1290.[公共医学][谷歌学者]
Siepel A、Bejerano G、Pedersen JS、Hinrichs AS、Hou M、Rosenbloom K、Clawson H、Spieth J、Hillier LW、Richards S等。脊椎动物、昆虫、蠕虫和酵母基因组中进化保守元素。基因组研究。2005;15:1034–1050. [PMC免费文章][公共医学][谷歌学者]
Smith AD，Sumazin P，Das D，Zhang MQ。挖掘ChIP-ChIP数据中的转录因子和辅因子结合位点。生物信息学。2005年a；21（补充1）：i403–412。[公共医学][谷歌学者]
Smith AD，Sumazin P，Zhang MQ.鉴定脊椎动物启动子中的组织选择性转录因子结合位点。美国国家科学院院刊。2005年b；102:1560–1565. [PMC免费文章][公共医学][谷歌学者]
Sproul D、Gilbert N、Bickmore WA。染色质结构在调节聚集基因表达中的作用。Nat Rev基因。2005;6：775–781。[公共医学][谷歌学者]
Udvardy A，Maine E，Schedl P.87A7染色粒。识别热休克位点两侧的新染色质结构，该结构可能定义高阶结构域的边界。分子生物学杂志。1985;185:341–358.[公共医学][谷歌学者]
Vostrov AA，Quitschke WW公司。锌指蛋白CTCF与淀粉样蛋白β前体启动子的APBβ结构域结合。转录激活作用的证据。生物化学杂志。1997;272:33353–33359.[公共医学][谷歌学者]
Wei CL，Wu Q，Vega VB，Chiu KP，Ng P，Zhang T，Shahab A，Yong HC，Fu Y，Weng Z等。人类基因组中p53转录因子结合位点的全球地图。单元格。2006;124:207–219.[公共医学][谷歌学者]
Workman CT、Yin Y、Corcoran DL、Ideker T、Stormo GD、Benos PV。enoLOGOS：用于能量标准化序列徽标的通用网络工具。核酸研究。2005;33：W389–392。 [PMC免费文章][公共医学][谷歌学者]
Yusufzai TM、Tagami H、Nakatani Y、Felsenfeld G.CTCF将绝缘体系在亚核部位，表明物种之间存在共同的绝缘体机制。分子细胞。2004;13:291–298.[公共医学][谷歌学者]