Systematic discovery of regulatory motifs in conserved regions of the human genome, including thousands of CTCF insulator sites

Xiaohui Xie; Tarjei S. Mikkelsen; Andreas Gnirke; Kerstin Lindblad-Toh; Manolis Kellis; Eric S. Lander

doi:10.1073/pnas.0701811104

美国国家科学院院刊。2007年4月24日；104(17): 7145–7150.

2007年4月18日在线发布。数字对象标识：10.1073/pnas.0701811104

PMCID公司：项目经理1852749

PMID：17442748

人类基因组保守区域调控基序的系统发现，包括数千个CTCF绝缘体位点

谢晓辉,^† 塔吉·米克尔森,^†^‡ 安德烈亚斯·尼尔克,^† 科尔斯汀·林布拉德·托赫（Kerstin Lindblad-Toh）,^† 马诺利斯·凯利斯,^†^§和埃里克·S·兰德^†^¶^‖^††

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 支持信息

pnas_0701811104_index.html（7.9公里）
GUID:0A1A2D2F-9988-45BE-BBF1-84D5472850B1

pnas_0701811104_9.pdf（10.3万）
GUID:6C1EBFB6-8BB0-409C-8741-3BB98107D642

pnas_0701811104_10.pdf（4万）
GUID:925543E8-E37D-4C62-9F10-5C987C255229

pnas_0701811104_1.pdf（4.1万）
GUID:5C3C1579-6F7F-4715-9059-B2460A9B15B6

pnas_0701811104_2.pdf（98K）
GUID:B77BCAF1-DD28-48D1-9759-6F6F38551A34

pnas_0701811104_3.pdf（21千）
GUID:B217CED3-F1D6-4E3E-961E-27F0F443CFD4

pnas_0701811104_4.pdf（4.5万）
GUID:6C878ED7-D732-48B9-AA34-622D7210CD35

pnas_0701811104_5.pdf（23K）
GUID:11EBCE11-6E9E-43E1-B37D-B921356B1B1B

pnas_0701811104_6.pdf（125K）
GUID:A957EBA3-7995-4A91-B71B-2202A646F3B5

pnas_0701811104_7.pdf（4.5万）
GUID:A26AE6D1-6E0C-4E2D-A100-6F7F90D55D13

pnas_0701811104_8.pdf（1.9万）
GUID:7FD7B2CA-8EA7-4496-B8E0-0E1DB26A4F0B

摘要

保守非编码元件（CNE）构成了人类基因组中净化选择下的大多数序列，但其功能基本上仍不清楚。实验证据表明，其中许多元素发挥调节作用，但对其中包含的调控基序知之甚少。在这里，我们描述了一种系统方法，通过搜索长基序（12-22nt）来发现和表征哺乳动物CNE中的调控基序，这些长基序在CNE中显著富集，并研究其生化和基因组特性。我们的分析确定了233个长基序（LM），与人类基因组中总计约60000个保守实例相匹配。这些基序包括16个先前已知的调控元件，如组蛋白3′-UTR基序和神经限制性沉默元件，以及引人注目的新型功能元件。最丰富的基序（LM1）对应于酵母和线虫已知的X-box基序。我们发现它与RFX1蛋白结合，并鉴定了数千个保守的基序实例，这表明RFX家族在基因调控中发挥着广泛的作用。第二组图案（LM2*）与之前已知的任何图案都不匹配。我们通过生物化学和计算方法证明，它为CTCF蛋白定义了一个结合位点，该结合位点参与绝缘体功能以限制基因激活的传播。我们确定了近15000个可能充当绝缘体的保守位点，并且我们表明由预测的CTCF位点分离的附近基因在基因表达中的相关性显著降低。因此，这些位点可能将人类基因组划分为表达域。

关键词：比较基因组学，保守的非编码元件

对人类和其他几种哺乳动物基因组的比较分析表明，5%的人类基因组处于净化选择状态，而不到三分之一的序列处于选择编码蛋白质状态。绝大多数存在于数十万保守的非编码元素（CNE）中。这些CNE的功能意义在很大程度上尚不清楚。似乎许多基因参与了基因调控，转基因实验已经鉴定出一些CNE能够驱动高度特异的时空基因表达模式(1 –4). 然而，对CNE或识别这些元素的蛋白质中包含的调控基序知之甚少。

我们和其他人之前已经进行了大规模的努力，以发现人类基因组有限亚群中的保守基序(5 –8)特别是基因启动子和3′-UTR。该方法是通过使用人类、小鼠、大鼠和狗序列的共时序列来搜索这些区域中优先保守的基序(5). 使用这种方法，我们在启动子区（转录起始2kb内）发现了174个基序，其中大多数参与转录调控和组织特异性基因表达控制，在3′-UTR中发现了105个基序，涉及转录后调控，其中一半与微小RNA靶向有关。这些研究的范围有限，因为基因启动子和3′-UTR仅包含基因组中CNE的一小部分（≈6%）。此外，它们的能力有限，因为它们只与三种非人类哺乳动物进行比较。

在这里，我们利用最近获得的12个哺乳动物基因组的序列，将我们的基序发现工作扩展到整个人类基因组。我们特别关注12到22nt之间的长调控基序，这为基序发现提供了强大的信号。我们搜索了相对于基因组其余部分在CNE区域富集的基序。

我们发现200多个基序在CNE区域显著富集。该分析自动重新发现了十几个先前已知的监管要素。更重要的是，大多数发现的基序都是新的，并且显示出不同于典型启动子元件的特性。特别是，其中一个新的基序定义了人类基因组中≈15000个潜在的绝缘体元素，突出了CNE在基因调控中的不同作用。

结果

创建Motif目录。

我们首先编译了人类基因组中829730个CNE的数据集（共62 Mb或约占常染色基因组的2%），其中包括在12个哺乳动物基因组的比较中显示出强保守性的同步区序列[参见支持信息（SI）文本]. 这些元素中的绝大多数位于距离蛋白质编码基因的转录起始位点（TSS）相当远的地方（SI图4）大约95%位于任何基因TSS的2 kb以上，一半位于TSS的100 kb以上。这表明只有一小部分CNE具有核心或近端启动子特有的功能。

我们试图创建一个CNE中丰富的序列基序目录(SI图5). 我们首先确定k-mers（用于k≥12）在CNE序列中发生的频率明显高于基因组其余部分。我们只关注相对较长的时间k-mers，因为预期数量N个在整个CNE数据库中随机出现的次数很小（例如，n个<8适用于k= 12;SI图6). 我们发现共有69810个k-默斯。例如，5′-GTTCCATGGAAAC-3′在CNE数据集中出现698次，而根据其全基因组频率（26倍富集），预计只有27个位点。我们注意到许多k-mers密切相关；因此，我们基于序列相似性对它们进行聚类。69810浓缩k-mers分解成233个不同的组，用LM1、LM2等表示“长基序”。对于这些基序，我们导出了反映每个位置4nt分布的位置权重矩阵（PWM）表示。CNE数据集中每个基序的丰度用丰度得分表示（参见方法). 前50个图案如所示表1中给出了233个图案的完整列表SI表3图案大小从12个到22个底座不等。

表1。

前50个最丰富的图案列表

身份证件	k-mer序列	允许的不匹配数	CNE中的初始站点数量	褶皱富集	Z轴-分数	已知图案
LM1型	`GTTGCCATGGAAAC公司`	1	698	25.9	130	X盒
LM2型	`ACCACTAGAGCA公司`	1	305	22.9	80.4
LM3型	`GTTGCTAGGCAACC公司`	1	204	30.7	76.9
LM4型	`GCCTGCTGGGAGTGTAGTT公司`	三	143	26.3	59.2
LM5公司	`AACTCCCATTAGCGTTAATGG公司`	三	43	68.1	53.5
LM6型	`aaaggccccttttaaggccac`	三	48	46.2	46.3	组蛋白3′-UTR
LM7系列	`CAGCAGGATGGCTGTT公司`	2	97	22.1	44.4
LM8型	`ATGAATTATTCATG公司`	1	280	8.8	44.3
LM9系列	`TCAGCACCGGACAG公司`	1	82	25.6	44.2	NRSE公司
LM10型	`ctgtttccttggaaccag公司`	三	165	9.3	35.2
LM11型	`GAAATGCTGACAGACCCTTAA公司`	三	41	30.7	34.5
LM12型	`TGGCCTGAAAGAGTTAATGCA公司`	三	51	22.8	32.7
LM13型	`TGCTAATTAGCA公司`	0	82	13.1	30.4	CHX10型
LM14型	`ATCCAGATTTGGCA公司`	1	33	27	28.9	RP58型
LM15型	`CATTTGCATGCAAATGA公司`	2	124	8.5	28.8
LM16型	`TTGAGATCCTTAGATGAAAG公司`	三	64	14.6	28.6
LM17型	`CATCTGGTTTCAT公司`	1	117	8.8	28.5
LM18型	`CATTTGCATCTGATTGCAT公司`	三	80	11.8	28.2
LM19型	`TGCTAATTAGCAGC公司`	1	88	10.8	28.1
LM20型	`TGACAGCGCTCAA公司`	1	118	8.5	28
LM21型	`ATTTGCATTTGC公司`	2	123	8.2	27.9
LM22型	`CAGCTGTTAACAGCTG公司`	2	80	11.4	27.6
LM23型	`AGCACCACTGGTGGTA公司`	2	65	13.4	27.5
LM24型	`AGAAGATGGC公司`	0	70	12.1	26.8	TAL1贝塔伊TF2
LM25型	`AAAAGCAATTTCCT公司`	1	202	5.3	26.7
LM26型	`TAAACACAGCTG公司`	0	83	10.2	26.3
LM27型	`卡特卡特卡特卡特`	三	110	8	26.1
LM28型	`阿加ACATCTGTTC`	1	144	6.3	25.5
LM29型	`GCTAATTGCAATG公司`	1	98	8.4	25.3
LM30型	`CTTTGAAATGTCAA公司`	1	182	5.3	25.3
LM31型	`CTTTTCATCTTCAAGCACTT公司`	三	57	13	25.2
LM32型	`CTGACATTTCCAAA公司`	1	174	5.4	25
LM33型	`GTAATTGGAAACAGCTG公司`	2	69	10.7	24.8
LM34型	`关贸总协定`	2	84	8.8	24.1
LM35型	`ACTTCAAGGGAGC公司`	1	87	8.5	24.1
LM36型	`GAAATGCAATTTGC公司`	1	125	6.4	24.1
LM37型	`ATGCAAATGAGCCC公司`	1	85	8.5	23.9
LM38型	`GCA ATTAGCAGCT公司`	1	82	8.5	23.4
LM39型	`gtctcctaggaac公司`	1	84	8.4	23.4
LM40型	`TCCCATTGACTCAATGGGA公司`	三	44	14.2	23.4
LM41型	`TTTGAAATGCTAATG公司`	1	80	8.6	23.2
LM42型	`AAGCCTAATTAGCA公司`	1	69	9.6	23.1
LM43型	`CAGGAAATGAAA公司`	0	141	5.6	23.1
LM44型	`GTGTAATTGGAAACAGCTG公司`	三	75	8.9	23
LM45型	`全球气候变化大会`	1	76	8.7	22.9
LM46型	`AACAGCTGTGAAA公司`	1	128	5.9	22.9
LM47型	`AGAGTGCCACTACTGAAT公司`	三	65	9.8	22.7
LM48型	`TAATGAGCTCATTA公司`	1	108	6.5	22.6
LM49型	`GTAATTAGCAGCTG公司`	1	68	9.3	22.5
LM50型	`TGGGTATTATTACTCTG公司`	2	65	9.6	22.5

在单独的窗口中打开

对于发现的233个基序中的每一个，我们搜索了整个人类基因组以确定保守实例；也就是说，我们确定了所有与脉宽调制相匹配的人类位点，然后发现了那些显示出明显跨物种保护的位点（参见SI文本). 我们共发现60019个保守实例，其中大约一半位于CNE数据集中，大约一半位于基因组的其余部分。重要的是，关注CNE数据集中丰富的基序的方法确定了基因组中其他地方的许多基序实例。

为了评估这些结果的重要性，使用匹配的控制基序重复该过程。对于233个基序中的每一个，我们通过排列PWM的列来创建一个控制基序，同时保留CpG二核苷酸的出现。这些控制基序只有3081个保守基序，比发现的基序低20倍。这些结果表明，在60019个已发现的基序中，只有一小部分可能纯粹是偶然发生的。

各基序中保守实例的数量极不均衡（范围为37-7549，平均值为266，中位数为61）。大多数基序（67%）具有<100个保守实例(SI表3). 但值得注意的是，两个富集分数最高的基序LM1和LM2在人类基因组中都有超过5000个保守实例(表2)，表明这些元素具有广泛的功能作用。

表2。

前10个发现的图案的属性

身份证件	保守实例数	假阳性率^*	保护率，^†%	保护率增加了倍^‡	跨物种保护与基序剖面的相关性	TSS周围的位置偏差^§
LM1型	5,332	0.050	29.3	9.5	0.92
LM2型	7,549	0.048	29.4	14	0.91
LM3型	844	0.048	40.1	14.3	0.94
LM4型	1,877	0.046	20.3	13.5	0.89	20.3
LM5公司	224	0.042	19.4	16.3	0.87
LM6型	79	0.026	20.1	10.1	0.81	25.5
LM7系列	6,302	0.048	21.6	10.3	0.72
LM8型	608	0.047	17.2	9.6	0.68
LM9系列	1, 443	0.039	11.8	8.4	0.90	6.1
LM10型	5,914	0.050	14.5	6.6	0.77

在单独的窗口中打开

*预期偶然发生的保守实例的比例。

^†在人类中检测到的在其他哺乳动物的同源区域中也保守的实例的比例。

^‡与对照基序的保存率相比。

^§与对照基序相比，位于TSS 1 kb范围内的基序位点数量增加。图中仅显示了折叠丰富度高于4的图案。

描述发现的主题。

已知监管要素。

在发现的233个基序中，16个与已知的调控元件相匹配(表1). 例如，LM9基序与神经元限制性沉默元件（NRSE）的共有序列几乎相同。NRSE由转录因子REST（RE1沉默转录因子）识别，在抑制非神经元组织中神经元基因的表达中起关键作用(9 –11). 据估计，人类基因组中存在800到1900个NRSE位点(12,13)，这与我们对保守实例数量的计数（1443）一致。值得欣慰的是，我们的程序在没有任何先验知识的情况下识别了LM9基序，恢复了NRSE的正确大小，并且在其所有21个位置上与NRSE几乎完全相似(SI图7).

另一个例子是LM6，它是一个研究得很好的RNA基序，只存在于组蛋白编码基因的3′-UTR中。在组蛋白mRNA中，已知该序列折叠成干环结构，参与转录后调控，在典型mRNA上发挥类似于多（a）尾的作用(14,15).

保护特性。

发现的图案有两个显著的保守性。首先，它们显示出比对照基序更高的保存率，甚至在发现它们的CNE以外。保守性比率被定义为人类基因组中保守性实例与总实例的比率。所有发现的基序的保守性比对照组高2倍，65%的基序保守性高5倍(SI表4). 如果仅基于CNE以外的基序实例计算保护率，则96%的已发现基序的保护率比其对照基序高2倍，63%的基序保护率高5倍。

第二，图案显示了相似的跨物种保护和物种内保护模式(图1 一和b条). 对于每一个基序，我们询问人类内部各种基序实例中最保守的位置（以及最有可能参与基序识别的位置）是否也是个体实例中跨物种表现出最高保守性的位置（因此在进化中受到最大限制）。为了测量一个基序的物种内保守性，我们使用了信息内容(我_k)为了量化其跨物种保守性，我们确定了其位于CNE内的实例，并计算了比例(M（M）_k)在小鼠或狗基因组的同源区域中，基序k位置的碱基没有突变的实例。每个发现的基序的I和M之间的相关系数如所示图1c（c）我们发现几乎所有的基序（95%）都显示出正相关，53%的基序相关系数大于0.5。这表明所发现的图案确实具有功能。结果还表明，这些基序在物种间保持着相似的识别特性。

在单独的窗口中打开

图1。

对已发现基序性质的总结。(一和b条)LM1物种内的主题概况和物种间的变异性(一)和LM2(b条). 在跨物种比较中，信息含量高的位置比信息含量低的位置变化较小。(c（c）)对于所有发现的基序，基序轮廓和跨特异性保守模式之间的相关系数。(d–f日)所有基序的基序位点相对于TSS的位置(d日)，LM2(e（电子）)、和LM4(（f）). 他们证明，大多数已发现的基序，尤其是LM2，相对于TSS广泛分布，与从基因组中随机抽取的控制位点的分布没有太大差异（绿线）。(小时)与LM2位点周围的序列相比，围绕LM1位点的序列也很保守(克). 灰色条显示图案的位置。保护分数是相位cons分数(28)motif位点的平均值。

回文。

233个基序中有很大一部分（17%）是回文，在几乎整个长度上与它们的反面补语形成完美或近乎完美的匹配。例如，LM3由GTTGCY与其反面补语RGCAAC并列组成，中心为W，本身为自回文（W=a/T）。回文的比例远高于随机对照序列（0.13%）（见SI文本)与16个已知基序的比例相似（18%）。在20个得分最高的主题中，这种丰富性尤为显著，其中45%是回文。值得注意的是，回文基序在每个碱基的信息内容中也是对称的，弱指定位置对称地放置在两个基序半体上的弱指定位置。复数性可以指示由蛋白质同二聚体结合的DNA序列。或者，回文性有时可以反映形成干环结构的RNA序列，如组蛋白基因3′-UTR中的LM6基序所示。

与转录起始点的距离。

大多数已发现的基序在基因附近很少或没有富集。超过93%的人有80%的保守实例位于距离任何基因TSS大于10 kb的地方(图1d日). 典型的例子是LM2图案(图1e（电子）). 大多数这些基序可能与核心和近端启动子功能无关，但可能编码远端调节器、绝缘体或其他功能。

然而，有五种情况强烈倾向于位于基因起始点附近。一个突出的例子是LM4基序，其中约60%的保守实例位于TSS的1 kb内（随机期望值的26倍），并且模式距离是TSS上游的75个碱基(图1（f）). 另一个例子是LM100，这是一个回文序列，其中45%的保守实例位于TSS的2kb内。这些基序可能与核心和近端启动子功能有关。

当地保护背景。

我们研究了发现的图案的保护背景。因为用于发现基序的CNE序列往往出现在大块中（N50长度=110个碱基，其中N50长度是长度x个所有CNE基础的50%位于规模≥x个)，位于CNE内的保守基序出现有望嵌入保守序列的块中。事实确实如此。对于每个基序M，我们检查了围绕CNE中每个保守发生的保守序列块，并定义了d₁（M）为块的N50长度。d的中值₁（M）为112个碱基，四分位数范围为88–140个碱基。

更明显的是，我们检查了相应的值d₂（M）为位于CNE数据集之外的保守基序实例定义。d的中值₂（M）是96个碱基（四分位范围为61–133个碱基），与d类似₁（M） ●●●●。这表明，所发现的基序通常作为包含许多其他调控元件的调控模块的一部分发挥作用。这些结果表明，这里的CNE基序可能为研究各种大型CNE的功能提供了一个有用的初始切入点，包括已经证明具有增强子功能的超保守元素。

虽然大多数图案似乎与其他图案协同工作，但我们在233个单独起作用的图案中发现了8个引人注目的例子。这对于CNE数据集内外的保守事件都是正确的。这些基序是LM9（NRSE）、LM6（组蛋白3′-UTR元件）、LM4（启动子近端基序）和四个未知基序：LM2、LM7、LM23和LM194。（下面我们显示LM2、LM7和LM23对应于CTCF结合位点。）这些基序周围保守序列的中位数长度均小于每侧的五个侧翼碱基。例如，LM2在每一侧只有一个中间的两个侧翼保守基地(图1克)，而LM1(图1小时)每侧有31个侧翼保守基地。

LM1定义RFX绑定站点。

最丰富的基序LM1类似于X盒基序，该基序在酵母和线虫中已被广泛研究(16 –18). 在酵母中，已经鉴定出三十多个X-box位点，这些位点被证明与Crt1蛋白结合，Crt1是DNA损伤检查点通路的效应器(19). 在秀丽隐杆线虫已通过计算预测了700多个X盒位点，其中数十个位点已被DAF-19蛋白识别，DAF-19蛋白质已知可调节参与感觉纤毛发育的基因(16,18).

脊椎动物中的X-box基序已有个别报道，但尚未对人类基因组中的X-box基序进行系统调查。据报道，大约有36个这样的位点被RFX家族蛋白结合，这些蛋白与Crt1和DAF-19同源，并含有高度保守的翼螺旋DNA结合域。RFX结合的生化特征一致序列与LM1基序相似(20)，尽管它包含的信息较少。

为了测试LM1是否结合RFX蛋白，我们进行了亲和力捕获实验（参见SI文本). 将含有多个LM1基序拷贝的生物素化双链DNA探针与HeLa细胞核提取物孵育，然后用链霉亲和素捕获。对结合蛋白进行电泳、印迹并用RFX1抗体进行检测，RFX1是RFX家族的典型成员，表明该蛋白确实特异性地结合LM1(图2一).

在单独的窗口中打开

图2。

CTCF和RFX1绑定确认人体外亲和力捕获。(一)CTCF是由为LM2基序构建的探针LM2a和LM2b特异捕获的，而RFX1则是由为LM1基序构造的探针LM1a和LM1b特异捕获。(b条)CTCF与LM2、LM7和LM23的结合(左侧)，但与三个核心碱基发生改变的对应突变基序无关(赖特). 请参阅方法用于实验中使用的探针。

LM2定义了人类基因组中的一个共同绝缘体位点。

在发现的233个基序中，最有趣的是LM2。它拥有基因组中数量最多的保守实例（7549个），其中绝大多数位于远离TSS的地方(图1e（电子）). LM2基序长度为19个碱基，与已知基序的一致序列不匹配。

我们通过蛋白质组学实验获得了关于LM2基序可能功能的提示，在该实验中，HeLa细胞核提取物通过含有多个LM2基模副本的生物素化双链DNA探针进行亲和捕获，并通过蛋白酶消化和质谱分析所得材料。这些亲和力捕获实验表明，CTCF蛋白与LM2基序结合（未发表的数据）。

CTCF是一种含有11个锌指结构域的蛋白质，是脊椎动物绝缘体活动的主要因素(21 –23). 绝缘体是一种DNA序列元件，它阻止与一个基因控制区结合的调节蛋白影响相邻基因的转录。当放置在增强子和启动子之间时，绝缘体可以阻止两者之间的相互作用。已有数十个绝缘体位置的特征，并且几乎所有都显示含有CTCF结合位置。在某些情况下，CTCF位点已被直接证明对异源环境中的增强子阻断活动既必要又充分。已知的CTCF位点显示出相当大的序列变异，并且没有得到明确的一致序列(22). IGF2/H19位点中研究充分的CTCF位点与LM2基序相似(24)，尽管相似性得分低于我们用于检测LM2位点的阈值。

为了直接测试CTCF是否与LM2基序结合，我们使用生物素化双链DNA探针对通过亲和捕获获得的材料进行了分析，该探针含有多个LM2基模副本，并使用抗人CTCF蛋白的抗体进行免疫印迹（参见SI文本). 结果证实CTCF确实与LM2基序结合(图2). 相比之下，信息含量最高的三个核心位置（LM2的位置5、10和13）发生突变(图1b条)完全消除CTCF蛋白的结合。

鉴于所报告的CTCF位点之间的序列多样性，我们在我们的目录中搜索了其他与LM2具有实质相似性的基序。LM7和LM23的前14个基序几乎相同，仅在最后四个或五个基序上有差异(SI图8). 另外两个基序也有异常大量的保守实例（LM7为6302，LM23为3758）。使用含有LM7和LM23基序拷贝的探针进行的亲和捕获实验表明，这两个基序都能结合CTCF，而信息含量最高的三个核心位置的突变完全消除了结合(图2b条). LM2、LM7和LM23这三个主题将被称为“超动”LM2*。

LM2*基序在人类基因组中总共有14987个保守实例（比相应的控制基序高20倍）。令人惊讶的是，这大约占60019个遗址中233个图案完整目录的四分之一。我们建议，这些站点中的绝大多数是CTCF结合站点，并作为绝缘体发挥作用。

虽然预测的CTCF位点往往位于远离基因启动的地方，但它们并非随机分布在基因组中。相反，它们的分布与基因的分布密切相关，相关系数为0.6(SI图9). 这与位点与基因调控有关的概念是一致的，而不是，例如，染色体结构。

我们试图测试预测的CTCF站点是否实际用作功能绝缘体。虽然可以在异源环境中对单个实例进行绝缘体分析，但我们有兴趣评估许多CTCF位点在其自然环境中的功能。如果预测的CTCF位点实际上起到绝缘体的作用，我们推断两个基因之间存在CTCF部位可能会“解耦”其基因表达。

众所周知，不同的基因对以相反的方向转录，转录起始位点彼此靠近，往往显示相关的基因表达模式(25,26). 因此，我们收集了963个不同基因对的数据集，其中基因间距离<20kb，并且在75个人体组织中测量了表达值(27). 正如预期的那样，与随机选择的基因对相比，不同的基因对在基因表达方面的相关性更密切(图3). 当病例被分为由CTCF位点分离的基因对（CTCF对，80例）和未被CTCF部位分离的基因对时（非CTCF配对，883例），前者显示出基本上等同于随机背景的相关性。总的来说，37%的非CTCF对是强相关的（相关系数ρ>0.3）。这一比例是随机基因对比例（12%）的2倍，显示出类似的强相关性。相比之下，具有类似强相关性的CTCF对的比例为16%，这与随机基因对的比例接近。在校正了含有CTCF和不含CTCF基因间区域长度的微小差异后，这种差异仍然存在(SI图10). 这有力地证明了大多数预测的CTCF站点确实起到了绝缘体的作用。

在单独的窗口中打开

图3。

预测的CTCF位点分离的基因在基因表达中相关性较小。相邻基因对之间的相关系数以概率密度表示(一)和累积分布(b条). 绿线，所有相邻基因之间的相关性；红线，由至少一个CTCF位点分离的基因之间的相关性；灰色阴影、随机选择的基因对之间的相关性。

最后，我们检测了不同脊椎动物基因组中CTCF基序LM2*的频率。这三个图案都经常出现在所有的欧洲哺乳动物、负鼠、鸡和河豚身上四齿形石该基序显示了所有脊椎动物物种中相似的总实例数，尽管基因组大小有5倍的差异(SI图11). 这与LM2*基序与基因数量（在这些物种中相当恒定）而不是基因组大小相关一致。

讨论

我们的分析提供了整个人类基因组保守区域调控基序的初步系统目录。发现的233个基序在CNE序列中高度富集，所有基序相对于基因组的其余部分至少富集了5倍。这些基序与人类基因组中的60019个保守实例相匹配，典型基序的保守实例约为100个。在发现的233个基序中，只有16个基序可以被识别为先前已知的调控元件，这表明关于CNE的功能还有很多需要了解。

最有趣的未知基序是LM2，它在基因组中约有7500个保守实例，比任何其他发现的基序都丰富。我们使用亲和捕获分析证明LM2以及其他两个密切相关的基序LM7和LM23是由参与绝缘体功能的CTCF蛋白特异性结合的。这三个基序总共与人类基因组中近15000个保守实例相匹配，相当于整个已发现基序集合中所有匹配实例的四分之一左右。虽然我们不能排除CTCF蛋白也可以与其他高度不同的位点结合，但我们的发现表明，一些主要的CTCF基序在人类基因组中极其丰富。

当然，这里的结果只是人类基因组调控基序综合目录的一步。特别是，我们的分析使用了严格的阈值来仅识别CNE中最丰富的基序，因此省略了短基序（例如6-8 nt）。此外，目前的研究主要集中于大多数哺乳动物中存在的基序，因此许多谱系特异性基序，例如灵长类特有的基序仍有待发现。不仅通过考虑人类CNE中序列的丰富性，而且通过利用不同物种的详细保护模式，可以增强基序发现的威力。随着越来越多相关哺乳动物基因组序列的可用性，在未来几年应该有可能创建一个完整的人类主题词典。

方法

我们从列举候选人名单开始k-12≤的mersk≤22并计数(C类)每个匹配实例的k-mer存在于CNE数据集中(SI图5). 序列被声明为与k-mer，如果序列和k-mer小于阈值M（M）（其中M（M）=0（对于）k≤ 13;M（M）=1用于k=14、15或16；M（M）=2用于k=17或18；和M（M）=3用于k≥ 19). 对于k-mers与C类≥30，我们确定了整个人类基因组中的所有匹配实例，并使用两个评分评估了它们在CNE中的富集程度：(我)褶皱富集：SNR=C类/μ; 和(ii（ii）)Z轴-得分=(C类− μ)/平方英尺（μ），量化富集的意义。这里，μ是基于在整个基因组中观察到的匹配频率，CNE数据集中匹配实例的预期数量。最后，我们收集了所有k-信噪比≥5的mersZ轴-得分≥10分，共69810分k-mers在CNE中显著富集。a的概率k-mer有一个Z轴-随机得分≥10分<2×10⁻¹²以及在Bonferroni修正后k-mers小于10⁻⁴.这些k-根据参考文献中描述的程序，mers进一步聚类并分为233个不同的基序。5。对于每个图案，我们都选择了k-mer最高Z轴-分数代表主题。

请参阅SI文本用于其他方法。

补充材料

支持信息：

单击此处查看。

鸣谢

我们感谢David Jaffe、Manuel Garber和Sarah Calvo提出的富有洞察力的意见和建议。我们感谢张小兰、王丽、雅各布·贾菲和史蒂夫·卡尔在亲和力捕获实验方面的帮助。这项工作得到了国家人类基因组研究所（E.S.L.）和布罗德研究所的部分资助。

缩写

中国核能	守恒非编码元素
TSS公司	转录起始位点
脉宽调制	位置权重矩阵
NRSE公司	神经元限制性消声器元件。

脚注

作者声明没有利益冲突。

本文包含在线支持信息，网址为www.pnas.org/cgi/content/full/0701811104/DC1.

工具书类

1Pennacchio LA、Ahituv N、Moses AM、Prabhakar S、Nobrega MA、Shoukry M、Minovitsky S、Dubchak I、Holt A、Lewis KD等。自然。2006;444:499–502.[公共医学][谷歌学者]

2Bejerano G、Lowe CB、Ahituv N、King B、Siepel A、Salama SR、Rubin EM、James Kent W、Haussler D。自然。2006;441:87–90.[公共医学][谷歌学者]

三。Woolfe A、Goodson M、Goode DK、Snell P、McEwen GK、Vavouri T、Smith SF、North P、Callaway H、Kelly K等。《公共科学图书馆·生物》。2005;三：e7。 [PMC免费文章][公共医学][谷歌学者]

4.Dermitzakis ET、Reymond A、Antonarakis SE。Nat Rev基因。2005;6:151–157.[公共医学][谷歌学者]

5Xie X、Lu J、Kulbokas EJ、Golub TR、Mootha V、Lindblad Toh K、Lander ES、Kellis M。自然。2005;434:338–345. [PMC免费文章][公共医学][谷歌学者]

6Elemento O，Tavazoie S。基因组生物学。2005;6：R18。 [PMC免费文章][公共医学][谷歌学者]

7Ettwiller L、Paten B、Souren M、Loosli F、Wittbrodt J、Birney E。基因组生物学。2005;6：R104。 [PMC免费文章][公共医学][谷歌学者]

8Jones NC，宾夕法尼亚州佩夫兹纳。生物信息学。2006;22：e236–242。[公共医学][谷歌学者]

9巴拉斯·N、曼德尔·G。神经生物电流。2005;15:500–506.[公共医学][谷歌学者]

10Chong JA、Tapia-Ramirez J、Kim S、Toledo-Aral JJ、Zheng Y、Boutros MC、Altshuller YM、Frohman MA、Kraner SD、Mandel G。单元格。1995;80:949–957.[公共医学][谷歌学者]

11Schoenherr CJ、Anderson DJ。科学。1995;267:1360–1363.[公共医学][谷歌学者]

12Mortazavi A、Thompson EC、Garcia ST、Myers RM、Wold B。基因组研究。2006;16:1208–1221. [PMC免费文章][公共医学][谷歌学者]

13Bruce AW、Donaldson IJ、Wood IC、Yerbury SA、Sadowski MI、Chapman M、Gottgens B、Buckley NJ。美国国家科学院程序。2004;101:10458–10463. [PMC免费文章][公共医学][谷歌学者]

14Williams AS，Marzluff WF公司。核酸研究。1995;23:654–662. [PMC免费文章][公共医学][谷歌学者]

15.Pandey NB、Marzluff WF。分子细胞生物学。1987;7:4557–4559. [PMC免费文章][公共医学][谷歌学者]

16Blacque OE、Perens EA、Boroevich KA、Inglis PN、Li C、Warner A、Khattra J、Holt RA、Ou G、Mah AK等。当前生物量。2005;15:935–941.[公共医学][谷歌学者]

17Zaim J、Speina E、Kierzek AM。生物化学杂志。2005;280:28–37.[公共医学][谷歌学者]

18Efimenko E、Bub K、Mak HY、Holzman T、Leroux MR、Ruvkun G、Thomas JH、Swoboda P。开发（英国剑桥）2005;132:1923–1934.[公共医学][谷歌学者]

19黄M，周Z，Elledge SJ。单元格。1998;94:595–605.[公共医学][谷歌学者]

20Emery P、Strubin M、Hofmann K、Bucher P、Mach B、Reith W。分子细胞生物学。1996;16:4486–4494. [PMC免费文章][公共医学][谷歌学者]

21Bell AC，West AG，Felsenfeld G.公司。单元格。1999;98:387–396.[公共医学][谷歌学者]

22Ohlsson R、Renkawitz R、Lobanenkov V。趋势Genet。2001;17:520–527.[公共医学][谷歌学者]

23Gaszner M，Felsenfeld G。Nat Rev基因。2006;7:703–713.[公共医学][谷歌学者]

24Bell AC，Felsenfeld G。自然。2000;405:482–485.[公共医学][谷歌学者]

25Trinklein ND、Aldred SF、Hartman SJ、Schroeder DI、Otilla RP、Myers RM。基因组研究。2004;14:62–66. [PMC免费文章][公共医学][谷歌学者]

26Li YY、Yu H、Guo ZM、Guo TQ、Tu K、Li YX。公共科学图书馆计算生物学。2006;2：e74。 [PMC免费文章][公共医学][谷歌学者]

27.Su AI、Wiltshire T、Batalov S、Lapp H、Ching KA、Block D、Zhang J、Soden R、Hayakawa M、Kreiman G等。美国国家科学院程序。2004;101:6062–6067. [PMC免费文章][公共医学][谷歌学者]

28Siepel A、Bejerano G、Pedersen JS、Hinrichs AS、Hou M、Rosenbloom K、Clawson H、Spieth J、Hillier LW、Richards S等。基因组研究。2005;15:1034–1050. [PMC免费文章][公共医学][谷歌学者]

文章来自美国国家科学院院刊由提供美国国家科学院

人类基因组保守区域调控基序的系统发现，包括数千个CTCF绝缘体位点

谢晓辉

塔吉·米克尔森

安德烈亚斯·格尼尔克

科尔斯汀·林布拉德·托赫（Kerstin Lindblad-Toh）

马诺利斯·凯利斯

埃里克·S·兰德

关联数据

摘要

结果

创建Motif目录。

表1。

表2。

描述发现的主题。

已知监管要素。

保护特性。

回文。

与转录起始点的距离。

当地保护背景。

LM1定义RFX绑定站点。

LM2定义了人类基因组中的一个共同绝缘体位点。

讨论

方法

补充材料

鸣谢

缩写

脚注

工具书类