对人类和其他几种哺乳动物基因组的比较分析表明,5%的人类基因组处于净化选择状态,而不到三分之一的序列处于选择编码蛋白质状态。绝大多数存在于数十万保守的非编码元素(CNE)中。这些CNE的功能意义在很大程度上尚不清楚。似乎许多基因参与了基因调控,转基因实验已经鉴定出一些CNE能够驱动高度特异的时空基因表达模式(1–4). 然而,对CNE或识别这些元素的蛋白质中包含的调控基序知之甚少。
我们和其他人之前已经进行了大规模的努力,以发现人类基因组有限亚群中的保守基序(5–8)特别是基因启动子和3′-UTR。该方法是通过使用人类、小鼠、大鼠和狗序列的共时序列来搜索这些区域中优先保守的基序(5). 使用这种方法,我们在启动子区(转录起始2kb内)发现了174个基序,其中大多数参与转录调控和组织特异性基因表达控制,在3′-UTR中发现了105个基序,涉及转录后调控,其中一半与微小RNA靶向有关。这些研究的范围有限,因为基因启动子和3′-UTR仅包含基因组中CNE的一小部分(≈6%)。此外,它们的能力有限,因为它们只与三种非人类哺乳动物进行比较。
在这里,我们利用最近获得的12个哺乳动物基因组的序列,将我们的基序发现工作扩展到整个人类基因组。我们特别关注12到22nt之间的长调控基序,这为基序发现提供了强大的信号。我们搜索了相对于基因组其余部分在CNE区域富集的基序。
我们发现200多个基序在CNE区域显著富集。该分析自动重新发现了十几个先前已知的监管要素。更重要的是,大多数发现的基序都是新的,并且显示出不同于典型启动子元件的特性。特别是,其中一个新的基序定义了人类基因组中≈15000个潜在的绝缘体元素,突出了CNE在基因调控中的不同作用。
结果
描述发现的主题。
已知监管要素。
在发现的233个基序中,16个与已知的调控元件相匹配(). 例如,LM9基序与神经元限制性沉默元件(NRSE)的共有序列几乎相同。NRSE由转录因子REST(RE1沉默转录因子)识别,在抑制非神经元组织中神经元基因的表达中起关键作用(9–11). 据估计,人类基因组中存在800到1900个NRSE位点(12,13),这与我们对保守实例数量的计数(1443)一致。值得欣慰的是,我们的程序在没有任何先验知识的情况下识别了LM9基序,恢复了NRSE的正确大小,并且在其所有21个位置上与NRSE几乎完全相似(SI图7).
另一个例子是LM6,它是一个研究得很好的RNA基序,只存在于组蛋白编码基因的3′-UTR中。在组蛋白mRNA中,已知该序列折叠成干环结构,参与转录后调控,在典型mRNA上发挥类似于多(a)尾的作用(14,15).
保护特性。
发现的图案有两个显著的保守性。首先,它们显示出比对照基序更高的保存率,甚至在发现它们的CNE以外。保守性比率被定义为人类基因组中保守性实例与总实例的比率。所有发现的基序的保守性比对照组高2倍,65%的基序保守性高5倍(SI表4). 如果仅基于CNE以外的基序实例计算保护率,则96%的已发现基序的保护率比其对照基序高2倍,63%的基序保护率高5倍。
第二,图案显示了相似的跨物种保护和物种内保护模式( 一和b条). 对于每一个基序,我们询问人类内部各种基序实例中最保守的位置(以及最有可能参与基序识别的位置)是否也是个体实例中跨物种表现出最高保守性的位置(因此在进化中受到最大限制)。为了测量一个基序的物种内保守性,我们使用了信息内容(我k)为了量化其跨物种保守性,我们确定了其位于CNE内的实例,并计算了比例(M(M)k)在小鼠或狗基因组的同源区域中,基序k位置的碱基没有突变的实例。每个发现的基序的I和M之间的相关系数如所示c(c)我们发现几乎所有的基序(95%)都显示出正相关,53%的基序相关系数大于0.5。这表明所发现的图案确实具有功能。结果还表明,这些基序在物种间保持着相似的识别特性。
对已发现基序性质的总结。(一和b条)LM1物种内的主题概况和物种间的变异性(一)和LM2(b条). 在跨物种比较中,信息含量高的位置比信息含量低的位置变化较小。(c(c))对于所有发现的基序,基序轮廓和跨特异性保守模式之间的相关系数。(d–f日)所有基序的基序位点相对于TSS的位置(d日),LM2(e(电子))、和LM4((f)). 他们证明,大多数已发现的基序,尤其是LM2,相对于TSS广泛分布,与从基因组中随机抽取的控制位点的分布没有太大差异(绿线)。(小时)与LM2位点周围的序列相比,围绕LM1位点的序列也很保守(克). 灰色条显示图案的位置。保护分数是相位cons分数(28)motif位点的平均值。
回文。
233个基序中有很大一部分(17%)是回文,在几乎整个长度上与它们的反面补语形成完美或近乎完美的匹配。例如,LM3由GTTGCY与其反面补语RGCAAC并列组成,中心为W,本身为自回文(W=a/T)。回文的比例远高于随机对照序列(0.13%)(见SI文本)与16个已知基序的比例相似(18%)。在20个得分最高的主题中,这种丰富性尤为显著,其中45%是回文。值得注意的是,回文基序在每个碱基的信息内容中也是对称的,弱指定位置对称地放置在两个基序半体上的弱指定位置。复数性可以指示由蛋白质同二聚体结合的DNA序列。或者,回文性有时可以反映形成干环结构的RNA序列,如组蛋白基因3′-UTR中的LM6基序所示。
与转录起始点的距离。
大多数已发现的基序在基因附近很少或没有富集。超过93%的人有80%的保守实例位于距离任何基因TSS大于10 kb的地方(d日). 典型的例子是LM2图案(e(电子)). 大多数这些基序可能与核心和近端启动子功能无关,但可能编码远端调节器、绝缘体或其他功能。
然而,有五种情况强烈倾向于位于基因起始点附近。一个突出的例子是LM4基序,其中约60%的保守实例位于TSS的1 kb内(随机期望值的26倍),并且模式距离是TSS上游的75个碱基((f)). 另一个例子是LM100,这是一个回文序列,其中45%的保守实例位于TSS的2kb内。这些基序可能与核心和近端启动子功能有关。
当地保护背景。
我们研究了发现的图案的保护背景。因为用于发现基序的CNE序列往往出现在大块中(N50长度=110个碱基,其中N50长度是长度x个所有CNE基础的50%位于规模≥x个),位于CNE内的保守基序出现有望嵌入保守序列的块中。事实确实如此。对于每个基序M,我们检查了围绕CNE中每个保守发生的保守序列块,并定义了d1(M) 为块的N50长度。d的中值1(M) 为112个碱基,四分位数范围为88–140个碱基。
更明显的是,我们检查了相应的值d2(M) 为位于CNE数据集之外的保守基序实例定义。d的中值2(M) 是96个碱基(四分位范围为61–133个碱基),与d类似1(M) ●●●●。这表明,所发现的基序通常作为包含许多其他调控元件的调控模块的一部分发挥作用。这些结果表明,这里的CNE基序可能为研究各种大型CNE的功能提供了一个有用的初始切入点,包括已经证明具有增强子功能的超保守元素。
虽然大多数图案似乎与其他图案协同工作,但我们在233个单独起作用的图案中发现了8个引人注目的例子。这对于CNE数据集内外的保守事件都是正确的。这些基序是LM9(NRSE)、LM6(组蛋白3′-UTR元件)、LM4(启动子近端基序)和四个未知基序:LM2、LM7、LM23和LM194。(下面我们显示LM2、LM7和LM23对应于CTCF结合位点。)这些基序周围保守序列的中位数长度均小于每侧的五个侧翼碱基。例如,LM2在每一侧只有一个中间的两个侧翼保守基地(克),而LM1(小时)每侧有31个侧翼保守基地。
LM1定义RFX绑定站点。
最丰富的基序LM1类似于X盒基序,该基序在酵母和线虫中已被广泛研究(16–18). 在酵母中,已经鉴定出三十多个X-box位点,这些位点被证明与Crt1蛋白结合,Crt1是DNA损伤检查点通路的效应器(19). 在秀丽隐杆线虫已通过计算预测了700多个X盒位点,其中数十个位点已被DAF-19蛋白识别,DAF-19蛋白质已知可调节参与感觉纤毛发育的基因(16,18).
脊椎动物中的X-box基序已有个别报道,但尚未对人类基因组中的X-box基序进行系统调查。据报道,大约有36个这样的位点被RFX家族蛋白结合,这些蛋白与Crt1和DAF-19同源,并含有高度保守的翼螺旋DNA结合域。RFX结合的生化特征一致序列与LM1基序相似(20),尽管它包含的信息较少。
为了测试LM1是否结合RFX蛋白,我们进行了亲和力捕获实验(参见SI文本). 将含有多个LM1基序拷贝的生物素化双链DNA探针与HeLa细胞核提取物孵育,然后用链霉亲和素捕获。对结合蛋白进行电泳、印迹并用RFX1抗体进行检测,RFX1是RFX家族的典型成员,表明该蛋白确实特异性地结合LM1(一).
CTCF和RFX1绑定确认人体外亲和力捕获。(一)CTCF是由为LM2基序构建的探针LM2a和LM2b特异捕获的,而RFX1则是由为LM1基序构造的探针LM1a和LM1b特异捕获。(b条)CTCF与LM2、LM7和LM23的结合(左侧),但与三个核心碱基发生改变的对应突变基序无关(赖特). 请参阅方法用于实验中使用的探针。
LM2定义了人类基因组中的一个共同绝缘体位点。
在发现的233个基序中,最有趣的是LM2。它拥有基因组中数量最多的保守实例(7549个),其中绝大多数位于远离TSS的地方(e(电子)). LM2基序长度为19个碱基,与已知基序的一致序列不匹配。
我们通过蛋白质组学实验获得了关于LM2基序可能功能的提示,在该实验中,HeLa细胞核提取物通过含有多个LM2基模副本的生物素化双链DNA探针进行亲和捕获,并通过蛋白酶消化和质谱分析所得材料。这些亲和力捕获实验表明,CTCF蛋白与LM2基序结合(未发表的数据)。
CTCF是一种含有11个锌指结构域的蛋白质,是脊椎动物绝缘体活动的主要因素(21–23). 绝缘体是一种DNA序列元件,它阻止与一个基因控制区结合的调节蛋白影响相邻基因的转录。当放置在增强子和启动子之间时,绝缘体可以阻止两者之间的相互作用。已有数十个绝缘体位置的特征,并且几乎所有都显示含有CTCF结合位置。在某些情况下,CTCF位点已被直接证明对异源环境中的增强子阻断活动既必要又充分。已知的CTCF位点显示出相当大的序列变异,并且没有得到明确的一致序列(22). IGF2/H19位点中研究充分的CTCF位点与LM2基序相似(24),尽管相似性得分低于我们用于检测LM2位点的阈值。
为了直接测试CTCF是否与LM2基序结合,我们使用生物素化双链DNA探针对通过亲和捕获获得的材料进行了分析,该探针含有多个LM2基模副本,并使用抗人CTCF蛋白的抗体进行免疫印迹(参见SI文本). 结果证实CTCF确实与LM2基序结合(). 相比之下,信息含量最高的三个核心位置(LM2的位置5、10和13)发生突变(b条)完全消除CTCF蛋白的结合。
鉴于所报告的CTCF位点之间的序列多样性,我们在我们的目录中搜索了其他与LM2具有实质相似性的基序。LM7和LM23的前14个基序几乎相同,仅在最后四个或五个基序上有差异(SI图8). 另外两个基序也有异常大量的保守实例(LM7为6302,LM23为3758)。使用含有LM7和LM23基序拷贝的探针进行的亲和捕获实验表明,这两个基序都能结合CTCF,而信息含量最高的三个核心位置的突变完全消除了结合(b条). LM2、LM7和LM23这三个主题将被称为“超动”LM2*。
LM2*基序在人类基因组中总共有14987个保守实例(比相应的控制基序高20倍)。令人惊讶的是,这大约占60019个遗址中233个图案完整目录的四分之一。我们建议,这些站点中的绝大多数是CTCF结合站点,并作为绝缘体发挥作用。
虽然预测的CTCF位点往往位于远离基因启动的地方,但它们并非随机分布在基因组中。相反,它们的分布与基因的分布密切相关,相关系数为0.6(SI图9). 这与位点与基因调控有关的概念是一致的,而不是,例如,染色体结构。
我们试图测试预测的CTCF站点是否实际用作功能绝缘体。虽然可以在异源环境中对单个实例进行绝缘体分析,但我们有兴趣评估许多CTCF位点在其自然环境中的功能。如果预测的CTCF位点实际上起到绝缘体的作用,我们推断两个基因之间存在CTCF部位可能会“解耦”其基因表达。
众所周知,不同的基因对以相反的方向转录,转录起始位点彼此靠近,往往显示相关的基因表达模式(25,26). 因此,我们收集了963个不同基因对的数据集,其中基因间距离<20kb,并且在75个人体组织中测量了表达值(27). 正如预期的那样,与随机选择的基因对相比,不同的基因对在基因表达方面的相关性更密切(). 当病例被分为由CTCF位点分离的基因对(CTCF对,80例)和未被CTCF部位分离的基因对时(非CTCF配对,883例),前者显示出基本上等同于随机背景的相关性。总的来说,37%的非CTCF对是强相关的(相关系数ρ>0.3)。这一比例是随机基因对比例(12%)的2倍,显示出类似的强相关性。相比之下,具有类似强相关性的CTCF对的比例为16%,这与随机基因对的比例接近。在校正了含有CTCF和不含CTCF基因间区域长度的微小差异后,这种差异仍然存在(SI图10). 这有力地证明了大多数预测的CTCF站点确实起到了绝缘体的作用。
预测的CTCF位点分离的基因在基因表达中相关性较小。相邻基因对之间的相关系数以概率密度表示(一)和累积分布(b条). 绿线,所有相邻基因之间的相关性;红线,由至少一个CTCF位点分离的基因之间的相关性;灰色阴影、随机选择的基因对之间的相关性。
最后,我们检测了不同脊椎动物基因组中CTCF基序LM2*的频率。这三个图案都经常出现在所有的欧洲哺乳动物、负鼠、鸡和河豚身上四齿形石该基序显示了所有脊椎动物物种中相似的总实例数,尽管基因组大小有5倍的差异(SI图11). 这与LM2*基序与基因数量(在这些物种中相当恒定)而不是基因组大小相关一致。
讨论
我们的分析提供了整个人类基因组保守区域调控基序的初步系统目录。发现的233个基序在CNE序列中高度富集,所有基序相对于基因组的其余部分至少富集了5倍。这些基序与人类基因组中的60019个保守实例相匹配,典型基序的保守实例约为100个。在发现的233个基序中,只有16个基序可以被识别为先前已知的调控元件,这表明关于CNE的功能还有很多需要了解。
最有趣的未知基序是LM2,它在基因组中约有7500个保守实例,比任何其他发现的基序都丰富。我们使用亲和捕获分析证明LM2以及其他两个密切相关的基序LM7和LM23是由参与绝缘体功能的CTCF蛋白特异性结合的。这三个基序总共与人类基因组中近15000个保守实例相匹配,相当于整个已发现基序集合中所有匹配实例的四分之一左右。虽然我们不能排除CTCF蛋白也可以与其他高度不同的位点结合,但我们的发现表明,一些主要的CTCF基序在人类基因组中极其丰富。
当然,这里的结果只是人类基因组调控基序综合目录的一步。特别是,我们的分析使用了严格的阈值来仅识别CNE中最丰富的基序,因此省略了短基序(例如6-8 nt)。此外,目前的研究主要集中于大多数哺乳动物中存在的基序,因此许多谱系特异性基序,例如灵长类特有的基序仍有待发现。不仅通过考虑人类CNE中序列的丰富性,而且通过利用不同物种的详细保护模式,可以增强基序发现的威力。随着越来越多相关哺乳动物基因组序列的可用性,在未来几年应该有可能创建一个完整的人类主题词典。