真核RNA聚合酶对编码和非编码RNA分子的转录需要它们与数百个转录因子协作,以指导和控制聚合酶的募集、启动、延伸和终止。全基因组微阵列和超高通量测序技术能够有效映射转录因子、核小体及其修饰的分布,以及整个基因组中累积的RNA转录物(1,2)从而提供因子和转录状态的全局关联。使用染色质免疫沉淀法结合基因组DNA微阵列(ChIP-ChIP)或高通量测序(ChIP-seq)进行的研究表明,RNA聚合酶II(Pol II)在许多真核基因下游区域的5′端附近的数量不成比例地高(三——6). 然而,这些技术不能确定Pol II是简单的启动子结合还是参与转录。使用独立方法进行的小规模分析表明,这种分布可能代表转录参与的Pol II,其在转录起始位点(TSS)下游约20到50个碱基之间积累(5,6)表明转录可以在伸长阶段以及招募和启动阶段进行调节(7). 这个启动子-近端暂停或停滞(8)被认为是基因调控的一个重要启动后、速率控制靶点(7,9)。
在这里,我们提出了一种全球运行测序(GRO-seq)分析,以绘制和量化全基因组转录参与聚合酶密度。这些测量提供了全基因组转录的快照,并直接评估所有基因的启动子近端暂停。我们使用核试运行分析(NRO)在禁止新启动的条件下扩展与转录参与聚合酶相关的新生RNA。为了特异性分离NRO-RNA,我们在运行步骤中将核糖核苷酸类似物[5-溴尿苷5′-三磷酸(BrUTP)]添加到BrU-tag新生RNA中(图S1). 多核苷酸的长度保持较短,NRO-RNA被化学水解成短片段(~100个碱基),以便于在分析时对聚合酶来源进行高分辨率绘图(8). 含BrU的NRO-RNA是通过免疫纯化用一种对这种核苷酸类似物特异的抗体进行三联筛选的,导致NRO-RNA池的浓缩倍数达到10000倍,纯度大于98%(8). 然后,利用Illumina高通量测序平台,制备NRO-cDNA文库,用于从片段化、BrU-included RNA分子的5′端进行测序。通过将读取结果映射到参考人类基因组,记录了RNAs的起源和方向以及相关的转录参与聚合酶的全基因组(8)。
总计约2.5×10733个碱基对(bp)读数来自两个独立的重复(8)由原代人肺成纤维细胞(IMR90)细胞核制备,其中~1.1×107(44%)与人类基因组唯一对应。大多数阅读(85.8%)在已知RefSeq基因、人类mRNA或表达序列标签边界内的编码链上对齐(图S2). 转录活性基因的数量是通过使用实验和计算确定的背景值0.04读/千基来确定的(8). 我们发现16882个(68%)RefSeq基因具有活性(P(P)<0.01)与在同一细胞系中进行的微阵列实验发现的8438个活性基因相比(三)部分反映了测序平台增加的敏感性(10). 对几个大区域的检查表明,GRO-seq可以区分染色体大结构域中的转录活性区域和非活性区域(). 此外,我们能够检测到普遍较低但显著的(P(P)14545个基因(基因组中58.7%的基因)的反义转录量(相对于背景值<0.01)(图S3)。
加州大学圣克鲁斯分校(UCSC)基因组浏览器上的GRO-seq数据视图示例。第5号染色体上的一个2.5-Mb区域显示GRO-seq读码以1-bp的分辨率与基因组对齐,然后是关于NPM1型基因。Pol II ChIP结果(三)以绿色显示;可映射区域,黑色;GRO-seq读取正链(从左到右),红色;GRO-seq读取负链(从右到左),浅蓝色;RefSeq基因注释,深蓝色。
将GRO-seq数据与RefSeq TSS对齐表明,TSS附近的读取密度在意义(~50 bp)和反义(~−250 bp)方向上都达到峰值(见下文)(). 将GRO-seq读数与带注释的基因3′端对齐显示出一个宽峰,最大值约为+1.5 kb,并且可以延伸到多聚腺苷酸化(poly-a)位点下游10 kb以上(). 该峰值距离与之前和最近的估计一致(11,12). 在多聚腺苷酸化位点观察到一个小峰,随后急剧下降,可能代表RNA多聚腺苷化之前已知的3′裂解(13)。
将GRO-seq读数与TSS和3′端对齐。(A类)相对于基因转录方向,GRO-seq在10-bp窗口中的读码与Ref-seq TSS在正(红)和反(蓝)方向上对齐。(B类)GRO-seq读取基因3′端的侧翼。尖峰与在poly-A位点解理后产生的新5′端重合。终止前,聚合酶密度在下游延伸很大。
为了确定所有具有启动子-近端暂停特征的启动子激活Pol II峰值的基因,我们评估了每个基因是否在启动子-近端区域相对于每个基因体中的密度表现出读取密度的显著增加(8). 这些密度的比值称为暂停指数(5,6,8),有效暂停指数范围为2到10三(图S4). 在确定的启动子区域内,7057个基因相对于基因体具有显著丰富的GRO-seq读码(P(P)<0.01),占所有基因的28.3%(活性基因的41.7%)。将暂停的基因与微阵列表达或GRO-seq数据进行比较,发现四类基因:I类,非暂停和活跃;II级,暂停和激活;III级,暂停且不活动;和IV级,非活动(非暂停和非活动)(). 当我们使用GRO-seq对基因活性进行分类时,III类基因被严重耗尽,因为GRO-seque提供了一种更敏感的基因活性测量方法。考虑到这一类中剩下的少数基因的启动子信号较低,它们很可能被归类为活性基因,并进行更深入的测序。因此,绝大多数带有暂停聚合酶的基因也会在整个基因中产生显著的转录,尽管其数量往往无法通过表达微阵列检测到。最近对Pol II ChIP-seq数据和RNA-seq数据的比较也支持这样的观点,即几乎所有与Pol II结合的基因都会产生全长转录物(10)。
暂停与基因活性的比较。通过微阵列或基因下游部分的GRO-seq密度比较聚合酶和转录活性暂停的基因时,发现了四类基因。显示了每个类的示例,UCSC基因组浏览器中显示的轨迹如所示.基因名称、暂停索引和P(P)值从上到下分别如下:三人组, 1.1, 0.62;保险丝, 41, 2.8 × 10−43;IZUMO1号机组, 410, 7.6 × 10−3; 和GALP公司(没有读取,因此没有暂停索引)。右边显示了每个类别中代表的基因数量。
当所有基因都存在时,启动子近端区域内聚合酶的密度通常与基因活性水平相关()或者只考虑聚合酶暂停的基因(图S5). 虽然几乎所有暂停的基因都通过GRO-seq显示出显著的全长活性,但暂停指数与基因活性呈负相关(). 考虑到Pol II进入暂停位置的速度快于逃离暂停的速度时观察到暂停(9),这种反向相关性与以下假设一致:高转录但暂停的基因似乎受到控制,至少部分是通过增加Pol II逃离暂停位点并进入生产延伸的速率(8)。
启动子近端转录模式与基因活性的相关性。(A类到D类)方框图(分别显示第五、第二十五、第五十、第七十五和第九十五个百分位)显示启动子近端(PP)感觉峰(红色)、发散峰(DP)(蓝色)、暂停指数(绿色)和PP/DP比率(橙色)与基因活动的顶部、中部和底部十分位之间的关系。所有十分位数之间都存在显著差异:P(P)<10−9用于所有比较,(D)中最低和中间十分位之间的比较除外(P(P)< 10−3). (E类)Pol II和GRO-seq正义(S)和反义(AS)链的ChIP剖面与TSS对齐。(F类)H3ac、H3K4me2和GRO-seq的ChIP剖面与TSS一致。
TSS周围GRO-seq图谱的一个显著而意外的特征是来自上游、发散、参与聚合酶的强健信号。当从整个细胞中分离出小RNA时,这些不同聚合酶产生的RNA可以在低浓度下被识别(14). 这些不同的聚合酶不能由10%的已知双向启动子解释,它们之间的距离小于1kb(15) (图S6). 我们发现13633个基因(占所有基因的55%,77%的活性基因)在面向感官的启动子近端峰上游1kb内显示出显著的差异转录(P(P)<0.001),表明双向启动子的数量甚至超过了最高估计值(16,17). 然而,由于这些启动子中的大多数似乎只在一个方向上产生信使核糖核酸(见下文),我们将这类启动子称为发散启动子。尽管前10%的活性基因的平均启动子近端比发散峰稍大(),分化转录的数量通常与启动子近端信号(图S7)以及相关基因的转录水平(). 因此,发散转录是大多数活性启动子的标志。
基因活性、暂停和发散转录相互关联,并与包含CpG岛的启动子相关。这四个特征的共同出现比偶然发生的要频繁得多(P(P)< 10−52) (表S1). 先前对capped mRNA转录物的定位表明,在CpG岛启动子的启动广泛发生在数百个碱基对上(18)GRO-seq表明,聚合酶在这一大类启动子上以两个方向启动和积累。
现有ChIP-ChIP数据(三)有没有显示聚合酶峰出现分歧的迹象?人工检测一些基因并与与TSS对齐的复合图谱进行比较表明,启动子处的Pol II ChIP峰是由GRO-seq发现的两个不同的峰引起的(和). 不同细胞系中的高分辨率ChIP-seq数据确定了启动子上游的Pol II分子,这些分子与注释基因的方向相同;然而,这些反而可能代表GRO-seq确定的不同发起人(10). 此外,活性启动子通常以组蛋白修饰为标志,例如H3-Lys的二甲基化和三甲基化4(H3K4me2和H3K4me3)以及组蛋白H3和H4的乙酰化(H3ac和H4ac)。这些修饰显示TSS周围呈双峰分布,波谷代表TSS周围的无核小体区域(三,4,19). 该细胞系中可用H3ac和H3K4me2数据的比较(三)GRO-seq表明,这些组蛋白修饰的上游和下游峰值都与活性转录有关,每个组蛋白修饰峰值都与参与聚合酶的下游相邻() (8). 其他研究表明,与转录延伸相关的组蛋白修饰(例如H3K36me3和H3K79me3)在TSS周围不以双峰方式关联(4,19). 这一点以及缺乏分歧的GRO-seq进一步解读上游(图S8)表明大多数启动子经历上游方向的启动,但这些不同的聚合酶不能有效地延长转录物。因此,启动子可以区分聚合酶的正向和反向。
我们设想了几种可能的发散转录功能。首先,转录行为本身可能对允许转录因子进入核心启动子上游控制元件至关重要,可能是通过建立屏障阻止核小体阻碍转录因子结合位点(20,21). 第二,由Seila提议等。(14)转录聚合酶后产生的负超螺旋可能有助于这些区域的启动。第三,这些短的新生RNAs本身可以通过精氨酸依赖性(22)或-独立(23)路径。即将到来的挑战将是破译位于上游但与编码基因方向不同的广泛转录活动是正向还是负向调节转录输出,以及启动子或未知DNA元件是如何设计来区分一个方向上的生产延伸与另一个方向的生产延伸。