Nascent RNA Sequencing Reveals Widespread Pausing and Divergent Initiation at Human Promoters

Leighton J. Core; Joshua J. Waterfall; John T. Lis

doi:10.1126/science.1162228

科学。作者手稿；PMC 2010年3月7日提供。

以最终编辑形式发布为：

科学。2008年12月19日；322(5909): 1845–1848.

2008年12月4日在线发布。数字对象标识：10.1126/科学116228

预防性维修识别码：项目经理2833333

美国国立卫生研究院：美国国立卫生研究院177763

PMID：19056941

新的RNA测序揭示人类启动子的广泛暂停和发散启动

Leighton J.Core公司,^* 约书亚·J·瀑布,^*和约翰·T·利斯^†

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充数据。
NIHMS177763-补充-补充数据.pdf（270万）
GUID:59C0CFFD-F46D-455A-A950-C71E1AF1CA54

摘要

RNA聚合酶是高度调控的分子机器。我们提出了一种绘制全基因组转录参与RNA聚合酶的位置、数量和方向的方法（全球连续测序，GRO-seq）。在这种方法中，核糖核酸分子经过大规模并行测序并映射到基因组。我们发现，启动子近端聚合酶的峰值位于～30%的人类基因上，转录延伸到信使前RNA 3′裂解之外，反义转录普遍存在。此外，大多数启动子上游都有一个结合的聚合酶，其方向与注释基因相反。这种不同的聚合酶与活性基因相关，但不能有效延伸到启动子以外。这些结果表明，聚合酶和调控因子在广泛的启动子区域上的相互作用决定了生产性转录的方向和效率。

真核RNA聚合酶对编码和非编码RNA分子的转录需要它们与数百个转录因子协作，以指导和控制聚合酶的募集、启动、延伸和终止。全基因组微阵列和超高通量测序技术能够有效映射转录因子、核小体及其修饰的分布，以及整个基因组中累积的RNA转录物(1,2)从而提供因子和转录状态的全局关联。使用染色质免疫沉淀法结合基因组DNA微阵列（ChIP-ChIP）或高通量测序（ChIP-seq）进行的研究表明，RNA聚合酶II（Pol II）在许多真核基因下游区域的5′端附近的数量不成比例地高(三——6). 然而，这些技术不能确定Pol II是简单的启动子结合还是参与转录。使用独立方法进行的小规模分析表明，这种分布可能代表转录参与的Pol II，其在转录起始位点（TSS）下游约20到50个碱基之间积累(5,6)表明转录可以在伸长阶段以及招募和启动阶段进行调节(7). 这个启动子-近端暂停或停滞(8)被认为是基因调控的一个重要启动后、速率控制靶点(7,9)。

在这里，我们提出了一种全球运行测序（GRO-seq）分析，以绘制和量化全基因组转录参与聚合酶密度。这些测量提供了全基因组转录的快照，并直接评估所有基因的启动子近端暂停。我们使用核试运行分析（NRO）在禁止新启动的条件下扩展与转录参与聚合酶相关的新生RNA。为了特异性分离NRO-RNA，我们在运行步骤中将核糖核苷酸类似物[5-溴尿苷5′-三磷酸（BrUTP）]添加到BrU-tag新生RNA中(图S1). 多核苷酸的长度保持较短，NRO-RNA被化学水解成短片段（～100个碱基），以便于在分析时对聚合酶来源进行高分辨率绘图(8). 含BrU的NRO-RNA是通过免疫纯化用一种对这种核苷酸类似物特异的抗体进行三联筛选的，导致NRO-RNA池的浓缩倍数达到10000倍，纯度大于98%(8). 然后，利用Illumina高通量测序平台，制备NRO-cDNA文库，用于从片段化、BrU-included RNA分子的5′端进行测序。通过将读取结果映射到参考人类基因组，记录了RNAs的起源和方向以及相关的转录参与聚合酶的全基因组(8)。

总计约2.5×10⁷33个碱基对（bp）读数来自两个独立的重复(8)由原代人肺成纤维细胞（IMR90）细胞核制备，其中～1.1×10⁷（44%）与人类基因组唯一对应。大多数阅读（85.8%）在已知RefSeq基因、人类mRNA或表达序列标签边界内的编码链上对齐(图S2). 转录活性基因的数量是通过使用实验和计算确定的背景值0.04读/千基来确定的(8). 我们发现16882个（68%）RefSeq基因具有活性(P（P）<0.01）与在同一细胞系中进行的微阵列实验发现的8438个活性基因相比(三)部分反映了测序平台增加的敏感性(10). 对几个大区域的检查表明，GRO-seq可以区分染色体大结构域中的转录活性区域和非活性区域(图1). 此外，我们能够检测到普遍较低但显著的(P（P）14545个基因（基因组中58.7%的基因）的反义转录量（相对于背景值<0.01）(图S3)。

在单独的窗口中打开

图1

加州大学圣克鲁斯分校（UCSC）基因组浏览器上的GRO-seq数据视图示例。第5号染色体上的一个2.5-Mb区域显示GRO-seq读码以1-bp的分辨率与基因组对齐，然后是关于NPM1型基因。Pol II ChIP结果(三)以绿色显示；可映射区域，黑色；GRO-seq读取正链（从左到右），红色；GRO-seq读取负链（从右到左），浅蓝色；RefSeq基因注释，深蓝色。

将GRO-seq数据与RefSeq TSS对齐表明，TSS附近的读取密度在意义（～50 bp）和反义（～−250 bp）方向上都达到峰值（见下文）(图2A). 将GRO-seq读数与带注释的基因3′端对齐显示出一个宽峰，最大值约为+1.5 kb，并且可以延伸到多聚腺苷酸化（poly-a）位点下游10 kb以上(图2B). 该峰值距离与之前和最近的估计一致(11,12). 在多聚腺苷酸化位点观察到一个小峰，随后急剧下降，可能代表RNA多聚腺苷化之前已知的3′裂解(13)。

在单独的窗口中打开

图2

将GRO-seq读数与TSS和3′端对齐。(A类)相对于基因转录方向，GRO-seq在10-bp窗口中的读码与Ref-seq TSS在正（红）和反（蓝）方向上对齐。(B类)GRO-seq读取基因3′端的侧翼。尖峰与在poly-A位点解理后产生的新5′端重合。终止前，聚合酶密度在下游延伸很大。

为了确定所有具有启动子-近端暂停特征的启动子激活Pol II峰值的基因，我们评估了每个基因是否在启动子-近端区域相对于每个基因体中的密度表现出读取密度的显著增加(8). 这些密度的比值称为暂停指数(5,6,8)，有效暂停指数范围为2到10^三(图S4). 在确定的启动子区域内，7057个基因相对于基因体具有显著丰富的GRO-seq读码(P（P）<0.01），占所有基因的28.3%（活性基因的41.7%）。将暂停的基因与微阵列表达或GRO-seq数据进行比较，发现四类基因：I类，非暂停和活跃；II级，暂停和激活；III级，暂停且不活动；和IV级，非活动（非暂停和非活动）(图3). 当我们使用GRO-seq对基因活性进行分类时，III类基因被严重耗尽，因为GRO-seque提供了一种更敏感的基因活性测量方法。考虑到这一类中剩下的少数基因的启动子信号较低，它们很可能被归类为活性基因，并进行更深入的测序。因此，绝大多数带有暂停聚合酶的基因也会在整个基因中产生显著的转录，尽管其数量往往无法通过表达微阵列检测到。最近对Pol II ChIP-seq数据和RNA-seq数据的比较也支持这样的观点，即几乎所有与Pol II结合的基因都会产生全长转录物(10)。

在单独的窗口中打开

图3

暂停与基因活性的比较。通过微阵列或基因下游部分的GRO-seq密度比较聚合酶和转录活性暂停的基因时，发现了四类基因。显示了每个类的示例，UCSC基因组浏览器中显示的轨迹如所示图1.基因名称、暂停索引和P（P）值从上到下分别如下：三人组, 1.1, 0.62;保险丝, 41, 2.8 × 10⁻⁴³；IZUMO1号机组, 410, 7.6 × 10⁻³; 和GALP公司（没有读取，因此没有暂停索引）。右边显示了每个类别中代表的基因数量。

当所有基因都存在时，启动子近端区域内聚合酶的密度通常与基因活性水平相关(图4A)或者只考虑聚合酶暂停的基因(图S5). 虽然几乎所有暂停的基因都通过GRO-seq显示出显著的全长活性，但暂停指数与基因活性呈负相关(图4B). 考虑到Pol II进入暂停位置的速度快于逃离暂停的速度时观察到暂停(9)，这种反向相关性与以下假设一致：高转录但暂停的基因似乎受到控制，至少部分是通过增加Pol II逃离暂停位点并进入生产延伸的速率(8)。

在单独的窗口中打开

图4

启动子近端转录模式与基因活性的相关性。(A类到D类)方框图（分别显示第五、第二十五、第五十、第七十五和第九十五个百分位）显示启动子近端（PP）感觉峰（红色）、发散峰（DP）（蓝色）、暂停指数（绿色）和PP/DP比率（橙色）与基因活动的顶部、中部和底部十分位之间的关系。所有十分位数之间都存在显著差异：P（P）<10⁻⁹用于所有比较，（D）中最低和中间十分位之间的比较除外(P（P）< 10⁻³). (E类)Pol II和GRO-seq正义（S）和反义（AS）链的ChIP剖面与TSS对齐。(F类)H3ac、H3K4me2和GRO-seq的ChIP剖面与TSS一致。

TSS周围GRO-seq图谱的一个显著而意外的特征是来自上游、发散、参与聚合酶的强健信号。当从整个细胞中分离出小RNA时，这些不同聚合酶产生的RNA可以在低浓度下被识别(14). 这些不同的聚合酶不能由10%的已知双向启动子解释，它们之间的距离小于1kb(15) (图S6). 我们发现13633个基因（占所有基因的55%，77%的活性基因）在面向感官的启动子近端峰上游1kb内显示出显著的差异转录(P（P）<0.001），表明双向启动子的数量甚至超过了最高估计值(16,17). 然而，由于这些启动子中的大多数似乎只在一个方向上产生信使核糖核酸（见下文），我们将这类启动子称为发散启动子。尽管前10%的活性基因的平均启动子近端比发散峰稍大(图3D)，分化转录的数量通常与启动子近端信号(图S7)以及相关基因的转录水平(图4C). 因此，发散转录是大多数活性启动子的标志。

基因活性、暂停和发散转录相互关联，并与包含CpG岛的启动子相关。这四个特征的共同出现比偶然发生的要频繁得多(P（P）< 10⁻⁵²) (表S1). 先前对capped mRNA转录物的定位表明，在CpG岛启动子的启动广泛发生在数百个碱基对上(18)GRO-seq表明，聚合酶在这一大类启动子上以两个方向启动和积累。

现有ChIP-ChIP数据(三)有没有显示聚合酶峰出现分歧的迹象？人工检测一些基因并与与TSS对齐的复合图谱进行比较表明，启动子处的Pol II ChIP峰是由GRO-seq发现的两个不同的峰引起的(图1B和和4E）。第四版). 不同细胞系中的高分辨率ChIP-seq数据确定了启动子上游的Pol II分子，这些分子与注释基因的方向相同；然而，这些反而可能代表GRO-seq确定的不同发起人(10). 此外，活性启动子通常以组蛋白修饰为标志，例如H3-Lys的二甲基化和三甲基化⁴（H3K4me2和H3K4me3）以及组蛋白H3和H4的乙酰化（H3ac和H4ac）。这些修饰显示TSS周围呈双峰分布，波谷代表TSS周围的无核小体区域(三,4,19). 该细胞系中可用H3ac和H3K4me2数据的比较(三)GRO-seq表明，这些组蛋白修饰的上游和下游峰值都与活性转录有关，每个组蛋白修饰峰值都与参与聚合酶的下游相邻(图4F) (8). 其他研究表明，与转录延伸相关的组蛋白修饰（例如H3K36me3和H3K79me3）在TSS周围不以双峰方式关联(4,19). 这一点以及缺乏分歧的GRO-seq进一步解读上游(图S8)表明大多数启动子经历上游方向的启动，但这些不同的聚合酶不能有效地延长转录物。因此，启动子可以区分聚合酶的正向和反向。

我们设想了几种可能的发散转录功能。首先，转录行为本身可能对允许转录因子进入核心启动子上游控制元件至关重要，可能是通过建立屏障阻止核小体阻碍转录因子结合位点(20,21). 第二，由Seila提议等。(14)转录聚合酶后产生的负超螺旋可能有助于这些区域的启动。第三，这些短的新生RNAs本身可以通过精氨酸依赖性(22)或-独立(23)路径。即将到来的挑战将是破译位于上游但与编码基因方向不同的广泛转录活动是正向还是负向调节转录输出，以及启动子或未知DNA元件是如何设计来区分一个方向上的生产延伸与另一个方向的生产延伸。

补充材料

补充数据

单击此处查看。^{（270万，pdf）}

致谢

我们衷心感谢C.Haudenschild就我们的图书馆建设和初步校准提出的建议，感谢Q.Sun和L.Ponnala对修剪后的读数进行校准，感谢A.Siepel对计算和统计的讨论，感谢Lis实验室成员对这项工作提出的建议。这项工作由美国国立卫生研究院向J.T.L.拨款GM25232资助。本出版物中讨论的数据以登录号存放在国家生物技术信息中心的基因表达总览中邮编13518.作者正在根据本文的工作申请专利。

脚注

支持性在线材料：网址：www.sciencemag.org/cgi/content/full/116228/DC1

标准操作手册文本

图S1至S26

表S1至S3

工具书类

参考文献和注释

1ENCODE项目联盟等。自然。2007;447:799. [PMC免费文章][公共医学][谷歌学者]

2Wold B，Myers RM。自然方法。2008;5:19.[公共医学][谷歌学者]

三。Kim TH等人。自然。2005年；436:876. [PMC免费文章][公共医学][谷歌学者]

4Guenther MG、Levine SS、Boyer LA、Jaenisch R、Young RA。单元格。2007;130:77. [PMC免费文章][公共医学][谷歌学者]

5Muse GW等人。自然遗传学。2007;39:1507. [PMC免费文章][公共医学][谷歌学者]

6Zeitlinger J等人。自然遗传学。2007;39:1512. [PMC免费文章][公共医学][谷歌学者]

7桑德斯A、科尔·LJ、利斯·JT。Nat Rev摩尔细胞生物学。2006;7:557.[公共医学][谷歌学者]

8材料和方法可用作支撑材料在科学在线上。

9核心LJ，Lis JT。科学。2008;319:1791. [PMC免费文章][公共医学][谷歌学者]

10Sultan M等人。科学。2008;321：956.doi:10.1126/science.1160342。2008年7月3日在线发布。[公共医学] [交叉参考][谷歌学者]

11新泽西州Proudfot。生物化学科学趋势。1989;14:105.[公共医学][谷歌学者]

12Lian Z等。基因组研究。2008;18:1224. [PMC免费文章][公共医学][谷歌学者]

13Proudfoot N公司。当前操作细胞生物学。2004;16:272.[公共医学][谷歌学者]

14Seila AC等人。科学。2008;322：1849.doi:10.1126/science.1162253。2008年12月4日在线发布。[PMC免费文章][公共医学] [交叉参考][谷歌学者]

15Trinklein ND等人。基因组研究。2004;14:62. [PMC免费文章][公共医学][谷歌学者]

16Kapranov P等人。科学。2007;316：1484.doi:10.1126/science.1138341。2007年5月16日在线发布。[公共医学] [交叉参考][谷歌学者]

17Rada-Iglesias A等人。基因组研究。2008;18：380。 [PMC免费文章][公共医学][谷歌学者]

18Carninci P等人。自然遗传学。2006;38:626.[公共医学][谷歌学者]

19Barski A等人。单元格。2007;129:823.[公共医学][谷歌学者]

20Mavrich TN等人。自然。2008;453:358. [PMC免费文章][公共医学][谷歌学者]

21Gilchrist DA等人。基因发育。2008;22:1921. [PMC免费文章][公共医学][谷歌学者]

22Han J、Kim D、Morris KV。美国国家科学院程序。2007;104:12422. [PMC免费文章][公共医学][谷歌学者]

23王X等。自然。2008;454:126. [PMC免费文章][公共医学][谷歌学者]