跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;PMC 2009年8月3日提供。
以最终编辑形式发布为:
2009年1月25日在线发布。 数字对象标识:10.1038/性质07759
预防性维修识别码:项目经理2719882
NIHMSID公司:美国国家卫生研究院127518
PMID:19169241

转录后处理产生5′修饰的长短RNA的多样性

Affymetrix/冷泉港实验室ENCODE转录组项目*

关联数据

补充资料

摘要

真核细胞的转录体极其复杂。单个非编码RNA使蛋白质编码基因的数量相形见绌,包括众所周知的类别,以及性质、范围和功能作用尚不明确的类别1来自人类HeLa和HepG2细胞的小RNA(<200个核苷酸)的深度测序揭示了物种的显著广度。这些基因来自注释基因内和未注释基因间区域。总的来说,小RNA倾向于与CAGE(基因表达的cap分析)标签对齐2标记有帽长RNA转录物的5′端。许多小RNA,包括之前描述的启动子相关小RNA,似乎具有帽状结构。一类广泛的小RNA和CAGE标签的成员分布在注释蛋白质编码和非编码基因的内部外显子,有时跨越外显子-外显子连接。在这里,我们表明,通过一种尚不清楚的机制处理成熟的mRNA可能会产生复杂的长RNA和短RNA群体,其明显的5′端重叠。提供与c相应的合成启动子相关的小RNA-MYC公司转录起始位点减少MYC公司信使RNA丰度。本文的研究扩展了细胞小RNA的目录,并证明了至少一类非经典小RNA的生物学影响。

真核细胞中发现的RNA序列出乎意料地复杂,许多基因组中几乎所有非重复部分都被转录1基因区域通常由交错的转录单位填充,从而产生蛋白质编码RNA和长短非编码RNA1启动子相关的短RNA(PASR)和末端相关的短RNAs(TASR)是短RNA万神殿的新成员4虽然它们的功能尚不清楚,但它们的一些特性支持其生物学意义。例如,PASR和TASR在注释基因的5′和3′末端聚集4总的来说,PASR的存在与特定基因座的表达相关,但并非所有表达的基因座都产生这些物种。此外,从特定基因座产生PASR和TASR是人类和小鼠基因组的一个保守特征4为了理解小RNA的全部功能、其生物发生机制及其生物影响,我们使用下一代测序分析了HepG2和HeLa细胞系的小RNA(<200核苷酸(nt))5.

产生了近8000万个短序列读取(30–35个碱基),表示两种细胞系中的RNAs<200 nt(补充图1). 我们的测序方案支持带有5′单磷酸、二磷酸和三磷酸基团的RNA和带帽RNA。其中近3000万个可能与人类基因组hg18的释放完全匹配,950万个读取映射到独特的位点(补充图1).

来自线粒体、Y染色体、重复、注释小RNA、预测RNA基因的序列6以及已知和预测的小核仁RNA(sno)RNA7被排除在进一步分析之外(图1a补充图1). 这导致了232805个序列代表新的小RNA。来自同一细胞系的独立文库仅略有重叠,表明我们的研究没有饱和小RNA含量。序列根据其映射位置折叠,指定为每次读取的5′核苷酸。这导致102159个不同的5′端(“rest”,图1a). 大部分序列来自未标记的基因间区域(图1b). 序列还与注释基因的外显子和内含子区域的正反义链相匹配。值得注意的是,几乎一半的读数可以分配给注释外显子的有义链,具有第一外显子的强烈代表性。

保存图片、插图等的外部文件。对象名称为nihms127518f1.jpg
小RNA的基因组分布

a、,来自测序的sRNAs注释。”Rest’代表未标记的sRNA,过滤线粒体、Y染色体、重复序列和已知sRNA。miRNA,microRNA;ncRNA,非编码RNA。(显示折叠数据。)b中,将未注释的序列映射到注释的基因组标志。as,对应转录物的反义;s、 感觉。(折叠数据。)阴影内部部分表示PASR分数。c、,sRNAs在TSS上的分布。方向是关于长的成绩单。反义sRNA用不同的-轴下方。(未折叠数据。)日期:,PASR 5′端的表征。不详。,未经处理。提取U4、5S rRNA和mir-21的5′端序列作为对照。(未折叠数据。)

我们之前已经注意到一类小RNA,即PASR,它与转录起始位点(TSS)相关,并映射到启动子区域和注释的第一外显子。因此,我们绘制了未标记RNA类别的分布图(其余,图1a、b)关于已知TSS。与TSS直接相邻的两条链上的小RNA富集形成了一个清晰的模式(图1c). TSS周围的正、反义链呈现镜像特征,在注释的TSS下游,正链上的小RNA积累最为强烈,反义链上的小RNA主要积累在注释的TS上游。这与之前在高分辨率基因组拼接阵列上观察到的结果类似4.反义链上约50 nt的间隙将精确的TSS和PASR分开,我们尚未了解这一观察结果(图1c).

该PASR类(以前定义为注释TSS 500 nt内的小RNA映射)存在于基因组的基因和基因间区域,包含16.2%或17.7%的过滤序列标签(分别为未折叠或折叠)。PASR有助于位于外显子和内含子两条链中的小RNA以及注释为基因间的小RNA(图1b,给每个饼图中的内圈加阴影)。在这些定义的基础上,PASR在我们序列的未注释部分中形成了最丰富的定义小RNA的单个类别。

由于PASR与TSS密切相关,我们假设转录起始本身可能会生成PASR 5′端。因此,PASR可能包含帽结构。为了探索这种可能性,我们使用需要5′磷酸盐和3′羟基存在的方法制备了小RNA文库8.通过这种克隆协议,带帽RNA应该很难被捕获,但可以通过去除帽结构使其容易被克隆。因此,我们从HepG2细胞中制备了三种不同的小RNA文库。一种来自未经处理的RNA,另一种来自经烟草酸性焦磷酸酶(TAP)处理的RNA。第三个文库来自TAP处理前用小牛肠道碱性磷酸酶(CIP)处理的RNA。用CIP预处理去除磷酸盐,在所有未封端的RNA上留下不可克隆的5′OH末端。通过TAP处理,对应于带帽U4小核(sn)RNA 5′端的序列标签在文库中富集,并在TAP处理前通过CIP添加进一步富集(图1d). 具有5′单磷酸末端的MicroRNA 21和具有5′三磷酸末端的5S核糖体RNA一样,在CIP处理时从文库中丢失(图1d). 被定义为PASR的小RNA遵循U4建立的模式,与它们具有某种类型的帽结构相一致。仅用TAP对克隆方案显示PASR的观察表明,它们也含有3′OH末端。综上所述,这些数据表明,PASR可能作为独立的帽转录物出现,这些转录物来自两个基因组链上注释的TSS,也可能作为较长帽RNA的加工产物出现。后者的候选基因是PALR(启动子相关的长RNA),通常延伸到第一个外显子和第一个内含子4.

CAGE标记协议利用5′cap结构捕获长RNA 5′端的序列读取2从20多个人体组织的长聚腺苷酸RNA中产生了大量此类标签数据库9,10根据注释的TSS绘制CAGE标签显示出与PASR类小RNA观察到的模式类似的模式(图2a). 在基因区域和基因间区域,我们还观察到CAGE和PASR 5′端之间有一个很强的一致性趋势(图2b).

保存图片、插图等的外部文件。对象名称为nihms127518f2.jpg
sRNA与CAGE标签的相关性

a、,CAGE标签在带注释的TSS上的分布。方向是关于长的成绩单。反义sRNA用不同的-轴下方。(未折叠数据。)b中,PASR(顶部)和非PASR sRNA(底部)在CAGE标记5′周围的分布结束。绘制每个CAGE标记到最近短RNA5′端的距离。(折叠的数据。)

我们还注意到大量小RNA从注释TSS映射到500 nt以上(图1c)有助于形成内含子类、外显子类和基因间类(图1b,每个饼的外部)。类似地,我们注意到大量的CAGE标签位于TSS中>500个碱基对(59.0%),可分配给外显子、内含子和基因间区域(分别占总未折叠CAGE标签的11.36、18.8和28.9%;补充表1).

当然,其中一部分可能是来自未注明TSS的产品,从而产生CAGE标签和PASR。然而,非PASR小RNA的5′端与CAGE标签之间的相关性不如注释TSS中的精确性(±10 nt)(图2b). 这表明非PASR类小RNA可能由不同于典型PASR的机制产生。

小RNA和CAGE标签在内部外显子中的积累比在内含子或基因间空间中的积累更强烈,如果这些区域按其累积长度标准化(图3a和未显示)。通过检查CAGE标签和小RNA在注释的内部外显子之间的分布,我们注意到从平均外显子/内含子边界(剪接供体位点;图3a). 如果CAGE标签交叉剪接连接,它们将不会与这些位点的基因组共线,因此,在最初的分析中不会绘制10可能会产生观察到的模式。因此,我们提取了之前发表的未能映射到基因组的CAGE标签,并根据已知外显子-外显子连接的序列进行了检测。我们发现了大量交叉剪接连接的CAGE标签,因此这些标签必须来自至少部分处理的mRNA(图3a).

保存图片、插图等的外部文件。对象名称为nihms127518f3.jpg
CAGE标签、sRNAs和注释转录本内显子的相关性

a、,左图:绘制的CAGE标签5′端在内部外显子中的分布。外显子长度被标准化为100个片段。右:CAGE标签的分布没有映射到基因组,而是映射到内部外显子的外显子-外显子连接(EEJ)。b中,内部CAGE标签的流行率。黑线代表随机抽样中预期的最大外显子(见方法)。颜色对应于每个数据点表示的抄本数量。c、,CAGE标签和sRNA覆盖率亚太经合组织基因。来自cap-immunopreciption(IP)的sRNAs分别显示。组蛋白H3乙酰化(H3AC)模式13如下所示。两个内部外显子被放大。日期:,抗帽免疫沉淀RNA文库的表征。顶部面板:sRNA在总文库和IP文库中的代表性(未失效数据)。对于除U4分数外的所有分数,考虑了唯一映射序列。底部面板:内部外显子CAGE 5′端到最近sRNA 5′端的距离(塌陷数据)。

CAGE标签作为带帽5′端的标记已得到很好的确立。当然,内部外显子可能包含未知的转录起始位点,这可能会产生CAGE标签和小RNA,这将被定义为PASR。然而,我们观察到许多标签都从外显子边界和外显子-外显子交叉点启动不到20个碱基。非常短的外显子剪接无效11,自然出现的长度小于20个碱基的5′外显子非常罕见(未显示)。因此,我们观察到的CAGE标签可能代表成熟mRNA的裂解产物,其以某种方式获得类似于帽结构的5′修饰,使其对CAGE标签方法敏感。这种反应代表了先前未被识别的RNA加工途径和剪接mRNA的未知命运。虽然本研究中用于比较的CAGE标签来自聚腺苷化RNA,但我们无法确定小RNA是否来源于poly(A)+或聚(A)负极抄本。

从内部外显子生成CAGE标签并不局限于少数基因。事实上,49%的人类基因产生一个CAGE标签映射到一个内部外显子。对于其中的2%,在所有内部外显子中都发现了一个或多个CAGE标签(图3b). 这超出了预期的数量(P(P)值<0.001,图3b). 内部外显子小RNA和CAGE标签的普遍性和系统性生成如下图所示亚太经合组织(图3c),一种编码调节胆固醇代谢的载脂蛋白B蛋白的基因12在本例中,乙酰化组蛋白H3的映射(参考。13)与单一流行的TSS一致,这与CAGE标签和PASR的存在相关(图3c). 然而,CAGE标签和小RNA在体内更为丰富亚太经合组织外显子,这些外显子通常在特定位置重合(图3c,插页)。这引发了一个模型,在该模型中亚太经合组织基因在转录后进行加工,加工产物被某些类型的cap结构修饰。这种可能性得到了用甲基鸟苷帽抗体进行免疫沉淀回收的小RNA序列测定的支持14这不仅恢复了PASR,还丰富了从内部外显子中的CAGE标签映射到10 bp以下的小RNA(P(P)值<0.001,另见图1d). 在由未分离的小RNA制备的文库中,10.0%的内部外显子内的筛选序列映射位于CAGE标签的10 bp以内。在用抗mRNA免疫沉淀制备的文库中,这个数字增加到27.0%7G抗体。

如图所示亚太经合组织,基因CAGE标签和小RNA在外显子区内定位的可能性大约是内含子区的十倍(图3a、b). 如同CAGE标签跨越外显子-外显子连接一样,这一结果与CAGE标签可从加工mRNA产物中衍生的模型一致。

考虑到PASR类的流行,我们试图探讨其潜在的生物学功能。与许多基因一样,PASR也存在于MYC公司致癌基因4我们合成了一组30–35-nt的单链RNA,它们的5′端与来自有义基因组链的三个PASR和来自注释TSS上游反义链的两个PASRs共享(图4a). 这些基因被单独转染到HeLa细胞中,并且它们对MYC公司测量mRNA(图4b). 在每种情况下,PASR模拟物的转染都会降低c-MYC公司mRNA。通过联合转染MYC公司-反应性荧光素酶报告子结构,在每个PASR存在时活性降低(图4c). 与结缔组织生长因子相对应的五种PASR模拟物也获得了类似的结果(CTGF公司)基因(补充图2). PASR的存在与活性转录标记相关,包括与RNA聚合酶II、组蛋白H3和H4乙酰化、H3K4三甲基化相关,以及对DNA酶治疗的敏感性增加(补充图3). 我们的数据表明,PASR和MYC活性表达之间存在因果关系,尽管我们尚未研究异位PASR对活性标记的影响,而内源性物种的存在与活性标记相关。

保存图片、插图等的外部文件。对象名称为nihms127518f4.jpg
PASR对基因表达的调节

a、,MYC基因座的表达谱。Affymetrix拼接阵列上HeLa细胞的长短RNA图谱。红色矩形表示设计的合成PASR(MYC_1–5用数字表示,序列信息见补充表2)对应于sRNA阵列轮廓中的峰值。b中,逆转录定量PCR检测HeLa细胞MYC mRNA表达水平(n个= 3,P(P)数值<0.01)。c、,PASR转染对HeLa细胞中MYC应答性萤光素酶转录报告基因的影响以相对光单位(RLU)测量(n个= 2, *P(P)<0.01, **P(P)<0.001). 作为参考,显示了针对荧光素酶(siGL3)的对照33-mer和siRNA。

对长度小于200 nt的小RNA的分析表明,基因组中基因和基因间区域的输出具有很大的复杂性。这些研究为PASR的起源提出了两种可能性。首先,它们可能是由同样产生长RNA的启动子产生的带帽的独立转录产物。其次,它们可能是在注释的TSS启动的较长RNA的转录后处理产物。

这些研究的一个显著成果是发现,CAGE标签和小RNA不仅修饰基因间空间,而且修饰蛋白质编码和非编码转录物的内部外显子。邻近和交叉拼接接头的大量CAGE标签的存在提供了表面上看长RNA被代谢为在5′端具有帽状结构的短RNA(图5). 最终产生短RNA的长RNA可能是初级转录产物或加工产物。此外,我们的研究表明,CAGE标签不仅捕获TSS,还捕获转录后处理的RNA的5′端。

保存图片、插图等的外部文件。对象名称为nihms127518f5.jpg
基因转录物代谢为长RNA和短RNA多样性的拟议模型

基因区域的转录产生包含5′帽结构的前体长RNA,如星号所示。在加工成剪接RNA后,蛋白质编码RNA要么被翻译,要么被进一步加工。这种进一步加工需要解理,在某些情况下,还需要添加5′修饰,可能是帽状结构。这些中间产物的额外裂解可以产生一类短RNA,一些还具有帽结构。lRNAs,长RNAs。

一个关键问题是,来自内外显子的一组小RNA是否代表成熟mRNA向可回收核糖核苷酸的过渡产物。有几条证据反对这些代表简单降解中间产物的说法。首先,来自长RNA的CAGE标签的精确5′端与我们研究中发现的小RNA之间有很强的相关性。这些图谱是由不同的RNA和组织来源以及不同的群体绘制的。独立样本的结果是一致的,表明存在离散的加工场所。其次,基于CAGE程序中的化学修饰和小RNA文库的亲和纯化,这两种类型的标签在有利于带帽RNA的条件下显著富集。第三,CAGE标签和小RNA物种仅产生于一个离散的、尽管是实质性的基因子集,而非PASR类的丰度并不仅仅与其生殖位点的表达水平相关(参见补充方法).

几项研究表明,RNA干扰直接作用于启动子区域和基因的明显非转录部分可能会产生调节影响。在某些情况下,影响是沉默的15,16,而在其他人中却意外地观察到激活17我们对PASR的分析表明,提供它们的合成模拟物在trans中可以对基因表达产生持续的影响,尽管影响不大。尽管在测试的两个案例中,MYC公司CTGF公司增加PASR水平会降低表达,操纵PASR的结果仍有可能是基因特异性的,这与不断积累的证据一致,即破坏启动子相关RNA(PASR)物种会产生积极和消极的影响17.

与基因间和外显子区域相对应的小RNA的功能仍不清楚。这样的物种可能具有调节作用,本身,或者它们可以更全局地参与记账或质量控制机制,通过该机制细胞记录其转录输出和剪接模式。这以前被假设为非蛋白编码RNA的作用18,19很明显,细胞的转录产物是在小而稳定的RNA群体中捕获的,达到了出乎意料的程度,其中至少有一部分可以作为调控电路的组成部分。

方法总结

有关这些方法的详细说明,请参见补充信息从HeLa和HepG2细胞中提取短RNA,并按照指示进行CIP和TAP处理。通过5′端结扎、C末端拖尾和3′端逆转录添加适配器序列。文库在Illumina GA2上进行PCR扩增和测序。携带5′caps的RNAs通过免疫沉淀法富集/米7G抗体。

使用UCSC注释对人类基因组的hg18组装进行分析。CAGE标签序列来自RIKEN研究所网站9对于短RNA密度,计算到最近的注释TSS或CAGE标签的距离。检索不与UCSC注释中的起始或终止外显子重叠的内部外显子,并将从受体位点到映射的CAGE标签的距离标准化为相应外显子的长度。未映射到基因组的CAGE标签被映射到包含最后和前50个连续外显子的外显子-外显子连接处。为了确定带有内部CAGE标签的基因的流行率,将包含至少一个CAGE的内部外显子的数量与每个基因的外显子总数绘制成图。转染实验与用于siRNA的实验相似20使用单链RNA寡核苷酸。48小时后用定量PCR和逆转录法测定信使RNA水平。这个MYC公司-反应性荧光素酶报告子在sRNA前24小时转染。从UCSC ENCODE(DNA元素百科全书)数据库中提取HeLa和HepG2细胞的ChIP-ChIP数据和DNase敏感性曲线。根据ChIP-ChIP信号强度将启动子分组,并确定每组中PASR的数量。

补充材料

支持

单击此处查看。(1.1M,pdf格式)

致谢

我们感谢L.Cardone、D.Rebolini、M.Kramer和W.R.McCombie对Illumina进行测序。我们要感谢J.Brosius、J.Schmitz和T.Rozhdestvensky在小RNA克隆协议方面的帮助,以及J.Dumais的技术援助。K.F.-T.的部分资金来自先灵葆雅基金会。这项工作得到了NIH的部分资助,并作为ENCODE财团(G.J.H.和T.R.G.)的一部分进行。G.J.H是霍华德·休斯医学研究所的研究员。

脚注

补充信息链接到该论文的在线版本www.nature.com/nature(自然).

作者贡献K.F.-T.和P.K.与E.D.、V.S.、R.D.和A.T.W.P.K.、S.F.、R.S.和G.A.合作进行实验,并进行数据分析。G.J.H.和T.R.G.计划实验并撰写论文。

作者信息本研究期间产生的序列已保存在GEO中,编号为GSE14362标准。重印和权限信息可访问www.nature.com/reprints网站。作者声明了竞争性的财务利益:全文HTML版论文的详细信息见网址:www.nature.com/nature.

工具书类

1Birney E等人通过ENCODE试点项目对1%人类基因组中的功能元件进行鉴定和分析。自然。2007;447:799–816. [PMC免费文章][公共医学][谷歌学者]
2Shiraki T等。用于高通量分析转录起点和识别启动子用法的Cap分析基因表达。美国国家科学院程序。2003;100:15776–15781. [PMC免费文章][公共医学][谷歌学者]
三。Kapranov P、Willingham AT、Gingeras TR。基因组全转录及其对基因组组织的影响。《遗传学自然评论》。2007;8:413–423.[公共医学][谷歌学者]
4Kapranov P等人。RNA图谱揭示了新的RNA类别和普遍转录的可能功能。科学。2007;316:1484–1488.[公共医学][谷歌学者]
5下一代测序技术对遗传学的影响。趋势Genet。2008;24:133–141.[公共医学][谷歌学者]
7Yang JH等。snoSeeker:一个高级计算软件包,用于筛选人类基因组中的引导和孤立snoRNA基因。核酸研究。2006;34:5112–5123. [PMC免费文章][公共医学][谷歌学者]
8Huttenhofer A等人,《RNomics:一种实验方法,在小鼠中识别201个新的、小的、非信使RNA候选基因。EMBO J。2001;20:2943–2953. [PMC免费文章][公共医学][谷歌学者]
9Kawaji H等人。CAGE基本/分析数据库:用于全面启动子分析的CAGE资源。核酸研究。2006;34:D632–D636。 [PMC免费文章][公共医学][谷歌学者]
10Carninci P等人。哺乳动物启动子结构和进化的全基因组分析。自然遗传学。2006;38:626–635.[公共医学][谷歌学者]
11Berget SM。脊椎动物剪接中的外显子识别。生物化学杂志。1995年;270:2411–2414.[公共医学][谷歌学者]
12Olofsson SO,Boren J.载脂蛋白B:一种临床上重要的载脂蛋白,可组装致动脉粥样硬化的脂蛋白并促进动脉粥样硬化的发展。实习医学杂志。2005;258:395–410.[公共医学][谷歌学者]
13Rada-Iglesias A等。USF1和USF2结合和组蛋白H3乙酰化的全基因组图谱揭示了启动子结构和常见人类疾病候选基因的新方面。基因组研究。2008;18:380–392. [PMC免费文章][公共医学][谷歌学者]
14Bochnig P,Reuter R,Bringmann P,Luhrmann R。一种抗2,2,7-三甲基鸟苷的单克隆抗体,可与完整的U类小核核糖核蛋白以及7-甲基鸟苷包被RNA反应。欧洲生物化学杂志。1987;168:461–467.[公共医学][谷歌学者]
15Morris KV,Chan SW,Jacobsen SE,Looney DJ。人类细胞中小干扰RNA诱导的转录基因沉默。科学。2004;305:1289–1292.[公共医学][谷歌学者]
16Ting AH,Schuebel KE,Herman JG,Baylin SB。在DNA甲基化缺失的情况下,短双链RNA诱导人类癌细胞转录基因沉默。自然遗传学。2005;37:906–910。 [PMC免费文章][公共医学][谷歌学者]
17Janowski BA等。用启动子靶向的双链RNA激活哺乳动物细胞中的基因表达。自然化学生物。2007;:166–173.[公共医学][谷歌学者]
18Mattick JS公司。RNA调节:一种新的遗传学。《遗传学自然评论》。2004;5:316–323.[公共医学][谷歌学者]
19Mattick JS公司。挑战教条:复杂生物体中非蛋白编码RNA的隐藏层。生物论文。2003;25:930–939.[公共医学][谷歌学者]
20Willingham AT等人。一种探测非编码RNA功能的策略发现了NFAT的阻遏物。科学。2005;309:1570–1573.[公共医学][谷歌学者]