真核细胞中发现的RNA序列出乎意料地复杂,许多基因组中几乎所有非重复部分都被转录1基因区域通常由交错的转录单位填充,从而产生蛋白质编码RNA和长短非编码RNA1启动子相关的短RNA(PASR)和末端相关的短RNAs(TASR)是短RNA万神殿的新成员4虽然它们的功能尚不清楚,但它们的一些特性支持其生物学意义。例如,PASR和TASR在注释基因的5′和3′末端聚集4总的来说,PASR的存在与特定基因座的表达相关,但并非所有表达的基因座都产生这些物种。此外,从特定基因座产生PASR和TASR是人类和小鼠基因组的一个保守特征4为了理解小RNA的全部功能、其生物发生机制及其生物影响,我们使用下一代测序分析了HepG2和HeLa细胞系的小RNA(<200核苷酸(nt))5.
产生了近8000万个短序列读取(30–35个碱基),表示两种细胞系中的RNAs<200 nt(补充图1). 我们的测序方案支持带有5′单磷酸、二磷酸和三磷酸基团的RNA和带帽RNA。其中近3000万个可能与人类基因组hg18的释放完全匹配,950万个读取映射到独特的位点(补充图1).
来自线粒体、Y染色体、重复、注释小RNA、预测RNA基因的序列6以及已知和预测的小核仁RNA(sno)RNA7被排除在进一步分析之外(和补充图1). 这导致了232805个序列代表新的小RNA。来自同一细胞系的独立文库仅略有重叠,表明我们的研究没有饱和小RNA含量。序列根据其映射位置折叠,指定为每次读取的5′核苷酸。这导致102159个不同的5′端(“rest”,). 大部分序列来自未标记的基因间区域(). 序列还与注释基因的外显子和内含子区域的正反义链相匹配。值得注意的是,几乎一半的读数可以分配给注释外显子的有义链,具有第一外显子的强烈代表性。
小RNA的基因组分布a、,来自测序的sRNAs注释。”Rest’代表未标记的sRNA,过滤线粒体、Y染色体、重复序列和已知sRNA。miRNA,microRNA;ncRNA,非编码RNA。(显示折叠数据。)b中,将未注释的序列映射到注释的基因组标志。as,对应转录物的反义;s、 感觉。(折叠数据。)阴影内部部分表示PASR分数。c、,sRNAs在TSS上的分布。方向是关于长的成绩单。反义sRNA用不同的年-轴下方。(未折叠数据。)日期:,PASR 5′端的表征。不详。,未经处理。提取U4、5S rRNA和mir-21的5′端序列作为对照。(未折叠数据。)
我们之前已经注意到一类小RNA,即PASR,它与转录起始位点(TSS)相关,并映射到启动子区域和注释的第一外显子。因此,我们绘制了未标记RNA类别的分布图(其余,)关于已知TSS。与TSS直接相邻的两条链上的小RNA富集形成了一个清晰的模式(). TSS周围的正、反义链呈现镜像特征,在注释的TSS下游,正链上的小RNA积累最为强烈,反义链上的小RNA主要积累在注释的TS上游。这与之前在高分辨率基因组拼接阵列上观察到的结果类似4.反义链上约50 nt的间隙将精确的TSS和PASR分开,我们尚未了解这一观察结果().
该PASR类(以前定义为注释TSS 500 nt内的小RNA映射)存在于基因组的基因和基因间区域,包含16.2%或17.7%的过滤序列标签(分别为未折叠或折叠)。PASR有助于位于外显子和内含子两条链中的小RNA以及注释为基因间的小RNA(,给每个饼图中的内圈加阴影)。在这些定义的基础上,PASR在我们序列的未注释部分中形成了最丰富的定义小RNA的单个类别。
由于PASR与TSS密切相关,我们假设转录起始本身可能会生成PASR 5′端。因此,PASR可能包含帽结构。为了探索这种可能性,我们使用需要5′磷酸盐和3′羟基存在的方法制备了小RNA文库8.通过这种克隆协议,带帽RNA应该很难被捕获,但可以通过去除帽结构使其容易被克隆。因此,我们从HepG2细胞中制备了三种不同的小RNA文库。一种来自未经处理的RNA,另一种来自经烟草酸性焦磷酸酶(TAP)处理的RNA。第三个文库来自TAP处理前用小牛肠道碱性磷酸酶(CIP)处理的RNA。用CIP预处理去除磷酸盐,在所有未封端的RNA上留下不可克隆的5′OH末端。通过TAP处理,对应于带帽U4小核(sn)RNA 5′端的序列标签在文库中富集,并在TAP处理前通过CIP添加进一步富集(). 具有5′单磷酸末端的MicroRNA 21和具有5′三磷酸末端的5S核糖体RNA一样,在CIP处理时从文库中丢失(). 被定义为PASR的小RNA遵循U4建立的模式,与它们具有某种类型的帽结构相一致。仅用TAP对克隆方案显示PASR的观察表明,它们也含有3′OH末端。综上所述,这些数据表明,PASR可能作为独立的帽转录物出现,这些转录物来自两个基因组链上注释的TSS,也可能作为较长帽RNA的加工产物出现。后者的候选基因是PALR(启动子相关的长RNA),通常延伸到第一个外显子和第一个内含子4.
CAGE标记协议利用5′cap结构捕获长RNA 5′端的序列读取2从20多个人体组织的长聚腺苷酸RNA中产生了大量此类标签数据库9,10根据注释的TSS绘制CAGE标签显示出与PASR类小RNA观察到的模式类似的模式(). 在基因区域和基因间区域,我们还观察到CAGE和PASR 5′端之间有一个很强的一致性趋势().
sRNA与CAGE标签的相关性a、,CAGE标签在带注释的TSS上的分布。方向是关于长的成绩单。反义sRNA用不同的年-轴下方。(未折叠数据。)b中,PASR(顶部)和非PASR sRNA(底部)在CAGE标记5′周围的分布结束。绘制每个CAGE标记到最近短RNA5′端的距离。(折叠的数据。)
我们还注意到大量小RNA从注释TSS映射到500 nt以上()有助于形成内含子类、外显子类和基因间类(,每个饼的外部)。类似地,我们注意到大量的CAGE标签位于TSS中>500个碱基对(59.0%),可分配给外显子、内含子和基因间区域(分别占总未折叠CAGE标签的11.36、18.8和28.9%;补充表1).
当然,其中一部分可能是来自未注明TSS的产品,从而产生CAGE标签和PASR。然而,非PASR小RNA的5′端与CAGE标签之间的相关性不如注释TSS中的精确性(±10 nt)(). 这表明非PASR类小RNA可能由不同于典型PASR的机制产生。
小RNA和CAGE标签在内部外显子中的积累比在内含子或基因间空间中的积累更强烈,如果这些区域按其累积长度标准化(和未显示)。通过检查CAGE标签和小RNA在注释的内部外显子之间的分布,我们注意到从平均外显子/内含子边界(剪接供体位点;). 如果CAGE标签交叉剪接连接,它们将不会与这些位点的基因组共线,因此,在最初的分析中不会绘制10可能会产生观察到的模式。因此,我们提取了之前发表的未能映射到基因组的CAGE标签,并根据已知外显子-外显子连接的序列进行了检测。我们发现了大量交叉剪接连接的CAGE标签,因此这些标签必须来自至少部分处理的mRNA().
CAGE标签、sRNAs和注释转录本内显子的相关性a、,左图:绘制的CAGE标签5′端在内部外显子中的分布。外显子长度被标准化为100个片段。右:CAGE标签的分布没有映射到基因组,而是映射到内部外显子的外显子-外显子连接(EEJ)。b中,内部CAGE标签的流行率。黑线代表随机抽样中预期的最大外显子(见方法)。颜色对应于每个数据点表示的抄本数量。c、,CAGE标签和sRNA覆盖率亚太经合组织基因。来自cap-immunopreciption(IP)的sRNAs分别显示。组蛋白H3乙酰化(H3AC)模式13如下所示。两个内部外显子被放大。日期:,抗帽免疫沉淀RNA文库的表征。顶部面板:sRNA在总文库和IP文库中的代表性(未失效数据)。对于除U4分数外的所有分数,考虑了唯一映射序列。底部面板:内部外显子CAGE 5′端到最近sRNA 5′端的距离(塌陷数据)。
CAGE标签作为带帽5′端的标记已得到很好的确立。当然,内部外显子可能包含未知的转录起始位点,这可能会产生CAGE标签和小RNA,这将被定义为PASR。然而,我们观察到许多标签都从外显子边界和外显子-外显子交叉点启动不到20个碱基。非常短的外显子剪接无效11,自然出现的长度小于20个碱基的5′外显子非常罕见(未显示)。因此,我们观察到的CAGE标签可能代表成熟mRNA的裂解产物,其以某种方式获得类似于帽结构的5′修饰,使其对CAGE标签方法敏感。这种反应代表了先前未被识别的RNA加工途径和剪接mRNA的未知命运。虽然本研究中用于比较的CAGE标签来自聚腺苷化RNA,但我们无法确定小RNA是否来源于poly(A)+或聚(A)负极抄本。
从内部外显子生成CAGE标签并不局限于少数基因。事实上,49%的人类基因产生一个CAGE标签映射到一个内部外显子。对于其中的2%,在所有内部外显子中都发现了一个或多个CAGE标签(). 这超出了预期的数量(P(P)值<0.001,). 内部外显子小RNA和CAGE标签的普遍性和系统性生成如下图所示亚太经合组织(),一种编码调节胆固醇代谢的载脂蛋白B蛋白的基因12在本例中,乙酰化组蛋白H3的映射(参考。13)与单一流行的TSS一致,这与CAGE标签和PASR的存在相关(). 然而,CAGE标签和小RNA在体内更为丰富亚太经合组织外显子,这些外显子通常在特定位置重合(,插页)。这引发了一个模型,在该模型中亚太经合组织基因在转录后进行加工,加工产物被某些类型的cap结构修饰。这种可能性得到了用甲基鸟苷帽抗体进行免疫沉淀回收的小RNA序列测定的支持14这不仅恢复了PASR,还丰富了从内部外显子中的CAGE标签映射到10 bp以下的小RNA(P(P)值<0.001,另见). 在由未分离的小RNA制备的文库中,10.0%的内部外显子内的筛选序列映射位于CAGE标签的10 bp以内。在用抗mRNA免疫沉淀制备的文库中,这个数字增加到27.0%7G抗体。
如图所示亚太经合组织,基因CAGE标签和小RNA在外显子区内定位的可能性大约是内含子区的十倍(). 如同CAGE标签跨越外显子-外显子连接一样,这一结果与CAGE标签可从加工mRNA产物中衍生的模型一致。
考虑到PASR类的流行,我们试图探讨其潜在的生物学功能。与许多基因一样,PASR也存在于MYC公司致癌基因4我们合成了一组30–35-nt的单链RNA,它们的5′端与来自有义基因组链的三个PASR和来自注释TSS上游反义链的两个PASRs共享(). 这些基因被单独转染到HeLa细胞中,并且它们对MYC公司测量mRNA(). 在每种情况下,PASR模拟物的转染都会降低c-MYC公司mRNA。通过联合转染MYC公司-反应性荧光素酶报告子结构,在每个PASR存在时活性降低(). 与结缔组织生长因子相对应的五种PASR模拟物也获得了类似的结果(CTGF公司)基因(补充图2). PASR的存在与活性转录标记相关,包括与RNA聚合酶II、组蛋白H3和H4乙酰化、H3K4三甲基化相关,以及对DNA酶治疗的敏感性增加(补充图3). 我们的数据表明,PASR和MYC活性表达之间存在因果关系,尽管我们尚未研究异位PASR对活性标记的影响,而内源性物种的存在与活性标记相关。
PASR对基因表达的调节a、,MYC基因座的表达谱。Affymetrix拼接阵列上HeLa细胞的长短RNA图谱。红色矩形表示设计的合成PASR(MYC_1–5用数字表示,序列信息见补充表2)对应于sRNA阵列轮廓中的峰值。b中,逆转录定量PCR检测HeLa细胞MYC mRNA表达水平(n个= 3,P(P)数值<0.01)。c、,PASR转染对HeLa细胞中MYC应答性萤光素酶转录报告基因的影响以相对光单位(RLU)测量(n个= 2, *P(P)<0.01, **P(P)<0.001). 作为参考,显示了针对荧光素酶(siGL3)的对照33-mer和siRNA。
对长度小于200 nt的小RNA的分析表明,基因组中基因和基因间区域的输出具有很大的复杂性。这些研究为PASR的起源提出了两种可能性。首先,它们可能是由同样产生长RNA的启动子产生的带帽的独立转录产物。其次,它们可能是在注释的TSS启动的较长RNA的转录后处理产物。
这些研究的一个显著成果是发现,CAGE标签和小RNA不仅修饰基因间空间,而且修饰蛋白质编码和非编码转录物的内部外显子。邻近和交叉拼接接头的大量CAGE标签的存在提供了表面上看长RNA被代谢为在5′端具有帽状结构的短RNA(). 最终产生短RNA的长RNA可能是初级转录产物或加工产物。此外,我们的研究表明,CAGE标签不仅捕获TSS,还捕获转录后处理的RNA的5′端。
基因转录物代谢为长RNA和短RNA多样性的拟议模型基因区域的转录产生包含5′帽结构的前体长RNA,如星号所示。在加工成剪接RNA后,蛋白质编码RNA要么被翻译,要么被进一步加工。这种进一步加工需要解理,在某些情况下,还需要添加5′修饰,可能是帽状结构。这些中间产物的额外裂解可以产生一类短RNA,一些还具有帽结构。lRNAs,长RNAs。
一个关键问题是,来自内外显子的一组小RNA是否代表成熟mRNA向可回收核糖核苷酸的过渡产物。有几条证据反对这些代表简单降解中间产物的说法。首先,来自长RNA的CAGE标签的精确5′端与我们研究中发现的小RNA之间有很强的相关性。这些图谱是由不同的RNA和组织来源以及不同的群体绘制的。独立样本的结果是一致的,表明存在离散的加工场所。其次,基于CAGE程序中的化学修饰和小RNA文库的亲和纯化,这两种类型的标签在有利于带帽RNA的条件下显著富集。第三,CAGE标签和小RNA物种仅产生于一个离散的、尽管是实质性的基因子集,而非PASR类的丰度并不仅仅与其生殖位点的表达水平相关(参见补充方法).
几项研究表明,RNA干扰直接作用于启动子区域和基因的明显非转录部分可能会产生调节影响。在某些情况下,影响是沉默的15,16,而在其他人中却意外地观察到激活17我们对PASR的分析表明,提供它们的合成模拟物在trans中可以对基因表达产生持续的影响,尽管影响不大。尽管在测试的两个案例中,MYC公司和CTGF公司增加PASR水平会降低表达,操纵PASR的结果仍有可能是基因特异性的,这与不断积累的证据一致,即破坏启动子相关RNA(PASR)物种会产生积极和消极的影响17.
与基因间和外显子区域相对应的小RNA的功能仍不清楚。这样的物种可能具有调节作用,本身,或者它们可以更全局地参与记账或质量控制机制,通过该机制细胞记录其转录输出和剪接模式。这以前被假设为非蛋白编码RNA的作用18,19很明显,细胞的转录产物是在小而稳定的RNA群体中捕获的,达到了出乎意料的程度,其中至少有一部分可以作为调控电路的组成部分。