跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;PMC 2013年6月17日提供。
以最终编辑形式发布为:
PMCID公司:项目经理3684276
NIHMSID公司:美国国家卫生研究院377835
PMID:22955620

人类细胞中的转录景观

莎拉·杰巴利,1,* 卡莉·戴维斯,2,* 安吉丽卡·默克尔,1 亚历克斯·多宾,2 蒂莫·拉斯曼,7 阿里·穆塔扎维,5,8 安德烈亚·坦泽,1 朱利安·拉加德,1 魏琳,2 费利克斯·施莱辛格,2 薛成海,2 乔治·马里诺夫,5 贾纳布·卡顿(Jainab Khatun),4 布莱恩·威廉姆斯,5 克里斯·扎尔斯基,2 乔尔·罗佐夫斯基,13,14 梅克·罗德,1 费利克斯·科科辛斯基,12 康复中心F.Abdelhamid,7 泰勒·阿利奥托,1 伊戈尔·安托希金,5 迈克尔·T·贝尔,2 纳达夫·S·巴尔,17 菲利普·巴图特,2 金伯利·贝尔,2 伊恩·贝尔, Sudipto Chakrabortty公司,2 西安晨,11 杰奎琳·克拉斯特,10 若昂·库拉多,1 托马斯·德里安,1 乔格·德伦科,2 埃里卡·杜梅斯, 杰奎琳·杜梅斯, 拉德哈·杜塔古普塔, 艾米莉·法尔科内特,9 Meagan Fastuca公司,2 Kata Fejes托特,2 佩德罗·费雷拉,1 西尔万·福萨克, 梅丽莎·富尔伍德,6 Hui Gao公司, 大卫·冈萨雷斯,1 阿萨夫·戈登,2 Harsha Gunawardena公司,11 塞德里克·霍华德,10 索纳利·贾,2 罗里·约翰逊,1 菲利普·卡普兰诺夫,三,16 布兰登·金,5 科林·金斯伍德,1 奥斯卡·J·罗,6 埃迪·帕克,8 金伯利·佩尔索,2 乔纳森·普雷尔,2 保罗·里贝卡,1 Brian风险,4 丹尼尔·罗比尔,9 迈克尔·萨米特,1 洛里安·谢弗,5 雷洪见,2 阿蒂夫·沙哈卜,6 乔根·斯坎克,1,17 Ana Maria铃木,7 Hazuki Takahashi公司,7 哈根·蒂格纳,1 黛安·特劳特,5 纳塔莉·沃尔特斯,10 王怀恩,2 约翰·罗贝尔,4 燕宝玉,11 阮晓安,6 吉藏Hayashizaki,7 詹妮弗·哈罗,12 马克·格斯坦,13,14,15 蒂姆·哈伯德,12 亚历山大·雷蒙德,10 Stylianos E.Antonarakis公司,9 格雷戈里·汉农,2 摩根·C·吉丁,4,11 家阮义军,6 芭芭拉·沃尔德,5 皮耶罗·卡尼奇,7 罗德里克·吉戈,1托马斯·金戈拉斯2,

关联数据

补充资料

总结

真核细胞产生许多类型的初级和加工RNA,这些RNA存在于特定的亚细胞隔室或整个细胞中。这些RNA的完整目录尚不可用,其特征性的亚细胞定位也缺乏了解。由于RNA代表由基因组编码的遗传信息的直接输出,并且细胞的很大一部分调节能力集中于其合成、加工、运输、修饰和翻译,因此这种目录的生成对于理解基因组功能至关重要。在这里,我们报告了四分之三的人类基因组能够被转录的证据,以及对几乎所有当前注释的和数千个以前未注释的RNA的表达范围和水平、定位、处理命运、调控区域和修改的观察。这些观察结果加在一起促使人们重新定义了基因的概念。

随着RNA谱分析和细胞类型分离与培养技术的不断改进,RNA类型的目录不断增加,人们对RNA所起的众多生物学作用的认识也不断提高,可以说,这使它们与蛋白质的功能重要性不相上下1. TheEnc公司百科全书o个(f)D类不适用E类元素(ENCODE)项目旨在对人类细胞产生的RNA进行分类,作为识别和表征人类基因组序列中存在的功能元素的预期目标的一部分2ENCODE项目的试点阶段检测了大约1%的人类基因组,并观察到基因丰富和基因贫乏区域普遍转录,证实了先前研究的结果4,5在ENCODE项目的第二阶段,扩大了检查范围,以检查完整的人类基因组。因此,我们试图提供人类转录物的全基因组目录,并确定产生的RNA的亚细胞定位。在这里,我们报告了在所有研究的15个细胞系的两个主要细胞亚区(细胞核和胞浆)和一个细胞系中的三个额外亚核区富集的注释性和新RNA的鉴定和特征。此外,我们试图确定已鉴定的转录物是否分别通过7-甲基鸟苷帽或多腺苷酸化在其5′和3′末端被修饰。我们进一步研究了大部分先前注释的长RNA和小RNA的初级转录和加工产物关系。这些结果大大扩展了Gencode注释组收集的长聚腺苷酸和小RNA的当前全基因组注释目录6-8将我们的亚细胞定位和产品-受体相关RNA的全基因组汇编作为公共资源,揭示了RNA景观的新的和详细的方面:

  • 累计而言,我们观察到人类基因组的62.1%和74.7%分别被加工或初级转录物覆盖,没有任何细胞系显示所有细胞系中表达转录体的结合超过56.7%。随后“基因间区域”长度的缩短导致相邻基因区域的显著重叠,并促使基因的重新定义。
  • 基因的异构体表达不遵循极简表达策略,导致基因同时表达许多异构体,每个细胞系每个基因表达10-12个异构体。
  • 细胞类型特异性增强子是通过新RNA转录物、染色质标记和DNAse l超敏位点的存在而与其他调控区域不同的启动子。
  • 编码转录物和非编码转录物主要分别位于胞浆和细胞核中,其表达范围涵盖多聚腺苷酸RNA的六个数量级和非多聚腺苷酸RNA的五个数量级。
  • 大约6%的所有注释编码和非编码转录物与小RNA重叠,很可能是这些小RNA的前体。注释和未注释短RNA的亚细胞定位具有高度特异性。

RNA数据集生成

在15个细胞系中分离RNA之前,我们进行了亚细胞室分离(全细胞、细胞核和胞浆)(表S1)深入询问人类转录组。对于K562细胞系,我们还进行了额外的核亚分离:染色质、核质和核仁。每个亚区的RNA均以复制品的形式制备,并根据长度分为>200核苷酸(nt)(长)和<200核苷酸(短)。长RNA进一步分为多聚腺苷酸和非多聚腺苷酸转录物。利用许多互补技术对这些RNA片段的序列(RNA-seq)、转录起始位点(基因表达的Cap-Analysis of Gene Expression-CAGE)进行了表征9)和5′和3′转录末端的位点(配对末端标记-PET10,图S1). 使用各种软件工具对序列读取进行映射和后处理(表S2,图S2). 我们使用映射数据进行汇总和量化从头开始元素(外显子、转录物、基因、连接体、剪接连接和转录起始位点,TSS)以及量化注释基因码(v7)元素。使用非参数版本(npIDR,补充材料)不可重复检测率(IDR)统计检验11。大多数分析中只使用了被认为具有至少90%可能性的可重复性的元素。原始数据、映射数据和元素随后由ENCODE数据协调中心或DCC提供(http://genome.ucsc.edu/ENCODE/dataSummary.html) (图S2). RNA仪表板上提供了这些数据以及所有中间处理步骤的附加数据:http://genome.crg.cat/encode_RNA_dashboard/.

长RNA表达情况

检测带注释的新抄本

Gencode基因(图S3a)和成绩单(图S3b)参考注释8捕获了我们目前对多腺苷化人类转录组的理解。在这里询问的样本中,我们累计检测到70%的注释剪接连接、转录物和基因(图1、和表1.1). 我们还检测到大约85%的带注释的外显子,RNA-seq连接的平均覆盖率为96%。细胞系中检测到的元素比例变化很小(图1,方框图宽度)。与早期研究一致,大多数注释元素都存在于聚腺苷酸中(表S3a)和非聚腺苷酸(表S3b)样品12-15只有一小部分基因编码元件(0.4%外显子、2.8%剪接位点、3.3%转录物和4.7%基因)仅在非多聚腺苷酸化RNA部分中检测到。

保存图片、插图等的外部文件。对象名为nihms-377835-f0001.jpg
大部分Gencode元素都是通过RNA-seq数据检测到的

所示为细胞隔室的多聚腺苷酸和非多聚腺苷酸部分中Gencode检测到的元素(RNA部分和隔室的累积计数指任何部分或隔室中存在的元素)。每个方框图都是根据所有单元格线的值生成的,因此可以捕获单元格线之间的离散度。最大点显示所有单元格行的累积值。

表1

长聚腺苷和非聚腺苷RNA

1.Gencode(v7)注释元素的表达式
基因类型检测
外显子2
(注释#)
检测
剪接
交叉点2
(注释#)
检测
抄本2
(注释#)
检测
基因2
(注释#)
外显子
核苷酸
新闻报道(%)
数量
基因
以表示
至少一个
细胞系
数量
基因
以表示
只有1个单元格
线
比例
超过基因
表达
(%)
数量
基因
以表示
14个细胞系
比例
超过基因
表达
(%)
长非
编码
22,381
(41,467)
8,017
(26,872)
6,521
(14,880)
5,906 (9,277)87.55,9061, 38623.563110.7
蛋白质
编码
288,322
(318,514)
194,752
(244,158)
59,822
(76,006)
18,939
(20,679)
98.118,9391,0825.710,57155.8
其他1102,000
(133,937)
19,277
(47,663)
45,410
(71,113)
10,649
(21,750)
95.210,6492,453231,89617.8
总计
带注释的
412,703
(493,918)
222, 046
(318,693)
111,753
(161,999)
35,494
(51,706)
96.735,3944,92113.913,09837
2.Gencode(v7)基因间和反义元件的表达
类别检测
外显子2
检测
剪接
接合2
检测
抄本2
检测
基因2
单外显子55,683不适用55,68233,686
多元电子39,11769,05217,6437,518
总计94,80069,05273,32541,204
1包括假基因、miRNA等
2通过npIDR(0.1)的所有元素
检测外显子中累计检测到的核苷酸/检测出的外显子总核苷酸

除了Gencode注释的元件外,我们还观察到大量以可复制RNA-seq连接为代表的新元件。这些新元素覆盖了78%的内含子核苷酸和34%的基因间序列(图S4). 总的来说,每个细胞系对基因组覆盖率的独特贡献往往很小,对于每个细胞系来说都是相似的(图S5). 我们使用了袖扣算法(参见补充材料),并预测了所有长RNA-seq样本中94800个外显子、69052个剪接连接、73325个转录本和41204个基因间和反义区基因(表1.2). 这些新元件使外显子、剪接位点、转录本和基因的基因码收集量分别增加了19%、22%、45%和80%。基因数量的增加和新剪接位点的相对较低贡献主要是由于检测到多聚腺苷酸和非多聚腺苷酸单电子转录物所致(表S3). 未片段化转录物的检测可能部分是人为的,由低水平的DNA污染或转录物结构的不完全测定引起。

使用重叠靶向454生命科学(罗氏)配对读取和质谱法对多基因转录模型和相关预测编码产物进行独立验证。在大约3000个测试的基因间和反义转录模型中,根据读取次数和印尼盾分数。此外,这些实验还鉴定了22000多个以前未检测到的新剪接位点,这意味着与最初用RNA-seq检测到的位点相比,检测量增加了近8倍(图S6). 使用质谱分析,我们研究了新袖扣转录模型中哪些部分显示出与蛋白质表达一致的证据。我们从两种细胞系(K562和GM12878)中产生了998570个光谱,详见Khatun等人。16),并将其映射到新袖扣模型的3帧翻译(补充材料). 以1%的错误发现率(FDR),我们鉴定了419个具有5个或更多光谱和/或2个或更多肽点击的新模型,其中只有56个是基因编码基因的基因间或反义(表S4图S7). 因此,大多数新转录物似乎缺乏蛋白质编码能力。

核亚区转录组

对于K562细胞系,我们还分析了从三个亚核区(染色质、核仁和核质,表S5). 在所有15个细胞系(35494)中检测到的近一半(18330)带有Gencode(v7)注释的基因仅在这三个核亚区的分析中得到鉴定。此外,在K562亚区中发现的新的未标记基因数量与所有其他数据集的总和相同(表S5与。表1.2). 对于所有注释(表S5.1)或新颖(表S5.2)元素,每个子隔间中只有一小部分是该隔间独有的(表S6).

对不同亚细胞RNA组分的查询提供了RNA加工途径中RNA群体状态的快照。因此,通过分析不同亚细胞亚室中的短RNA和长RNA,我们确认剪接主要发生在转录过程中。通过使用RNA-seq来测量拼接的完成程度(图2a)我们观察到,在大多数外显子周围,内含子已经在染色质相关RNA中剪接,这一部分包括转录过程中的RNA(图2b). 同时,我们发现剪接体小核糖核酸(snRNAs)在该RNA片段中有较强的特异性富集(见下面的简短RNA表达景观部分)。共转录剪接为越来越多的证据将染色质结构与剪接调控联系起来提供了解释,我们确实观察到剪接过程中的外显子在许多染色质标记中富集17,18.

保存图片、插图等的外部文件。对象名称为nihms-378385-0002.jpg
共转录拼接

a.外显子剪接完成的短读映射。阅读允许评估外显子周围剪接完成情况的映射。(a、 b、c)读数为包含外显子的区域提供了剪接完成的证据(包含任一外显子,ab公司或排除,c(c)) (d、 e(电子))阅读为包含外显子的区域的剪接尚未完成提供证据。完整的拼接索引(coSI公司)是的比率a+b+c结束a+b+c+d+e因此,可以广泛假设与包含外显子的区域已经剪接的RNA分子部分相对应(参见Tilgner等人。17). A类国际标准化组织值为1表示拼接已完成,而值为0表示拼接尚未启动。

b.根据Gencode内部外显子计算的coSI得分分布:(Top)总染色质RNA分数的分布。(底部)胞浆多聚腺苷化RNA部分的分布。

跨细胞系的基因表达

对从不同亚细胞亚区分离的RNA的分析还提供了有关每个检测到的转录物的区隔特异性相对稳态丰度和转录后处理状态(拼接/未拼接、聚腺苷酸/非聚腺苷酸酶、5′端盖/未盖)的信息。观察到的多聚腺苷化RNA的基因表达范围跨越六个数量级(从10−2到104读每千基每百万读[RPKM])和五个数量级(从10−2到10RPKM)用于非多聚腺苷酸RNA(图3图S8a). 基因表达在细胞系中的分布非常相似,作为一类,蛋白质编码基因的平均表达水平高于长非编码RNA(lncRNA)。假设1-4 RPKM近似于每个单元格1个副本19我们发现,几乎四分之一的表达蛋白编码基因和80%的检测到的lncRNA在我们的样本中以每个细胞1个或更少的拷贝存在。在lncRNAs中测得的基因表达水平普遍较低,可能不一定是由于所调查人群中所有细胞的RNA拷贝数持续偏低,也可能是由于仅在一个细胞亚群中表达受限。在一些细胞系中,单个lncRNAs的稳态表达水平与蛋白质编码基因的稳定表达水平一样高。例如,这在蛋白质编码基因肌动蛋白γ1的表达中可以看到(动作g1)和非编码基因,H19型(图3).行动1转录物是细胞内所有非肌肉细胞骨架系统的一部分,在群体水平上表现出稳定的表达水平,至少比H19型是一种细胞溶质ncRNA。然而,当在单个转录水平上测量时,lncRNA转录物的表达与单个蛋白质编码转录物的表现相当(图S8b).

保存图片、插图等的外部文件。对象名称为nihms-377835-f0003.jpg
细胞区室中基因类型的丰度

所有细胞系中蛋白质编码、长非编码和新基因的核细胞溶质富集(Y轴)与全细胞提取物中总基因表达(X轴)的2D核密度图。只显示所有3种RNA提取物中的基因,以及两个代表性基因(行动1红色和H19型蓝色),其中显示了每个单独细胞系中的表达式。估计的内核密度的实际值由等高线和色度表示。

本研究中预测的新反义和基因间基因包含第三组RNA,其表达水平在10−4到10−1RPKM。作为一类,只有蛋白质编码基因在胞浆中富集,使细胞核成为非编码RNA积累的中心(图3). 其他基因类,如假基因和小注释的ncRNAs,也显示亚细胞室富集(图S9).

所有细胞系表达的高变异性和低成对相关性与lncRNAs比蛋白编码基因对细胞系特异性的贡献更大一致。事实上,当考虑到全细胞多聚腺苷化RNA时,所有表达的lncRNA中有相当一部分(29%)仅在所研究的一个细胞系中检测到,而只有10%在所有细胞系中表达。相反,虽然大部分(53%)表达的蛋白编码基因是构成性的(在所有细胞系中表达),但只有约7%是细胞系特异性的(表S7,图S10).

拼接样式

对替代异构体表达的分析产生了一些观察结果。首先,亚型表达似乎不遵循极简策略。基因往往同时表达许多亚型,随着每个基因带注释的亚型数量的增加,表达的亚型的数量也会增加(图4a). 然而,这种增加不是线性的,似乎稳定在每个基因约10-12个表达亚型。然而,我们无法明显区分这是同一细胞中多种亚型表达的结果,还是在被询问人群的不同细胞中表达的不同亚型的结果。第二,一个基因中的替代亚型没有以相似的水平表达,在给定条件下,一个亚型占主导地位,通常占总基因表达的很大一部分(即使是含有许多亚型的基因,也至少占30%,图4b). 第三,大约四分之三的蛋白质编码基因根据细胞系至少有两种不同的显性/主要亚型(图S11a). 第四,每个基因的主要亚型数量随着注释亚型数量的增加而增加;事实上,基因的比例n个只表达一种主要同种型的同种型与1/n个(图S11b). 第五,基因表达的变异性对跨细胞系转录物丰度的变异性的贡献大于剪接比率的变异性(补充材料).

保存图片、插图等的外部文件。对象名为nihms-377835-f0004.jpg
基因内的等位表达

a.每个细胞系每个基因表达的亚型数量。基因往往同时表达许多亚型。

b.每个细胞系每个基因中最丰富的亚型的相对表达。在给定条件下,通常有一种主要亚型。

选择性转录起始和终止

基于多聚腺苷化RNA的RNA-seq分析,在所有细胞系中共检测到128021个TSS,其中97778个是先前注释的,30243个是新的基因间/反义TSS(表S3a). CAGE标签,通过基于隐马尔可夫模型(HMM)的算法进行筛选,以区分聚合酶II转录物的5′端封顶和重述事件20(补充材料),共确定82783个非冗余TSS(表S8). 大约48%的CAGE鉴定的TSS位于注释RNA-seq检测到的Gencode TSS的500 bp以内,而另外3%位于新TSS的500bp以内(图S12). 有趣的是,只有约72%的CAGE测序结果与TSS对应,这表明剩下的30%可能来源于重述事件或一类新的TSS。

使用ENCODE联盟内收集的数据21,我们对Gencode/RNA-seq和CAGE测定的TSS进行了比较,并将它们与染色质和DNA特征(转录起始的特征)联系起来,例如DNA敏感性22染色质修饰和DNA结合元件23,24在每个细胞系(第1列,图S13). 在这些冗余位置中,44.7%(199146)的RNA-seq支持的TSS也显示出CAGE的证据。大约一半的TSS位置与转录起始的至少一个其他特征特征(DNAse I、H3K27Ac和H3K4me3染色质修饰)相关。因此,只有少数通过CAGE或RNA-seq/Gencode鉴定的TSS显示了转录起始的所有特征(存在DNAseI、H3K4me3、H3K27ac位点和Taf1或Tbp结合)。这与TSS附近的调节区可能有多种类型的情况相一致。

另一方面,在用长末端聚腺嘌呤延伸对未映射的RNA-seq读进行修剪后,注释的Gencode转录本内共有128824个位点定位被确定为潜在的聚腺苷酸化位点25约20%的这些标记接近注释的多聚腺苷酸化位点(PAS),而其余80%对应注释基因的新PAS,将每个基因的平均PAS数从1.1提高到2.5。一般来说,与细胞核相比,我们在胞质溶胶中观察到对近端PAS(最接近注释的终止密码子)的细胞类型偏好(补充材料).

短RNA表达情况

带注释的小RNA

目前,共有7053个小RNA被Gencode注释,其中85%对应于四大类:小核(sn)RNA、小核仁(sno)RNA、微(mi)RNA和转移(t)RNA(表2a). 总的来说,我们发现28%的注释小RNA在至少一个细胞系中表达(表2a). 带注释的小RNA在细胞溶质和核间的分布差异显著(图S14a). 我们发现,小RNA类在那些已知发挥其功能的细胞室中富集:细胞溶质中的miRNAs和tRNAs,以及细胞核中的snoRNAs。有趣的是,snRNAs在细胞核和胞质溶胶中都同样丰富。然而,当专门询问K562细胞系的亚核区时,在染色质相关RNA部分中,snRNAs似乎非常丰富(图S14bc). 这种显著的富集与剪接主要是共转录相一致17,26.

表2

短RNA

a.Gencode(v7)注释的小RNA基因的表达
基因类型1.Gencode总计检测到的基因(%
检测到)
#表达的基因
仅在1个细胞系中(%
检测到)
#表达的基因
在12个细胞系中(%
检测到)
miRNA指南
片段
微小RNA
乘客
片段4
内部碎片5
带注释的小写
RNA(平均每
检测基因)
微小RNA1,756497 (28)59 (12)147 (30)454 (454)175 (175)18
snoRNA1,521458 (30)73 (16)223 (49)不适用不适用60
snRNA1,944378 (19)123 (33)41 (11)不适用不适用36
tRNA624465 (75)29 (6)197 (42)不适用不适用52
其他21,209191 (16)69 (36)24 (13)不适用不适用32
总Gencode7,0541,989 (28)353 (18)632 (32)不适用不适用40
b.未标记短RNA的表达
单元格
隔间
未注明
短RNA
异国情调的基因内外显子-内含子
边界
天才基因-
基因间
边界
基因间的
细胞57,39314,11613,7731,81829,70713,04825,906
82,29719, 33440, 1365,24864,7187,41716,289
细胞溶质25,4556,1835,60566512,4536,63112,447
3个隔间150,16538,96955,0617,552101,58223,18545, 081
1包括除假基因外的所有其他Gencode小转录生物型
2所有已通过npIDR(0.1)的元素
带有明确注释指南(带有注释指南的mirbase)的检测到的miRNAs数量
4带有带注释的乘客(带有带注释乘客的mirbase)的检测到的miRNAs数量
5短RNAseq作图,5′端在检测基因开始后5 bp开始,结束前5 bp

未命名的短RNA

我们检测到两种未标记的短RNA。第一种类型对应于带注释的小RNA的子片段。由于我们对小RNA片段进行了36 nt末端测序,我们预计RNA-seq读取会映射到小RNA的5′末端。图S15显示了沿着小RNA基因读取的映射图。在核和细胞溶质室中,我们确实检测到snoRNAs开始时以及注释miRNAs的引导序列和乘客序列中的阅读积累。然而,对于snRNAs,我们观察到三个显著的峰值:预期的一个位于基因的5′端,两个较小的峰值位于基因的中间和3′端,这表明一些snRNAs片段化。最后,tRNAs似乎没有任何显著的5′端片段集,其水平高于注释的5′末端。虽然以前曾报道过成熟tRNA的亚片段,但这些报道仅限于少数tRNA基因的不同等位基因27-29.

未标记短RNA的第二大来源与新的短RNA相对应(表2b)在带注释的地图之外的那张地图。其中近90%仅在一个细胞系中观察到,并且拷贝数较低。这些未注释的短RNA中,近40%与注释基因的启动子和终止区域(启动子相关的短RNA[PASRs],末端相关的短RNAs[TASRs])相关,它们相对于TSS和转录终止位点的位置与以前发现的相似4.

短RNA的系谱

全基因组范围内,27%的注释小RNA位于蛋白质编码的8%内,5%位于lncRNA基因的3%内(图S16). 总的来说,约6%的注释长转录本与小RNA重叠,很可能是这些小RNA的前体。虽然这些小RNA大多位于内含子中,但当控制相对外显子/内含子长度时,我们发现lncRNAs的外显子作为snoRNAs宿主相对富集(图S17a). 此外,8.4%的Gencode注释的小RNA在新的基因间转录物中映射,大多数重叠注释的tRNA。tRNAs的富集主要是来自非多腺苷酸RNA的新基因间转录物(图S17b). 因此,许多新的和注释的长RNA似乎具有双重作用,既作为功能(蛋白质编码)RNA,又作为许多重要类别的小RNA的前体。利用K562的RNA-seq数据,我们研究了这些RNA前体的优先细胞定位(图S18). 对于成熟的miRNA和tRNA(胞质富集),被鉴定为与小RNA重叠的RNA-seq重叠群的潜在RNA前体主要是细胞核(图S18a、d). 有趣的是,虽然成熟的snRNAs既有核又有胞质,但重叠的长RNAs主要是核的(图S18c). 最后,对于snoRNAs(核富集),可以明确地观察到潜在的长RNA前体是核的和细胞溶质的(图S18b). 未命名的短RNA在核或细胞溶质中均未富集(图S18e).

RNA编辑和等位基因特异表达

由于转录后编辑的结果,转录序列可能与基础基因组序列不同。我们开发了一种管道来过滤测序工件并识别RNA编辑的基因30首先将重点放在GM12878,一个已被深度重测序的细胞系上,我们发现基因边界内共有51557个RNA一致的单核苷酸变体,其中65%存在于dbSNP中。其余的430个基因中有1186个SNV(图S19a)在我们最严格的过滤器中存活下来,其中88%是腺苷到肌苷A->G(I)的候选变化。值得注意的是,第二高频率的SNV是T->C(5%),并且主要位于可检测到反义转录的区域30在另外7个细胞系中,我们发现类似的A->G(I)频率为75-84%(图S19b). 剩余的非规范编辑在每个细胞系中的事件很少,并且分布相对均匀(G->A是第三高的)。这些结果不支持最近关于人类淋巴母细胞RNA中大量非规范SNV编辑的报道31.

使用AlleleSeq管道32在GM12878基因组中的SNP上,我们发现约18%的Gencode注释蛋白编码基因和长非编码基因都表现出等位基因特异性表达(ASE)。在所研究的三种RNA组分(全细胞、细胞质和细胞核,表S9补充材料).

重复区域转录

大约18%(14828)的CAGE定义的TSS区域重叠重复元件。更准确地说,我们发现322、315、507和1262个基因间CAGE簇分别与LINE、SINE、LTR和其他重复元件重叠(参见补充材料). 通过测量细胞系的Shannon熵,我们发现,与基因区域内的CAGE聚类映射相比,映射到重复区域的CAGE簇的表达范围更窄(图S20a). 我们将表达水平与细胞类型的相关性表示为三个重复元件家族(LINE、SINE和LTR)中每一个单独绘制的热图(图S20b-d). 虽然人类基因组中的大部分转录物被认为是由重复元件(尤其是逆转录转座子元件)启动的33)这些数据清楚地表明,细胞系特异性是来自重复区域的转录物的主要特征。

增强子RNA的特性

最近有报道称,RNA聚合酶II结合一些远端增强子区域,并能产生名为eRNA的增强子相关转录物34-36。我们使用我们的RNA分析来检测和表征从ENCODE ChIP-seq数据预测的全基因组增强子基因座的转录活性21,37.

图5a显示了RNA-seq和CAGE信号在含有DNAse I超敏位点的预测基因增强子子集周围以链特异性方式聚集的模式,并以这些位点为中心。在这些图中,如表示转录起始位点(TSS)的CAGE标记的积累所示,可以观察到增强子区域内的转录起始,并持续向外数千个碱基。这种行为可以在内含子和基因间区域的多聚腺苷酸和非多聚腺苷酸RNA组分定位中观察到。如前所述34,我们观察到每个转录的增强子的表达水平有很大的多样性。不同增强子的多聚腺苷酸与非多聚腺苷酸RNA比率以及核质比率不同(图S21ab). 然而,与之前的一些报告相反,虽然大多数eRNA普遍存在于核非多聚腺苷酸RNA部分,但一些eRNA似乎在核中存在多聚腺苷酸。与Gencode注释和新预测的转录本相比,这种模式有显著差异21发起人(图5b).

保存图片、插图等的外部文件。对象名为nihms-377835-f0005.jpg
增强子转录

a.增强子预测周围RNA元素的模式21,37含有DNase I超敏(HS)位点。这些线代表了由DNase I HS位点确定的增强子预测中心周围基因组窗口中RNA元素的平均频率(顶部:聚腺苷酸长RNA连接;中部:CAGE标记簇;底部:非多腺苷酸短RNA连接)。正链上的元素显示为红色,负链上的组件显示为蓝色。

b.增强子转录本不同于启动子转录本。

盒图比较了预测增强子基因座的转录物与预测的新基因间启动子的特征21和带注释的发起人8H3k4me3、PolyA+和Nucleus表示以下3个比率:H3k4me3/。与H3K4me3相比,增强子的H3k4me1水平高于新的或带注释的启动子(左)。相对于启动子,增强子转录物显示出更高水平的非聚腺苷酸(中间)和核(右)RNA。

c.转录增强子的染色质状态。

带有转录证据的增强预测(蓝色;预测位点存在Cage标签)显示组蛋白修饰的不同模式,RNA聚合酶II结合水平高于非转录预测(红色)。它们因H3K27乙酰化、H3K4甲基化、H3C79二甲基化而富集,因H3K27三甲基化而耗尽。

d.增强活性和转录是细胞类型特异性的。

基因座预测为GM12878细胞中的活性转录增强子,在其他细胞系中CAGE标签(顶部)和H3K27乙酰化(底部)显示低信号。

转录增强子平均显示出与非转录增强子显著不同的染色质修饰模式38-41增强区显示出更强的H3K4甲基化、H3K27乙酰化和H3K79二甲基化信号,以及更高水平的RNA聚合酶II结合,所有这些都与转录起始和延伸有关(图5c). 转录物和染色质状态都是细胞类型特异性的(图5d). 以GM12878细胞株为例,产生eRNA的增强子位点显示了CAGE标签检测的丰富性(图5d.1)以及H3K27ac组蛋白修饰的存在(图5d.2)与其他五种分析细胞系进行比较。这强烈表明,调控增强子转录物表达的调控区域与位于基因区域开始的调控区域不同。

结论:人类基因组转录区的全基因组覆盖率及其后果

人类基因组中15个细胞系中转录区的累计覆盖率为62.1%,加工转录和初级转录的累积覆盖率为74.7%(表S10图S22). 每个细胞系平均39%的基因组被初级转录物覆盖,22%被加工RNA覆盖。在所有细胞系中,没有一个细胞系的转录表达量超过56.7%。将当前RNA-seq数据映射到ENCODE引导区域时(表S10)我们观察到,处理RNA的转录覆盖率为73.3%,初级转录物的转录覆盖度为84.5%,虽然更高。这些地区先前报告的加工和原始转录本估计值分别为24%和93%(表S2.4.3). 加工RNA增加的基因组覆盖率在很大程度上源于当前研究中包含的非多聚腺苷酸RNA。除此之外,考虑到所研究样本的差异、高基因含量试点区域的选择、随时间推移注释基因组区域的增加以及用于询问转录的不同技术,这两种估计值都是合理一致的。

由于新亚型的发现和新基因间转录物的鉴定扩大了基因区域,基因间区域的数量显著增加(从32481个增加到60250个),这是因为它们的片段化和长度减少(从14170 bp到3949 bp的中间长度,图6). 同时,我们观察到基因区域的重叠增加。由于基因区域的确定目前是由亚型的累积长度及其与表型特征的遗传关联来定义的,基因间区域长度的可能持续减少将稳步导致以前被认为是不同遗传位点的大多数基因的重叠。这支持并符合早期对高度交错转录基因组的观察12但更重要的是,这促使人们重新考虑基因的定义。由于这是注释基因组的一致特征,我们建议将转录本视为遗传的基本原子单位。伴随而来的是,术语基因将表示一个更高阶的概念,意在捕获所有有助于特定表型性状的转录物(最终与其基因组位置分离)。

保存图片、插图等的外部文件。对象名称为nihms-377835-0006.jpg
基因间区的大小分布

新基因增加了小基因间区域的比例;ig/as=基因间/反义。

补充材料

1

单击此处查看。(2.9M,pdf)

致谢

这项工作得到了国家人类基因组研究所(NHGRI)生产拨款(编号:U54HG004557、U54HG2004555、U54HG004576和U54HG1004558)以及NHGRI试点拨款(编号R01HG003700)的支持。它还得到了NHGRI ARRA刺激拨款1RC2HG005591、国家科学基金会(SNF)拨款127375、欧洲研究委员会(ERC)拨款249968、日本教育、文化、体育、科学和技术部对RIKEN Omics科学中心的研究拨款以及BIO2011-26205拨款的支持,CSD2007-00050和西班牙科学部的INB GNV-1。我们还要感谢克里斯·冈特和温迪·斯皮策对手稿的编辑协助。

脚注

作者信息一套完整的数据文件可以在GEO下载,包括以下材料:GSE26284(CSHL,长RNA)、GSE33480(加州理工学院,A+RNA-seq)、GSE24565(CSHL,短RNA)、GSE33600(GIS,RNA-PET)、GSE34448(RIKEN,CAGE),也可以在UCSC基因组浏览器上查看http://genome-preview.ucsc.edu/ENCODE/。重印和权限信息可访问www.nature.com/reprints网站.

方法总结:见补充材料

作者贡献

领导项目并监督分析:T.R.G.、R.G.,P.C.、B.W.、Y.R.、M.C.G.、G.H.、S.E.A.、A.R.、T.H.、M.G.、Y.H.监督或对数据生成做出重大贡献:C.A.D.、X.R.,B.A.W.、P.C.,对数据处理和分析的主要贡献:S.D.、A.M.、T.L.、A.M.M.、A.T.T.、J.L.、J.L、W.L.、F.S.、C.X.、G.K.M.、J.K.、C.Z.、J.R.、L.、M.R.、F.K.、J.H。数据生成和分析:R.F.A.、T.A.、I.A.、M.T.B.、N.S.B.、P.B.、K.B.、I.B.、S.C.、X.C.、J.C.、J.C.M.S.、H.T.、H.T、D.T.、N.W.、H.W.、J.W.、Y.Y。根据作者的意见撰写手稿:T.R.G.和R.G。

工具书类

1Mattick JS公司。细胞和发育生物学中的长非编码RNA。精液细胞开发生物学。2011;22:327.doi:S1084-9521(11)00077-2[pii]10.1016/j.semcdb2011.05.002。[公共医学][谷歌学者]
2ENCODE(DNA元素百科全书)项目科学。2004;306:636–640.doi:306/5696/636[pii]10.1126/science.1105136。[公共医学][谷歌学者]
三。Birney E等人。通过ENCODE试点项目鉴定和分析人类基因组中1%的功能元件。自然。2007;447:799–816.doi:10.1038/nature05874。[PMC免费文章][公共医学][谷歌学者]
4Kapranov P等人的RNA图谱揭示了新的RNA类别和普遍转录的可能功能。科学。2007;316:1484–1488.doi:1138341[pii]10.1126/science.1138341。[公共医学][谷歌学者]
5Kapranov P,Willingham AT,Gingeras TR。全基因组转录及其对基因组组织的影响。Nat Rev基因。2007;8:413–423.doi:nrg2083[pii]10.1038/nrg2083。[公共医学][谷歌学者]
6Coffey AJ等。基因外显子组:对完整的人类外显子进行测序。《欧洲人类遗传学杂志》。2011;19:827–831.doi:ejhg201128[pii]10.1038/ejhg.2011.28。[PMC免费文章][公共医学][谷歌学者]
7Harrow J等人。GENCODE:为ENCODE生成参考注释。基因组生物学。2006;7(补充1):S4,1-9。doi:gb-2006-7-s1-s4[pii]10.1186/gb-2006-7-s1-s4。[PMC免费文章][公共医学][谷歌学者]
8Harrow J.e.a.GENCODE:ENCODE项目的参考人类基因组注释。基因组研究。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
9Kodzius R等人。CAGE:基因表达的cap分析。自然方法。2006;:211–222.doi:nmeth0306-211[pii]10.1038/nmeth0506-211。[公共医学][谷歌学者]
10Ng P等人。用于转录组表征和基因组注释的基因识别签名(GIS)分析。自然方法。2005;2:105–111.doi:nmeth733[pii]10.1038/nmeth73。[公共医学][谷歌学者]
11Li Q、Brown JB、Huang H、Bickel PJ。测量高通量实验的再现性。应用统计学年鉴。2011;5:1752–1779. [谷歌学者]
12程杰,等。人类10条染色体的5核苷酸分辨率转录图谱。科学。2005;308:1149–1154.doi:1108625[pii]10.1126/science.1108625。[公共医学][谷歌学者]
13.Katinakis PK,Slater A,Burdon RH。真核生物的非聚腺苷酸mRNA。FEBS通讯。1980;116:1–7.doi:0014-5793(80)80515-1[pii][公共医学][谷歌学者]
14Milcarek C,Price R,Penman S.HeLa细胞中聚(a)负mRNA部分的代谢。单元格。1974;:1–10.doi:0092-8674(74)90030-0[pii][公共医学][谷歌学者]
15.Salditt-Georgieff M,Harpold MM,Wilson MC,Darnell JE.,Jr.大型异质核核糖核酸的5′端帽的数量是聚腺苷酸片段的三倍,大多数帽不进入多核糖体。摩尔细胞生物学。1981;1:179–187. [PMC免费文章][公共医学][谷歌学者]
16Khatun J等人。ENCODE细胞系数据的全人类基因组蛋白质基因组图谱:识别蛋白质编码区。基因组研究。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
17Tilgner H等人。亚细胞RNA组分的深度测序表明,剪接在人类基因组中主要是共转录的,但对lncRNAs无效。基因组研究。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
18Tilgner H等人。ENCODE数据的基因组分析揭示了表观染色质标记和选择性剪接之间的广泛联系。基因组研究。2012;XXX(XXX) [谷歌学者]
19Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628.doi:nmeth.1226[pii]10.1038/nmeth.1226。[公共医学][谷歌学者]
20转录后处理产生多种5′修饰的长RNA和短RNA。自然。2009;457:1028–1032.doi:nature07759[pii]10.1038/nature0775%。[PMC免费文章][公共医学][谷歌学者]
21联合会,T.E.p.《人类基因组DNA元素综合百科全书》。自然。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
22.Thurman R.E.E.a.人类基因组的可访问染色质景观。自然。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
23Gerstein M.B.e.a.从ENCODE数据导出的人类调节网络架构。自然。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
24Wang J.e.a.119个人类转录因子结合位点的全基因组定位。自然。2012;XXX(XXX) [谷歌学者]
25Fu Y等。通过高通量测序对人类乳腺癌和正常细胞中串联3′UTR的全基因组差异分析。基因组研究。2011;21 [PMC免费文章][公共医学][谷歌学者]
26Ameur A等人。总RNA测序揭示了人类大脑中的新生转录和广泛的共转录剪接。自然结构与分子生物学。2011;18:1435–1440.doi:10.1038/nsmb.2143。[公共医学][谷歌学者]
27.Cole C等。深度测序数据的过滤揭示了大量来源于tRNAs的Dicer-dependent小RNA的存在。RNA。2009;15:2147–2160.doi:rna.1738409[pii]10.1261/rna.1738609。[PMC免费文章][公共医学][谷歌学者]
28Kawaji H等人。人类小RNA的隐藏层。BMC基因组学。2008;9:157.doi:1471-2164-9-157[pii]10.1186/1471-2164-9-157。[PMC免费文章][公共医学][谷歌学者]
29Lee YS、Shibata Y、Malhotra A、Dutta A。一类新的小RNA:tRNA-derived RNA片段(tRFs)基因发育。2009;23:2639–2649.doi:23/22/2639[pii]10.1101/gad.1837609。[PMC免费文章][公共医学][谷歌学者]
30Park E,Williams B,Wold B,Mortazavi A.人类ENCODE RNA-seq数据中RNA编辑的调查(GRCP043)基因组研究。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
31Li M等。人类转录组中广泛存在的RNA和DNA序列差异。科学。2011;333:53–58. [PMC免费文章][公共医学][谷歌学者]
32Rozowsky J等人。AlleleSeq:网络框架中等位基因特异表达和结合的分析。分子系统生物学。2011;7:522.doi:msb201154[pii]10.1038/msb2011.54。[PMC免费文章][公共医学][谷歌学者]
33Faulkner GJ等。哺乳动物细胞的调节逆转录转座子转录组。自然遗传学。2009;41:563–571.doi:ng.368[pii]10.1038/ng.368。[公共医学][谷歌学者]
34Kim TK等。神经元活性调节增强子的广泛转录。自然。2010;465:182–187.doi:nature09033[pii]10.1038/nature09043。[PMC免费文章][公共医学][谷歌学者]
35Ren B.转录:增强子产生非编码RNA。自然。2010;465:173–174.doi:465173a[pii]10.1038/465173a。[公共医学][谷歌学者]
36Wang D,等。通过eRNA功能定义的不同类别的增强子对转录进行重新编程。自然。2011;474:390–394.doi:nature10006[pii]10.1038/nature10006。[PMC免费文章][公共医学][谷歌学者]
37Yip KY等。基于100多个转录相关因子的实验确定的结合位点的人类基因组区域分类。基因组生物学。2012(印刷中)[PMC免费文章][公共医学][谷歌学者]
38霍夫曼M.e.a.从编码数据对染色质元素进行综合注释。基因组研究。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
39Arvey A,Agius P,Noble WS,Leslie C.细胞型特异性转录因子结合的序列和染色质决定簇。基因组研究。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
40Kundaje A.e.A.转录调控元件染色质景观的普遍异质性和不对称性。基因组研究。2012;XXX(XXX) [PMC免费文章][公共医学][谷歌学者]
41Miller B.e.a.整个细胞周期染色质结构的预编程。基因组研究。2012;XXX(XXX) [谷歌学者]