全基因组测序方法揭示了越来越多的转录非编码序列(ncRNA),包括与转录沉默和染色体完整性相关的基因组异色区的“普遍转录”(1,2). 在小鼠中,异染色质由中心(次要)和中心周围(主要)卫星重复组成,这是形成有丝分裂纺锤体复合体和染色体分离所必需的(三),而人类卫星重复序列被划分为具有类似功能的多个类别(4). 小鼠和人类细胞系中卫星转录物的积累是DNA去甲基化、热休克或诱导凋亡的结果,其过度表达与基因组不稳定性有关(5,6). 培养细胞中应激诱导的卫星转录也与编码RNA聚合酶活性的逆转录因子的激活有关,如长散布核因子1(LINE-1)(L1TD1号机组) (7,8). 由于微阵列平台倾向于注释编码序列,并且在标准分析程序中明确排除了重复序列,因此未对原发性肿瘤中重复性ncRNA的全球表达进行分析。
我们使用了下一代数字基因表达(DGE)方法(9)获得原发性肿瘤转录组的全面视图。我们首先评估了小鼠胰腺导管腺癌(PDACs)通过胰腺靶向表达激活的喀斯特和损失Tp53型(10). 这些肿瘤是人类PDAC的组织病理学和基因模拟物,几乎普遍显示PDAC的基因突变KRAS公司癌基因和显示频繁丢失的TP53型肿瘤抑制基因。值得注意的是,在第一个PDAC中测序的47%的转录物(468359个转录物/百万分之一;tpm)没有注释并映射到主要的小鼠卫星上,这只占正常胰腺或肝脏转录物的0.02%至0.4%。在肿瘤中,在正、反义方向都发现了卫星读数,纯化的聚腺苷酸RNA中没有卫星读数。转录物的数量是正常组织的100倍以上,肿瘤中的卫星读数是正常组织mRNA转录物的3600倍Gapdh公司(甘油醛-3-磷酸脱氢酶)看家基因。我们将DGE分析扩展到其他具有不同基因型的小鼠肿瘤:9个PDAC中的7个、3个结肠癌中的2个和2个肺癌中的2个中的卫星表达增加(范围为12236-160186 tpm)(和表S1). 在过表达卫星的原发性肿瘤中,所有RNA在编码、核糖体和其他nc转录物中的复合分布与正常组织有显著差异()这表明细胞转录机制受到卫星大规模表达的影响。根据下一代DNA数字拷贝数变异分析,卫星基因组扩增并不能解释这些转录物异常丰富的原因,这意味着异染色质的转录去表达可能是一种驱动机制(表S2).
小鼠胰腺肿瘤中主要卫星的大量表达。(A)主要卫星在原发性肿瘤、细胞系和正常组织中的表达,以每百万对齐基因组读取的转录本表示。所有肿瘤和细胞株都有KrasG12D系列; 删除的基因单独列出(Tp53型,Smad4公司、和亚太区).(B)主要卫星序列读取贡献的图形表示,在所有原发肿瘤与正常组织(胰腺和肝脏)之间取平均值。“未命名RNA”表示读取与小鼠基因组对齐,而不是与小鼠参考转录组对齐。
小鼠PDAC的Northern blot表明,主要卫星衍生转录物的范围从100个碱基对(bp)到5 kbp()与建议的主要转录物的切割一致骰子1(11)其在卫星表达增加的小鼠胰腺肿瘤中的表达高2.6倍(P(P)= 0.0006,t吨测试)。从三种卫星过表达的PDAC建立的永生细胞系显示出卫星的最低表达(范围为173至433 tpm),这表明在体外条件下要么是负选择压力,要么是卫星沉默机制的重建。5-氮杂胞苷(AZA)治疗导致卫星的大规模再表达,支持DNA甲基化作为体外卫星沉默的潜在机制(). 将已建立的PDAC细胞系(CL3)接种到裸鼠体内以产生皮下肿瘤(n=5)导致卫星的再表达,这表明这些位点在体内被释放(). 除肺外,大多数正常成年小鼠组织的卫星表达量最低,但未分离的5-kbp卫星转录物在胚胎组织中表达(图S1). 因此,原发性胰腺肿瘤中卫星的异常表达似乎并不是简单地重述胚胎细胞的命运,而是可能反映了原发性5-kbp卫星转录物处理的改变。
肿瘤和正常小鼠组织中主要卫星的表达模式。Northern印迹分析:(A)三个喀斯特G12D系列,Tp53型液氧/+胰腺原发肿瘤(肿瘤1-3)和来源于肿瘤3的稳定细胞系(CL3)。(B)CL3在AZA治疗前(0)和治疗后(+)。(C)体外培养的CL3细胞在体内作为皮下肿瘤生长。(D和E)带有主要卫星探针的RNA-ISH(紫色染色):(D)正常胰腺、原发性PDAC和肝转移。(E) 癌前低级别PanIN(LP)病变毗邻高级别PanIN和正常胰腺(N)。高倍放大(400×)插入低级别(左)和高级别(右)PanIN病变。所有图像均为200倍放大倍数(比例尺,100μm)。
RNA原位杂交(RNA-ISH)显示小鼠主要卫星蛋白在原发肿瘤和转移瘤的所有细胞中都有高水平表达(). 值得注意的是,在早期癌前低级别胰腺上皮内瘤变(PanIN)中卫星表达明显升高,并且在向高级别PanIN转变时进一步增加(). RNA-ISH对明确定义的肝脏转移病灶呈强阳性,肝实质内的小簇PDAC细胞也呈阳性,否则组织病理学分析无法检测到(图S2). 在小鼠胚胎肝和肺中可见低水平弥漫表达(图S3)但没有正常成人或胚胎组织的卫星表达与肿瘤细胞中的卫星表达相比。
为了研究人类肿瘤是否也过度表达卫星ncRNAs,我们将DGE分析扩展到各种人类恶性肿瘤,尤其是PDAC。我们首先测量了所有卫星转录本的总量:对15个PDAC的分析显示,与正常胰腺相比,其表达中位数增加了21倍,但其他一些正常人体组织也具有可测量的卫星表达总量(图S4和表S3). 然而,人类卫星在其多个类别中的细分(4)揭示了肿瘤和所有正常组织之间的主要差异(). 癌组织中差异表达最大的是着丝粒旁卫星HSATII(平均2416 tpm;卫星读数的10.3%),在正常人胰腺中检测不到,在其他正常组织中表达最小(差异表达131倍;). 相比之下,正常组织中GSATII、β卫星(BSR)和TAR1的代表性较高,尽管这些卫星类别在胰腺癌的卫星读数中仅占少数。正常表达的人类卫星中数量最多的一类,alpha(ALR)(12)在正常人胰腺中表达294 tpm,但在PDAC中平均表达12535 tpm(卫星读数的60.3%;差异表达的43倍)。因此,尽管人类ALR的过度表达与小鼠主要卫星的过度表达相当,但不太丰富的HSATII对人类PDAC具有特殊的特异性。其他人类癌症中也观察到高水平的HSATII,包括肺癌(2例中的2例)、肾脏(2例,2例),卵巢(2例)和前列腺(3例,3例),表明这可能是各种癌症的共同特征(平均2820 tpm;).
人造卫星在人类癌症中的过度表达。(A)人类PDAC(黑色,n个=15)和正常人体组织(白色,n个= 12). 卫星的排列顺序是从肿瘤的最高到正常组织的最高(从左到右)。误差条代表SEM。插图(条形图,中间)显示了富含癌症(左侧,黑色条)或正常组织(右侧,白色条)的选定卫星类别的差异表达。(B)HSATII在人类PDAC、正常胰腺、其他癌症(L、肺癌、K、肾脏、O、卵巢、P、前列腺)和正常人类组织(1,胎儿脑;2,成人脑;3,结肠;4,胎儿肝;5,成人肝;6,肺;7,肾;8,胎盘;9,前列腺;10,子宫)中的表达通过DGE定量。卫星表达显示为与人类基因组一致的百万分之转录物(tpm)。(C和D)HSATII探针RNA-ISH(红色染色):(C)人PanIN(P)和正常邻近组织(N)。(D) EUS-FNA活检确诊肿瘤(T)和正常邻近组织(N)。所有图像均放大200倍(比例尺,100μm)。
人类组织的RNA-ISH分析显示HSATII在PDAC和PanIN中的差异表达(n个=4)与正常邻近组织以及慢性胰腺炎相比(n个= 8) (和图S5). 当我们对胰腺肿块的临床样本[经内镜超声引导细针抽吸(EUS-FNA)]进行此项检测时,在10例手术切除时确诊患有胰腺癌的患者中,有10例发现了HSATII-阳性细胞,其中包括两例FNA组织病理学诊断为非诊断性的患者(). 这些初步结果表明,HSATII作为潜在的癌症生物标志物值得进一步研究。
为了确定肿瘤中与卫星共同调控的其他转录物,我们对小鼠(主要卫星)和人类(ALR卫星)进行了线性回归分析(图S6). 使用的线性相关截止值R(右)>0.85,我们创造了两组高度相关的基因(小鼠:297个基因,表S4; 人类:539个基因,表S5)我们称之为卫星相关基因(SCG)。小鼠和人类SCG富含转座因子,自主反转录转座子LINE-1在肿瘤中的表达水平最高(). 除了转座子外,细胞mRNA的一个子集与不同组织中卫星的表达高度相关。缺乏共享的转录沉默机制可能有助于LINE-1和卫星的去表达,但不同mRNAs表达的增加不太容易解释。最近,细胞转录物转录起始位点上游的LINE-1插入与基因调控有关(13–15),引导我们测试基因LINE-1插入与SCG的接近性。在小鼠中,SCG与其到LINE-1基因组插入的距离有显著相关性(). 人类SCG也有类似的可测量效应,尽管最有可能受到人类基因组中LINE-1插入的异质性的抑制(16–18) (图S7). 总之,这些观察结果表明,肿瘤相关的卫星去表达与LINE-1的表达增加以及与该逆转录转座子密切相关的细胞基因子集高度相关。
卫星表达与LINE-1和细胞转录谱的相关性。(A)小鼠主要卫星与LINE-1表达的线性相关。(B)在LINE-1的给定距离内,小鼠SCG(蓝色)与预测(红色)转录起始位点的分数。在10 kbp(黑线)距离处进行富集计算。(C)小鼠PDAC对神经内分泌标记嗜铬粒蛋白A的免疫组织化学研究。肿瘤被描述为嗜铬粒素A染色增强的功能(棕色),每个肿瘤的主要卫星表达相对水平(底部;所有转录物的百分比)。图像放大200倍(比例尺,100μm)。(D)差异表达(问<0.05)ALR卫星水平高(黑色)与低(白色)的人类PDAC中的神经内分泌基因。误差条代表SEM。
在构成SCG的细胞转录物中,297个小鼠SCG中的190个和539个人类SCG中的206个被DAVID基因本体程序识别(19,20); 在这两个物种中,转录物都高度富集了与神经细胞命运和生殖或干细胞途径有关的基因(表S6). 神经内分泌分化已被描述为多种上皮性恶性肿瘤,包括胰腺癌(21)它与前列腺癌的侵袭性增加有关(22). 在小鼠PDAC中,我们观察到神经内分泌标记物嗜铬粒蛋白a的卫星表达水平与癌细胞染色数量之间存在显著相关性()而在人类PDAC中,神经内分泌标记物突触囊泡2相关蛋白(高级副总裁)和突触蛋白2(SYN(同步))与ALR卫星高表达相关(和表S7). 总之,这些数据表明,异色ncRNAs表达的全球变化可能影响与癌症相关的已知细胞分化程序。
总之,我们已经从小鼠肿瘤模型中的主要卫星以及人类胰腺癌和其他上皮癌中的ALR和HSATII卫星中鉴定出大量生成的双向ncRNAs。卫星重复序列过度表达的发现是由于下一代DGE方法的发展而得以实现的,该方法为传统分析程序中排除的高度重复序列提供了定量和序列特异性测量。事实上,小鼠和人类肿瘤中卫星序列的BLAST序列匹配首次确定了最近完成的寄生虫基因组中的序列(见支持联机文本). 虽然还需要进一步分析来探讨癌组织中卫星异常表达的机制和后果,但我们假设这可能是由于染色体标记的普遍去表达影响卫星和LINE-1逆转录转座子,接近LINE-1激活,影响富含神经内分泌规范的细胞基因的表达。目前的证据表明,DNA甲基化和组蛋白H3赖氨酸9(H3K9)三甲基化对维持卫星抑制至关重要(14)这些表观遗传标记的失调与致癌有关。所有已知表观遗传调控因子的靶向DGE分析(23)在小鼠和人类肿瘤中显示出不同的表达模式,但没有单一一致的异常(表S8至S10). 最后,卫星和LINE-1放松调控作为多种上皮性癌的一致生物标记物的潜在重要性值得进一步临床测试。