自然遗传学。作者手稿;PMC 2012年2月1日提供。
以最终编辑形式发布为:
预防性维修识别码:PMC3145050
NIHMSID公司:NIHMS299446
不同癌症类型表观遗传域甲基化变异增加
,1,2,* ,2,三,4中,* ,2,5,* ,2,6,* ,1,2,* ,2,7 ,2,三 ,8 ,2,三 ,9 ,2,三 ,9 ,1,2,†和2,三,†
卡斯珀·丹尼尔·汉森
1美国马里兰州巴尔的摩约翰霍普金斯彭博公共卫生学院生物统计系
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
温斯顿·蒂姆
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
三美国马里兰州巴尔的摩约翰霍普金斯大学医学院医学系
4美国马里兰州巴尔的摩约翰霍普金斯大学生物医学工程系
赫克托·科拉达·布拉沃
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
5美国马里兰州大学计算机科学系生物信息学和计算生物学中心
萨文·萨宾西扬
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
6美国马里兰州巴尔的摩约翰霍普金斯大学医学院儿科
本杰明·兰米德
1美国马里兰州巴尔的摩约翰霍普金斯彭博公共卫生学院生物统计系
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
奥利弗·麦克唐纳
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
7美国马里兰州巴尔的摩约翰霍普金斯大学医学院病理学系
博文
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
三美国马里兰州巴尔的摩市约翰斯·霍普金斯大学医学院医学系
郝武
8美国佐治亚州亚特兰大埃默里大学罗林斯公共卫生学院生物统计和生物信息学系
刘云
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
三美国马里兰州巴尔的摩约翰霍普金斯大学医学院医学系
Dinh Diep餐厅
9美国加州大学圣地亚哥分校基因组医学研究所和医学工程研究所生物工程系
埃里库尔·布里姆
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
三美国马里兰州巴尔的摩约翰霍普金斯大学医学院医学系
Kun Zhang(张坤)
9美国加州大学圣地亚哥分校基因组医学研究所和医学工程研究所生物工程系
拉斐尔·艾里扎里
1美国马里兰州巴尔的摩约翰霍普金斯彭博公共卫生学院生物统计系
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
安德鲁·范伯格
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
三美国马里兰州巴尔的摩约翰霍普金斯大学医学院医学系
1美国马里兰州巴尔的摩约翰霍普金斯彭博公共卫生学院生物统计系
2美国马里兰州巴尔的摩约翰霍普金斯大学医学院表观遗传学中心
三美国马里兰州巴尔的摩约翰霍普金斯大学医学院医学系
4美国马里兰州巴尔的摩约翰霍普金斯大学生物医学工程系
5美国马里兰州大学计算机科学系生物信息学和计算生物学中心
6美国马里兰州巴尔的摩约翰霍普金斯大学医学院儿科
7美国马里兰州巴尔的摩市约翰斯·霍普金斯大学医学院病理学系
8美国佐治亚州亚特兰大埃默里大学罗林斯公共卫生学院生物统计和生物信息学系
9美国加州大学圣地亚哥分校基因组医学研究所和医学工程研究所生物工程系
*这些作者的同等贡献
介绍
癌症通常被视为200多种不同的细胞生长异常疾病,由一系列突变控制,但也涉及涉及相同基因的表观遗传非序列变化1CpG二核苷酸的DNA甲基化已在癌症中进行了广泛研究,其中一些基因出现了低甲基化或高甲基化,而全球低甲基化归因于正常甲基化的重复DNA元素。到目前为止,癌症表观遗传学主要关注高密度CpG岛、基因启动子或分散的重复元件2,三.
在这里,我们对癌症表观遗传学采取了一种不同的、更通用的方法。这是基于我们最近观察到的结肠癌中靠近岛屿(称为海岸)的低胞嘧啶密度CpG区域频繁甲基化改变;此外,这些癌症特异性差异甲基化区域(cDMR)与正常脾、肝、脑或组织特异性DMR(tDMR)中显示DNA甲基化变化的相同区域基本一致4此外,cDMR在诱导多能干细胞(iPS)的干细胞重编程过程中差异甲基化的区域中高度富集5因此,我们推断,完全相同的位点可能是广义cDMRs,因为它们参与正常组织分化,但在至少一种癌症类型(结肠)中显示异常甲基化。
我们通过设计一个半定量定制Illumina阵列对151个在结肠癌中持续改变的cDMR进行甲基化分析来验证这一假设,并分析了290个样本中的这些位点,包括匹配的结肠癌、乳腺癌、肺癌、甲状腺癌和Wilms瘤的正常和癌症。我们惊讶地发现,在所有测试的癌症中,几乎所有这些cDMR都发生了改变。具体而言,cDMR显示每种肿瘤类型中甲基化水平的随机变化增加,表明癌表观基因组的完整性普遍受损。为了进一步研究这一观点,我们对3例结直肠癌、匹配的正常结肠粘膜和2例腺瘤性息肉进行了基因组亚硫酸氢盐测序。这些实验揭示了结肠癌中甲基化稳定性的惊人丧失,包括CpG岛和海岸,以及影响一半以上基因组的大的(高达数兆碱基)低甲基化区块,以及基因表达的相关随机变异,这可能为肿瘤异质性提供了一种表观遗传机制。
结果
不同癌症类型DNA甲基化的随机变化
我们试图提高DNA甲基化测量的精确度,而不是以前的基于平铺阵列的方法,称为CHARM6,分析151个结肠cDMR4.我们设计了一种定制的核苷酸特异性Illumina珠阵列384探针,覆盖139个区域7我们研究了290个样本,包括结肠癌、肺癌、乳腺癌、甲状腺癌和Wilms’癌,其中111个是匹配的正常组织,另外还有30个结肠癌前腺瘤和27个其他正常样本(参见方法). 为了最大限度地降低因采样多个克隆而产生的遗传异质性风险,我们从组织病理学检查证实的小(0.5 cm×0.2 cm)切片中纯化DNA。
对DNA甲基化值的聚类分析表明,结肠癌cDMR在很大程度上区分了每种肿瘤类型的癌症和正常肿瘤(补充图1). 与正常肿瘤相比,每种肿瘤类型的癌症样本中甲基化的跨样本变异性增加,甚至比平均甲基化的差异更为显著。因此,我们计算了每个CpG位点所有五种肿瘤/正常组织类型的正常和癌症样本的交叉样本方差。尽管这些CpGs位点是根据结肠癌平均值的差异而选择的,但绝大多数在癌症中表现出的差异大于每种组织类型的正常差异(),甚至根据甲基化测量的二项式分布模型,解释了平均偏移预期的可变性差异(补充图2). 结肠、肺、乳腺、甲状腺和Wilms肿瘤中的CpG位点分别有81%、92%、81%、70%和80%的患者出现了统计学意义上的增加(使用F检验,p<0.01)。此外,157个CpG位点在所有测试的癌症类型中的变异性在统计学上显著增加。这种增加的随机变化出现在CpG岛屿、CpG岛海岸和远离岛屿的地区(). 这些数据表明了肿瘤异质性的潜在机制,即与正常肿瘤相比,在每种测试的肿瘤类型中,癌症中DNA甲基化的随机变化增加(见讨论)。我们排除了细胞异质性和患者年龄增加是癌症样本甲基化异质性的人为原因(补充图3和4). 此外,比较五种高拷贝变异结肠癌和五种低拷贝变异Wilms肿瘤,甲基化高变异性没有差异(补充图5a–b),反对将遗传异质性作为甲基化高变性的原因。同样,7例未经免疫组织化学异常p53表达的Wilms肿瘤与7例阳性染色的结肠肿瘤表现出类似的甲基化高变性,阳性染色是染色体不稳定的标志(补充图6).
人类癌症类型中常见CpG位点甲基化差异增加使用定制Illumina阵列在384个CpG位点测量的甲基化水平显示,(a)结肠癌、(b)肺癌、(c)乳腺癌、(d)甲状腺癌和(e)肾癌(Wilms肿瘤)的跨样本变异性增加。每个面板显示正常和匹配癌症样本中每个CpG甲基化水平的跨样本标准偏差。实线是等高线;高于此线的CpG在癌症中具有更大的变异性。虚线表示甲基化差异显著的阈值(99%水平的F检验)。在所有五种组织类型中,绝大多数CpG都在实线以上,这表明癌症样本的变异性大于正常样本。颜色指示每个CpG相对于规范注释的CpG岛的位置。(f) 使用变异性增加最大的CpG,我们对正常样本进行了层次聚类。这些CpG甲基化值的热图清楚地区分了组织类型,表明癌症中甲基化异质性增加的部位是组织特异性DMR。
癌症变异性增加的位点也能够区分五个正常组织,但这是一个均值偏移,而不是从聚类分析中明显的变异偏移(补充图7). 有趣的是,即使只使用癌症中最可变的25个位点,情况也是如此(). 这一结果加强了正常组织分化和癌症DNA甲基化随机变化之间生物学关系的概念。
为了确定增加的变异性是癌症中胞嘧啶甲基化的一般属性还是为我们的定制阵列选择的CpG的特定属性,我们使用了一个公开可用的甲基化数据集作为对照,将结直肠癌与Illumina Human甲基化27k芯片阵列上匹配的正常粘膜进行比较。在这个数据集中,我们发现只有42%的位点甲基化变异性在统计学上显著增加,而定制阵列中的甲基化变异率为81%(p<0.01),这证实了我们定制阵列中包含的癌症DMR的特异性。与海岸(44%)或岛屿(31%)相比,远离岛屿(57%)的CpG中增加的随机变化更为常见,相比之下,27k阵列上这些位置的相对代表性被分解为:岛屿远端(26.4%)、海岸(31.6%)和岛屿(42%)(见方法). 这一结果表明,与CpG岛无关的其他因素可能是癌症中DNA甲基化改变位点的最大比例。
结肠癌中大DNA甲基化块的低甲基化
上述甲基化随机性似乎是癌症的一个普遍特征,影响所有五种癌症类型中岛屿和非岛屿区域的cDMR。为了研究癌症中DNA甲基化模式完整性的这种明显普遍缺失,并分析未通过基于阵列的方法检测到的CpG丰度较低的区域,我们使用ABI SOLiD平台对3例结直肠癌和匹配的正常结肠粘膜进行了鸟枪亚硫酸氢盐基因组测序。我们希望获得足够精确的甲基化估计值,以检测10%甲基化的差异。因为我们使用了局部似然方法,该方法聚合了来自邻近CpG的信息,并结合了来自3个生物复制的数据,所以我们确定4X覆盖率足以以至多3%的标准误差在此精度下估计甲基化值(参见方法). 因此,我们为每个样本获得了12.5到13.5千兆字节的数据,在质量控制过滤后为每个CpG提供了约5倍的覆盖率(参见方法)和对齐(补充表1). 为了验证通过我们的方法获得的甲基化值的准确性,我们对39262个区域的相同6个样品进行了亚硫酸氢盐捕获测序,得到39.3k–125.6k CpG,覆盖率>30倍(补充表2),我们的局部似然方法和捕获测序之间的相关性为0.82-0.91,这是一个显著的一致性,因为实验是在使用不同测序平台和协议的不同实验室中进行的。对单个基因座的检测表明,我们的甲基化估计密切跟踪高覆盖率捕获数据(补充图8). 我们还进行了传统的亚硫酸氢盐焦磷酸测序,进一步证实了我们方法的准确性(补充图9).
序列分析显示,与正常人相比,癌症中存在大量相邻的低甲基化(). 我们确定了13540个5kb–10MB的此类区域(,补充表3). 整个区块的交叉癌平均低甲基化为12%–23%。值得注意的是,癌症中的这些低甲基化区块相当于基因组的一半以上,甚至占了区块内CpG位点的数量(),可能包括小的高甲基化区域。我们还注意到癌症中存在一小部分(3%)的高甲基化区块(,). 平滑甲基化值的直方图显示了全球DNA甲基化分布的变化(). 癌症中区块甲基化的主要变化是中间甲基化水平(所有样本的平均73%)的丰富区域减少到显著较低的水平(50-61%)().
人类结肠癌中的大型低甲基化基因组块如所示(a)和(b)是两个基因组区域中癌症样本(红色)和正常样本(蓝色)亚硫酸氢盐测序数据的平滑甲基化值。低甲基化块以粉红色阴影显示。灰色条表示PMD、LOCK、LAD、CpG岛和基因外显子的位置。注意,模块与面板(a)中的PMD、LOCKS和LAD一致,但与面板(b)中的不一致。也可以在右边缘看到小的高甲基化区块,占区块的3%。(c)正常样本(蓝色)与癌症样本(红色)的高频平滑甲基化值分布表明,与正常样本相比,癌症的整体甲基化水平较低。(d)对于正常样品(蓝色)和癌症样品(红色),甲基化值在块内(实线)和块外(虚线)的分布。请注意,虽然正常和癌症分布在区块外相似,但区块内癌症的甲基化值显示出总体变化。(e)癌症和正常样本之间甲基化差异的分布通过重复DNA和区块中的内含物分层。在区块内部,重复区域和非重复区域的平均差异均为~−20%。在区块外,重复区和非重复区的平均差异为~0%,表明区块而非重复区是观察到的DNA甲基化差异的原因。
表1
| N个 | #CpG公司 | 基因组大小 | 中位数(bp) | 与岛屿重叠 | 与海岸重叠 | 与Ref-seq mRNA TSS重叠 |
---|
正常基因组(参考) | 不适用 | 2820万 | 3.10 Gb | 不适用 | 27.7万 | 55.4公里 | 36,983 |
低甲基化区块 | 13540个 | 1620万 | 1.95 Gb | 39,412 | 17.6% | 26.8% | 10,453 |
高甲基化区块 | 2,871 | 485公里 | 35.8兆字节 | 9,213 | 13.4% | 36.4% | 976 |
低甲基化小型DMR | 4,315 | 59.5万 | 2.91兆字节 | 401 | 2.2% | 51.0% | 1,708 |
新型次甲基化 | 448 | 8.35万 | 367千磅 | 658 | 2.9% | 19.9% | 30 |
甲基化边界偏移 | 1,516 | 17.5公里 | 741千桶 | 261 | 2.1% | 92.8% | 1,313 |
其他 | 2,351 | 33.7万 | 180 MB | 479 | 2.1% | 29.9% | 368 |
高甲基化小DMR | 5,810 | 4.03万 | 614百万 | 820 | 67.2% | 17.0% | 3,068 |
边界丢失* | 1,756 | 16.5万 | 2.36兆字节 | 1,159 | 80.9% | 3.4% | 1,091 |
甲基化边界偏移 | 1,774 | 96.3公里 | 1.40兆字节 | 502 | 60.3% | 33.0% | 1027个 |
其他 | 2280个 | 14.2万 | 2.38 MB | 769 | 62.2% | 15.1% | 983 |
这些阻滞在所有三种癌症中都很常见。对单个肿瘤和正常肿瘤剖面图的分析显示出一致的块边界位置(参见,补充图10、和方法). 这些区块不是由拷贝数变化驱动的,因为后者的位置在受试者之间并不一致,而与一致的区块边界相反(补充图11a、b)我们的统计方法提供的甲基化差异估计值与拷贝数值无关(补充图11c).
癌症中的整体低甲基化8归因于正常甲基化重复元素的存在9并且可能与结肠癌有关,因为LINE-1元素低甲基化与结肠癌预后较差有关10我们观察到,在正常组织中,重复元素的甲基化程度高于非重复区域(76%对66%)。为了确定这种重复性元件是否对区块低甲基化负责,我们比较了重复性元件内外甲基化水平的差异(参见方法)内部和外部块。大部分的全球低甲基化是由于低甲基化区块()而不是重复元素的存在。由于重复元素在区块中稍微富集(比值比1.4),大部分明显的重复相关甲基化可能实际上是由区块引起的。该结果并不排除重复相关的低甲基化,因为并非所有重复都是可映射的。然而,我们的数据涵盖了57%的L1元素、94%的L2元素、95%的MIR序列和18%的Alu元素(补充表4)并且没有表现出重复特异性低甲基化(补充图12). 请注意,我们的数据中未涵盖的Alu序列可能在某种程度上比涵盖的Alu序列更具低甲基化,从而导致整体低甲基化。
李斯特等。对H1人类胚胎干细胞系与IMR90成纤维细胞系进行亚硫酸氢盐测序分析,确定基因组中大部分在成纤维细胞中甲基化程度低于ES细胞的区域,称为部分甲基化区域(PMD)11我们在上面确定的中间甲基化水平区域与PMD基本一致,在PMD中包含85%的CpG(比值比6.5,P<2×10−16,补充表5). 我们之前描述了正常小鼠细胞基因组范围内的大规模有组织染色质赖氨酸(K)修饰或LOCK,这些修饰与构成基因和组织特异性基因沉默相关12。我们绘制了原始人类细胞中的LOCK(参见方法). 值得注意的是,89%的LOCK包含在区块内(比值比6.8,P<2×10−16). 已知LOCK与核层相关结构域或LAD重叠12约83%的LAD也包含在区块内(比值比4.9,P<2×10−16). 此外,DNase I超敏位点是调控区域的结构信号13在块体边界和小DMR的1kb范围内富集(p<2×10−16对于两者)。因此,我们在癌症中发现的大的低甲基化区块对应于通过几种互补方法在正常细胞中发现的基因组组织。请注意,虽然PMD和我们的低甲基化区块在很大程度上重叠,但我们后来证明非重叠区块和PMD之间在癌症中的基因表达存在显著差异。
我们观察到157个CpG与亚硫酸氢钠全基因组测序确定的低甲基化区块之间的关系,这些CpG在我们的定制阵列确定的所有癌症类型中高度可变。我们发现63%的低甲基化高变CpG位于低甲基化区块内,37%的高甲基化高变量CpG处于罕见的高甲基化区块内。相比之下,来自对照人类甲基化27K阵列的低甲基化和高甲基化CpG在癌症中没有高度变异,在低甲基化区块和高甲基化区块中分别富集了13%和1.5%,高变甲基化CpGs在区块中的富集具有高度统计意义(p<2×10−16;补充表6).
癌症中的小DMR涉及DNA甲基化边界稳定性的丧失
我们开发了一种统计算法(参见方法)用于检测小于区块(≤5kb)的区域中的DNA甲基化变化。我们对生物复制品的分析是至关重要的,因为我们发现,如果只有一对癌-正常对照,正常样本中显示跨学科变异的区域很容易与DMR混淆(补充图13). 这些较小区域的甲基化测量结果与我们之前基于CHARM的微阵列分析的测量结果吻合良好4(补充图14). 我们将其称为小DMR,以将其与上述大(>5kb)差异甲基化区块区分开来。CHARM和其他已发表的基于阵列的分析的测序更加全面,使我们能够检测到比以前报道的更多的小DMR,5810个高甲基化的和4315个低甲基化的小DMRs(补充表7). 我们也证实了我们的发现4高甲基化的cDMR在CpG岛富集,而低甲基化的cDMR在CpG岛海岸富集(). 测序还表明,非甲基化岛与甲基化岛的比率通常约为2:1,对于这两种类型,癌症中约20%的甲基化状态发生改变(,补充表8).
表2
甲基化值*与正常样本相比,在癌症的CpG岛上观察到
正常人的甲基化状态 | 总计 | 海波 | 没有变化 | 超(Hyper) |
---|
未甲基化(<=0.2) | 16184 | 0.1% | 83.2% | 16.7% |
部分甲基化(>=0.2,<=0.8) | 4796 | 17.0% | 46.7% | 36.3% |
甲基化(>=0.8) | 5527 | 24.0% | 75.9% | 0.1% |
小DMR结构最显著和一致的特征是CpG岛的一个或两个DNA甲基化边界从岛上转移到邻近区域(,)或进入岛内部(). 在基于阵列的数据中,进入岛屿的边界转移将显示为高度甲基化的岛屿,而离开岛屿的边界移动将显示为低甲基化的海岸。
小DMR甲基化稳定性的丧失根据正常样本(蓝色)和癌症样本(红色)的基因组位置绘制甲基化估计值。小DMR位置以粉红色阴影显示。灰色条表示区块、CpG岛和基因外显子的位置。沿底轴的勾号表示CpG的位置。图中所示为(a)甲基化边界向外移动,(b)甲基化边界向内移动,(c)甲基化边界丢失,以及(d)一种新型的低甲基化DMR。
第二常见的小DMR涉及CpG岛甲基化边界的丢失。例如,在正常样品中,许多高甲基化cDMR被高甲基化区域包围的非甲基化区域所定义。在癌症中,这些区域的甲基化水平始终稳定在40–60%左右(,). 这些甲基化边界缺失的区域在很大程度上对应于癌症中被归类为超甲基化岛的区域。
我们还发现了出现的低甲基化cDMR从头开始在区块外的高度甲基化区域,我们称之为新的低甲基化DMR,通常对应于非传统岛屿的富含CpG的区域(). 这里,正常结肠组织甲基化75-95%的区域在癌症中降至较低水平(20-40%)(). 总之,除了低甲基化区块外,我们还发现了10125个小DMR,其中5494个明显分为三类:甲基化边界转移、甲基化边界丢失和新的低甲基化。注意,并非所有小型DMR在所有三个样本对中都遵循一致的模式,因此未进行分类().
基于甲基化的欧氏距离显示结肠腺瘤介于正常和癌症之间
通过对结肠样本中通过定制阵列测得的甲基化值进行多维标度,我们注意到与分散的癌症样本相比,正常样本紧密聚集在一起(). 这与前面描述的癌症中甲基化变异性的增加是一致的。我们在定制阵列上分析了30个结肠腺瘤,发现它们在样本内的变异性和与正常样本群的距离上都是中等的()。
腺瘤显示中度甲基化变异(a)从定制Illumina阵列上分析的甲基化水平得出的成对距离的多维标度。请注意,癌症样本(红色)大部分距离正常样本(蓝色)的紧密簇较远,而腺瘤样本(黑色)显示出一定的距离:一些样本与其他正常样本一样近,其他样本与癌症样本一样远,许多样本处于中间距离。(b)通过亚硫酸氢盐测序确定的区块中平均甲基化值衍生的成对距离的多维标度。匹配的序列腺瘤样本(标记为1和2)相对于(a)和(b)中的正常样本簇出现在相同的位置。(c)正常(蓝色)、癌症(红色)和两个腺瘤样本(黑色)的甲基化值。在多维标度分析(a)中,腺瘤1与正常样本更接近,其甲基化模式与正常样本相似。然而,在一些区域(用粉红色阴影遮住),可以观察到腺瘤1和正常样本之间的差异。腺瘤2表现出与癌症相似的模式。
随后,我们对其中两个腺瘤进行了全基因组亚硫酸氢盐测序,一个是癌前结肠腺瘤,与正常结肠的甲基化距离相对较小,另一个腺瘤与正常结肠甲基化距离较大,与癌症样本相似。我们从每个测序样本中计算每个区块的平均甲基化水平,并使用这些值计算样本之间的成对欧几里德距离。这些低甲基化区块的测量结果证实了阵列数据所观察到的特征:与腺瘤呈中间值的正常人相比,癌症的全基因组变异性增加().
肿瘤中与低甲基化海岸相关的细胞周期基因的表达
全基因组分析已经证明基因表达和甲基化之间存在反向关系,特别是在转录起始位点14为了研究小DMR中的这种关系,我们从癌症和正常结肠样本中获得了公开的微阵列基因表达数据(参见方法)并与我们的测序数据进行了比较。我们在基因转录起始位点2 kb范围内将6869个基因映射到DMR,并观察到DNA甲基化和基因表达之间预期的反向关系(r=-0.27,p<2×10−16,补充图15).
我们分别检查了每类小DMR的甲基化和基因表达之间的反向关系,并注意到低甲基化海岸的最强关系是由于甲基化边界转移(补充表9). 我们进行了基因本体丰富分析15对于差异表达基因(FDR<0.05),比较与低甲基化边界转移相关的基因与其他类别的差异表达基因。类别(补充表10)富含有丝分裂和细胞周期相关基因CEP55公司,CCNB1公司,CDCA2型,项目风险控制1,CDC2(CDC2),FBXO5型,奥卡,CDK1型,CDKN3型,CDK7型、和CDC20B型,除其他外(补充表11).
低甲基化区块和DMR中基因表达的变异增加
我们比较了癌症和正常人在区块内的跨主题甲基化变异水平,发现与定制阵列发现的癌症甲基化高变异性惊人的相似(与相比补充图16). 为了研究结肠癌中基因表达的关系,我们从癌症和正常样本中获得了公开的基因表达数据(参见方法). 在正常和癌症样本中,区块中的基因通常沉默(所有样本中80%的基因沉默)。在正常组织中持续转录的基因中,尽管转录水平较低,但36%的基因在癌细胞块中沉默,而这一比例预计为15%。这与文献中的其他报告一致,例如Frigola等人16.
相比基因沉默的细微差异,我们发现与低甲基化区的正常样本相比,癌症中的基因大量富集,表现出更大的表达变异性。首先,我们排除了这种观察到的变异性增加是由于癌症潜在的高度细胞异质性所致(补充图17a). 然后,我们注意到一个基因表达的变异性增加与其在低甲基化区的位置之间有着明确且具有统计学意义的关联(补充图17b). 例如,在表现出最大表达变异性增加的50个基因中,有26个位于区块内;52%,而意外预期为17%(p=3×10−9)其中25种蛋白的表达水平显示出一个有趣的模式:虽然在正常样本中从未表达,但在癌症中表现出随机表达(和补充图18). 例如基因基质金属蛋白酶3,基质金属蛋白酶7,基质金属蛋白酶10,SIM2卡,CHI3L1公司,STC1型、和WISP公司(在讨论中描述)分别在96%、100%、67%、8%、79%、50%和17%的癌症样本中表达,但从未在正常样本中表达(补充表12).
与阻滞相关的基因表达的高变异性(a)一个包含在区块中的高变表达基因的例子;注意基因基质金属蛋白酶7,基质金属蛋白酶10、和基质金属蛋白酶3以红色突出显示。癌症样本(红色)和正常样本(蓝色)的甲基化值与基因组位置对应。灰色条如所示.(b)位于低甲基化阻滞区域的26个癌症高变基因的标准化对数表达值(正常样本为蓝色,癌症样本为红色)。使用基因表达条形码进行标准化。标准化表达值低于2.54或正态分布的99.5个百分点(水平虚线)的基因通过条形码方法被确定为沉默26垂直虚线分隔不同基因的值。注意,与癌症样本中的高变表达相比,正常样本中的表达沉默是一致的。从备选GEO数据集绘制的类似图如所示补充图18.
低甲基化区块和PMD之间的功能差异
如上所述,我们在Lister报告的成纤维细胞系中观察到的低甲基化阻滞与PMD实质上重叠等。11。我们检查了区块和PMD之间无重叠的基因组区域,以确定它们之间的潜在功能差异。我们将其分为两组:1)低甲基化区块内的区域,但不在PMD(B+P−)中;2)PMD内的区域但不在低甲基化地块(B−P+)中。我们从成纤维细胞样本中获得了微阵列基因表达数据(参见方法)正如预期的那样,成纤维细胞PMD中的基因在成纤维细胞样本中相对沉默(p<2×10−16). 此外,在成纤维细胞样本中沉默并在正常结肠中持续表达的基因在B-P+区域富集(比值比3.2,P<2×10−16)而在结肠中持续沉默的基因和在成纤维细胞样品中持续表达的基因在B+P区域富集(比值比2.8,P=0.0004)。最后,上述50个高变基因在B+P−区显著富集(P=0.00013),但在B−P+区没有富集。这些结果表明,结肠癌中高变基因表达可能与它们在低甲基化区块中的存在有关。
讨论
总之,我们发现结肠癌cDMR通常涉及成人、肺癌、乳腺癌、甲状腺癌和结肠癌的常见实体瘤,以及儿童期最常见的实体瘤Wilms瘤,正常组织中甲基化水平紧密聚集,癌症的随机变化显著。利用DNA甲基化进行癌症筛查的工作重点是确定狭义的癌症特异性特征17我们的数据表明,未来的研究可能会转而将癌症表观基因组定义为偏离狭义的正常轮廓。
令人惊讶的是,结肠癌中三分之二的甲基化变化涉及大片段的低甲基化,样本中的位置一致,占基因组的一半以上。结肠块中而非成纤维细胞块中的基因在结肠中往往沉默,而在成纤维细胞和副病毒中则不沉默,这一事实支持了这种功能相关性。
癌症中表达差异最大的基因在这些区块中富集,涉及与肿瘤异质性和进展相关的基因,包括三个基质金属蛋白酶基因,基质金属蛋白酶3,基质金属蛋白酶7、和基质金属蛋白酶1018,第四个,SIM2卡通过金属蛋白酶促进肿瘤侵袭19另一个,STC1型,有助于介导肿瘤代谢重编程的Warburg效应20.CHI3L1公司编码一种分泌性糖蛋白,与包括结肠在内的多种肿瘤的炎症反应和不良预后相关21.WISP公司基因是Wnt-1的靶点,被认为有助于乳腺癌和结肠癌的组织侵袭22.我们的基因本体丰富分析15与区块中高变表达相关的基因(FDR<0.05)的种类丰富,包括细胞外基质重塑基因(补充表13). 这些发现引起的一个警告是,使用非特异性DNA甲基化抑制剂治疗癌症患者可能会对低甲基化区中促癌基因的激活产生意想不到的后果。值得注意的是,虽然之前的研究23,24本研究基于全基因组亚硫酸氢盐测序,显示了大区域超甲基化或无区域甲基化改变。然而,未来的研究需要表明阻断低甲基化是否是癌症表观基因组的一个特征。
小DMR虽然占基因组的一小部分(0.3%),但数量众多(10125),并且经常涉及CpG岛边缘DNA甲基化边界的丧失、DNA甲基化边界的转移,或在CG密集区域中产生新的低甲基化区域,这些区域不是典型岛。这些数据强调了低甲基化CpG岛海岸在癌症中的重要性,因为与癌症中的低甲基化和基因过度表达相关的海岸富含细胞周期相关基因,表明在癌症的非调节性生长中起着作用。
我们提出了一个模型,将组织特异性DMR与癌症中甲基化高变位点联系起来。正常的多能性可能需要在某些基因座上随机表达基因,从而允许在外部刺激或甚至内在刺激下沿替代路径分化。表观基因组可以通过改变其物理结构来放松表观遗传标记的严格性,从而协同创造一种宽容的状态,因为变异在远离极端的情况下会增加,在癌症中也可能发生类似的过程。一种方法是通过改变LOCKs/LADs/blocks,这可能涉及染色质堆积密度或靠近核膜的改变。同样,CpG岛附近DNA甲基化边界的细微变化可能会驱动正常染色质组织和组织特异性基因表达。鉴于边界区域对于本研究中确定的小型DMR和大型区块的重要性,未来的表观遗传学研究重点应放在区块和CpG岛(海岸)的边界,以及与之相互作用的基因编码因子的遗传或表观遗传学变化上。
每种癌症类型中甲基化和表达变异性的增加与在不同环境中表观遗传可塑性增加的潜在选择值一致,最初建议进化,但适用于癌症生长的强大但可变的选择力,比如氧分压变化或远处转移25因此,在cDMR(我们发现也是tDMR)中,癌症的表观遗传异质性增加可能是癌细胞快速适应环境变化的能力的基础,例如新生血管增加氧气,然后坏死减少氧气;或转移到新的细胞间环境。