我们开发了一种新的方法,用于对临床样本中的DNA甲基化模式进行多样本、多基因、超深亚硫酸氢盐测序分析。采用大规模平行测序-合成法(454测序),在一次测序中直接测序>100个亚硫酸氢盐PCR产物,无需亚克隆。我们通过分析40例以上原代细胞中25个基因相关CpG富集区的甲基化,展示了该方法的实用性、稳健性和优越性,这些原代细胞包括正常外周血淋巴细胞、急性淋巴细胞白血病(ALL)、慢性淋巴细胞白血病(CLL)、滤泡淋巴瘤(FL)和套细胞淋巴瘤(MCL)。共生成294631个序列,平均读取长度为131 bp。平均而言,每个PCR扩增子产生了>1600个单独的序列,远远超过了传统亚硫酸氢盐测序通常分析的少数克隆(<20个)。使用聚类算法在单个DNA分子水平上对CpG甲基化模式进行的综合分析揭示了疾病之间的差异甲基化模式。与CLL和MCL相比,ALL和FL样本中的甲基化显著增加。此外,在ALL和FL样本中,检测到甲基化从选择的CpG岛的外围向中心逐渐扩散。超深测序还允许同时分析遗传和表观遗传数据,并揭示了单核苷酸多态性和甲基化之间的关联轻轨P1B发起人。这一新一代甲基组测序将提供单个人类癌症异常DNA甲基化的数字图谱,并为肿瘤亚型的表观遗传学分类提供一种可靠的方法。[癌症研究2007;67(18):8511–8]

表观遗传过程控制着人类基因组的包装和功能,并导致包括癌症在内的正常和病理状态。越来越多的人认识到,表观遗传学改变在推动肿瘤的发生和发展中起着重要作用。促成细胞表观基因组的主要过程是DNA甲基化和组蛋白修饰。胞嘧啶残基在CpG二核苷酸上的甲基化是哺乳动物基因组中研究得最好的表观遗传修饰,已知对基因表达有深远影响。这种表观遗传事件发生在全球正常基因组中,影响70%至80%的CpG二核苷酸(1, 2). 然而,被称为CpG岛(CGI)的富含GC的DNA的~1-kb延伸段,其中大多数位于基因的调控区域内或附近,似乎在正常体细胞中不受这种修饰的影响(). 越来越多的证据表明,特定肿瘤抑制基因启动子内的CGI甲基化与破坏细胞增殖控制的转录沉默有关(4). 因此,异常甲基化目前正被研究为一种潜在的生物标记物,并用于开发路径特异性治疗靶点。

亚硫酸氢盐基因组测序检查亚硫酸氢酯PCR产物的多个亚克隆,耗时且可能受到偏差的影响(5)和异源双链放大(6). 在这种方法中,通常只分析少数克隆(<20),这导致甲基化估计值的SE通常过宽。此外,由于克隆通常仅从少数生物样本中获得,因此很难将结果推广到更大的群体。为了减少亚克隆带来的偏见,欧洲的人类表观基因组项目使用亚硫酸氢盐PCR产物的直接测序(7, 8). 在这种方法中,通过取PCR过程中产生的所有片段(数千)的平均值来估计任何给定CpG位点上的甲基化,并与亚克隆相比,得到了更具统计稳健性的甲基化表示。然而,这种方法并非没有局限性。例如,不可能确定单个DNA分子的甲基化模式,并且在甲基化水平低的情况下缺乏敏感性。

最近,一种新的大规模并行序列-旁路合成方法商业化,该方法基于微晶沸石规模反应中的焦磷酸测序(454测序)。大约300000个DNA模板可以在一次5.5小时的运行中同时测序,平均读取长度为100个碱基,准确度为99.6%(9). 这种高度并行的测序系统可能有许多重要的应用。在本研究中,我们研究了该技术在亚硫酸氢盐基因组测序中的应用。由于该技术的巨大吞吐量,我们能够对原发性淋巴瘤和白血病样本进行多样本、多基因、超深亚硫酸氢盐序列分析。结果表明,这种大规模基因组亚硫酸氢盐测序方法将为深入探索人类癌症表观基因组提供一种有效的方法。

DNA池和亚硫酸氢处理。埃利斯·菲舍尔癌症中心(密苏里州哥伦比亚市)被诊断为前体B细胞急性淋巴细胞白血病(ALL)或非霍奇金淋巴瘤的患者的组织和血液样本是按照当地机构审查委员会的要求获取的。使用QIAamp DNA Mini试剂盒(Qiagen)从总共40个标本中分离DNA:其中10个标本来自套细胞淋巴瘤(MCL)、慢性淋巴细胞白血病(CLL)、滤泡性淋巴瘤(FL)和ALL(补充表S1)。根据疾病类型汇总每个患者样本中等量的DNA。将来自多个个体(两个不同的女性和两个不同男性)的商业外周血淋巴细胞(PBL)DNA组合,用于创建称为正常PBL的DNA池。使用EpiTect试剂盒(Qiagen)用亚硫酸氢钠处理每个池中的DNA(1μg)。

扩增子设计和PCR。使用MethPrimer为25个基因开发了疾病特异性引物。研究的每个基因都有一个核心引物序列,在所有组中都是相同的。此外,在每个核心引物序列的5′端添加了一个四核苷酸的疾病特异性标签,以便在454测序分析后可以计算分离每组。在60°C至56°C的退火温度下(每个温度下一个循环),使用落地PCR在25μL反应中扩增每个引物对,然后在56°C的退火温度下进行30个循环。变性(95°C)、退火和延伸(72°C)时间分别为15 s、30 s和1 min。对于每个基因,PCR生成五个疾病特异性扩增子。每个扩增子都是单独制备、纯化和定量的。根据Margulies等人的研究,在454 Life Sciences Corp.进行测序之前,将122个扩增子(总计3μg DNA)以等摩尔量汇集在一个试管中(9).

标准亚硫酸氢盐基因组测序分析。扩增亚硫酸氢盐PCR产物ADAM12型从上述ALL、FL和PBL DNA样本和新加坡证券交易所使用TOPO-TA克隆系统(Invitrogen)亚克隆经I处理的PBL DNA样本。使用Montage Plasmid Miniprep96试剂盒(Millipore Corp.)分离每个PCR产物的30个插入阳性克隆的质粒DNA,并使用ABI 3730测序系统(Applied Biosystems)进行测序。

定量实时甲基化特异PCR检测。为了进一步验证使用454 GS20测序器生成的亚硫酸氢盐测序数据,还从7个正常PBL样本、19个滤泡增生样本、29个CLL样本、13个FL样本、24个MCL样本和10个ALL样本中分离出DNA。这些DNA样本用亚硫酸氢钠处理,并使用定量实时甲基化特异性PCR(qMSP)检测数据链路连接器-1DAPK(DAPK)甲基化。qMSP引物和探针组的序列数据链路连接器-1DAPK(DAPK)之前报告过(10, 11). 探针用两种荧光染料(5′-FAM和3′-BHQ1)标记,并用集成DNA技术合成。此外,如前所述,将五个经亚硫酸氢处理的混合DNA样本用于qMSP(10). 甲基化DNA特有的qMSP数据表示为甲基化参考值(PMR)的百分比,计算方法与之前的报告类似(12). 通过将基因除以ACTB公司基因样本与ACTB公司比率新加坡证券交易所I-处理PBL DNA(甲基化参考DNA)并乘以100。

放大器识别和动态编程校准程序。使用国家生物技术信息中心C工具包解析文件,对多个患者组的454个亚硫酸氢盐测序结果进行计算分析。4

根据标签和引物,每个DNA序列被分配给25个基因中的一个。为了确定CGI中每个CpG位点的甲基化状态,获得了25个基因的扩增子序列(即PCR产物的DNA序列),然后进行生物信息学亚硫酸氢盐转化。基于动态编程技术,在来自454测序仪的序列与其对应的亚硫酸氢盐转换的扩增子序列之间进行直接比较。用于计算分析的详细程序和算法可在补充材料和方法中找到。

聚类分析。几种扩增子甲基化模式的聚类分析,如PON3,CYP27B1,以及轻轨P1B,是使用3.5版的Hierarchical Clustering Explorer进行的。聚类由UPGMA(平均得分聚类)生成,CpG核苷酸在两次读取中的相似性是甲基化和非甲基化核苷酸的计数匹配或名词的简单匹配。

统计分析。使用统计分析系统9.1、社会科学统计包14.0和R 2.4进行统计分析。对于一般线性模型,将一些解释变量进行对数变换以稳定方差,并使用残差分析评估模型的充分性。在单核苷酸多态性(SNP)分析中计算的报告观察到的显著性水平基于渐近统计,是双面的。预期的细胞计数始终大于5,因此χ2分配是适当的。

454测序用扩增子的制备。采用大规模并行序列合成法对五组原代细胞中的25个基因相关CGI进行超深亚硫酸氢盐测序分析:()正常PBL(b条)所有人(c(c))CLL、(d日)FL和(电子)MCL公司。对于每个样本组,收集从10个具有相同诊断的个体中分离的DNA样本,并处理亚硫酸氢盐(图1). 本研究中包含的基因(补充表S2)先前显示在血液肿瘤中甲基化,包括淋巴瘤和白血病(10, 1315). 对于每个基因启动子,在每个PCR引物的5′端添加一个组特异性四核苷酸标签(图1)这样,在测序后,就可以计算分离出五组的扩增子。针对25个基因相关CGI中的每一个,通过PCR从五个组中的每个组中产生单个扩增物。125对引物的完整列表见补充表S3,扩增子相对于转录起始位点的位置见补充图S1。每个扩增子通过凝胶电泳进行检测、纯化、定量,然后以等摩尔比汇集在一起。在多次重复尝试后,三个PCR没有产生高质量的PCR产物,因此被排除在分析之外。其余122个扩增子使用454生命科学公司的GS20测序器进行测序。

图1。

使用454基因组测序器20进行亚硫酸氢盐测序的实验设计。

图1。

使用454基因组测序器20进行亚硫酸氢盐测序的实验设计。

关闭模态

绘制亚硫酸氢盐测序结果。所有454个序列包含一个FASTA文件,每个条目读取一个序列,包括质量控制信息。在单次5.5小时机器运行中,共获得294631个序列,包括正向和反向股序列。平均读取长度为131 bp(范围为35-300 bp)。生物信息学分析包括以下三个步骤:()将454序列与唯一的引物相匹配(b条)将序列与生物信息学亚硫酸氢盐转化的扩增子序列,以及(c(c))从正向和反向股中编译信息并修剪序列。使用动态规划对齐算法将每个序列映射到生物信息学亚硫酸氢盐转换扩增子序列(见补充材料和方法)。在294631个序列中,288358个(97.9%)被映射到一个独特的扩增子(表1). 每个扩增子平均获得1697个序列读取(包括正向和反向序列)。然而,一些扩增子的序列读取次数比其他扩增子少得多,有时一条链上的序列数量远远超过另一条链的序列。由于在汇集之前对扩增产物进行了检查和量化,我们怀疑这些变异是由于在454测序所用的文库制备方案中进行了一系列连接子连接和乳化PCR扩增步骤造成的。使用一般线性模型确定获得的序列数受特定基因、疾病类型和序列读取方向的显著影响。这些因素解释了99.6%的读数变化。补充信息中包括了按疾病类型划分的每个基因读取次数的估计边际平均值(补充图S2)。这些变化可能是由每个扩增子的独特序列结构引起的,包括扩增子长度、GC含量、总甲基化状态以及亚硫酸氢盐处理后出现的均聚物数量。因为它们中的大多数与基因或基因与疾病的相互作用相混淆,所以它们不包括在模型中。然而,在读取次数和扩增子长度之间观察到统计上显著的负相关(P(P)<0.001)和均聚物的数量(P(P)< 0.001). 测序错误率(表1)与之前报告的值类似(9). 亚硫酸氢盐处理效率通过计算除CpG二核苷酸(包括CpA、CpC或CpT二核苷酸,从这一点起称为CpH)中的胞嘧啶碱以外的所有胞嘧啶碱的C到T转换率来确定。这是通过将与CpH对齐的C核苷酸的数量相加,然后除以在CpHs对齐的C和T核苷酸的数量来计算的。该分析不包括引物序列和过滤读数。亚硫酸氢盐转化率估计为98.8%(表1); 然而,无法确定是否有任何未转化的胞嘧啶是由于从头开始CpH甲基化。

表1。

统计数据摘要

统计的价值
基因分析25 
患者组
产生的放大器122 
平均放大子长度223.28 
每个放大器的平均CpG数17.16 
每个放大器的平均C+G百分比62% 
454测序器GS20的总序列读取294,631 
映射到唯一放大器的序列总数288,358 
用于甲基化分析的序列总数(超过90%的序列同一性)207,011 
从正向读取中用于甲基化分析的序列总数103,755 
用于反向读取甲基化分析的序列总数103,256 
对照组分析的CpG位点甲基化在0.20或以上的百分比4.25% 
非对照组中甲基化在0.20或以上的分析CpG位点的百分比45.64% 
对照组中甲基化在0.50或以上的分析CpG位点的百分比0.70% 
非对照组中甲基化在0.50或以上的分析CpG位点的百分比16.24% 
CpH转换效率98.8% 
454测序精度99.8% 
统计的价值
基因分析25 
患者组
产生的放大器122 
平均放大子长度223.28 
每个放大器的平均CpG数17.16 
每个放大器的平均C+G百分比62% 
454测序器GS20的总序列读取294,631 
映射到唯一放大器的序列总数288,358 
用于甲基化分析的序列总数(超过90%的序列一致性)207,011 
从正向读取中用于甲基化分析的序列总数103,755 
用于反向读取甲基化分析的序列总数103,256 
对照组中在0.20或以上甲基化的分析CpG位点的百分比4.25% 
非对照组中甲基化在0.20或以上的分析CpG位点的百分比45.64% 
对照组中甲基化在0.50或以上的分析CpG位点的百分比0.70% 
非对照组中甲基化在0.50或以上的分析CpG位点的百分比16.24% 
CpH转换效率98.8% 
454测序精度99.8% 

多启动子CGI的定量DNA甲基化分析。根据比对的质量,从分析中筛选出序列标识<90%的读数。补充信息(补充图S3)中包含了一个示例,说明了非过滤(序列标识>90%)和过滤(序列识别<90%)序列的对齐。过滤后,共有207011个序列(70.3%)用于计算样本中的甲基化水平。根据正向链上每个CpG位点的C到T转换和反向链上的G到a转换,确定每个序列读取中每个CpG-位点的甲基化状态。根据含有甲基化CpG位点的序列数量与分析的序列总数,计算每个样本组每个扩增子内每个CpG部位的甲基化百分比(图2). 扩增子内的大多数CpG位点通过正向和反向测序进行分析。然而,TRIM36、ZNF566、PTPN6、DAPK、CDKN2B,以及ZNF677型缺少两个以上CpG站点的数据,这可能是454技术的读取长度限制的函数。总的来说,所分析的25个基因中的甲基化与我们和其他人之前的报道一致(10, 13). 然而,这项研究的结果提供了关于每个甲基胞嘧啶的定量甲基化的更多细节,也提供了分析的每个片段的甲基化概况。尽管在这项初步研究中使用了汇集策略,但正常对照组和肿瘤样本之间存在明显差异。例如,肿瘤样本中甲基化20%或以上的CpG位点分析百分比是正常PBL样本的10倍(45.64%对4.25%;参见表1). 有趣的是,许多CpG位点的甲基化水平ALDH1L1、LRP1B、PON3、PCDHGA12,以及ADAM12型与正常PBL、CLL或MCL样品相比,ALL和FL样品中的含量非常高(>70%)。这似乎与我们之前的发现一致,在FL中发现的甲基化基因数量明显高于CLL和MCL(10, 13). 由于每个诊断组中10名患者的DNA样本被合并,给定扩增子的序列读取中CpG甲基化的比例很高,这表明该组中的大多数患者在特定位置甲基化。因此,这些独特的甲基化位点(图2)具有作为肿瘤特异性生物标志物进行诊断的巨大潜力。

图2。

五组样本中25个基因的甲基化特征。每个代表每个DNA序列中的CpG位点。基因的名称列在每行左侧. The每行末尾的数字指示序列器生成的正向和反向链序列的数量。颜色表示甲基化水平。黄色的,无甲基化;蓝色,甲基化;红色,SNP站点;白色,没有测序数据。这个每个盒子中蓝色和黄色的比例表示该位置含有甲基化CpG位点的序列百分比。星号,三个PCR失败,未纳入分析。

图2。

五组样本中25个基因的甲基化特征。每个代表每个DNA序列中的CpG位点。基因的名称列在每行左侧. The每行末尾的数字指示序列器生成的正向和反向链序列的数量。颜色表示甲基化水平。黄色的,无甲基化;蓝色,甲基化;红色,SNP站点;白色,没有测序数据。这个每个盒子中蓝色和黄色的比例表示该位置含有甲基化CpG位点的序列百分比。星号,三个PCR失败,未纳入分析。

关闭模态

为了将454测序结果与标准亚硫酸氢盐测序进行比较,从在体外–甲基化PBL DNA样本和三个混合DNA样本(PBL、ALL和FL;见材料和方法),使用为ADAM12型但缺乏为454测序分析设计的疾病特异性标签。使用传统的Sanger测序方法对这四个扩增子进行克隆和测序。如所示图3,454个测序结果与标准亚硫酸氢盐测序相关。为了检验并行测序方法的定量性质,将454个测序结果与来自DAPK(DAPK)数据链路连接器-1qMSP反应中使用的引物和探针与DAPK(DAPK)数据链路连接器-1放大器(补充图S4A类C类). 将454测序分析中测定的qMSP引物和探针中所有CpG位点的平均甲基化水平与qMSP结果中获得的PMR值进行比较,并与数据链路连接器-1但在较小程度上DAPK(DAPK)(补充图S4B类). 454个测序结果也与单个患者的qMSP数据进行了比较(补充图S4B类).数据链路连接器-1DAPK(DAPK)在总共102个原发性正常和肿瘤样本中使用qMSP分析甲基化(参见补充图S5)。将每个疾病组的平均PMR值与合并DNA样本的qMSP结果以及测序结果进行比较。对于DLC-1型总的来说,验证性研究验证了超深亚硫酸氢盐测序结果。

图3。

亚硫酸氢盐大规模平行测序结果的验证ADAM12型通过标准亚硫酸氢盐测序。A、,标准亚硫酸氢盐序列测定ADAM12型通过454测序和新加坡证券交易所我处理过的PBL DNA样本。第行,单个克隆的序列。•,甲基化CpG位点;○, 非甲基化CpG位点。B、,将454个测序结果与标准亚硫酸氢盐测序结果进行比较。

图3。

亚硫酸氢盐大规模平行测序结果的验证ADAM12型通过标准亚硫酸氢盐测序。A、,标准亚硫酸氢盐序列测定ADAM12型通过454测序和新加坡证券交易所我处理过的PBL DNA样本。第行,单个克隆的序列。•,甲基化CpG位点;○, 非甲基化CpG位点。B、,454个测序结果与标准亚硫酸氢盐测序结果的比较。

关闭模态

单个CGI中的DNA甲基化模式。在检查的25个扩增子中,有20个显示与正常PBL对照相比,在各种类型的疾病中甲基化增加。许多疾病之间的甲基化水平也存在定量差异。特别是,与CLL和MCL相比,FL和ALL中的许多扩增子甲基化密度显著增加。由于采用了汇集策略,因此无法评估每个肿瘤样本对甲基化总体水平的贡献。25个基因中只有4个(PON3、CYP27B1、DDX51,以及PCDHGA12公司)在正常对照组的某些CpG位点有显著的甲基化(>20%),但在这些基因中,肿瘤样本中的甲基化水平都有所增加。有趣的是PON3号机组CYP27B1型在对照正常PBL中观察到,CGI中间很少或没有甲基化,但边界处甲基化水平低至中等(20-44%)。同样,在一些肿瘤样本中可以清楚地看到这条分界线,但在CGI边界处观察到甲基化密度显著增加(图2). 每个PON3号机组CYP27B1型使用聚类程序分析获得的序列(图4). 与对照正常PBL样本相比PON3号机组FL和ALL似乎表明甲基化从CGI边界向岛中心逐渐扩散(图4A). 在这些情况下,界限变得不那么明显,沿着边界显示出高水平的甲基化(>80%),伴随着启动子区甲基化CpG位点数量的增加。在甲基化方面观察到类似的逐渐变化CYP27B1型在FL和ALL中(图4B). 这些结果似乎支持甲基化从CGI外部向岛中心扩散的理论。

图4。

DNA甲基化从选择的CGI的外围向中心扩散。A类B、 顶部,所研究的扩增子相对于转录起始位点和CGI内的位置。这个每个扩增子下方的条说明了放大器中每个CpG的相对位置(垂直钢筋).C类D、,亚硫酸氢盐序列数据的聚类分析PON3号机组CYP27B1型基因。疾病类型标记在顶部每个面板的。用于聚类分析的序列读取数列在疾病标签下。颜色表示每个CpG位点的甲基化状态。蓝色,甲基化;黄色的,没有甲基化。每个表示每个扩增子内的CpG位点。这个顶部条形图显示了五个混合DNA样本的每个CpG位点的总甲基化水平。上的热图底部表示集群结果。

图4。

DNA甲基化从外围向选定CGI中心扩散。A类B、 顶部,相对于转录起始位点和CGI内研究的扩增子的位置。这个每个放大器下面的条说明了放大器中每个CpG的相对位置(垂直钢筋).C类D、,亚硫酸氢盐序列数据的聚类分析PON3型密码27b1基因。疾病类型标记在顶部每个面板的。用于聚类分析的序列读取数列在疾病标签下。颜色表示每个CpG位点的甲基化状态。蓝色,甲基化;黄色的,没有甲基化。每个表示每个扩增子内的CpG位点。这个顶部条形图显示了五个混合DNA样本的每个CpG位点的总甲基化水平。上的热图底部表示集群结果。

关闭模态

扩增子中SNP的分析。454测序已用于深度测序和识别罕见突变(16). 因为亚硫酸氢钠处理只修改非甲基化胞嘧啶,而不修改腺嘌呤、鸟嘌呤或胸腺嘧啶,所以分析了CpG二核苷酸以外序列的遗传变化。对加州大学圣克鲁斯分校基因组网站上的SNP数据库进行搜索,在我们的研究中分析的25个基因中的8个中发现了11个SNP。其中一个(rs4646696)出现在ALDH1L1型放大器(图2). 未发现任何已发表的SNP与淋巴瘤或白血病之间存在疾病特异性关联。然而,一个G→C多态性(rs1375610)在轻轨P1B放大器。使用聚类算法分析带有C等位基因或G等位基因的序列的甲基化模式。如所示图5A,C等位基因序列可以通过SNP位置的甲基化状态清楚地分离出来。绝大多数在SNP位点含有甲基化胞嘧啶的片段也在扩增子内剩余的大多数CpG位点甲基化。量化G→C多态性和甲基化状态之间的关联轻轨P1B,计算扩增子内每个CpG位点的优势比。正的对数优势比表明,甲基化在该位置与G→C多态性相关。如所示图5B,甲基化几乎总是与SNP相关(16个中的15个),并且在绝大多数位置(16个中的13个)发现了统计意义。所有位点的平均值显示,C等位基因与G等位基因的甲基化几率是前者的两倍多。尽管具有多次重复测量的混合样本的统计显著性是一个乐观的估计值,但这种SNP对总甲基化的潜在影响轻轨P1B需要进一步调查。

图5。

亚硫酸氢盐序列数据的聚类分析轻轨P1B所有样本中的基因。颜色表示每个CpG位点的甲基化状态。蓝色,甲基化;黄色的,无甲基化;白色,没有甲基化数据。每个表示中的CpG站点轻轨P1B放大器。每个表示排序读取。A、 顶部,1682个序列读取首先根据SNP基因型和SNP位点的甲基化状态进行分组,然后使用相同的聚类算法进行聚类。B、,轻轨P1B扩增子序列,给出比值比的自然对数(C等位基因甲基化的比值/G等位基因的甲基化比值)。位于实心水平线上方的点,G→C多态性与甲基化呈正相关;指向线下方,负关联;折断的垂直线,多态性的位置。由实心圆表示的点有一个P(P)值<0.003。这些点是显著的,使用Bonferroni校正的家庭错误率为5%。

图5。

亚硫酸氢盐序列数据的聚类分析轻轨P1B所有样本中的基因。颜色表示每个CpG位点的甲基化状态。蓝色,甲基化;黄色的,无甲基化;白色,没有甲基化数据。每个表示中的CpG站点轻轨P1B放大器。每个表示排序读取。A、 顶部,1682个序列读取首先根据SNP基因型和SNP位点的甲基化状态进行分组,然后使用相同的聚类算法进行聚类。B、,轻轨P1B扩增子序列,给出比值比的自然对数(C等位基因甲基化的比值/G等位基因的甲基化比值)。位于实心水平线上方的点,G→C多态性与甲基化呈正相关;指向线下方,负关联;虚线,多态性的位置。由实心圆表示的点有一个P(P)值<0.003。使用Bonferroni的校正,这些点非常重要,家庭错误率为5%。

关闭模态

我们在本报告中表明,大规模并行焦磷酸测序(454测序)技术可用于亚硫酸氢盐PCR扩增子的高通量测序。目前,Solexa、Agencourt和Helicos提供或正在开发其他几种并行测序技术。目前,454平台产生最长的序列读取(平均100 bp,而其他技术为25–35 bp),因此最适合此实验设计。然而,如果读取长度显著提高,这种方法的概念可以应用于其他新兴测序平台。在这项初步研究中,使用了一种结合单个文库准备的汇集策略,在一次运行中对多种疾病类型和个体进行排序。由于GS20测序器能够在单个机器运行中运行1、4或16个不同的样本,因此使用池和引物标记策略的组合实验设计可能会最大限度地增加单个测序运行中分析的基因或样本数量。这也将大大降低成本(0.06美元,而标准亚硫酸氢盐测序为1-5美元)和劳动力。

基于亚硫酸氢盐的方法依赖于DNA中未甲基化胞嘧啶的完全化学转化。使用超深亚硫酸氢盐测序方法,对大量胞嘧啶碱基的转化进行了评估,提供了亚硫酸氢酯转化率的可靠估计。使用当前的方案,亚硫酸氢盐的转化率达到98.8%(表1). 亚硫酸氢盐处理降低了序列多样性,生成了许多富含AT的序列,此外还生成了均聚物延伸,这可能会影响使用454技术生成的序列的准确性。然而,我们的结果证实了该公司的说法,即即使在基因组中富含AT的区域,该系统也能够生成准确的序列(9). 此外,本研究中使用的动态规划算法能够准确对齐片段,即使在均聚物区域中存在缺口。尽管取得了许多成功,但一些扩增子并没有产生足够数量的高质量序列读取来量化甲基胞嘧啶甲基化(即。,数据链路连接器-1PBL中)。这可能是由于454使用的文库制备步骤的扩增偏差,导致乳液PCR反应期间产生的片段产生偏差。尽管这是一个主要问题,但在这项初步研究中,122个扩增子中只有2个存在这样的问题。

据我们所知,超深亚硫酸氢盐测序对多基因启动子和多种肿瘤类型的DNA甲基化模式进行了最全面的定量分析。结果表明,在CGI中甲基化位点的分布并不均匀。例如,甲基化的进行性传播是从CGI的边界确定的,并逐渐向基因的转录起始位点移动,例如PON3号机组CYP27B1型在分析的正常对照PBL中,CGI的3′端(第一外显子或内含子)或5′端(上游)边界出现低水平的甲基化,但启动子区没有。在淋巴瘤和白血病中,可能会出现甲基化波,从边界逐渐向一些CGI的启动子区域延伸。这些结果进一步证实了先前关于RASSF1A公司乳腺癌中的甲基化体内(17)甲基化的扩散电子cadVHL(甚高频)过度表达DNA甲基转移酶的培养成纤维细胞中的CGIDNMT1(DNMT1)(18). 此外,甲基化的扩散似乎与特定疾病类型中启动子甲基化的总体增加有关。例如,ALL和FL中甲基化的扩散比MCL和CLL更为显著,这与ALL和CL中更多的甲基化基因有关。这种表观遗传事件的潜在机制尚不清楚,但可能与淋巴瘤或白血病的发生有关。ALL和FL的一个共同特征是,尽管这些细胞来自B细胞发育的两个不同成熟阶段,但在正常条件下,这两种组织的细胞都在经历DNA的快速突变和重排。因为DNA甲基转移酶与DNA修复有关(19),DNA甲基转移酶可能在这两个阶段积极表达,在这两种疾病中甲基化基因过多中发挥了机制作用。此外,DNMT1(DNMT1)正常生发中心B细胞的表达明显高于正常幼稚、记忆、地幔区或边缘区B细胞(20). 因此,与CLL和MCL(来源于边缘区B细胞)相比,功能异常的DNMT1可以解释FL(来源于生发中心B细胞)中甲基化基因过多的原因。

由于样本可用性有限,无法使用匹配的RNA样本进行基因表达分析。然而DLC-1、LRP1B、CYP27B1、KCNK2、PCDHGA12、DDX51、CCND1、p57,以及MME公司(CD10型)淋巴瘤和白血病细胞系的早期特征表明在体外用去甲基化剂处理可以在含有高甲基化基因启动子的细胞系中重新激活这些基因(10, 13, 21, 22). 此外数据链路连接器-1轻轨P1B先前在原发性淋巴瘤样本中进行了评估,发现高甲基化与基因表达之间存在相互关系,表明启动子高甲基化可能在下调数据链路连接器-1轻轨P1B原发性淋巴瘤的基因表达(10, 13).

随着表观遗传学技术的最新发展,我们小组和其他人发现了许多新的甲基化启动子CGI,它们可能是肿瘤特异性的,作为表观遗传生物标记物具有巨大潜力。qMSP是一种很有前途的甲基化分析方法,可用于开发临床诊断分析,但仅限于分析给定CGI中的几个CpG位点。因此,至关重要的是,为设计此类分析而选择的CpG位点没有偏见。在这项研究中,我们在单分子水平和单甲基胞嘧啶分辨率下对我们的微阵列研究确定的启动子甲基化进行了全面、深入的分析。获得的信息可用于指导qMSP分析的设计。事实上,研究了几个基因,例如ADAM12,ALDH1L1,以及轻轨P1B,可能是开发表观遗传生物标记物的最佳候选基因,其甲基化水平远高于先前在淋巴瘤和白血病中被甲基化的几个候选基因,例如第15页(CDKN2B型)和SHP-1型(PTPN6号机组). 此外,这种超深测序方法能够识别基因突变,并提供可能将遗传和表观遗传数据联系起来的基因型信息,从而开发用于疾病分类和诊断的综合标记。

尽管本研究显示了下一代测序技术在表观遗传学研究中的巨大应用潜力,但要充分利用高通量并行测序仪器的吞吐能力,还需要解决几个问题。在这项概念验证研究中,在汇集测序之前,进行了大量单独的PCR分析。或者,可以结合基因收集器方法,该方法以较小的偏差产生均匀分布的多重扩增产物(23),以提高扩增子生成的效率。此外,在未来的研究中,应仔细优化扩增方案,设计长度一致的PCR扩增产物,并添加加标对照。

总之,这项研究提供了证据,证明高通量平行亚硫酸氢盐测序可以以超深方式和单一甲基胞嘧啶分辨率测量感兴趣基因组区域的DNA甲基化。这样一个彻底的分析有望提供对异常DNA甲基化的进行性本质及其与肿瘤过程中转录沉默的关系的见解,并有助于设计可用于诊断分析的定量表观遗传生物标记物。

注:本文的补充数据可从癌症研究在线获得(http://cancerres.aacrjournals.org/).

K.H.Taylor和R.S.Kramer对这项工作做出了同样的贡献。

拨款支持:国家癌症研究所(National Cancer Institute)资助CA123018(H.Shi)、CA100055和CA097880(C.W.Caldwell),NIH生物医学和健康信息学研究培训项目LM07089(R.S.Kramer),国家科学基金会(National Science Foundation)资助ITR-IIS-0407204(D.Xu)。C.W.Caldwell是密苏里州癌症研究中心癌症研究主席。

这篇文章的出版费用部分由页面费支付。因此,必须在此标记此物品广告根据《美国法典》第18卷第1734节,仅为了表明这一事实。

我们感谢Michael X.Wang博士善意地提供了本研究中使用的几个DNA样本。

1
鸟A.DNA甲基化的本质。
单元格
1992
;
70
:
5
–8.
2
Robertson KD,Jones PA。DNA甲基化:过去、现在和未来的方向。
致癌作用
2000
;
21
:
461
–7.
Craig JM,华盛顿州Bickmore。哺乳动物染色体中CpG岛的分布。
自然基因
1994
;
7
:
376
–82.
4
Jones PA,Baylin SB。表观遗传事件在癌症中的基本作用。
Nat Rev基因
2002
;
:
415
–28.
5
Grunau C,Clark SJ,Rosenthal A.亚硫酸氢盐基因组测序:关键实验参数的系统研究。
核酸研究
2001
;
29
:
E65型
.
6
Sandovici I、Leppert M、Hawk PR、Suarez A、Linares Y、Sapienza C。IGF2/H19和IGF2R差异甲基化区域亲本等位基因异常甲基化的家族聚集。
人类分子遗传学
2003
;
12
:
1569
–78.
7
Eckhardt F、Lewin J、Cortese R等。人类6、20和22号染色体的DNA甲基化分析。
自然基因
2006
;
38
:
1378
–85.
8
Rakyan VK、Hildmann T、Novik KL等。人类主要组织相容性复合体的DNA甲基化分析:人类表观基因组项目的初步研究。
公共科学图书馆生物
2004
;
2
:
e405(电子405)
.
9
Margulies M,Egholm M,Altman WE,et al.微加工高密度微晶反应器中的基因组测序。
自然
2005
;
437
:
376
–80.
10
石华,郭杰,达夫·DJ,等。非霍奇金淋巴瘤新表观遗传标记的发现。
致癌作用
2007
;
28
:
60
–70.
11
Yegnasubramanian S,Kowalski J,Gonzago ML等。原发性和转移性人类前列腺癌中CpG岛的高甲基化。
癌症研究
2004
;
64
:
1975
–86.
12
Widschwendter M、Siegmund KD、Muller HM等。乳腺癌DNA甲基化特征与激素受体状态和三苯氧胺反应的关系。
癌症研究
2004
;
64
:
3807
–13.
13
Rahmatpanah FB,Carstens S,Guo J,等。具有不同临床行为的小B细胞淋巴瘤亚类的差异DNA甲基化模式。
白血病
2006
;
20
:
1855
–62.
14
Esteller M.从冰山一角分析血液肿瘤中异常DNA甲基化。
临床免疫学
2003
;
109
:
80
–8.
15
Taylor KH、Pena-Hernandez KE、Davis JW等。大规模CpG甲基化分析可识别新的候选基因,并揭示急性淋巴细胞白血病中的甲基化热点。
癌症研究
2007
;
67
:
2617
–25.
16
Thomas RK,Nickerson E,Simons JF,等。通过大规模平行微晶反应器测序在异质性癌症样本中检测敏感突变。
自然·医学
2006
;
12
:
852
–5.
17
Yan PS,Shi H,Rahmatpanah F,等。乳腺癌RASSF1A-CpG岛DNA甲基化的差异分布。
癌症研究
2003
;
63
:
6178
–86.
18
Graff JR、Herman JG、Myohanen S、Baylin SB、Vertino PM。正常细胞和肿瘤细胞中CpG岛甲基化的映射模式涉及肿瘤细胞的上游和下游区域从头开始甲基化。
生物化学杂志
1997
;
272
:
22322
–9.
19
李玉强,周培泽,郑晓东,沃尔什·CP,徐GL.Dnmt3a与胸腺嘧啶DNA糖苷酶的结合将DNA甲基化与碱基切除修复联系起来。
核酸研究
2007
;
35
:
390
–400.
20
Martin-Subero JI,Ballestar E,Esteller M,Siebert R.朝向淋巴瘤甲基体的定义。
白血病
2006
;
20
:
1658
–60.
21
郭J,Burger M,Nimmrich I,等。小B细胞淋巴瘤基因启动子的差异DNA甲基化。
美国临床病理学杂志
2005
;
124
:
430
–9.
22
Taylor KH、Liu J、Guo J、Davis JW、Shi H、Caldwell CW。淋巴恶性肿瘤中CD10的启动子DNA甲基化。
白血病
2006
;
20
:
1910
–2.
23
Fredriksson S、Baner J、Dahl F等。基因采集器对10个癌症基因内所有编码序列的多重扩增。
核酸研究
2007
;
35
:
e47(电子47)
.

补充数据