454测序用扩增子的制备。采用大规模并行序列合成法对五组原代细胞中的25个基因相关CGI进行超深亚硫酸氢盐测序分析:(一)正常PBL(b条)所有人(c(c))CLL、(d日)FL和(电子)MCL公司。对于每个样本组,收集从10个具有相同诊断的个体中分离的DNA样本,并处理亚硫酸氢盐(图1). 本研究中包含的基因(补充表S2)先前显示在血液肿瘤中甲基化,包括淋巴瘤和白血病(10, 13–15). 对于每个基因启动子,在每个PCR引物的5′端添加一个组特异性四核苷酸标签(图1)这样,在测序后,就可以计算分离出五组的扩增子。针对25个基因相关CGI中的每一个,通过PCR从五个组中的每个组中产生单个扩增物。125对引物的完整列表见补充表S3,扩增子相对于转录起始位点的位置见补充图S1。每个扩增子通过凝胶电泳进行检测、纯化、定量,然后以等摩尔比汇集在一起。在多次重复尝试后,三个PCR没有产生高质量的PCR产物,因此被排除在分析之外。其余122个扩增子使用454生命科学公司的GS20测序器进行测序。
绘制亚硫酸氢盐测序结果。所有454个序列包含一个FASTA文件,每个条目读取一个序列,包括质量控制信息。在单次5.5小时机器运行中,共获得294631个序列,包括正向和反向股序列。平均读取长度为131 bp(范围为35-300 bp)。生物信息学分析包括以下三个步骤:(一)将454序列与唯一的引物相匹配(b条)将序列与生物信息学亚硫酸氢盐转化的扩增子序列,以及(c(c))从正向和反向股中编译信息并修剪序列。使用动态规划对齐算法将每个序列映射到生物信息学亚硫酸氢盐转换扩增子序列(见补充材料和方法)。在294631个序列中,288358个(97.9%)被映射到一个独特的扩增子(表1). 每个扩增子平均获得1697个序列读取(包括正向和反向序列)。然而,一些扩增子的序列读取次数比其他扩增子少得多,有时一条链上的序列数量远远超过另一条链的序列。由于在汇集之前对扩增产物进行了检查和量化,我们怀疑这些变异是由于在454测序所用的文库制备方案中进行了一系列连接子连接和乳化PCR扩增步骤造成的。使用一般线性模型确定获得的序列数受特定基因、疾病类型和序列读取方向的显著影响。这些因素解释了99.6%的读数变化。补充信息中包括了按疾病类型划分的每个基因读取次数的估计边际平均值(补充图S2)。这些变化可能是由每个扩增子的独特序列结构引起的,包括扩增子长度、GC含量、总甲基化状态以及亚硫酸氢盐处理后出现的均聚物数量。因为它们中的大多数与基因或基因与疾病的相互作用相混淆,所以它们不包括在模型中。然而,在读取次数和扩增子长度之间观察到统计上显著的负相关(P(P)<0.001)和均聚物的数量(P(P)< 0.001). 测序错误率(表1)与之前报告的值类似(9). 亚硫酸氢盐处理效率通过计算除CpG二核苷酸(包括CpA、CpC或CpT二核苷酸,从这一点起称为CpH)中的胞嘧啶碱以外的所有胞嘧啶碱的C到T转换率来确定。这是通过将与CpH对齐的C核苷酸的数量相加,然后除以在CpHs对齐的C和T核苷酸的数量来计算的。该分析不包括引物序列和过滤读数。亚硫酸氢盐转化率估计为98.8%(表1); 然而,无法确定是否有任何未转化的胞嘧啶是由于从头开始CpH甲基化。
多启动子CGI的定量DNA甲基化分析。根据比对的质量,从分析中筛选出序列标识<90%的读数。补充信息(补充图S3)中包含了一个示例,说明了非过滤(序列标识>90%)和过滤(序列识别<90%)序列的对齐。过滤后,共有207011个序列(70.3%)用于计算样本中的甲基化水平。根据正向链上每个CpG位点的C到T转换和反向链上的G到a转换,确定每个序列读取中每个CpG-位点的甲基化状态。根据含有甲基化CpG位点的序列数量与分析的序列总数,计算每个样本组每个扩增子内每个CpG部位的甲基化百分比(图2). 扩增子内的大多数CpG位点通过正向和反向测序进行分析。然而,TRIM36、ZNF566、PTPN6、DAPK、CDKN2B,以及ZNF677型缺少两个以上CpG站点的数据,这可能是454技术的读取长度限制的函数。总的来说,所分析的25个基因中的甲基化与我们和其他人之前的报道一致(10, 13). 然而,这项研究的结果提供了关于每个甲基胞嘧啶的定量甲基化的更多细节,也提供了分析的每个片段的甲基化概况。尽管在这项初步研究中使用了汇集策略,但正常对照组和肿瘤样本之间存在明显差异。例如,肿瘤样本中甲基化20%或以上的CpG位点分析百分比是正常PBL样本的10倍(45.64%对4.25%;参见表1). 有趣的是,许多CpG位点的甲基化水平ALDH1L1、LRP1B、PON3、PCDHGA12,以及ADAM12型与正常PBL、CLL或MCL样品相比,ALL和FL样品中的含量非常高(>70%)。这似乎与我们之前的发现一致,在FL中发现的甲基化基因数量明显高于CLL和MCL(10, 13). 由于每个诊断组中10名患者的DNA样本被合并,给定扩增子的序列读取中CpG甲基化的比例很高,这表明该组中的大多数患者在特定位置甲基化。因此,这些独特的甲基化位点(图2)具有作为肿瘤特异性生物标志物进行诊断的巨大潜力。
为了将454测序结果与标准亚硫酸氢盐测序进行比较,从在体外–甲基化PBL DNA样本和三个混合DNA样本(PBL、ALL和FL;见材料和方法),使用为ADAM12型但缺乏为454测序分析设计的疾病特异性标签。使用传统的Sanger测序方法对这四个扩增子进行克隆和测序。如所示图3,454个测序结果与标准亚硫酸氢盐测序相关。为了检验并行测序方法的定量性质,将454个测序结果与来自DAPK(DAPK)和数据链路连接器-1qMSP反应中使用的引物和探针与DAPK(DAPK)和数据链路连接器-1放大器(补充图S4A类和C类). 将454测序分析中测定的qMSP引物和探针中所有CpG位点的平均甲基化水平与qMSP结果中获得的PMR值进行比较,并与数据链路连接器-1但在较小程度上DAPK(DAPK)(补充图S4B类和天). 454个测序结果也与单个患者的qMSP数据进行了比较(补充图S4B类和天).数据链路连接器-1和DAPK(DAPK)在总共102个原发性正常和肿瘤样本中使用qMSP分析甲基化(参见补充图S5)。将每个疾病组的平均PMR值与合并DNA样本的qMSP结果以及测序结果进行比较。对于DLC-1型总的来说,验证性研究验证了超深亚硫酸氢盐测序结果。
单个CGI中的DNA甲基化模式。在检查的25个扩增子中,有20个显示与正常PBL对照相比,在各种类型的疾病中甲基化增加。许多疾病之间的甲基化水平也存在定量差异。特别是,与CLL和MCL相比,FL和ALL中的许多扩增子甲基化密度显著增加。由于采用了汇集策略,因此无法评估每个肿瘤样本对甲基化总体水平的贡献。25个基因中只有4个(PON3、CYP27B1、DDX51,以及PCDHGA12公司)在正常对照组的某些CpG位点有显著的甲基化(>20%),但在这些基因中,肿瘤样本中的甲基化水平都有所增加。有趣的是PON3号机组和CYP27B1型在对照正常PBL中观察到,CGI中间很少或没有甲基化,但边界处甲基化水平低至中等(20-44%)。同样,在一些肿瘤样本中可以清楚地看到这条分界线,但在CGI边界处观察到甲基化密度显著增加(图2). 每个PON3号机组和CYP27B1型使用聚类程序分析获得的序列(图4). 与对照正常PBL样本相比PON3号机组FL和ALL似乎表明甲基化从CGI边界向岛中心逐渐扩散(图4A). 在这些情况下,界限变得不那么明显,沿着边界显示出高水平的甲基化(>80%),伴随着启动子区甲基化CpG位点数量的增加。在甲基化方面观察到类似的逐渐变化CYP27B1型在FL和ALL中(图4B). 这些结果似乎支持甲基化从CGI外部向岛中心扩散的理论。
扩增子中SNP的分析。454测序已用于深度测序和识别罕见突变(16). 因为亚硫酸氢钠处理只修改非甲基化胞嘧啶,而不修改腺嘌呤、鸟嘌呤或胸腺嘧啶,所以分析了CpG二核苷酸以外序列的遗传变化。对加州大学圣克鲁斯分校基因组网站上的SNP数据库进行搜索,在我们的研究中分析的25个基因中的8个中发现了11个SNP。其中一个(rs4646696)出现在ALDH1L1型放大器(图2). 未发现任何已发表的SNP与淋巴瘤或白血病之间存在疾病特异性关联。然而,一个G→C多态性(rs1375610)在轻轨P1B放大器。使用聚类算法分析带有C等位基因或G等位基因的序列的甲基化模式。如所示图5A,C等位基因序列可以通过SNP位置的甲基化状态清楚地分离出来。绝大多数在SNP位点含有甲基化胞嘧啶的片段也在扩增子内剩余的大多数CpG位点甲基化。量化G→C多态性和甲基化状态之间的关联轻轨P1B,计算扩增子内每个CpG位点的优势比。正的对数优势比表明,甲基化在该位置与G→C多态性相关。如所示图5B,甲基化几乎总是与SNP相关(16个中的15个),并且在绝大多数位置(16个中的13个)发现了统计意义。所有位点的平均值显示,C等位基因与G等位基因的甲基化几率是前者的两倍多。尽管具有多次重复测量的混合样本的统计显著性是一个乐观的估计值,但这种SNP对总甲基化的潜在影响轻轨P1B需要进一步调查。