摘要
在亚硫酸氢盐基因组测序项目期间,产生了大量数据。亚硫酸氢盐测序数据表示与编译(BDPC)web界面(http://biochem.jacobs-university.de/BDPC/)自动分析使用BiQ分析仪准备的亚硫酸氢盐数据集。BDPC提供以下输出:(i)为每个PCR产物编译MS-Excel兼容文件(a)平均甲基化水平、分析的克隆数和分析的CG位点百分比(这是数据质量的指标),(b)在每个CG位点观察到的甲基化水平和(c)每个克隆的甲基化程度。(ii)甲基化概述表,汇编所有组织中所有扩增子的甲基化。(iii)PNG格式的出版级数字,显示嵌入HMTL文件中的每个PCR产物的甲基化模式,总结甲基化数据、DNA序列和一些基本统计数据。(iv)编译不同组织甲基化模式的摘要文件,该文件链接到单个HTML结果文件,可直接用于在互联网上显示数据。(v) 一个压缩文件,包含简化格式的所有主要数据,用于进一步的下游数据分析,以及(vi)一个自定义跟踪文件,用于在UCSC基因组浏览器中显示结果。
简介
DNA甲基化以甲基基团共价连接到胞嘧啶的C5位置的形式编码DNA上的附加信息。在哺乳动物中,胞嘧啶的甲基化发生在细胞类型和组织特异性的胞嘧啶-鸟嘌呤二核苷酸(CG-sites)处(1,2). DNA的甲基化与其他表观遗传学标记(如组蛋白修饰)协同工作(三)在基因表达和发育的调控中。一般来说,基因启动子的DNA甲基化使基因活性沉默(2). 它参与X染色体失活、基因组完整性、细胞发育和分化(4). DNA甲基化对哺乳动物的发育至关重要,因为在小鼠中,任何已知活性DNA甲基转移酶的缺失都会导致胚胎死亡或发育异常和早期死亡(5,6). DNA甲基化异常与癌症发展和其他疾病有关(7,8).
人类基因组测序完成后,表观基因组的解码,其中包含了遗传元素活性的蓝图,已成为研究关注的焦点。最近,人类(9)和拟南芥(三)利用针对甲基胞嘧啶的抗体结合阵列技术对DNA进行免疫沉淀,在全基因组范围内研究DNA甲基化。此外,通过亚硫酸氢盐基因组测序详细研究了人类第6、20和22号染色体基因启动子区域的DNA甲基化(10),这是分析DNA甲基化的标准方法,因为它提供了可靠和详细的DNA甲基化状态图片。研究DNA甲基化需要特定的技术,因为DNA甲基化状态的信息在在体外DNA扩增和克隆。亚硫酸氢钠处理后,甲基化和非甲基化胞嘧啶可以区分,因为非甲基化的胞嘧啶转化为尿嘧啶,而甲基化的胞嘧啶保留为胞嘧啶(11–13). 亚硫酸氢盐测序实验的工作流程包括设计针对通常不含CG位点的转化DNA的引物,以及DNA在PCR后的亚硫酸氢转换。通过亚克隆PCR产物测序对单个DNA分子进行分析,可以提供关于每个CG位点甲基化状态的最可靠和详细的信息。因此,在大多数情况下,下一步是对PCR产物进行亚克隆,并对几个克隆进行测序,以生成具有统计意义的数据集(工作流程在14).
为了分析亚硫酸氢盐转化DNA的测序结果,实验序列与生物信息学转换基因组靶序列。此步骤由BiQ Analyzer软件实现(15)这是一个非常流行的程序,用于亚硫酸氢盐测序结果的初始分析。BiQ分析仪上传目标序列和任意数量的亚克隆PCR产品序列,创建比对,指导用户完成分析的每个步骤,并将比对和结果存储在HTML文件中。然而,BiQ分析仪仅适用于单个PCR产品,并为每个PCR产品创建一个单独的输出文件,因此无法协助进一步的数据分析和编译。
中型或大型项目积累了大量数据,因为DNA甲基化通常在几个生物样本的许多基因组位点进行研究。在这篇文章中,我们假设DNA甲基化是在不同的组织或生物样本中进行分析的,这里我们将其缩写为“组织”。不同的引物组用于分析不同基因组区域的甲基化,称为“扩增子”。相同的扩增子可以在不同的组织中进行研究。因此,产生相同扩增子类型的不同PCR产物。因此,必须研究大量PCR产物的甲基化数据,并对结果进行整合、分析和呈现。通常,需要比较相同扩增子PCR产物的甲基化数据,以检测组织间的甲基化差异。此外,需要比较所有PCR产物结果的一般统计数据,对于数据表示,需要甲基化模式的出版级表示,以及用于在互联网上进行数据表示的链接和可供出版的HTML文件。
结果和讨论
亚硫酸氢盐测序数据呈现和编译(BDPC)web界面支持亚硫酸氢酯DNA甲基化数据的编译、分析和呈现,这些数据具有从小型探索数据集到大规模甲基化项目的任何复杂程度(http://biochem.jacobs-university.de/BDPC/). 该程序通过准备显示每个PCR产品甲基化模式的出版级图形,并准备一组链接的HTML文件用于互联网数据表示,来支持数据表示。它为每个PCR产品、不同的结果编译文件提供数据摘要,并通过准备包含所有主要数据的压缩输出文件来支持进一步的深入分析。
BDPC软件是用PHP编写的。程序的源代码可按要求提供。它旨在分析和编译BiQ Analyzer结果文件,该文件以单独的HTML输出文件的形式提供结果,每个PCR产品一个。如果数据以BDPC兼容格式提供,则也可以使用BDPC编译手动或使用其他软件编制的数据文件,如图1为了上传,数据文件必须用扩增子名称命名,并分别存储在每个组织的一个文件夹中。BDPC使用文件夹名称,并将其解释为组织名称。用户可以选择提供扩增子的染色体位置和坐标作为附加信息,然后由BDPC用于生成UCSC自定义轨迹文件。BDPC在线手册中描述了该文件的格式。文件夹(连同其他信息文件)需要使用ZIP标准格式压缩为一个文件(http://www.pkware.com/)和已上传。
图2概述了BDPC在亚硫酸氢盐DNA甲基化研究工作流程中的作用以及分析后提供的结果文件。BDPC可以编译大型数据集。在内部,我们毫无困难地处理了包含1000多个结果文件的数据集。这里,作为一个例子,我们说明了BDPC在一个相对较小的数据集上的应用,该数据集包含五个独立的扩增子,它们覆盖了人类FAM3B基因的转录起始位点,如图3在四种不同细胞系或组织的DNA中分析了这些扩增子,即HEK293、Hep-G2、成纤维细胞系和白细胞。测序结果用BiQ Analyzer进行分析,必要时手动编辑结果文件。接下来,按照前面的描述排列结果文件,如所示图2,压缩在一个ZIP文件中,并使用BDPC软件进行分析。
分析后,可以下载ZIP格式的结果。BDPC提供以下文件:
一个摘要文件,为每个PCR产物提供扩增子名称、分析的组织、总DNA甲基化百分比、分析的克隆数和分析的CG位置百分比(“results_methylation_summary.csv”)。
格式化的总览表,允许直接比较每个组织中每个扩增子的平均甲基化水平(“results_methylation_overview.csv”)。
一个文件给出每个PCR产物每个CG位点的平均甲基化(“results_methylation_CG_sites.csv”)。在这里,如果每个CG站点至少有五个结果可用,则执行一个阈值,以便仅计算平均值。否则CG位点的甲基化状态将被注释为“未确定”。
一个文件,包含每个PCR产品的每个克隆的平均甲基化(“results_methylation_clones.csv”)。
每个PCR产物的一个主数据HTML文件,包含扩增子名称、分析的组织、总DNA甲基化百分比和每个CG位点观察到的甲基化,以PNG格式的浓缩图片显示,可直接用于数据显示。
比较不同组织中每个扩增子获得的甲基化模式的摘要HTML文件(“summary.HTML”)。此文件中的图形直接链接到HTML文件,显示(v)中所述的单个结果。此文件系统可用于在internet上立即显示数据。
用于在UCSC基因组浏览器中直接上传结果的自定义跟踪文件(“UCSC_upload.txt”)(图3).
一个压缩数据文件,以简化格式收集所有主要数据,以便以后进行下游分析(“downstream.txt”)。
总之,BDPC为亚硫酸氢盐DNA甲基化数据的分析提供了有用的资源。BDPC不仅简化了呈现和编译过程,而且还改进了分析,因为总甲基化百分比的计算考虑了在原始测序运行中是否发现了CG。此外,如果<5个克隆包含该位点的数据,则CG位点的甲基化状态被确定为“未确定”。在数据质量较差和存在遗传多态性的情况下,这些特征很重要。通过编辑“results_methylation_summary.csv”输出文件中提供的所有PCR产品的CG位点的总体覆盖率,也有助于评估数据质量。
BDPC输出文件的应用示例如下:
平均数据可以直接用于比较不同组织中单个CG位点的甲基化状态,并计算P(P)-通过应用二项式分布的统计数据,确定两个组织之间观察到的差异的显著性值。此外,这些数据可用于显示单个扩增子的甲基化曲线(图4A) ●●●●。
单个克隆的甲基化水平可以直接用于比较不同组织的甲基化(图4B) ●●●●。此外,它们还可以用于通过以下方式对不同组织的甲基化模式进行配对比较t吨-测试,如所示图5如果两个组织都显示甲基化水平的单峰分布,则该程序是准确的。如果是至少一个组织的双峰分布,简单的t吨-尽管甲基化差异具有统计学意义,但该测试可能无法检测出差异。
如上所述,UCSC上传文件可用于在UCSC基因组浏览器中显示甲基化数据(图3).
致谢
这项工作得到了德国教育和研究部长的资助(NGFN-2计划)。我们感谢S.Becker女士的技术援助。支付本文开放获取出版费用的资金由柏林马克斯·普朗克研究所提供。
利益冲突声明。未声明。
参考文献
-
1.Hermann A、Gowher H、Jeltsch A.哺乳动物DNA甲基转移酶的生物化学和生物学。单元格。分子生命科学。2004;61:2571–2587. doi:10.1007/s00018-004-4201-1。[内政部] [公共医学] [谷歌学者]
-
2Klose RJ,Bird AP。基因组DNA甲基化:标记及其介质。生物化学趋势。科学。2006;31:89–97. doi:10.1016/j.tibs.2005.12.008。[内政部] [公共医学] [谷歌学者]
-
三。Martin C,Zhang Y.表观遗传机制。货币。操作。细胞生物学。2007;19:266–272. doi:10.1016/j.ceb.2007.04.002。[内政部] [公共医学] [谷歌学者]
-
4鸟A.DNA甲基化模式和表观遗传记忆。基因发展2002;16:6–21. doi:10.1101/gad.947102。[内政部] [公共医学] [谷歌学者]
-
5Li E,Bestor TH,Jaenisch R.DNA甲基转移酶基因的靶向突变导致胚胎致死。单元格。1992;69:915–926. doi:10.1016/0092-8674(92)90611-f。[内政部] [公共医学] [谷歌学者]
-
6Okano M、Bell DW、Haber DA、Li E.DNA甲基转移酶Dnmt3a和Dnmtt3b对从头甲基化和哺乳动物发育至关重要。单元格。1999;99:247–257. doi:10.1016/s0092-8674(00)81656-6。[内政部] [公共医学] [谷歌学者]
-
7范伯格美联社。癌症病因的表观遗传学。塞明。癌症生物学。2004;14:427–432. doi:10.1016/j.semcancer.2004.06.005。[内政部] [公共医学] [谷歌学者]
-
8Egger G,Liang G,Aparicio A,Jones PA。人类疾病的表观遗传学和表观遗传学治疗的前景。自然。2004;429:457–463. doi:10.1038/nature2625。[内政部] [公共医学] [谷歌学者]
-
9Weber M、Hellmann I、Stadler MB、Ramos L、Paabo S、Rebhan M、Schubeler D.人类基因组中启动子DNA甲基化的分布、沉默潜力和进化影响。自然遗传学。2007;39:457–466. doi:10.1038/ng1990年。[内政部] [公共医学] [谷歌学者]
-
10Eckhardt F、Lewin J、Cortese R、Rakyan VK、Attwood J、Burger M、Burton J、Cox TV、Davies R、Down TA等。人类染色体6、20和22的DNA甲基化分析。自然遗传学。2006;38:1378–1385. doi:10.1038/ng1909。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
11Frommer M、McDonald L、Millar D、Collis C、Watt F、Grigg G、Molloy P、Paul C。一种在单个DNA链中产生5-甲基胞嘧啶残基阳性显示的基因组测序方案。程序。美国国家科学院。科学。美国1992年;89:1827–1831. doi:10.1073/pnas.89.5.1827。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
12Clark SJ、Harrison J、Paul CL、Frommer M.甲基化胞嘧啶的高灵敏度绘图。《核酸研究》1994;22:2990–2997. doi:10.1093/nar/22.15.290。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
13.Grunau C,Clark SJ,Rosenthal A.亚硫酸氢盐基因组测序:关键实验参数的系统研究。2001年《核酸研究》;29:E65–E65。doi:10.1093/nar/29.13.e65。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
14Zhang Y,Rohde C,Tierling S,Stamerjohanns H,Reinhardt R,Walter J,Jeltsch A.In:DNA甲基化分析方法。第二。托斯特·J,编辑。新泽西州托托瓦:Humana出版社;2008[谷歌学者]
-
15Bock C、Reither S、Mikeska T、Paulsen M、Walter J、Lengauer T。BiQ分析仪:亚硫酸盐测序中DNA甲基化数据的可视化和质量控制。生物信息学。2005;21:4067–4068. doi:10.1093/bioinformatics/bti652。[内政部] [公共医学] [谷歌学者]