跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2008年3月;36(5):e34。
2008年2月22日在线发布。 数字对象标识:10.1093/nar/gkn083
预防性维修识别码:项目编号2275153
PMID:18296484

亚硫酸氢盐测序数据表示与编译(BDPC)web服务器——DNA甲基化分析的有用工具

摘要

在亚硫酸氢盐基因组测序项目期间,产生了大量数据。亚硫酸氢盐测序数据表示与编译(BDPC)web界面(http://biochem.jacobs-university.de/BDPC/)自动分析使用BiQ分析仪准备的亚硫酸氢盐数据集。BDPC提供以下输出:(i)为每个PCR产物编译MS-Excel兼容文件(a)平均甲基化水平、分析的克隆数和分析的CG位点百分比(这是数据质量的指标),(b)在每个CG位点观察到的甲基化水平和(c)每个克隆的甲基化程度。(ii)甲基化概述表,汇编所有组织中所有扩增子的甲基化。(iii)PNG格式的出版级数字,显示嵌入HMTL文件中的每个PCR产物的甲基化模式,总结甲基化数据、DNA序列和一些基本统计数据。(iv)编译不同组织甲基化模式的摘要文件,该文件链接到单个HTML结果文件,可直接用于在互联网上显示数据。(v) 一个压缩文件,包含简化格式的所有主要数据,用于进一步的下游数据分析,以及(vi)一个自定义跟踪文件,用于在UCSC基因组浏览器中显示结果。

简介

DNA甲基化以甲基基团共价连接到胞嘧啶的C5位置的形式编码DNA上的附加信息。在哺乳动物中,胞嘧啶的甲基化发生在细胞类型和组织特异性的胞嘧啶-鸟嘌呤二核苷酸(CG-sites)处(1,2). DNA甲基化与其他表观遗传标记(如组蛋白修饰)协同工作()在基因表达和发育的调控中。一般来说,基因启动子的DNA甲基化沉默基因活性(2). 它参与X染色体失活、基因组完整性、细胞发育和分化(4). DNA甲基化对哺乳动物的发育至关重要,因为在小鼠中,任何已知活性DNA甲基转移酶的缺失都会导致胚胎死亡或发育异常和早期死亡(5,6). DNA甲基化异常与癌症发展和其他疾病有关(7,8).

人类基因组测序完成后,表观基因组的解码,其中包含了遗传元素活性的蓝图,已成为研究关注的焦点。最近,人类(9)和拟南芥()利用针对甲基胞嘧啶的抗体结合阵列技术对DNA进行免疫沉淀,在全基因组范围内研究DNA甲基化。此外,通过亚硫酸氢盐基因组测序详细研究了人类第6、20和22号染色体基因启动子区域的DNA甲基化(10),这是分析DNA甲基化的标准方法,因为它提供了可靠和详细的DNA甲基化状态图片。研究DNA甲基化需要特定的技术,因为DNA甲基化状态的信息在在体外DNA扩增和克隆。亚硫酸氢钠处理后,甲基化和非甲基化胞嘧啶可以区分,因为非甲基化的胞嘧啶转化为尿嘧啶,而甲基化的胞嘧啶保留为胞嘧啶(11–13). 亚硫酸氢盐测序实验的工作流程包括设计针对通常不含CG位点的转化DNA的引物,以及DNA在PCR后的亚硫酸氢转换。通过亚克隆PCR产物测序对单个DNA分子进行分析,可以提供关于每个CG位点甲基化状态的最可靠和详细的信息。因此,在大多数情况下,下一步是对PCR产物进行亚克隆,并对几个克隆进行测序,以生成具有统计意义的数据集(工作流程在14).

为了分析亚硫酸氢盐转化的DNA的测序结果,将实验序列与生物信息学转换基因组靶序列。BiQ Analyzer软件为这一步骤提供了便利(15),这是一个非常流行的亚硫酸氢盐测序结果初步分析程序。BiQ分析仪上传目标序列和任意数量的亚克隆PCR产品序列,创建比对,指导用户完成分析的每个步骤,并将比对和结果存储在HTML文件中。然而,BiQ分析仪仅适用于单个PCR产品,并为每个PCR产品创建一个单独的输出文件,因此无法协助进一步的数据分析和编译。

中型或大型项目积累了大量数据,因为DNA甲基化通常在几个生物样本的许多基因组位点进行研究。在这篇文章中,我们假设DNA甲基化是在不同的组织或生物样本中进行分析的,这里我们将其缩写为“组织”。不同的引物组用于分析不同基因组区域的甲基化,称为“扩增子”。相同的扩增子可以在不同的组织中进行研究。因此,产生相同扩增子类型的不同PCR产物。因此,必须研究大量PCR产物的甲基化数据,并对结果进行整合、分析和呈现。通常,需要比较相同扩增子PCR产物的甲基化数据,以检测组织间的甲基化差异。此外,需要比较所有PCR产物结果的一般统计数据,对于数据表示,需要甲基化模式的出版级表示,以及用于在互联网上进行数据表示的链接和可供出版的HTML文件。

结果和讨论

亚硫酸氢盐测序数据呈现和编译(BDPC)web界面支持亚硫酸氢酯DNA甲基化数据的编译、分析和呈现,这些数据具有从小型探索数据集到大规模甲基化项目的任何复杂程度(http://biochem.jacobs-university.de/BDPC/). 该程序通过准备显示每个PCR产品甲基化模式的出版级图形,并准备一组链接的HTML文件用于互联网数据表示,来支持数据表示。它为每个PCR产品、不同的结果编译文件提供数据摘要,并通过准备包含所有主要数据的压缩输出文件来支持进一步的深入分析。

BDPC软件是用PHP编写的。程序的源代码可按要求提供。它用于分析和编译BiQ Analyzer结果文件,以单独的HTML输出文件的形式提供结果,每个PCR产品一个。如果数据以BDPC兼容格式提供,则也可以使用BDPC编译手动或使用其他软件编制的数据文件,如图1。上传时,数据文件必须使用扩增子名称命名,并分别存储在每个组织的一个文件夹中。BDPC使用文件夹名称,并将其解释为组织名称。用户可以选择提供扩增子的染色体位置和坐标作为附加信息,然后由BDPC用于生成UCSC自定义轨迹文件。BDPC在线手册中描述了该文件的格式。文件夹(连同其他信息文件)需要使用ZIP标准格式压缩为一个文件(http://www.pkware.com/)和已上传。

保存图片、插图等的外部文件。对象名为gkn083f1.jpg

BDPC兼容的数据格式。要上传到BDPC,数据文件需要粗体显示的信息。示例文件可以从BDPC网站的“示例文件”区域下载。出于演示目的,这里使用了行号,但不能在数据文件中进行。第2行和第7行中的短语是强制性的,必须严格按照此处所示进行书写。第3行和第4行可用于对CG端进行编号,第5行可给出所分析的序列。该信息将被转入BDPC输出文件。在第8行中,“[2]'是强制性的,而对于下面的行,两个方括号就足够了。从第8行开始,结果的组织方式是,每列代表一个CG-site,每行代表单个克隆的测序结果。在结果中,“1”表示甲基化CG位点,“0”表示未甲基化CG位点,“x”表示不存在的CG位点。数据用制表符分隔。第1行和第21行中的HTML标记不是必需的。

图2概述了BDPC在亚硫酸氢盐DNA甲基化研究工作流程中的作用以及分析后提供的结果文件。BDPC可以编译大型数据集。在内部,我们毫无困难地处理了包含1000多个结果文件的数据集。这里,作为一个例子,我们说明了BDPC在一个相对较小的数据集上的应用,该数据集包含五个独立的扩增子,它们覆盖了人类FAM3B基因的转录起始位点,如图3在四种不同细胞系或组织的DNA中分析了这些扩增子,即HEK293、Hep-G2、成纤维细胞系和白细胞。使用BiQ Analyzer分析测序结果,必要时手动编辑结果文件。接下来,按照前面的描述排列结果文件,如所示图2,压缩在一个ZIP文件中,并使用BDPC软件进行分析。

保存图片、插图等的外部文件。对象名为gkn083f2a.jpg
保存图片、插图等的外部文件。对象名为gkn083f2b.jpg

使用BDPC进行亚硫酸氢盐基因组测序分析的工作流程。(A–C)使用BiQ分析仪(A)对测序数据进行初步分析。数据被组织在文件夹(B)中,并上传至BDPC进行分析和数据编译(C)。然后,可以在一个ZIP文件中下载结果并在本地提取。(D类)BDPC生成以下文件:1)amplicon overview“summary.html”文件链接到带有嵌入图片的主要结果html文件,2)“downloader.txt”文件在一个文件中编译所有主要数据,3)“results_methylation_cg_sites.csv”文件,4)“resols_methelation_clones.csv”文件,5)“results_methylation_summary.csv”文件,6)“resaults_methilation_overview.csv“表,比较所有组织中所有扩增物的甲基化结果,7)“ucsc_upload.txt”文件。(E类)对于每个PCR产品,都会生成一个表示就绪的HTML文件,其中包含:1)用编号的CG-二核苷酸分析的序列。2) 每个CG-二核苷酸的DNA甲基化状态以图形方式显示。这里,每个柱对应PCR产物中分析的一个CG位点。每行代表一个亚克隆PCR产物。甲基化的CG-二核苷酸以红色方块表示,非甲基化的为蓝色方块,不存在的CG-二核苷酸以白色表示。3) 所有克隆的DNA甲基化总结和CG-二核苷酸存在的统计。4) 彩色编码图片中显示的每个CG-site的平均甲基化水平。5) 表中列出了每个亚克隆DNA分子的平均甲基化。

保存图片、插图等的外部文件。对象名为gkn083f3.jpg

在UCSC基因组浏览器中显示BDPC结果。这里显示了人类21号染色体NCBI36组装的位置41 609 300–41 612 500。图片是通过将“ucsc_upload.txt”文件作为自定义曲目上传到生成的http://genome.ucsc.edu/cgi-bin/hgGateway网站图中自上而下显示了HEK293、白细胞、Hep-G2和成纤维细胞不同扩增子的甲基化水平。带注释的PCR产物中的箭头表示DNA甲基化分析的目标DNA链。产品的总体DNA甲基化水平由颜色表示:0–20%为蓝色,20.01–40%为青色,40.01–60%为黄色,60.01–80%为橙色,80.01–100%为红色。此外,还显示了GC-百分比、RefSeq基因注释、注释的CpG-Islands和重复序列元素。

分析后,可以下载ZIP格式的结果。BDPC提供以下文件:

  1. 一个摘要文件,为每个PCR产物提供扩增子名称、分析的组织、总DNA甲基化百分比、分析的克隆数和分析的CG位置百分比(“results_methylation_summary.csv”)。
  2. 格式化的概览表,允许直接比较每个组织中每个扩增子的平均甲基化水平(“结果_甲基化_概览.csv”)。
  3. 一个文件给出每个PCR产物的每个CG位点的平均甲基化(“结果_甲基化_CG_sites.csv”)。在这里,如果每个CG站点至少有五个结果可用,则执行一个阈值,以便仅计算平均值。否则CG位点的甲基化状态将被注释为“未确定”。
  4. 一个文件,包含每个PCR产品的每个克隆的平均甲基化(“results_methylation_clones.csv”)。
  5. 每个PCR产物的一个主数据HTML文件,包含扩增子名称、分析的组织、总DNA甲基化百分比和每个CG位点观察到的甲基化,以PNG格式的浓缩图片显示,可直接用于数据显示。
  6. 比较不同组织中每个扩增子获得的甲基化模式的摘要HTML文件(“summary.HTML”)。此文件中的图形直接链接到HTML文件,显示(v)中所述的单个结果。此文件系统可用于在internet上立即显示数据。
  7. 用于在UCSC基因组浏览器中直接上传结果的自定义跟踪文件(“UCSC_upload.txt”)(图3).
  8. 一个压缩数据文件,以简化格式收集所有主要数据,以便以后进行下游分析(“downstream.txt”)。

总之,BDPC为亚硫酸氢盐DNA甲基化数据的分析提供了有用的资源。BDPC不仅简化了呈现和编译过程,而且还改进了分析,因为总甲基化百分比的计算考虑了在原始测序运行中是否发现了CG。此外,如果<5个克隆包含该位点的数据,则CG位点的甲基化状态被确定为“未确定”。在数据质量较差和存在遗传多态性的情况下,这些特征很重要。通过编辑“results_methylation_summary.csv”输出文件中提供的所有PCR产品的CG位点的总体覆盖率,也有助于评估数据质量。

BDPC输出文件的应用示例如下:

  • 平均数据可以直接用于比较不同组织中单个CG位点的甲基化状态,并计算P(P)-通过应用二项式分布的统计数据,确定两个组织之间观察到的差异的显著性值。此外,这些数据可用于显示单个扩增子的甲基化曲线(图4A) ●●●●。
    保存图片、插图等的外部文件。对象名为gkn083f4.jpg

    BDPC输出文件用于数据表示的应用示例。(A类)不同组织中FAM3B_4扩增子上单个CG位点甲基化水平的分布。此图是使用“results_methylation_cg_sites.csv”文件中编译的数据生成的。(B类)不同组织中FAM3B_4 amlicon克隆的整体甲基化。该图使用“results_methylation_clones.csv”文件中编译的结果,通过计算每个组织中的平均甲基化和SE来绘制。该图显示平均±1 SE为灰色方框,平均±2 SE为线条。在Hep-G2中观察到的广泛分布是由于克隆中甲基化水平的双相分布(参见图5).

  • 单个克隆的甲基化水平可以直接用于比较不同组织的甲基化(图4B) ●●●●。此外,它们还可以用于通过以下方式对不同组织的甲基化模式进行配对比较t吨-测试,如所示图5如果两个组织都显示甲基化水平的单峰分布,则该程序是准确的。如果是至少一个组织的双峰分布,简单的t吨-尽管甲基化差异具有统计学意义,但该测试可能无法检测到它们。
    保存图片、插图等的外部文件。对象名为gkn083f5.jpg

    对不同细胞系和组织中FAM3B_3和FAM3B_4扩增子的甲基化数据进行配对比较。图中显示了两个扩增子在不同组织中观察到的甲基化模式:FAM3B_3(黄色阴影部分)和FAM3B_4(绿色阴影部分)。在表中,不同组织中甲基化水平(Δ百分比)的成对差异以及P(P)-列出了差异的统计显著性值。P(P)-表示无显著差异的值显示为红色。甲基化水平的差异是使用“results_methylation_summay.csv”中给出的甲基化数据计算的。这个P(P)-使用单个克隆的甲基化水平(在“results_methylation_clones.csv”中提供)计算值,使用双侧t吨-测试具有不同方差的样本。

  • 如上所述,UCSC上传文件可用于在UCSC基因组浏览器中显示甲基化数据(图3).

致谢

这项工作得到了德国教育和研究部长的资助(NGFN-2计划)。我们感谢S.Becker女士的技术援助。支付本文开放获取出版费用的资金由柏林马克斯·普朗克研究所提供。

利益冲突声明。未声明。

参考文献

1Hermann A、Gowher H、Jeltsch A.哺乳动物DNA甲基转移酶的生物化学和生物学。单元格。分子生命科学。2004;61:2571–2587.[公共医学][谷歌学者]
2Klose RJ,Bird AP。基因组DNA甲基化:标记及其介质。生物化学趋势。科学。2006;31:89–97.[公共医学][谷歌学者]
三。Martin C,Zhang Y.表观遗传机制。货币。操作。细胞生物学。2007;19:266–272.[公共医学][谷歌学者]
4鸟A.DNA甲基化模式和表观遗传记忆。基因发育。2002;16:6–21.[公共医学][谷歌学者]
5Li E,Bestor TH,Jaenisch R.DNA甲基转移酶基因的靶向突变导致胚胎致死。单元格。1992;69:915–926.[公共医学][谷歌学者]
6Okano M、Bell DW、Haber DA、Li E.DNA甲基转移酶Dnmt3a和Dnmtt3b对从头甲基化和哺乳动物发育至关重要。单元格。1999;99:247-257。[公共医学][谷歌学者]
7范伯格美联社。癌症病因的表观遗传学。塞明。癌症生物学。2004;14:427–432.[公共医学][谷歌学者]
8Egger G,Liang G,Aparicio A,Jones PA。人类疾病的表观遗传学和表观遗传治疗的前景。自然。2004;429:457–463.[公共医学][谷歌学者]
9Weber M、Hellmann I、Stadler MB、Ramos L、Paabo S、Rebhan M、Schubeler D.人类基因组中启动子DNA甲基化的分布、沉默潜力和进化影响。自然遗传学。2007;39:457–466.[公共医学][谷歌学者]
10Eckhardt F、Lewin J、Cortese R、Rakyan VK、Attwood J、Burger M、Burton J、Cox TV、Davies R、Down TA等。人类染色体6、20和22的DNA甲基化分析。自然遗传学。2006;38:1378–1385. [PMC免费文章][公共医学][谷歌学者]
11Frommer M、McDonald L、Millar D、Collis C、Watt F、Grigg G、Molloy P、Paul C。在单个DNA链中产生5-甲基胞嘧啶残基阳性显示的基因组测序协议。程序。美国国家科学院。科学。美国。1992;89:1827–1831. [PMC免费文章][公共医学][谷歌学者]
12Clark SJ、Harrison J、Paul CL、Frommer M.甲基化胞嘧啶的高灵敏度绘图。核酸研究。1994;22:2990–2997. [PMC免费文章][公共医学][谷歌学者]
13Grunau C,Clark SJ,Rosenthal A.亚硫酸氢盐基因组测序:关键实验参数的系统研究。核酸研究。2001;29:E65–E65。 [PMC免费文章][公共医学][谷歌学者]
14Zhang Y、Rohde C、Tierling S、Stamerjohanns H、Reinhardt R、Walter J、Jeltsch A.In:DNA甲基化分析方法。第二。托斯特·J,编辑。新泽西州托托瓦:Humana出版社;2008[谷歌学者]
15Bock C、Reither S、Mikeska T、Paulsen M、Walter J、Lengauer T。BiQ分析仪:亚硫酸盐测序中DNA甲基化数据的可视化和质量控制。生物信息学。2005;21:4067–4068。[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社