摘要

在亚硫酸氢盐基因组测序项目期间,产生了大量数据。亚硫酸氢盐测序数据表示与编译(BDPC)web界面(http://biochem.jacobs-university.de/BDPC/)自动分析使用BiQ分析仪准备的亚硫酸氢盐数据集。BDPC提供以下输出:(i)为每个PCR产物编译MS-Excel兼容文件(a)平均甲基化水平、分析的克隆数和分析的CG位点百分比(这是数据质量的指标),(b)在每个CG位点观察到的甲基化水平和(c)每个克隆的甲基化程度。(ii)甲基化概述表,汇编所有组织中所有扩增子的甲基化。(iii)PNG格式的出版级数字,显示嵌入HMTL文件中的每个PCR产物的甲基化模式,总结甲基化数据、DNA序列和一些基本统计数据。(iv)编译不同组织甲基化模式的摘要文件,该文件链接到单个HTML结果文件,可直接用于在互联网上显示数据。(v) 浓缩文件,包含简化格式的所有主要数据,用于进一步的下游数据分析,以及(vi)自定义跟踪文件,用于在UCSC基因组浏览器中显示结果。

简介

DNA甲基化以甲基基团共价连接到胞嘧啶的C5位置的形式编码DNA上的附加信息。在哺乳动物中,胞嘧啶的甲基化发生在细胞类型和组织特异性的胞嘧啶-鸟嘌呤二核苷酸(CG-sites)处(1,2). DNA的甲基化与其他表观遗传学标记(如组蛋白修饰)协同工作()在基因表达和发育的调控中。一般来说,基因启动子的DNA甲基化沉默基因活性(2). 它参与X染色体失活、基因组完整性、细胞发育和分化(4). DNA甲基化对哺乳动物的发育至关重要,因为在小鼠中,任何已知活性DNA甲基转移酶的缺失都会导致胚胎死亡或发育异常和早期死亡(5,6). DNA甲基化异常与癌症发展和其他疾病有关(7,8).

人类基因组测序完成后,表观基因组的解码,其中包含了遗传元素活性的蓝图,已成为研究关注的焦点。最近,人类(9)以及拟南芥()使用针对甲基胞嘧啶的抗体结合阵列技术进行DNA免疫沉淀,在全基因组范围内研究DNA甲基化。此外,通过亚硫酸氢盐基因组测序详细研究了人类第6、20和22号染色体基因启动子区域的DNA甲基化(10),这是分析DNA甲基化的标准方法,因为它提供了可靠和详细的DNA甲基化状态图片。研究DNA甲基化需要特定的技术,因为DNA甲基化状态的信息在在体外DNA扩增和克隆。亚硫酸氢钠处理后,甲基化和非甲基化胞嘧啶可以区分,因为非甲基化的胞嘧啶转化为尿嘧啶,而甲基化的胞嘧啶保留为胞嘧啶(11–13). 亚硫酸氢盐测序实验的工作流程包括设计针对通常不含CG位点的转化DNA的引物,以及DNA在PCR后的亚硫酸氢转换。通过亚克隆PCR产物测序对单个DNA分子进行分析,可以提供关于每个CG位点甲基化状态的最可靠和详细的信息。因此,在大多数情况下,下一步是对PCR产物进行亚克隆,并对几个克隆进行测序,以生成具有统计意义的数据集(工作流程在14).

为了分析亚硫酸氢盐转化DNA的测序结果,实验序列与生物信息学转换基因组靶序列。此步骤由BiQ Analyzer软件实现(15)这是一个非常流行的程序,用于亚硫酸氢盐测序结果的初始分析。BiQ分析仪上传目标序列和任意数量的亚克隆PCR产品序列,创建比对,指导用户完成分析的每个步骤,并将比对和结果存储在HTML文件中。然而,BiQ分析仪仅适用于单个PCR产品,并为每个PCR产品创建一个单独的输出文件,因此无法协助进一步的数据分析和编译。

中型或大型项目积累了大量数据,因为DNA甲基化通常在几个生物样本的许多基因组位点进行研究。在这篇文章中,我们假设DNA甲基化是在不同的组织或生物样本中进行分析的,这里我们将其缩写为“组织”。不同的引物组用于分析不同基因组区域的甲基化,称为“扩增子”。相同的扩增子可以在不同的组织中进行研究。因此,产生相同扩增子类型的不同PCR产物。因此,必须研究大量PCR产物的甲基化数据,并对结果进行整合、分析和呈现。通常,需要比较相同扩增子PCR产物的甲基化数据,以检测组织间的甲基化差异。此外,需要比较所有PCR产物结果的一般统计数据,对于数据表示,需要甲基化模式的出版级表示,以及用于在互联网上进行数据表示的链接和可供出版的HTML文件。

结果和讨论

亚硫酸氢盐测序数据呈现和编译(BDPC)web界面支持亚硫酸氢酯DNA甲基化数据的编译、分析和呈现,这些数据具有从小型探索数据集到大规模甲基化项目的任何复杂程度(http://biochem.jacobs-university.de/BDPC/). 该程序通过准备显示每个PCR产品甲基化模式的出版级图形,以及准备一组链接的HTML文件用于互联网数据表示,来支持数据表示。它为每个PCR产品、不同的结果编译文件提供数据摘要,并通过准备包含所有主要数据的压缩输出文件来支持进一步的深入分析。

BDPC软件是用PHP编写的。程序的源代码可按要求提供。它用于分析和编译BiQ Analyzer结果文件,该文件以单独的HTML输出文件的形式提供结果,每个PCR产品一个。如果数据以BDPC兼容格式提供,则手动或使用其他软件编制的数据文件也可以使用BDPC进行编译,如中所述图1。上传时,数据文件必须使用扩增子名称命名,并分别存储在每个组织的一个文件夹中。BDPC使用文件夹名称,并将其解释为组织名称。用户可以选择提供扩增子的染色体位置和坐标作为附加信息,然后由BDPC用于生成UCSC自定义轨迹文件。BDPC在线手册中描述了该文件的格式。文件夹(连同其他信息文件)需要使用ZIP标准格式压缩为一个文件(http://www.pkware.com/)和已上传。

图1。

BDPC兼容的数据格式。要上传到BDPC,数据文件需要粗体显示的信息。示例文件可以从BDPC网站的“示例文件”区域下载。出于演示目的,这里使用了行号,但不能在数据文件中进行。第2行和第7行中的短语是强制性的,必须严格按照此处所示进行书写。第3行和第4行可用于对CG端进行编号,第5行可给出所分析的序列。该信息将被转入BDPC输出文件。在第8行中,“[2]'是强制性的,而对于下面的行,两个方括号就足够了。从第8行开始,结果的组织方式是,每列代表一个CG-site,每行代表单个克隆的测序结果。在结果中,“1”表示甲基化CG-site,“0”表示非甲基化CG-site,“x”表示不存在的CG-site。数据用制表符分隔。第1行和第21行中的HTML标记不是必需的。

图2概述了BDPC在亚硫酸氢盐DNA甲基化研究工作流程中的作用以及分析后提供的结果文件。BDPC可以编译大型数据集。在内部,我们处理了包括1000多个结果文件的数据集,没有遇到任何困难。这里,作为一个例子,我们说明了BDPC在一个相对较小的数据集上的应用,该数据集包含五个独立的扩增子,它们覆盖了人类FAM3B基因的转录起始位点,如图3在四种不同细胞系或组织的DNA中分析了这些扩增子,即HEK293、Hep-G2、成纤维细胞系和白细胞。测序结果用BiQ Analyzer进行分析,必要时手动编辑结果文件。接下来,按照前面的描述排列结果文件,如所示图2,压缩在一个ZIP文件中,并使用BDPC软件进行分析。

图2。

使用BDPC进行亚硫酸氢盐基因组测序分析的工作流程。(A–C)使用BiQ分析仪(A)对测序数据进行初步分析。数据被组织在文件夹(B)中,并上传至BDPC进行分析和数据编译(C)。然后,可以在一个ZIP文件中下载结果并在本地提取。()BDPC生成以下文件:1)扩增子概述“summary.html”文件链接到带有嵌入图片的主要结果html文件,2)“downtown.txt”文件将所有主要数据编译在一个文件中,3)“results_methylation_cg_sites.csv”文件,4)“results_methylation_clones.csv”文件,5)“results_methylation_summary.csv”文件,6)“resaults_methilation_overview.csv“表,比较所有组织中所有扩增物的甲基化结果,7)“ucsc_upload.txt”文件。(E类)对于每个PCR产品,都会生成一个表示就绪的HTML文件,其中包含:1)用编号的CG-二核苷酸分析的序列。2) 每个CG二核苷酸的DNA甲基化状态以图形方式显示。这里,每个柱对应PCR产物中分析的一个CG位点。每行代表一个亚克隆PCR产物。甲基化的CG-二核苷酸以红色方块表示,非甲基化的为蓝色方块,不存在的CG-二核苷酸以白色表示。3) 所有克隆的DNA甲基化总结和CG-二核苷酸存在的统计。4) 彩色编码图片中显示的每个CG-site的平均甲基化水平。5) 表中列出了每个亚克隆DNA分子的平均甲基化。

图3。

在UCSC基因组浏览器中显示BDPC结果。这里显示了人类21号染色体NCBI36组装的位置41 609 300–41 612 500。图片是通过将“ucsc_upload.txt”文件作为自定义曲目上传到生成的http://genome.ucsc.edu/cgi-bin/hgGateway网站图中自上而下显示了HEK293、白细胞、Hep-G2和成纤维细胞不同扩增子的甲基化水平。带注释的PCR产物中的箭头表示DNA甲基化分析的目标DNA链。产品的总体DNA甲基化水平由颜色表示:0–20%为蓝色,20.01–40%为青色,40.01–60%为黄色,60.01–80%为橙色,80.01–100%为红色。此外,还显示了GC-百分比、RefSeq基因注释、注释的CpG-Islands和重复序列元素。

分析后,可以下载ZIP格式的结果。BDPC提供以下文件:

  • 一个摘要文件,为每个PCR产物提供扩增子名称、分析的组织、总DNA甲基化百分比、分析的克隆数和分析的CG位置百分比(“results_methylation_summary.csv”)。

  • 格式化的总览表,允许直接比较每个组织中每个扩增子的平均甲基化水平(“results_methylation_overview.csv”)。

  • 一个文件给出每个PCR产物每个CG位点的平均甲基化(“results_methylation_CG_sites.csv”)。在这里,如果每个CG站点至少有五个结果可用,则执行一个阈值,以便仅计算平均值。否则CG位点的甲基化状态将被注释为“未确定”。

  • 一个文件,包含每个PCR产品的每个克隆的平均甲基化(“results_methylation_clones.csv”)。

  • 每个PCR产物的一个主数据HTML文件,包含扩增子名称、分析的组织、总DNA甲基化百分比和每个CG位点观察到的甲基化,以PNG格式的浓缩图片显示,可直接用于数据显示。

  • 比较不同组织中每个扩增子获得的甲基化模式的摘要HTML文件(“summary.HTML”)。此文件中的图形直接链接到HTML文件,显示(v)中所述的单个结果。此文件系统可用于在internet上立即显示数据。

  • 用于在UCSC基因组浏览器中直接上传结果的自定义跟踪文件(“UCSC_upload.txt”)(图3).

  • 一个压缩数据文件,以简化格式收集所有主要数据,以便以后进行下游分析(“downstream.txt”)。

总之,BDPC为亚硫酸氢盐DNA甲基化数据的分析提供了有用的资源。BDPC不仅简化了呈现和编译过程,而且还改进了分析,因为总甲基化百分比的计算考虑了在原始测序运行中是否发现了CG。此外,如果<5个克隆包含该位点的数据,则CG位点的甲基化状态被确定为“未确定”。在数据质量差和存在遗传多态性的情况下,这些特征很重要。通过编辑“results_methylation_summary.csv”输出文件中提供的所有PCR产品的CG位点的总体覆盖率,也有助于评估数据质量。

BDPC输出文件的应用示例如下:

  • 平均数据可以直接用于比较不同组织中单个CG位点的甲基化状态,并计算P(P)-通过应用二项式分布的统计数据,确定两个组织之间观察到的差异的显著性值。此外,这些数据可用于显示单个扩增子的甲基化曲线(图4A) ●●●●。

  • 单个克隆的甲基化水平可以直接用于比较不同组织的甲基化(图4B) ●●●●。此外,它们还可以用于通过以下方式对不同组织的甲基化模式进行配对比较t吨-测试如所示图5如果两个组织都显示甲基化水平的单峰分布,则该程序是准确的。如果是至少一个组织的双峰分布,简单的t吨-尽管甲基化差异具有统计学意义,但该测试可能无法检测到它们。

  • 如上所述,UCSC上传文件可用于在UCSC基因组浏览器中显示甲基化数据(图3).

图4。

BDPC输出文件用于数据表示的应用示例。(A类)不同组织中FAM3B_4扩增子上单个CG位点甲基化水平的分布。此图是使用“results_methylation_cg_sites.csv”文件中编译的数据生成的。(B)不同组织中FAM3B_4 amlicon克隆的整体甲基化。该图使用“results_methylation_clones.csv”文件中编译的结果,通过计算每个组织中的平均甲基化和SE来绘制。该图显示平均±1 SE为灰色方框,平均±2 SE为线条。在Hep-G2中观察到的广泛分布是由于克隆中甲基化水平的双相分布(参见图5).

图5。

对不同细胞系和组织中FAM3B_3和FAM3B_4扩增子的甲基化数据进行配对比较。图中显示了两个扩增子在不同组织中观察到的甲基化模式:FAM3B_3(黄色阴影部分)和FAM3B_4(绿色阴影部分)。在表中,不同组织中甲基化水平(Δ,百分比)的成对差异和P(P)-列出了差异的统计显著性值。P(P)-表示无显著差异的值为红色。甲基化水平的差异是使用“results_methylation_summay.csv”中给出的甲基化数据计算的。这个P(P)-使用单个克隆的甲基化水平(在“results_methylation_clones.csv”中提供)计算值,使用双侧t吨-测试具有不同方差的样本。

致谢

这项工作得到了德国教育和研究部长的资助(NGFN-2计划)。我们感谢S.Becker女士的技术援助。支付本文开放获取出版费用的资金由柏林马克斯·普朗克研究所提供。

利益冲突声明。未声明。

参考文献

1
赫尔曼
A类
戈沃尔
H(H)
杰尔奇
A类
哺乳动物DNA甲基转移酶的生物化学和生物学
细胞。分子生命科学
2004
,卷。 
61
(第
2571
-
2587
)
2
克洛泽
RJ公司
AP公司
基因组DNA甲基化:标记及其介导物
趋势生物化学。科学
2006
,卷。 
31
(第
89
-
97
)
马丁
C类
Y(Y)
表观遗传机制
货币。操作。细胞生物学
2007
,卷。 
19
(第
266
-
272
)
4
A类
DNA甲基化模式与表观遗传记忆
基因开发
2002
,卷。 
16
(第
6
-
21
)
5
E类
贝斯特
真实航向
夜里喜
R(右)
DNA甲基转移酶基因的靶向突变导致胚胎死亡
单元格
1992
,卷。 
69
(第
915
-
926
)
6
奥卡诺
M(M)
潜水钟
数据仓库
哈伯
陆军部
E类
DNA甲基转移酶Dnmt3a和Dnmt3a对从头甲基化和哺乳动物发育至关重要
单元格
1999
,卷。 
99
(第
247
-
257
)
7
范伯格
AP公司
癌症病因的表观遗传学
塞明。癌症生物学
2004
,卷。 
14
(第
427
-
432
)
8
艾格
G公司
G公司
阿帕里希奥
A类
琼斯
PA公司
人类疾病的表观遗传学及其治疗前景
性质
2004
,卷。 
429
(第
457
-
463
)
9
韦伯
M(M)
赫尔曼
斯塔德勒
MB(MB)
拉莫斯
帕博
S公司
瑞宾
M(M)
舒贝尔
人类基因组中启动子DNA甲基化的分布、沉默潜力和进化影响
自然遗传学
2007
,卷。 
39
(第
457
-
466
)
10
埃克哈特
F类
勒温
J型
科尔特斯
R(右)
拉基语
VK公司
阿特伍德
J型
汉堡
M(M)
伯顿
J型
考克斯
电视
戴维斯
R(右)
向下
助教
人类第6、20和22号染色体的DNA甲基化分析
自然遗传学
2006
,卷。 
38
(第
1378
-
1385
)
11
弗罗梅尔
M(M)
麦当劳
米勒
科里斯
C类
瓦特
F类
格里格
G公司
莫洛伊
P(P)
保罗
C类
一种基因组测序协议,在单个DNA链中产生5-甲基胞嘧啶残基的阳性显示
程序。美国国家科学院。科学。美国
1992
,卷。 
89
(第
1827
-
1831
)
12
克拉克
SJ公司
哈里森
J型
保罗
弗罗梅尔
M(M)
甲基化胞嘧啶的高灵敏度绘图
核酸研究
1994
,卷。 
22
(第
2990
-
2997
)
13
格鲁瑙
C类
克拉克
SJ公司
罗森塔尔
A类
亚硫酸氢盐基因组测序:关键实验参数的系统研究
核酸研究
2001
,卷。 
29
(第
E65型
-
E65型
)
14
Y(Y)
罗德
C类
蒂尔林
S公司
斯塔默约翰
H(H)
莱因哈特
R(右)
沃尔特
J型
杰尔奇
A类
托斯特
J型
DNA甲基化分析方法。
2008
第二
新泽西州托托瓦
美国胡马纳出版社
15
博克
C类
赖特
S公司
米凯斯卡
T型
保尔森
M(M)
沃尔特
J型
伦高(Lengauer)
T型
BiQ分析仪:亚硫酸氢盐测序中DNA甲基化数据的可视化和质量控制
生物信息学
2005
,卷。 
21
(第
4067
-
4068
)
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上不受限制地进行非商业性使用、分发和复制,前提是正确引用了原作。

评论

0条评论
提交评论
您输入的代码无效
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。