跳到主要内容

BISMA-快速准确的亚硫酸氢盐测序数据分析,分析来自独特和重复序列的单个克隆

摘要

背景

亚硫酸氢盐测序是一种常用的高分辨率分析DNA甲基化模式的方法。PCR针对感兴趣的区域,通常分析约20-50个亚克隆DNA分子,以确定单个CpG位点的甲基化状态和分子分辨率。

结果

用于分析初级亚硫酸氢盐测序数据的BISMA(亚硫酸氢盐测序DNA甲基化分析)软件实现了测序数据提取和增强的数据处理、质量控制、甲基化状态的分析和表示。它使用改进的策略检测克隆分子和准确的CpG位点,并支持首次分析重复序列。

结论

BISMA工作高度自动化,但仍为用户提供对分析所有步骤的完全控制。BISMA软件作为一种在线工具免费提供,用于分析独特序列和重复序列的亚硫酸氢盐测序数据http://biochem.jacobs-university.de/BDPC/BISMA/.

背景

组蛋白和DNA的表观遗传学修饰为基因组增加了可遗传信息[1,2]. 在哺乳动物中,DNA在胞嘧啶残基的C5位置甲基化,主要以组织特异模式存在于CpG二核苷酸中[,4]. DNA甲基化是一个基本过程,异常甲基化与癌症等人类疾病有关[5,6]. 研究人员对DNA甲基化进行了深入研究,发现PubMed搜索“DNA甲基化”检索到超过26000个条目。亚硫酸氢盐基因组测序是高分辨率DNA甲基化分析的标准技术。在这种方法中,基因组DNA用亚硫酸氢钠处理,它将所有未甲基化的胞嘧啶转化为尿嘧啶,而甲基化胞嘧啶保持不变。感兴趣的区域通过PCR扩增,使用对转化DNA特异的引物,并对PCR产物进行测序[7,8]. 检测序列中的胞嘧啶表明原始DNA中的相应位置甲基化,而胸腺嘧啶表明相应的胞嘧啶未甲基化。当与单个克隆的亚克隆和测序相结合时,DNA甲基化模式可以在单分子和核苷酸分辨率下确定,可连续追踪多达500个碱基对(bps)[9,10].

主要亚硫酸氢盐测序数据的分析,该数据应包含约20-50个亚克隆DNA分子用于统计分析(附加文件1:补充文本S1),要求执行以下任务:1)实验序列需要与生物信息学转换基因组参考。2) 需要测量每个实验序列的序列一致性和转换率,并且必须删除不符合质量标准的序列。3) 需要检测并删除PCR中从相同模板分子扩增的克隆序列。4) 需要在参考序列和对齐的实验序列中确定CpG位点。5) 需要确定实验序列中CpG位点的甲基化状态,并总结和提供数据。

有不同的软件可用于分析亚硫酸氢盐测序数据,这些软件可分为用于分析植物DNA甲基化的软件,如Kismeth[11]或哺乳动物,如BiQ分析仪[12]和QUMA[13]. 虽然植物甲基化分析在概念上涉及CpG和非CpG甲基化,但在哺乳动物亚硫酸氢盐测序分析中,非CpG-位置的胞嘧啶通常被视为该方法的伪影(即不完全转化),并用于测量转化率。在这里,我们将重点介绍这种由BiQ分析仪和QUMA辅助的亚硫酸氢盐测序数据分析方法。然而,这两种方法都有主要缺点:

  • 使用方便:BiQ Analyzer需要安装,性能较慢。

  • 序列比对:BiQ分析器有时在没有用户手动干预的情况下无法在实验序列和参考序列之间构建序列比对。

  • 克隆序列过滤:QUMA尚未实现克隆序列过滤。某些数据集的BiQ分析器错误地建议删除太多克隆序列。此外,BiQ Analyzer软件的过滤程序错误地假设两个分子是非克隆的,其差异仅在于存在未解析的核苷酸注释(N位点)。

  • CpG位点的识别和甲基化状态的注释:BiQ分析仪通常无法检测到位于T拉伸下游的CpG部位。QUMA不检查实验序列中是否存在相应的CpG鸟嘌呤,并注释带有对齐错误、测序错误和突变的位点的甲基化状态,如TA、TT、TN或CN。

  • 重复序列之间的遗传多样性要求采用不同的策略来分析亚硫酸氢盐测序数据,目前为止还没有任何软件提供这些数据。

因此,我们开发了一个名为亚硫酸氢盐测序DNA甲基化分析(BISMA)的新软件。BISMA为亚硫酸氢盐测序实验的分析提供了高度自动化、简单快速的工作流程。它可以用于分析来自独特和重复基因组区域的亚克隆PCR产物。所有上传的数据都将被自动处理,过滤序列身份、转换率和克隆序列并进行分析。BISMA实现了一种改进的克隆序列检测策略,该策略在模式分析过程中保留了相同的甲基化模式并忽略了N位点。此外,BISMA还实现了一种检测亚硫酸氢盐测序数据中CpG位点的新算法。

我们在现有的DNA甲基化数据分析平台BDPC中嵌入了BISMA软件,该平台允许进一步的下游数据处理、汇编、网络演示和结果统计分析[14]以及聚类和图形数据表示[15]. BISMA软件是用于学术目的的免费在线工具http://biochem.jacobs-university.de/BDPC/BISMA/.

实施

数据集和软件比较

生物样品的获取和处理如前所述[16]. 已公布的扩增子51_new5、237、264、327_III和335的一级测序数据用于程序的比较[9]. 如前所述,用5-氮杂胞苷处理细胞[9]. 亚硫酸氢盐处理、PCR产物纯化、亚克隆和测序如所述[16].

简言之,约200-300 ng基因组DNA在37°C下用适当的限制性内切酶消化过夜,以促进随后的变性过程,然后DNA在热循环器中用亚硫酸氢钠在99°C下转化15 min,在50°C下转换30 min,在99°C下转换5 min,在500°C下消化1.5 h,在99℃下转化5 min,然后在50℃下转化1.5 h。转化后的DNA用作PCR模板。PCR产物通过ChargeSwitch PCR清洁试剂盒(Invitrogen)纯化,并使用StrataClone试剂盒(Stratagene)进行亚克隆。测序了每个扩增子的大量克隆。

使用以下引物扩增Xist启动子:(FP:GGT AGG GGA ATT AAA AAT GTT TTTT;RP:TAA CCA CTC CTC TTC TAA TCT CTCC)来自雌性小鼠的尾部DNA。使用已发布的引物集定位Alu区域[17]没有5’-悬垂(FP:TTT TTA TTA AAA ATA TAA AAA TTA GT;RP:CCA AAC TAA AAT ACA ATAA)。使用Alu-Sx亚家族一致序列(GeneBank:U14574)的匹配区域进行分析。我们在Core Duo L2400计算机上下载、安装并使用了BiQ Analyzer v2.00软件,该计算机在Microsoft Windows XP专业操作系统上安装了1.66 GHz处理器和2 GB随机存取存储器。我们安装了JAVA Runtime环境版本6更新13(内部版本1.6.0_13-b03)。我们使用remote-ClustalW选项,以便在马克斯·普朗克信息学研究所的服务器上执行所有多序列比对。我们使用95%和90%作为转换率和序列一致性的较低阈值,在所有三个程序中进行比较。

BISMA软件实施

BISMA是一个基于PHP编码语言的web应用程序,它使用MySQL数据库临时存储序列数据信息。目前,BISMA运行在openSUSE 10.2 Linux web服务器上。如果ABI文件格式的序列上传到BISMA,则DNA序列会在用户编辑ABI文件时自动从ABI文件中提取。对于此任务,BISMA使用Perl模块Bio::Trace::ABIF[18]. 使用ClustalW软件执行BISMA软件中的所有成对和多序列比对步骤[19,20]. 对齐后,BISMA将上传的每个序列与参考序列或一致序列进行比较,以计算序列身份、转换率和缺口发生率。未通过用户定义阈值的序列将被排除在进一步分析之外。BISMA使用以下默认质量过滤阈值分析独特的基因组序列:序列一致性90%;转化率95%;差距20%。对于重复序列的分析,BISMA使用以下默认阈值:序列标识70%;转化率:排除在100bps中含有3个或更多未转化胞嘧啶的序列;差距:20%。

结果和讨论

BISMA软件设计用于上传来自独特重复序列的PCR产物亚克隆后获得的初级亚硫酸氢盐测序数据集。BISMA实现了自动序列处理、比对、序列质量过滤、克隆序列过滤、数据分析和表示。

上传和排序数据处理

测序数据可以直接以ABI文件格式上传,可以作为包含提取序列的文本文件,也可以作为单个多FASTA文件(图1安培)。对于单独序列文件的上传过程,这些文件需要使用ZIP标准进行归档,该标准在Microsoft、Apple和许多免费Linux发行版的当前桌面操作系统中实现。目前,所有上传文件的总大小限制为10MB,这相当于原始ABI格式中的大约50个序列。BISMA自动准备提交序列的两对序列比对及其对生物信息学转换的参考序列。基于比对的质量,BISMA确定正确的序列方向,并自动删除矢量序列。参考序列与实验序列的成对比对用于创建所有序列的比对。该策略比ClustalW多序列比对快得多,并且在QUMA软件中实现了类似的算法。原则上,这种策略是有利的,因为亚硫酸氢盐测序数据集的参考序列和实验序列的权重不相等,但每个实验序列都需要与参考序列进行比较。

图1
图1

BISMA软件的工作流程及其结果文件摘要.A)上传参考序列和亚硫酸氢盐测序数据。B) BISMA使用用户定义的阈值分析测序数据。不超过用户定义阈值的序列将被删除。C) 可视化所有包含序列的对齐。通过克隆序列过滤的序列将被预先选择以包括在随后的分析中。D) 分析用户选择数据集中的甲基化模式。E) 所有结果文件都可以在一个ZIP文件中下载,其中包含:1)突出显示甲基化模式的序列比对。2) 参考序列中CpG分布背景下甲基化模式的图形表示。每个DNA序列由一条线表示,每个CpG位点由一个方框表示。3) 甲基化模式的浓缩图形表示。每行对应一个DNA序列,而每列代表一个CpG位点。4) 每个CpG位点平均甲基化的图形表示。5) 甲基化统计数据,包括在所有序列上观察到的甲基化水平和CpG位点的数量,被发现是有信息的。6) 单个序列的甲基化水平。

然而,我们观察到,ClustalW多序列比对有时会比成对比对组合提供更好的比对。亚硫酸氢盐转化和PCR后大量出现胸腺嘧啶,导致出现长的poly-T延伸,这常常导致以胸腺嘧啶插入或缺失的形式出现PCR和测序伪影。在这些情况下,组合成对对齐通常在最后一个CpG位置失败。因此,在默认设置下,如果CpG位点接近PCR产物末端并与T延伸相关,BISMA将自动应用ClustalW多序列比对。除此之外,用户还可以手动选择成对和ClustalW多序列比对。

对齐序列的质量控制

BISMA自动确定每个序列与参考序列的一致程度、转换率、插入和删除的出现以及参考序列胞嘧啶位置处未解析核苷酸(N位点)的数量,这些通常表示序列质量低(图1B年)。然后,这些参数用于质量控制过滤,不超过用户定义阈值的序列将被排除。最近,哺乳动物细胞系也报道了非CpG甲基化,这似乎与分化程度有关[21,22]. 尽管BISMA具有以CpG为中心的数据分析方法,但它可以用于非CpG甲基化序列的初始可视化。如果这是有意的,转换率的阈值需要手动降低,因为否则非CpG甲基化程度高的克隆将被排除在外,因为转换率低。由于BISMA不分析非CpG甲基化,可以考虑使用植物甲基化分析软件Kismeth[11]或CyMATE[23]用于此任务。然而,要区分哺乳动物细胞类型中非CpG甲基化和不完全转化,需要仔细控制,理想情况下需要额外的实验证据。

CpG位点检测和甲基化状态注释

BISMA使用改进的策略检测实验序列中的CpG位点位置(图2)与BiQ Analyzer和QUMA相比。简而言之,BISMA首先检查实验序列中适当位置是否存在CpG鸟嘌呤,然后才使用5'方向上下一个碱基的测序结果确定CpG位点的甲基化状态。

图2
图2

BISMA软件中CpG甲基化状态测定的改进算法BISMA检测参考序列中与实验序列对齐的CpG位点。在与参考CpG的鸟嘌呤对齐的位置鉴定出鸟氨酸后,使用5'方向上的下一个碱基来测定甲基化状态。甲基化状态“未知”是指由于突变或测序问题而缺乏明确甲基化信息的位点。

该策略允许正确可靠地评估甲基化状态,并通过PCR伪影解决胸腺嘧啶缺失或插入的情况。如上所述,在亚硫酸氢盐转化的DNA中扩增T形片段的过程中经常发生这种伪影。BISMA显示了多序列比对,包括甲基化模式注释、未转化胞嘧啶和可能的克隆分子,以供目视检查(图1摄氏度).

克隆序列过滤

亚硫酸氢盐甲基化分析的一个重要注意事项是扩增单个转化DNA分子(“克隆PCR”)的可能性,在PCR产物的亚克隆和单个克隆的测序之后,可能会产生几个相同的序列读取。因此,BISMA通过对所有序列的胞嘧啶模式进行成对比较来执行第二次过滤以删除此类克隆序列(图3A级)。BISMA在此过程中忽略了N位点,因为它们表明测序数据质量较差,不适合区分胞嘧啶模式。如果两个序列具有相同的胞嘧啶模式,这些分子可能是克隆PCR的结果,也可能代表不同模板分子中相同的甲基化模式。因此,删除具有相同胞嘧啶模式的所有序列可能会导致错误地删除具有相同甲基化模式的克隆(图3B公司)。这种潜在错误在高度甲基化或非甲基化PCR产品中至关重要。相反,在非CpG环境中甲基化和未转换胞嘧啶的相同模式(在人类DNA中通常被视为亚硫酸氢盐转换伪影)始终是克隆PCR的明确指示。因此,BISMA使用默认设置删除这些序列,但保留那些相同胞嘧啶模式仅限于CpG位点的序列。然而,用户可以更改克隆序列的过滤模式,并手动编辑要包括在最终分析中的序列选择(图一维)。然而,应该注意的是,克隆分子的过滤并没有绝对安全的方法;在危急情况下,必须对亚硫酸氢盐转化的DNA重复PCR反应,以从实验上解决这个问题。

图3
图3

BISMA软件克隆序列去除的改进算法为了说明这一点,使用了雌性动物的小鼠Xist启动子的DNA甲基化分析中获得的数据集,其中50%的完全甲基化克隆和50%的非甲基化克隆是预期的。A) 亚硫酸氢盐测序数据的DNA序列比对简化示例,用于演示滤波算法。比对顶部参考序列中的细胞质以绿色粗体表示。对于其余对齐的实验序列,甲基化的CpG位点以粗橙色突出显示,而非甲基化的PpG位点则以粗紫色显示。非CpG位置的转化胞嘧啶以黑色粗体显示,而转化伪影以绿色粗体表示。B) 来自多序列比对的相关胞嘧啶模式包括有关CpG位点甲基化状态和非CpG位胞嘧啶转化状态的信息。1) 使用严格选项BISMA只保留几个具有相同模式的序列中的一个序列。2) 使用BISMA建议的过滤算法,仅当具有相同模式的克隆在相同位置具有转换伪影时,才会删除这些克隆。C) 使用1)严格过滤算法或2)BISMA建议的过滤算法后获得的最终甲基化模式:每个正方形表示一个CpG。柱代表CpG位点,而行代表亚克隆和测序的单个分子。所有亚硫酸氢盐测序数据的基本完整DNA序列比对可在附加文件中获得1:补充文本S9。

分析数据的最终输出

BISMA输出(图1E级)由以下元素组成:1)注释对齐,2)参考序列中CpG位点分布背景下甲基化模式的图形显示,3)浓缩甲基化模式图形显示,4)每个CpG部位平均甲基化的图形显示,5)分析了总甲基化百分比和CpG位点百分比的统计数据,6)每个克隆的总甲基化比例。如果用户选择,BISMA将根据甲基化水平自动对比对中的序列、所有输出文件和图形表示进行排序。BISMA已经为单个CpG位点的平均甲基化报告设定了一个阈值,因此,如果在各个位点可以分析至少5个实验序列,则仅计算和报告统计数据。这避免了对弱数据点的过度解释和传播。所有统计数据和对齐都组合在一个HTML文件中,用于数据存储、表示和进一步的手动或自动下游分析。例如,可以将许多分析的输出文件合并并提交给同一服务器上的BDPC编译软件。

重复序列亚硫酸氢盐测序数据的甲基化分析

重复基因组序列的甲基化状态经常使用亚硫酸氢盐基因组测序来测量全局甲基化差异或确定重复特异性甲基化(附加文件1:补充文本S2)。必须使用不同的方法来研究独特和重复基因组序列的甲基化状态,因为重复序列的基因组参考没有定义,因为这些元素存在于具有相似但不相同序列的许多拷贝中。例如,一对用于确定Alu序列甲基化的引物将从亚硫酸氢盐转化的人类DNA中约15000个模板区域扩增PCR产物[17]. 因此,每个扩增分子的基因组起源都是未知的,因此无法直接与定义的参考序列进行比较。因此,分析独特序列的标准方法(将每个CpG位置与其基因组参考序列进行比较,并且可以确定每个CpG-位点的甲基化状态)不是分析重复基因组序列测序数据的选项。相反,对于重复序列,必须使用一致序列进行序列比对和分析。然而,这不允许区分非甲基化CpG位点和突变为TG的CpG部位。此外,实验序列可能包含共识中没有的其他CpG位置。

为了确定重复序列的甲基化状态,BISMA实施了两种策略。第一种方法仅使用一致序列验证扩增序列和序列比对。用于重复序列的BISMA软件提取甲基化CpG位点在对齐的实验序列中的位置,并计算每个序列的甲基化Cp G数量,该数量可以位于共识和非共识位置。对于每个序列,以下信息存储在输出文件中:序列标识符、序列中发现的甲基化CpG位点的数量以及每个甲基化胞嘧啶在对齐序列中的位置。甲基化胞嘧啶绘制在概览图中(图4A级)。序列根据甲基化CpG位点的数量进行排序。BISMA以黑色显示一致序列位置上的CpG位点,而非一致位置上的则以红色绘制。BISMA还显示并存储序列间甲基化CpG部位的分布(图4B类)甲基化CpG的平均发生率为100 bps(图4摄氏度).

图4
图4

使用BISMA软件分析重复序列的全球Alu甲基化。CpG-上下文中的所有甲基化胞嘧啶均被呈现并用于计算。A) 在比对中观察到的位置,Alu PCR产物的所有序列中甲基化CpG位点的图示。每行对应一个序列。在共有位置发现的甲基化CpG用黑框表示,而在其他位置的CpG用红框表示。序列根据甲基化CpG的总数进行排序。B) 不同样本中单个克隆序列中甲基化CpG位点的频率。C) 不同样本中所有克隆中每100 bps甲基化CpG的频率。

为了说明用于重复序列分析的新BISMA软件的功能,我们从不同样本的亚硫酸氢盐转化DNA中扩增了Alu重复元件的短区域,并使用了Alu-Sx亚家族一致序列中的匹配部分[24]用于数据分析。如图所示4,我们在外周血白细胞、培养的成纤维细胞、永生化细胞系HEK293和人肝癌细胞系HepG2的Alu序列中观察到高甲基化,这与有关Alu序列甲基化状态的文献数据一致[17,25,26]. 尽管如此,仍发现一些分子没有甲基化或低甲基化,特别是在HepG2中,用5-氮杂胞苷处理HEK293细胞后,甲基化更为明显。这种观察与癌症进展过程中全球甲基化缺失的报道一致[6]例如,Hep-G2中的Line1重复元素就被记录在案[27].

作为另一种分析策略,我们实现了Yang等人2004年介绍的总体甲基化的估计[19]. 该方法侧重于一致的CpG立场。它通过测定CG到CA突变的数量来估计序列链中CG到TG突变的比率,这对应于相反链中的CG到TG交换。假设两条DNA链中的突变率相似,可以通过将TG位点的数量校正为突变位点的分数来计算未甲基化CpG位点的数量。然后,根据未甲基化和甲基化CpG位置的数量计算总DNA甲基化百分比。使用我们的白细胞测试数据集,我们获得了93.6%的Alu重复序列的总甲基化,这比以前报道的要高[17]. 这种差异可能是在个体间变异的范围内,或者是由于这里使用的引物中没有5’-悬垂而导致的。

BISMA与现有亚硫酸氢盐测序分析程序的比较

我们使用了来自已发布结果的数据集[9]针对人类基因S100B、NCAM2、COL6A2、ZNF295和H2BFS,将新BISMA软件用于独特序列的性能与BiQ分析仪和QUMA进行比较,其中显示了改进的CpG位点检测和甲基化状态注释的示例(附加文件1:补充文本S3-S5)和克隆分子过滤(附加文件1:补充文本S6-S8)。

BISMA软件与BiQ Analyzer和QUMA软件的对比总结如图所示5BISMA是唯一支持从重复序列分析亚硫酸氢盐测序数据的软件。这三个项目都可以免费用于学术目的。在线工具QUMA和BISMA不需要在用户的计算机上安装,而BiQ Analyzer需要在JAVA Runtime软件环境中安装。

图5
图5

在CpG环境下分析亚硫酸氢盐测序数据的三个不同程序的重要特征比较.

用于分析独特序列的BISMA软件和BiQ分析仪的结果文件能够直接进行网络展示,并与BDPC编译软件兼容。QUMA和BISMA通过甲基化自动对多序列比对中的克隆、输出文件和数字进行排序。为了比较分析时间,我们测量了自动分析所需的时间。当比较平均处理时间时,QUMA比BISMA稍快(约2倍),但BiQ分析仪明显较慢(约35倍)(图6)。然而,QUMA的分析算法没有实现克隆分子的过滤,这可能解释了其稍快的性能。与BiQ分析器相比,QUMA和BISMA程序速度提高的主要原因是自动检测序列方向和矢量序列删除,这在BISMA和QUMA中实现。提高速度的另一个方面是使用参考序列与实验序列的成对对齐。该策略比多序列比对更快,尤其是在序列数量较大的情况下。在不同对齐方法之间进行选择是BISMA的一个独特功能。

图6
图6

使用BiQ Analyzer、QUMA和BISMA程序处理和分析示例数据集所需的平均分析时间。条形图表示测量的最低和最高分析时间。

这三个程序都支持以文本格式上传排序文件。然而,BISMA是唯一支持直接上传ABI测序数据的软件。这三种工具都基于序列标识和转换率来识别和删除不正确的测序结果。此外,QUMA和BISMA删除插入或删除不超过用户定义阈值的序列。只有BISMA直接过滤克隆中胞嘧啶位置的N位点。所有三个程序都提供最终数据集所有序列的注释对齐。

在亚硫酸氢盐测序数据分析过程中,准确测定每个对齐CpG位置的甲基化状态是最重要的任务之一。新的BISMA软件实现了一种改进的CpG站点检测算法,能够准确检测所有位置。如果所研究的甲基化位点没有与相应的胞嘧啶位置直接对齐,BiQ分析仪就会失败,这种情况经常发生在T延伸处的对齐亚硫酸氢盐测序结果中(附加文件1:补充文本S3)。QUMA软件错误地报告了突变的[TA]和未知的[TN或CN]位置的甲基化结果(附加文件1:补充文本S3-5)。

BiQ Analyzer和BISMA程序提供克隆分子过滤,而QUMA软件不检查克隆序列,它包括用于甲基化分析的克隆PCR的明显示例(附加文件1:补充文本S6)。然而,BISMA实施了一种改进的算法,使克隆具有相同的胞嘧啶模式,而这些模式没有转换伪影。BiQ Analyzer中实施的更严格的筛选不恰当地删除了有效的甲基化模式(补充文本S7)。BISMA在克隆序列过滤期间忽略N个位点,这在BiQ分析器中没有实现(附加文件1:补充文本S8)。因此,BiQ Analyzer的过滤例程导致优先分析具有转换伪影和不良测序数据质量的序列。这在分析高度甲基化或非甲基化区域时至关重要。

为了说明克隆序列改良过滤的功能,我们从小鼠尾尖分离DNA,用亚硫酸氢钠将其转化,并从雌性动物中扩增出Xist启动子的一部分(图3C公司)。在女性中,Xist启动子在活性X染色体上甲基化,而在另一条染色体上非甲基化,该染色体受到X染色体失活的影响。因此,预期的甲基化模式由半甲基化和半非甲基化克隆组成[2830]. 如图所示3C公司严格过滤相同的胞嘧啶模式导致许多克隆被删除,并人为地创建了异质甲基化模式,这可能会误导解释。相反,使用修改设置分析的数据很好地反映了真正的甲基化模式。

BDPC作为亚硫酸氢盐测序DNA甲基化分析的集成平台

BDPC是一个平台,它协助完整的DNA甲基化分析工作流程(图7)。用于唯一序列的嵌入式BISMA软件对于单PCR产物分析非常有用。它的结果文件可以被收集并直接提交给BDPC编译软件,该软件在扩增子水平上集成了CpG位点的甲基化数据[14]. 它以HTML表示形式显示整个数据集,可以链接到通用的UCSC基因组浏览器。最后,大型甲基化分析项目通常旨在比较所分析样本中的编译数据,并需要浓缩图片来表示数据。这些需求得到BDPC聚类软件的支持,该软件为扩增子甲基化状态和组织聚类聚集的所有甲基化数据绘制热图,并绘制成树状图[15].

图7
图7

集成亚硫酸氢盐DNA甲基化分析平台,由BISMA初级测序数据分析软件和BDPC编译和聚类程序组成。BISMA针对独特序列的结果HTML文件可以通过BDPC编译软件进行进一步分析和显示,该软件将提供一个概览表。此表可用于BDPC集群软件的进一步结果演示。

结论

BISMA软件支持分析亚硫酸氢盐测序实验中的亚克隆PCR产物。它实现了一种改进的克隆序列检测策略和一种新的CpG位点检测算法。BISMA是第一个支持从重复基因组区域分析亚硫酸氢盐测序的软件。BISMA软件的高度自动化和简单的工作流程最大限度地减少了在短时间内成功分析数据集所需的用户交互。BISMA提供了完全的用户控制,并允许在注释序列比对的基础上调整许多参数的阈值和最终数据集的选择。BISMA软件可以作为在线工具自由用于学术目的http://biochem.jacobs-university.de/BDPC/BISMA/.

可用性和要求

项目名称:BISMA

项目主页:http://biochem.jacobs-university.de/BDPC/BISMA/

操作系统:独立于平台的在线软件

许可证:源代码可根据学术用途的要求提供

非学者使用的任何限制:需要许可证

缩写

BDPC公司:

亚硫酸氢盐测序数据表示和编译

BISMA公司:

亚硫酸氢盐测序DNA甲基化分析软件

基点:

碱基对

UCSC基因组浏览器:

加州大学圣克鲁斯分校基因组浏览器

N个站点:

测序读取中未解析的核苷酸位点

工具书类

  1. Bernstein BE,Meissner A,Lander ES:哺乳动物表观基因组。单元格2007, 128(4):669–681. 2016年10月10日/j.cell.2007.01.033

    第条 中国科学院 公共医学 谷歌学者 

  2. 库扎里德斯T:染色质修饰及其功能。单元格2007, 128(4):693–705. 2016年10月10日/j.cell.2007.02.005

    第条 中国科学院 公共医学 谷歌学者 

  3. Hermann A、Gowher H、Jeltsch A:哺乳动物DNA甲基转移酶的生物化学和生物学。细胞分子生命科学2004, 61(19–20):2571–2587. 2007年10月10日/00018-004-4201-1

    第条 中国科学院 公共医学 谷歌学者 

  4. Klose RJ,Bird AP:基因组DNA甲基化:标记及其介质。生物化学科学趋势2006, 31(2):89–97. 10.1016/j.tibs.2005.12.008

    第条 中国科学院 公共医学 谷歌学者 

  5. Feinberg AP:癌症病因的表观遗传学。赛明癌症生物学2004, 14(6):427–432. 2016年10月10日/j.semcancer.2004.06.005

    第条 中国科学院 公共医学 谷歌学者 

  6. Egger G,Liang G,Aparicio A,Jones PA:人类疾病的表观遗传学和表观遗传学治疗的前景。自然2004, 429(6990):457–463. 10.1038/自然26225

    第条 中国科学院 公共医学 谷歌学者 

  7. Frommer M、McDonald LE、Millar DS、Collis CM、Watt F、Grigg GW、Molloy PL、Paul CL:在单个DNA链中产生5-甲基胞嘧啶残基阳性显示的基因组测序协议。《美国科学院院刊》1992, 89(5):1827–1831. 10.1073/pnas.89.5.1827

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  8. Clark SJ、Harrison J、Paul CL、Frommer M:甲基化胞嘧啶的高灵敏度绘图。核酸研究1994, 22(15):2990–2997. 10.1093/nar/22.15.290

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  9. Zhang Y、Rohde C、Tierling S、Jurkowski TP、Bock C、Santacruz D、Ragozin S、Reinhardt R、Groth M、Walter J、,.:21号染色体基因启动子在单碱基对和单等位基因分辨率下的DNA甲基化分析。PLoS基因2009年,5(3):e1000438。10.1371/journal.pgen.1000438

    第条 公共医学 公共医学中心 谷歌学者 

  10. Zhang Y,Rohde C,Reinhardt R,Voelcker-Rehage C,Jeltsch A:人类常染色体上非印迹等位基因特异性DNA甲基化。基因组生物学2009年10月(12):R138。10.1186/gb-2009-10-12-r138

    第条 公共医学 公共医学中心 谷歌学者 

  11. Gruntman E,Qi Y,Slotkin RK,Roeder T,Martienssen RA,Sachidanandam R:Kismeth:通过亚硫酸氢盐测序分析植物甲基化状态。BMC生物信息学2008年9月371日。10.1186/1471-2105-9-371

    第条 公共医学 公共医学中心 谷歌学者 

  12. Bock C、Reither S、Mikeska T、Paulsen M、Walter J、Lengauer T:BiQ分析仪:亚硫酸氢盐测序中DNA甲基化数据的可视化和质量控制。生物信息学2005, 21(21):4067–4068. 10.1093/生物信息学/bti652

    第条 中国科学院 公共医学 谷歌学者 

  13. Kumaki Y、Oda M、Okano M:QUMA:甲基化分析的量化工具。核酸研究2008年,(36个Web服务器):W170–175。10.1093/nar/gkn294

  14. Rohde C,Zhang Y,Jurkowski TP,Stamerjohanns H,Reinhardt R,Jeltsch A:亚硫酸氢盐测序数据表示与编译(BDPC)web服务器——DNA甲基化分析的有用工具。核酸研究2008年,36(5):e34。10.1093/nar/gkn083

    第条 公共医学 公共医学中心 谷歌学者 

  15. Rohde C,Zhang Y,Stamerjohanns H,Hecher K,Reinhardt R,Jeltsch A:BDPC亚硫酸氢盐测序数据表示和DNA甲基化分析编译web应用程序中的新聚类模块。生物技术2009, 47(3):781–783. 10.2144/000113196

    第条 中国科学院 公共医学 谷歌学者 

  16. Zhang Y、Rohde C、Tierling S、Stamerjohanns H、Reinhardt R、Walter J、Jeltsch A:通过亚硫酸氢盐转化、克隆和个体克隆测序进行DNA甲基化分析。分子生物学方法2009, 507: 177–187. 全文(_T)

    第条 中国科学院 公共医学 谷歌学者 

  17. Yang AS,Estecio MR,Doshi K,Kondo Y,Tajara EH,Issa JP:使用重复DNA元素的亚硫酸氢盐PCR评估全球DNA甲基化的简单方法。核酸研究2004年,32(3):e38。10.1093/nar/gnh032

    第条 公共医学 公共医学中心 谷歌学者 

  18. Bio::Trace::ABIF:Perl扩展,用于读取和解析ABIF(Applied Biosystems Inc Format)文件。[网址:http://search.cpan.org/~vita/Bio-Trace-ABIF-1.04/]

  19. Thompson JD,Higgins DG,Gibson TJ:CLUSTAL W:通过序列加权、位置特异性间隙惩罚和权重矩阵选择来提高渐进多序列比对的灵敏度。核酸研究1994, 22(22):4673–4680. 10.1093/nar/22.22.4673

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  20. Larkin MA、Blackshields G、Brown NP、Chenna R、McGettigan PA、McWilliam H、Valentin F、Wallace IM、Wilm A、Lopez R、,.:Clustal W和Clustal×版本2.0。生物信息学2007, 23(21):2947–2948. 10.1093/生物信息学/btm404

    第条 中国科学院 公共医学 谷歌学者 

  21. 李斯特R、佩利佐拉M、多文RH、霍金斯RD、Hong G、Tonti-Filippini J、Nery JR、Lee L、Ye Z、Ngo QM,.:碱基分辨率的人类DNA甲基体显示出广泛的表观基因组差异。自然2009, 462(7271):315–322. 10.1038/性质08514

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  22. Laurent L、Wong E、Li G、Huynh T、Tsirigos A、Ong CT、Low HM、Kin Sung KW、Rigoutsos I、Loring J、,.:分化过程中人类甲基体的动态变化。基因组研究2010, 20(3):320–331. 10.1101/gr.101907.109

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  23. Hetzl J,Foerster AM,Raidl G,Mittelsten Scheid O:CyMATE:亚硫酸氢盐测序后植物基因组DNA甲基化分析的新工具。J工厂2007, 51(3):526–536. 10.1111/j.1365-313X.2007.03152.x

    第条 中国科学院 公共医学 谷歌学者 

  24. Claverie JM,Makalowski W:Alu警报。自然1994, 371(6500):752. 1038/371752a0年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  25. Kochanek S,Renz D,Doerfler W:二倍体和单倍体原始人类细胞Alu序列中的DNA甲基化。Embo J公司1993, 12(3):1141–1151.

    中国科学院 公共医学 公共医学中心 谷歌学者 

  26. Hellmann-Bumberg U,Hintz MF,Gatewood JM,Schmid CW:人类Alu重复序列甲基化的发育差异。分子细胞生物学1993, 13(8):4523–4530.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  27. Estecio MR、Gharibyan V、Shen L、Ibrahim AE、Doshi K、He R、Jelinek J、Yang AS、Yan PS、Huang TH、,.:癌症中LINE-1低甲基化是高度可变的,与微卫星不稳定性呈负相关。公共科学图书馆一号2007年,2(5):e399。10.1371/journal.pone.0000399

    第条 公共医学 公共医学中心 谷歌学者 

  28. McDonald LE,Paterson CA,Kay GF:在小鼠早期发育过程中,xist基因的亚硫酸氢盐基因组序列衍生甲基化特征。基因组学1998, 54(3):379–386. 10.1006/geno.1998.5570

    第条 中国科学院 公共医学 谷歌学者 

  29. Sado T,Okano M,Li E,Sasaki H:DNA从头甲基化对于X染色体失活的启动和繁殖是必不可少的。开发2004, 131(5):975–982. 10.1242/dev.00995

    第条 中国科学院 公共医学 谷歌学者 

  30. Morita S、Horii T、Kimura M、Goto Y、Ochiya T、Hatada I:Argonaute家族成员之一Eif2c2(Ago2)对发育至关重要,似乎与DNA甲基化无关。基因组学2007年,89(6):687–696。2016年10月10日/j.ygeno.2007.01.04

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

感谢Sandra Becker女士的技术援助和Jacobs大学的网络服务器能力,包括Achim Gelessus博士的维护。我们感谢Tomasz P.Jurkowski博士关于在web应用程序中实现测序数据提取和校准工具的讨论。这项工作得到了德国研究与教育部长(BMBF)的NGFN2计划的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信阿尔伯特·杰利奇.

其他信息

作者的贡献

CR和AJ构思了项目并撰写了手稿。CR编写了BISMA源代码。CR、YZ和RR进行了实验。CR进行了统计分析。所有作者阅读并批准了最终手稿。

电子辅助材料

12859_2009_3687_moems1_ESM。PDF格式

附加文件1:补充文本S1。分析克隆数与生物甲基化水平估计精度之间的相关性。补充文本S2。文献中从重复元素获得的亚克隆PCR产物的亚硫酸氢盐测序示例。补充文本S3。改进了CpG位点检测和甲基化状态注释。补充文本S4。改进了CpG位点检测。补充文本S5。改进了甲基化状态的注释。补充文本S6。克隆分子的自动检测。补充文本S7。克隆分子检测的改进避免了对有效序列的不当过滤。补充文本S8。克隆分子检测的改进忽略了胞嘧啶位置的N位点。补充图S9。用于创建图中所示结果的所有亚硫酸氢盐测序数据的完全对齐3C公司。(PDF 1 MB)

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于这篇文章

引用这篇文章

Rohde,C.、Zhang,Y.、Reinhardt,R。等。BISMA-快速准确的亚硫酸氢盐测序数据分析,分析来自独特和重复序列的单个克隆。BMC生物信息学 11,230(2010年)。https://doi.org/10.1186/1471-2105-11-230

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-11-230

关键词