跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组生物学。2012; 13(7):R61。
2012年7月11日在线发布。 doi(操作界面):10.1186/gb-2012-13-7-r61
PMCID公司:项目经理3491382
PMID:22784381

Bis-SNP:结合DNA甲基化和SNP需要亚硫酸氢盐seq数据

关联数据

补充资料

摘要

DNA亚硫酸氢盐处理后进行高通量测序(Bisultite-seq)是研究DNA甲基化和表观遗传基因调控的重要方法,但目前的软件工具并不能充分解决单核苷酸多态性(SNP)问题。识别SNP对于准确量化甲基化水平和识别等位基因特异的表观遗传事件(如印迹)非常重要。我们开发了一种基于模型的亚硫酸氢盐SNP调用者Bis-SNP,与现有方法相比,该调用者的SNP调用明显更好,从而改进了甲基化估计。在平均30×基因组覆盖率下,Bis-SNP使用默认的高强度设置正确识别了96%的SNP。开源软件包位于http://epigenome.usc.edu/publicationdata/bissnp2011.

背景

DNA的胞嘧啶甲基化在哺乳动物正常发育和癌症等病理状态的发展过程中,在基因调控、染色质结构和印迹方面发挥着重要作用。随着下一代DNA测序技术使产量的急剧增加成为可能,亚硫酸氢钠转化后大规模平行测序(亚硫酸氢-seq)已成为研究人类基因组表观遗传图谱的一种越来越流行的方法(在[1]). 已经应用了几种不同成本和基因组覆盖区域的测序策略。约化代表亚硫酸氢盐当量(RRBS[2])使用限制性片段大小选择来选择基因组中富含CpG岛和基因调控序列的一部分。亚硫酸氢盐挂锁探头(BSPP[])或基于溶液的杂交捕获(安捷伦公司,加利福尼亚州圣克拉拉,美国)可设计用于定制基因组中数十万个区域的选择。全基因组亚硫酸氢盐-Seq(WGBS[4])是最全面的技术,覆盖了人类基因组中90%以上的胞嘧啶。亚硫酸氢盐seq非常适合研究临床组织样本的表观遗传变化[5,6],可用于极少量的DNA[7]包括福尔马林固定样品[8]. 包括ENCODE项目在内的大型测序协会已使用WGBS和RRBS数据对一些细胞系和人体组织进行了分析[9]NIH表观基因组路线图和癌症基因组图谱(TCGA),这些数据集可公开下载。

亚硫酸氢盐处理DNA将未甲基化的胞嘧啶转化为尿嘧啶,尿嘧啶在扩增过程中被胸腺嘧啶取代。序列组成的这种戏剧性变化需要专门的软件来完成几乎所有的序列分析任务。通常,处理高通量测序数据的第一步是将每个读数映射并对齐到参考基因组中的正确位置(基因组映射),并且已经开发了许多强大的工具来映射亚硫酸氢盐转化的读数(综述于[10]). 下一步是确定参考基因组和样本基因组之间的差异,包括单核苷酸多态性(SNP)和插入/缺失事件(indels)。SNP的识别一直是一个活跃的研究领域,并且已经开发了许多强大的统计工具,用于非亚硫酸氢盐测序数据的SNP调用[11-13]. 亚硫酸氢盐测序数据的SNP调用有明显的并发症。首先,两个基因组链的读取是不互补的,所有SNP调用算法都假设互补。其次,样品中真正的(进化的)C>T SNP无法与亚硫酸氢盐转化引起的C>T取代区分开来,因此可能被误认为是非甲基化的Cs。因此,这种SNP的鉴定对于甲基化水平的准确定量非常重要,尤其是考虑到C>T是人类群体中最常见的替代物(dbSNP中所有SNP的65%),并且这些通常发生在CpG环境中[14].

在紧邻胞嘧啶的位置准确调用SNP也同样重要。位于胞嘧啶的一个或两个位置3'的核苷酸特别关键,因为它们受特定甲基转移酶的特异性影响。这些甲基转移酶特定的上下文位置可能是生物体或细胞类型特定的。在哺乳动物中,CpG二核苷酸在大多数细胞类型中通常高度甲基化,而CpA二核苷酸甲基化水平低得多,并且细胞类型受限[4,15]. 相比之下,在植物中,CHG三核苷酸通常被甲基化[16,17]. 基因组邻域稍宽的其他序列也可能具有较强的顺式甲基化的影响,可能是由于关键调控基序的存在[18]. 靠近胞嘧啶的杂合SNP可用于揭示广泛的等位基因特异性甲基化模式[19]以及重要的监管变化,如印记丢失[20-22].

尽管人们对亚硫酸氢盐seq非常感兴趣,并且有许多基因组作图工具可用,但还没有足够的软件用于SNP调用[10]. 为了克服识别亚硫酸氢盐处理序列中SNP的困难,一些研究小组依赖于同一样本中匹配的非亚硫酸氢序列数据[23-25]. 其他人使用了非亚硫酸氢盐SNP微阵列[26,27],或使用依赖具有已知亲本基因型的等基因小鼠菌株的研究设计[22,24].

一些亚硫酸氢盐相关协议的一个关键特性是,与C相对的链上的G核苷酸不受转换的影响。为了区分亚硫酸氢盐转化和C>T单核苷酸多态性,利用了这种链特异性原理[28]. 目前在大多数亚硫酸氢盐-seq研究中使用的基于Illumina的方案具有这一重要特性,因此被归类为定向的亚硫酸氢盐seq协议[10].非定向已使用协议(也会导致G>A替换的协议)[17],但尚未被广泛采用。图11说明了定向协议,其中给定胞嘧啶位置(映射到“C链”的位置)的大约一半读数可用于甲基化定量,但无法区分C>T SNP。另一半(映射到“G-strand”的部分,如图所示图1a)1a个)不产生甲基化信息,但可用于识别C>T SNP。当这些C>T SNP是杂合子时,它们可以用于分析等位基因特异性甲基化(附加文件1).

保存图片、插图等的外部文件。对象名称为gb-2012-13-7-r61-1.jpg

从亚硫酸氢盐seq数据中检测单核苷酸多态性显示了假设的亚硫酸氢盐测序数据,参考基因组位于顶部,单个测序(未观察到)的基因组位于中间,亚硫酸氢氢盐测速读数位于底部。()显示了三个参考胞嘧啶位置,第一个位置与参考基因组匹配,第二个位置为纯合的单核苷酸多态性。第一个病例显示真正的C:G基因型,与C(“C链”)在同一条链上的所有读数都读作T,表示非甲基化状态(显示为蓝色)。由于Illumina Bisulfite-seq协议是“定向的”,相反链上的读数(“G链”)被视为真正的基因型G(G链上的“基因型”读数在此图中方框内)。第二种情况说明了一个真实的C>T SNP,可以通过G链上的a读数来区分。在这种情况下,C股上的读数被推断为来自真实的“T”,应该用于甲基化调用(此处划掉)。第三种情况显示T>C SNP,同样可以根据G链读取进行识别。(b条)具有50%非甲基化(T)和50%甲基化(C)读数的胞嘧啶位置可能与相同测序读数上的杂合SNP相关。在这种情况下,非甲基化读取是在“A”等位基因染色体上的读取(此处显示为母体),甲基化读取则是在“T”等位染色体上。

迄今为止,Illumina Bisulfite-seq的固有方向性仅在有限和特别的方式。索尔克研究所小组筛选出C链上没有一个或多个未转化Cs的胞嘧啶,但这种方法可能会导致有关完全非甲基化胞嘧啶(在基因调控中起关键作用)的信息丢失[4,29]. 如果反向读取包含As,则我们自己的组会过滤掉引用C,但所需的A读取数量多少有些武断[6]. 第三组删除了C链上的所有C/T读码,并通过要求包含两个不同等位基因的最小读码数来调用SNP[30]. 重要的是,这些所谓的“k等位基因”方法都没有利用碱基调用质量分数,这对于区分真正的SNPs和测序错误非常重要[31]. 其他人使用了各种方法,没有试图识别胞嘧啶中出现的C/T或其他SNPs[,20,21]. 这些方法可能有助于以有限的方式分析等位基因特异性模式,但不能解决通过识别SNP来提高甲基化定量的需要。

这里,我们描述一个概率SNP调用者,Bis-SNP公司,这是基于已证明在非亚硫酸氢盐SNP调用中成功的方法[12,13]. Bis-SNP使用贝叶斯推断来评估特定于股的基本呼叫和基本呼叫质量分数的模型,以及有关群体SNP频率、特定于实验的亚硫酸氢盐转换效率和特定于位点的DNA甲基化估计的先验信息。它还利用了基本呼叫质量分数重新校准的优势,这一附加功能大大改进了非亚硫酸氢盐环境中的SNP呼叫[12]. Bis-SNP是开源的,基于GATK框架[32],它利用并行Map-Reduce计算策略并提供实际的执行时间。Bis-SNP以BAM文件的形式接受单端或配对映射的亚硫酸氢盐seq数据,并使用标准文件格式输出SNP和甲基化信息。我们表明,Bis-SNP是一种实用工具,它可以(1)通过检测胞嘧啶和相邻位置的SNP来提高DNA甲基化调用的准确性,以及(2)识别可用于研究顺调控序列中单等位基因DNA甲基化和多态性的杂合SNP。

结果和讨论

Bis-SNP工作流

图中概述了Bis-SNP工作流中的两个主要步骤图2a2a个包括基础质量重新校准和本地重新校准,然后由SNP调用。Bis-SNP接受标准路线文件(.bam(巴姆)格式),可由MAQ、Bismark、BSMAP、PASH或Novoalign(在[10]). 这允许用户决定哪些映射条件对其特定应用程序最重要。这也使得Bis-SNP与RRBSMAP等专用映射器兼容[33]以及任何其他可以输出的程序(.bam(巴姆))文件。

保存图片、插图等的外部文件。对象名称为gb-2012-13-7-r61-2.jpg

Bis-SNP工作流. ()Bis SNP接受.bam(巴姆)文件,由基因组绘图工具(BSMAP、MAQ、Novoalign、Bismark等)生成。局部重新校准和基本质量重新校准步骤会产生一个新的BAM,其中包含重新校准的基本质量分数。最后,Bis-SNP执行SNP调用并输出甲基化水平和SNP调用。(b条)SNP调用步骤是在每个基因组位置上独立执行的。参考基因组和样本基因组之间的差异可以产生10个可能的等位基因对或基因型之一(G公司,此处仅显示4个)。人群中所有可能替代的频率取自dbSNP数据库,表示为π(G公司). 将甲基化水平和亚硫酸氢盐转化效率的先验概率结合在一起的概率模型用于计算观察实际亚硫酸氢读取数据的概率(D类)假设10种基因型中的每一种(公共关系(G公司|D类))最后,贝叶斯推断使用每个SNP的总体频率来计算后验似然公共关系(D类|G公司).

Bis-SNP模型依赖于基本质量分数的准确性,基本质量分数最初由特定仪器的基本调用者估计。然而,这些初始的基本分数并不能准确地表示真正的错误概率,这在很大程度上取决于局部序列上下文[12]. 在GATK工作流程中,通过比较基准调用与参考基因组,计算每个核苷酸在每个测序周期的经验不匹配率,这些不匹配率用于重新校准仪器生成的值[12]. 我们不能将此默认实现用于亚硫酸氢盐seq数据,因为当每个亚硫酸氢酯转化DNA片段的潜在甲基化状态未知时,无法识别真正的C>T测序错误。因此,我们没有将参考胞嘧啶的Ts视为错误,而是将其视为第5个碱基X(X),并将其与T>T、a>T或G>T分开进行评估。其结果是,我们可以有效地重新校准除X(X)核苷酸,提高我们准确识别SNP的能力。重要的是,我们能够通过重新校准与胞嘧啶互补的“G链”Gs来改善对胞嘧啶的SNP调用。

用户可以从几个输出文件中进行选择。对于甲基化水平,Bis-SNP可以返回标准UCSC.床.假发文件,并为用户在命令行上指定的每个胞嘧啶上下文生成单独的输出文件。例如,胞嘧啶上下文是CG、CH或CHH(H是A、C或T的IUPAC符号)。这个.假发输出包含每个甲基化胞嘧啶的甲基化百分比,而.床该格式还包含C/T读取的数量,该百分比基于此,加上每个胞嘧啶相对于参考基因组的链。对于SNP,Bis-SNP可以返回变量调用格式(.vcf文件)文件中,除了甲基化百分比外,还包含所有SNP调用和可能性得分。

SNP调用算法描述

SNP调用算法的核心是基于GATK的贝叶斯推理模型[12],并使用GATK的LocusWalker类实现。对于每个基因座,Bis-SNP评估十种可能的二倍体基因型之一(G公司),如图所示图2B2B型(二倍体基因型由两个亲本等位基因组成,称为A类B类). 每个基因型的先验概率,π(G公司),使用来自dbSNP的种群数据(包括1000个基因组数据)确定,类似于SOAPsnp[13](见材料和方法)。在这个模型中,假设一个特定的二倍体基因型,在一个特定位点观察所有碱基调用的可能性AB公司,表示为公共关系(D类|G公司=AB公司)是在每次读取时观察基本调用的结果j(材料和方法等式2)。如下所述,公共关系(D类j|G公司=AB公司)根据读取链计算j和几个亚硫酸氢盐特定参数,β,αγ(图(图2b2亿).

在GATK非亚硫酸氢盐SNP呼叫模型中,观察到与假定基因型不同的基呼叫的概率G公司就是基本调用质量分数(定义为基本调用错误的概率)。在亚硫酸氢盐-seq的情况下,这对A:T基因型是正确的,但对C:G基因型则不是。对于C:G基因类型,观察到T的概率取决于读取链、甲基化状态和亚硫酸氢转化效率。用正常GATK模型处理与胞嘧啶相对的G链上的读数。对C-转移的读取使用一个替代模型,该模型将C>T取代视为潜在错误或亚硫酸氢盐转化(见材料和方法)。观察亚硫酸氢盐转换事件的概率取决于潜在的甲基化状态和亚硫酸氢转换错误。虽然这些都没有直接观察到,但它们作为变量包含在模型中β,αγ如“方法”部分的等式5所述。

亚硫酸氢盐处理后,未转化为T的未甲基化C称为欠转换,而甲基化C转化为T称为过度转换.欠转换率,α,通常使用控制中的峰值进行估计[4]或未甲基化的线粒体基因组[6]. 此速率可以由用户手动设置,默认情况下其值为0.25%。虽然使用当前的亚硫酸氢盐seq数据无法可靠地测量亚硫酸氢过转换,但我们还包括一个附加参数,γ,默认设置为0%。在未来,这可以通过在完全甲基化的对照DNA中加标来估计。

在给定的胞嘧啶位置上,甲基化读数的百分比可能有很大差异。由于C读和T读比T读产生更多关于C>T SNP存在的信息,因此局部特异性甲基化率可以强烈影响SNP调用。在哺乳动物基因组中,CpG甲基化水平是多模式的,不同类别的功能元件具有不同的甲基化模式。至少存在四种不同的类别,平均甲基化率在0%到80%之间[4,24]. 此外,特定二核苷酸或三核苷酸环境下的甲基化是生物体甚至细胞类型特有的。为了更好地理解甲基化估计如何影响SNP调用性能,我们实现了几种不同的方法来估计甲基化频率参数β,我们接下来将对此进行描述。

首先,我们使用了天真估计β其中,在任何特定的胞嘧啶位置,read甲基化或非甲基化的概率为0.5。其次,我们使用上下文特定的在以下两轮程序中确定的估计值。在第一轮比赛中,天真如上所述使用估计值,并将得到的SNP调用与dbSNP一起用于选择一组高置信度非SNP纯合胞嘧啶(概率>99.99%)。这些纯合胞嘧啶被用于估计一组胞嘧啶序列上下文的平均甲基化水平,这些序列上下文可以在Bis-SNP命令行上指定(默认情况下,设置为βCG公司β中国). 在第三种也是最后一种估算方法中,β使用C和T读取数分别估计每个胞嘧啶位点(c(c)c(c)+t吨). 这样做的理由地方特异性的考虑到CpG甲基化水平的强双峰性质,我们担心全基因组估计可能不合适。这三个都是β如下所述单独运行估计方法。Bis-SNP公共版本的默认方法是地方特异性的估计。

对已知SNP的SNP呼叫进行评估

我们评估了三种不同甲基化估计方法的Bis-SNP调用准确性(天真,上下文特定的、和地方特异性的). 后两种方法的性能大大优于天真估计,所以这是下面讨论的仅有的两个。我们使用实验室之前发布的正常(男性)人类结肠粘膜样本中的实际全基因组亚硫酸氢盐-seq数据集来评估准确性[6](序列可通过登录dbGap:phs000385获得)。所有读数均为75bp长的单端,并使用Illumina基因组分析仪IIx平台生成。完整的数据集的平均读取深度为32X。将亚硫酸氢盐seq数据与来自同一样本的Illumina Human1M-Duo BeadChip SNP阵列数据进行比较。

亚硫酸氢盐测序的主要目标是准确测定胞嘧啶甲基化水平,因此我们首先研究了Bis-SNP正确识别纯合胞嘧啶的能力。作为“基本事实”,我们使用了1 M SNP阵列上鉴定为纯合胞嘧啶的435120个位置,并检查了Bis-SNP发出的假阴性和假阳性呼叫(图3a-c型). 通过调整Bis-SNP评分截止值,即第一个和第二个最可能的基因型之间的比值比,产生不同严格程度的呼叫(见方法)。评估不同的Bis-SNP甲基化估计值(有和无碱基质量重新校准)表明局部特异性β估计加上重新校准产生了最准确的结果。使用完整的序列数据集和默认的分界(图3c、red圆),Bis-SNP能够检测到95.22%的真胞嘧啶(414327特征),假阳性率为0.37%(2461特征)。我们通过从完整数据集中随机选取读数来模拟较轻的测序覆盖率,以估计8倍的精确度(图(图3a)3a年)和16×(图(图3b)3亿)基因组覆盖率。读者应该注意,这些假阳性率并不代表全基因组的假阳性率,因为大多数假阳性来自杂合SNP,这些SNP在SNP阵列上很常见,但在基因组中很少见。

保存图片、插图等的外部文件。对象名称为gb-2012-13-7-r61-3.jpg

Illumina 1 M SNP阵列上检测SNP的双SNP错误频率显示了在检测来自人类结肠粘膜组织的亚硫酸氢盐seq数据中的SNP时,Bis-SNP准确度的接收器工作特性(ROC曲线)。使用Illumina Duo 1 M人类SNP阵列确定“真实”基因型,Bis-SNP结果仅在这100万个基因组位置进行评估。所有数据集均来自[6]. 顶部的三条ROC曲线(a-c)显示了1 M SNP阵列上435120个纯合胞嘧啶对应位置的准确性。通过从亚硫酸氢盐seq数据的平均32倍读取深度随机降采样,我们能够显示对应于8倍覆盖率的结果(),16倍覆盖(b条). 使用三种不同条件的Bis-SNP与Bismark以及‘Berman2012’中使用的方法进行了比较[6]这两种方法的结果都局限于参考胞嘧啶。对于“Berman2012”,我们改变了绘制一系列严格性所需的反向链G读取数。底部的三个图(d-f型)根据1 M SNP阵列,在303656个杂合子位置显示准确性。为了进行比较,我们展示了k等位基因方法的结果(类似于[30]),鞋匠2010[20]和bisReadMapper(双读映射器)[].

为了进行比较,我们使用几种已发表的方法确定纯合子胞嘧啶调用的准确性(图图3a-c).俾斯麦[34]返回参考基因组中所有胞嘧啶的甲基化估计值。因此,毫不奇怪俾斯麦在1 M SNP阵列上的特征表现不佳,这些特征是根据其多态性和与参考基因组的差异而选择的。其他几项已发表的研究使用了相同的策略并估计了所有参考胞嘧啶的甲基化[35,36]. 在我们早期的工作中[6],我们还将甲基化调用限制为参考胞嘧啶。因此,当我们将此方法(“Berman2012”)应用于1M SNP阵列数据集时,其假阴性率几乎与俾斯麦然而,“Berman2012”过滤掉了C链上不到90%的读数为C或T,G链上为G的位置,导致假阳性率大大低于俾斯麦,但没有Bis-SNP那么低。

接下来,我们重点关注Bis-SNP测定杂合SNP的能力,杂合SNPs既可用于提高甲基化调用准确性,也可用于等位基因特异性甲基化分析(见图图1b)。1亿). 杂合SNP比纯合SNP更难识别,因为每个等位基因的阅读覆盖率约为1/2。我们排除了单倍体×染色体,留下了303656个常染色体位点,被1M SNP阵列称为杂合子。和以前一样局部特异性β甲基化估计加重新校准在所有方法中表现最好。使用具有默认Bis-SNP截止值的完整数据集(图(图3c,3厘米Bis-SNP能够识别93.18%的杂合SNP(282944个位点),假阳性率为0.094%(755个位点)。在检测的303656个杂合子位点中,242347个(79.81%)为C/T杂合子。C> T是哺乳动物中最常见的SNP,由甲基化胞嘧啶的进化脱氨引起。它也是亚硫酸氢盐处理的DNA中最难检测到的单核苷酸多态性,因为C链的读取通常是无信息的(见图图1)。1). 正如预期的那样,由于C>T转换的模糊性,Bis-SNP(和其他方法)在C/T杂合SNP上的表现比其他方法差(附加文件2).

我们将Bis-SNP结果与使用两种替代的“k等位基因”技术调用的杂合SNP进行了比较,这两种技术使用读取计数截止值,而不包括基本质量分数。我们实现了[21,30]使用变量读取计数截止。这个截止点,k个,定义为具有称为杂合SNP所必需的次级等位基因的最小读取百分比。如中所示[30],我们将C和T作为参考胞嘧啶的单个等位基因进行计数(仅在C链上)。除了k等位基因外,我们还尝试了Shoemaker方法[20]它根本不评估C/T SNP,需要在每条链上至少20%的读取上观察频率较低的等位基因。最后,我们尝试了bisReadMapper(双读映射器)算法[],它使用非亚硫酸氢盐SNP调用程序SAMTOOLS独立调用每条链上的SNP[11],并且只报告在链之间一致的SNP。数字第3d-f页结果表明,Bis-SNP的每个变量都比其他方法表现得更好。

一个重要的实际问题是准确识别SNP所需的最小读取深度。我们通过将我们的32×亚硫酸氢盐-seq基因组降采样到从2×到30×的不同覆盖水平来解决这个问题(图(图4)。4). 对于每个覆盖级别,我们使用1M SNP阵列数据确定一系列Bis-SNP严格截止值中的误报和漏报数量,如图所示图3。在每个覆盖水平上,我们选择了产生小于5%的错误发现率(FDR)的最不严格截止值,并绘制了真阳性数(灵敏度)。对于两种纯合胞嘧啶(图(图4a)4a类)和杂合SNP(图(图4b),4b个)在10倍的覆盖率下,纯合SNP几乎被完全检测到(98%的灵敏度),而杂合SNP则从10倍的80%逐渐增加到30倍的95%。

保存图片、插图等的外部文件。对象名称为gb-2012-13-7-r61-4.jpg

灵敏度作为序列覆盖的函数图3 ROC曲线中的Bis-SNP调用和1M SNP阵列之间的比较扩展到2×-30×的覆盖范围。在每个覆盖水平上,我们选择了产生小于0.05的错误发现率(FDR)的最严格阈值,并绘制了灵敏度(1-假阴性率)。如图3所示,单独的图显示了检测纯合胞嘧啶的敏感性()和杂合SNP(b条). 对于杂合SNP,我们包括总检出率(红线),以及C/T杂合SNPs的单独品系(蓝线)和非C/T杂合SNPs(绿线)。

全基因组甲基化调用的准确性

为了验证Bis-SNP正确识别胞嘧啶和提高全基因组甲基化定量的能力,我们在OTB结肠粘膜样本和四个额外的全基因组亚硫酸氢盐样本的整个染色体上运行Bis-SNPs(表(表1)。1). TCGA正常肺和正常乳腺由USC表观基因组中心生成并使用BSMAP进行校准,而两个小鼠甲基体由UCSD生成并使用Novoalign进行校准[22]. 使用带有10GB RAM的标准12核Intel服务器,1号染色体的运行时间约为3小时(如图所示,位于加利福尼亚州圣克拉拉市的Intel)。整个人类基因组在单个服务器上大约需要30-40个小时(数据未显示)。

表1

染色体1 Bis-SNP检测

样品校准器参考cvg公司赫特SNP霍姆SNP可调用基数运行时
OTB公司质量管理体系汞1832×119,10367,725211,042,0102.8小时

TCGA-正常BSMAP公司汞1919×118, 41258,309222,763,7863.1小时

TCGA-乳房正常BSMAP公司汞1919×113,00957,281221,014,9652.7小时

鼠标-F1i诺沃利尼毫米950×663,52865,364178,718,6153.1小时

鼠标-F1r诺沃利尼毫米941×682,97967,068178,847,5083.1小时

注意:所有基准测试都是使用单个Intel(R)Xeon(X5650,2.67 GHz)服务器执行的,该服务器具有12个CPU内核和10 GB内存。SE指单端测序,PE指配对测序。

我们使用Bis-SNP鉴定样本基因组中的四类胞嘧啶(图(图55和表表22“样本基因型”),并通过参考基因组中的相应序列将其分离(图(图55和表表22“参考基因型”)。如表所示表22样本基因组中约有0.5-0.6%的参考CpG丢失,样本基因组中0.5-0.6%CpG在参考中丢失。这两个小鼠样本具有显著更高的SNP率,可能是由于交叉菌株和为小鼠参考基因组测序的C57BL/6J菌株之间的真实菌株差异。在两个F1小鼠中,样本基因组中约2.5%的参考CpG丢失,样本基因组约1.1%的CpG在参考中丢失。

保存图片、插图等的外部文件。对象名称为gb-2012-13-7-r61-5.jpg

精确甲基化调用SNPBis-SNP在五个不同的数据集上运行,从结肠粘膜组织进行单端测序[6] ()两个TCGA样本使用来自乳腺和肺组织(正常、非癌症)的配对基因测序,两个小鼠样本使用来自[22](见表1)。在每种情况下,Bis-SNP用于在样本基因组中的四个序列上下文中的一个中识别胞嘧啶。对于每个样本基因型,胞嘧啶根据其在参考基因组中的序列上下文(“ref-CpG”、“ref-CpH”或“refNotC”)进一步划分。对特定样品中特定类别内的所有胞嘧啶进行平均,以产生平均甲基化水平。每类胞嘧啶的数量见表2。

表2:

染色体1胞嘧啶计数和甲基化

样品样本基因型参考基因型%甲基化
参考CpG参考CpH参考DpN(D=A、T、G)参考CpG参考CpH参考DpN

OTB正常结肠CpG公司3,758,80399.39%12,5400.02%11,8380.01%73%80%82%

CpH值7,7730.21%78,427,91899.95%18,8040.01%1%1%1%

数字电话号码5,6580.15%14,1660.02%128,570,81799.97%不适用不适用不适用

CpG/CpH het7,2180.19%8,9980.01%不适用不适用39%39%不适用

CpG/RpG het公司2,5120.07%不适用不适用1,8260.00%74%不适用77%

TCGA正常肺CpG公司4,153,19699.52%10,9950.01%10,5110.01%76%84%85%

CpH公司5,4600.13%85,031,96099.96%16,4200.01%1%1%1%

数字电话号码5,3100.13%13,7250.02%133,490,90599.98%不适用不适用不适用

CpG/CpH het6,6820.16%8,5290.01%不适用不适用37%39%不适用

CpG/RpG het公司2,4760.06%不适用不适用1,9930.00%80%不适用78%

TCGA正常乳房CpG公司4,100,64399.54%10,8930.01%10,6570.01%75%85%86%

CpH值5,2860.13%80,654,08499.96%13, 3900.01%1%1%1%

数字电话号码4,9540.12%13,3100.02%136,180,77999.98%不适用不适用不适用

CpG/CpH het6,2890.15%8, 1200.01%不适用不适用39%40%不适用

CpG/RpG het公司2,4130.06%不适用不适用1,8540.00%78%不适用79%

Xie 2012鼠标F1i(chr1)CpG公司2,125,32097.51%10,9900.02%11,7570.01%76%83%84%

CpH值4,3140.20%57,706,84199.87%20,3120.02%3%3%3%

数字电话号码5,3000.24%20,9050.04%118,570,09799.96%不适用不适用不适用

CpG/CpHhet28,8961.33%36,7350.06%不适用不适用43%42%不适用

CpG/RpG het公司15,7540.72%不适用不适用12,9170.01%78%不适用82%

Xie 2012鼠标F1r(chr1)CpG公司2,199,90797.52%11,2680.02%11,9740.01%75%83%84%

CpH值4, 4760.20%58, 685, 11599.87%20,9330.02%3%3%4%

数字电话号码5,1710.23%20,7650.04%117,647,44599.96%不适用不适用不适用

CpG/CpH het29,9831.33%38,1590.06%不适用不适用43%42%不适用

CpG/RpG het公司16,3710.73%不适用不适用13,1470.01%78%不适用82%

注:“het”表示杂合。一行中的两个非参考基准会自动过滤掉。CpH=C(A/C/T)。DpN=(A/T/G)(A/C/T/G)。RpG=(A/G)G.CpG/TpG杂合基因型被过滤掉,因为它们不能用于甲基化调用。

接下来,我们比较了每个样本基因型的平均甲基化水平(图(图5)。5). 正如预期的那样,无论相应的参考序列如何,纯合CpHs始终较低,而纯合Cp Gs始终较高。两份小鼠额叶皮层脑样本均显示CpH甲基化水平升高,如原始出版物所述[22]. 有趣的是,代表SNPs的纯合CpG(样本与参考基因组不同)的甲基化程度一直较高。这与哺乳动物基因组进化的已知情况相吻合——甲基化CpG的进化C>T变化比非甲基化的CpG更频繁,因为C>T脱氨和脱氨修复过程是甲基化特有的。接下来我们研究了杂合CpG(图(图5,5,右侧)。CpG/CpH位置的甲基化介于CpG纯合和CpH纯合位置之间。在CpG/ApG或CpG/GpG杂合子位置,只能测量C等位基因的甲基化,甲基化状态与纯合CpG大致相同。CpG/TpG杂合子位置未显示,因为我们无法准确测量这些位置的甲基化。总之,这些数据表明,即使样本基因组与参考基因组不同,Bis-SNP基因型调用也能产生准确的甲基化量化。

结论

我们描述了一个公开可用的软件工具,Bis-SNP公司,它从使用Illumina Bisulfite-seq协议生成的数据中同时提取甲基化信息和SNP信息。命令行可执行文件(附加文件)和开源代码(附加文件4)都可以免费下载[37]. Illumina协议的方向性允许通过分别组合每条链的信息来分析DNA甲基化和识别同一位置的SNP。这是目前个别实验室和基因组学联盟(如ENCODE、NIH表观基因组学路线图和癌症基因组图谱)使用的主要亚硫酸氢盐测序协议。通过正确识别和筛选SNP,我们可以获得更准确的甲基化水平,杂合SNP,包括C/T SNP,可以用于识别等位基因特异的甲基化模式。Bis-SNP是使用高效的GATK框架实现的,该框架允许对现代全基因组分析合理的运行时。一个完整的32×全基因组数据集在一个具有10 GB内存的典型12处理器计算节点上运行大约需要30个小时,或者当每条染色体在单独的计算节点上并行运行时需要3个小时。此性能配置文件使大多数用户都可以访问Bis-SNP。

我们包括对亚硫酸氢盐-seq数据执行基本质量重新校准的能力,这提高了Bis-SNP的整体SNP调用精度。更准确的基础质量分数不仅可以让我们更好地识别此处所示的SNP,而且可以在未来用于计算更准确的DNA甲基化估计。生物DNA样本通常没有大量始终100%甲基化的胞嘧啶,因此没有可靠的方法来识别真正的C>T错配并重新校准这些位置的质量分数。通过将未经亚硫酸氢钠处理的DNA文库添加到相同的测序通道中,未来可以改进重新校准。

亚硫酸氢盐seq在基础生物学和医学中的潜在应用是广泛的,并且Bis-SNP可以用于大多数亚硫酸氢酯seq实验设计,包括全基因组亚硫酸氢盐基seq(WGBS)、约化表示亚硫酸氢钠基Sq(RRBS)和可定制的基因组选择方法。虽然我们专注于人类研究,但Bis-SNP可以根据用户定义的胞嘧啶上下文输出甲基化水平,这使其适用于分析拟南芥或任何其他有机体。它还允许Bis-SNP适应新的研究设计,例如体外通过具有任意序列特异性的甲基转移酶进行甲基化,甚至使用新的亚硫酸氢盐测序方法研究5-氢甲基胞苷(5-hmC)[38].

亚硫酸氢盐seq和Bis-SNP的一个有趣的潜在用途是研究SNP和DNA甲基化模式(即。方法QTL,在中审阅[39]). 虽然到目前为止的实验设计已经设想了配对SNP和甲基化分析,但我们对Bis-SNP的令人鼓舞的结果表明,这两者都可以在单个亚硫酸氢序列实验中捕获。从成本角度来看,全基因组亚硫酸氢盐-seq的测序深度不可能达到50倍或更大,并且可能为methQTL研究提供足够的SNP和甲基化覆盖率。另一个潜在的应用可能是全基因组关联研究(GWAS),该研究使用亚硫酸氢盐seq而非传统测序,以同时在遗传和表观遗传水平上确定疾病关联。鉴于大量GWAS点击似乎会影响调控区域而非基因编码区域,这可能特别有用。Bis-SNP和其他亚硫酸氢盐-seq分析工具将在这些令人兴奋的新技术的开发中发挥重要作用。

材料和方法

本地重新校准、基本质量重新校准和其他BAM文件预处理

映射质量分数小于30的读数和映射到多个基因组区域的读数被删除,PCR重复也被删除(可选)。对于成对-end读取,我们删除没有正确配对字段集。

我们使用GATK进行局部多序列重新校准和序列重新校准,主要如所述[12]. 由于大多数亚硫酸氢盐测序映射工具(例如Bismark、BSMAP、MAQ等)在BAM文件中没有为GATK的索引重新校准提供正确的CIGAR字符串,因此在必要时重新计算CIGAR串。我们扩展GATK的重组人目标创建者当参考基因组位置为胞嘧啶时,计算错配数,但不将胸腺嘧啶计算为错配。在我们创建一个潜在的indel区间后,我们使用GATK的修改版本重新对齐索引重组器在indel重排后标记PCR重复读数。

对于基本质量重新校准,我们修改了GATK算法,通过扩展GATK来考虑亚硫酸氢盐的转化CountVariantWalker公司表重新校准步行器类。该算法首先将所有未知基因座(即不在dbSNP构建135中)与参考基因的经验不匹配列表化。这些计数根据其报告的仪器报告质量分数进行分类(R(右))并在读数内定位(循环)(C类). 在列出不匹配项时,当参考基因组位置为胞嘧啶时,我们不将胸腺嘧啶视为不匹配项(在配对基因读取的第二端,当参考基因为鸟嘌呤时,我们反而不将腺嘌呤视为不匹配项)。

默认情况下,只有重新校准的基本通话质量分数大于5的职位才用于SNP通话。可以使用命令行参数设置此质量截止值(参见附加文件中的用户手册).

BisSNP概率模型

我们从GATK的贝叶斯似然模型开始([12]),并进行一些特定于亚硫酸氢盐的调整。假设潜在的基因组是二倍体,我们让D类= (D类1,D类2, ...,D类第页)表示特定基因组位置的基本调用被覆盖的第页排序读取。然后,我们通过GATK中的(1)计算后验概率:

P(P)第页(G公司|D类)=π(G公司)P(P)第页(D类|G公司)P(P)第页(D类)
(1)

在这里,G公司是潜在的二倍体基因型,AB公司,使用A类B类是两个亲本等位基因。π(G公司)是基于参考基因组的基因型和群体频率观察给定基因型的基因型先验概率,与表中讨论的相同表11SOAPsnp纸[13].公共关系(D类)定义为所有可能基因型的总和∑AB公司π(AB公司)公共关系(D类|AB公司),但在每种情况下都是相同的,通常可以忽略,因为我们关注的是似然比。我们假设两个等位基因中的每一个都有可能被测序,并计算D类所有个体的乘积为(2),(3):

P(P)第页(D类|G公司)=j=1第页P(P)第页(D类j|G公司)
(2)

P(P)第页(D类j|G公司=A类B类)=12P(P)第页(D类j|A类)+12P(P)第页(D类j|B类)
(3)

对于单端序列,显示了以下步骤。对于成对的末端序列,第一端按所述进行处理,但第二末端在进行这些计算之前进行反向互补(因为Illumina第二末端是与第一端相同模板的互补链)。这将发生在第二端的G>A亚硫酸氢盐取代更改为亚硫酸氢转换模板上的实际C>T取代。重新校准的基本质量分数以分数为准,代表概率ε该位置是一个错误,用于以下计算。

当潜在的等位基因是腺嘌呤时(),胸腺嘧啶(t吨),亚硫酸氢盐转换不适用,概率估计很简单,如下所示t吨:

公共关系(D类j|B类=t吨)=εj如果D类jt吨1-εj如果D类j=t吨
(4)

在这里,εj是位置处出现排序或基本调用错误的概率j即真等位基因的概率B类是t,但基本调用D类j被观察为,c(c),或。的似然函数等效于等式(4)的值。当潜在等位基因是c(c)或a然而,由于亚硫酸氢盐转化仅影响定向亚硫酸氢酯seq协议中的一条链,因此概率是特定于链的(图(图1)。1). 看到t吨读取取决于位置甲基化的概率(β)以及亚硫酸氢盐的转化效率(αγ). 亚硫酸氢盐处理将所有未甲基化的胞嘧啶转化为胸腺嘧啶,但在实践中并非100%有效[4]. 参数α是未转化的非甲基化胞嘧啶的估计频率[4]或者哺乳动物的线粒体序列,我们发现它们几乎完全没有甲基化[6]. 在这种情况下,α=βchr公司M(M)). 默认情况下,α设置为0.0025,但可以由用户指定。我们还包括γ的参数过转换即甲基化胞嘧啶的转化率。虽然这在实践中不是常规测量,但可以通过包括酶甲基化控制DNA来估计[40]或无亚硫酸氢盐转换的测序库。默认情况下,γ设置为0,但可以由用户指定。胞嘧啶的完全似然计算如下:

P(P)第页(D类j|B类=c(c))=(1-εj)[βj(1-γ)+(1-βj)α]如果D类j=c(c)+εj+(1-εj)[βjγ+(1-βj)(1-α)]如果D类j=t吨+1-εj如果D类j=c(c)-εj否则βj1-γ=甲基化和适当地未转换βjγ=甲基化和不适当地已转换(1-βj)α=非甲基化和不适当地未转换(1-βj)(1-α)=非甲基化和适当地已转换
(5)

这些计算的关键是,与推断的胞嘧啶等位基因(用+表示)在同一条链上的读取与从相反的链上读取(用-表示)的处理不同。根据图中的示例,如预期图1,1,一个真正的等位基因B类=c(c)导致看到t吨+(a)t吨“在C链上阅读),但看到t吨-(一个'“在G股上阅读)。基因型G公司最好的后验概率最高公共关系(G公司|D类)选择,最终输出分数是最佳值之间的比值比(G公司最好的)和第二好的(G公司次佳),如方程式(6)所示。在实践中,我们通过仅评估10种可能的二倍体基因型的子集来优化执行,这些基因型可能是给定读取的序列。

c(c)o个第页e(电子)=o个(P(P)第页(G公司b条e(电子)t吨|D类)P(P)第页(G公司n个e(电子)x个t吨b条e(电子)t吨|D类)
(6)

亚硫酸氢盐效率,即。αγ通常变化小于1%,因此方程式5中包含的关键参数是甲基化率β。由于该速率因基因组背景、生物体甚至细胞类型而异,因此我们允许用户将可能的背景指定为一组n个由IUPAC简并码指定的核苷酸序列(例如,中国代表科科斯群岛,计算机断层扫描,或加利福尼亚州). 在通常只有胞嘧啶的单个碱基3'被认为相关的哺乳动物基因组中,用户将指定CG和CH(Bis-SNP公司默认设置)。对于拟南芥,可以指定CG、CHH和CHG。可以指定任意数量的5'和3'碱基,以适应全范围的亚硫酸氢盐-seq分析。例如,可以为RRBS协议固有的MspI限制位点指定CCGG模式([41]).

为用户指定的每个胞嘧啶上下文创建一个甲基化输出文件(BED6+2格式)。对于确定具有特定序列上下文的每个胞嘧啶,甲基化百分比(C链上的C读取数除以C链上C或T读取数)输出为得分字段。为了帮助进行统计分析,第二个字段包含C/T读取的总数。

五倍亚硫酸氢非转换过滤器

已知非甲基化Cs的非转换优先影响Illumina生成的读取的5'端,这很可能是由亚硫酸氢盐转换期间与完全甲基化序列适配器相邻的序列重新退火所驱动的。我们使用我们早期工作中实现的5’非转换过滤器对此进行控制[6]. 对于每次读取,我们沿着从5'到3'的读取路径,移除C链上的任何C,直到我们到达第一个被转换为T的参考C。通过应用此过滤器,早期循环中的早期亚硫酸氢盐转换达到与晚期循环非常相似的水平,从而消除甲基化偏差的潜在来源(数据未显示)请注意,应该为RRBS数据关闭此过滤器,RRBS数据从第一个周期收集其大部分甲基化数据(请参阅用户手册)。

预-SNP调用质量过滤器

使用GATK方法,我们在SNP调用之前应用额外的质量过滤器,以避免已知的误报源。筛选出簇中发现的SNP(十碱基对窗口中的两个或更多)。过滤掉覆盖深度大于120的SNP、Strand Bias(SB)得分大于-0.02或Quality by depth(QD)小于1.0的SNP。所有这些参数都是可配置的(请参阅用户手册)。如果BAM包含映射质量分数,则当超过10%的对齐读取(至少40次读取)的映射质量为0时,将筛选出可疑区域。

亚硫酸氢盐测序可能有更高的链偏差,因为当去排尿步骤导致随机链断裂时,高亚硫酸氢浓度可能导致DNA降解[42,43]. 我们计算了GATK中的链偏倚得分,但亚硫酸氢盐转换读取具有明显的链偏斜,高于实际的链偏压,因为G链在胞嘧啶中的贡献大于C链。因此,我们使用了比GATK默认值更严格的链偏差截止值(-0.02)。

降低采样覆盖率

我们使用GATK将人类结肠粘膜亚硫酸氢盐seq数据集降采样为不同的平均覆盖率,GATK随机选取z(z)读取每个单独的核苷酸位点。使用以下公式,其中N个是下采样前总数据集的平均覆盖率(本例中为32×),n个是所需的下采样覆盖范围,以及是特定位置的实际覆盖范围。

z(z)=*n个N个
(7)

用于比较的外部工具

K等位基因法

K等位基因方法被用于鉴定杂合SNP,作为所述方法的推广[21,30]这两种方法都计算了存在的替代等位基因的数量,并排除了C/T SNP。对于参考胞嘧啶位置,我们只使用来自G股,而在其他位置,我们将两条线结合起来以获得读取计数。在这些过滤器之后,我们使用K(K)截止值可以在0-10之间变化,并应用K(K)-等位基因阈值如下。对于具有n个传递读取位置n个小于10,我们要求两个等位基因中的每一个至少具有K(K)读取。对于以下位置n个大于10,我们至少需要n个k个10读取。Fore reference,Hudson Alpha小组[21]使用了集合定义K(K)7次读取,至少10%,并排除所有C/T SNP。加州大学洛杉矶分校小组[30]规定读取计数较低的等位基因必须包含至少40%的读取,并排除C/T读取。

bisReadMapper(双读映射器)

我们下载了bisReadMapper(双读映射器)版本1[]. 我们首先使用基因组Prep.pl对参考基因组进行预处理,提取每个染色体中的胞嘧啶位置。内置的读取映射器无法处理我们的大型BAM文件,因此我们绕过了映射步骤,直接使用BAM文件作为输入。这不是bisReadMapper包的标准部分,需要我们划分BAM比对文件,以将与参考基因组正向链对齐的读取与与反向链对齐的读分开。我们使用了以下内容bisReadMapper(双读映射器)参数:allC=1;长度=75;snp=dbsnp135杆;alignMode=S;qualBase=33;微调3=0;微调5=0;refDir=/path/to/GenomePreparationProcessedDir/

鞋匠

鞋匠[20]该方法的实施如补充材料中所述,并由作者进行了澄清。根据读数中C与T核苷酸的比率和G与A核苷酸的比率,对读数进行不同的处理(如果C与T的比率更高,则认为它是亚硫酸氢盐转化的C链读数,否则认为它是从第二端开始的互补读数,并且它是反向互补的)。然后所有读数都被去甲基化生物信息学(Cs转换为Ts)。输入读取根据其标准进行筛选:(1)在检查的SNP站点和两侧的三个侧翼位置进行基本调用,最低基本质量分数需要为15。(2) 如果某个碱基出现在一个链上超过20%的读取中,则其反向补码需要出现在相对链上至少20%的读取上。只分析了通过这两个标准的职位。基本质量分数用于加权核苷酸计数对核苷酸频率矩阵的贡献。将该矩阵标准化,乘以读取计数,得到每个位置的最终核苷酸数矩阵(每个位点的标准化和加权A、C、G、T数)。Fisher精确检验适用于每个等位基因中的每个核苷酸(例如,g的核苷酸数vs.非g的核苷酸数量,g的预期核苷酸数vs非g的预期核酸数量)。对于十种可能的基因型,每个等位基因的两个p值相乘,然后归一化。当(1)最佳基因型是第二个最可能基因型的10倍,(2)SNP在dbSNP中有报道,(3)至少有10×读取深度时,筛选出SNP。

俾斯麦

我们下载了Bismark-0.50[34]. 我们将输入BAM文件转换为SAM格式并运行基因组_甲基化_bismark2bed图.pl提取胞嘧啶。使用了默认设置。

2012年伯尔曼

我们实现了早期工作中描述的方法的通用版本[6]. 我们只包括至少有3个重叠C或T读数的参考胞嘧啶位置。我们至少需要k个%C股上的读数为C或T,以及k个%G股上的读数为G。默认设置(用于[6]图中显示为橙色矩形图3))是k个= 10%.

用于全基因组比较的数据集

OTB结肠

75 bp单端全基因组亚硫酸氢盐-Seq数据来自[6]使用Illumina GAIIx测序生成(可从dbGap:phs000385获得)。样本为一名男性结肠癌患者的正常邻近结肠粘膜。

TCGA-lung和TCGA-breat

TCGA(癌症基因组图谱)USC-JHU表观基因组表征中心在USC生成的100 bp配对末端全基因组亚硫酸氢盐(WGBS)数据。数据尚未发布,但可通过UCSC癌症基因组中心(CG-Hub)下载[44]). 肺正常样本是病例TCGA-60-2722的邻近组织(数据可从CG-Hub分析ID 964a8130-d061-472f-9839-9c1f07b24205中获得),乳腺正常样本是案例TCGA-A7-A0CE的邻近组织。

鼠标-F1i和鼠标-F1r

使用来自两个独立小鼠样本的100个碱基对配对序列数据集[22]. 我们从原始出版物(GEO accessions GSM753569和GSM7535.70)下载了比对,这些比对是使用Novoalign执行的。通过小鼠基因组数据库可以获得两个亲本菌株的高置信度基因型。只有当每个亲本在特定位置都是纯合子时,我们才推断出后代的高置信度基因型。

缩写

CpG:由胞嘧啶和鸟嘌呤组成的二核苷酸序列;CpH:胞嘧啶后接H核苷酸(H是C、A或T中的一个);单核苷酸多态性;WGBS:全基因组亚硫酸氢盐-Seq;RRBS:约化表示亚硫酸氢盐序列;BSPP:亚硫酸氢盐挂锁探头;ENCODE:DNA元素百科全书;TCGA:癌症基因组图谱;GATK:基因组分析工具包;VCF:变量调用格式;FDR:错误发现率;国际纯粹化学与应用化学联合会;GWAS:全基因组关联研究;BAM:序列对齐/映射(SAM)格式的二进制版本;SB:股偏压;QD:深度质量。

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

YL、PWL和BPB构思并设计了该研究。YL和BPB构想了使用KDS输入的统计方法。YL实现了Bis-SNP和所有其他计算工具。BPB和YL撰写了手稿,KS和PWL提供了意见。所有作者都已阅读并批准手稿出版。

补充材料

附加文件1:

从亚硫酸氢盐seq数据检测杂合C/T单核苷酸多态性假设亚硫酸氢盐seq数据,所有标签如图所示图1。1这说明了C/T杂合子位置的检测(左),并且G链等位基因可用于将相对链上相邻胞嘧啶的甲基化状态与两个亲本等位基因关联。

附加文件2:

C:T杂合SNP的Bis-SNP错误频率图中杂合SNP调用的数据图3c3厘米与其他杂合SNP相比,被分解为C:T SNP。

单击此处获取文件(156K,PDF格式)
附加文件3:

Bis-SNP可执行文件、实用程序脚本和用户手册。我们建议用户直接从以下位置下载这些文件的最新版本[37].

单击此处获取文件(17M,广州)
附加文件4:

Bis SNP源代码。我们建议用户直接从[37].

单击此处获取文件(114K,广州)

致谢

NIH拨款编号U24CA143882为YL、PWL和BPB提供支持。我们感谢USC Epigenome中心的同事们提供了有益的讨论和建议。USC高性能计算中心提供了高性能计算支持[45]. 我们要感谢Robert Shoemaker、Dinh Diep、Kun Zhang和Felix Krueger对其软件工具的澄清和帮助。

工具书类

  • 全基因组DNA甲基化分析的原则和挑战。Nat Rev基因。2010;11:191–203.[公共医学][谷歌学者]
  • Meissner A、Mikkelsen TS、Gu H、Wernig M、Hanna J、Sivachenko A、Zhang X、Bernstein BE、Nusbaum C、Jaffe DB、Gnirke A、Jaenisch R、Lander ES。多能干细胞和分化细胞的基因组DNA甲基化图。自然。2008;454:766–70. [PMC免费文章][公共医学][谷歌学者]
  • Diep D,Plongthongkum N,Gore A,Fung HL,Shoemaker R,Zhang K。使用亚硫酸氢盐挂锁探针进行无库甲基化测序。自然方法。2012;9:270–2. doi:10.1038/nmeth.1871。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lister R、Pelizzola M、Dowen RH、Hawkins RD、Hon G、Tonti-Filippini J、Nery JR、Lee L、Ye Z、Ngo QM、Edsall L、Antosiewicz-Bourget J、Stewart R、Ruotti V、Millar AH、Thomson JA、Ren B、Ecker JR。碱基分辨率的人类DNA甲基体显示出广泛的表观基因组差异。自然。2009;462:315–22. doi:10.1038/nature08514。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Hansen KD、Timp W、Bravo HC、Sabunciyan S、Langmead B、McDonald OG、Wen B、Wu H、Liu Y、Diep D、Briem E、Zhang K、Irizarry RA、Feinberg AP。不同癌症类型表观遗传域甲基化变异增加。自然遗传学。2011;43:768–75. doi:10.1038/ng.865。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Berman BP、Weisenberger DJ、Aman JF、Hinoue T、Ramjan Z、Liu Y、Noushmehr H、Lange CPE、van Dijk CM、Tollenaar RAEM、van Den Berg D、Laird PW。结直肠癌局部DNA高甲基化和长程低甲基化区域与核膜相关域一致。自然遗传学。2012;44:40–6. [PMC免费文章][公共医学][谷歌学者]
  • Adey A,Shendure J.超低输入,基于标记的全基因组亚硫酸氢盐测序。基因组研究。2012[PMC免费文章][公共医学]
  • Gu H,Bock C,Mikkelsen TS,Jäger N,Smith ZD,Tomazou E,Gnirke A,Lander ES,Meissner A.单核苷酸分辨率下临床样本的基因组DNA甲基化绘图。自然方法。2010;7:133–6. doi:10.1038/nmeth.1414。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • ENCODE项目联盟。ENCODE(DNA元素百科全书)项目。科学。2004;306:636–40.[公共医学][谷歌学者]
  • Krueger F,Kreck B,Franke A,Andrews SR.使用短亚硫酸氢盐测序数据进行DNA甲基组分析。自然方法。2012;9:145–51. doi:10.1038/nmeth.1828。[公共医学] [交叉参考][谷歌学者]
  • Li H、Handsaker B、Wysoker A、Fennell T、Ruan J、Homer N、Marth G、Abecasis G、Durbin R.1000基因组项目数据处理子组。序列对齐/映射格式和SAMtools。生物信息学。2009;25:2078–9. doi:10.1093/bioinformatics/btp352。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • DePristo MA、Banks E、Poplin R、Garimella KV、Maguire JR、Hartl C、Philippakis AA、del Angel G、Rivas MA、Hanna M、McKenna A、Fennell TJ、Kernytsky AM、Sivachenko AY、Cibulskis K、Gabriel SB、Altshuler D、Daly MJ。使用下一代DNA测序数据进行变异发现和基因分型的框架。自然遗传学。2011;43:491–8. doi:10.1038/ng.806。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li R,Li Y,Fang X,Yang H,Wang J,Kristiansen K,Wang J.大规模平行全基因组重测序的SNP检测。基因组研究。2009;19:1124–32. doi:10.1101/gr.088013.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Zhao Z,Boerwinkle E.相邻核苷酸对单核苷酸多态性的影响:对260万人类基因组多态性的研究。基因组研究。2002;12:1679–86. doi:10.1101/gr.287302。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Ramsahoye BH、Biniszkiewicz D、Lyko F、Clark V、Bird AP、Jaenisch R。非CpG甲基化在胚胎干细胞中普遍存在,可能由DNA甲基转移酶3a介导。美国国家科学院程序。2000;97:5237–42. doi:10.1073/pnas.97.10.5237。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lister R、O'Malley RC、Tonti-Filippini J、Gregory BD、Berry CC、Millar AH、Ecker JR。拟南芥表观基因组高度集成的单碱基分辨率图谱。单元格。2008;133:523–36. doi:10.1016/j.cell.2008.03.029。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Cokus SJ、Feng S、Zhang X、Chen Z、Merriman B、Haudenschild CD、Pradhan S、Nelson SF、Pellegrini M、Jacobsen SE。拟南芥基因组的Shotgun亚硫酸氢盐测序揭示了DNA甲基化模式。自然。2008;452:215–9. doi:10.1038/nature06745。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lienert F、Wirbelauer C、Som I、Dean A、Mohn F、Schübeler D。自主决定DNA甲基化状态的遗传元素的鉴定。自然遗传学。2011;43:1091–7. doi:10.1038/ng.946。[公共医学] [交叉参考][谷歌学者]
  • Tycko B.等位基因特异性DNA甲基化:超越印迹。人类分子遗传学。2010;19:R210–20。doi:10.1093/hmg/ddq376。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Shoemaker R,Deng J,Wang W,Zhang K。等位基因特异性甲基化普遍存在,并由人类基因组中的CpG-SNP所贡献。基因组研究。2010;20:883–9. doi:10.1101/gr.104695.109。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Gertz J、Varley KE、Reddy TE、Bowling KM、Pauli F、Parker SL、Kucera KS、Willard HF、Myers RM。三代家族中DNA甲基化的分析揭示了遗传对表观遗传调控的广泛影响。公共科学图书馆-遗传学。2011;7:e1002228。doi:10.1371/journal.pgen.1002228。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Xie W,Barr CL,Kim A,Yue F,Lee AY,Eubanks J,Dempster EL,Ren B.小鼠基因组中序列和亲本依赖性DNA甲基化的基础分辨率分析。单元格。2012;148:816–31. doi:10.1016/j.cell.2011.12.035。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li Y,Zhu J,Tiang G,Li N,Li Q,Ye M,Zheng H,Yu J,Wu H,Sun J,Zhang H,Chen Q,Luo R,Chen M,He Y,Jin X,ZhangQ,Yu C,Zhou G,Sun J、Huang Y,郑H,Cao H,ZhouX,Guo S,Hu X,Li X,Kristiansen K,Bolund L,Xu J,Wang W,Yang H,Wang J,Li R,Beck S,Wang J,Zhang-X。人类外周血单个核细胞的DNA甲基体。《公共科学图书馆·生物》。2010;8:e1000533.doi:10.1371/journal.pbio.1000533。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Stadler MB、Murr R、Burger L、Ivanek R、Lienert F、Schäoler A、Wirbelauer C、Oakeley EJ、Gaidatzis D、Tiwari VK、Scháubeler D.DNA结合因子在远端调控区域塑造小鼠甲基体。自然。2011;480:490–5.[公共医学][谷歌学者]
  • 尊敬的GC、Hawkins RD、Caballero OL、Lo C、Lister R、Pelizzola M、Valsesia A、Ye Z、Kuan S、Edsall LE、Camargo AA、Stevenson BJ、Ecker JR、Bafna V、Strausberg RL、Simpson AJ、Ren B。乳腺癌中全球DNA低甲基化与抑制性染色质结构域形成和基因沉默耦合。基因组研究。2012;22:246–58. doi:10.1101/gr.125872.111。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Harris RA、Wang T、Coarfa C、Nagarajan RP、Hong C、Downey SL、Johnson BE、Fouse SD、Delaney A、Zhao Y、Olshen A、Ballinger T、Zhou X、Forsberg KJ、Gu J、Echipare L、O'Geen H、Lister R、Pelizzola M、Xi Y、Epstein CB、Bernstein BE、Hawkins RD、Ren B、Chung WY、Gu H、Bock C、Gnirke A、Zhang MQ、Hausler D、Ecker JR、Li W、Farnham PJ、Waterland RA、,Meissner A,Marra MA,Hirst M,Milosavljevic A,Costello JF。基于测序的DNA甲基化方法的比较和单等位基因表观遗传修饰的鉴定。国家生物技术。2010;28:1097–105. doi:10.1038/nbt.1682。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Schalkwyk LC、Meaburn EL、Smith R、Dempster EL、Jeffries AR、Davies MN、Plomin R、Mill J.DNA甲基化的等位基因扭曲在基因组中广泛存在。美国人类遗传学杂志。2010;86:196–212. doi:10.1016/j.ajhg.2010.014。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Weisenberger DJ,Campan M,Long TI,Kim M,Woods C,Fiala E,Ehrlich M,Laird PW.MethyLight分析重复元素DNA甲基化。核酸研究。2005;33:6823–36. doi:10.1093/nar/gki987。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lister R、Pelizzola M、Kida YS、Hawkins RD、Nery JR、Hon G、Antosiewicz-Bourget J、O’Malley R、Castanon R、Klugman S、Downes M、Yu R、Stewart R、Ren B、Thomson JA、Evans RM、Ecker JR。人类诱导多能干细胞异常表观基因组重编程的热点。自然。2011;471:68–73. doi:10.1038/nature09798。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Chen PY,Feng S,Joo JWJ,Jacobsen SE,Pellegrini M.人类胚胎干细胞系DNA甲基化的比较分析。基因组生物学。2011;12:R62.doi:10.1186/gb-2011-12-7-R62。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li H,Ruan J,Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008;18:1851–8. doi:10.1101/gr.078212.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • McKenna A、Hanna M、Banks E、Sivachenko A、Cibulskis K、Kernytsky A、Garimella K、Altshuler D、Gabriel S、Daly M、DePristo MA。基因组分析工具包:用于分析下一代DNA测序数据的MapReduce框架。基因组研究。2010;20:1297–303. doi:10.1101/gr.107524.110。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Xi Y,Bock C,Müller F,Sun D,Meissner A,Li W.RRBSMAP:一种快速、准确和用户友好的校准工具,用于减少亚硫酸氢盐的代表性测序。生物信息学。2012;28:430–2. doi:10.1093/bioinformatics/btr668。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Krueger F,Andrews SR.Bismark:一种用于亚硫酸氢盐-Seq应用的灵活对准剂和甲基化调用者。生物信息学。2011;27:1571–2. doi:10.1093/bioinformatics/btr167。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Laurent L,Wong E,Li G,Huynh T,Tsirigos A,Ong CT,Low HM,Kin Sung KW,Rigoutsos I,Loring J,Wei CL。分化过程中人类甲基组的动态变化。基因组研究。2010;20:320–31. doi:10.1101/gr.101907.109。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Hodges E、Molaro A、Dos Santos CO、Thekkat P、Song Q、Uren PJ、Park J、Butler J、Rafii S、McCombie WR、Smith AD、Hannon GJ。成人造血室中的定向DNA甲基化改变和复杂的中间状态伴随血统特异性。分子细胞。2011;44:17–28. doi:10.1016/j.molcel.2011.08.026。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 南加州大学表基因组中心。Bis-SNP网站。http://epigenome.usc.edu/publicationdata/bissnp2011
  • Booth MJ、Branco MR、Ficz G、Oxley D、Krueger F、Reik W、Balasubramanian S。5-甲基胞嘧啶和5-羟甲基胞嘧啶在单碱基分辨率下的定量测序。科学。2012. [公共医学]
  • Rakyan VK、Down TA、Balding DJ、Beck S.常见人类疾病的全表观基因组关联研究。Nat Rev基因。2011;12:529–41. doi:10.1038/nrg3000。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Renbaum P、Abrahamove D、Fainsod A、Wilson GG、Rottem S、Razin A。螺旋体菌株MQ1(M.SssI)CpG DNA甲基化酶编码基因的克隆、表征和在大肠杆菌中的表达核酸研究。1990;18:1145–52. doi:10.1093/nar/18.5.1145。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Smith ZD,Gu H,Bock C,Gnirke A,Meissner A.哺乳动物基因组中高通量亚硫酸氢盐测序。方法。2009;48:226–32. doi:10.1016/j.meth.2009.05.003。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Raizis AM,Schmitt F,Jost JP。一种最小化模板降解的5-甲基胞嘧啶映射亚硫酸氢盐方法。分析生物化学。1995;226:161–6. doi:10.1006/abio.1995.1204。[公共医学] [交叉参考][谷歌学者]
  • Ehrich M,Zoll S,Sur S,van den Boom D。亚硫酸氢盐处理后准确评估DNA质量的新方法。核酸研究。2007;35:e29.doi:10.1093/nar/gkl1134。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 加州大学圣克鲁斯分校。癌症基因组中心(CG-Hub)https://cghub.ucsc.edu/
  • 南加州大学。高性能计算和通信中心(HPCC)http://www.usc.edu/hpcc/

文章来自基因组生物学由提供BMC公司