跳到主要内容

PeakRanger:支持云计算的ChIP-seq数据峰值调用者

摘要

背景

染色质免疫沉淀(ChIP)结合大规模并行短阅读测序(seq)用于探测染色质动力学。尽管有许多算法可以从ChIP-seq数据集调用峰值,但大多数算法要么调整为处理点状位点(如转录因子结合位点),要么调整为广泛区域(如组蛋白修饰标记);很少有人能做到这两者。其他算法在可配置性、在大型数据集上的性能以及区分密集峰值的能力方面受到限制。

结果

在本文中,我们介绍了PeakRanger,这是一个峰值调用者软件包,它在点状和宽站点上都能很好地工作,可以解决近距离峰值问题,具有优异的性能,并且易于定制。此外,PeakRanger可以在并行云计算环境中运行,以在超大数据集上获得极高的性能。我们提出了一系列基准测试来评估PeakRanger与其他10个峰值调用者的性能,并在实际数据集和合成数据集上演示了PeakRange的性能。我们还介绍了PeakRanger的实际使用,包括modENCODE项目中的峰值调用。

结论

与测试的其他峰值呼叫者相比,PeakRanger在区分间隔极近的峰值方面提供了更高的分辨率。PeakRanger在识别绑定事件的精确位置方面具有高于平均水平的空间准确性。PeakRanger在所有评估的基准中也具有出色的敏感性和特异性。此外,PeakRanger在单处理器系统上运行时显著改进了运行时间,在允许利用云计算资源提供的MapReduce并行环境时也有显著改进。PeakRanger可以从modENCODE项目的官方网站下载:http://www.modencode.org/software/ranger/

背景

染色质蛋白结合位点的全基因组特征和组蛋白修饰标记的模式分析对于理解染色质的动力学、解开转录调控代码和探索表观遗传至关重要。进行这一表征的主要技术是染色质免疫沉淀(ChIP),以及大规模并行短阅读测序(seq)[15]. 与前身ChIP-ChIP不同[6,7],ChIP-seq提供了改进的动态范围和空间分辨率[5].

在将测序的ChIP读数映射到参考基因组后,ChIP-seq数据分析的首要关键任务是准确识别富含组蛋白标记的靶结合位点或区域[8]. 由于下游分析在很大程度上依赖于此类结合位点或区域的准确识别,因此提出了大量用于峰值调用的算法[2,924].

尽管有这么多峰值呼叫者,但这些算法中的许多在现实世界中都有缺点。一些算法具有较高的灵敏度,但由于特异性低,导致假阳性峰过多。其他人则有相反的问题。当前这一代峰值调用者的另一个局限性是,许多调用者被优化以检测窄点特征,例如通过转录因子结合位点实验生成的特征,或者被优化以探测宽峰,例如那些以修饰组蛋白区域为特征的特征。因此,ChIP-seq生产环境可能需要安装和维护两个不同的峰值调用软件包。那些试图处理这两种类型峰值的算法通常会牺牲峰间分辨率和空间分辨率。前者是区分两个或多个近距离峰的能力,而后者是正确定位目标结合位点或组蛋白修饰边界的能力。这两种分辨率对于理解染色质动力学的基本生物学至关重要。图中显示了分辨率损失如何影响ChIP-seq数据解释的示例1.

图1
图1

主叫峰值分辨率的重要性一些峰值呼叫者被设计为呼叫周围的富集区,而不是高峰。这降低了他们定位结合事件位置的能力及其峰间分辨率。

软件可用性也是一个问题。其他一些优秀的峰值调用者很难使用,因为它们需要不寻常的数据文件格式,在实际数据集上运行缓慢,或者不利用集群计算。较差的可用性也会阻碍研究人员将软件与分析管道中的其他工具集成的能力。

在这里,我们通过创建PeakRanger来解决这些问题,这是一种新颖的峰值调用者,既准确又可用。在一系列六个准确度基准测试和三个软件可用性基准测试中,它与从最近的文献中选择的其他10个峰值呼叫者相比有优势。此外,PeakRanger支持云环境中基于MapReduce的并行计算,使其能够很好地扩展到大容量应用程序中的大型数据集。

实施

构建阅读覆盖率配置文件

峰值调用的第一步是使用对齐的原始读取来构建读取覆盖率配置文件。ChIP-seq的一个关键步骤是,在提取DNA并对其进行测序之前,将免疫沉淀染色质剪切成200-500 bp的片段。由于剪切大小远大于早期下一代测序机器产生的小读取,许多峰值调用算法利用“移位”由正负链读取比对定义的覆盖峰之间的距离,但随着下一代测序器产生的读取长度接近ChIP-seq DNA剪切大小,这变得不太有用。PeakRanger使用与PeakSeq相同的“盲目扩展”策略[18]其中剪切尺寸由用户提供,而不是根据对齐的原始读数进行估计。这种选择大大简化了软件设计并提高了性能。(参见附加文件1)

峰值检测

我们首先使用与PeakSeq相同的算法识别宽信号富集区域,该算法通过阈值检测相邻的富集区域。然后,我们使用“summit-valley-alternator”算法扫描由PeakSeq确定的区域内的顶点。该算法首先搜索区域内的第一个顶点,其中顶点被定义为在后续位置低于预定义的截止值之前具有最大信号值的位置。该值是通过将当前最大信号值乘以delta来计算的,delta是一个应根据用户需求选择的调谐因子。增量在范围(0,1)内。由于宽区域的读取信号通常有噪声,我们在调用顶点之前执行额外的信号处理。(参见附加文件1)

软件工程

PeakRanger是用C++编写的,可以在Linux、MacOS和Windows上编译。它作为命令行程序运行。

结果

标杆管理

在为基准测试做准备的过程中,我们汇编了最近两次审查中提到的17个第三方峰值呼叫者的名单[8,25]加上几个最近发布的包(请参阅其他文件1). 我们尝试在测试数据集上安装和运行每个峰值调用程序,并丢弃了七个可能无法安装、在测试运行期间崩溃或测试数据集中没有产生峰值的调用程序。这将峰值调用者的数量减少到11个,包括PeakRanger。

敏感性基准

为了评估11种算法的敏感性,我们使用两个独立的ChIP-seq数据集对其进行了评估,这些数据集的结合位点已经过qPCR验证[2,19]. 每个峰值调用者调用的峰值根据其置信度得分进行排序,然后与验证站点列表进行比较。根据验证场址的平均回收比例衡量,PeakRanger排名第一,所有这些场址的敏感性都非常相似(图2安培).

图2
图2

使用qPCR验证的ChIP-Seq结合位点进行敏感性测试恢复的qPCR验证的结合位点的比例显示为每个峰调用方调用的分级峰的函数。根据报告的显著性值对峰值进行排序。A) GABP数据集上的测试结果。B) NRSF数据集的测试结果。

特异性基准

评估峰值召唤的特异性比评估灵敏度更困难,因为没有足够大小的真正阴性结合位点的黄金标准来自信地评估特异性。为了部分解决这个问题,我们使用以前发布的合成数据集进行了特异性分析[21]. 该数据集是从真实世界的对照(无抗体)实验中生成的,该实验不包含结合事件,然后用模拟的结合位点峰掺入。由于所有的峰都是作者生成的,所以所有模拟结合位点的位置都是已知的,因此可以定义假阳性峰。

将每个峰值呼叫者在固定的FDR率为0.01时的真阳性率与假阳性率进行比较,如图所示在顶级组中,PeakRanger、PeakSeq、GPS和MACS具有几乎相同的良好特异性和敏感性。SPP与顶级集团关系密切。虽然SISSR具有更高的灵敏度,但它会遭受更高的假阳性。相比之下,尽管CisGenome只调用了几个假阳性峰值,但它恢复的峰值比顶级组少。F-Seq、Erange和FindPeaks在这项测试中的假阳性率都非常高。

图3
图3

特异性试验。显示了半合成数据集上所有峰值调用者的峰值调用。所有峰值呼叫者配置为FDR截止值为0.01。召回率与(1-假阳性率)对比

空间精度基准

空间准确性衡量峰值调用者正确识别点状峰下生物结合位点的能力。为了评估空间准确性,我们再次使用了GABP和NSRF转录因子靶点的ChIP-seq数据集。为了确定最可能的生物结合位点,我们使用MAST[26]以及标准靶结合位点基序和相应的位置特异性评分矩阵(PSSM),以找到200 bp周围区域中的所有匹配项。

我们在数据集上运行每个峰值调用器,并测量结合位点基序和最近重叠峰值调用中心之间的距离。如图所示4,将峰值报告为单个bp坐标的算法比报告更大区域的算法要好得多。特别是,SPP、FindPeaks、GPS和QuEST并列第一,紧随其后的是PeakRanger。然而,排名靠前的峰值呼叫者之间的空间准确性差异很小。

图4
图4

峰值呼叫者的空间精确度测量了A)GABP和B)NRSF结合位点到基序中心的距离。绘制了方框和胡须图,以说明每个峰值呼叫者从被称结合位点到基序中心的距离分布。

峰间分辨率基准

该基准测量峰值呼叫者区分两个紧密间隔的峰值的能力。对于区域报告算法来说,这是一项特别困难的任务,因为它们往往会合并接近的峰值,从而可能会丢失生物上重要的二聚体。PeakRanger通过在平滑覆盖模型中识别局部最大值,来识别富集区域内的近空间顶点。

没有真实世界的黄金标准数据集用于评估峰间分辨率,因此我们将之前使用的半合成数据集用于特异性基准。我们创建了一系列衍生数据集,通过在每个合成结合位点附近生成一个峰来模拟紧密间隔的结合位点。在13个导出的数据集中,每个数据集的峰间距从200到500 bp不等。为了补偿此修改引入的覆盖范围更改,我们向控件添加了相同的读取次数。包括PeakRanger在内的一些峰值调用者提供了一种“分辨率模式”,旨在发现富集区域内的所有峰值。对于这个基准测试,我们将每个算法设置为使用分辨率模式或等效模式(如果可用),或使用默认设置(如果不可用)。

如图所示5A级当峰值间隔小于250bp时,没有峰值调用者能够解析此数据集中的近间隔峰值。在250-350 bp的范围内,FindPeaks和PeakRanger在敏感性方面领先,但FindPeaks产生了过多的假阳性,如图所示5亿。其他算法在此范围内的灵敏度较低,一些算法的假阳性率也很高。MACS在200 bp、400 bp和500 bp数据集上崩溃,因此这些数据点丢失。

图5
图5

分辨率测试。我们在一系列半合成数据集上调用了峰,这些数据集由峰间分离增加的成对峰组成。A) 作为峰间距离增加的函数恢复的近峰的百分比。B) 调用的假阳性峰值的百分比。MACS在200 bp、400 bp和500 bp数据集上崩溃,因此这些数据点没有绘制出来。

可用性设计和性能调整

已发布的算法有时在研究原型阶段发布,不具备在高容量、高可用性环境中工作所需的软件工程。理想情况下,应解决许多软件工程问题(表1). 首先,软件应该尽可能快。我们在大型项目(如modENCODE项目)方面的经验[27]支持更快的峰值调用者将显著减少分析和解释ChIP-seq数据的时间这一概念,因为所有下游分析都依赖于准确的峰值调用,并且通常存在一个循环,在该循环中,下游分析的结果使用不同的参数集通知其他轮的峰值调用。其次,该软件应支持多种通用数据格式。转换文件格式需要额外的时间和计算资源,并且引入了一个可能会导致编程错误的步骤。第三,软件应该易于使用,并且需要较少的用户计算专业知识。最后,考虑到下一代测序能力的快速增长,该软件应该能够处理非常大的ChIP-seq数据集。

表1峰值呼叫者可用性总结。

我们用编译的C++编程语言实现了PeakRanger,以优化性能。通过将所有工作数据保存在内存中而不是临时文件中,我们避免了磁盘I/O带来的性能损失;这会以更大的内存占用量换取更高的执行速度。为了利用现代多核处理器,我们还将PeakRanger设计为使用并行处理。

为了对照其他峰值调用者对PeakRanger的性能进行基准测试,我们记录了它们处理典型数据集所需的运行时间。如表所示2,PeakRanger的速度是测试的第二快峰值调用程序的两倍多,同时消耗了可接受的内存量。

表2峰值呼叫者的性能。

为了支持多种输入数据格式,我们采用了SPP和MACS共享的设计,将数据加载与数据处理分离开来。我们为特定的数据格式编写了单独的模块,并让用户选择他们需要的模块。PeakRanger目前支持Bowtie[28]、Eland、SAM[29]和BAM[29]格式。可以通过编写其他导入模块来添加其他文件格式。PeakRanger还能够以适合数据可视化的格式导出其结果,包括UCSC基因组浏览器“摆动”格式的压缩和未压缩版本。

为了支持多个物种,峰值调用包需要基本的基因组构建信息,例如染色体的名称和大小。为了用户的方便,PeakRanger可以直接从输入文件中获取此信息,也可以提供预先计算的基因组表。虽然前一种模式很方便,但它确实给执行时间增加了少量开销。

虽然很难量化,但我们注意到在基准测试期间安装和配置各种峰值调用程序包的难度有很大差异。例如,一些包要求用户更改源代码,以更改硬编码文件路径和运行时参数的位置。PeakRanger将其所有运行时配置参数作为命令行选项提供,还为常见分析任务提供了一组合理的预设。例如,PeakRanger提供了“分辨率模式”和“区域模式”,这两种模式一方面适用于分析转录因子结合位点和其他点状数据,另一方面也适用于组蛋白修饰等广泛区域。所有运行时参数也可以从外部配置文件中读取,允许参数集由源代码控制管理、版本控制和在实验室之间共享。

PeakRanger不提供CisGenome、USeq和Sole-Search提供的图形用户界面(GUI)[10]. 虽然GUI对于普通用户来说很方便,但它们很难将软件集成到高通量实验室所需的自动工作流中,这些实验室是PeakRanger的目标用户。

支持MapReduce

随着测序行业快速增长的能力,产生更多更长的测序读取[30]峰值呼叫算法面临着指数级增长的计算资源需求。云计算[31]为对计算资源具有高度可变需求的组提供了一个经济高效的解决方案。

当前的云计算基础设施提供了一种称为MapReduce的高度可扩展的并行计算模型[32]它最初由谷歌设计用于处理超大容量数据集。因此,我们还在Hadoop库的基础上实现了PeakRanger的MapReduce版本[33],MapReduce的免费开源实现。

PeakRanger的Hadoop版本支持通过染色体分割作业,以利用ChIP-seq数据集的染色体级别独立性(CLI)。其他划分基因组的方法也是可能的,但需要用户进行额外的准备。

在Hadoop框架中,PeakRanger作业可以表示为一系列“map-then-reduce”子作业(图6). PeakRanger首先启动一系列映射器,将输入数据集映射到一组键。然后,Hadoop分区器将密钥分配给一组reducer。每个单独的reducer都根据它接收到的键来获取数据并处理这些数据。在CLI案例中,“map-then-reduce”变为“split-by-chromosome-then-call-peaks”,其中染色体被用作键。也就是说,我们将数据加载/预处理委托给映射器,将峰值调用委托给还原器。映射器完成对染色体上的数据的拆分后,分区器根据可用的还原器和还原器的数量分配作业,然后执行实际的峰值调用。

图6
图6

Hadoop的编程模型及其对PeakRanger的适应性。读取首先由Hadoop拆分器进行拆分。然后启动映射器对染色体的读取进行预处理。然后,Hadoop分区器将已处理的读取分配给各个Reducer以调用峰值。调用的峰值然后进行调用后处理。

为了评估Hadoop-PeakRanger的性能,我们进行了两个基准测试:1)使用固定数量的节点和不断增加的数据集进行测试;2) 使用越来越多的节点和固定大小的数据集进行测试。

第7章演示了在数据集大小不断增加的固定数量的节点上,与常规单处理器版本相比,PeakRanger的Hadoop版本的执行时间显著缩短,并且增长速度较慢。例如,云版本在不到5分钟的时间内处理了1.92亿次读取的14 Gb数据集,比原来的PeakRanger快了10倍多。

图7
图7

PeakRanger在云并行计算中的性能.A)使用固定数量的节点和不断增加的数据集进行测试;B) 使用越来越多的节点和固定大小的数据集进行测试。

在第二个测试中,我们测试了运行时间如何随着节点数量的增加而变化(图7亿). 正如预期的那样,运行时会迅速减少,直到节点数等于染色体数(25),之后再添加额外的节点不会带来更多好处。未来版本的PeakRanger将提供另一种分裂基因组的方法,以克服这种并行化瓶颈。

我们计划在AmazonEC2和其他云服务提供商中提供PeakRanger的常规版本和Hadoop版本作为公共机器映像,以方便研究社区使用。

PeakRanger的实际使用

在本节中,我们提供了两个在生物研究环境中使用PeakRanger的示例。

宽富集区特征

对组蛋白修饰的研究通常是确定富含感兴趣修饰的宽区域,然后将这些宽区域与其他生物注释(如基因)关联起来。尽管这类分析很简单,但它忽略了富集剖面的详细内部结构,其中可能包含与样品内改性效率和/或异质性的数量差异有关的峰谷。

最近有几篇出版物报道了基于组蛋白修饰富集区内部结构的生物学显著现象[3436]. 因此,峰值调用者最好能够检索这两个广泛的富集区域,同时确定这些区域内的详细峰值。在这里,我们使用PeakRanger演示了这样一个示例。

He等人最近发表的论文[34]作者发现,暴露于5-α-二氢睾酮(DHT)后,中央核小体从雄激素受体(AR)结合位点亚群中耗尽,留下一对侧翼核小体。如果事先不知道区域结构,仅从读取覆盖信号就很难识别成对核小体,He等人建立了额外的模型来识别和量化成对结合位点。

我们将PeakRanger直接应用于He数据集,使用的配置允许它找到广泛的富集区域和区域内的顶点。然后,我们比较了DHT暴露前后每个富集区的峰数,以直接确定耗尽中央核小体的AR结合位点的亚群。为了实现这一目标,我们配置了PeakRanger以检测具有可比高度的顶点。如图所示8安,剖面图与原始出版物中的报告极为相似,平均双峰间距为360bp,接近出版物估计的370bp。作为比较,我们使用QuEST重复了相同的过程。由此得到的估计峰值距离为240 bp,剖面图偏离了原始曲线(图8B类). 对于其他峰值呼叫者,由于没有关于富集区峰值数量的信息,我们无法进行相同的分析。

图8
图8

估计DHT敏感亚组的峰值距离He等人进行的分析仅使用A)PeakRanger和B)QuEST生成的峰值调用进行重复。PeakRanger对双峰距离的估计比QuEST更接近。

处理modENCODE蠕虫数据集

ModENCODE是一个多中心协作组织,用于编目秀丽线虫和黑腹线虫的功能元素[27,37],并且包括100多个ChIP-seq数据集。modENCODE使用PeakRanger作为29个ChIP-seq实验的标准ChIP-seq峰值调用者,涉及23个不同发育阶段的秀丽线虫转录因子[37]. PeakRanger能够在一个8G ram和四核CPU的常规工作站上运行不到2小时的时间内处理整个数据集。这说明了PeakRanger集成到高吞吐量环境中的能力。超高透过率使不同实验室之间能够进行良好的协作分析。一些内部分析表明,PeakRanger产生的峰质量很高(数据未显示)。

讨论

9总结了上面讨论的准确性和软件工程基准测试,其中所检查的11个峰值调用者中的每一个都针对特定基准从0(最差)到10(最佳)进行了排名。表的最后一列是排名的简单总和。在所有基准测试中,没有一个峰值主叫方排名最佳;特别是,高灵敏度的算法往往具有较低的特异性。然而,PeakRanger在所有性能基准中进行了很好的折衷,并在总体排名中排名第一。

图9
图9

本研究中执行的基准总结对每个基准项目,峰值呼叫者进行排名和评分(参见方法)。分数在0到10之间,10是最好的分数。总排名基于所有基准的所有分数之和。

用于在富集区域内找到顶点的算法与QuEST和FindPeaks使用的算法类似。为了使峰值检测更加可靠和灵活,我们根据实际ChIP-Seq数据集的经验对其进行了增强。在QuEST中,用户无法控制峰值检测的灵敏度。相比之下,PeakRanger允许用户使用-r选项指定灵敏度。我们还应用了一个额外的填充算法来避免调用假阳性顶点。如果数据集没有足够的测序深度,我们填充富集区域,以便在两个碱基对被零读取计数区域分隔时,峰值检测算法不会调用峰值。

PeakRanger依靠PeakSeq在峰值检测步骤之前检测富集区域。PeakSeq是一种有效的算法,但最初的实现对该算法的使用有限。因此,我们对PeakSeq进行了重大修改,以便将其集成为PeakRanger的一部分。PeakSeq包含两个独立的部分:预处理和峰值调用。这两个部分现在合并到一个模块中,以降低文件I/O成本。我们还设计了染色体索引,以支持染色体数目和名称不同的其他物种。原始的PeakSeq以单线程模式运行,我们修改了相关的数据结构以支持多线程模式。

虽然PeakRanger代表了多种准确度测量方法之间的一种成功折衷,但如果某个特定的性能特征是最重要的,研究人员应该考虑其他峰值调用算法之一。例如,如果确定峰的精确中心对实验至关重要,那么研究人员应该考虑GPS、QuEST、MACS、SPP或FindPeaks,所有这些都比PeakRanger具有更好的空间精度。

Hadoop版本的当前设计基于染色体水平独立性(CLI),这限制了基因组中染色体数量的实际并行化水平。通过将基因组分解为一组任意区域和每个区域中的呼叫峰值,这个概念可以推广到区域级依赖性(RLI)。然而,这取决于每个区域相互独立的峰值调用,当富集区域跨越区域边界时,不满足这一标准。为了实现这一点,有必要对区域进行额外的操作,以允许它们之间的重叠,并对重叠区域中覆盖范围的变化进行调整,这将推迟到未来的工作中。然而,即使使用当前的设计,我们也能够实现速度上的数量级增长,这对于大多数实际应用来说已经足够了。

结论

在本文中,我们介绍了PeakRanger,这是一种通用的ChIP-seq峰值调用算法,它针对准确性、速度和易用性进行了优化。它适用于小型实验室和大型生产中心,并且可以在云环境中用于非常高的吞吐量环境。该软件根据Artistic License 2.0免费提供并开源。主要下载站点是http://www.modencode.org/software/ranger/.

可用性和要求

PeakRanger已获得艺术许可证2.0。PeakRanger可从以下网站下载:http://www.modencode.org/software/ranger/。我们目前提供完整的源代码,以及Linux系统的二进制文件。其他操作系统的二进制文件和Amazon EC2映像将在2011年第一季度提供。

工具书类

  1. Mikkelsen TS、Ku M、Jaffe DB、Issac B、Lieberman E、Giannoukos G、Alvarez P、Brockman W、Kim TK、Koche RP等人:多能干细胞和谱系细胞染色质状态的全基因组图谱。《自然》2007,448(7153):553–560。10.1038/性质06008

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  2. Johnson DS、Mortazavi A、Myers RM、Wold B:体内蛋白质-DNA相互作用的全基因组绘图。《科学》2007316(5830):1497-1502。10.1126/科学1141319

    第条 中国科学院 公共医学 谷歌学者 

  3. Robertson G、Hirst M、Bainbridge M、Bilenky M、Zhao Y、Zeng T、Eukilchen G、Bernier B、Varhol R、Delaney A:使用染色质免疫沉淀和大规模平行测序的STAT1 DNA关联的基因组全谱。Nat Methods 2007,4:651-657。10.1038/nmeth1068

    第条 中国科学院 公共医学 谷歌学者 

  4. Barski A、Cuddapah S、Cui K、Roh TY、Schones DE、Wang Z、Wei G、Chepelev I、Zhao K:人类基因组中组蛋白甲基化的高分辨率分析。细胞2007,129(4):823–837。2016年10月10日/j.cell.2007.05.009

    第条 中国科学院 公共医学 谷歌学者 

  5. Park PJ:ChIP-seq:成熟技术的优势和挑战。Nat Rev Genet 2009,10(10):669–680。10.1038/编号2641

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  6. Ren B、Robert F、Wyrick JJ、Aparicio O、Jennings EG、Simon I、Zeitlinger J、Schreiber J、Hannett N、Kanin E等:DNA结合蛋白的基因组定位和功能。《科学》2000,290(5500):2306–2309。10.1126/科学290.5500.2306

    第条 中国科学院 公共医学 谷歌学者 

  7. Iyer VR、Horak CE、Scafe CS、Botstein D、Snyder M、Brown PO:酵母细胞周期转录因子SBF和MBF的基因组结合位点。《自然》2001,409(6819):533–538。10.1038/35054095

    第条 中国科学院 公共医学 谷歌学者 

  8. Pepke S、Wold B、Mortazavi A:ChIP-seq和RNA-seq研究的计算。Nat Meth 2009,6(11s):S22-S32。10.1038/nmeth.1371

    第条 中国科学院 谷歌学者 

  9. Lun D,Sherrid A,Weiner B,Sherman D,Galagan J:一种盲解卷积方法,用于从ChIP-seq数据中高分辨率绘制转录因子结合位点。2009年10月:R142。

    谷歌学者 

  10. Blahnik KR、Dou L、O'Geen H、McPhillips T、Xu X、Cao AR、Iyengar S、Nicolet CM、Ludäscher B、Korf I等:Sole-Search:使用ChIP-seq数据进行峰值检测和功能注释的集成分析程序。2009年第38期e13。

    谷歌学者 

  11. Ji H,Jiang H,Ma W,Johnson D,Myers R,Wong W:用于分析ChIP芯片和ChIP序列数据的集成软件系统。《国家生物技术》2008年,26:1293-1300。10.1038/nbt.1505

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  12. Jothi R、Cuddapah S、Barski A、Cui K、Zhao K:根据ChIP-Seq数据对体内蛋白质-DNA结合位点进行全基因组鉴定。《核酸研究》2008,36:5221–5231。10.1093/nar/gkn488

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  13. Zang CZ,Schones DE,Zeng C,Cui KR,Zhao KJ,Peng WQ:从组蛋白修饰ChIP-Seq数据中鉴定富集结构域的聚类方法。生物信息学2009,25(15):1952-1958。10.1093/生物信息学/btp340

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  14. Fejes A、Robertson G、Bilenky M、Varhol R、Bainbridge M、Jones S:FindPeaks 3.1:一种通过大规模并行短阅读测序技术识别富集区域的工具。生物信息学2008,24:1729-1730。10.1093/生物信息学/btn305

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  15. Boyle AP、Guiney J、Crawford GE、Furey TS:F-Seq:高通量序列标签的特征密度估计器。生物信息学2008,24(21):2537–2538。10.1093/生物信息学/btn480

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  16. Tuteja G,White P,Schug J,Kaestner KH:从ChIP-Seq数据中提取转录因子靶标。核酸研究2009,37(17):

    谷歌学者 

  17. Zhang Y,Liu T,Meyer C,Eeckhoute J,Johnson D,Bernstein B,Nussbaum C,Myers R,Brown M,Li W等:基于模型的ChIP-Seq分析(MACS)。《基因组生物学》2008,9:R137。10.1186/gb-2008-9-9-r137

    第条 公共医学中心 公共医学 谷歌学者 

  18. Rozowsky J、Eukilchen G、Auerbach R、Zhang Z、Gibson T、Bjornson R、Carriero N、Snyder M、Gerstein M:PeakSeq能够对ChIP-seq实验相对于对照进行系统评分。《国家生物技术》2009年,27:66-75。10.1038/nbt.1518

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  19. Valouev A、Johnson D、Sundquist A、Medina C、Anton E、Batzoglou S、Myers R、Sidow A:基于ChIP-Seq数据的转录因子结合位点的基因组分析。Nat Methods 2008,5:829–834。10.1038/nmeth.1246

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  20. Kharchenko P、Tolstorukov M、Park P:DNA结合蛋白的ChIP-seq实验设计与分析。《国家生物技术》2008年,26:1351–1359。10.1038/nbt.1508

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  21. Nix D,Courdy S,Boucher K:控制假阳性和估计ChIP-Seq峰值置信度的经验方法。BMC生物信息学2008,9:523。10.1186/1471-2105-9-523

    第条 公共医学中心 公共医学 谷歌学者 

  22. Guo Y、Papachristoudis G、Altshuler RC、Gerber GK、Jaakkola TS、Gifford DK、Mahony S:发现高空间分辨率下的同型结合事件。生物信息学2010,26(24):3028–34。10.1093/生物信息学/btq590

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  23. Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B:通过RNA-Seq对哺乳动物转录体进行定位和量化。Nat Meth 2008,5(7):621–628。10.1038/nmeth.1226

    第条 中国科学院 谷歌学者 

  24. Qin Z,Yu J,Shen J,Maher C,Hu M,Kalyana Sundaram S,Yu J,Chinnaiyan A:HPeak:一种基于HMM的算法,用于定义ChIP-Seq数据中的读取富集区域。BMC生物信息学2010,11(1):369。10.1186/1471-2105-11-369

    第条 公共医学中心 公共医学 谷歌学者 

  25. Wilbanks EG,Facciotti MT:ChIP-Seq峰值检测算法性能评估。《公共科学图书馆·综合》2010,5(7):e11471。10.1371/journal.pone.0011471

    第条 公共医学中心 公共医学 谷歌学者 

  26. Bailey TL,Gribskov M:使用p值组合证据:序列同源性搜索的应用。生物信息学1998,14(1):48–54。10.1093/生物信息学/14.1.48

    第条 中国科学院 公共医学 谷歌学者 

  27. Celniker SE、Dillon LAL、Gerstein MB、Gunsalus KC、Henikoff S、Karpen GH、Kellis M、Lai EC、Lieb JD、MacAlpine DM等:解开基因组的秘密。《自然》杂志2009459(7249):927-930。10.1038/459927a

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  28. Langmead B、Trapnell C、Pop M、Salzberg S:短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学2009,10(3):R25。10.1186/gb-2009-10-3-r25

    第条 公共医学中心 公共医学 谷歌学者 

  29. Li H,Handmaker B,Wysoker A,Fennell T,Ruan J,Homer N,Marth G,Abecasis G,Durbin R,基因组计划数据处理子组:序列比对/映射格式和SAMtools。生物信息学2009,25(16):2078–2079。10.1093/生物信息学/btp352

    第条 公共医学中心 公共医学 谷歌学者 

  30. Stein L:基因组信息学中的云计算案例。基因组生物学2010,11(5):207。10.1186/gb-2010-11-5-207

    第条 公共医学中心 公共医学 谷歌学者 

  31. Armbrust M、Fox A、Griffith R、Joseph AD、Katz RH、Konwinski A、Lee G、Patterson DA、Rabkin A、Stoica I等人:《云之上:云计算的伯克利视图》。加州大学伯克利分校EECS系;2009

    谷歌学者 

  32. Jeffrey Dean SG:MapReduce:大型集群上的简化数据处理。OSDI’04:第六届操作系统设计与实现研讨会。加利福尼亚州旧金山,2004年。

    谷歌学者 

  33. Hadoop公司[http://hadoop.apache.org/]

  34. He HH、Meyer CA、Shin H、Bailey ST、Wei G、Wang Q、Zhang Y、Xu K、Ni M、Lupien M等:核小体动力学定义转录增强子。《自然遗传学》2010,42(4):343–347。10.1038/ng.545

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  35. Heintzman ND、Hon GC、Hawkins RD、Kheradpour P、Stark A、Harp LF、Ye Z、Lee LK、Stuart RK、Ching CW等:人类增强子的组蛋白修饰反映了全球细胞类型特异性基因表达。《自然》2009,459(7243):108–112。10.1038/性质07829

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  36. Ramsey SA、Knijnenburg TA、Kennedy KA、Zak DE、Gilchrist M、Gold ES、Johnson CD、Lampano AE、Litvak V、Navarro G等:基因组范围的组蛋白乙酰化数据改进了哺乳动物转录因子结合位点的预测。生物信息学2010,btq405。

    谷歌学者 

  37. Gerstein MB、Lu ZJ、Van Nostrand EL、Cheng C、Arshinoff BI、Liu T、Yip KY、Robilotto R、Rechtsteiner A、Ikegami K等:modENCODE项目对秀丽隐杆线虫基因组的综合分析。《科学》2010330(6012):1775-1787。10.1126/科学1196914

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

我们感谢Michal Sabala在云计算环境配置方面的帮助。我们感谢Mark Gerstein、Joel S.Rozowsky、Bradley I.Arshinoff、Guanming Wu和Zheng Zha的评论。我们感谢Marc Perry、Sonja Althammer和Zheng Zha对数据集的帮助。我们感谢Shamit Soneji、Stephen Taylor、Ian Donaldson和Jasreet Hundal对测试版的反馈。该项目由iPlant Collaborative和国家科学基金会植物网络基础设施项目(#DBI-0735191)资助。

作者信息

作者和附属机构

作者

通讯作者

与的通信新丰林肯·斯坦.

其他信息

作者的贡献

XF设计、实现并测试了该算法。LS帮助测试了算法。RG为支持云计算的版本提供了硬件和软件支持。XF和LS写了手稿。所有作者阅读并批准了最终手稿。

电子辅助材料

作者提交的原始图像文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用本文

Feng,X.,Grossman,R.&Stein,L.PeakRanger:ChIP-seq数据的云计算峰值调用者。BMC生物信息学 12, 139 (2011). https://doi.org/10.1186/1471-2105-12-139

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-12-139

关键词