跳到主要内容

基于模型的ChIP序列分析(MACS)

A类协议本文发表于2012年8月30日

摘要

我们提出了基于模型的ChIP-Seq数据分析,MACS,它分析由短读测序器(如Solexa的基因组分析仪)生成的数据。MACS对ChIP-Seq标记的移位大小进行了经验建模,并使用它来提高预测结合位点的空间分辨率。MACS还使用动态泊松分布来有效捕获基因组中的局部偏差,从而实现更稳健的预测。MACS与现有的ChIP-Seq寻峰算法相比有优势,并且可以免费获得。

背景

“顺反子体”的测定,全基因组的体内顺式-元素绑定反式-因素[1],是确定由这些基因直接调控的基因所必需的反式-因素。染色质免疫沉淀(ChIP)[2]结合基因组拼接微阵列(ChIP-ChIP)[,4]和测序(ChIP-Seq)[58]已成为鉴定肉苁蓉的流行技术。尽管早期ChIP-Seq工作受到测序吞吐量和成本的限制[2,9],在过去一年中,下一代大规模并行测序的发展取得了巨大进展。数以千万计的短标签(25-50个碱基)现在可以同时测序,成本低于传统桑格测序方法的1%。Illumina公司的Solexa或Applied Biosystems公司的SOLiD™等技术使ChIP-Seq成为了ChIP-ChIP的实用且潜在优势的替代品[5,8].

与ChIP-ChIP相比,ChIP-Seq具有一些优势,例如起始材料更少、成本更低、峰值分辨率更高,但在数据分析方面也存在挑战(或机遇)。首先,ChIP-Seq标记仅代表ChIP片段的末端,而不是精确的蛋白-DNA结合位点。虽然标签链信息和到精确绑定位置的近似距离有助于提高峰值分辨率,但用户通常不知道良好的标签到位置距离估计值。其次,由于测序和绘图偏差、染色质结构和基因组拷贝数变化,ChIP-Seq数据显示出基因组沿线的区域偏差[10]. 如果对匹配的对照样本进行足够深入的排序,则可以对这些偏差进行建模。然而,在最近发表的四项ChIP-Seq研究中[58],其中一个没有对照样品[5]三个对照样品中只有一个系统地使用它们来指导峰的发现[8]. 该方法要求峰值在ChIP样本中相对于对照含有显著富集的标签,尽管小的ChIP峰值区域通常含有太少的对照标签,无法稳健地估计背景偏差。

这里,我们介绍了基于模型的ChIP-Seq数据分析,MACS,它解决了这些问题,并给出了稳健和高分辨率的ChIP_Seq峰值预测。我们在MCF7细胞中对FoxA1(肝细胞核因子3α)进行了ChIP-Seq,以与FoxA1 ChIP-ChIP进行比较[1]以及识别每个平台独有的功能。当应用于三个人类ChIP-Seq数据集以确定MCF7细胞中FoxA1的结合位点时,Jurkat T细胞中的NRSF(神经限制性沉默因子)[8]和CD4中的CTCF(CCCTC-结合因子)+T细胞[5](总结在附加数据文件1的表S1中),MACS的结果优于其他已发布的ChIP-Seq寻峰算法的结果[8,11,12].

结果

ChIP-Seq标记的移位大小建模

ChIP-Seq标记表示ChIP-DNA文库中片段的末端,通常朝3'方向移动,以更好地表示精确的蛋白质-DNA相互作用位点。然而,实验人员通常不知道这种变化的大小。由于ChIP-DNA片段同样可能从两端测序,真实结合位点周围的标记密度应显示双峰富集模式,Watson链标记在结合上游富集,Crick链标记在下游富集。MACS利用这种双峰模式对移动大小进行经验建模,以更好地定位精确的结合位点。

给定声波大小(带宽)和高置信度折叠浓缩(m折叠)、MACS幻灯片2带宽通过基因组窗口查找标签超过m折叠相对于随机标签基因组分布富集。MACS随机采样1000个这些高质量峰值,分离它们的Watson和Crick标签,并通过它们的Watson和Crick标签中心之间的中点将它们对齐(图1a个)如果Watson标签中心位于Crick标签中心的左侧。路线中Watson峰和Crick峰模式之间的距离定义为“d日',MACS将所有标签移位d日/2最可能的蛋白-DNA相互作用位点的3'端。

图1
图1

FoxA1 ChIP-Seq的MACS模型。(a、b)从1000个模型峰的随机样本中提取的5'端绞合分离标签,通过Watson峰和Crick峰的中心(a)和FKHR基序(b)对齐。(c)基因组中10 kb窗口内ChIP与对照的标记计数。每个点代表一个10 kb的窗口;红点是包含ChIP峰值的窗口,黑点是包含用于FDR计算的控制峰值的窗口。(d)FoxA1 ChIP-Seq峰值附近对照样品中的标记密度分布。(e、f)MACS通过标签移位和λ提高了FoxA1 ChIP-Seq识别峰中心(e)的基序发生率和空间分辨率(f)地方的。峰值按第页-值。基序发生率计算为峰的百分比,FKHR基序位于峰的50 bp内顶峰。空间分辨率计算为与顶峰最接近的FKHR图案。峰的150 bp范围内无FKHR基序的峰顶峰从空间分辨率计算中删除。

当应用于FoxA1 ChIP-Seq时,MACS估计其序列为390万个唯一映射标签d日仅为126 bp(图1a个; 建议标签移位大小为63 bp),尽管声波大小(带宽)约500个基点,Solexa规模选择约200个基点。由于FKHR基序决定了精确的FoxA1结合位置d日可以通过FKHR基序(122 bp;图1亿),得出了与MACS模型类似的结果。当应用于NRSF和CTCF ChIP-Seq时,MACS还估计了合理的d日仅来自标签分布:对于NRSF ChIP Seq,估计的MACS模型d日与motif估计值70bp相比,为96bp;应用于CTCF ChIP-Seq数据,MACS模型估计d日76bp,而motif估计值为62bp。

峰值检测

对于控制实验,MACS线性缩放总控制标记计数,使其与总ChIP标记计数相同。有时,同一标签可以重复测序,比随机全基因组标签分布的预期测序次数要多。这种标签可能是由ChIP DNA扩增和测序文库制备过程中的偏差引起的,并且可能会给最终的峰值呼叫增加噪声。因此,MACS删除了重复标签,超出了测序深度(二项式分布第页-值<10-5). 例如,对于390万个FoxA1 ChIP-Seq标记,MACS允许每个基因组位置包含不超过一个标记,并删除所有冗余。

根据大多数ChIP-Seq实验的当前基因组覆盖率,标签沿基因组的分布可以用泊松分布建模[7]. 该模型的优点是一个参数λBG公司,可以捕获分布的平均值和方差。MACS将每个标签移位d日/2,它会滑动二维基因组窗口,以发现具有显著标记富集的候选峰(泊松分布第页-基于λ的值BG公司,默认值10-5). 合并重叠富集峰,并扩展每个标签位置d日从其中心开始。碎片堆积最高的位置,以下简称为顶峰预测为精确的绑定位置。

在对照样本中,我们经常观察到标签分布具有局部波动和偏差。例如,在FoxA1候选峰值位置,ChIP和对照样品之间的标签计数具有良好的相关性(图1c、d). 这些偏差的许多可能来源包括局部染色质结构、DNA扩增和测序偏差以及基因组拷贝数变化。因此,不使用统一λBG公司根据整个基因组估算,MACS使用了一个动态参数λ地方的,为每个候选峰值定义为:

λ地方的=最大值(λBG公司, [λ1公里,] λ5公里, λ10公里)

其中λ1公里, λ5公里和λ10公里是从以对照样品峰值位置为中心的1 kb、5 kb或10 kb窗口估计的λ,或当对照样品不可用时的ChIP-Seq样品(在这种情况下,λ1公里未使用)。λ地方的捕获了本地偏见的影响,并对小的本地区域偶尔出现的低标签计数具有鲁棒性。MACS使用λ地方的计算第页-每个候选峰值的值,并消除由于局部偏差导致的潜在误报(即峰值明显低于λBG公司,但不低于λ地方的). 候选峰值第页-值低于用户定义的阈值第页-值(默认值为10-5)调用,并且ChIP-Seq标记计数与λ之间的比率地方的报告为折叠富集.

对于使用对照的ChIP-Seq实验,MACS使用先前ChIP-ChIP峰探测器MAT中使用的相同程序,根据经验估计每个检测到的峰的错误发现率(FDR)[13]和MA2C[14]. 在每个第页-值时,MACS使用相同的参数查找控制上的ChIP峰值和控制上的ChIP峰值(即样本交换)。经验FDR定义为控制峰数量/ChIP峰数量。MACS也可以通过将其中一个样品作为对照来应用于两种条件之间的差异结合。由于在这种情况下,任一样本的峰值都可能具有生物学意义,因此我们不能使用样本交换来计算FDR,并且需要根据实际控制来评估每个样本的数据质量。

模型评估

MACS的两个关键特征是:“d日'和标记移位d日/2推测蛋白-DNA相互作用位点;以及动态λ的使用地方的捕获基因组中的局部偏差。基于MACS模型评估标签转移的有效性d日,我们将MACS的性能与使用原始标签位置而不是移位标签位置的类似过程进行了比较。动态λ的有效性地方的通过比较MACS和使用统一λ的程序进行评估BG公司从基因组背景来看。1e、f结果表明,这两种检测特异性都是通过在峰的50 bp内具有FKHR基序的预测峰的百分比来测量的顶峰,以及空间分辨率,定义为与峰值的平均距离顶峰使用标记移位和动态λ大大改进了FKHR基序地方的此外,已知FoxA1与乳腺癌细胞中的雌激素受体协同作用[1,15]. 作为证据,我们还观察到雌激素受体元件的富集(相对于基因组基序的出现富集3.1倍)及其半位点(2.7倍)[15]在MACS检测到的FoxA1 ChIP-Seq峰的中心300 bp区域内。

λ地方的在没有对照物时,仅从ChIP样本中捕获局部基因组偏差也是有效的。为了证明这一点,我们分别将MACS应用于FoxA1 ChIP-Seq和控制数据。使用相同的参数,理论上所有控制峰都是假阳性,因此FDR可以根据经验估计为控制峰数量/ChIP峰数量。为了识别7000个峰值,当控制可用时,MACS的FDR仅为0.4%,λ地方的使用。如果MACS估计λ,当控制不可用时,为了获得7000个峰值,FDR仍可能保持在3.8%的低水平地方的来自ChIP样本,而如果MACS使用全局λ,则其将达到41.2%BG公司这意味着λ地方的当没有匹配的对照样品时,对ChIP-Seq研究至关重要[5,9].

方法比较

我们将MACS与其他三种公开可用的ChIP-Seq峰值查找方法ChIPSeq峰值查找器进行了比较[8]、FindPeaks[11]和QuEST[12]. 为了比较它们的预测特异性,我们交换了ChIP和对照样本,并使用相同的ChIP和控制参数,将每个算法的FDR计算为控制峰数/ChIP峰数。对于FoxA1和NRSF ChIP-Seq(由于缺乏控制,CTCF的FDR不可用),MACS的误报率始终低于其他三种方法(图2a、b).

图2
图2

MACS与ChIPSeq Peak Finder、FindPeaks和QuEST的比较。(a-f)图中所示为FoxA1(a)和NRSF(b)ChIP-Seq的FDR,FoxA1的峰中心50 bp以内的基序发生率(c)和NRSF(d),以及FoxA1和NRSF-(f)的峰中心到最近基序的平均距离(去除了峰中心150 bp以内无基序的峰)。

确定FoxA1和NRSF ChIP-Seq的峰中心50bp内与基序相关的预测峰的百分比,我们发现MACS能持续产生更高的基序(图2c、d). 评估从峰中心到基序的平均距离,排除在峰中心150 bp范围内没有基序的峰,我们发现MACS预测的峰在大多数情况下具有更好的空间分辨率(图2e、f). 对于CTCF,由于QuEST不在没有控制的样本上运行,因此我们仅将MACS与ChIPSeq Peak Finder和FindPeaks进行了比较。同样,与其他方法相比,MACS在峰中心50 bp范围内具有更高的模体出现率和更好的空间分辨率(附加数据文件1中的图S1)。总的来说,MACS不仅发现了更多的峰和更少的假阳性,而且还提供了更好的结合分辨率,以促进下游模体的发现。

ChIP-Seq与ChIP-ChIP的比较

FoxA1 ChIP-Seq和ChIP-ChIP的比较显示,峰位彼此相当一致(图3a年). 毫不奇怪,在1%(65.4%)的FDR下,大多数ChIP-Seq峰也被ChIP-ChIP(MAT)检测到[13]FDR时的截止值<1%,折叠富集度>2)。在其余34.6%的ChIP-Seq独特峰中,由于阵列设计,1045个(13.3%)未在阵列上平铺或仅部分平铺。因此,只有21.4%的ChIP-Seq峰确实特定于测序平台。此外,具有较高折叠富集度的ChIP-ChIP目标更有可能被具有较高标签计数的ChIP-Seq重复检测到(图3亿). 同时,尽管阵列探针在ChIP-Seq特定峰区的信号低于峰值呼叫截止值,但它们显示出适度的信号富集,显著高于基因组背景(Wilcoxon第页-值<10-320; 3立方厘米). 事实上,当使用不太严格的5%FDR截止值时,1684个ChIP-Seq特定峰中的835个也可以在ChIP-ChIP中检测到。ChIP-Seq检测到的峰可能未被ChIP-ChIP检测到的另一个原因是,ChIP-Seq特定峰通常略短于ChIP-Se和ChIP-chinp发现的类似折叠富集峰(图三维)由于探头覆盖范围不足,可能无法在阵列上检测到。另一方面,ChIP-ChIP特异性峰区的测序标签也明显多于基因组背景(Wilcoxon第页-值<10-320; 附加数据文件1)中的图S2,尽管在当前测序深度下,这些区域不能称为峰值。

图3
图3

FoxA1 ChIP-Seq和ChIP-ChIP的比较。(a)ChIP-ChIP检测到的FoxA1结合位点(MAT;FDR<1%,fold-e富集>2)和ChIP-Seq(MACS;FDR<1%)之间的重叠。图中显示了两个平台检测到的区域数(即至少有1个相同的bp)或每个平台唯一的区域数。(b)ChIP-Seq标签号和ChIP-ChIP MATscore的分布[13]用于两个平台确定的FoxA1结合位点。(c)FoxA1 ChIP-ChIP在ChIP-Seq/芯片重叠峰、ChIP-Seq独特峰和基因组背景下的MATscore分布。对于每个峰值,300 bp区域内以ChIP-Seq峰值为中心的所有探针的平均MATscore顶峰使用。基因组背景基于FoxA1 ChIP-ChIP数据中所有阵列探针的MATscore。(d)FoxA1 ChIP-Seq/芯片重叠峰和不同折叠富集度(小于25、25-50和大于50)下ChIP-Seq独特峰的宽度分布。(e)FoxA1 ChIP-ChIP和ChIP-Seq峰的空间分辨率。Wilcoxon检验用于计算第页-(d)和(e)的值。(f)FoxA1 ChIP-Seq/芯片重叠峰和平台独特峰的中心200 bp区域内的基序出现。显示标准偏差的误差条是通过对500个峰值的随机抽样计算得出的,每个类别10次。背景基序的出现基于人类基因组中100000个随机选择的200 bp区域,不包括基因组组装间隙中的区域(包含“N”)。

比较ChIP-ChIP和ChIP-Seq峰之间的差异,我们发现ChIP-ChIP的平均峰宽是ChIP-Seq的两倍。距峰值的平均距离顶峰ChIP-Seq中的to基序明显小于ChIP-ChIP(图第三版)证明了ChIP-Seq的卓越分辨率。在相同的1%FDR截止值下,从ChIP-ChIP或ChIP-Seq特定峰的中心200 bp内FKHR基序的出现与重叠峰的出现相似(图第3页). 这表明大多数平台特异性峰是真正的结合位点。NRSF ChIP-Seq和ChIP-ChIP之间的比较(附加数据文件1中的图S3)得出了类似的结果,尽管NRSF的重叠峰的质量比平台特定的峰要好得多。

讨论

ChIP-Seq用户经常好奇,他们的测序深度是否足以饱和所有绑定站点。原则上,测序饱和度应取决于折叠富集,因为高折叠峰的饱和时间早于低折叠峰。此外,由于不同的成本和吞吐量考虑因素,不同的用户可能对恢复不同折叠富集截止点的站点感兴趣。因此,MACS生成了一个饱和度表,以报告在不同的折叠富集度下,当使用90%到20%的标签时仍然可以检测到的位点的比例。针对FoxA1(390万标签)和NRSF(220万标签)ChIP-Seq数据集(附加数据文件1中的图S4;CTCF无法控制稳健估计折叠富集度)生成的此类表格表明,虽然富集度超过60倍的峰值已经饱和,较深的测序仍然可以恢复比染色质输入DNA富集40倍以下的更多位点。随着测序技术提高其吞吐量,研究人员正在逐渐增加测序深度,因此这个问题可以在未来重新讨论。目前,我们让个人用户根据不同折叠富集水平的饱和度来决定是否进行更多排序。

这个d日MACS模型表明,一些短读测序器(如Solexa)可能会优先对ChIP-DNA池中的较短片段进行测序。这可能有助于在ChIP-Seq数据中观察到的较高分辨率,特别是在激活开放染色质中的转录和表观遗传因子方面。然而,对于以相对致密染色质为靶点的抑制因子,目标区域可能更难超声分离到可溶性提取物中。此外,在得到的ChIP-DNA中,真正的靶点可能比开放染色质中的背景DNA更长,这使得它们不利于大小选择和测序。这意味着封闭染色质的表观遗传标记可能对ChIP更难,对ChIP-Seq更难。为了评估这种潜在的偏见,检查Mikkelsen的组蛋白标记ChIP-Seq结果. [7]我们发现,虽然活性标记H3K4me3的ChIP-Seq效率在多能干细胞分化时保持较高,但抑制标记H3K27me3和H3K9me3的效率随着分化而降低(附加数据文件1中的表S2),尽管随着细胞分化,这些抑制标记可能有更多靶点。我们提醒ChIP-Seq用户在ChIPing抑制标记时采取措施补偿这种偏见,例如更强烈的声波作用,选择稍大的片段进行文库准备,或在去交联和文库准备之间进一步声波ChIP-DNA。

MACS根据控制ChIP同时调用的峰值数量计算FDR第页-价值截止。这种FDR估计比根据基因组上的随机标签计算FDR更可靠。然而,我们注意到,当来自ChIP和控件的标签计数不平衡时,即使MACS将两个样本之间的总标签计数标准化,带有更多标签的样本通常会产生更多峰值(附加数据文件1中的图S5)。虽然我们等待更多覆盖范围更广的可用ChIP-Seq数据来理解和克服这种偏见,但我们建议ChIP-Seq用户,如果他们的ChIP标签序列多于对照,那么其ChIP峰值的FDR估计可能过于乐观。

结论

随着测序技术的发展普及了ChIP-Seq,我们提出了一种新的算法MACS来进行数据分析。MACS为从ChIP-Seq预测蛋白质-DNA相互作用位点提供了四个重要的实用程序。首先,MACS通过对距离进行经验建模来提高预测地点的空间分辨率d日和移动标签d日/2其次,MACS使用动态λ地方的参数捕获基因组中的局部偏差并提高预测的鲁棒性和特异性。值得注意的是,除了ChIP-Seq,λ地方的可以潜在地应用于其他高通量测序应用,如拷贝数变异和数字基因表达,以捕获区域偏差并估计稳健fold富集。第三,MACS可以应用于没有控制的ChIP-Seq实验,也可以应用于那些具有改进性能的控制的实验。最后但并非最不重要的是,MACS易于使用,并提供每个峰的详细信息,例如基因组坐标,第页-值,FDR,折叠富集、和顶峰(峰中心)。

材料和方法

数据集

本研究使用了NRSF、CTCF和FoxA1三个因子的ChIP-Seq数据。Jurkat T细胞中NRSF的ChIP-ChIP和ChIP-Seq(220万ChIP和280万控制唯一映射读取,简化为“标签”)数据来自基因表达总表(GSM210637)和Johnson. [8]分别是。CD4中CTCF的ChIP-Seq(290万ChIP标签)数据+T细胞来源于Barski. [5].

此前公布了FoxA1和MCF7细胞对照的ChIP-ChIP数据[1],并专门为本研究生成了相应的ChIP-Seq数据。约3 ng FoxA1 ChIP DNA和3 ng对照DNA用于文库制备,每个文库由来自三个独立实验的等摩尔DNA混合物组成。图书馆按照[8]使用PCR预扩增步骤和大小选择150到400 bp之间的DNA片段。通过Illumina/Selexa 1G基因组分析仪对FoxA1 ChIP和对照DNA进行双道测序,分别获得390万和520万个唯一映射标签。

软件实施

MACS是用Python实现的,可以通过开放源码的Artistic License免费获得,网址为[16]. 它从命令行运行,并采用以下参数:-吨对于治疗文件(ChIP标签,这是MACS的唯一必需参数)和-c(c)用于包含映射标记的控制文件;--格式用于输入文件格式ELAND公司(输出)格式(默认);--姓名表示运行名称(例如,FoxA1,默认NA);--g尺寸用于计算λ的可绘制基因组大小BG公司标签计数(默认2.7G bp,近似于可映射人类基因组大小);--1.n.(tsize的复数形式)用于标记大小(默认值为25);--体重对于带宽,是估计声波大小的一半(默认为300);--p值对于第页-值截止到调用峰值(默认为1e-5);--m折叠用于高置信度折叠富集,以找到MACS建模的模型峰值(默认值32);--诊断用于生成表以评估序列饱和度(默认为关闭)。

此外,用户可以选择按任意数字移动标签(--移位大小)没有MACS模型(--诺莫德尔),使用全局lambda(--诺兰布达)调用峰值,并显示调试和警告消息(--冗长的). 如果用户有ChIP或控件的复制文件,建议将所有复制连接到一个输入文件中。输出包括一个包含峰值染色体坐标的BED文件和一个包含基因组坐标的xls文件,顶峰,第页-值,折叠富集和每个峰值的FDR(如果控制可用)。对于分别具有390万个和520万个ChIP和对照标签的MCF7细胞中的FoxA1 ChIP Seq,MACS需要15秒来模拟ChIP DNA大小分布,在具有2GB RAM的2GHz CPU Linux计算机上检测峰值不到3分钟。附加数据文件1中的图S6用流程图说明了整个过程。

其他数据文件

以下附加数据可用。附加数据文件1包含支撑图S1-S6,以及支撑表S1和S2。

缩写

炸薯条:

染色质免疫沉淀

CTCF公司:

CCCTC结合因子

财务总监:

错误发现率

福克斯A1:

肝细胞核因子3α

MACS公司:

基于模型的ChIP-Seq数据分析

自然资源保护基金:

神经元限制性消声器因子。

参考文献

  1. Lupien M,Eeckhoute J,Meyer CA,Wang Q,Zhang Y,Li W,Carroll JS,Liu XS,Brown M:FoxA1将表观遗传特征转化为增强子驱动的谱系特异性转录。细胞。2008, 132: 958-970. 2016年10月10日/j.cell.2008.018.18。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  2. Kim TH,Ren B:蛋白质-DNA相互作用的全基因组分析。《基因组学与人类遗传学年鉴》。2006, 7: 81-102. 10.1146/anurev.genom.708055.115634。

    第条 公共医学 谷歌学者 

  3. Iyer VR、Horak CE、Scafe CS、Botstein D、Snyder M、Brown PO:酵母细胞周期转录因子SBF和MBF的基因组结合位点。自然。2001, 409: 533-538. 10.1038/35054095.

    第条 公共医学 中国科学院 谷歌学者 

  4. Ren B、Robert F、Wyrick JJ、Aparicio O、Jennings EG、Simon I、Zeitlinger J、Schreiber J、Hannett N、Kanin E、Volkert TL、Wilson CJ、Bell SP、Young RA:DNA结合蛋白的基因组定位和功能。科学。2000, 290: 2306-2309. 10.1126/science.290.5500.2306。

    第条 公共医学 中国科学院 谷歌学者 

  5. Barski A、Cuddapah S、Cui K、Roh TY、Schones DE、Wang Z、Wei G、Chepelev I、Zhao K:人类基因组中组蛋白甲基化的高分辨率分析。细胞。2007, 129: 823-837. 2016年10月10日/j.cell.2007.05.009。

    第条 公共医学 中国科学院 谷歌学者 

  6. Robertson G、Hirst M、Bainbridge M、Bilenky M、Zhao Y、Zeng T、Eukilchen G、Bernier B、Varhol R、Delaney A、Thiessen N、Griffith OL、He A、Marra M、Snyder M、Jones S:使用染色质免疫沉淀和大规模平行测序的STAT1 DNA关联的基因组全谱。自然方法。2007年,4:651-657。10.1038/nmeth1068。

    第条 公共医学 中国科学院 谷歌学者 

  7. Mikkelsen TS、Ku M、Jaffe DB、Issac B、Lieberman E、Giannoukos G、Alvarez P、Brockman W、Kim TK、Koche RP、Lee W、Mendenhall E、O'Donovan A、Presser A、Russ C、Xie X、Meissner A、Wernig M、Jaenisch R、Nusbaum C、Lander ES、Bernstein BE:多能干细胞和谱系承诺细胞染色质状态的基因组图。自然。2007, 448: 553-560. 10.1038/nature06008。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  8. Johnson DS、Mortazavi A、Myers RM、Wold B:体内蛋白质-DNA相互作用的全基因组绘图。科学。2007, 316: 1497-1502. 10.1126/科学1141319。

    第条 公共医学 中国科学院 谷歌学者 

  9. Wei CL、Wu Q、Vega VB、Chiu KP、Ng P、Zhang T、Shahab A、Yong HC、Fu Y、Weng Z、Liu J、Zhao XD、Chew JL、Lee YL、Kuznetsov VA、Sung WK、Miller LD、Lim B、Liu ET、Yu Q、Ng HH、Ruan Y:人类基因组中p53转录因子结合位点的全球图谱。细胞。2006, 124: 207-219. 2016年10月10日/j.cell.2005.10.043。

    第条 公共医学 中国科学院 谷歌学者 

  10. Redon R、Ishikawa S、Fitch KR、Feuk L、Perry GH、Andrews TD、Fiegler H、Shapero MH、Carson AR、Chen W、Cho EK、Dallaire S、Freeman JL、Gonzalez JR、Gratacos M、Huang J、Kalaitzopoulos D、Komura D、MacDonald JR、Marshall CR、Mei R、Montgomery L、Nishimura K、Okamura K,Shen F、Somerville MJ、Tchinda J、Valsesia A、Woodwark C、Yang F、,等:人类基因组拷贝数的全球变异。自然。2006, 444: 444-454. 10.1038/nature05329。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  11. FindPeaks公司。[http://www.bcgsc.ca/platform/bioinfo/software/findpeaks]

  12. 库斯特。[http://mendel.stanford.edu/SidowLab/downloads/quest/]

  13. Johnson WE、Li W、Meyer CA、Gottardo R、Carroll JS、Brown M、Liu XS:ChIP-ChIP瓷砖阵列的基于模型的分析。美国国家科学院院刊2006,103:12457-12462。10.1073/pnas.0601180103。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  14. Song JS,Johnson WE,Zhu X,Zhang X,Li W,Manrai AK,Liu JS,Chen R,Liu XS:基于模型的双色阵列分析(MA2C)。基因组生物学。2007年8月:R178-10.1186/gb-2007-8-8-R178。

    第条 公共医学 公共医学中心 谷歌学者 

  15. Carroll JS、Meyer CA、Song J、Li W、Geistlinger TR、Eeckhoute J、Brodsky AS、Keeton EK、Fertuck KC、Hall GF、Wang Q、Bekiranov S、Sementchenko V、Fox EA、Silver PA、Gingeras TR、Liu XS、Brown M:雌激素受体结合位点的全基因组分析。自然遗传学。2006, 38: 1289-1297. 10.1038/ng1901。

    第条 公共医学 中国科学院 谷歌学者 

  16. MACS公司。[http://liula.dfci.harvard.edu/MACS/]

下载参考资料

致谢

我们感谢Barbara Wold、Ting Wang、Jason Lieb、Sevinc Ercan、Julie Ahringer和Peter Park的评论和见解。我们也感谢吴振华校对手稿。该项目的部分资金来自NIH拨款HG004069、HG004270和DK074967。

作者信息

作者和附属机构

作者

通讯作者

与的通信魏丽X雪莉·刘.

其他信息

作者的贡献

XSL、WL和YZ构思了该项目并撰写了论文。YZ、TL和CAM设计了算法,进行了研究并实现了软件。JE、DSJ、BEB、CN、RMM和MB进行了FoxA1 ChIP-Seq实验,并提出了一些想法。所有作者阅读并批准了最终手稿。

张勇、刘涛对这项工作的贡献相等。

电子辅助材料

作者提交的原始图像文件

权利和权限

转载和许可

关于本文

引用这篇文章

Zhang,Y.、Liu,T.、Meyer,C.A。等。基于模型的ChIP-Seq分析(MACS)。基因组生物学 9,R137(2008)。https://doi.org/10.1186/gb-2008-9-9-r137

下载引文

  • 收到:

  • 修订过的:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/gb-2008-9-9-r137

关键词