ChIP-Seq标记的移位大小建模
ChIP-Seq标记表示ChIP-DNA文库中片段的末端,通常朝3'方向移动,以更好地表示精确的蛋白质-DNA相互作用位点。然而,实验人员通常不知道这种变化的大小。由于ChIP-DNA片段同样可能从两端测序,真实结合位点周围的标记密度应显示双峰富集模式,Watson链标记在结合上游富集,Crick链标记在下游富集。MACS利用这种双峰模式对移动大小进行经验建模,以更好地定位精确的结合位点。
给定声波大小(带宽)和高置信度折叠浓缩(m折叠)、MACS幻灯片2带宽通过基因组窗口查找标签超过m折叠相对于随机标签基因组分布富集。MACS随机采样1000个这些高质量峰值,分离它们的Watson和Crick标签,并通过它们的Watson和Crick标签中心之间的中点将它们对齐(图1a个)如果Watson标签中心位于Crick标签中心的左侧。路线中Watson峰和Crick峰模式之间的距离定义为“d日',MACS将所有标签移位d日/2最可能的蛋白-DNA相互作用位点的3'端。
当应用于FoxA1 ChIP-Seq时,MACS估计其序列为390万个唯一映射标签d日仅为126 bp(图1a个; 建议标签移位大小为63 bp),尽管声波大小(带宽)约500个基点,Solexa规模选择约200个基点。由于FKHR基序决定了精确的FoxA1结合位置d日可以通过FKHR基序(122 bp;图1亿),得出了与MACS模型类似的结果。当应用于NRSF和CTCF ChIP-Seq时,MACS还估计了合理的d日仅来自标签分布:对于NRSF ChIP Seq,估计的MACS模型d日与motif估计值70bp相比,为96bp;应用于CTCF ChIP-Seq数据,MACS模型估计d日76bp,而motif估计值为62bp。
峰值检测
对于控制实验,MACS线性缩放总控制标记计数,使其与总ChIP标记计数相同。有时,同一标签可以重复测序,比随机全基因组标签分布的预期测序次数要多。这种标签可能是由ChIP DNA扩增和测序文库制备过程中的偏差引起的,并且可能会给最终的峰值呼叫增加噪声。因此,MACS删除了重复标签,超出了测序深度(二项式分布第页-值<10-5). 例如,对于390万个FoxA1 ChIP-Seq标记,MACS允许每个基因组位置包含不超过一个标记,并删除所有冗余。
根据大多数ChIP-Seq实验的当前基因组覆盖率,标签沿基因组的分布可以用泊松分布建模[7]. 该模型的优点是一个参数λBG公司,可以捕获分布的平均值和方差。MACS将每个标签移位d日/2,它会滑动二维基因组窗口,以发现具有显著标记富集的候选峰(泊松分布第页-基于λ的值BG公司,默认值10-5). 合并重叠富集峰,并扩展每个标签位置d日从其中心开始。碎片堆积最高的位置,以下简称为顶峰预测为精确的绑定位置。
在对照样本中,我们经常观察到标签分布具有局部波动和偏差。例如,在FoxA1候选峰值位置,ChIP和对照样品之间的标签计数具有良好的相关性(图1c、d). 这些偏差的许多可能来源包括局部染色质结构、DNA扩增和测序偏差以及基因组拷贝数变化。因此,不使用统一λBG公司根据整个基因组估算,MACS使用了一个动态参数λ地方的,为每个候选峰值定义为:
λ地方的=最大值(λBG公司, [λ1公里,] λ5公里, λ10公里)
其中λ1公里, λ5公里和λ10公里是从以对照样品峰值位置为中心的1 kb、5 kb或10 kb窗口估计的λ,或当对照样品不可用时的ChIP-Seq样品(在这种情况下,λ1公里未使用)。λ地方的捕获了本地偏见的影响,并对小的本地区域偶尔出现的低标签计数具有鲁棒性。MACS使用λ地方的计算第页-每个候选峰值的值,并消除由于局部偏差导致的潜在误报(即峰值明显低于λBG公司,但不低于λ地方的). 候选峰值第页-值低于用户定义的阈值第页-值(默认值为10-5)调用,并且ChIP-Seq标记计数与λ之间的比率地方的报告为折叠富集.
对于使用对照的ChIP-Seq实验,MACS使用先前ChIP-ChIP峰探测器MAT中使用的相同程序,根据经验估计每个检测到的峰的错误发现率(FDR)[13]和MA2C[14]. 在每个第页-值时,MACS使用相同的参数查找控制上的ChIP峰值和控制上的ChIP峰值(即样本交换)。经验FDR定义为控制峰数量/ChIP峰数量。MACS也可以通过将其中一个样品作为对照来应用于两种条件之间的差异结合。由于在这种情况下,任一样本的峰值都可能具有生物学意义,因此我们不能使用样本交换来计算FDR,并且需要根据实际控制来评估每个样本的数据质量。
模型评估
MACS的两个关键特征是:“d日'和标记移位d日/2推测蛋白-DNA相互作用位点;以及动态λ的使用地方的捕获基因组中的局部偏差。基于MACS模型评估标签转移的有效性d日,我们将MACS的性能与使用原始标签位置而不是移位标签位置的类似过程进行了比较。动态λ的有效性地方的通过比较MACS和使用统一λ的程序进行评估BG公司从基因组背景来看。图1e、f结果表明,这两种检测特异性都是通过在峰的50 bp内具有FKHR基序的预测峰的百分比来测量的顶峰,以及空间分辨率,定义为与峰值的平均距离顶峰使用标记移位和动态λ大大改进了FKHR基序地方的此外,已知FoxA1与乳腺癌细胞中的雌激素受体协同作用[1,15]. 作为证据,我们还观察到雌激素受体元件的富集(相对于基因组基序的出现富集3.1倍)及其半位点(2.7倍)[15]在MACS检测到的FoxA1 ChIP-Seq峰的中心300 bp区域内。
λ地方的在没有对照物时,仅从ChIP样本中捕获局部基因组偏差也是有效的。为了证明这一点,我们分别将MACS应用于FoxA1 ChIP-Seq和控制数据。使用相同的参数,理论上所有控制峰都是假阳性,因此FDR可以根据经验估计为控制峰数量/ChIP峰数量。为了识别7000个峰值,当控制可用时,MACS的FDR仅为0.4%,λ地方的使用。如果MACS估计λ,当控制不可用时,为了获得7000个峰值,FDR仍可能保持在3.8%的低水平地方的来自ChIP样本,而如果MACS使用全局λ,则其将达到41.2%BG公司这意味着λ地方的当没有匹配的对照样品时,对ChIP-Seq研究至关重要[5,9].
方法比较
我们将MACS与其他三种公开可用的ChIP-Seq峰值查找方法ChIPSeq峰值查找器进行了比较[8]、FindPeaks[11]和QuEST[12]. 为了比较它们的预测特异性,我们交换了ChIP和对照样本,并使用相同的ChIP和控制参数,将每个算法的FDR计算为控制峰数/ChIP峰数。对于FoxA1和NRSF ChIP-Seq(由于缺乏控制,CTCF的FDR不可用),MACS的误报率始终低于其他三种方法(图2a、b).
确定FoxA1和NRSF ChIP-Seq的峰中心50bp内与基序相关的预测峰的百分比,我们发现MACS能持续产生更高的基序(图2c、d). 评估从峰中心到基序的平均距离,排除在峰中心150 bp范围内没有基序的峰,我们发现MACS预测的峰在大多数情况下具有更好的空间分辨率(图2e、f). 对于CTCF,由于QuEST不在没有控制的样本上运行,因此我们仅将MACS与ChIPSeq Peak Finder和FindPeaks进行了比较。同样,与其他方法相比,MACS在峰中心50 bp范围内具有更高的模体出现率和更好的空间分辨率(附加数据文件1中的图S1)。总的来说,MACS不仅发现了更多的峰和更少的假阳性,而且还提供了更好的结合分辨率,以促进下游模体的发现。
ChIP-Seq与ChIP-ChIP的比较
FoxA1 ChIP-Seq和ChIP-ChIP的比较显示,峰位彼此相当一致(图3a年). 毫不奇怪,在1%(65.4%)的FDR下,大多数ChIP-Seq峰也被ChIP-ChIP(MAT)检测到[13]FDR时的截止值<1%,折叠富集度>2)。在其余34.6%的ChIP-Seq独特峰中,由于阵列设计,1045个(13.3%)未在阵列上平铺或仅部分平铺。因此,只有21.4%的ChIP-Seq峰确实特定于测序平台。此外,具有较高折叠富集度的ChIP-ChIP目标更有可能被具有较高标签计数的ChIP-Seq重复检测到(图3亿). 同时,尽管阵列探针在ChIP-Seq特定峰区的信号低于峰值呼叫截止值,但它们显示出适度的信号富集,显著高于基因组背景(Wilcoxon第页-值<10-320; 图3立方厘米). 事实上,当使用不太严格的5%FDR截止值时,1684个ChIP-Seq特定峰中的835个也可以在ChIP-ChIP中检测到。ChIP-Seq检测到的峰可能未被ChIP-ChIP检测到的另一个原因是,ChIP-Seq特定峰通常略短于ChIP-Se和ChIP-chinp发现的类似折叠富集峰(图三维)由于探头覆盖范围不足,可能无法在阵列上检测到。另一方面,ChIP-ChIP特异性峰区的测序标签也明显多于基因组背景(Wilcoxon第页-值<10-320; 附加数据文件1)中的图S2,尽管在当前测序深度下,这些区域不能称为峰值。
比较ChIP-ChIP和ChIP-Seq峰之间的差异,我们发现ChIP-ChIP的平均峰宽是ChIP-Seq的两倍。距峰值的平均距离顶峰ChIP-Seq中的to基序明显小于ChIP-ChIP(图第三版)证明了ChIP-Seq的卓越分辨率。在相同的1%FDR截止值下,从ChIP-ChIP或ChIP-Seq特定峰的中心200 bp内FKHR基序的出现与重叠峰的出现相似(图第3页). 这表明大多数平台特异性峰是真正的结合位点。NRSF ChIP-Seq和ChIP-ChIP之间的比较(附加数据文件1中的图S3)得出了类似的结果,尽管NRSF的重叠峰的质量比平台特定的峰要好得多。