摘要

总结:我们提出了一种工具,用于从ChIP-ChIP和ChIP-Seq数据中表征全基因组蛋白质–DNA相互作用模式。我们的web应用程序CEAS的这个独立扩展(顺式-调控元件注释系统)提供了重要基因组区域(如单个染色体、启动子、基因体或外显子)中ChIP富集的汇总统计,并推断出最可能受研究中的结合因子调控的基因。CEAS还使生物学家能够可视化特定基因组区域的平均ChIP富集信号,特别是允许观察连续和广泛的ChIP富集,这些富集可能过于细微,无法仅从ChIP峰值检测。

可利用性:CEAS Python包在以下网址公开提供:http://liula.dfci.harvard.edu/CEAS.

联系人: shin@jimmy.harvard.edu;xsliu@jimmy.harvard.edu

补充信息: 补充数据可在生物信息学在线。

1简介

在分析中顺式-使用全基因组ChIP-ChIP或ChIP-Seq的调控元件,有必要对ChIP信号进行表征,并确定ChIP区域与重要功能基因组区域(如基因启动子或外显子)的潜在关联。以前,我们开发了一个网络服务器,通过评估GC内容和进化保护,进行序列模体搜索并将这些区域映射到最近的基因(Ji等。,2006). 然而,需要额外的分析功能来为生物学家提供更完整的视角。例如,除了分析已识别的因子的ChIP区域外,显示基因内/附近的平均ChIP富集信号有助于生物学家更好地可视化因子的功能位点,特别是广泛的组蛋白修饰。然而,此类分析功能通常需要能够操作大型连续ChIP浓缩信号文件(例如,数百兆字节大小的WIG文件),这些文件不便于上传到web服务器。因此,为了扩展我们目前成功的基于web的顺式-监管要素注释系统(CEAS)(2008年处理了35K多个分析查询),我们提出了一个独立的CEAS扩展包,该扩展包具有更多分析功能,可以从WIG文件中绘制基因或用户特定位点的平均ChIP信号图谱,并提供有关ChIP区域在重要基因组特征(如启动子、,以及一份关于单个基因与其近端ChIP区域关联的报告。

2设计和实施

CEAS由三个模块组成:(i)ChIP区域注释;(ii)以基因为中心的注释;以及(iii)重要基因组特征内和附近的平均信号分析。CEAS需要三个输入:(i)基因注释表文件,例如UCSC RefSeq文件;(ii)包含ChIP峰值呼叫的BED文件;和(iii)具有连续ChIP富集信号的WIG文件。该软件包附带了针对多个基因组的sqlite3文件中预先编译的RefSeq表(蠕虫的ce4和ce6;苍蝇的dm2和dm3;老鼠的mm8和mm9;人类的hg18和hg19),其他基因注释表可以从UCSC基因组浏览器下载并使用我们的脚本进行编译。BED文件必须包含三列(染色体、每个ChIP调用的开始和结束)。CEAS在执行平均信号分析时接受fixedStep和variableStep WIG格式。作为输出,CEAS生成一个R文件,其中包含用于生成ChIP区域注释和平均信号配置文件的图形结果的脚本(如果R可以在与Python相同的环境中直接调用,则生成一个包含图形结果的PDF文件),以及一个包含以基因为中心的注释结果的XLS文件。

2.1 ChIP区域注释

CEAS估计每个基因组特征中ChIP区域相对于整个基因组的相对富集水平。为此,它首先计算位于以下四类中的ChIP区域的百分比:(i)启动子;(ii)双向启动子;(iii)基因下游区域;和(iv)基因体(3′UTR、5′UTR,编码外显子和内含子)。除了这些类别外,用户还可以添加另一个特定于用户的额外类别(例如非编码区域)作为可选的输入BED文件。

“启动子”对应于基因转录起始位点(TSS)的上游区域。用户指定要使用的三种启动程序大小(默认为1kb、2kb和3kb)。例如,如果用户将启动子大小设置为TSS上游的1 kb、3 kb和10 kb,CEAS将计算基因TSS上游≤1 kb,≤3 kb以及≤10 kb的ChIP区域的累积百分比。”双向启动子是差异转录基因之间的启动子区域,其TSS距离比用户定义的距离更近(默认为2.5 kb和5 kb两个选项)下游是指基因转录终止位点(TTS)的直接下游区域基因体分为3′和5′UTR、编码外显子和内含子。获得上述类别中的ChIP区域百分比后,将其与相同类别的基因组背景百分比进行比较P(P)-使用单侧二项检验计算值。而CisGenome等算法显示了ChIP区域在外显子和内含子等重要基因区域中的百分比(Ji等。,2008),CEAS提供了额外的P(P)-基因组背景相对富集值。

为了总结ChIP区域注释,CEAS绘制了一个饼图,显示ChIP区域在基因组特征中的分布。如果ChIP区域不属于任何类别,则被视为“远端基因间区”。

2.2以基因为中心的注释

通过邻近性识别与ChIP区域相关的基因对于推断研究中的结合因子的直接调控基因靶点非常重要。CEAS提供到每个基因TSS上游和下游最近的ChIP区域中心的距离。对于具有清晰结合模式的因子,这可能足以让生物学家确定正在研究的结合因子的潜在靶基因,并且类似的功能在其他算法中也可用,例如GPAT(Krebs等。,2008). 然而,如果一个广泛的ChIP峰覆盖了基因体的全部或部分,那么了解该基因(包括其启动子或下游区域)有多少被ChIP区域占据是有用的。为此,CEAS将每个基因分为三个相等的部分,并提取外显子,计算ChIP区域覆盖面积的百分比。结果将保存为带有XLS扩展名的制表符分隔文本文件。

2.3重要基因组特征内/附近的平均信号分析

由于ChIP区域和以基因为中心的注释在由峰值调用算法识别的离散ChIP区域上操作,根据峰值调用中使用的截止值,一些细微的结合模式可能无法被捕获。因此,CEAS显示了重要基因组特征内和附近的连续ChIP富集信号,以便生物学家可视化这些区域的平均结合模式。CEAS在用户定义的范围内(默认情况下,距离TSS和TTS±3 kb)绘制TSS和TTS周围的平均信号。此外,CEAS计算“元基因”、“元连接外显子”、“元连接内含子”、“元外显子”和“元内含子”的平均信号,其中前缀“元”表示每个元素都被标准化为具有相同的长度。meta-concatenated-exon和meta-exon之间的区别在于,第一个连接基因的所有外显子(如meta-cDNA),然后计算平均基因图谱,而后者计算所有外显基因的平均外显子图谱。CEAS提供了一个附加功能,可以提取多个用户特定基因亚组的平均ChIP信号,允许用户比较基因组之间的信号。此外,我们在CEAS包中提供了一个名为“sitepro”的单独脚本,它在用户提供的位点列表(在BED中指定)中绘制平均信号(来自WIG),以可视化任意区域(例如转录因子结合位点)中的平均信号。

3示例用法

CEAS自动检测可用的输入文件并运行相应的模块(图1A) ●●●●。图1B和(C)是基因体上的ChIP区域注释和人类CD4T+细胞H3K36me3 ChIP-Seq(Barski等。,2007)分别是。使用MACS调用ChIP区域(Zhang等。,2008)位于P(P)-值截止值为10−5H3K36me3被认为是一个转录延伸标记,相对于基因体中的背景(左栏),它显示出相对较高的富集度((B)中的右栏),特别是在编码外显子和内含子中。这一观察结果与(C)一致,在(C)中,我们可以看到启动子中的ChIP富集度较低,但随着我们向基因的3′端移动((C)的黑线),ChIP的富集度单调增加。在(C)中,将表达指数最高10%(顶线)和最低10%(底线)的基因组的平均ChIP信号与所有人类RefSeq基因的平均ChI信号进行比较(中间线)。

图1。

(A类)解释CEAS输入、模块和输出的流程图。(B)人类CD4T+H3K36me3 ChIP-Seq的ChIP区域注释(基因体)的示例。(C类)相同数据的3kb元基因上的平均信号分布示例。顶行和底行分别对应于表达指数最高10%和最低10%的基因。中线代表所有RefSeq基因。

致谢

我们感谢Josiah Altschuler帮助建立CEAS网站。我们感谢Cliff Meyer、Yong Zhang、Zhunhua Wu、Xiangfeng Wang和Housheng He提供的有益反馈和讨论。我们还感谢霍利·巴特尔对本文的校对。

利益冲突:未声明。

参考文献

巴斯奇
A类
人类基因组组蛋白甲基化的高分辨率分析
单元格
2007
,卷。 
129
(第
823
-
837
)
X(X)
CEAS:顺规则元素注释系统
核酸研究。
2006
,卷。 
34
(第
W551号机组
-
W554号机组
)
H(H)
用于分析ChIP-ChIP和ChIP-seq数据的集成软件系统
自然生物技术。
2008
,卷。 
26
(第
1293
-
1300
)
克雷布斯
A类
GPAT:从大型基因组位置数据集检索基因组注释
BMC生物信息学
2008
,卷。 
9
第页。 
533
 
Y(Y)
基于模型的ChIP-Seq分析(MACS)
基因组生物学。
2008
,卷。 
9
第页。 
137兰特
 

作者注释

副主编:Joaquin Dopazo

补充数据