跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物信息学。2010年7月1日;26(13): 1662–1663.
2010年5月10日在线发布。 数字对象标识:10.1093/生物信息学/btq247
预防性维修识别码:项目经理2887051
PMID:20457667

Repitools公司:基于富集的表观基因组数据分析的R包

摘要

总结:表观遗传学是对与DNA序列无关的可遗传体细胞表型变化的研究,已成为基因调控领域的一个关键组成部分。表观遗传学如DNA甲基化、组蛋白修饰和核结构等,目前正在许多细胞类型和疾病环境中进行广泛研究。很少有软件工具可以总结和解释这些数据集。我们创建了一个程序工具箱,用于查询和可视化表观基因组数据(基于阵列和序列),并为跨平台R语言提供软件包。

可利用性:该软件包可在R-Forge网站的LGPL下免费获得(http://repitools.r-forg.r-project.org/)

联系人: ua.ude.ihew@nosniborm公司

1简介

表观遗传学是研究与DNA序列无关的表型变化。表观基因组学是对表观遗传学的大规模研究,在过去几年中引入了各种全基因组分析,并且许多表观基因组绘图项目正在进行中(琼斯等。,2008; 《自然》社论,2010). DNA甲基化是研究得最好的表观遗传标记之一,可以使用限制性内切酶、亚硫酸氢盐或基于富集的方法在全基因组范围内进行检测(在Laird,2010). 另一类重要的表观遗传调控因子是组蛋白修饰,通常使用染色质免疫沉淀(ChIP)结合微阵列(ChIP-ChIP)或下一代测序(ChIP-seq)进行研究。

可用于探索性分析和总结基于富集的表观基因组数据的通用工具有限(见Laird的表3,2010). 我们现在爬行动物是一个用于R环境的软件包,专注于分析基于富集的表观基因组数据。举例说明了软件包中工具的多样性;在综合用户指南中可以找到更多示例。这些程序已经在Affymetrix和Nimblegen平铺微阵列以及Illumina基因组分析仪测序数据上进行了测试;使用通用数据类型,以便轻松支持其他平台。

2数据汇总

软件包中提供了各种可视化程序。例如,富集图显示了基于测序的实验在整个基因组中的富集分布。cpg方框图cpg密度图分别显示微阵列和测序结果,用于DNA甲基化富集实验的质量评估。图1A说明了cpg密度图使用MethylMiner™(Invitrogen,Carlsbad CA,USA)成功进行了甲基化DNA富集实验,与输入DNA对照相比,富集DNA群体的CpG密度严重向右倾斜。

保存图片、插图等的外部文件。对象名称为btq247f1.jpg

Repitools公司可视化示例。(A类)在cpg密度图,每行是单个实验的读取分布(以CpG密度表示)。(B类)对于binPlots(二进制图),中间面板根据50个表达水平箱(行)显示汇总信号的热图,在启动子中组织成100 bp位置(列)。左侧面板显示浓缩色标,右侧面板显示每个仓位的基因表达(C类)对于重要性图,紫色和红色线条表示感兴趣的基因集的中间信号。蓝线表示基因组中所有剩余基因的中位数信号,而蓝色阴影表示95%的置信区间(示例数据取自库伦等。(2010).

我们提供了许多方法来可视化和总结启动子水平的微阵列或全基因组表观基因组数据。例如,给定注释表binPlots(二进制图)函数总结了跨关注点(例如转录起始位点)的中值信号。我们经常使用binPlots(二进制图)作为新的ChIP实验的质量控制步骤,其中询问的染色质标记和另一个指标(通常是基因表达)之间存在先前已知的关系。例如,图1B清楚地说明了基因表达水平(Affymetrix gene 1.0 ST数据)与相应启动子附近H3K9乙酰化的发生之间的正相关关系(Affmetrix Promoter 1.0R数据)。该例程将平铺数组或排序数据作为输入进行处理,可以接受分组的其他排序,显示可以是带有多行的绘图、热图或3D可视化。

总结感兴趣的基因集的另一个有用策略是显著性图。如所示图1C中,重要性图显示了与两个样本之间表达上调或下调>2倍的基因相关的明显甲基化DNA富集变化,以及阵列和高通量测序读数之间的差异。为了进行比较,采用了大量随机基因集来形成轮廓零分布;绘制了中值和置信区间。这些曲线图表明,测序读数明显丰富,因此,在这一比较中,围绕许多基因的DNA甲基化下调。定期添加更多数据摘要。

3统计程序

上述可视化程序详细描述了基因组中大量启动子或区域的聚合信号。通常,关注基因组的特定区域并总结在这些区域观察到的信号(例如转录起始位点、外显子等)是令人感兴趣的。例如,实验者可能对特定表观遗传标记的启动子级摘要感兴趣块状态该程序侧重于特定感兴趣基因组区域的数据。对于微阵列数据,这涉及到计算探针水平分数,并对距感兴趣区域指定距离内的探针组进行统计测试。对于排序数据,我们围绕感兴趣的特性计算聚合读取计数的统计信息。有关更多详细信息,请参阅附带的用户指南。

我们也有表观基因组拼接阵列数据的无目标分析程序。这个地区统计函数以无目标的方式搜索信号的持续变化,原理上类似于平铺阵列的基于模型的分析(约翰逊等。,2006),因此不依赖注释。测序数据的类似程序正在开发中。

4辅助工具

该软件包包含表观基因组学谱中的许多有用工具。例如,在CpG甲基化的背景下,微阵列探针或序列读取通常受到被询问区域的局部CpG密度的影响。cpg密度计算是根据先前定义计算局部CpG密度的程序(Pelizzola等。,2008).注释查找提供了一个框架,用于将注释(例如转录起始位点)信息与平铺阵列上的探测位置相关联。多重热图是使用单独的色阶创建相邻热图的通用工具。还有其他包含的工具可以快速访问Nimblegen阵列(例如。读取配对文件),aroma.afmetrix对象的访问功能(例如。获取探测位置Df)并且根据与注释的接近程度来聚合测序读数(例如。注释计数). 我们希望能够添加更多工具,并鼓励表观基因组学社区中的其他人提供普遍有用的程序。

5讨论

目前可用于表观基因组数据分析的工具相对较少。我们开发了Repitools公司R环境的软件包;它包含许多有用的功能,用于表观基因组学实验的质量评估、可视化、总结和统计分析。该软件包利用aroma.afmetrix和几个Bioconductor软件包进行各种预处理步骤(Bengtsson等。,2008; 绅士等。,2004)并且可能需要对某些功能的R有中级理解。提供了全面的用户手册,可以使用提供的数据运行示例。aroma.ffmetrix包(Bengtsson)提供的内存效率有助于分析大型Affmetrix-tiling阵列数据集等。,2008).

基金:国家卫生与医学研究委员会(NH&MRC)项目(427614481347)(M.D.R.、C.S.、D.S.)和奖学金(S.J.C.)、新南威尔士州癌症研究所拨款(CINSW:S.J.C.、M.W.C.、A.L.S.)和NBCF计划拨款(S.J.C.)。

利益冲突:未声明。

参考文献

  • Bengtsson H等人。745号技术报告。伯克利:加利福尼亚大学统计系;2008年,aroma.afymetrix:R中的一个通用框架,用于分析有限内存中的小到非常大的Affmetrix数据集。[谷歌学者]
  • Coolen MW等。通过长程表观遗传沉默(LRES)将癌症基因组整合到抑制染色质的结构域中会降低转录可塑性。自然细胞生物学。2010年;12:235–246. [PMC免费文章][公共医学][谷歌学者]
  • 《生物导体:计算生物学和生物信息学的开放软件开发》。基因组生物学。2004;5:R80。 [PMC免费文章][公共医学][谷歌学者]
  • Johnson WE等人。ChIP-ChIP瓷砖阵列的基于模型的分析。程序。美国国家科学院。科学。美国。2006;103:12457–12462. [PMC免费文章][公共医学][谷歌学者]
  • Jones PA等人。国际人类表观基因组项目进展。自然。2008年;454:711–715. [PMC免费文章][公共医学][谷歌学者]
  • 全基因组DNA甲基化分析的原则和挑战。Nat.Rev.基因。2010年;11:191–203.[公共医学][谷歌学者]
  • 《自然》杂志社论。表观基因组的时间。自然。2010年;463:587.[公共医学][谷歌学者]
  • Pelizzola M等人,MEDME:一种基于微阵列衍生MeDIP富集来估计DNA甲基化水平的实验和分析方法。基因组研究。2008年;18:1652–1659. [PMC免费文章][公共医学][谷歌学者]

文章来自生物信息学由以下人员提供牛津大学出版社