Ringo – an R/Bioconductor package for analyzing ChIP-chip readouts

Joern Toedling; Oleg Sklyar; Wolfgang Huber

doi:10.1186/1471-2105-8-221

BMC生物信息学。2007; 8:221。

2007年6月26日在线发布。数字对象标识：10.1186/1471-2105-8-221

预防性维修识别码：项目经理1906858

PMID：17594472

Ringo–用于分析ChIP-ChIP读数的R/Bioconductor包

审核人乔恩·托德林,¹ 奥列格·斯克利亚尔,¹和弗冈·胡贝尔¹

作者信息文章注释版权和许可信息 PMC免责声明

摘要

背景

染色质免疫沉淀结合DNA微阵列(ChIP-ChIP公司)是一种高通量检测DNA蛋白结合或翻译后染色质/组蛋白修饰的方法。然而，原始微阵列强度读数本身并不能立即对研究人员有用，但需要一些生物信息分析步骤。确定的富集区需要进行生物信息学注释，并通过统计方法与相关数据集进行比较。

结果

我们提供了一个免费的开源R包林戈通过提供数据导入、质量评估、数据规范化和可视化以及检测富含ChIP的基因组区域的功能，促进了ChIP-ChIP实验的分析。

结论

林戈与生物导体项目的其他包集成，使用通用数据结构，并附有大量文档。它促进了程序化分析工作流程的构建，在分析的可扩展性、再现性和方法范围方面提供了优势，并为后续统计和生物信息学方法提供了广泛的选择。

背景

染色质免疫沉淀和DNA微阵列杂交(ChIP-ChIP公司)是一种强有力的技术，用于系统识别转录因子结合或组蛋白进行翻译后修饰的基因组位点[1]. 然而，原始微阵列强度读数本身并不能立即对研究人员有用。通过一些生物信息学分析步骤，人们可以从原始数据中获得经过处理的基因组位点列表和定量测量，如位点证据的强度、范围和相对占有率的估计。

我们提供免费的开源软件模块林戈用于导入原始微阵列数据、其质量评估、标准化、可视化，以及检测和定量富含ChIP的区域。其功能涵盖ChIP-ChIP贴片微阵列的完整初步分析，尤其是来自NimbleGen公司的微阵列。林戈与生物导体集成[2]R统计软件生物信息扩展包项目。这种设计使用户可以轻松构建复杂的分析方法，同时利用其他R/Bioconductor功能，例如来自阿菲[三]和寡聚物包或R信号处理包中的小波分析方法。

林戈是对用于ChIP微阵列分析的现有可用软件的补充。例如，mpeak[4]、TiMAThttp://bdtnp.lbl.gov/TiMAT，材料[5]，平铺贴图[6]、ACME[7]、HGM[8]和ChIPOTle[9]提供强大的基于模型和非参数的算法，用于在标准化和质量控制的ChIP-ChIP数据上查找ChIP富集区域。这些软件的一个重点是为这些算法提供易于使用的界面，并要求用户将其与其他工具结合使用，用于数据导入、预处理和后续统计及生物信息分析。独特的方面林戈它有助于构建更自动化的程序化工作流程，并在分析的可扩展性、再现性和系统范围方面提供优势。

实施

林戈是编程语言和统计环境R的扩展包[10]. 它的大部分功能也在R中实现，对于一些性能关键的计算，使用C++函数。该软件包用于分析NimbleGen公司的双色ChIP-ChIP寡核苷酸微阵列（对于NimbleGen单色微阵列，我们建议使用Bioconductor软件包寡聚物). 也可以处理来自其他供应商的类似双色平铺阵列平台。该软件包使用了生物导体项目其他软件包的功能[2]，最引人注目的是包装利马[11]，它使用在其他生物导体包中也是标准的对象类，例如利马的RGList和博科生物的ExpressionSet，并提供一个新的对象类来表示已标识的ChIP富集区域。

结果和讨论

图图11显示了ChIP-ChIP实验分析的典型工作流程，并指出了生物导体包促进了哪些步骤林戈。的关键功能林戈包括原始数据的导入、质量评估和预处理、原始数据和处理数据的可视化以及富集峰的检测算法。

在单独的窗口中打开

图1

使用Ringo进行ChIP-ChIP分析.显示ChIP-ChIP实验分析步骤的工作流图林戈.

该包包含将微阵列的原始NimbleScan输出文件读入RGList对象的函数。用户可以选择以RGList格式提供其他原始微阵列数据。这样的对象本质上是一个列表，包含红色和绿色通道的两种杂交的原始强度，以及阵列上探针和分析样本的信息。

林戈包含一组广泛的数据质量评估功能（参见，例如[12]有关双色微阵列数据背景下质量评估方法的概述）。

它的图像功能允许人们观察芯片上强度的空间分布。这有助于检测阵列上的明显瑕疵，例如划痕、亮点、指纹等，这些瑕疵可能会导致部分或所有读数无效。

为了评估穿过染色体的探针平铺是否影响邻近探针的水平，可以查看自相关绘图。对于每个基面偏移d日，它评估了探针在基因组位置的强度x个+d日与位置处的探针强度相关x个。根据偏移量绘制计算的相关性d日（见图图2）。2). 对于免疫沉淀或基因组中存在的区域输入样本，在与片段DNA的大小分布相对应的范围内，预计会有较高的自相关。自相关与数据的质量评估相关，并且在随后的统计分析中必须将其考虑在内。

在单独的窗口中打开

图2

ChIP芯片数据的自相关软件文档中提供了组蛋白-3-乙酰化的示例数据集，用于演示包的自相关图。对于每个基面偏移d日，它评估探针映射到基因组位置的强度x个+d日与位置处的探针强度相关x个。根据偏移量绘制计算的相关性。

此外，如果数据集包含生物或技术复制，复制样本强度之间的低相关性可能表明微阵列的质量有问题。林戈因此，包含了可视化复制样本的原始和预处理强度之间的相关性的函数。

在对数据进行质量评估后，通常旨在通过以下方式增加数据的信噪比归一化并导出富集样品中探针强度的倍数变化除以非富集输入样品中探针的强度，并取这些比率的（广义）对数。

对于标准化，林戈提供了许多选择，接口预处理方法在Bioconductor包中实现vsn（vsn）[13]和利马再加上NimbleGen建议的对数比的Tukey-biweight缩放。归一化过程产生归一化探针级别的ExpressionSet对象，这是微阵列数据的基本Bioconductor对象类，许多其他Biocondulator包可以轻松与之交互。

此外，需要在微阵列上的探针和基因组位置之间进行映射。林戈使用一组与染色体位置相关的表格来确定阵列上的标识符。该软件包提供了一些脚本，帮助从NimbleGen POS文件或（通常更可取的是）探针序列与感兴趣的基因组的自定义比对中生成这样的表格。

基因组数据分析的一个重要方面是使用许多不同的可视化技术对尽可能多的数据示例进行彻底观察。除了其他R和Bioconductor软件包提供的众多可视化功能外，林戈提供了一个函数，用映射到匹配染色体位置的探针显示对数倍富集的估计值（见图图3三).

在单独的窗口中打开

图3

ChIP富集基因组区域的可视化组蛋白-3-乙酰化（H3ac）在转录起始位点附近的原始和平滑的顺时针折叠变化手牌2第8号染色体上的基因。基因组坐标轴下方的粗体勾号表示微阵列探针瞄准基因组序列的基因组位置。

在标准化探针水平上，下一步的目标是确定免疫沉淀样品与未处理输入样品相比显示富集的基因组区域。林戈包含我们开发的启发式算法，用于识别具有特定组蛋白修饰的基因组区域。该算法的细节在软件包vignette中进行了描述。它是建立在平滑的程序：在基因组上相邻的探针之间进行平滑处理通常用于改善数据中探针特异性的可变性，即不同探针以不同的效率测量相同靶DNA量的效果。这可能是由阵列上探针合成的不同质量、探针GC含量、靶cDNA二级结构、交叉杂交和其他原因引起的。浓缩检测程序的一个重要问题是背景信号：一些非抗体结合的DNA可能在免疫沉淀过程中被拉下，从而富集，可能导致假阳性。中的浓缩检测算法林戈是解决这些问题的第一个且足够有效的方法，但还需要进行更多研究以建立最佳方法。

结论

软件包的功能林戈为对NimbleGen ChIP微阵列或类似数据分析感兴趣的研究人员提供了一个良好的起点。它是广泛使用的编程语言和统计环境R的附加包，并与生物信息学R扩展包的Bioconductor项目集成。

与其他生物导体/R封装一样，林戈通过其vignette和功能帮助页面提供了高水平的文档，并且对文档的访问是标准化的。此外，还对软件包的分发、安装和维护进行了标准化，并通过Bioconductor邮件列表提供响应性和胜任的用户支持。这些功能在免费的开源软件中通常很难找到。

林戈为质量评估、数据处理、可视化和ChIP-ChIP数据分析提供了一整套功能。该软件包与其他生物导体软件包的紧密集成开辟了许多后续分析方法。

可用性和要求

R包林戈可从Bioconductor网站获取http://www.bioconductor.org并在Linux、Mac OS和MS-Windows上运行。它需要安装R版本（版本≥2.5.0），可从综合R档案网络（CRAN）免费获取，网址为http://cran.r-project.org和其他生物导体包，即博科生物,阿菲,基因绘图仪,利马、和vsn（vsn）加上CRAN包R彩色啤酒。获取软件及其所有依赖项的最新版本的最简单方法是按照http://www.bioconductor.org/download.林戈根据艺术许可证2.0的条款分发。

作者的贡献

所有作者都对软件包的最终版本做出了重大贡献。JT写了这份手稿。所有作者阅读并批准了手稿的最终版本。

致谢

我们感谢Matthew Ritchie提供了早期版本的数据导入代码，感谢Tammo Krueger为林戈这项工作得到了欧盟（FP6 HeartRepair 018630）的支持。

工具书类

Ren B、Robert F、Wyrick JJ、Aparicio O、Jennings EG、Simon I、Zeitlinger J、Schreiber J、Hannett N、Kanin E、Volkert TL、Wilson CJ、Bell SP、Young RA。DNA结合蛋白的全基因组定位和功能。科学。2000;290:2306–9.[公共医学][谷歌学者]
Gentleman RC、Carey VJ、Bates DJ、Bolstad BM、Dettling M、Dudoit S、Ellis B、Gautier L、Ge Y、Gentry J、Hornik K、Hothorn T、Huber W、Iacus S、Irizarry R、Leisch F、Li C、Maechler M、Rossini AJ、Sawitzki G、Smith C、Smyth GK、Tierney L、Yang YH、Zhang J.生物导体：计算生物学和生物信息学的开放软件开发。基因组生物学。2004;5：R80。 [PMC免费文章][公共医学][谷歌学者]
Irizarry RA、Gautier L、Bolstad BM、Miller C、Astrand M、Cope LM、Gentleman R、Gentry J、Halling C、Huber W、MacDonald J、Rubinstein BIP、Workman C、Zhang J。affy：Affymetrix寡核苷酸阵列方法[R软件包版本1140]
Zheng M、Barrera LO、Ren B、Wu YN。ChIP-ChIP：数据、模型和分析。生物识别。 http://www.blackwellsynergy.com/doi/abs/10.111/j.1541-0420.2007.00768.x[公共医学]
Johnson WE、Li W、Meyer CA、Gottardo R、Carroll JS、Brown M、Liu XS。ChIP-ChIP平铺阵列的基于模型的分析。美国国家科学院程序。2006;103:12457–12462. [PMC免费文章][公共医学][谷歌学者]
Ji H，Wong WH.（吉赫、王伟）。TileMap：创建平铺阵列杂交的染色体图。生物信息学。2005;21:3629–36.[公共医学][谷歌学者]
Scacheri PC、Crawford GE、Davis S.NimbleGen阵列上ChIP-ChIP和DNase超敏实验的统计数据。方法酶制剂。2006;411:270–282.[公共医学][谷歌学者]
转录因子全基因组定位的KelešS.混合建模。生物计量学。2007;63:10–21.[公共医学][谷歌学者]
Buck MJ、Nobel AB、Lieb JD。ChIPOTle：用于分析ChIP-ChIP数据的用户友好工具。基因组生物学。2005;6：R97。 [PMC免费文章][公共医学][谷歌学者]
绅士R，伊哈卡R.R：一种用于数据分析和图形的语言。计算与图形统计杂志。1996;5:299–314.H（H）网址：//www.r-project.org [谷歌学者]
Smyth GK公司。Limma：微阵列数据的线性模型。作者：绅士R、凯里V、胡贝尔W、伊里扎里R、杜多伊特S，编辑。使用R和生物导体的生物信息学和计算生物学解决方案。施普林格；2005年，第397–420页。[谷歌学者]
杨玉华，Paquet AC。预处理双色斑点阵列：质量评估。作者：绅士R、凯里V、胡贝尔W、伊里扎里R、杜多伊特S，编辑。使用R和生物导体的生物信息学和计算生物学解决方案。施普林格；2005年，第57-62页。[谷歌学者]
Huber W，von Heydebreck A，Sültmann H，Poustka A，Vingron M.方差稳定应用于微阵列数据校准和差异表达定量。生物信息学。2002;18：S96–S104。[公共医学][谷歌学者]

文章来自BMC生物信息学由提供BMC公司