图1显示了ChIP-ChIP实验分析的典型工作流程,并指出了生物导体包促进了哪些步骤林戈。的关键功能林戈包括原始数据的导入、质量评估和预处理、原始数据和处理数据的可视化以及富集峰的检测算法。
该包包含将微阵列的原始NimbleScan输出文件读入RGList对象的函数。用户可以选择以RGList格式提供其他原始微阵列数据。这样的对象本质上是一个列表,包含红色和绿色通道的两种杂交的原始强度,以及阵列上探针和分析样本的信息。
林戈包含一组广泛的数据质量评估功能(参见,例如[12]有关双色微阵列数据背景下质量评估方法的概述)。
它的图像功能允许人们观察芯片上强度的空间分布。这有助于检测阵列上的明显瑕疵,例如划痕、亮点、指纹等,这些瑕疵可能会导致部分或所有读数无效。
为了评估穿过染色体的探针平铺是否影响邻近探针的水平,可以查看自相关绘图。对于每个基面偏移d日,它评估了探针在基因组位置的强度x个+d日与位置处的探针强度相关x个。根据偏移量绘制计算的相关性d日(见图2). 对于免疫沉淀或基因组中存在的区域输入样本,在与片段DNA的大小分布相对应的范围内,预计会有较高的自相关。自相关与数据的质量评估相关,并且在随后的统计分析中必须将其考虑在内。
此外,如果数据集包含生物或技术复制,复制样本强度之间的低相关性可能表明微阵列的质量有问题。林戈因此,包含了可视化复制样本的原始和预处理强度之间的相关性的函数。
在对数据进行质量评估后,通常旨在通过以下方式增加数据的信噪比归一化并导出富集样品中探针强度的倍数变化除以非富集输入样品中探针的强度,并取这些比率的(广义)对数。
对于标准化,林戈提供了许多选择,接口预处理方法在Bioconductor包中实现vsn(vsn)[13]和利马再加上NimbleGen建议的对数比的Tukey-biweight缩放。归一化过程产生归一化探针级别的ExpressionSet对象,这是微阵列数据的基本Bioconductor对象类,许多其他Biocondulator包可以轻松与之交互。
此外,需要在微阵列上的探针和基因组位置之间进行映射。林戈使用一组与染色体位置相关的表格来确定阵列上的标识符。该软件包提供了一些脚本,帮助从NimbleGen POS文件或(通常更可取的是)探针序列与感兴趣的基因组的自定义比对中生成这样的表格。
基因组数据分析的一个重要方面是使用许多不同的可视化技术对尽可能多的数据示例进行彻底观察。除了其他R和Bioconductor软件包提供的众多可视化功能外,林戈提供了一个函数,用映射到匹配染色体位置的探针显示对数倍富集的估计值(见图三).
在标准化探针水平上,下一步的目标是确定免疫沉淀样品与未处理输入样品相比显示富集的基因组区域。林戈包含我们开发的启发式算法,用于识别具有特定组蛋白修饰的基因组区域。该算法的细节在软件包vignette中进行了描述。它是建立在平滑的程序:在基因组上相邻的探针之间进行平滑处理通常用于改善数据中探针特异性的可变性,即不同探针以不同的效率测量相同靶DNA量的效果。这可能是由阵列上探针合成的不同质量、探针GC含量、靶cDNA二级结构、交叉杂交和其他原因引起的。浓缩检测程序的一个重要问题是背景信号:一些非抗体结合的DNA可能在免疫沉淀过程中被拉下,从而富集,可能导致假阳性。中的浓缩检测算法林戈是解决这些问题的第一个且足够有效的方法,但还需要进行更多研究以建立最佳方法。