摘要

总结::数据质量评估是微阵列分析中的一个主要问题。arrayQualityMetrics是一个生物导体软件包,为一个或两个彩色微阵列数据提供带有诊断图的报告。质量指标评估再现性,识别明显的异常阵列,并计算信噪比测量值。该工具可处理大多数最新的微阵列技术,可用于自动分析管道或自动生成报告,也可供个人使用。原则上,质量诊断仍然是一种依赖于环境的判断,但我们的工具提供了强大的、自动化的、客观的和全面的工具,可作为决策的基础。

可利用性::arrayQualityMetrics是一个免费的开源软件包,在LGPL许可下,可从Bioconductor项目获得,网址为www.bioconductor.org包中提供了用户指南和示例。arrayQualityMetrics生成的HTML报告的一些示例可以在http://www.microray-quality.org

联系人::audrey@ebi.ac.uk

补充信息::补充数据可在生物信息学在线。

1简介

由于微阵列数据质量在微阵列实验处理的每个步骤都会受到影响(Schuchhardt.,2000),质量评估是分析的一个组成部分。有一些免费的工具可以对特定的微阵列类型进行质量评估,例如Affymetrix(Parman和Halling,2005),Illumina(邓宁.,2007)和双色cDNA阵列(布内斯.,2005). 其他免费工具旨在识别特定问题,其中包括现场质量(Li.,2005)或杂交质量(Petri.,2004). 一些工具根据之前完成的质量指标执行离群值检测(Freue.,2007)或提出交互式质量图(Lee.,2006). 我们开发了一种生物导体(绅士.,2004)包arrayQualityMetrics,目的是提供一个全面的工具,可以在所有表达式数组和平台上工作,并生成可以通过web交付的自包含报告。这个补充表格显示了与质量评估或异常值检测相关的其他生物导体包的功能和范围的比较。

2说明

输入:要使用arrayQualityMetrics包执行分析,需要提供微阵列强度矩阵,以及类的Bioconductor对象中样本和探针的可选信息Affy批处理,表达式集,N信道集珠子级别列表这些类得到了广泛的使用,并且有很好的文档记录。调用arrayQualityMetrics函数来创建报告的方式对于所有这些类都是一样的,它可以应用于原始数组强度以及规范化数据。将质量指标应用于原始强度,有助于监测实验程序和选择标准化程序;规范化数据的应用与评估数据在下游分析中的效用更为相关。

单个阵列质量:MA图允许评估强度水平和比率分布之间的相关性(图1a)(Dudoit.,2002). 对于双色阵列M(M)-值是两个强度和A类-值是其对数的平均值。对于单色阵列M(M)-该值是通过将强度除以所有阵列中相同探头的中值强度来计算的。每个阵列的特征强度空间分布的假彩色表示(图1b)有助于识别可能由混合室中的梯度、气泡或打印问题等引起的空间效应。

阵列之间的均匀性:评估阵列之间的一致性,对数的箱线图2给出了强度和密度估算图(图1c)。

阵列间比较:图1d显示了阵列间距离的热图,计算为M(M)-每对数组的值
(1)
哪里M(M)xi(西)M(M)-的值-第个探测器x个-第个数组。
考虑M(M)xi(西).
(2)
哪里z(z)是探针的探针效应(所有阵列相同),εxi(西)是均值为零和β的i.i.d随机变量xi(西)是表示差异表达效果的稀疏矩阵。在这些假设下,所有值d日xy公司近似相同,与此的偏差可用于识别离群值数组。树状图可以用来检查实验是否按照样本类别进行聚类。

Affymetrix特定图:如果输入对象是Affy批处理.affy包中的RNA降解图(Gautier.,2004)、、affyPLM包(Brettschneider)中的相对对数表达式(RLE)箱线图和标准化非标度标准误差(NUSE)箱线.,2007)以及来自简单包的QC统计图(Wilson和Miller,2005)代表。

图1。

()安捷伦微阵列的MA-plot。这个M(M)-值不是以零为中心,这意味着强度和对数比率之间存在依赖关系。(b条)Illumina芯片的绿色通道背景的空间分布。阵列顶部边缘有一个异常的高强度分布。(c(c))Affymetrix阵列集合(E-GEOD-349 ArrayExpress集合)的对数密度图。其中一个阵列的密度在x个-轴。(d日)ArrayExpress Affymetrix数据集E-GEOD-1571的热图。数组18是一个异常值。

分数:为了指导报告的解释,我们包含了与绘图相关的数字分数的计算。在MA-plot、特征强度的空间分布、箱线图、热图、RLE和NUSE上检测异常值。绝对值的平均值M(M)为每个数组计算,而那些位于箱线图胡须极值之外的数组被视为可能的异常值数组。同样的方法,即使用箱线图的晶须,应用于以下方面:箱线图和NUSE的平均和四分位范围(IQR)、距离矩阵行的总和,以及傅里叶变换的低频分量与高频分量的相对振幅。在RLE图的情况下,任何中值RLE高于0.1的数组都被视为异常值。

报告:指标在详细报告中以带有图例的数字呈现,分数用于提供汇总表。报告示例见http://www.microray-quality.org/quality_metrics.html.

3结论

arrayQualityMetrics支持R中多种类型微阵列的质量评估。准备数据后,使用单个命令行创建报告。arrayQualityMetrics的主要优点是使用简单,能够为不同类型的平台提供相同的报告,并且用户或开发人员有机会根据自己的需要对其进行扩展。此工具可用于单个数据分析或常规数据生产管道,以提供快速统一的报告。

我们要感谢我们正在使用的R和Bioconductor软件包的开发人员,特别是Ben Bolstad、Mark Dunning、Crispin Miller、Gregoire Pau和Deepayan Sarkar。

基金:EU FP6(EMERALD,项目编号:LSHG-CT-2006-037686 to A.K.)。美国国立卫生研究院(P41HG004059 R.G.)

利益冲突:未声明。

参考文献

布雷特施奈德
J
短寡核苷酸阵列的质量评估
arXiv:0710.0178v2。
2007
布内斯
A类
阵列{M} 敏捷:双色c{DNA}微阵列质量控制和预处理
生物信息学
2005
,卷。 
21
(第
554
-
556
)
迪杜瓦
S公司
重复cdna微阵列实验中差异表达基因识别的统计方法
《中国统计》
2002
,卷。 
12
(第
111
-
139
)
催款
美赞臣
beadarray:R类和方法{一} 意大利基于珠子的数据
生物信息学
2007
,卷。 
23
(第
2183
-
2184
)
弗雷
全球价值链
MDQC:一种基于质量控制报告的微阵列质量评估新方法
生物信息学
2007
,卷。 
23
(第
3162
-
3169
)
戈蒂埃
L(左)
affy–在探针水平上分析affymetrix基因芯片数据
生物信息学
2004
,卷。 
20
(第
307
-
315
)
绅士
钢筋混凝土
生物导体:计算生物学和生物信息学的开放软件开发
基因组生物学。
2004
,卷。 
5
第页。 
80兰特
 
电子-K
阵列{QC}图:用于检查微阵列数据质量的软件
生物信息学
2006
,卷。 
22
(第
2305
-
2307
)
甜甜圈、划痕和空白:基于模型的微阵列图像稳健分割
生物信息学
2005
,卷。 
21
(第
2875
-
2882
)
帕尔曼
C类
哈林
C类
affyQCReport:affyBatch对象的QC报告生成。
2005
 
R包版本1.17.0
佩特里
A类
阵列放大器:一种串行DNA微阵列质量分析仪
BMC生物信息学
2004
,卷。 
5
第页。 
12
 
舒赫哈特
J
c{DNA}微阵列的标准化策略
核酸研究
2000
,卷。 
28
第页。 
第47页
 
威尔逊
米勒
希杰
Simpleafy:用于{A} ffm曲线质量控制和数据分析
生物信息学
2005
,卷。 
21
(第
3683
-
3685
)

作者注释

副主编:David Roke

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。

补充数据