跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC生物信息学。2005; 6: 150.
在线发布2005年6月16日。 数字对象标识:10.1186/1471-2105-6-150
预防性维修识别码:项目经理1177927
PMID:15960854

AnovArray:一组用于分析基因表达数据方差的SAS宏

摘要

背景

在微阵列和宏阵列数据的复杂实验设计中,方差分析是识别差异表达基因的有力方法。方差分析模型的优点是可以在实验中评估多个变异来源。

结果

AnovArray是一个使用SAS实现基因表达数据方差分析的软件包®统计软件。该软件包的独创性在于:1)将所有基因上的不同变异源量化,2)对模型进行质量控制,3)提出两个基因方差估计模型,并对多次比较进行校正。

结论

AnovArray免费提供于http://www-mig.jouy.inra.fr/stat/AnovArray并且只需要SAS®统计软件。

背景

宏阵列和微阵列实验是同时研究数千个基因的强大技术。这些技术可以有效地识别两个或多个样本(条件)之间差异表达的基因。然而,实验的复杂性可能需要一个包含不同类型重复的实验设计。方差分析(ANOVA)是一种非常适合的统计方法,用于分析依赖于多种变异来源的基因表达([1-])。它允许决定哪些影响是重要的,并对其进行评估。方差分析的一大兴趣是在考虑到与其他实验因素的相互作用的情况下,估计因基因因素引起的变化。

最近,开发了几种工具来对基因表达数据进行方差分析(库YASMA[4]用R,MAANOVA书写[5]用日内瓦R和Matlab编写[6]用JAVA编写,…)。与这些工具相比,我们提出了三项改进:控制质量程序、两种基因方差估计模型的选择以及多重比较的额外修正。

实施

语言选择

AnovArray软件包是一种灵活的工具,用于进行方差分析。它是在SAS开发的®统计语言,以便利用统计功能和强大的数据管理。感谢SAS®假设所有基因都具有相同的方差,AnovArray可以量化基因效应及其与其他因素的相互作用。R中实现的方差分析方法基于矩阵反演,无法在包含数千个基因的大型数据集上产生结果。对于平衡析因设计,SAS中实现的方差分析方法®提供了方差分析表和一些统计数据(平均值、效果测试等)。我们的软件包使用这些统计数据并提供额外的统计数据,以便量化和估计这些因素,并识别差异表达的基因。此外,AnovArray软件包还具有所有SAS的优点®进一步分析的可能性(聚类、监督分类、奇异值分解、回归等)。

方差分析模型

AnovArray是一组五个SAS®宏:全球分析、调整、清理数据、差异分析和比较它致力于平衡实验设计中的方差分析。用户定义的方差分析模型用于宏global_analsis和differential_analsis。在宏观全球分析中,方差分析模型包括因子“基因”及其与其他因子的相互作用。与为每个基因定义模型相比,该模型是对所有基因一起执行的,这使得该模型在估计实验因素方面更加强大。如有必要,用户可以考虑几个模型,以测试可能的实验因素的影响。

为了识别差异表达的基因,AnovArray提供了两种方差模型:同质模型(HOM)和异质模型(HET)。在同质模型中,所有基因都有相同的方差,而在异质模型中,每个基因都有自己的方差。如果HOM假设是可以接受的,那么差异表达基因检测的能力就更大,特别是当只有很少的重复出现时。

质量控制

AnovArray包含用于评估用户在宏global_analysis中定义的方差分析模型的质量的设施。首先,经典方差分析表给出了每个因素引起的变异性估计。此表允许用户对最重要的因素进行分类。其次,可以图形化地检查模型假设(图(图2)2)由用户决定。该模型假设残差服从高斯分布,是独立的,并且具有相同的方差。通常,数字图2a,2a个,允许检查残差是否接近零并且没有显示任何结构。图2b2亿描述了两种检查残差分布的图形:通过在残差直方图上拟合高斯分布和使用Q-Q图(残差分布分位数与高斯分布分位数的图)。残差具有相同方差(以及基因)的假设通过拟合齐方分布(图(图2c)。2厘米). 这些图表也可以非常有用地描述哪些实验因素影响特定基因。如果模型适应良好,用户可以进行差异表达基因的鉴定。如果不是,用户必须识别不满足模型假设的基因亚组(非典型基因),或者重新考虑模型中包含的因素。因此,得益于AnovArray,可以使用adjust宏纠正图形表示中确定的不良影响,并使用cleandata宏删除一组具有非典型行为的基因。

保存图片、插图等的外部文件。对象名为1471-2105-6-150-2.jpg

宏global_analysis生成的图形残差与预测、高斯分布和方差分布chi2。

使用方法

该软件包的五个宏可以单独使用,也可以按照图中所述的策略分析所示的方式协同使用图1。1方差分析模型在宏中定义全球分析由用户执行。该宏计算经典方差表,该表允许识别对解释观察到的基因表达差异很重要的因素。如前一节所述,图中描述了几个图图22可用于检查模型假设:方差同质性和残差的高斯分布。这些图表还可以非常有用地突出哪些实验因素影响基因亚群。可以测试多个模型,质量控制设施(方差分析表中的统计数据、图表)允许选择哪一个更准确。根据宏global_analysis给出的结果,可能需要使用宏调整清除数据。然后,宏观调整将允许系统地删除宏观全局分析获得的图形中观察到的不良影响(因素)。以同样的方式,宏清理数据可以删除不尊重模型假设的基因。我们建议在使用宏之前使用此迭代过程(global_analysis、cleandata和adjust)差异分析该过程的目的是确保数据与模型拟合良好,并满足模型假设。这个过程对于获得差异表达基因的可靠结果非常重要。

保存图片、插图等的外部文件。对象名为1471-2105-6-150-1.jpg

AnovArray包。AnovArray包:主要宏的使用映射。

如前一节所述,该软件包还允许在两个假设下进行差异分析:要么基因具有相等的方差(同质模型–HOM),要么每个基因具有自己的方差(异质模型–HET)。宏观差异分析使用p值和调整后的p值统计数据,生成在几个实验条件下差异表达的基因列表。p值定义为拒绝空假设的概率{如果为真,交互基因x条件为空。}。在假设所有基因都有相同的方差和假设每个基因都有自己的方差的情况下,计算每个基因的P值。通过使用多重比较修正FDR[7](错误发现率),如果调整后的p值低于用户给定的显著性水平,则基因会有差异表达。

最后,宏比较能够以图形方式比较两个方差模型获得的结果。在某种程度上,齐次方差假设下的调整p值与异质方差假设下调整p值的曲线图表明了可能不满足方差齐次假设的基因。

总结一下AnovArray包允许连续使用不同的anova模型(主效应及其交互作用),以便构建一种自适应的基因表达数据分析方法。

结果和讨论

AnovArray已用于分析由72个膜杂交产生的宏阵列数据集。该数据集包含1920个牛胚胎cDNA片段在三种复杂样品制备条件下在两种组织(卵巢、大脑)中的表达水平。事实证明,该软件包对于识别两种组织和三种复杂样品制备方案(Degrelle等人,manuscrit in preparation)之间差异表达的基因非常有用且快速。特别是,方差分析模型强调了基因与样品制备方法、基因与组织、基因与样品与组织之间存在相互作用。该分析强调了样品制备可能会影响差异分析结果。

手册中描述的数据集是前一个数据集的子集。实验框架是保守的,只保留了六种膜上的杂交。从牛组织A和B中获得的三个样本在一个宏阵列膜上杂交。创建包含1525 cDNA的数据集是为了使用AnovArray包。该分析的目的是检测组织间差异表达的基因。所使用的方差模型为

Y(Y)热传导指数=μ+α+β+γ热重(tg)+ε热传导指数

哪里Y(Y)热传导指数第个组织t中g基因的观察,μ是平均效果,α是组织t对{A,B}中t的影响,β是1525个水平的基因g的作用,γ热重(tg)组织t和基因g之间的相互作用,以及ε热传导指数是残余误差。该模型假设残差ε热膨胀指数独立且正态分布,方差和均值均为零(ε热传导指数~保存图片、插图等的外部文件。对象名为1471-2105-6-150-i1.gif(0,σ2))如果方差是齐次的,或(ε热传导指数~保存图片、插图等的外部文件。对象名为1471-2105-6-150-i1.gif(0,保存图片、插图等的外部文件。对象名为1471-2105-6-150-i2.gif))如果方差是异质的。为了进行差异分析,我们测试了无效假设{相互作用γ热重(tg)为空}。Fisher统计是在齐次(相对非齐次)模型中使用方差计算的σ2(分别为。保存图片、插图等的外部文件。对象名为1471-2105-6-150-i2.gif). Fisher检验的功效取决于方差估计的准确性,估计至少需要六个度量保存图片、插图等的外部文件。对象名为1471-2105-6-150-i2.gif根据方差同质性假设,发现两个基因在两个组织之间存在差异表达,而根据方差异质性假设,没有发现差异表达。方法和统计信息在用户指南中进行了描述,该指南位于http://www-mig.joy.inra.fr/stat/AnovArray.

结论

我们提出了一种基于方差分析的微阵列和宏阵列分析工具。该软件包包含一些有用的图表,用于描述和分析微阵列和宏阵列数据。它允许评估偏差来源、模型的假设(残差分布、方差分布)。它还使用错误发现率(FDR)给出了两种以上条件下差异表达基因的列表。

我们未来的发展将涉及到混合模型的扩展和其他多重校正方法的添加。

可用性和要求

项目名称:AnovArray:一组SAS宏,用于分析基因表达数据的方差。

项目主页:http://www-mig.joy.inra.fr/stat/AnovArray

操作系统:独立于平台

编程语言:SAS公司®

其他要求:SAS公司®8.01版,带有模块BASE SAS、SAS/Stat和SAS/Graph。

许可证:

非学术用户使用的任何限制:引用

作者的贡献

KP开发了该软件。CHA、HC、FR和SR构思了该研究,并参与了其设计和协调。SD、IH、JPR提供了实验数据集和测试软件。

工具书类

  • Kerr M,Martin M,Churchill G.基因表达微阵列数据的方差分析。计算生物学杂志。2000. [公共医学]
  • Sekowska A,Robin S,Daudin J,Hénaut A,Danchin A.从DNA阵列中提取生物信息:精氨酸和蛋氨酸代谢之间的意外联系枯草芽孢杆菌.基因组生物学。2001[PMC免费文章][公共医学]
  • Draghici S.公司。用于DNA微阵列、CHAPMAN和HALL/CRC的数据分析工具。2003年,第155-187页。
  • YASMA图书馆http://people.cryst.bbk.ac.uk/~wernisch/yasma.html
  • MAANOVA软件http://www.jax.org/staff/churchill/labsite/software/anova
  • Didier G,Brézellec P,Remy E,Hénaut A.基因ANOVA-gene表达方差分析。生物信息学。2002. [公共医学]
  • Benjamini Y,Hochberg Y。控制错误发现率:一种实用且强大的多重测试方法。英国皇家统计学会学报B。1995

文章来自BMC生物信息学由以下人员提供BMC公司