摘要

动机:通过聚类分析确定微阵列数据中的共同表达模式是揭示研究中生物过程的分子机制的有效方法。使用实验重复通常可以通过减少测量值的实验可变性来提高聚类分析的精度。在这种情况下,贝叶斯混合允许通过精确地建模复制之间的可变性来有效地使用信息。

结果:我们开发了基于贝叶斯混合的不同变体聚类程序,用于用实验重复数据聚类基因表达数据。在这种方法中,微阵列数据的统计分布由贝叶斯混合模型描述。共表达基因簇是根据簇的后验分布创建的,这是由吉布斯采样器估计的。我们定义了具有不同重复间方差结构的无限和有限贝叶斯混合模型,并通过分析合成数据集和实际数据集来研究其效用。我们的分析结果表明:(1)当重复之间的变异性较高时,仅进行两次实验重复可以显著提高精确度;(2)基因内变异的精确建模对于准确鉴定共表达基因非常重要;(3)具有重复间“椭圆”方差结构的无限混合模型总体表现优于任何其他测试方法。我们还根据“反向退火”原理对吉布斯采样器进行了启发式修改。这种改进有效地克服了吉布斯采样器从不同初始位置开始时收敛到不同后验分布模式的趋势。最后,我们证明了具有“椭圆”方差结构的贝叶斯无限混合模型能够在不知道“正确”簇数的情况下识别数据的底层结构。

可利用性:基于MS Windows™的名为高斯无限混合建模(GIMM)的程序实现了吉布斯采样器和相应的C++代码,可在网址:http://homepages.uc.edu/~medvedm/GIMM.htm

补充信息: http://expression.microsoftlu.washington.edu/expression/kayee/medvedovic2003/medvedavic_bioinf2003.html

*

信件应寄给谁。

作者笔记

1辛辛那提大学医学中心基因组信息中心环境卫生部,地址:3223 Eden Avenue ML 56,Cincinnati,OH 45267-0056,USA;2微生物系,地址:Box 358070,University of Washington,Seattle,WA 98195,USA