跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https公司

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2001年10月;17(10):977-87.
doi:10.1093/bioinformatics/17.10.977。

基于模型的基因表达数据聚类和数据转换

附属公司

基于模型的基因表达数据聚类和数据转换

K Y杨等。 生物信息学. 2001年10月.

摘要

动机:聚类是分析基因表达数据的一种有用的探索性技术。在此背景下,提出了许多不同的启发式聚类算法。基于概率模型的聚类算法为启发式算法提供了一种原则性的替代方案。特别是,基于模型的聚类假设数据是由基本概率分布(如多元正态分布)的有限混合生成的。在概率框架中,选择“好的”聚类方法和确定“正确的”聚类数的问题被简化为模型选择问题。高斯混合模型在许多应用中被证明是一种强大的聚类工具。

结果:我们对基于模型的聚类在几个合成和真实的基因表达数据集上的性能进行了基准测试,这些数据集具有外部评估标准。基于模型的方法在我们的合成数据集上具有卓越的性能,能够始终如一地选择正确的模型和簇数。在实际表达数据上,基于模型的方法生成的聚类质量与领先的启发式聚类算法相当,但其主要优点是建议了聚类数量和合适的模型。我们还探讨了高斯混合假设对实际数据不同变换的有效性。我们还评估了这些真实基因表达数据集在对其进行常用数据转换之前和之后拟合多变量高斯分布的程度。适当选择的转换似乎会产生合理的匹配。

可用性:MCLUST位于http://www.stat.washington.edu/fraley/clust。对角线模型的软件正在开发中。

联系人:kayee@cs.washington.edu。

补充信息:http://www.cs.washington.edu/home/kayee/model。

PubMed免责声明

类似文章

引用人

出版物类型

LinkOut-更多资源