海根

HykGene:利用微阵列基因表达数据选择表型分类标记基因的杂交方法。动机:最近的研究表明,微阵列基因表达数据对许多疾病的表型分类是有用的。这种分类的一个主要问题是特征(基因)的数量大大超过了实例(组织样本)的数量。研究表明,选择少量的信息基因可以提高分类精度。针对这一基因选择问题,人们提出了许多方法。以往大多数基因排序方法通常选择50-200个排名靠前的基因,这些基因往往高度相关。我们的目标是选择一小组非冗余标记基因,它们与分类任务最相关。结果:为了实现这一目标,我们开发了一种新的混合方法,结合基因排序和聚类分析。在该方法中,我们首先应用特征过滤算法筛选出一组排名靠前的基因,然后对这些基因进行层次聚类,生成树状图。最后,用扫描线算法分析树状图,并通过压缩密集聚类选择标记基因。使用三个公共数据集的实证研究表明,与直接使用排名靠前的基因进行分类的方法相比,我们的方法能够选择相对较少的标记基因,同时提供相同或更好的漏检交叉验证精度。可用性:HykGene软件在http://www.cs.dartmouth.edu/wyh/软件。热媒