×

比较单变量和多变量分类方法得出的基因表达谱的特征。 (英语) 兹比尔1276.92033

摘要:基因表达阵列的一个应用是推导分子图谱,即基因集,它们可以很好地区分两类样本,例如肿瘤类型。用户面临着多种复杂度不同的分类方法,可以应用于此任务。为了帮助决定在特定情况下使用哪种方法,我们比较了一系列分类方法的重要特征,包括简单的单变量过滤、惩罚似然方法和随机森林。
分类准确性是一个重要特征,但分子谱的生物学解释性也很重要。这意味着简约性和稳定性,也就是说,当训练数据发生微小变化时,配置文件不应变化太大。我们进行了一项随机重采样研究,以比较不同方法和不同剖面尺寸之间的这些特征。我们通过采用Jaccard指数来评估重采样分子剖面的相似性来衡量稳定性。
我们对五个公认的癌症微阵列数据集进行了案例研究,其中两个数据集的优势在于能够在独立的数据集中验证结果。研究表明,与不包括变量选择的方法相比,生成简约轮廓的方法通常具有更好的预测精度。对于非常小的轮廓尺寸,稀疏惩罚似然方法往往比单变量滤波产生更稳定的轮廓,同时保持相似的预测性能。

MSC公司:

92C40型 生物化学、分子生物学
62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接