曼努埃拉·扎克尼克;西尔维亚·理查森;尤安·斯特罗纳(Euan A.Stronach)。 比较单变量和多变量分类方法得出的基因表达谱的特征。 (英语) 兹比尔1276.92033 统计应用程序。遗传学。分子生物学。 7,第1号,第7条,第32页(2008年). 摘要:基因表达阵列的一个应用是推导分子图谱,即基因集,它们可以很好地区分两类样本,例如肿瘤类型。用户面临着多种复杂度不同的分类方法,可以应用于此任务。为了帮助决定在特定情况下使用哪种方法,我们比较了一系列分类方法的重要特征,包括简单的单变量过滤、惩罚似然方法和随机森林。分类准确性是一个重要特征,但分子谱的生物学解释性也很重要。这意味着简约性和稳定性,也就是说,当训练数据发生微小变化时,配置文件不应变化太大。我们进行了一项随机重采样研究,以比较不同方法和不同剖面尺寸之间的这些特征。我们通过采用Jaccard指数来评估重采样分子剖面的相似性来衡量稳定性。我们对五个公认的癌症微阵列数据集进行了案例研究,其中两个数据集的优势在于能够在独立的数据集中验证结果。研究表明,与不包括变量选择的方法相比,生成简约轮廓的方法通常具有更好的预测精度。对于非常小的轮廓尺寸,稀疏惩罚似然方法往往比单变量滤波产生更稳定的轮廓,同时保持相似的预测性能。 引用于6文件 MSC公司: 92C40型 生物化学、分子生物学 62页第10页 统计学在生物学和医学中的应用;元分析 62H30型 分类和区分;聚类分析(统计方面) 关键词:微阵列;分子特征;分类;多元分析;惩罚可能性 PDF格式BibTeX公司 XML格式引用 \textit{M.Zucknick}等人,《统计应用》。遗传学。分子生物学。7,第1号,第7条,第32页(2008年;Zbl 1276.92033) 全文: 内政部 链接