×

我们需要数百个分类器来解决实际的分类问题吗? (英文) Zbl 1319.62005号

摘要:我们评估了17个家族中的179个分类器(判别分析、贝叶斯、神经网络、支持向量机、决策树、基于规则的分类器、boosting、bagging、stacking、随机森林和其他集合、广义线性模型、最近邻、偏最小二乘和主成分回归、logistic和多项式回归、多重自适应回归n样条和其他方法),在Weka、R(有或没有插入符号包)、C和Matlab中实现,包括目前可用的所有相关分类器。我们使用代表整个UCI数据库(不包括大规模问题)和其他自身实际问题的121个数据集,以获得关于分类器行为的重要结论,而不依赖于数据集的收集。最有可能成为最佳分类器的是随机森林(RF)版本,其中最佳分类器(在R中实现并通过插入符号访问)达到最大准确度的94.1%,在84.3%的数据集中克服了90%。然而,与次优的支持向量机(高斯核支持向量机,使用LibSVM在C语言中实现)相比,差异没有统计学意义,达到了最大准确度的92.3%。有几个模型明显优于其余的模型:随机森林、高斯核和多项式核的SVM、高斯核的极限学习机、C5.0和avNNet(使用插入符号包在R中实现的多层感知器委员会)。随机森林显然是最好的分类器家族(5个最佳分类器中有3个是RF),其次是SVM(前10名中有4个分类器)、神经网络和增强集合(前20名中分别有5个和3个成员)。

MSC公司:

62-07 数据分析(统计)(MSC2010)
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 链接