曼纽尔·费尔南德斯·德尔加多;伊娃·塞尔纳达斯;塞恩·巴罗;迪纳尼·阿莫林 我们需要数百个分类器来解决实际的分类问题吗? (英文) Zbl 1319.62005号 J.马赫。学习。物件。 15, 3133-3181 (2014). 摘要:我们评估了17个家族中的179个分类器(判别分析、贝叶斯、神经网络、支持向量机、决策树、基于规则的分类器、boosting、bagging、stacking、随机森林和其他集合、广义线性模型、最近邻、偏最小二乘和主成分回归、logistic和多项式回归、多重自适应回归n样条和其他方法),在Weka、R(有或没有插入符号包)、C和Matlab中实现,包括目前可用的所有相关分类器。我们使用代表整个UCI数据库(不包括大规模问题)和其他自身实际问题的121个数据集,以获得关于分类器行为的重要结论,而不依赖于数据集的收集。最有可能成为最佳分类器的是随机森林(RF)版本,其中最佳分类器(在R中实现并通过插入符号访问)达到最大准确度的94.1%,在84.3%的数据集中克服了90%。然而,与次优的支持向量机(高斯核支持向量机,使用LibSVM在C语言中实现)相比,差异没有统计学意义,达到了最大准确度的92.3%。有几个模型明显优于其余的模型:随机森林、高斯核和多项式核的SVM、高斯核的极限学习机、C5.0和avNNet(使用插入符号包在R中实现的多层感知器委员会)。随机森林显然是最好的分类器家族(5个最佳分类器中有3个是RF),其次是SVM(前10名中有4个分类器)、神经网络和增强集合(前20名中分别有5个和3个成员)。 引用于76文件 MSC公司: 62-07 数据分析(统计)(MSC2010) 62H30型 分类和区分;聚类分析(统计方面) 68T05型 人工智能中的学习和自适应系统 关键词:分类;UCI数据库;随机森林;支持向量机;神经网络;决策树;合奏;基于规则的分类器;判别分析;贝叶斯分类器;广义线性模型;偏最小二乘与主成分回归;多重自适应回归样条;最近邻;logistic回归与多项式回归 软件:第48页;对;Matlab公司;LIBLINEAR银行;HD等级;4.5条;UCI-毫升;rrcov公司;威卡;插入符号;利比亚支持向量机 PDF格式BibTeX公司 XML格式引用 \文本{M.Fernández-Delgado}等人,J.Mach。学习。第15号决议,3133-3181(2014年;Zbl 1319.62005) 全文: 链接