×

非参数统计检验在多数据集分类器比较中的重要性。 (英文) Zbl 1453.62473号

摘要:在机器学习中,生成新算法或在大多数情况下对现有算法进行微小修改是一项常见的任务。在这种情况下,需要对不同算法的结果进行严格和正确的统计分析,以便根据要解决的问题选择准确的技术。与这种必要性相关的主要不便是缺乏适当的统计技术汇编。在本文中,我们建议使用两种重要的非参数统计检验,即Wilcoxon符号秩检验来比较两个分类器,以及Friedman检验和相应的事后检验来比较多个数据集上的多个分类器。我们还引入了一种新的非参数检验变体,称为Scheffe检验,用于在给定数据集大小不相等时定位多个分类器的性能均值的不相等对。之前用于比较多个分类器的参数测试也进行了简要描述。提出的非参数测试也应用于UCI机器学习数据库中十个实际问题数据集的分类结果(网址:http://www.ics.uci.edu/mlearn)(Valdovinos和Sanchez,2009)作为案例研究。

MSC公司:

62G10型 非参数假设检验
2007年6月62日 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部