×

选择行和列来训练具有大型零售数据集的支持向量回归模型。 (英语) Zbl 1292.62096号

摘要:尽管支持向量回归模型在各种应用中都得到了成功的应用,但具有数百万个观察值和数千个变量的业务数据集的大小使得训练它们变得困难,甚至是不可能解决的。本文介绍了行和列选择算法(ROCSA),以选择一个较小但信息丰富的数据集,用标准的SVM工具训练支持向量回归模型。ROCSA在行和列选择步骤中分别使用对偶变量和原始变量的(epsilon)-SVR模型和(L_{1})-范数正则化。第一步涉及数据块的并行处理,并选择原始观测值的一部分,这些原始观测值要么代表块中识别的模式,要么代表那些不符合识别模式的观测值。列选择步骤显著减少了数据集中的变量数量和多重线性,提高了所得模型的可解释性及其维护的容易性。根据来自两个国家的六个零售数据集和一个公开可用的研究数据集进行评估,当使用标准SVM工具进行训练时,减少的ROCSA训练数据与原始数据集相比,平均提高了39%的预测准确性。与使用简化内核技术的(epsilon)SSVR方法相比,性能得到了类似的改进。与随机抽样的实际方法相比,使用ROCSA选择的观测值训练标准SVM工具平均可提高21%的预测精度。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部