×

eSPA+:针对小数据问题的可扩展熵最优机器学习分类。 (英语) Zbl 1492.68117号

小结:小数据领域(小数据统计(T)和相对较大的特征空间维(D))中的分类问题给常见的机器学习(ML)和深度学习(DL)工具带来了挑战。这些领域的标准学习方法在应用于数据点明显少于维度的数据集时,往往表现出缺乏稳健性,并很快达到过拟合界限,从而导致超出训练集的性能较差。为了解决这个问题,我们提出了eSPA+,这是最近制定的熵最优可扩展概率近似算法(eSPA)的一个重要扩展。具体来说,我们建议更改优化步骤的顺序,并用eSPA的封闭式解决方案替换计算成本最高的子问题。我们证明,通过这两个增强,eSPA+从多项式转移到线性类复杂度缩放算法。在几个小型数据学习基准测试中,我们表明,与eSPA相比,eSPA+算法实现了四倍的加速,并且与大量的ML和DL工具相比,性能更佳。特别是,我们将eSPA+与标准eSPA和小数据领域中的主要常见学习算法进行基准测试:各种形式的支持向量机、随机森林和长短期记忆算法。在所有考虑的应用程序中,eSPA+显著优于常用学习方法和eSPA,它实现了显著更高的预测精度,并且计算成本更低。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部