计算机科学>机器学习
标题: 数据增强技术综述
摘要: 数据增强是一系列通过操作现有数据样本生成高质量人工数据的技术。 通过利用数据增强技术,人工智能模型可以在涉及稀缺或不平衡数据集的任务中显著提高适用性,从而大大增强人工智能模型的泛化能力。 现有的文献调查只关注特定类型的特定模态数据,并从特定模态和以操作为中心的角度对这些方法进行分类, 它缺乏跨多种模式的数据增强方法的一致总结,并限制了对现有数据样本如何服务于数据增强过程的理解。 为了弥合这一差距,我们提出了一种更具启发性的分类法,其中包括针对不同通用数据模式的数据增强技术。 具体来说,从以数据为中心的角度来看,本调查通过研究如何利用数据样本之间的内在关系,包括单样本、成对样本和群体样本数据增强方法,提出了一种与模式无关的分类法。 此外,我们通过统一的归纳方法将数据增强方法分为五种数据模式。