了解数据增强的有害类级影响

的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道

Bibtex公司 纸类 补充的

作者

波琳娜·基里琴科(Polina Kirichenko)、马克·易卜拉欣(Mark Ibrahim

摘要

数据增强(DA)对不变性进行编码,并提供对模型在图像分类任务中的性能至关重要的隐式正则化。然而,虽然DA提高了平均准确度,但最近的研究表明,它的影响可能高度依赖于类别:实现最佳平均准确度的代价是在ImageNet上大大降低单个类别的准确度达20%。由于对这些影响的了解有限,在解决类级精度下降方面进展甚微。在这项工作中,我们提出了一个框架来理解DA如何与课堂学习动力相互作用。使用ImageNet上的高质量多标签注释,我们系统地对受影响的类进行了分类,发现大多数类具有内在的模糊性、共现性或涉及细粒度差异,而DA控制了模型对其中一个密切相关类的偏向。虽然之前报告的许多性能下降都是由多标签注释解释的,但我们通过分析类混淆来确定精度下降的其他来源。我们表明,由我们的框架提供的简单类条件扩充策略可以提高受负面影响的类的性能。