计算机科学>计算机视觉和模式识别
标题: 数据处理在图像字幕中的作用
摘要: 图像字幕模型通常通过平等对待所有样本来训练,忽略了不匹配或其他困难的数据点。 相比之下,最近的研究表明,通过使用课程学习策略安排数据,培训模型是有效的。 本文通过在不增加样本总数的情况下积极管理数据集中的困难样本,为这一方向做出了贡献。 我们探讨了在培训过程中使用三种数据管理方法的效果:完全删除样本、字幕替换或通过文本到图像生成模型进行图像替换。 在Flickr30K和COCO数据集上使用BLIP和BEiT-3模型进行的实验表明,这些管理方法确实产生了改进的图像字幕模型,突出了它们的功效。