计算机科学>计算与语言
标题: 多模态预训练中视觉关系的弱监督学习
摘要: 最近在视觉和语言预训练方面的工作研究了目标检测数据中的监督信号,以学习更好的细粒度多模态表示。 在这项工作中,我们进一步探索如何从小规模视觉关系数据中挖掘监督功能。 特别是,我们提出了两种预训练方法,以在多模式设置中使视觉实体上下文化。 通过描述场景图,我们将视觉关系三元组转换为结构化字幕,并将其视为附加图像描述。 通过掩蔽关系预测,我们进一步鼓励将图像区域中的实体与视觉掩蔽上下文关联起来。 当应用于对大量Web数据进行预处理的强基线时,粗粒度和细粒度任务的零快照评估都表明了我们的方法在从弱监督关系数据中学习多模态表示的有效性。