计算机科学>计算与语言
标题: 预训练单峰和多峰模型中的视觉常识
摘要: 我们对物体的常识包括其典型的视觉属性; 我们知道香蕉通常是黄色或绿色的,而不是紫色的。 文本和图像语料库受到报道偏见的影响,在不同程度上代表了这种世界性知识。 在本文中,我们研究了单模态(仅语言)和多模态(图像和语言)模型在多大程度上捕获了一系列视觉显著属性。 为此,我们创建了Visual Commonsense Tests(ViComTe)数据集,涵盖5000多个主题的5种属性类型(颜色、形状、材质、大小和视觉共生)。 我们验证了这个数据集,表明我们的基础颜色数据比未基础的纯文本数据与Paik等人提供的众包颜色判断的相关性要好得多。(2021)。 然后,我们使用我们的数据集来评估预训练的单峰模型和多模态模型。 我们的结果表明,多模态模型可以更好地重建属性分布,但仍存在报告偏差。 此外,增加模型大小并不能提高性能,这表明视觉常识的关键在于数据。