计算机科学>计算机视觉和模式识别
标题: 多模态视觉监控对语言有益吗?
摘要: 视觉(图像和视频)-语言(VL)预训练是最近流行的范式,在图像检索、视频检索、视觉问答等多模态任务中取得了最先进的结果。这些模型是以无监督的方式进行训练的,并从互补模态监督中受益匪浅。 在本文中,我们探讨了在自然语言理解和常识推理基准上,使用视觉监督训练的语言表征是否比普通语言表征表现得更好。 我们实验了一组不同的图像文本模型,如ALBEF、BLIP、METER和视频文本模型,如ALPRO、Frozen in Time(FiT)、VIOLET。 我们比较了这些模型中独立文本编码器的语言表示与通过视觉监控学习的文本编码器语言表示的性能。 我们的实验表明,普通语言表示在大多数任务中表现出优异的性能。 这些结果揭示了视觉语言模型当前的缺陷。