Is Multimodal Vision Supervision Beneficial to Language?

Madasu, Avinash; Lal, Vasudev

计算机科学>计算机视觉和模式识别

arXiv:2302.05016（cs）

【提交日期：2023年2月10日(第1版)，上次修订日期：2023年4月15日（本版本，v2）]

标题：多模态视觉监控对语言有益吗？

作者：阿维纳什·马达苏,瓦苏德夫·拉尔

查看PDF

摘要：视觉（图像和视频）-语言（VL）预训练是最近流行的范式，在图像检索、视频检索、视觉问答等多模态任务中取得了最先进的结果。这些模型是以无监督的方式进行训练的，并从互补模态监督中受益匪浅。在本文中，我们探讨了在自然语言理解和常识推理基准上，使用视觉监督训练的语言表征是否比普通语言表征表现得更好。我们实验了一组不同的图像文本模型，如ALBEF、BLIP、METER和视频文本模型，如ALPRO、Frozen in Time（FiT）、VIOLET。我们比较了这些模型中独立文本编码器的语言表示与通过视觉监控学习的文本编码器语言表示的性能。我们的实验表明，普通语言表示在大多数任务中表现出优异的性能。这些结果揭示了视觉语言模型当前的缺陷。

学科：	计算机视觉和模式识别（cs.CV）; 人工智能；计算与语言（cs.CL）
引用为：	arXiv:2302.05016[cs.CV]
	（或 arXiv:2302.05016v2[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2302.05016

提交历史记录

发件人：Avinash Madasu[查看电子邮件]
[第1版]2023年2月10日星期五02:22:44 UTC（41 KB）
[v2]2023年4月15日星期六00:04:54 UTC（42 KB）

计算机科学>计算机视觉和模式识别

标题：多模态视觉监控对语言有益吗？

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：多模态视觉监控对语言有益吗？

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目