Visual Commonsense in Pretrained Unimodal and Multimodal Models

Zhang, Chenyu; Van Durme, Benjamin; Li, Zhuowan; Stengel-Eskin, Elias

计算机科学>计算与语言

arXiv:22005.01850（cs）

【2022年5月4日提交】

标题：预训练单峰和多峰模型中的视觉常识

作者：张晨雨,本杰明·范·杜姆,卓万里,埃利亚斯·斯坦格尔·埃斯金

查看PDF

摘要：我们对物体的常识包括其典型的视觉属性；我们知道香蕉通常是黄色或绿色的，而不是紫色的。文本和图像语料库受到报道偏见的影响，在不同程度上代表了这种世界性知识。在本文中，我们研究了单模态（仅语言）和多模态（图像和语言）模型在多大程度上捕获了一系列视觉显著属性。为此，我们创建了Visual Commonsense Tests（ViComTe）数据集，涵盖5000多个主题的5种属性类型（颜色、形状、材质、大小和视觉共生）。我们验证了这个数据集，表明我们的基础颜色数据比未基础的纯文本数据与Paik等人提供的众包颜色判断的相关性要好得多。（2021）。然后，我们使用我们的数据集来评估预训练的单峰模型和多模态模型。我们的结果表明，多模态模型可以更好地重建属性分布，但仍存在报告偏差。此外，增加模型大小并不能提高性能，这表明视觉常识的关键在于数据。

评论：	出现在NAACL 2022中
学科：	计算与语言（cs.CL）; 计算机视觉和模式识别（cs.CV）
引用为：	arXiv:22005.01850【cs.CL】
	（或 arXiv:2205.01850v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2205.01850

提交历史记录

发件人：张晨雨[查看电子邮件]
[第1版]2022年5月4日星期三02:07:55 UTC（6185 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一版本 | 下一个>

新的 | 最近的 |2022-05

更改为浏览方式：

反恐精英
反恐精英。个人简历

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

标题：预训练单峰和多峰模型中的视觉常识

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：预训练单峰和多峰模型中的视觉常识

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目