Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining

Bugliarello, Emanuele; Nematzadeh, Aida; Hendricks, Lisa Anne

计算机科学>计算与语言

arXiv:2305.14281（cs）

【于2023年5月23日提交(第1版)，上次修订日期：2023年10月19日（此版本，v2）]

标题：多模态预训练中视觉关系的弱监督学习

作者：伊曼纽尔·布利亚雷洛,艾达·内马扎德,丽莎·安妮·亨德里克斯

查看PDF

摘要：最近在视觉和语言预训练方面的工作研究了目标检测数据中的监督信号，以学习更好的细粒度多模态表示。在这项工作中，我们进一步探索如何从小规模视觉关系数据中挖掘监督功能。特别是，我们提出了两种预训练方法，以在多模式设置中使视觉实体上下文化。通过描述场景图，我们将视觉关系三元组转换为结构化字幕，并将其视为附加图像描述。通过掩蔽关系预测，我们进一步鼓励将图像区域中的实体与视觉掩蔽上下文关联起来。当应用于对大量Web数据进行预处理的强基线时，粗粒度和细粒度任务的零快照评估都表明了我们的方法在从弱监督关系数据中学习多模态表示的有效性。

评论：	EMNLP 2023年
学科：	计算与语言（cs.CL）; 计算机视觉和模式识别（cs.CV）
引用为：	arXiv:2305.14281【cs.CL】
	（或 arXiv：2305.14281v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2305.14281

提交历史记录

发件人：Emanuele Bugliarello[查看电子邮件]
[v1]2023年5月23日星期二17:27:12 UTC（846 KB）
[版本2]2023年10月19日星期四17:46:34 UTC（3955 KB）

计算机科学>计算与语言

标题：多模态预训练中视觉关系的弱监督学习

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐程序和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：多模态预训练中视觉关系的弱监督学习

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐程序和搜索工具

arXivLabs：与社区合作者合作的实验项目