Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers

Stella Frank; Emanuele Bugliarello; Desmond Elliott

doi:10.18653/v1/2021.emnlp-main.775

视觉与语言还是视觉与语言？多模变压器中的交叉模态影响

摘要

预训练视觉和语言BERT旨在学习结合两种模式信息的表示法。我们提出了一种基于交叉模态输入消融的诊断方法，以评估这些模型实际整合交叉模态信息的程度。该方法包括完全或选择性地基于跨模态接地对准来消融一种模态的输入，并评估另一种模态的模型预测性能。模型性能通过反映模型预训练目标的模型特定任务来衡量（例如文本的屏蔽语言建模）。当模态中缺少输入时，已经学会使用这两种模态构建跨模态表示的模型预计表现会更差。我们发现，最近提出的模型在视觉信息被消蚀时预测文本比在文本被消蚀后预测视觉对象类别要困难得多，这表明这些模型不是对称的交叉模式。

选集ID：: 2021.emnlp-main.775年
体积：: 2021年自然语言处理实证方法会议记录
月份：: 十一月
年份：: 2021
地址：: 多米尼加共和国Online和Punta Cana
编辑：: 玛丽·弗朗辛·莫恩斯,黄宣景,露西娅·斯佩西亚,斯科特·文涛（Scott Wen-tau Yih）
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 9847–9857
语言：
网址：: https://aclantology.org/2021.emnlp-main.775
内政部：: 10.18653/v1/2021.emnlp-main.775
比比键：
引用（ACL）：: Stella Frank、Emanuele Bugliarello和Desmond Elliott。2021视觉与语言还是视觉与语言？多模变压器中的交叉模态影响.英寸2021年自然语言处理实证方法会议记录，第9847–9857页，在线和多米尼加共和国卡纳角。计算语言学协会。
引用（非正式）：: 视觉与语言还是视觉与语言？多模变压器中的交叉模态影响（Frank等人，EMNLP 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.emnlp-main.775.pdf
视频：: https://aclantology.org/2021.emnlp-main.775.mp4网址
代码: 电子插头/volta+附加社区代码
数据: 概念性标题, Flickr30k手机

PDF格式引用搜索代码视频