Measuring Progress in Fine-grained Vision-and-Language Understanding

Emanuele Bugliarello; Laurent Sartran; Aishwarya Agrawal; Lisa Anne Hendricks; Aida Nematzadeh

doi:10.18653/v1/2023.acl-long.87

测量精细视觉和语言理解的进展

伊曼纽尔·布利亚雷洛,劳伦特·萨特兰,艾什瓦亚·阿格拉瓦尔,丽莎·安妮·亨德里克斯,艾达·内马扎德

摘要

虽然对来自Web的大规模图文数据进行预处理有助于许多视觉和语言（V&L）任务的快速进展，但最近的研究表明，预处理模型缺乏“细粒度”理解，例如识别图像中的关系、动词和数字的能力。这导致社区对开发此类能力的新基准或模型的兴趣增加。为了更好地理解和量化这方面的进展，我们在四个细粒度基准上研究了四个竞争性V&L模型。通过我们的分析，我们发现X-VLM（Zeng等人，2022）始终优于其他基线，建模创新对性能的影响大于缩放Web数据，有时甚至会降低性能。通过对X-VLM的深入研究，我们强调了新损失和丰富数据源对于学习细粒度技能的重要性。最后，我们检查了培训动态，发现对于某些任务，绩效在培训早期达到峰值或显著波动，从未收敛。

选集ID：: 2023.acl长87
体积：: 计算语言学协会第61届年会论文集（第一卷：长篇论文）
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多
编辑：: 安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直（Naoaki Okazaki）
地点：: 国际计算语言学协会
信号：
出版商：: 计算语言学协会
注：
页：: 1559–1582
语言：
网址：: https://aclantology.org/2023.acl-long.87
内政部：: 10.18653/v1/2023.acl长87
比比键：
引用（ACL）：: Emanuele Bugliarello、Laurent Sartran、Aishwarya Agrawal、Lisa Anne Hendricks和Aida Nematzadeh。2023测量精细视觉和语言理解的进展.英寸计算语言学协会第61届年会论文集（第一卷：长篇论文），第1559–1582页，加拿大多伦多。计算语言学协会。
引用（非正式）：: 测量精细视觉和语言理解的进展（Bugliarello等人，ACL 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.acl-long.87.pdf
视频：: https://aclantology.org/2023.acl-long.87.mp4

PDF格式引用搜索视频