测量精细视觉和语言理解的进展

伊曼纽尔·布利亚雷洛,劳伦特·萨特兰,艾什瓦亚·阿格拉瓦尔,丽莎·安妮·亨德里克斯,艾达·内马扎德


摘要
虽然对来自Web的大规模图文数据进行预处理有助于许多视觉和语言(V&L)任务的快速进展,但最近的研究表明,预处理模型缺乏“细粒度”理解,例如识别图像中的关系、动词和数字的能力。这导致社区对开发此类能力的新基准或模型的兴趣增加。为了更好地理解和量化这方面的进展,我们在四个细粒度基准上研究了四个竞争性V&L模型。通过我们的分析,我们发现X-VLM(Zeng等人,2022)始终优于其他基线,建模创新对性能的影响大于缩放Web数据,有时甚至会降低性能。通过对X-VLM的深入研究,我们强调了新损失和丰富数据源对于学习细粒度技能的重要性。最后,我们检查了培训动态,发现对于某些任务,绩效在培训早期达到峰值或显著波动,从未收敛。
选集ID:
2023.acl长87
体积:
计算语言学协会第61届年会论文集(第一卷:长篇论文)
月份:
七月
年份:
2023
地址:
加拿大多伦多
编辑:
安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直(Naoaki Okazaki)
地点:
国际计算语言学协会
信号:
出版商:
计算语言学协会
注:
页:
1559–1582
语言:
网址:
https://aclantology.org/2023.acl-long.87
内政部:
10.18653/v1/2023.acl长87
比比键:
引用(ACL):
Emanuele Bugliarello、Laurent Sartran、Aishwarya Agrawal、Lisa Anne Hendricks和Aida Nematzadeh。2023测量精细视觉和语言理解的进展.英寸计算语言学协会第61届年会论文集(第一卷:长篇论文),第1559–1582页,加拿大多伦多。计算语言学协会。
引用(非正式):
测量精细视觉和语言理解的进展(Bugliarello等人,ACL 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.acl-long.87.pdf
视频:
 https://aclantology.org/2023.acl-long.87.mp4