@进行中{bugliarello-etal-2023-测量,title=“测量精细视觉和语言理解的进展”,author=“Bugliarello、Emanuele和Sartran、Laurent和阿格拉瓦尔、艾什瓦亚和亨德里克斯、丽莎·安妮和艾达·内马扎德”,editor=“罗杰斯、安娜和Boyd-Graber、Jordan和冈崎、直崎“,booktitle=“计算语言学协会第61届年会会议记录(第1卷:长篇论文)”,月=七月,年=“2023”,address=“加拿大多伦多”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.acl-long.87”,doi=“10.18653/v1/2023.acl-long.87”,pages=“1559--1582”,abstract=“虽然对来自Web的大规模图像{--}文本数据进行预处理有助于许多视觉和语言(V{&}L)任务的快速进展,但最近的工作表明预处理模型缺乏{`}细粒度{'}理解能力,例如识别图像中的关系、动词和数字的能力。这导致社区对开发此类能力的新基准或模型的兴趣增加。为了更好地理解和量化这方面的进展,我们在四个细粒度基准上研究了四个竞争性V{&}L模型。通过我们的分析,我们发现X-VLM(Zeng等人,2022)始终优于其他基线,建模创新对性能的影响大于缩放Web数据,有时甚至会降低性能。通过对X-VLM的深入研究,我们强调了新损失和丰富数据源对于学习细粒度技能的重要性。最后,我们检查了培训动态,发现对于某些任务,绩效在培训早期达到峰值或显著波动,从未收敛。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“bugliarello-etal-2023-测量”><标题信息>测量精细视觉和语言理解的进展</titleInfo><name type=“personal”>伊曼纽尔布利亚雷洛<角色>作者</角色></name><name type=“personal”>劳伦特Sartran公司<角色>作者</角色></name><name type=“personal”>Aishwarya阿格拉瓦尔<角色>作者</角色></name><name type=“personal”><namePart type=“given”>丽莎</namePart>安妮亨德里克斯<角色>作者</角色></name><name type=“personal”><namePart type=“given”>艾达</namePart>Nematzadeh公司<角色>作者</角色></name><originInfo><日期发布>2023-07</日期发布></originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会第61届年会会议记录(第1卷:长篇论文)</titleInfo><name type=“personal”>安娜罗杰斯<角色>编辑器</角色></name><name type=“personal”>约旦博伊德·格雷伯<角色>编辑器</角色></name><name type=“personal”>Naoaki(Naoaki)冈崎<角色>编辑器</角色></name><originInfo>计算语言学协会<地点>加拿大多伦多</place></originInfo>会议出版物</relatedItem><abstract>虽然对来自Web的大规模图像-文本数据进行预处理有助于许多视觉和语言(V&L)任务的快速进展,但最近的工作表明,预处理模型缺乏“细粒度”理解,例如识别图像中的关系、动词和数字的能力。这导致社区对开发此类能力的新基准或模型的兴趣增加。为了更好地理解和量化这方面的进展,我们调查了四个竞争性V&;基于四个细粒度基准的L模型。通过我们的分析,我们发现X-VLM(Zeng等人,2022)始终优于其他基线,建模创新对性能的影响大于缩放Web数据,有时甚至会降低性能。通过对X-VLM的深入研究,我们强调了新损失和丰富数据源对于学习细粒度技能的重要性。最后,我们检查了培训动态,发现对于某些任务,绩效在培训早期达到峰值或显著波动,从未收敛</摘要><identifier type=“citekey”>bugliarello-etal-2023-测量10.18653/v1/2023.acl-long.87<位置><网址>https://aclantology.org/2023.acl-long.87</url></位置><部分>2023-07年<扩展单元=“page”><开始>1559</开始>1582年</范围></部分></mods></modsCollection>
%0会议记录%细粒度视觉和语言理解进展的测量%A Bugliarello,伊曼纽尔%A Sartran,劳伦特%阿格拉瓦尔,艾什瓦亚%亨德里克斯,丽莎·安妮%阿依达,奈玛扎德%安娜·罗杰斯%Y Boyd-Graber,约旦%Y冈崎,直崎%计算语言学协会第61届年会论文集(第一卷:长篇论文)%D 2023年%7月8日%计算语言学协会%C加拿大多伦多%F bugliarello-etal-2023-测量%X虽然对来自网络的大规模图像-文本数据进行预训练有助于在许多视觉和语言(V&L)任务上取得快速进展,但最近的工作表明,经过预训练的模型缺乏“细粒度”的理解,例如识别图像中的关系、动词和数字的能力。这导致社区对开发此类能力的新基准或模型的兴趣增加。为了更好地理解和量化这一方向的进展,我们在四个细粒度基准上研究了四个有竞争力的V&L模型。通过我们的分析,我们发现X-VLM(Zeng等人,2022)始终优于其他基线,建模创新对性能的影响大于缩放Web数据,有时甚至会降低性能。通过对X-VLM的深入研究,我们强调了新损失和丰富数据源对于学习细粒度技能的重要性。最后,我们检查了培训动态,发现对于某些任务,绩效在培训早期达到峰值或显著波动,从未收敛。%R 10.18653/v1/2023.acl长87%U型https://aclantology.org/2023.acl-long.87%U型https://doi.org/10.18653/v1/2023.acl-long.87%电话:1559-1582
降价(非正式)
[测量精细视觉和语言理解的进展](https://aclantology.org/2023.acl-long.87)(Bugliarello等人,ACL 2023)
国际计算语言学协会
- Emanuele Bugliarello、Laurent Sartran、Aishwarya Agrawal、Lisa Anne Hendricks和Aida Nematzadeh。2023测量精细视觉和语言理解的进展.英寸计算语言学协会第61届年会论文集(第一卷:长篇论文),第1559–1582页,加拿大多伦多。计算语言学协会。