@进展中{frank-etal-2021愿景,title=“视觉与语言还是视觉与语言?论多模变压器中的跨模态影响”,author=“弗兰克、斯特拉和Bugliarello、Emanuele和德斯蒙德·埃利奥特”,editor=“Moens、Marie-Francine和黄、玄静和Specia、Lucia和Yeh,Scott Wen-tau“,booktitle=“2021年自然语言处理实证方法会议记录”,月=11月,年=“2021”,address=“多米尼加共和国Online和Punta Cana”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.emnlp-main.775”,doi=“10.18653/v1/2021.emnlp-main.775”,页码=“9847-9857”,抽象=“预训练视觉和语言BERT旨在学习结合两种模态信息的表征。我们提出了一种基于跨模态输入消融的诊断方法,以评估这些模型实际整合跨模态信息的程度。该方法包括完全消融或选择一种模态的输入以跨模态接地对准为基础,评估模型在其他模态上的预测性能。模型性能通过反映模型预训练目标的模型特定任务来衡量(例如文本的屏蔽语言建模)。当模态中缺少输入时,已经学会使用这两种模态构建跨模态表示的模型预计表现会更差。我们发现,最近提出的模型在视觉信息被消蚀时预测文本比在文本被消蚀后预测视觉对象类别要困难得多,这表明这些模型不是对称的交叉模式。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“frank-etal-2021-vision”><标题信息>视觉与语言还是视觉与语言?关于多模变压器中的交叉模态影响</title信息><name type=“personal”>斯特拉弗兰克<角色>作者</角色></name><name type=“personal”>伊曼纽尔布利亚雷洛<角色>作者</角色></name><name type=“personal”>Desmond DesmondElliott公司<角色>作者</角色></name><originInfo>发布日期:2021-11发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2021年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>玛丽·弗朗辛莫恩斯<角色>编辑器</角色></name><name type=“personal”>轩辕<namePart type=“given”>黄<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>露西亚</namePart>Specia系列<角色>编辑器</角色></name><name type=“个人”>斯科特文涛<namePart type=“given”>文涛</namePart>Yih(Yih)<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线和多米尼加共和国卡纳角</place></originInfo>会议出版物</relatedItem>预训练视觉和语言BERT旨在学习结合两种模式信息的表示法。我们提出了一种基于交叉模态输入消融的诊断方法,以评估这些模型实际整合交叉模态信息的程度。该方法包括完全或选择性地基于交叉模态接地对准烧蚀一种模态的输入,并评估另一种模态上的模型预测性能。模型性能是通过反映模型预训练目标的模态特定任务来衡量的(例如,文本的掩蔽语言建模)。当模态中缺少输入时,已经学会使用这两种模态构建跨模态表示的模型预计表现会更差。我们发现,最近提出的模型在视觉信息被消融时预测文本比在文本被消融后预测视觉对象类别要困难得多,这表明这些模型不是对称的交叉模式</摘要>弗兰克·塔尔-2021愿景10.18653/v1/2021.emnlp-main.775<位置><网址>https://aclantology.org/2021.emnlp-main.775</url></位置><部分>2021-11年<扩展单元=“page”><开始>9847</开始><结束>9857</范围></部分></mods></modsCollection>
%0会议记录%愿景与语言还是愿景与语言?多模变压器中的交叉模态影响%弗兰克,斯特拉%A Bugliarello,伊曼纽尔%A Elliott,德斯蒙德%玛丽·弗朗辛·Y·莫恩斯%Y Huang,宣景%露西娅·Y·斯佩西亚%Y Yih、Scott Wen-tau%2021年自然语言处理实证方法会议论文集%D 2021年%11月8日%计算语言学协会%C Online和Punta Cana,多米尼加共和国%F frank-etal-2021愿景%X预训练视觉和语言BERT旨在学习结合两种模式信息的表示法。我们提出了一种基于交叉模态输入消融的诊断方法,以评估这些模型实际整合交叉模态信息的程度。该方法包括完全或选择性地基于交叉模态接地对准烧蚀一种模态的输入,并评估另一种模态上的模型预测性能。模型性能通过反映模型预训练目标的模型特定任务来衡量(例如文本的屏蔽语言建模)。当模态中缺少输入时,已经学会使用两种模态构建跨模态表示的模型预计表现会更差。我们发现,最近提出的模型在视觉信息被消融时预测文本比在文本被消融后预测视觉对象类别要困难得多,这表明这些模型不是对称的交叉模式。%R 10.18653/v1/2021.emnlp-main.775%U型https://aclantology.org/2021.emnlp-main.775%U型https://doi.org/10.18653/v1/2021.emnlp-main.775%电话:9847-9857
降价(非正式)
【视觉与语言还是视觉与语言?论多模变压器中的跨模态影响】(https://aclantology.org/2021.emnlp-main.775)(Frank等人,EMNLP 2021)
国际计算语言学协会
- Stella Frank、Emanuele Bugliarello和Desmond Elliott。2021视觉与语言还是视觉与语言?多模变压器中的交叉模态影响.英寸2021年自然语言处理实证方法会议记录,第9847–9857页,在线和多米尼加共和国卡纳角。计算语言学协会。