了解跨域的引导式图像字幕性能

埃德温·G.Ng,Bo Pang先生,皮尤什·夏尔马,拉杜·索里科特


摘要
图像字幕模型通常缺乏考虑用户兴趣的能力,通常默认为全局描述,以平衡可读性、信息性和信息过载。我们提出了一个基于Transformer的模型,通过将其作为模型的指导文本,该模型能够生成针对图像中特定对象、概念或动作的标题。此外,我们还评估了这些指导性字幕在概念性字幕上的质量,概念性字幕包含3.3M个图像级字幕,而视觉基因组包含3.6M个对象级字幕。相反,我们发现,经过概念性字幕训练的模型生成的引导性字幕对域外数据的概括效果更好。我们的人类评估结果表明,尝试野生引导图像字幕需要访问大型、不受限制的领域训练数据集,而风格多样性的增加(即使不增加唯一令牌的数量)是提高性能的关键因素。
选集ID:
2021.续-1.14
体积:
第25届计算自然语言学习会议记录
月份:
十一月
年份:
2021
地址:
在线的
编辑:
阿里安娜·比萨扎,奥姆里·阿本德
地点:
CoNLL公司
SIG公司:
SIGNLL公司
出版商:
计算语言学协会
注:
页:
183–193
语言:
网址:
https://aclantology.org/2021.coll-1.14
内政部:
10.18653/v1/2021.coll-1.14
比比键:
引用(ACL):
Edwin G.Ng、Bo Pang、Piyush Sharma和Radu Soricut。2021了解跨域的引导式图像字幕性能.英寸第25届计算自然语言学习会议记录,第183-193页,在线。计算语言学协会。
引用(非正式):
了解跨域的引导式图像字幕性能(Ng等人,CoNLL 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.coll-1.14.pdf
视频:
 https://aclantology.org/2021.coll-1.14.mp4网址
代码
谷歌搜索数据集/T2-Guiding
数据
T2导向概念性标题本地化叙述视觉基因组