建议的任务
任务1二进制分类:给定图像和标题,要求模型标记标题是否正确。目的是了解LaVi模型是否可以发现它们的粗略表示之间的不匹配语言和视觉输入。
任务2箔片字检测:给定图像还有一个箔片字幕,模型必须检测箔片字。目的是评估理解单词级的系统。
任务3箔片单词更正:给定一个图像、箔片字幕和箔片词、模型必须检测箔片并进行校正。目的是检查系统是否可视表示足够细粒度,可以提取纠正错误。
摘要
在本文中,我们旨在了解当前的语言和视觉(LaVi)模型是否真正掌握了这两种模式之间的相互作用。为此,我们提出了MSCOCO数据集的扩展FOIL-COCO,它将图像与正确的和“FOIL”字幕相关联,即图像描述与原始图像高度相似,但包含一个错误(“FOIL word”)。我们表明,当前的LaVi模型落入了该数据的陷阱,在三个任务上表现不佳:a)字幕分类(正确与否);b) 箔片词检测;c) 箔片单词更正。相比之下,人类在这些任务上的表现近乎完美。我们证明,仅仅利用语言线索不足以对FOIL-COCO进行建模,并且它需要对文本和图像之间的关系进行细致的理解,从而挑战了最先进的技术。
数据集
我们正在制作用于ACL’17工作的FOIL数据集版本,供其他人使用:
注:如果您在9月18日之前下载了数据集,请下载最新版本(OCT'18)。如Madhysastha等人(2018年)所述,之前上传的版本存在语言偏见。
如需任何澄清,请联系FOIL团队和拉维.
引用
如果您在工作中使用了FOIL数据集,请考虑引用我们的ACL 2017纸张和围巾
拉维·谢哈尔(Ravi Shekhar)、桑德罗·佩泽尔(Sandro Pezzelle)、尤亨·克里莫维奇(Yauhen Klimovich)、奥雷利·赫布洛特(Aurelie Herbelot)、莫因·纳比(Moin Nabi)、恩维尔·桑吉内托(Enver Sangineto)。“FOIL it!查找图像和语言标题之间的一个不匹配” 在第五十五届会议记录中第个计算语言学协会年会(第一卷:长篇论文)加拿大温哥华,2017年。
@正在进行{shekhar2017foil_acl,
title={“FOIL it!Find One mismatch between Image and Language caption”},
作者={Shekhar、Ravi和Pezzelle、Sandro和Klimovich、Yauhen和Herbelot、Aurelie和Nabi、Moin和Sangineto、Enver和Bernardi、Raffaella},
booktitle={计算语言学协会第55届年会会议记录(第1卷:长篇论文)},
页数={255--265},
年份={2017年}
}
许可证
FOIL数据集源自MS-COCO图像字幕数据集。MS-COCO的作者不以任何形式支持本作品。适用不同的许可证: