FOIL数据集-意大利特伦托大学

建议的任务

任务1二进制分类：给定图像和标题，要求模型标记标题是否正确。目的是了解LaVi模型是否可以发现它们的粗略表示之间的不匹配语言和视觉输入。

任务2箔片字检测：给定图像还有一个箔片字幕，模型必须检测箔片字。目的是评估理解单词级的系统。

任务3箔片单词更正：给定一个图像、箔片字幕和箔片词、模型必须检测箔片并进行校正。目的是检查系统是否可视表示足够细粒度，可以提取纠正错误。

下载纸张

摘要

在本文中，我们旨在了解当前的语言和视觉（LaVi）模型是否真正掌握了这两种模式之间的相互作用。为此，我们提出了MSCOCO数据集的扩展FOIL-COCO，它将图像与正确的和“FOIL”字幕相关联，即图像描述与原始图像高度相似，但包含一个错误（“FOIL word”）。我们表明，当前的LaVi模型落入了该数据的陷阱，在三个任务上表现不佳：a）字幕分类（正确与否）；b）箔片词检测；c）箔片单词更正。相比之下，人类在这些任务上的表现近乎完美。我们证明，仅仅利用语言线索不足以对FOIL-COCO进行建模，并且它需要对文本和图像之间的关系进行细致的理解，从而挑战了最先进的技术。

数据集

我们正在制作用于ACL’17工作的FOIL数据集版本，供其他人使用：

列车：在这里
测试：在这里

FOIL数据集注释跟随MS-COCO注释，稍作修改。

MS-COCO公司

API程序

可以用来加载注释，只需对代码中的“foilid”进行少量修改。

注：如果您在9月18日之前下载了数据集，请下载最新版本（OCT'18）。如Madhysastha等人（2018年）所述，之前上传的版本存在语言偏见。

如需任何澄清，请联系FOIL团队和拉维.

引用

如果您在工作中使用了FOIL数据集，请考虑引用我们的ACL 2017纸张和围巾

拉维·谢哈尔（Ravi Shekhar）、桑德罗·佩泽尔（Sandro Pezzelle）、尤亨·克里莫维奇（Yauhen Klimovich）、奥雷利·赫布洛特（Aurelie Herbelot）、莫因·纳比（Moin Nabi）、恩维尔·桑吉内托（Enver Sangineto）。“FOIL it！查找图像和语言标题之间的一个不匹配” 在第五十五届会议记录中^第个计算语言学协会年会（第一卷：长篇论文）加拿大温哥华，2017年。

@正在进行{shekhar2017foil_acl， title={“FOIL it！Find One mismatch between Image and Language caption”}，作者={Shekhar、Ravi和Pezzelle、Sandro和Klimovich、Yauhen和Herbelot、Aurelie和Nabi、Moin和Sangineto、Enver和Bernardi、Raffaella}， booktitle={计算语言学协会第55届年会会议记录（第1卷：长篇论文）}，页数={255--265}，年份={2017年} }

许可证

FOIL数据集源自MS-COCO图像字幕数据集。MS-COCO的作者不以任何形式支持本作品。适用不同的许可证：

MS-COCO图像：通过FlickrFlickr使用条款
MS-COCO注释：由MS-COCO根据Creative Commons Attribution 4.0许可
FOIL数据集：特伦托大学Creative Commons Attribution 4.0许可

致谢

我们感谢：

MS-COCO公司用于大规模图像字幕数据集。
NVIDIA公司用于捐赠本研究中使用的GPU。
不同深度学习框架的开发人员(火炬,卡费,Tensorflow公司).
作者发布了他们的开源代码。明确地，神经星,VQA_LSTM_CNN公司,HieCoAttenVQA公司和双向图像字幕.

放开它！F类印度O（运行）ne不匹配我法师和L（左）语言字幕

建议的任务

摘要

数据集

注：如果您在9月18日之前下载了数据集，请下载最新版本（OCT'18）。如Madhysastha等人（2018年）所述，之前上传的版本存在语言偏见。

引用

相关出版物

许可证

致谢