放开它!F类印度O(运行)ne不匹配法师和L(左)语言字幕

拉维·谢哈尔 桑德罗·佩泽尔 尤亨·克里莫维奇
奥雷利·赫贝洛特 莫恩·纳比 恩维尔·桑吉内托 拉斐拉·伯纳迪

意大利特伦托特伦托大学

长型,口服(演示)在2017年ACL

 

建议的任务


任务1二进制分类:给定图像和标题,要求模型标记标题是否正确。目的是了解LaVi模型是否可以发现它们的粗略表示之间的不匹配语言和视觉输入。

任务2箔片字检测:给定图像还有一个箔片字幕,模型必须检测箔片字。目的是评估理解单词级的系统。

任务3箔片单词更正:给定一个图像、箔片字幕和箔片词、模型必须检测箔片并进行校正。目的是检查系统是否可视表示足够细粒度,可以提取纠正错误。



下载纸张

摘要

在本文中,我们旨在了解当前的语言和视觉(LaVi)模型是否真正掌握了这两种模式之间的相互作用。为此,我们提出了MSCOCO数据集的扩展FOIL-COCO,它将图像与正确的和“FOIL”字幕相关联,即图像描述与原始图像高度相似,但包含一个错误(“FOIL word”)。我们表明,当前的LaVi模型落入了该数据的陷阱,在三个任务上表现不佳:a)字幕分类(正确与否);b) 箔片词检测;c) 箔片单词更正。相比之下,人类在这些任务上的表现近乎完美。我们证明,仅仅利用语言线索不足以对FOIL-COCO进行建模,并且它需要对文本和图像之间的关系进行细致的理解,从而挑战了最先进的技术。


数据集

我们正在制作用于ACL’17工作的FOIL数据集版本,供其他人使用:

注:如果您在9月18日之前下载了数据集,请下载最新版本(OCT'18)。如Madhysastha等人(2018年)所述,之前上传的版本存在语言偏见。

如需任何澄清,请联系FOIL团队拉维.

引用

如果您在工作中使用了FOIL数据集,请考虑引用我们的ACL 2017纸张围巾

拉维·谢哈尔(Ravi Shekhar)、桑德罗·佩泽尔(Sandro Pezzelle)、尤亨·克里莫维奇(Yauhen Klimovich)、奥雷利·赫布洛特(Aurelie Herbelot)、莫因·纳比(Moin Nabi)、恩维尔·桑吉内托(Enver Sangineto)。“FOIL it!查找图像和语言标题之间的一个不匹配” 在第五十五届会议记录中第个计算语言学协会年会(第一卷:长篇论文)加拿大温哥华,2017年。


@正在进行{shekhar2017foil_acl,
title={“FOIL it!Find One mismatch between Image and Language caption”},
作者={Shekhar、Ravi和Pezzelle、Sandro和Klimovich、Yauhen和Herbelot、Aurelie和Nabi、Moin和Sangineto、Enver和Bernardi、Raffaella},
booktitle={计算语言学协会第55届年会会议记录(第1卷:长篇论文)},
页数={255--265},
年份={2017年}
}

相关出版物

  1. 拉维·谢哈尔(Ravi Shekhar)、埃克·塔克斯(Ece Takmaz)、拉奎尔·费尔南德斯(Raquel Fernandez)和拉斐拉·贝尔纳迪(Raffaella Bernardi)。“评估语言和视觉模型的表征中心” 在第13次会议记录中第个国际计算语义学会议(IWCS)2019年,瑞典哥德堡。
    纸类,使用的FOIL ID数据集

  2. 拉维·谢哈尔(Ravi Shekhar)、桑德罗·佩泽尔(Sandro Pezzelle)、奥雷利·赫贝洛特(Aurelie Herbelot)、莫恩·纳比(Moin Nabi)、恩维尔·桑吉内托(Enver Sangineto)和拉斐拉·贝纳迪(Raffaella Bernardi)。“视觉和语言整合:超越对象” 在12年的会议记录中第个国际计算语义学会议(IWCS),法国蒙彼利埃,2017年。

  3. 拉维·谢哈尔(Ravi Shekhar)、桑德罗·佩泽尔(Sandro Pezzelle)、尤亨·克里莫维奇(Yauhen Klimovich)、奥雷利·赫布洛特(Aurelie Herbelot)、莫因·纳比(Moin Nabi)、恩维尔·桑吉内托(Enver Sangineto)。“搞定!找出图像和语言标题之间的一个不匹配项” 在55年的诉讼中第个计算语言学协会年会(第一卷:长篇论文)加拿大温哥华,2017年。

许可证

FOIL数据集源自MS-COCO图像字幕数据集。MS-COCO的作者不以任何形式支持本作品。适用不同的许可证:

致谢

我们感谢:


灵感来源!