Flickr30K实体:为更丰富的图像到句子模型收集区域到短语的对应关系

布莱恩·A·普卢默1王利伟(Liwei Wang)1克里斯托弗·塞万提斯1胡安·凯塞多2    
朱莉娅·霍肯迈尔1斯维特兰娜·拉泽布尼克1

1伊利诺伊大学香槟分校2康拉德·洛伦茨大学基金会


Flickr30K数据集已成为基于句子的图像描述的标准基准。本文介绍了Flickr30K Entities,它使用244k共引用链增加了Flickr 30k中的158k个字幕,将同一图像的不同字幕中提到的相同实体链接起来,并将它们与276k个手动注释的边界框关联起来。这种注释对于自动图像描述和扎根语言理解的持续发展至关重要。它们使我们能够为图像中文本实体引用的本地化定义一个新的基准。我们为这项任务提供了一个强大的基线,该基线结合了图像-文本嵌入、常见对象检测器、颜色分类器和选择较大对象的偏见。虽然我们的基准在精度更复杂的最新模型方面与对手竞争,但我们表明,它的收益不可能轻易地用于图像内容检索等任务的改进,因此强调了当前方法的局限性和进一步研究的必要性。

数据集示例:

在描述同一图像的每组标题中,同级提及(共指链)它们相应的边界框用相同的颜色标记。在左例中,每条链都指向单个实体(边界框)。像“户外”或“游行”这样的场景和事件没有盒子。在中间的示例中,人物(红色)和旗帜(蓝色)链分别指向多个框。在右边,蓝色短语表示新娘,红色短语表示新郎。深紫色短语(“一对”)表示这两个实体,它们对应的边界框与红色和蓝色的边界框相同。

您可以在以下位置浏览我们数据集的其他示例:[示例]  [按短语浏览]

数据集:

可以找到Flickr30K实体数据集和我们在实验中使用的分割在github上。

请访问原始Flickr30k数据集的网站以获取数据集的图像。[Flickr30k手机]

参考:

我们的论文有一个期刊版本,在短语本地化任务上有一个更强的基线:

Bryan A.Plummer、Liwei Wang、Christopher M.Cervantes、Juan C.Caicedo、Julia Hockenmaier和Svetlana Lazebnik,《Flickr30K实体:收集更丰富的图像-句子模型的区域-短语对应关系》,国际JCV,123(1):74-932017。[纸张]

您可以重现我们的结果,并使用以下方法评估短语本地化:代码

原始纸张:

Bryan A.Plummer、Liwei Wang、Christopher M.Cervantes、Juan C.Caicedo、Julia Hockenmaier和Svetlana Lazebnik,《Flickr30K实体:收集更丰富的图像-句子模型的区域-短语对应关系》,ICCV,2015年。[纸张] [补充材料]

如果您使用我们的注释,请引用上述论文和原始Flickr30K数据集:

彼得·杨(Peter Young)、爱丽丝·赖(Alice Lai)、迈卡·霍多什(Micah Hodosh)和朱莉娅·霍肯迈尔(Julia Hockenmaier)。从图像描述到视觉指称:事件描述语义推理的新相似性度量,计算语言学协会汇刊,2(2月):67-782014。[pdf格式]

请注意,Flickr30K数据集包括从Flickr公司.图像的使用必须遵守Flickr使用条款。我们不拥有图像的版权。它们仅为希望将数据集用于非商业研究和/或教育目的的研究人员和教育工作者提供。

非英语字幕:

虽然我们对Flickr30K的扩展使用了原始的英文字幕,但其他人对数据集进行了扩展,以包括研究人员可能感兴趣的不同语言的字幕。

德语字幕和翻译
中文字幕(Flickr8K)

致谢:

本材料基于国家科学基金会(批准号:1053856、1205627、1405883、IIS-1228082和CIF-1302438)支持的工作,以及施乐UAC和斯隆基金会的支持。本材料中表达的任何意见、发现、结论或建议均为作者的意见、发现和结论或建议,并不一定反映国家科学基金会或任何赞助商的意见。

我们感谢NVIDIA公司慷慨捐赠用于我们实验的GPU。

如有任何问题,请直接联系bplumme2-at-illinois dot edu