Flickr30k实体

Flickr30K实体：为更丰富的图像到句子模型收集区域到短语的对应关系

布莱恩·A·普卢默¹王利伟（Liwei Wang）¹克里斯托弗·塞万提斯¹胡安·凯塞多²
朱莉娅·霍肯迈尔¹斯维特兰娜·拉泽布尼克¹

¹伊利诺伊大学香槟分校²康拉德·洛伦茨大学基金会

Flickr30K数据集已成为基于句子的图像描述的标准基准。本文介绍了Flickr30K Entities，它使用244k共引用链增加了Flickr 30k中的158k个字幕，将同一图像的不同字幕中提到的相同实体链接起来，并将它们与276k个手动注释的边界框关联起来。这种注释对于自动图像描述和扎根语言理解的持续发展至关重要。它们使我们能够为图像中文本实体引用的本地化定义一个新的基准。我们为这项任务提供了一个强大的基线，该基线结合了图像-文本嵌入、常见对象检测器、颜色分类器和选择较大对象的偏见。虽然我们的基准在精度更复杂的最新模型方面与对手竞争，但我们表明，它的收益不可能轻易地用于图像内容检索等任务的改进，因此强调了当前方法的局限性和进一步研究的必要性。

数据集示例：

在描述同一图像的每组标题中，同级提及(共指链)它们相应的边界框用相同的颜色标记。在左例中，每条链都指向单个实体（边界框）。像“户外”或“游行”这样的场景和事件没有盒子。在中间的示例中，人物（红色）和旗帜（蓝色）链分别指向多个框。在右边，蓝色短语表示新娘，红色短语表示新郎。深紫色短语（“一对”）表示这两个实体，它们对应的边界框与红色和蓝色的边界框相同。

您可以在以下位置浏览我们数据集的其他示例：[示例] [按短语浏览]

数据集：

可以找到Flickr30K实体数据集和我们在实验中使用的分割在github上。

请访问原始Flickr30k数据集的网站以获取数据集的图像。[Flickr30k手机]

参考：

我们的论文有一个期刊版本，在短语本地化任务上有一个更强的基线：

Bryan A.Plummer、Liwei Wang、Christopher M.Cervantes、Juan C.Caicedo、Julia Hockenmaier和Svetlana Lazebnik，《Flickr30K实体：收集更丰富的图像-句子模型的区域-短语对应关系》，国际JCV，123（1）：74-932017。[纸张]

您可以重现我们的结果，并使用以下方法评估短语本地化：代码

原始纸张：

Bryan A.Plummer、Liwei Wang、Christopher M.Cervantes、Juan C.Caicedo、Julia Hockenmaier和Svetlana Lazebnik，《Flickr30K实体：收集更丰富的图像-句子模型的区域-短语对应关系》，ICCV，2015年。[纸张] [补充材料]

如果您使用我们的注释，请引用上述论文和原始Flickr30K数据集：

彼得·杨（Peter Young）、爱丽丝·赖（Alice Lai）、迈卡·霍多什（Micah Hodosh）和朱莉娅·霍肯迈尔（Julia Hockenmaier）。从图像描述到视觉指称：事件描述语义推理的新相似性度量，计算语言学协会汇刊，2（2月）：67-782014。[pdf格式]

请注意，Flickr30K数据集包括从Flickr公司.图像的使用必须遵守Flickr使用条款。我们不拥有图像的版权。它们仅为希望将数据集用于非商业研究和/或教育目的的研究人员和教育工作者提供。

非英语字幕：

虽然我们对Flickr30K的扩展使用了原始的英文字幕，但其他人对数据集进行了扩展，以包括研究人员可能感兴趣的不同语言的字幕。

德语字幕和翻译
中文字幕（Flickr8K）

致谢：

本材料基于国家科学基金会（批准号：1053856、1205627、1405883、IIS-1228082和CIF-1302438）支持的工作，以及施乐UAC和斯隆基金会的支持。本材料中表达的任何意见、发现、结论或建议均为作者的意见、发现和结论或建议，并不一定反映国家科学基金会或任何赞助商的意见。

我们感谢NVIDIA公司慷慨捐赠用于我们实验的GPU。

如有任何问题，请直接联系bplumme2-at-illinois dot edu