×

Flickr30K

swMATH标识: 36502
软件作者: Bryan A.Plummer、Liwei Wang、Chris M.Cervantes、Juan C.Caicedo、Julia Hockenmaier、Svetlana Lazebnik
说明: Flickr30K数据集已经成为基于句子的图像描述的标准基准。本文介绍了Flickr30K实体,它用244k的共指链扩充了来自Flickr30K的158k个标题,将同一个实体在不同标题中的提及链接起来,并将它们与276k个手动注释的边界框相关联。这些注释对于图像自动描述和语言理解的持续发展至关重要。它们使我们能够定义一个新的基准来定位图像中的文本实体。我们为这项任务提供了一个强大的基线,它结合了图像文本嵌入、常见对象检测器、颜色分类器以及选择较大对象的偏差。虽然我们的基线在精确度上与更复杂的最新模型相竞争,但我们表明,它的优势不能轻易地用于图像句子检索等任务的改进,因此强调了现有方法的局限性和进一步研究的必要性。
主页: http://bryanplummer.com/flickr30ktentities/
关键词: 计算机视觉;模式识别;arXiv公司简历;arXiv公司;图像描述;语言;区域短语对应;数据集集合;众包
相关软件: MS-COCO公司;更快的R-CNN;质量保证;登塞卡;科瓦雷普;鲁比;露天;VL解释;克莱夫;MDETR公司;卑鄙;维萨尔伯特;多工作台;维尔伯特;一角硬币;手套;梯度凸轮;国家统计局;勒克默特;iMotions公司
参考文献: 4种出版物

标准条款

1个出版物描述软件
Flickr30k实体:收集区域到短语的对应关系,以获得更丰富的图像到句子模型
Bryan A.Plummer、Liwei Wang、Chris M.Cervantes、Juan C.Caicedo、Julia Hockenmaier、Svetlana Lazebnik
2015

按年份引用出版物