×

Flickr30K手机

swMATH ID: 36502
软件作者: Bryan A.Plummer、Liwei Wang、Chris M.Cervantes、Juan C.Caicedo、Julia Hockenmaier、Svetlana Lazebnik
说明: Flickr30K数据集已成为基于句子的图像描述的标准基准。本文介绍了Flickr30K Entities,它使用244k共引用链增加了Flickr 30k中的158k个字幕,将同一图像的不同字幕中提到的相同实体链接起来,并将它们与276k个手动注释的边界框关联起来。这种注释对于自动图像描述和扎根语言理解的持续发展至关重要。它们使我们能够为图像中的文本实体提及的本地化定义一个新的基准。我们为这项任务提供了一个强大的基线,该基线结合了图像-文本嵌入、常见对象检测器、颜色分类器和选择较大对象的偏见。虽然我们的基准在精度更复杂的最新模型方面与对手竞争,但我们表明,它的收益不可能轻易地用于图像内容检索等任务的改进,因此强调了当前方法的局限性和进一步研究的必要性。
主页: http://bryanplummer.com/Flickr30k实体/
源代码:  https://github.com/BryanPlummer/flickr30k_entities公司
关键词: 计算机视觉;模式识别;arXiv_cs。个人简历;arXiv_cs。;图像描述;语言;地区短语对应;数据集集合;众包
相关软件: VQA公司;MS-COCO公司;更快的R-CNN;ImageNet公司;布鲁;密度盖;github;BERT(误码率);时尚-MNIST;苹果汁;振动贝特;Im2文本;LXMERT公司;手套;GraphSAINT公司;MultiWOZ公司;VQ扩散;KE-GAN公司;栖息地;帕尔艾
引用于: 6文件

标准条款

1出版物描述软件 年份
Flickr30k实体:为更丰富的图像到句子模型收集区域到短语的对应关系arXiv公司
Bryan A.Plummer、Liwei Wang、Chris M.Cervantes、Juan C.Caicedo、Julia Hockenmaier、Svetlana Lazebnik
2015

按年份列出的引文