Flickr30K手机 swMATH ID: 36502 软件作者: Bryan A.Plummer、Liwei Wang、Chris M.Cervantes、Juan C.Caicedo、Julia Hockenmaier、Svetlana Lazebnik 说明: Flickr30K数据集已成为基于句子的图像描述的标准基准。本文介绍了Flickr30K Entities,它使用244k共引用链增加了Flickr 30k中的158k个字幕,将同一图像的不同字幕中提到的相同实体链接起来,并将它们与276k个手动注释的边界框关联起来。这种注释对于自动图像描述和扎根语言理解的持续发展至关重要。它们使我们能够为图像中的文本实体提及的本地化定义一个新的基准。我们为这项任务提供了一个强大的基线,该基线结合了图像-文本嵌入、常见对象检测器、颜色分类器和选择较大对象的偏见。虽然我们的基准在精度更复杂的最新模型方面与对手竞争,但我们表明,它的收益不可能轻易地用于图像内容检索等任务的改进,因此强调了当前方法的局限性和进一步研究的必要性。 主页: http://bryanplummer.com/Flickr30k实体/ 源代码: https://github.com/BryanPlummer/flickr30k_entities公司 关键词: 计算机视觉;模式识别;arXiv_cs。个人简历;arXiv_cs。氯;图像描述;语言;地区短语对应;数据集集合;众包 相关软件: VQA公司;MS-COCO公司;更快的R-CNN;ImageNet公司;布鲁;密度盖;github;BERT(误码率);时尚-MNIST;苹果汁;振动贝特;Im2文本;LXMERT公司;手套;GraphSAINT公司;MultiWOZ公司;VQ扩散;KE-GAN公司;栖息地;帕尔艾 引用于: 6文件 标准条款 1出版物描述软件 年份 Flickr30k实体:为更丰富的图像到句子模型收集区域到短语的对应关系arXiv公司Bryan A.Plummer、Liwei Wang、Chris M.Cervantes、Juan C.Caicedo、Julia Hockenmaier、Svetlana Lazebnik 2015 全部的 前5名15位作者引用 1 奇杜本·阿拉奇 1 奥赞·卡格拉扬 1 巴巴托什·钱达 1 戴伊,莫妮·尚卡尔 1 维内塔哈拉兰皮耶娃 1 胡昌华 1 伯特·黄 1 金永嘉 1 蒙达尔、兰詹 1 桑敏公园 1 司晓生 1 露西娅·斯佩西亚 1 理查德·塞利斯基 1 于勇 1 张建勋 全部的 前5名6篇连载文章中引用 1 神经计算 1 人工智能研究杂志 1 机器学习研究杂志(JMLR) 1 计算机科学评论 1 数学形态学。理论与应用 1 计算机科学课文 在2个字段中引用 6 计算机科学(68至XX) 1 生物学和其他自然科学(92-XX) 按年份列出的引文