好奇的外行:

无专家标签的细粒度图像识别

我们提出了一种新的任务,该任务能够在训练过程中实现细粒度分类,而无需使用专家类信息(例如鸟类)。我们通过利用现有的文本知识库(如维基百科),将问题定义为从一般图像描述中检索文档。

摘要

我们大多数人都不是鸟类学等特定领域的专家。尽管如此,我们确实具有一般的图像和语言理解能力,可以将我们看到的内容与专家资源进行匹配。这使我们能够在没有特别外部监督的情况下扩展知识并执行新任务。相反,机器很难查询专家管理的知识库,除非专门针对这些知识进行培训。因此,在本文中,我们考虑了一个新问题:没有专家注释的细粒度图像识别,我们通过利用网络百科全书中的大量知识来解决这个问题。首先,我们学习了一个模型,该模型使用非专业图像描述来描述对象的视觉外观。然后,我们训练一个细粒度的文本相似性模型,该模型在句子级别的基础上匹配图像描述和文档。我们在两个数据集上对该方法进行了评估,并与几个强大的基线和跨模式检索的最新技术进行了比较。

视频

结果

纸类

好奇的外行:没有专家标签的精细图像识别

苏巴巴拉特·乔杜里,伊罗·莱纳,克里斯蒂安·鲁普雷希特,安德烈亚·维达尔迪

BMVC 2021(口服)(最佳学生论文)

[PDF](PDF格式) 【补充】 [代码] [BibTeX]