好奇的外行：

无专家标签的细粒度图像识别

牛津大学VGG

我们提出了一种新的任务，该任务能够在训练过程中实现细粒度分类，而无需使用专家类信息（例如鸟类）。我们通过利用现有的文本知识库（如维基百科），将问题定义为从一般图像描述中检索文档。

摘要

我们大多数人都不是鸟类学等特定领域的专家。尽管如此，我们确实具有一般的图像和语言理解能力，可以将我们看到的内容与专家资源进行匹配。这使我们能够在没有特别外部监督的情况下扩展知识并执行新任务。相反，机器很难查询专家管理的知识库，除非专门针对这些知识进行培训。因此，在本文中，我们考虑了一个新问题：没有专家注释的细粒度图像识别，我们通过利用网络百科全书中的大量知识来解决这个问题。首先，我们学习了一个模型，该模型使用非专业图像描述来描述对象的视觉外观。然后，我们训练一个细粒度的文本相似性模型，该模型在句子级别的基础上匹配图像描述和文档。我们在两个数据集上对该方法进行了评估，并与几个强大的基线和跨模式检索的最新技术进行了比较。

视频

结果

纸类

好奇的外行：没有专家标签的精细图像识别

苏巴巴拉特·乔杜里，伊罗·莱纳，克里斯蒂安·鲁普雷希特，安德烈亚·维达尔迪

BMVC 2021（口服）（最佳学生论文）

[PDF]（PDF格式）【补充】 [代码] [BibTeX]