弗洛里安·施罗夫,安东尼奥·克里米尼西安德鲁·齐瑟曼



概述

目标是在不使用任何用户交互的情况下,以高精度从web上自动检索指定对象类的大量图像。

挑战

首先需要获得大量候选图像。然后,任务是删除不相关的图像(图纸、草图等)。其余图像需要根据其与所选对象类的相关性进行排序。

方法

  1. 下载候选图像:根据对象标识符(例如单词)查询基于文本的web搜索引擎汽车). 从返回的网页下载图像。
  2. 使用文本对图像排序:对图像和元数据特征(如图像替代标记、图像标题标记和图像文件名)周围的文本进行贝叶斯后验估计训练,用于对图像进行排序。此阶段未使用任何视觉信息。
  3. 学习SVM视觉分类器:使用排名靠前的图像作为SVM的(含噪)训练数据。
  4. 使用视觉分类器对图像进行重新排序:仅对视觉特征使用SVM分类器对图像进行重新分类。

主要的新颖之处在于结合文本/元数据和视觉特征,以实现图像的完全自动排序。


所选课程:文字和视觉方面排名靠前的图像

红色-假阳性框;绿色-真阳性框;

斑马:文本

结果图像 结果图像 结果图像 结果图像 结果图像

斑马:视觉

结果图像 结果图像 结果图像 结果图像 结果图像



老虎:文本

结果图像 结果图像 结果图像 结果图像 结果图像

老虎:视觉

结果图像 结果图像 结果图像 结果图像 结果图像



企鹅:文本

结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像

企鹅:视觉

结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像



汽车:文本

结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像

汽车:视觉

结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像



自行车:文本

结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像

自行车:视觉

结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像


更多结果:所有18个类的100张排名靠前的图片(点击图片)

飞机 海狸 自行车 骆驼 汽车 海豚 大象 长颈鹿
结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像
吉他 袋鼠 摩托车 企鹅 鲨鱼 老虎 手表 斑马
结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像 结果图像

结果


打印缩略图
精确重拨:基于文本
打印缩略图
精确重拨:视觉排名

数据库

这个VGG数据页现在包含一个选择从web获取的数据库。其中包括

  • 图纸和抽象图像数据库(手动注释)
  • 18个对象类数据库(手动注释)
  • 6个额外的对象类数据库,用于Berg等。

每个对象类都有一个zip文件可供下载,以及预览按标签显示图像(好、好、垃圾;以及良好和良好标签摘要)。

软件下载图像现已推出(2009年7月21日更新)。注意基于BSD许可证

与Berg的比较等。

打印缩略图
施罗夫ICCV 2007:图8和数字

下载和其他

  • 从Web上收集图像数据库(2011):下载的图像包括注释和元数据都可用在这里。下载图像的软件是在这里注意基于BSD许可证
  • 从Web上收集图像数据库(2007):注意表2的更新版本在“从Web上收集图像数据库”出版物中。此更新的表与此发布数据集中的数字相对应。

相关出版物


Schroff,F.,Criminisi,A.和Zisserman,A。
IEEE模式分析和机器智能汇刊,第33卷,第4期,第754-766页,2011年4月

Schroff,F.,Criminisi,A.和Zisserman,A。
第十一届计算机视觉国际会议记录,巴西里约热内卢(2007)

鸣谢

这项工作部分得到了微软研究院通过欧洲博士奖学金计划