概述
目标是在不使用任何用户交互的情况下,以高精度从web上自动检索指定对象类的大量图像。
挑战
首先需要获得大量候选图像。然后,任务是删除不相关的图像(图纸、草图等)。其余图像需要根据其与所选对象类的相关性进行排序。
方法
主要的新颖之处在于结合文本/元数据和视觉特征,以实现图像的完全自动排序。
所选课程:文字和视觉方面排名靠前的图像
红色-假阳性框;绿色-真阳性框;
斑马:文本
斑马:视觉
老虎:文本
老虎:视觉
企鹅:文本
企鹅:视觉
汽车:文本
汽车:视觉
自行车:文本
自行车:视觉
更多结果:所有18个类的100张排名靠前的图片(点击图片)
飞机 |
海狸 |
自行车 |
船 |
骆驼 |
汽车 |
海豚 |
大象 |
长颈鹿 |
|
|
|
|
|
|
|
|
|
吉他 |
马 |
袋鼠 |
摩托车 |
企鹅 |
鲨鱼 |
老虎 |
手表 |
斑马 |
|
|
|
|
|
|
|
|
|
结果
精确重拨:基于文本
精确重拨:视觉排名
数据库
这个VGG数据页现在包含一个选择从web获取的数据库。其中包括
- 图纸和抽象图像数据库(手动注释)
- 18个对象类数据库(手动注释)
- 6个额外的对象类数据库,用于Berg等。
每个对象类都有一个zip文件可供下载,以及预览按标签显示图像(好、好、垃圾;以及良好和良好标签摘要)。
软件下载图像现已推出(2009年7月21日更新)。注意基于BSD许可证。
与Berg的比较等。
施罗夫等ICCV 2007:图8和数字
下载和其他
- 从Web上收集图像数据库(2011):下载的图像包括注释和元数据都可用在这里。下载图像的软件是在这里注意基于BSD许可证。
- 从Web上收集图像数据库(2007):注意表2的更新版本在“从Web上收集图像数据库”出版物中。此更新的表与此发布数据集中的数字相对应。
相关出版物
Schroff,F.,Criminisi,A.和Zisserman,A。
IEEE模式分析和机器智能汇刊,第33卷,第4期,第754-766页,2011年4月
Schroff,F.,Criminisi,A.和Zisserman,A。
第十一届计算机视觉国际会议记录,巴西里约热内卢(2007)
鸣谢
这项工作部分得到了微软研究院通过欧洲博士奖学金计划。