詹姆斯·菲尔宾Ondrej Chum公司约瑟夫·西维奇迈克尔·伊萨德,埃内斯托·科托安德鲁·齐瑟曼

概述

我们研究的目的是开发高效的方法来搜索特定的超大图像数据集中的对象。在这项工作中,我们重点关注为热门城市搜索大量下载的Flickr图像地标。

动机

网络和Flickr、YouTube等网站的兴起大大增加在线可用的视觉媒体数量,但当前的搜索方法依赖相关文本或用户提供的信息,此材料不充分注释。我们相信,通过可视化示例进行查询的能力将是解锁图像中包含的信息的重要第一步将彻底改变人们使用Flickr等网站的方式谷歌彻底改变了网络。

挑战

我们需要能够在图像中找到物体,尽管有很多种可能视觉变化,例如:比例、视点、照明和遮挡。此外,使用的任何方法都需要扩展到包含数以百万计的图像,同时仍在不到一秒钟的时间内返回查询结果。

方法

我们的方法借鉴了信息检索社区的方法,为快速搜索文本集合而开发。每个图像都被视为单个文档,包含许多“视觉单词”量化描述符小型图像补丁,单独设计为不变量比例、照明和视点发生变化。我们发现量化与系统的性能有着密切的联系,并使用基于K-means的量化方法,使用随机kd-trees进行搜索,我们发现,这一比例比标准K均值好得多量化误差。我们还发现,使用快速简单的空间验证stage只需很小的运行时开销就可以提高检索精度。

实时演示

我们有一个实时演示,我们的系统搜索超过100000张图像。

尝试以下示例查询:

数据集

这个用于评估的数据集可用。

相关出版物

Philbin,J.、Chum,O.、Isard,M.、Sivic,J.和Zisserman,A。
IEEE计算机视觉和模式识别会议记录(2007年)

Chum,O.、Philbin,J.、Sivic,J.,Isard,M.和Zisserman,A。
第十一届计算机视觉国际会议记录,巴西里约热内卢(2007)

致谢

这项工作得到了EPSRC平台拨款的支持。