概述
最近出现的视觉词汇包图像的多种新颖编码提出了分类。然而,由于图像特征提取和学习方法,通常无法直接比较已发布的结果。这项工作旨在通过固定分类管道(功能、学习、调整)和变化仅使用核心编码方法。
我们还发布了对深度图像表示的评估,以及对Fisher矢量的额外实验,请参阅细节中的魔鬼回归
数据集集合
实验结果显示在两幅流行图像上分类数据集–即PASCAL公司2007年挥发性有机化合物和加州理工大学-101. The提供的列车试验分段用于VOC试验和使用三个随机分割,每个分割包含30个序列/测试图像加州理工学院的实验。
管道详细信息
视觉词汇图像分类的典型组成部分管道如下图所示。我们描述我们的依次实现每个组件。
1.特征提取
所有实验都使用了密集采样的SIFT特征,使用vl显示的命令这个VLFeat工具箱.
2.编码方法
- 直方图编码(VQ)[1]
- 内核码本编码(KCB)[2,3]
- 局部约束线性编码(LLC)[4]
- Fisher编码(FK)[5]
- 监督员编码(SV)[6]
3.联营
使用金字塔匹配核[7]. 这包括为每个空间区域计算一个编码,然后进行叠加结果。每个空间区域在之前分别进行规格化使用l1级-直方图中的范数和内核码本编码以及第二语言-所有人的标准原始出版物建议的其他方法。
堆叠后,任何要素图都将应用于整个直方图,最后整个直方图是第二语言归一化以使其适合在我们的线性SVM中使用框架。
在我们的实验中,空间区域是通过划分将图像分成1 x 1、3 x 1和2 x 2区域,用于PASCAL VOC数据Caltech-101数据的1 x 1、2 x 2和4 x 4区域。
4.分类
所有实验都使用线性SVM来提供分类管道阶段和1-vs-rest分类器被学习两个数据集中的每个类。参数C类(正则化损失权衡)在验证集上确定(在PASCAL VOC数据中提供的序列和val分割上Caltech-101中的随机拆分)。
我们使用这个伦敦银行支持向量机图书馆并选择使用双重SVM公式(预计算内核矩阵)作为某些编码的大小,特别是Fisher编码和超矢量编码禁止在合理数量的训练期间需要的记忆力。
结果
直方图(VQ) |
8,000 |
74.23 ± 0.65 |
内核Codebook(KCB) |
8,000 |
75.93 ± 0.57 |
位置受限(LLC) |
8,000 |
76.95 ± 0.39 |
费希尔(FK) |
256(约41k) |
77.78 ± 0.56 |
直方图(VQ) |
25,000 |
55.30 |
内核代码手册(KCB) |
25,000 |
56.26 |
位置受限(LLC) |
25,000 |
57.27 |
费希尔(FK) |
256(约41k) |
61.69 |
超级向量(SV) |
1024(~132k) |
58.16 |
软件
实验代码和预先计算的数据文件可以是已从下载这个编码方法评估工具包软件页面.
出版物
K.Chatfield,V.Lempitsky,A.维达尔迪,A.齐瑟曼
2011年英国机器视觉会议
其他参考文献
[3]场景的内核代码本分类
J.C.van Gemert、J.M.Geusebroek、,C.J.Veenman和A.W.M.Smeulders。程序中。ECCV,2008年。
[4]图像的局部约束线性编码分类
J.Wang、J.Yang、K.Yu、F.Lv、,T.Huang和Y.Gong。程序中。CVPR,2010年。
[5]大尺度图像的fisher核改进分类
F.Perronnin、J.Sánchez和T.门辛克。过程中。ECCV,2010年。
[6]基于局部超矢量编码的图像分类图像描述符
X.Zhou、K.Yu、T.Zhang和T·S·黄。程序中。ECCV,2010年。
[7]超越功能包:空间金字塔匹配识别自然场景类别
S.Lazebnik,C.Schmid和J.Ponce。程序中。CVPR,2006年。
致谢
资金由EPSRC提供,ERC拨款VisRec编号228180,以及欧盟项目FP7 AXES ICT-269980。