肯·查特菲尔德,凯伦·西蒙扬,安德烈亚·维达尔迪,安德鲁·齐瑟曼



更新–2014年9月15日
我们赢了“最佳科学论文奖”BMVC 2014!
2014年7月15日
本文中用于计算ConvNet特征的预编译MEX文件和模型现在可用(请参见在下面). 还提供了完整的源代码。

概述

最新一代的卷积神经网络(CNN)取得了令人印象深刻的成果在具有挑战性的图像识别和目标检测基准中,显著提高了社区对这些方法的兴趣。然而,CNN的不同之处仍不清楚方法相互比较,并与以前最先进的浅层表示法进行比较如Bag-of-Visual-Words和改良Fisher向量。这项工作对这些新技术进行了严格的评估,探索了不同的深度体系结构,并在共同点上进行比较,确定和披露重要信息实施细节与我们之前关于浅层编码方法的工作类似,并确定可以成功共享的深层和浅层方法的各个方面。

我们评估了多个数据集(PASCAL VOC 2007和2012、Caltech-101、Caltech-256)我们最好的方法实现了最先进的四个方面的表现。我们发布本页上实验的完整源代码和CNN模型,希望它将为未来的图像表示研究提供良好的基线。

结果


ILSVRC-2012年
(前5个错误)
VOC-2007系列
(百万AP)
VOC-2012年
(毫安时)
加州理工大学-101
(精度)
加州理工大学-256
(精度)
FK IN 512公司
68
美国有线电视新闻网M 2048
13.5
80.1
82.3
美国有线电视新闻网
13.1
79.6
82.7
88.54 ± 0.33
78.82 ± 0.31
CNN S TUNE-CLS电视台
13.1
83
88.35 ± 0.56
美国有线电视新闻网(CNN)S TUNE-RNK
13.1
82.4
83.2
Zeiler&Fergus公司[2]
16.1
79
86.5 ± 0.5
74.2 ± 0.3
Razavian等人。[3], [4]
14.7
77.2
Oquab等人。[5]
18
77.7
78.7 / 82.8

软件和纸张更新

计算论文中使用的ConvNet特性的软件现在可以从软件页面获得:

编码器包下载页面

除了上述可用的特征计算二进制文件和CNN模型外,我们还计划发布在不久的将来,完整的源代码,以及继续对论文进行更新上可用的版本arXiv页面.

相关出版物


K.Chatfield,K.Simonyan,A.维达尔迪,A.齐瑟曼最佳科学论文奖
2014年英国机器视觉会议

K.Chatfield、V.Lempitsky、A.Vedaldi和A.Zisserman
2011年英国机器视觉会议

致谢

资金由EPSRC、ERC拨款VisRec no.228180和欧盟项目FP7 AXES ICT-269980提供。我们感谢您的支持NVIDIA Corporation捐赠用于本研究的GPU。

能源监管委员会 轴