视觉几何组-牛津大学

肯·查特菲尔德,凯伦·西蒙扬,安德烈亚·维达尔迪,和安德鲁·齐瑟曼

更新–2014年9月15日: 我们赢了“最佳科学论文奖”BMVC 2014！
2014年7月15日: 本文中用于计算ConvNet特征的预编译MEX文件和模型现在可用（请参见在下面). 还提供了完整的源代码。

概述

最新一代的卷积神经网络（CNN）取得了令人印象深刻的成果在具有挑战性的图像识别和目标检测基准中，显著提高了社区对这些方法的兴趣。然而，CNN的不同之处仍不清楚方法相互比较，并与以前最先进的浅层表示法进行比较如Bag-of-Visual-Words和改良Fisher向量。这项工作对这些新技术进行了严格的评估，探索了不同的深度体系结构，并在共同点上进行比较，确定和披露重要信息实施细节与我们之前关于浅层编码方法的工作类似,并确定可以成功共享的深层和浅层方法的各个方面。

我们评估了多个数据集（PASCAL VOC 2007和2012、Caltech-101、Caltech-256）我们最好的方法实现了最先进的四个方面的表现。我们发布本页上实验的完整源代码和CNN模型，希望它将为未来的图像表示研究提供良好的基线。

结果

	ILSVRC-2012年（前5个错误）	VOC-2007系列（百万AP）	VOC-2012年（毫安时）	加州理工大学-101 （精度）	加州理工大学-256 （精度）
FK IN 512公司	–	68	–	–	–
美国有线电视新闻网M 2048	13.5	80.1	82.3	–	–
美国有线电视新闻网	13.1	79.6	82.7	88.54 ± 0.33	78.82 ± 0.31
CNN S TUNE-CLS电视台	13.1	–	83	88.35 ± 0.56	–
美国有线电视新闻网（CNN）S TUNE-RNK	13.1	82.4	83.2	–	–
Zeiler&Fergus公司[2]	16.1	–	79	86.5 ± 0.5	74.2 ± 0.3
Razavian等人。[3], [4]	14.7	77.2	–	–	–
Oquab等人。[5]	18	77.7	78.7 / 82.8	–	–

软件和纸张更新

计算论文中使用的ConvNet特性的软件现在可以从软件页面获得：

编码器包下载页面

除了上述可用的特征计算二进制文件和CNN模型外，我们还计划发布在不久的将来，完整的源代码，以及继续对论文进行更新上可用的版本arXiv页面.

致谢

资金由EPSRC、ERC拨款VisRec no.228180和欧盟项目FP7 AXES ICT-269980提供。我们感谢您的支持NVIDIA Corporation捐赠用于本研究的GPU。

细节中的魔鬼回归：深入研究卷积网络

肯·查特菲尔德,凯伦·西蒙扬,安德烈亚·维达尔迪,和安德鲁·齐瑟曼

概述

结果

软件和纸张更新

相关出版物

致谢