VGG计算机视觉实习

牛津大学视觉几何组计算机视觉实践是一个基于MATLAB的实践经验的集合,介绍了图像理解的基本概念(要求和安装说明).

实习医生

卷积神经网络

卷积神经网络(CNNs)是一类重要的可学习表示,适用于许多计算机视觉问题,是图像理解中特征提取的主要方法。这一实践探索了基本的CNN构建块(线性滤波器和ReLU)、反向传播、学习CNN来检测特定的图像结构以及打字字符(使用各种不同的字体),以及使用动量随机梯度下降、小批量和数据增加。

图像分类

学习如何判断图像是否包含某类对象(例如狗、山或人)。我们面临的挑战是对不相关的因素(如视点和照明)以及对象之间的差异保持不变(没有两座山看起来完全相同)。实践包括使用各种深度卷积神经网络(CNN)来提取图像特征,学习五种不同对象类(飞机、摩托车、人、马和汽车)的SVM分类器,使用精确的召回曲线评估其性能,并从使用互联网图像收集的数据中训练新的分类器。

图像检索

通过快速将查询匹配到大型数据库,学习识别图像中的特定对象,例如圣母院大教堂或梵高的“星夜”。我们面临的挑战是如何对比例、相机视点、照明条件和部分遮挡的变化保持不变。实际应用包括使用稀疏SIFT特征匹配图像、几何验证、特征量化和可视单词包,以及使用平均平均精度评估检索系统。

起点在这里.

目标检测

学习在图像中检测行人、汽车、交通标志等物体。所面临的挑战不仅是识别图像中的物体,而且要对其进行定位,并列举它们的出现,而不管位置、比例、照明度、清晰度和许多其他因素的变化。实际应用包括利用HOG特征描述图像区域,构造滑动窗口SVM目标检测器,在多个尺度下操作,使用平均精度评估检测器,以及使用硬负挖掘改进检测器。

起点在这里.

一般说明

本节包含实验室设置人员和教师的信息。

计划你的实验室体验

实习按不同的时间安排。

在快速通道上应跳过的部分都有明确的标记以这种风格实践要求每个学生都有以下设备和软件:

注:如果您打算使用学生的个人电脑,我们建议您在实际操作之前留出足够的时间,以便下载和安装所需的数据和软件。

安装

每个实用程序包含数据和MATLAB代码(包括VLFeat库的副本)。安装实用程序:

为了方便起见,还提供了只包含代码和数据的附加包。

最新的实用程序(即对象检测实用程序)将需要更多的工作,因为MatConvNet库不附带二进制MEX文件,并且需要针对每个特定平台进行编译。

帮助和故障排除