计算机科学>计算机视觉和模式识别
标题: SegNet:一种用于图像分割的深度卷积编解码器结构
摘要: 我们提出了一种新颖实用的深度全卷积神经网络结构,用于语义像素分割,称为SegNet。 该核心可训练分割引擎由编码器网络、相应的解码器网络以及像素分类层组成。 编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同。解码器网络的作用是将低分辨率编码器特征映射到全输入分辨率特征映射,以进行像素分类。 SegNet的新颖之处在于解码器对其低分辨率输入特征映射进行上采样的方式。 具体来说,解码器使用在相应编码器的最大池步骤中计算的池索引来执行非线性上采样。 这就消除了学习增加样本的必要性。 上采样的地图是稀疏的,然后用可训练的滤波器进行卷积,以生成稠密的特征地图。 我们将我们提出的架构与广泛采用的FCN以及众所周知的DeepLab-LargeFOV、DeconvNet架构进行了比较。 这一比较揭示了实现良好分割性能所涉及的内存与准确性之间的权衡。 SegNet的主要动机是场景理解应用程序。 因此,在推理过程中,它在内存和计算时间方面都是高效的。 与其他竞争体系结构相比,它的可训练参数数量也要少得多。 我们还对道路场景和SUN RGB-D室内场景分割任务执行了SegNet和其他架构的受控基准测试。 我们表明,与其他体系结构相比,SegNet在具有竞争性推理时间和更高效的推理记忆方面提供了良好的性能。 我们还提供了SegNet的Caffe实现和web演示,网址为 此http URL .