SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

Badrinarayanan, Vijay; Kendall, Alex; Cipolla, Roberto

计算机科学>计算机视觉和模式识别

arXiv:1511.00561（cs）

【2015年11月2日提交(第1版)，最新修订日期：2016年10月10日（本版本，第3版）]

标题：SegNet：一种用于图像分割的深度卷积编解码器结构

作者：维杰·巴德里纳亚南,亚历克斯·肯德尔,罗伯托·西波拉

查看PDF

摘要：我们提出了一种新颖实用的深度全卷积神经网络结构，用于语义像素分割，称为SegNet。该核心可训练分割引擎由编码器网络、相应的解码器网络以及像素分类层组成。编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同。解码器网络的作用是将低分辨率编码器特征映射到全输入分辨率特征映射，以进行像素分类。SegNet的新颖之处在于解码器对其低分辨率输入特征映射进行上采样的方式。具体来说，解码器使用在相应编码器的最大池步骤中计算的池索引来执行非线性上采样。这就消除了学习增加样本的必要性。上采样的地图是稀疏的，然后用可训练的滤波器进行卷积，以生成稠密的特征地图。我们将我们提出的架构与广泛采用的FCN以及众所周知的DeepLab-LargeFOV、DeconvNet架构进行了比较。这一比较揭示了实现良好分割性能所涉及的内存与准确性之间的权衡。
SegNet的主要动机是场景理解应用程序。因此，在推理过程中，它在内存和计算时间方面都是高效的。与其他竞争体系结构相比，它的可训练参数数量也要少得多。我们还对道路场景和SUN RGB-D室内场景分割任务执行了SegNet和其他架构的受控基准测试。我们表明，与其他体系结构相比，SegNet在具有竞争性推理时间和更高效的推理记忆方面提供了良好的性能。我们还提供了SegNet的Caffe实现和web演示，网址为此http URL.

学科：	计算机视觉和模式识别（cs.CV）; 机器学习（cs.LG）；神经和进化计算（cs.NE）
引用为：	arXiv:1511.00561[cs.CV]
	（或 arXiv:1511.00561v3号[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.1511.00561

提交历史记录

发件人：Alex Kendall[查看电子邮件]
[第1版]2015年11月2日星期一15:51:03 UTC（3861 KB）
[v2]2015年12月8日星期二13:56:56 UTC（3860 KB）
[第3版]2016年10月10日星期一21:11:59 UTC（2225 KB）

计算机科学>计算机视觉和模式识别

标题：SegNet：一种用于图像分割的深度卷积编解码器结构

提交历史记录

访问纸张：

参考文献和引文

5个博客链接

数据库管理程序-CS书目

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：SegNet：一种用于图像分割的深度卷积编解码器结构

提交历史记录

访问纸张：

参考文献和引文

5个博客链接

数据库管理程序-CS书目

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目