裂脑自动编码器:
基于跨通道预测的无监督学习
张曦轲
菲利普·伊索拉
阿列克谢·埃夫罗斯
加州大学伯克利分校EECS系
代码[GitHub]
2017年CVPR【论文】
摘要
我们提出了分流式自动编码器,这是对传统自动编码器架构的直接修改,用于无监督的表示学习。
该方法将拆分添加到网络中,从而产生两个不相交的子网络。
每个子网络都经过训练来执行一项困难的任务——从另一个子网络预测数据信道的一个子集。
子网络一起从整个输入信号中提取特征。
通过强制网络解决跨通道预测任务,我们在网络中归纳出一种表示,它可以很好地传递给其他看不见的任务。
该方法在多个大规模迁移学习基准上实现了最先进的性能。
方法
为了进行无监督的预训练,我们在信道方向将网络分成两半,以产生两个不相交的子网络。
然后训练每个子网络以对来自另一个子集的数据的一个子集执行预测。
(左)图像
一半的网络从灰度预测颜色通道,另一半从颜色预测灰度。
(右)RGB-D图像
一半网络根据图像预测深度,另一半网络根据深度预测图像。
请参阅全文第3节
纸张
了解更多详细信息。
我们表明,我们可以在无监督的框架中学习特征,只需预测
原始数据通道
来自其他原始数据通道。
特征评估结果
这里,我们展示了大规模RGB图像的特征评估结果,如
纸张
RGB-D域的结果见第4.2节。
第一组测试是线性分类器,用于网络中每个层的语义分类。我们冻结预处理的AlexNet表示,在空间上调整特征地图的大小,使所有层都具有大约9000个维度,并在
(左)ImageNet
和
(右)位置
数据集。
ImageNet标签
和
位置-标签
是指在受监督的制度下预先培训的网络。
所示的所有其他方法均不受监督。
方法
大脑自动分裂(cl,cl)
这是我们提出的方法,与以前的无监督/自监督方法相比性能良好。
我们还展示了PASCAL VOC数据集上几种常用传输学习基准的性能。
下表为
纸张
,更多详细信息见第4.1.1节。
纸类
R.Zhang、P.Isola、A.A.Efros。
分裂脑自动编码器:跨通道预测的无监督学习。
2017年CVPR。
(主持时间:
arXiv公司
)
[比特斯]
海报
[PDF](PDF格式)
试试这个模型
GitHub页面有用于获取模型的脚本,以及进行颜色预处理(如果需要)的Caffe的略微修改版本。
我们建议您去
github
第页和自述文件中的以下说明。
[GitHub]
致谢
我们感谢伯克利人工智能研究实验室(BAIR)的成员,特别是Andrew Owens的有益讨论,以及Saurabh Gupta对RGB-D实验的帮助。
这项研究部分得到了伯克利深驱(BDD)赞助商的支持,NVIDIA Corp和Algorithmia的硬件捐赠,英特尔研究基金,NGA NURI,NSF IIS-1633310和NSF SMA-1514512。
谢谢奥巴马。