MetaInit:通过学习初始化来初始化学习

的一部分神经信息处理系统进展32(NeurIPS 2019)

作者反馈 Biptex公司 MetaReview公司 元数据 纸类 评论 补充的

作者

Yann N.Dauphin,Samuel Schoenholz

摘要

深度学习模型经常用手工制作的特征来交换学习到的深度特征,而使用梯度下降的人工干预要少得多。虽然这种模式已经取得了巨大的成功,但深层网络通常很难训练,性能关键取决于初始参数的选择。在这项工作中,我们引入了一个名为MetaInit的算法,作为使用元学习自动搜索良好初始化的步骤。我们的方法基于这样一个假设,即良好的初始化使梯度下降更容易,方法是从具有最小二阶效应的局部线性区域开始。我们通过一个称为梯度商的量来形式化这个概念,梯度商可以用任何体系结构或数据集计算。MetaInit通过使用梯度下降来调整初始权重矩阵的范数,从而有效地最小化此数量。我们在普通网络和残差网络上进行了实验,结果表明该算法能够从一类错误的初始化中自动恢复。MetaInit允许我们训练网络,并在无批量规范化或剩余连接的情况下实现与最先进技术相竞争的性能。特别是,我们发现,对于CIFAR-10上没有跳过连接的网络,此方法的性能优于标准化,并且可以扩展到Imagenet上的Resnet-50模型。