通过动态等距复活深度学习中的S形:理论与实践

的一部分神经信息处理系统进展30(NIPS 2017)

Biptex公司 元数据 纸类 评论 补充的

作者

Jeffrey Pennington、Samuel Schoenholz、Surya Ganguli

摘要

众所周知,深度网络中的权重初始化会对学习速度产生巨大影响。例如,确保网络输入输出雅可比矩阵的均方奇异值为O(1)对于避免梯度指数消失或爆炸至关重要。此外,在深线性网络中,确保雅可比矩阵的所有奇异值都集中在1附近,可以显著提高学习速度;这是一个称为动态等距的特性。然而,如何在非线性深网络中实现动态等距尚不清楚。我们通过使用自由概率理论中的强大工具来解析计算深网络输入输出雅可比矩阵的{整}奇异值分布来解决这个问题。我们研究了奇异值分布对网络深度、权重初始化和非线性选择的依赖性。有趣的是,我们发现ReLU网络无法实现动态等距。另一方面,sigmoid网络可以实现等距,但只能通过正交权值初始化。此外,我们从经验上证明,实现动态等距的深度非线性网络比不实现动态等角的网络学习速度快几个数量级。事实上,我们表明正确初始化的深S形网络始终优于深ReLU网络。总之,我们的分析表明,控制雅可比奇异值的整个分布是深度学习中的一个重要设计考虑因素。