平均场剩余网络:混沌边缘

的一部分神经信息处理系统进展30(NIPS 2017)

Biptex公司 元数据 纸类 评论 补充的

作者

Samuel Schoenholz葛扬

摘要

我们利用平均场理论和差分方程理论研究随机初始化的剩余网络。经典的前馈神经网络,例如那些具有tanh激活的神经网络,在向前传播输入或向后传播梯度时,平均表现出指数行为。指数正向动力学导致输入空间几何体快速崩溃,而指数反向动力学导致梯度急剧消失或爆炸。相反,我们表明,通过添加跳跃连接,网络将根据非线性采用次指数正向和反向动力学,在许多情况下实际上是多项式。通过分析方法得到了这些多项式的指数,并通过经验证明了其正确性。根据“混沌边缘”假设,这些次指数和多项式定律允许剩余网络“徘徊在稳定性和混沌之间的边界上”,从而保持输入空间和梯度信息流的几何结构。在我们的实验中,对于我们在这里研究的每个激活函数,我们用不同的超参数初始化剩余网络,并在MNIST上训练它们。值得注意的是,我们的初始化时间理论可以通过跟踪预期的梯度爆炸量或两个输入向量图像之间的预期平方距离,准确地预测这些网络的测试时间性能。重要的是,我们从理论和经验上都表明,常见的初始化(如Xavier或He方案)对于剩余网络不是最优的,因为最佳初始化方差取决于深度。最后,我们通过将ReLU函数的幂核与第二类的第零贝塞尔函数联系起来,导出了ReLU的幂核的几个新恒等式,从而作出了数学贡献。