Overparameterization of Deep ResNet: Zero Loss and Mean-field Analysis

Zhiyan Ding; Shi Chen; Qin Li; Stephen J. Wright

在深度神经网络（NN）中寻找与训练数据相匹配的参数是一个非凸优化问题，但基本的一阶优化方法（梯度下降）可以在许多实际情况下找到具有完美拟合（零丢失）的全局优化器。我们在具有光滑激活函数的剩余神经网络（ResNet）的情况下，在一个限制区域中，层数（深度）和每层中的权重数（宽度）都趋于无穷大的情况下检验了这一现象。首先，我们使用平均场极限参数来证明参数训练的梯度下降成为概率分布的梯度流，该概率分布的特征是偏微分方程（PDE）在大-NN极限下。接下来，我们证明了在某些假设下，PDE的解在训练时间内收敛到零损失解。总之，这些结果表明，如果ResNet足够大，则ResNet的训练会产生几乎为零的损失。我们估计了将损失降低到给定阈值以下所需的深度和宽度，概率很高。

Deep ResNet的过度参数化：零损失和平均场分析

摘要