利用基于梯度的优化方法训练深度神经网络(DNNs)是目前广泛应用的一种方法。然而,如何从数学上解释这些方法在实践中如此成功,仍然是一个广泛存在的问题。
在这篇文章中,我们考虑带整流线性单元(ReLU)激活的全连接前馈DNNs。研究了具有任意多个隐层的dnn训练中梯度流微分方程的解,证明了每一条非发散GF轨迹都以多项式收敛到一个临界点。我们假设输入数据的分布具有分段多项式密度,目标函数(描述输入数据和输出数据之间的关系)是分段多项式。我们证明的主要步骤之一是验证所考虑的风险函数满足Kurdyka-Lojasiewicz不等式。ReLU-DNNs训练分析中的一个关键难点是ReLU函数不可微,因此需要使用非光滑分析中的一些工具。
在所考虑的风险函数至少允许一个正则全局最小值的附加假设下,我们还建立了随机初始化的梯度下降(GD)方法在训练ReLU-DNNs时的风险收敛性。最后,在一维输入浅网络的特殊情况下,我们证明了对于每个Lipschitz连续目标函数,在风险景观中存在一个充分正则的全局最小值。