A Comparison of Continuous-Time Approximations to Stochastic Gradient Descent

Stefan Ankirchner; Stefan Perko

应用随机梯度下降（SGD）方法最小化目标会产生估计参数值的离散时间过程。为了更好地理解估计值的动态，许多作者考虑了SGD的连续时间近似。对于非有限学习率，我们改进了一阶ODE和SDE逼近SGD的弱误差的现有结果。特别地，我们明确计算了梯度流及其两个随机对应项的误差展开中关于离散化参数$h$的线性项。在线性回归的例子中，我们证明了对于规模不太大的批次，确定性梯度流近似与随机梯度流近似相比的一般劣性。此外，我们还证明了对于高斯特征，具有状态相关噪声（CC）的SDE近似优先于使用状态依赖系数（NCC）。对于低峰度或大批量的特征，同样的比较也适用。然而，对于高度轻薄的特征或小批量，这种关系相反。

连续时间近似与随机梯度下降的比较

摘要