非凸SGD中基于动量的方差缩减

的一部分神经信息处理系统进展32(NeurIPS 2019)

作者反馈 Biptex公司 MetaReview公司 元数据 纸类 评论 补充的

作者

弗朗西斯科·奥拉博纳(Francesco Orabona)阿肖克·库茨基(Ashok Cutkosky)

摘要

近年来,方差减少已成为非凸问题中随机梯度下降的有力竞争对手,为提高随机梯度下降寻找一阶临界点的收敛速度提供了首批算法。然而,方差减少技术通常需要仔细调整学习率,并愿意使用过大的“兆位”,以获得更好的结果。我们提出了一种新的算法STORM,它不需要任何批处理,并利用自适应学习速率,从而实现了更简单的实现和更少的超参数调整。我们的去除批次的技术使用一种动量变量来实现非凸优化中的方差减少。在平稳损失$F$上,STORM在$T$迭代中找到一个点$x$,其中$\mathbb{E}[\|\nablaF(x)\|]\leO(1/\sqrt{T}+\sigma^{1/3}/T^{1/3})$在梯度中具有$\sigma ^2$方差,与最著名的速率相匹配,但不需要了解$\simma$。