的一部分神经信息处理系统进展32(NeurIPS 2019)
弗朗西斯科·奥拉博纳(Francesco Orabona)阿肖克·库茨基(Ashok Cutkosky)
近年来,方差减少已成为非凸问题中随机梯度下降的有力竞争对手,为提高随机梯度下降寻找一阶临界点的收敛速度提供了首批算法。然而,方差减少技术通常需要仔细调整学习率,并愿意使用过大的“兆位”,以获得更好的结果。我们提出了一种新的算法STORM,它不需要任何批处理,并利用自适应学习速率,从而实现了更简单的实现和更少的超参数调整。我们的去除批次的技术使用一种动量变量来实现非凸优化中的方差减少。在平稳损失$F$上,STORM在$T$迭代中找到一个点$x$,其中$\mathbb{E}[\|\nablaF(x)\|]\leO(1/\sqrt{T}+\sigma^{1/3}/T^{1/3})$在梯度中具有$\sigma ^2$方差,与最著名的速率相匹配,但不需要了解$\simma$。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。