基于自适应SGD的分布式随机优化

的一部分神经信息处理系统进展31(NeurIPS 2018)

Biptex公司 元数据 纸类 评论 补充的

作者

阿肖克·库特科斯基(Ashok Cutkosky),罗贝特·布萨·费科特(Róbert Busa-Fekete)

摘要

随机凸优化算法是在大规模数据上训练机器学习模型的最常用方法。放大这些模型的训练过程是至关重要的,但最流行的算法,随机梯度下降(SGD),是一种串行方法,很难并行化。本文将自适应性与方差减少技术相结合,提出了一种有效的分布式随机优化方法。我们的分析得出了机器数量的线性加速、恒定的内存占用以及通信轮次的对数。关键的是,我们的方法是减少黑盒,将任何串行在线学习算法并行化,简化先前的分析,并允许我们利用在设计自适应算法方面取得的重大进展。特别是,我们在不需要任何平滑参数的先验知识的情况下实现了最佳收敛速度,从而产生了一种更健壮的算法,减少了超参数调整的需要。我们在Spark分布式框架中实现了我们的算法,并在大规模逻辑回归问题上表现出显著的性能提升。