×

亚太地区

swMATH ID: 46051
软件作者: 徐阳阳;徐一波;颜永贵;科林·萨切尔·谢泼德(Colin Sutcher-Shepard);利奥波德·格林伯格;陈杰
说明: 并行和分布式异步自适应随机梯度方法。随机梯度法(SGM)是训练深度学习模型的主要方法。自适应版本(例如Adam和AMSGrad)在实践中得到了广泛的应用,部分原因是它们比非自适应版本实现了更快的收敛,而开销很小。另一方面,异步(async)并行计算与同步(sync)并行计算相比表现出了更高的速度。文献中已经从理论和实际性能两个角度对异步并行非自适应SGM进行了深入研究。自适应SGM也可以以异步并行的方式实现,没有太大困难。然而,据我们所知,还没有建立异步并行自适应SGM的理论结果。分析具有异步更新的自适应SGM的困难源于二阶矩项。本文提出了一种基于AMSGrad的异步并行自适应SGM。我们证明,如果异步引起的停滞(也称为延迟)是有界的,那么对于凸问题和非凸问题,该方法继承了AMSGrad的收敛保证。我们的收敛速度结果表明,如果τ=o(K14),则近似线性的并行化加速,其中τ是陈旧性,K是迭代次数。该方法在凸机器学习和非凸机器学习问题上进行了测试,数值结果表明,与同步机器学习和异步并行非自适应机器学习相比,该方法具有明显的优势。
主页: https://arxiv.org/abs/2002.09095
源代码:  https://github.com/RPI-OPT/APAM
依赖项: C类++
关键词: 随机梯度法;自适应学习率;深度学习
相关软件: CIFAR公司;伦敦银行支持向量机;HOGWILD公司;阿达格拉德;蜘蛛增压;ProxSARAH公司;亚当;A锁定;RMS公司;惯性-SsGM;github;iPiasco公司;iPiano公司
引用于: 3文件

按年份列出的引文