Low-Precision Stochastic Gradient Langevin Dynamics

Ruqi Zhang; Andrew Gordon Wilson; Christopher De Sa

低精度随机梯度朗之万动力学

Ruqi Zhang、Andrew Gordon Wilson、Christopher De Sa

第39届国际机器学习大会论文集，PMLR 162:26624-266442022年。

摘要

虽然低精度优化已被广泛用于加速深度学习，但低精度采样在很大程度上仍未探索。因此，尽管采样对神经网络的泛化和不确定性估计有显著的好处，但在许多大规模场景中采样是不可行的。在本文中，我们首次研究了低精度随机梯度朗之万动力学（SGLD），表明由于其固有的处理系统噪声的能力，其成本可以在不牺牲性能的情况下显著降低。我们证明了在强凸环境下，具有全精度梯度累加器的低精度SGLD的收敛性受量化误差的影响小于其对应的SGD。为了进一步启用低精度梯度累加器，我们为SGLD开发了一个新的量化函数，该量化函数保留了每个更新步骤中的方差。我们证明，在各种深度学习任务中，低精度SGLD仅用8位就可以实现与全精度SGLD相当的性能。

引用本文

BibTeX公司

@会议记录{pmlr-v162-zhang22ag，title={低精度随机梯度{五十} 安格文动力学}，author={张，鲁奇和威尔逊，安德鲁·戈登和德萨，克里斯托弗}，booktitle={第39届机器学习国际会议论文集}，页数={26624--26644}，年份={2022}，editor={乔杜里、卡马利卡和杰尔卡、斯特凡尼和宋、勒和塞佩斯瓦里、塞萨巴和纽、冈和萨巴托、西万}，体积={162}，series={机器学习研究论文集}，月={7月17日--23日}，publisher={PMLR}，pdf={https://proceedings.mlr.press/v162/zhang22ag/zhang22 ag.pdf},url={https://proceedings.mlr.press/v162/zhang22ag.html},抽象={虽然低精度优化已被广泛用于加速深度学习，但低精度采样在很大程度上仍未探索。因此，采样在许多大规模场景中根本不可行，尽管它为神经网络的泛化和不确定性估计提供了显著的好处。在本文中，我们提供了f低精度随机梯度朗之万动力学（SGLD）的首次研究表明，由于其固有的处理系统噪声的能力，其成本可以在不牺牲性能的情况下显著降低。我们证明了在强凸环境下，具有全精度梯度累加器的低精度SGLD的收敛性受量化误差的影响小于其对应的SGD。为了进一步实现低精度梯度累加器，我们为SGLD开发了一种新的量化函数，该函数在每个更新步骤中保持方差。我们证明，在各种深度学习任务中，低精度SGLD的性能与只有8位的全精度SGLD相当。}}

尾注

%0会议论文%T低精度随机梯度朗之万动力学%张如琪%安德鲁·戈登·威尔逊%克里斯托弗·德萨%第39届机器学习国际会议论文集%C机器学习研究论文集%D 2022年%E卡马利卡·乔杜里%E斯特凡妮·杰格尔卡%E乐松%E Csaba Szepesvari公司%鄂岗牛%E西万·萨巴托%F pmlr-v162-zhang22ag公司%我PMLR%电话：26624--26644%U型https://proceedings.mlr.press/v162/zhang22ag.html%V 162型%X虽然低精度优化已被广泛用于加速深度学习，但低精度采样在很大程度上仍未探索。因此，尽管采样对神经网络的泛化和不确定性估计有显著的好处，但在许多大规模场景中采样是不可行的。在本文中，我们首次研究了低精度随机梯度朗之万动力学（SGLD），表明由于其固有的处理系统噪声的能力，其成本可以在不牺牲性能的情况下显著降低。我们证明了在强凸环境下，具有全精度梯度累加器的低精度SGLD的收敛性受量化误差的影响小于其对应的SGD。为了进一步启用低精度梯度累加器，我们为SGLD开发了一个新的量化函数，该量化函数保留了每个更新步骤中的方差。我们证明，在各种深度学习任务中，低精度SGLD仅用8位就可以实现与全精度SGLD相当的性能。

亚太地区

Zhang，R.、Wilson，A.G.和De Sa，C.（2022）。低精度随机梯度朗之万动力学。第39届机器学习国际会议记录，英寸机器学习研究进展162:26624-26644网址：https://proceedings.mlr.press/v162/zhang22ag.html。

低精度随机梯度朗之万动力学

摘要

引用本文

相关材料