低精度随机梯度朗之万动力学

Ruqi Zhang、Andrew Gordon Wilson、Christopher De Sa
第39届国际机器学习大会论文集,PMLR 162:26624-266442022年。

摘要

虽然低精度优化已被广泛用于加速深度学习,但低精度采样在很大程度上仍未探索。因此,尽管采样对神经网络的泛化和不确定性估计有显著的好处,但在许多大规模场景中采样是不可行的。在本文中,我们首次研究了低精度随机梯度朗之万动力学(SGLD),表明由于其固有的处理系统噪声的能力,其成本可以在不牺牲性能的情况下显著降低。我们证明了在强凸环境下,具有全精度梯度累加器的低精度SGLD的收敛性受量化误差的影响小于其对应的SGD。为了进一步启用低精度梯度累加器,我们为SGLD开发了一个新的量化函数,该量化函数保留了每个更新步骤中的方差。我们证明,在各种深度学习任务中,低精度SGLD仅用8位就可以实现与全精度SGLD相当的性能。

引用本文


BibTeX公司
@会议记录{pmlr-v162-zhang22ag,title={低精度随机梯度{五十} 安格文动力学},author={张,鲁奇和威尔逊,安德鲁·戈登和德萨,克里斯托弗},booktitle={第39届机器学习国际会议论文集},页数={26624--26644},年份={2022},editor={乔杜里、卡马利卡和杰尔卡、斯特凡尼和宋、勒和塞佩斯瓦里、塞萨巴和纽、冈和萨巴托、西万},体积={162},series={机器学习研究论文集},月={7月17日--23日},publisher={PMLR},pdf={https://proceedings.mlr.press/v162/zhang22ag/zhang22 ag.pdf},url={https://proceedings.mlr.press/v162/zhang22ag.html},抽象={虽然低精度优化已被广泛用于加速深度学习,但低精度采样在很大程度上仍未探索。因此,采样在许多大规模场景中根本不可行,尽管它为神经网络的泛化和不确定性估计提供了显著的好处。在本文中,我们提供了f低精度随机梯度朗之万动力学(SGLD)的首次研究表明,由于其固有的处理系统噪声的能力,其成本可以在不牺牲性能的情况下显著降低。我们证明了在强凸环境下,具有全精度梯度累加器的低精度SGLD的收敛性受量化误差的影响小于其对应的SGD。为了进一步实现低精度梯度累加器,我们为SGLD开发了一种新的量化函数,该函数在每个更新步骤中保持方差。我们证明,在各种深度学习任务中,低精度SGLD的性能与只有8位的全精度SGLD相当。}}
尾注
%0会议论文%T低精度随机梯度朗之万动力学%张如琪%安德鲁·戈登·威尔逊%克里斯托弗·德萨%第39届机器学习国际会议论文集%C机器学习研究论文集%D 2022年%E卡马利卡·乔杜里%E斯特凡妮·杰格尔卡%E乐松%E Csaba Szepesvari公司%鄂岗牛%E西万·萨巴托%F pmlr-v162-zhang22ag公司%我PMLR%电话:26624--26644%U型https://proceedings.mlr.press/v162/zhang22ag.html%V 162型%X虽然低精度优化已被广泛用于加速深度学习,但低精度采样在很大程度上仍未探索。因此,尽管采样对神经网络的泛化和不确定性估计有显著的好处,但在许多大规模场景中采样是不可行的。在本文中,我们首次研究了低精度随机梯度朗之万动力学(SGLD),表明由于其固有的处理系统噪声的能力,其成本可以在不牺牲性能的情况下显著降低。我们证明了在强凸环境下,具有全精度梯度累加器的低精度SGLD的收敛性受量化误差的影响小于其对应的SGD。为了进一步启用低精度梯度累加器,我们为SGLD开发了一个新的量化函数,该量化函数保留了每个更新步骤中的方差。我们证明,在各种深度学习任务中,低精度SGLD仅用8位就可以实现与全精度SGLD相当的性能。
亚太地区
Zhang,R.、Wilson,A.G.和De Sa,C.(2022)。低精度随机梯度朗之万动力学。第39届机器学习国际会议记录,英寸机器学习研究进展162:26624-26644网址:https://proceedings.mlr.press/v162/zhang22ag.html。

相关材料