低精度随机梯度朗之万动力学
Ruqi Zhang、Andrew Gordon Wilson、Christopher De Sa
第39届国际机器学习大会论文集,PMLR 162:26624-266442022年。
摘要
虽然低精度优化已被广泛用于加速深度学习,但低精度采样在很大程度上仍未探索。因此,尽管采样对神经网络的泛化和不确定性估计有显著的好处,但在许多大规模场景中采样是不可行的。在本文中,我们首次研究了低精度随机梯度朗之万动力学(SGLD),表明由于其固有的处理系统噪声的能力,其成本可以在不牺牲性能的情况下显著降低。我们证明了在强凸环境下,具有全精度梯度累加器的低精度SGLD的收敛性受量化误差的影响小于其对应的SGD。为了进一步启用低精度梯度累加器,我们为SGLD开发了一个新的量化函数,该量化函数保留了每个更新步骤中的方差。我们证明,在各种深度学习任务中,低精度SGLD仅用8位就可以实现与全精度SGLD相当的性能。
引用本文
相关材料