统计>机器学习
标题: 利用随机梯度哈密顿蒙特卡罗增强低精度采样
摘要: 低精度训练已成为一种很有前途的低成本技术,可以在不牺牲太多精度的情况下提高深度神经网络的训练效率。 其贝叶斯对应物可以进一步提供不确定性量化和提高泛化精度。 本文研究了强对数凹分布和非对数凹分布的随机梯度哈密顿蒙特卡罗(SGHMC)低精度采样问题。 理论上,我们的结果表明,为了在非对数凹分布的2-Wasserstein距离中实现$\epsilon$-误差,与最新的低精度采样器相比,低精度SGHMC实现了二次改进($\widetilde{\mathbf{O}}left({\epsilon^{-2}{\mu^*}{-2}\log^2\left(}\epsillon^{-1}}\right)}\right$), 随机梯度Langevin动力学(SGLD)($\widetilde{\mathbf{O}}\left({{\epsilon}^{-4}{\lambda^{*}}^{-1}\log^5\left)。 此外,我们证明,由于基于动量的更新w.r.t.梯度噪声的鲁棒性,与低精度SGLD相比,低精度SGHMC对量化误差更具鲁棒性。 经验上,我们对合成数据和{MNIST、CIFAR-10和CIFAR-100}数据集进行了实验,验证了我们的理论发现。 我们的研究强调了低精度SGHMC作为大规模和资源有限的机器学习的高效和准确采样方法的潜力。