计算机科学>机器学习
标题: 利用低坡度和稀疏坡度扩展私人深度学习
摘要: 将差分私有随机梯度下降(DPSGD)应用于训练现代大规模神经网络(如基于变压器的模型)是一项具有挑战性的任务,因为每次迭代时梯度中添加的噪声大小随模型维数而变化,严重阻碍了学习能力。 我们提出了一个统一的框架$\textsf{LSG}$,该框架充分利用神经网络的低秩和稀疏结构来降低梯度更新的维数,从而减轻DPSGD的负面影响。 梯度更新首先用一对低秩矩阵进行近似。 然后,利用一种新的策略来稀疏梯度,从而产生低维、噪声较小的更新,这些更新仍然能够保持神经网络的性能。 对自然语言处理和计算机视觉任务的实证评估表明,我们的方法优于其他最先进的基线。