基于交替梯度下降的有限遗憾和固定步长的循环
James P.Bailey、Gauthier Gidel、Georgios Piliouras
第三十三届学习理论会议记录,PMLR 125:391-4072020年。
摘要
梯度下降可以说是最流行的在线优化方法之一,具有广泛的应用。然而,代理同时更新其策略的标准实现会产生一些不需要的特性;策略偏离了平衡,遗憾随着时间的推移而增长。在本文中,我们通过考虑不同的实现来消除这些负面性质,以通过任意固定的步长获得$O\left(\nicefrac{1}{T}\right)$时间平均遗憾。我们通过让代理轮流更新策略来获得这种令人惊讶的特性。在这种情况下,我们表明,使用梯度下降和任何线性损失函数的代理都会获得有限的后悔,而不管对手如何更新策略。此外,我们还证明了在对抗环境中,当双方都使用交替梯度下降算法时,代理的策略是有界的和循环的。
引用本文
相关材料