Finite Regret and Cycles with Fixed Step-Size via Alternating Gradient Descent-Ascent

James P. Bailey; Gauthier Gidel; Georgios Piliouras

基于交替梯度下降的有限遗憾和固定步长的循环

James P.Bailey、Gauthier Gidel、Georgios Piliouras

第三十三届学习理论会议记录，PMLR 125:391-4072020年。

摘要

梯度下降可以说是最流行的在线优化方法之一，具有广泛的应用。然而，代理同时更新其策略的标准实现会产生一些不需要的特性；策略偏离了平衡，遗憾随着时间的推移而增长。在本文中，我们通过考虑不同的实现来消除这些负面性质，以通过任意固定的步长获得$O\left（\nicefrac｛1｝｛T｝\right）$时间平均遗憾。我们通过让代理轮流更新策略来获得这种令人惊讶的特性。在这种情况下，我们表明，使用梯度下降和任何线性损失函数的代理都会获得有限的后悔，而不管对手如何更新策略。此外，我们还证明了在对抗环境中，当双方都使用交替梯度下降算法时，代理的策略是有界的和循环的。

引用本文

BibTeX公司

@会议记录{pmlr-v125-bailey20a，title={通过交替梯度下降法确定步长的有限遗憾和循环}，author={Bailey、James P.和Gidel、Gauthier和Piliouras、Georgios}，booktitle={第三十三届学习理论会议记录}，页数={391--407}，年份={2020年}，editor={阿伯内西，雅各布和阿加瓦尔，什瓦尼}，体积={125}，series={机器学习研究论文集}，月={09年7月12日}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v125/bailey20a/bailey20a.pdf},url={https://proceedings.mlr.press/v125/bailey20a.html},abstract={梯度下降可以说是最流行的在线优化方法之一，有着广泛的应用。然而，代理同时更新其策略的标准实现产生了一些不希望出现的特性；策略偏离了平衡，遗憾随着时间的推移而增长。在本文中，我们通过考虑不同的实现来消除这些负面属性，从而通过任意固定步长获得$O\left（\nicefrac{1}{T}\right）$时间平均遗憾。我们通过让代理轮流更新策略来获得这种令人惊讶的特性。在这种情况下，我们表明，使用梯度下降和任何线性损失函数的代理都会获得有限的后悔，而不管对手如何更新策略。此外，我们还证明了在对抗环境中，当双方都使用交替梯度下降算法时，代理的策略是有界的和循环的。}}

尾注

%0会议论文%通过交替梯度下降-上升的T有限回归和具有固定步长的循环%詹姆斯·贝利%一个更高雅的Gidel%乔治·皮里奥拉斯%第三十三届学习理论会议论文集%C机器学习研究进展%D 2020年%E雅各布·阿伯内西%谢瓦尼·阿加瓦尔%F pmlr-v125基本20a%我PMLR%电话391--407%U型https://proceedings.mlr.press/v125/bailey20a.html程序%第125版%X梯度下降可以说是最流行的在线优化方法之一，具有广泛的应用。然而，代理同时更新其策略的标准实现会产生一些不需要的特性；策略偏离了平衡，遗憾随着时间的推移而增长。在本文中，我们通过考虑不同的实现来消除这些负面属性，从而通过任意固定步长获得$O\left（\nicefrac{1}{T}\right）$时间平均遗憾。我们通过让代理轮流更新策略来获得这种令人惊讶的特性。在这种情况下，我们表明，使用梯度下降和任何线性损失函数的代理都会获得有限的后悔，而不管对手如何更新策略。此外，我们还证明了在对抗环境中，当双方都使用交替梯度下降算法时，代理的策略是有界的和循环的。

亚太地区

Bailey，J.P.、Gidel，G.和Piliouras，G..（2020年）。通过交替梯度下降法确定步长的有限遗憾和循环。第三十三届学习理论会议记录，英寸机器学习研究进展125:391-407可从https://proceedings.mlr.press/v125/bailey20a.html。

基于交替梯度下降的有限遗憾和固定步长的循环

摘要

引用本文

相关材料