基于交替梯度下降的有限遗憾和固定步长的循环

James P.Bailey、Gauthier Gidel、Georgios Piliouras
第三十三届学习理论会议记录,PMLR 125:391-4072020年。

摘要

梯度下降可以说是最流行的在线优化方法之一,具有广泛的应用。然而,代理同时更新其策略的标准实现会产生一些不需要的特性;策略偏离了平衡,遗憾随着时间的推移而增长。在本文中,我们通过考虑不同的实现来消除这些负面性质,以通过任意固定的步长获得$O\left(\nicefrac{1}{T}\right)$时间平均遗憾。我们通过让代理轮流更新策略来获得这种令人惊讶的特性。在这种情况下,我们表明,使用梯度下降和任何线性损失函数的代理都会获得有限的后悔,而不管对手如何更新策略。此外,我们还证明了在对抗环境中,当双方都使用交替梯度下降算法时,代理的策略是有界的和循环的。

引用本文


BibTeX公司
@会议记录{pmlr-v125-bailey20a,title={通过交替梯度下降法确定步长的有限遗憾和循环},author={Bailey、James P.和Gidel、Gauthier和Piliouras、Georgios},booktitle={第三十三届学习理论会议记录},页数={391--407},年份={2020年},editor={阿伯内西,雅各布和阿加瓦尔,什瓦尼},体积={125},series={机器学习研究论文集},月={09年7月12日},publisher={PMLR},pdf={http://proceedings.mlr.press/v125/bailey20a/bailey20a.pdf},url={https://proceedings.mlr.press/v125/bailey20a.html},abstract={梯度下降可以说是最流行的在线优化方法之一,有着广泛的应用。然而,代理同时更新其策略的标准实现产生了一些不希望出现的特性;策略偏离了平衡,遗憾随着时间的推移而增长。在本文中,我们通过考虑不同的实现来消除这些负面属性,从而通过任意固定步长获得$O\left(\nicefrac{1}{T}\right)$时间平均遗憾。我们通过让代理轮流更新策略来获得这种令人惊讶的特性。在这种情况下,我们表明,使用梯度下降和任何线性损失函数的代理都会获得有限的后悔,而不管对手如何更新策略。此外,我们还证明了在对抗环境中,当双方都使用交替梯度下降算法时,代理的策略是有界的和循环的。}}
尾注
%0会议论文%通过交替梯度下降-上升的T有限回归和具有固定步长的循环%詹姆斯·贝利%一个更高雅的Gidel%乔治·皮里奥拉斯%第三十三届学习理论会议论文集%C机器学习研究进展%D 2020年%E雅各布·阿伯内西%谢瓦尼·阿加瓦尔%F pmlr-v125基本20a%我PMLR%电话391--407%U型https://proceedings.mlr.press/v125/bailey20a.html程序%第125版%X梯度下降可以说是最流行的在线优化方法之一,具有广泛的应用。然而,代理同时更新其策略的标准实现会产生一些不需要的特性;策略偏离了平衡,遗憾随着时间的推移而增长。在本文中,我们通过考虑不同的实现来消除这些负面属性,从而通过任意固定步长获得$O\left(\nicefrac{1}{T}\right)$时间平均遗憾。我们通过让代理轮流更新策略来获得这种令人惊讶的特性。在这种情况下,我们表明,使用梯度下降和任何线性损失函数的代理都会获得有限的后悔,而不管对手如何更新策略。此外,我们还证明了在对抗环境中,当双方都使用交替梯度下降算法时,代理的策略是有界的和循环的。
亚太地区
Bailey,J.P.、Gidel,G.和Piliouras,G..(2020年)。通过交替梯度下降法确定步长的有限遗憾和循环。第三十三届学习理论会议记录,英寸机器学习研究进展125:391-407可从https://proceedings.mlr.press/v125/bailey20a.html。

相关材料