有效学习线性二次调节器的对数后悔

Asaf Cassel、Alon Cohen、Tomer Koren
第37届机器学习国际会议记录,PMLR 119:1328-13372020年。

摘要

我们考虑过渡参数初始未知的线性二次控制系统的学习问题。该设置中的最新结果已经证明了有效的学习算法,遗憾随着决策步骤数的平方根的增加而增加。我们提出了新的高效算法,在两种情况下(当只有状态转移矩阵A未知时,以及当只有状态动作转移矩阵B未知且最优策略满足一定的非退化条件时),可能令人惊讶地实现了仅按步数对数缩放(多)的遗憾。另一方面,我们给出了一个下界,表明当违反后一个条件时,平方根遗憾是不可避免的。

引用本文


BibTeX公司
@会议记录{pmlr-v119-cassel20a,title={有效学习线性二次调节器的对数遗憾},author={卡塞尔、阿萨夫和科恩、阿龙和科伦、托默},booktitle={第37届机器学习国际会议论文集},页数={1328--1337},年份={2020年},editor={III,哈尔·达姆和辛格,阿尔蒂},体积={119},series={机器学习研究论文集},月={7月13日至18日},publisher={PMLR},pdf={http://proceedings.mlr.press/v119/cassel20a/cassel20a.pdf},url={https://proceedings.mlr.press/v119/cassel20a.html},抽象={我们考虑过渡参数最初未知的线性二次型控制系统中的学习问题。在这种情况下,最近的结果证明了有效的学习算法,遗憾的是,随着决策步骤数的平方根的增加,学习算法的效率也在增加。我们提出了新的高效算法,这些算法可能会令人惊讶地达到r在两种情况下,只随步数对数缩放(多)的白鹭:当只有状态转移矩阵A未知时,以及当只有状态动作转移矩阵B未知且最优策略满足某种非退化条件时。另一方面,我们给出了一个下界,表明当违反后一个条件时,平方根遗憾是不可避免的。}}
尾注
%0会议论文%有效学习线性二次调节器的T对数后悔%阿萨夫·卡塞尔%阿隆·科恩%托梅尔·科伦%第37届机器学习国际会议论文集%C机器学习研究进展%D 2020年%哈尔·达梅三世%阿尔蒂·辛格%对于pmlr-v119-cassel20a%我PMLR%电话:1328--1337%U型https://proceedings.mlr.press/v119/cassel20a.html%V 119(伏119)%我们考虑线性二次型控制系统的学习问题,其过渡参数最初未知。这种情况下的最新结果表明,高效的学习算法随着决策步骤数量的平方根而增长。我们提出了新的高效算法,在两种情况下(当只有状态转移矩阵A未知时,以及当只有状态动作转移矩阵B未知且最优策略满足一定的非退化条件时),可能令人惊讶地实现了仅按步数对数缩放(多)的遗憾。另一方面,我们给出了一个下界,表明当违反后一个条件时,平方根遗憾是不可避免的。
亚太地区
Cassel,A.、Cohen,A.和Koren,T.(2020年)。有效学习线性二次调节器的对数遗憾。第37届机器学习国际会议记录,英寸机器学习研究论文集119:1328-1337网址:https://proceedings.mlr.press/v119/cassel20a.html。

相关材料