有效学习线性二次调节器的对数后悔
Asaf Cassel、Alon Cohen、Tomer Koren
第37届机器学习国际会议记录,PMLR 119:1328-13372020年。
摘要
我们考虑过渡参数初始未知的线性二次控制系统的学习问题。该设置中的最新结果已经证明了有效的学习算法,遗憾随着决策步骤数的平方根的增加而增加。我们提出了新的高效算法,在两种情况下(当只有状态转移矩阵A未知时,以及当只有状态动作转移矩阵B未知且最优策略满足一定的非退化条件时),可能令人惊讶地实现了仅按步数对数缩放(多)的遗憾。另一方面,我们给出了一个下界,表明当违反后一个条件时,平方根遗憾是不可避免的。
引用本文
相关材料