Bandits和RL中模型选择的动态平衡
Ashok Cutkosky、Christoph Dann、Abhimanyu Das、Claudio Gentile、Aldo Pacchiano、Manish Purohit
第38届机器学习国际会议论文集,PMLR 139:2276-22852021年。
摘要
我们提出了一个模型选择框架,将随机土匪中的基本算法与强化学习相结合。我们要求每个基本算法都有一个候选遗憾边界,这个边界可能成立,也可能不成立。我们使用候选遗憾边界上的“平衡条件”选择基本算法在每轮比赛中使用。我们的方法同时恢复了以前最坏情况下的后悔界限,同时在一些基础学习者显著超出其候选界限的自然场景中也获得了更小的后悔。我们的框架适用于许多环境,包括线性强盗和具有嵌套函数类的MDP,具有未知错误指定的线性强盗,以及调整LinUCB等算法的置信参数。此外,与最近在线性随机土匪模型选择方面所做的努力不同,我们的方法可以扩展到考虑对抗性环境,而不是随机环境。
引用本文
相关材料