Bandits和RL中模型选择的动态平衡

Ashok Cutkosky、Christoph Dann、Abhimanyu Das、Claudio Gentile、Aldo Pacchiano、Manish Purohit
第38届机器学习国际会议论文集,PMLR 139:2276-22852021年。

摘要

我们提出了一个模型选择框架,将随机土匪中的基本算法与强化学习相结合。我们要求每个基本算法都有一个候选遗憾边界,这个边界可能成立,也可能不成立。我们使用候选遗憾边界上的“平衡条件”选择基本算法在每轮比赛中使用。我们的方法同时恢复了以前最坏情况下的后悔界限,同时在一些基础学习者显著超出其候选界限的自然场景中也获得了更小的后悔。我们的框架适用于许多环境,包括线性强盗和具有嵌套函数类的MDP,具有未知错误指定的线性强盗,以及调整LinUCB等算法的置信参数。此外,与最近在线性随机土匪模型选择方面所做的努力不同,我们的方法可以扩展到考虑对抗性环境,而不是随机环境。

引用本文


BibTeX公司
@会议记录{pmlr-v139-cutkosky21a,title={Bandits和RL中模型选择的动态平衡},author={Cutkosky、Ashok和Dann、Christoph和Das、Abhimanyu和Gentile、Claudio和Pacchiano、Aldo和Purohit、Manish},booktitle={第38届机器学习国际会议论文集},页数={2276--2285},年份={2021},editor={Meila,Marina和Zhang,Tong},体积={139},series={机器学习研究论文集},月={7月18日至24日},publisher={PMLR},pdf={http://processes.mlr.press/v139/cutkosky21a/cutkosky2a.pdf},url={https://procedures.mlr.press/v139/cutkosky21a.html},abstract={我们提出了一个模型选择框架,将随机土匪中的基本算法与强化学习相结合。我们需要每个可能成立或可能不成立的基本算法的候选遗憾界。我们使用“平衡条件”选择基本算法在每轮中进行游戏关于候选人遗憾的界限。我们的方法同时恢复了以前最坏情况下的后悔界限,同时在一些基础学习者显著超出其候选界限的自然场景中也获得了更小的后悔。我们的框架适用于许多环境,包括线性强盗和具有嵌套函数类的MDP,具有未知错误指定的线性强盗,以及调整LinUCB等算法的置信参数。此外,与最近在线性随机土匪模型选择方面所做的努力不同,我们的方法可以扩展到考虑对抗性环境,而不是随机环境。}}
尾注
%0会议论文%Bandits和RL中模型选择的T动态平衡%阿肖克·卡特科斯基%克里斯托夫·丹恩%一个Abhimanyu Das%克劳迪奥·詹蒂莱%阿尔多·帕奇亚诺%一个Manish Purohit%B第38届国际机器学习大会论文集%C机器学习研究进展%2021年4月%E玛丽娜·梅拉%E Tong Zhang先生%F pmlr-v139-cutkosky21a型%I项目经理%电话2276-2285%U型https://proceedings.mlr.press/v139/cutkosky21a.html%139伏%我们提出了一个模型选择框架,将随机盗贼和强化学习中的基本算法结合起来。我们要求每个基本算法都有一个候选遗憾边界,这个边界可能成立,也可能不成立。我们使用候选遗憾边界上的“平衡条件”选择基本算法在每轮比赛中使用。我们的方法同时恢复了以前最坏情况下的后悔界限,同时在一些基础学习者显著超出其候选界限的自然场景中也获得了更小的后悔。我们的框架适用于许多环境,包括线性强盗和具有嵌套函数类的MDP,具有未知错误指定的线性强盗,以及调整LinUCB等算法的置信参数。此外,与最近在线性随机土匪模型选择方面所做的努力不同,我们的方法可以扩展到考虑对抗性环境,而不是随机环境。
亚太地区
Cutkosky,A.、Dann,C.、Das,A.、Gentile,C.、Pacchiano,A.和Purohit,M.(2021)。Bandits和RL中模型选择的动态平衡。第38届机器学习国际会议论文集,英寸机器学习研究进展139:2276-2285网址:https://proceedings.mlr.press/v139/cutkosky21a.html。

相关材料