计算机科学>机器学习
职务: 基于Eluder的随机上下文MDP后悔
摘要: 我们提出了随机上下文马尔可夫决策过程(CMDPs)中后悔最小化的E-UC$^3$RL算法。 该算法在可实现函数类的最小假设和访问\emph{offline}最小二乘和对数损失回归预言的最小假设下运行。 我们的算法是有效的(假设有有效的离线回归预言),并享有$\widetilde{O}(H^3\sqrt{T|S||a|d_{\mathrm{E}}(\mathcal{P})\log(|\mathcal{F}||\mathcal{P}|/\delta))})的遗憾保证,$其中$T$是情节数,$S$是状态空间,$a$是动作空间,$H$是地平线,$\mathca{P} $和$\mathcal{F}$分别是用于近似上下文相关动力学和报酬的有限函数类,$d_{\mathrm{E}}(\mathcal{P})$是$\mathcal{P}$w.r.t Hellinger距离的Eluder维数。 据我们所知,我们的算法是第一个针对CMDP的高效且速率最优的后悔最小化算法,该算法在一般离线函数近似设置下运行。 此外,我们将Eluder维数扩展到了一般的有界度量,这些度量可能会引起不同的兴趣。