Eluder-based Regret for Stochastic Contextual MDPs

Levy, Orin; Cassel, Asaf; Cohen, Alon; Mansour, Yishay

计算机科学>机器学习

arXiv公司：2211.14932（cs）

【2022年11月27日提交(第1版)，上次修订日期：2024年5月29日（本版本，v3）]

职务：基于Eluder的随机上下文MDP后悔

作者：奥林·利维,阿萨夫·卡塞尔,阿隆·科恩,伊莎·曼苏尔

查看PDF

摘要：我们提出了随机上下文马尔可夫决策过程（CMDPs）中后悔最小化的E-UC$^3$RL算法。该算法在可实现函数类的最小假设和访问\emph{offline}最小二乘和对数损失回归预言的最小假设下运行。我们的算法是有效的（假设有有效的离线回归预言），并享有$\widetilde{O}（H^3\sqrt{T|S||a|d_{\mathrm{E}}（\mathcal{P}）\log（|\mathcal{F}||\mathcal{P}|/\delta））}）的遗憾保证，$其中$T$是情节数，$S$是状态空间，$a$是动作空间，$H$是地平线，$\mathca{P}$和$\mathcal{F}$分别是用于近似上下文相关动力学和报酬的有限函数类，$d_{\mathrm{E}}（\mathcal{P}）$是$\mathcal{P}$w.r.t Hellinger距离的Eluder维数。据我们所知，我们的算法是第一个针对CMDP的高效且速率最优的后悔最小化算法，该算法在一般离线函数近似设置下运行。此外，我们将Eluder维数扩展到了一般的有界度量，这些度量可能会引起不同的兴趣。

学科：	机器学习（cs.LG）
引用为：	arXiv公司：2211.14932【cs.LG】
	（或 arXiv:2211.14932v3【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2211.14932

提交历史记录

发件人：Orin Levy[查看电子邮件]
[第1版]2022年11月27日星期日20:38:47 UTC（36 KB）
[版本2]2023年2月21日星期二19:29:10 UTC（34 KB）
[第3版]2024年5月29日星期三08:57:58 UTC（76 KB）

计算机科学>机器学习

职务：基于Eluder的随机上下文MDP后悔

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

职务：基于Eluder的随机上下文MDP后悔

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目