Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning

Li, Gen; Yan, Yuling; Chen, Yuxin; Fan, Jianqing

计算机科学>机器学习

arXiv公司：2304.07278（cs）

【于2023年4月14日提交】

标题：强化学习中的Minimax-最优回报-认知探索

作者：李将军,余林燕,陈玉欣（Yuxin Chen）,范建清

查看PDF

摘要：本文研究了强化学习（RL）中的奖赏认知探索（学习者在探索阶段不知道奖赏函数的情况），并设计了一种改进的算法。更准确地说，考虑一个具有$S$状态的有限时域非平稳马尔可夫决策过程，$A$动作和视界长度$H$，并假设给定的利息奖励函数的数量不超过多项式。通过收集\开始{align*}的顺序
\frac{SAH^3}{\varepsilon^2}\text{样本集（最大对数因子）}\end{align*}在没有奖励信息指导的情况下，我们的算法能够找到所有这些奖励函数的$\varepsilon$最优策略，前提是$\varesilon$足够小。这形成了第一个在这种情况下实现可证明的极小极大最优性的回报-诺斯勘探方案。此外，一旦样本大小超过$\frac{S^2AH^3}{\varepsilon^2}$集（高达对数因子），我们的算法能够为任意多个奖励函数（即使它们是敌对设计的）提供$\varepsilon$准确性，这项任务通常被称为“无报酬探索”我们算法设计的新颖性借鉴了离线RL的见解：探索方案试图最大限度地提高决定离线RL性能的关键回报-忽略量，而策略学习范式利用了样本最优离线RL范式的思想。

学科：	机器学习（cs.LG）；信息理论；系统与控制（eses.SY）；统计学理论（math.ST）；机器学习（stat.ML）
引用为：	arXiv公司：2304.07278【cs.LG】
	（或 arXiv:2304.07278v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2304.07278

提交历史记录

发件人：Yuxin Chen[查看电子邮件]
[第1版]2023年4月14日星期五17:46:49 UTC（97 KB）

计算机科学>机器学习

标题：强化学习中的Minimax-最优回报-认知探索

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：强化学习中的Minimax-最优回报-认知探索

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目