Near-Minimax-Optimal Distributional Reinforcement Learning with a Generative Model

Rowland, Mark; Wenliang, Li Kevin; Munos, Rémi; Lyle, Clare; Tang, Yunhao; Dabney, Will

计算机科学>机器学习

arXiv:2402.07598（cs）

【于2024年2月12日提交】

职务：基于生成模型的近极小最优分布强化学习

作者：马克·罗兰,李凯文文亮,雷米·穆诺斯,克莱尔·莱尔,汤云浩,威尔·达布尼

查看PDF

摘要：我们提出了一种基于模型的分布强化学习（RL）的新算法，并证明了它对于用生成模型（直到对数因子）逼近收益分布是最小最优的，从而解决了Zhang等人（2023）的一个悬而未决的问题。我们的分析为分布RL的分类方法提供了新的理论结果，并引入了一个新的分布Bellman方程，即随机分类CDF-Bellman方程，我们希望它具有独立的兴趣。我们还提供了一项实验研究，比较了几种基于模型的分布式RL算法，并为从业者提供了一些启示。

学科：	机器学习（cs.LG）; 机器学习（stat.ML）
引用为：	arXiv:2402.07598【cs.LG】
	（或 arXiv:2402.07598v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2402.07598

提交历史记录

发件人：Mark Rowland[查看电子邮件]
[第1版]2024年2月12日星期一11:58:18 UTC（397 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。LG公司

<上一版本 | 下一个>

新的 | 最近的 |2024-02

更改为浏览方式：

反恐精英
斯达
统计ML

参考文献和引文

导出BibTeX引文

计算机科学>机器学习

职务：基于生成模型的近极小最优分布强化学习

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

职务：基于生成模型的近极小最优分布强化学习

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目