Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning

Wang, Tongzhou; Torralba, Antonio; Isola, Phillip; Zhang, Amy

计算机科学>机器学习

arXiv:2304.01203（个）

【于2023年4月3日提交(第1版)，最新修订日期：2023年11月26日（本版本，第7版）]

标题：基于拟度量学习的最优目标达成强化学习

作者：通州王,安东尼奥·托拉尔巴,菲利普·伊索拉,张晓燕

查看PDF

摘要：在目标达成强化学习（RL）中，最优值函数具有一种特殊的几何结构，称为拟度量结构。本文介绍了拟度量强化学习（QRL），这是一种利用拟度量模型学习最优值函数的新RL方法。与以前的方法不同，QRL目标是专门为准度量设计的，并提供强大的理论恢复保证。经验上，我们对离散化的MountainCar环境进行了彻底的分析，确定了QRL的特性及其相对于替代方案的优势。在离线和在线达到目标的基准测试中，QRL还展示了在基于状态和基于图像的观测中改进的样本效率和性能。

评论：	项目页面：此https URL代码：此https URL
学科：	机器学习（cs.LG）
引用为：	arXiv:2304.01203【cs.LG】
	（或 arXiv:2304.01203v7【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2304.01203
日志参考：	2023年机器学习国际会议

提交历史记录

发件人：通州王[查看电子邮件]
[第1版]2023年4月3日星期一17:59:58 UTC（3353 KB）
[版本2]2023年4月5日星期三15:39:08 UTC（3393 KB）
[第3版]2023年4月6日星期四22:34:22 UTC（3393 KB）
[第4版]2023年6月2日星期五21:29:21 UTC（6358 KB）
[第5版]2023年8月11日星期五21:48:34 UTC（6358 KB）
[版本6]2023年11月12日星期日19:02:35 UTC（6358 KB）
[第7版]2023年11月26日星期日19:44:54 UTC（6358 KB）

计算机科学>机器学习

标题：基于拟度量学习的最优目标达成强化学习

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：基于拟度量学习的最优目标达成强化学习

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目