Offline Reinforcement Learning with Imbalanced Datasets

Jiang, Li; Cheng, Sijie; Qiu, Jielin; Xu, Haoran; Chan, Wai Kin; Ding, Zhao

计算机科学>机器学习

arXiv:2307.02752（cs）

【于2023年7月6日提交(第1版)，上次修订日期：2024年5月21日（本版本，v3）]

职务：非平衡数据集的离线强化学习

作者：李江,程思杰,邱洁林,徐浩然,Wai Kin Chan先生,赵丁

查看PDF HTML（实验性）

摘要：在当前的离线强化学习（RL）研究中，基准测试的普遍使用导致了在模型开发中忽视了真实世界数据集分布的不平衡。由于勘探或安全考虑的挑战，真实世界的离线RL数据集在状态空间上经常不平衡。在本文中，我们指定了离线RL中不平衡数据集的属性，其中状态覆盖遵循以倾斜策略为特征的幂律分布。理论和实证研究表明，基于分布约束的典型离线RL方法，如保守Q-学习（CQL），在不平衡数据集下提取策略是无效的。受自然智能的启发，我们提出了一种新的离线RL方法，该方法利用CQL的增强和检索过程来回忆过去的相关经验，有效地缓解了不平衡数据集带来的挑战。我们利用D4RL的变体，在具有不同不平衡程度的不平衡数据集的背景下对我们的方法进行了评估。实证结果表明，我们的方法优于其他基线。

学科：	机器学习（cs.LG）; 人工智能（cs.AI）
引用为：	arXiv:2307.02752【cs.LG】
	（或 arXiv:2307.02752v3【cs.LG】对于此版本）
	https://doi.org/10.44850/arXiv.2307.02752
期刊参考：	ICML 2023，以数据为中心的机器学习研究研讨会

提交历史记录

发件人：李江[查看电子邮件]
[第1版]2023年7月6日星期四03:22:19 UTC（725 KB）
[版本2]2023年7月29日星期六15:02:02 UTC（726 KB）
[第3版]2024年5月21日星期二02:11:43 UTC（726 KB）

计算机科学>机器学习

职务：非平衡数据集的离线强化学习

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐程序和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

职务：非平衡数据集的离线强化学习

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐程序和搜索工具

arXivLabs：与社区合作者合作的实验项目