计算机科学>机器学习
职务: 非平衡数据集的离线强化学习
摘要: 在当前的离线强化学习(RL)研究中,基准测试的普遍使用导致了在模型开发中忽视了真实世界数据集分布的不平衡。 由于勘探或安全考虑的挑战,真实世界的离线RL数据集在状态空间上经常不平衡。 在本文中,我们指定了离线RL中不平衡数据集的属性,其中状态覆盖遵循以倾斜策略为特征的幂律分布。 理论和实证研究表明,基于分布约束的典型离线RL方法,如保守Q-学习(CQL),在不平衡数据集下提取策略是无效的。 受自然智能的启发,我们提出了一种新的离线RL方法,该方法利用CQL的增强和检索过程来回忆过去的相关经验,有效地缓解了不平衡数据集带来的挑战。 我们利用D4RL的变体,在具有不同不平衡程度的不平衡数据集的背景下对我们的方法进行了评估。实证结果表明,我们的方法优于其他基线。