计算机科学>机器学习
标题: 基于拟度量学习的最优目标达成强化学习
摘要: 在目标达成强化学习(RL)中,最优值函数具有一种特殊的几何结构,称为拟度量结构。 本文介绍了拟度量强化学习(QRL),这是一种利用拟度量模型学习最优值函数的新RL方法。 与以前的方法不同,QRL目标是专门为准度量设计的,并提供强大的理论恢复保证。 经验上,我们对离散化的MountainCar环境进行了彻底的分析,确定了QRL的特性及其相对于替代方案的优势。 在离线和在线达到目标的基准测试中,QRL还展示了在基于状态和基于图像的观测中改进的样本效率和性能。