计算机科学>机器学习
职务: 基于生成模型的近极小最优分布强化学习
摘要: 我们提出了一种基于模型的分布强化学习(RL)的新算法,并证明了它对于用生成模型(直到对数因子)逼近收益分布是最小最优的,从而解决了Zhang等人(2023)的一个悬而未决的问题。 我们的分析为分布RL的分类方法提供了新的理论结果,并引入了一个新的分布Bellman方程,即随机分类CDF-Bellman方程,我们希望它具有独立的兴趣。 我们还提供了一项实验研究,比较了几种基于模型的分布式RL算法,并为从业者提供了一些启示。