计算机科学>机器学习
标题: 强化学习中的Minimax-最优回报-认知探索
摘要: 本文研究了强化学习(RL)中的奖赏认知探索(学习者在探索阶段不知道奖赏函数的情况),并设计了一种改进的算法。更准确地说,考虑一个具有$S$状态的有限时域非平稳马尔可夫决策过程, $A$动作和视界长度$H$,并假设给定的利息奖励函数的数量不超过多项式。 通过收集\开始{align*}的顺序 \frac{SAH^3}{\varepsilon^2}\text{样本集(最大对数因子)}\end{align*}在没有奖励信息指导的情况下,我们的算法能够找到所有这些奖励函数的$\varepsilon$最优策略,前提是$\varesilon$足够小。 这形成了第一个在这种情况下实现可证明的极小极大最优性的回报-诺斯勘探方案。 此外,一旦样本大小超过$\frac{S^2AH^3}{\varepsilon^2}$集(高达对数因子),我们的算法能够为任意多个奖励函数(即使它们是敌对设计的)提供$\varepsilon$准确性,这项任务通常被称为“无报酬探索” 我们算法设计的新颖性借鉴了离线RL的见解:探索方案试图最大限度地提高决定离线RL性能的关键回报-忽略量,而策略学习范式利用了样本最优离线RL范式的思想。