情景强化学习中的乐观与延迟
本杰明·豪森(Benjamin Howson)、西亚拉·皮克·伯克(Ciara Pike-Burke)、莎拉·菲利皮(Sarah Filippi)
第26届国际人工智能与统计会议论文集,PMLR 206:6061-60942023年。
摘要
在情景强化学习中,有许多算法用于最小化后悔。从理论角度来看,这个问题是很容易理解的,前提是与每个事件相关的状态、动作和奖励序列可用于算法在每次与环境交互后立即更新策略。然而,反馈在实践中几乎总是被延迟。本文从理论上研究了延迟反馈对情节强化学习的影响,并提出了两种处理延迟的通用方法。第一种方法涉及在新信息可用时立即更新,而第二种方法则在使用新观察到的信息更新策略之前等待。对于这类乐观算法和这两种方法,我们证明了后悔增加了一个累加项,包括状态数、动作数、事件长度、预期延迟和算法相关常数。我们实证研究了各种延迟分布对乐观算法后悔的影响,以验证我们的理论结果。
引用本文
相关材料