Optimism and Delays in Episodic Reinforcement Learning

Benjamin Howson; Ciara Pike-Burke; Sarah Filippi

情景强化学习中的乐观与延迟

本杰明·豪森（Benjamin Howson）、西亚拉·皮克·伯克（Ciara Pike-Burke）、莎拉·菲利皮（Sarah Filippi）

第26届国际人工智能与统计会议论文集，PMLR 206:6061-60942023年。

摘要

在情景强化学习中，有许多算法用于最小化后悔。从理论角度来看，这个问题是很容易理解的，前提是与每个事件相关的状态、动作和奖励序列可用于算法在每次与环境交互后立即更新策略。然而，反馈在实践中几乎总是被延迟。本文从理论上研究了延迟反馈对情节强化学习的影响，并提出了两种处理延迟的通用方法。第一种方法涉及在新信息可用时立即更新，而第二种方法则在使用新观察到的信息更新策略之前等待。对于这类乐观算法和这两种方法，我们证明了后悔增加了一个累加项，包括状态数、动作数、事件长度、预期延迟和算法相关常数。我们实证研究了各种延迟分布对乐观算法后悔的影响，以验证我们的理论结果。

引用本文

BibTeX公司

@会议记录{pmlr-v206-howson23a，title={情景强化学习中的乐观主义和延迟}，author={霍森、本杰明和派克-伯克、西亚拉和菲利皮、莎拉}，booktitle＝{第26届国际人工智能与统计会议论文集}，页数={6061--6094}，年份={2023}，编辑＝{Ruiz，Francisco和Dy，Jennifer和van de Meent，Jan Willem}，体积={206}，series={机器学习研究论文集}，月={4月25日--27日}，publisher={PMLR}，pdf={https://proceedings.mlr.press/v206/howson23a/howson23a.pdf},url={https://proceedings.mlr.press/v206/howson23a.html},抽象={在情景强化学习中，有许多将遗憾最小化的算法。从理论角度来看，这个问题是很好理解的，前提是与每个情景相关的状态、动作和奖励序列可用于算法，在每次与环境交互后立即更新策略。然而，反馈在实践中几乎总是被延迟。本文从理论上研究了延迟反馈对情节强化学习的影响，并提出了两种处理延迟的通用方法。第一种方法涉及在新信息可用时立即更新，而第二种方法则在使用新观察到的信息更新策略之前等待。对于这类乐观算法和这两种方法，我们证明了后悔增加了一个累加项，包括状态数、动作数、事件长度、预期延迟和算法相关常数。我们实证研究了各种延迟分布对乐观算法后悔的影响，以验证我们的理论结果。}}

尾注

%0会议论文%情景强化学习中的T乐观与延迟%本杰明·豪森%Ciara长矛%莎拉·菲利比%第26届国际人工智能与统计会议论文集%C机器学习研究进展%D 2023年%E弗朗西斯科·鲁伊斯%E詹妮弗·戴伊%E Jan-Willem van de Meent公司%F pmlr-v206-howson23a公司%我PMLR%电话6061-6094%U型https://proceedings.mlr.press/v206/howson23a.html%第206页%在情景强化学习中，有许多算法可以实现后悔最小化。从理论角度来看，这个问题是很容易理解的，前提是与每个事件相关的状态、动作和奖励序列可用于算法在每次与环境交互后立即更新策略。然而，反馈在实践中几乎总是被延迟。在本文中，我们从理论角度研究了延迟反馈在情景强化学习中的影响，并提出了两种处理延迟的通用方法。第一种方法涉及在新信息可用时立即更新，而第二种方法则在使用新观察到的信息更新策略之前等待。对于这类乐观算法和这两种方法，我们证明了后悔增加了一个累加项，包括状态数、动作数、事件长度、预期延迟和算法相关常数。我们实证研究了各种延迟分布对乐观算法后悔的影响，以验证我们的理论结果。

亚太地区

Howson，B.、Pike-Burke，C.和Filippi，S.（2023）。情节强化学习中的乐观和延迟。第26届国际人工智能与统计会议论文集，英寸机器学习研究进展206:6061-6094网址：https://proceedings.mlr.press/v206/howson23a.html。

情景强化学习中的乐观与延迟

摘要

引用本文

相关材料