情景强化学习中的乐观与延迟

本杰明·豪森(Benjamin Howson)、西亚拉·皮克·伯克(Ciara Pike-Burke)、莎拉·菲利皮(Sarah Filippi)
第26届国际人工智能与统计会议论文集,PMLR 206:6061-60942023年。

摘要

在情景强化学习中,有许多算法用于最小化后悔。从理论角度来看,这个问题是很容易理解的,前提是与每个事件相关的状态、动作和奖励序列可用于算法在每次与环境交互后立即更新策略。然而,反馈在实践中几乎总是被延迟。本文从理论上研究了延迟反馈对情节强化学习的影响,并提出了两种处理延迟的通用方法。第一种方法涉及在新信息可用时立即更新,而第二种方法则在使用新观察到的信息更新策略之前等待。对于这类乐观算法和这两种方法,我们证明了后悔增加了一个累加项,包括状态数、动作数、事件长度、预期延迟和算法相关常数。我们实证研究了各种延迟分布对乐观算法后悔的影响,以验证我们的理论结果。

引用本文


BibTeX公司
@会议记录{pmlr-v206-howson23a,title={情景强化学习中的乐观主义和延迟},author={霍森、本杰明和派克-伯克、西亚拉和菲利皮、莎拉},booktitle={第26届国际人工智能与统计会议论文集},页数={6061--6094},年份={2023},编辑={Ruiz,Francisco和Dy,Jennifer和van de Meent,Jan Willem},体积={206},series={机器学习研究论文集},月={4月25日--27日},publisher={PMLR},pdf={https://proceedings.mlr.press/v206/howson23a/howson23a.pdf},url={https://proceedings.mlr.press/v206/howson23a.html},抽象={在情景强化学习中,有许多将遗憾最小化的算法。从理论角度来看,这个问题是很好理解的,前提是与每个情景相关的状态、动作和奖励序列可用于算法,在每次与环境交互后立即更新策略。然而,反馈在实践中几乎总是被延迟。本文从理论上研究了延迟反馈对情节强化学习的影响,并提出了两种处理延迟的通用方法。第一种方法涉及在新信息可用时立即更新,而第二种方法则在使用新观察到的信息更新策略之前等待。对于这类乐观算法和这两种方法,我们证明了后悔增加了一个累加项,包括状态数、动作数、事件长度、预期延迟和算法相关常数。我们实证研究了各种延迟分布对乐观算法后悔的影响,以验证我们的理论结果。}}
尾注
%0会议论文%情景强化学习中的T乐观与延迟%本杰明·豪森%Ciara长矛%莎拉·菲利比%第26届国际人工智能与统计会议论文集%C机器学习研究进展%D 2023年%E弗朗西斯科·鲁伊斯%E詹妮弗·戴伊%E Jan-Willem van de Meent公司%F pmlr-v206-howson23a公司%我PMLR%电话6061-6094%U型https://proceedings.mlr.press/v206/howson23a.html%第206页%在情景强化学习中,有许多算法可以实现后悔最小化。从理论角度来看,这个问题是很容易理解的,前提是与每个事件相关的状态、动作和奖励序列可用于算法在每次与环境交互后立即更新策略。然而,反馈在实践中几乎总是被延迟。在本文中,我们从理论角度研究了延迟反馈在情景强化学习中的影响,并提出了两种处理延迟的通用方法。第一种方法涉及在新信息可用时立即更新,而第二种方法则在使用新观察到的信息更新策略之前等待。对于这类乐观算法和这两种方法,我们证明了后悔增加了一个累加项,包括状态数、动作数、事件长度、预期延迟和算法相关常数。我们实证研究了各种延迟分布对乐观算法后悔的影响,以验证我们的理论结果。
亚太地区
Howson,B.、Pike-Burke,C.和Filippi,S.(2023)。情节强化学习中的乐观和延迟。第26届国际人工智能与统计会议论文集,英寸机器学习研究进展206:6061-6094网址:https://proceedings.mlr.press/v206/howson23a.html。

相关材料