2022年12月 稳健马尔可夫决策过程的理论理解:样本复杂性和渐近性
杨文浩,张良玉,张志华
作者关联+
安。统计师。 50(6): 3223-3248 (2022年12月)。 DOI:10.1214/22-os2225

摘要

本文研究了鲁棒马尔可夫决策过程(MDP)的最优鲁棒策略和值函数的非共振和渐近性能,其中最优鲁棒策略与值函数是从生成模型估计出来的。然而,以往关注鲁棒MDP的非共鸣性能的工作局限于KL不确定性集的设置和(,)-矩形假设,我们改进了他们的结果,还考虑了其他不确定性集,包括L(左)1χ2球。我们的结果表明,当我们假设(,)-不确定集上的矩形,样本复杂度约为O(运行)˜(|S公司|2|A类|ε2ρ2(1负极γ)4)。此外,我们将结果从(,)-矩形假设-矩形假设。在这种情况下,样本复杂度随不确定性集的选择而变化,通常大于(,)-矩形假设。此外,我们还证明了最优鲁棒值函数在典型速率下是渐近正态的n个(,)-从理论和实证角度进行矩形假设。

资金报表

这项工作得到了国家重点研发项目(No.2018AAA0101004)的支持。

致谢

作者感谢匿名审稿人、副主编和主编的详细和建设性意见,这些意见提高了本文的质量。作者还要感谢李翔和林大钊就DRO和一些不平等问题进行的讨论。

引用

下载引文

杨文浩。 张良玉。 张志华。 “对稳健马尔可夫决策过程的理论理解:样本复杂性和渐近性。” 安。统计师。 50 (6) 3223 - 3248, 2022年12月。 https://doi.org/10.1214/22-AOS2225

问询处

接收日期:2021年11月1日;修订日期:2022年7月1日;发布日期:2022年12月
首次在欧几里得项目中可用:2022年12月21日

数学科学网:MR4524495型
zbMATH公司:07641124
数字对象标识符:10.1214/22-AOS225

学科:
主要用户:62C05型,2012年12月62日
次要:68问题32

关键词:分布稳健性,f散度集,基于模型的强化学习,稳健的MDP

版权所有©2022数学统计研究所

期刊文章
26页

此文章仅适用于订户.
它不可单独出售。
+ 保存到我的库中

第50卷•第6期•2022年12月
返回页首