Toward theoretical understandings of robust Markov decision processes: Sample complexity and asymptotics

Wenhao Yang; Liangyu Zhang; Zhihua Zhang

doi:10.1214/22-AOS2225

摘要

本文研究了鲁棒马尔可夫决策过程（MDP）的最优鲁棒策略和值函数的非共振和渐近性能，其中最优鲁棒策略与值函数是从生成模型估计出来的。然而，以往关注鲁棒MDP的非共鸣性能的工作局限于KL不确定性集的设置和 $(s,a)$ -矩形假设，我们改进了他们的结果，还考虑了其他不确定性集，包括 ${L_{1}}$ 和 ${\chi ^{2}}$ 球。我们的结果表明，当我们假设 $(s,a)$ -不确定集上的矩形，样本复杂度约为 $\widetilde{\mathcal{O}}(\frac{|\mathcal{S}{|^{2}}|\mathcal{A}|}{{\varepsilon ^{2}}{\rho ^{2}}{(1-\gamma )^{4}}})$ 。此外，我们将结果从 $(s,a)$ -矩形假设秒-矩形假设。在这种情况下，样本复杂度随不确定性集的选择而变化，通常大于 $(s,a)$ -矩形假设。此外，我们还证明了最优鲁棒值函数在典型速率下是渐近正态的 $\sqrt{n}$ 在 $(s,a)$ 和秒-从理论和实证角度进行矩形假设。

资金报表

这项工作得到了国家重点研发项目（No.2018AAA0101004）的支持。

致谢

作者感谢匿名审稿人、副主编和主编的详细和建设性意见，这些意见提高了本文的质量。作者还要感谢李翔和林大钊就DRO和一些不平等问题进行的讨论。

引用

下载引文

杨文浩。张良玉。张志华。 “对稳健马尔可夫决策过程的理论理解：样本复杂性和渐近性。” 安。统计师。 50 (6) 3223 - 3248, 2022年12月。 https://doi.org/10.1214/22-AOS2225

问询处

接收日期：2021年11月1日;修订日期：2022年7月1日;发布日期：2022年12月

首次在欧几里得项目中可用：2022年12月21日

数学科学网：MR4524495型

zbMATH公司：07641124

数字对象标识符：10.1214/22-AOS225

学科：

主要用户：62C05型,2012年12月62日

次要：68问题32

关键词：分布稳健性,f散度集,基于模型的强化学习,稳健的MDP

摘要

资金报表

致谢

引用

问询处

关键词/短语

出版物标题：

出版年份