摘要
本文研究了鲁棒马尔可夫决策过程(MDP)的最优鲁棒策略和值函数的非共振和渐近性能,其中最优鲁棒策略与值函数是从生成模型估计出来的。然而,以往关注鲁棒MDP的非共鸣性能的工作局限于KL不确定性集的设置和-矩形假设,我们改进了他们的结果,还考虑了其他不确定性集,包括和球。我们的结果表明,当我们假设-不确定集上的矩形,样本复杂度约为。此外,我们将结果从-矩形假设秒-矩形假设。在这种情况下,样本复杂度随不确定性集的选择而变化,通常大于-矩形假设。此外,我们还证明了最优鲁棒值函数在典型速率下是渐近正态的在和秒-从理论和实证角度进行矩形假设。
资金报表
这项工作得到了国家重点研发项目(No.2018AAA0101004)的支持。
致谢
作者感谢匿名审稿人、副主编和主编的详细和建设性意见,这些意见提高了本文的质量。作者还要感谢李翔和林大钊就DRO和一些不平等问题进行的讨论。
引用
下载引文
杨文浩。
张良玉。
张志华。
“对稳健马尔可夫决策过程的理论理解:样本复杂性和渐近性。”
安。统计师。
50
(6)
3223 - 3248,
2022年12月。
https://doi.org/10.1214/22-AOS2225
问询处
接收日期:2021年11月1日;修订日期:2022年7月1日;发布日期:2022年12月
首次在欧几里得项目中可用:2022年12月21日
数字对象标识符:10.1214/22-AOS225
学科:
主要用户:62C05型,2012年12月62日
次要:68问题32
关键词:分布稳健性,f散度集,基于模型的强化学习,稳健的MDP
版权所有©2022数学统计研究所