杨文浩;张良玉;张志华 稳健马尔可夫决策过程的理论理解:样本复杂性和渐近性。 (英语) Zbl 07641124号 Ann.统计。 50,第6号,3223-3248(2022). 摘要:在本文中,我们研究了稳健马尔可夫决策过程(MDP)的最优稳健策略和值函数的非共振和渐近性能,其中最优稳健策略与值函数是从生成模型估计的。虽然先前研究鲁棒MDP的非共鸣性能的工作局限于KL不确定性集和(s,a)-矩形假设的设置,但我们改进了它们的结果,还考虑了其他不确定性集,包括({L_1})和({chi^2})球。我们的结果表明,当我们在不确定集上假设(s,a)-矩形时,样本复杂度约为(widetilde{mathcal{O}}(frac{|mathcal}s}{|^2}|mathcal{a}|}{varepsilon^2}{rho^2}}{(1-\gamma)^4}}))。此外,我们将结果从(s,a)-矩形假设推广到(s)-矩形假定。在这种情况下,样本复杂性随着不确定性集的选择而变化,并且通常大于矩形假设下的情况。此外,我们还从理论和实证两个角度证明了在(s,a)和(s)-矩形假设下,最优鲁棒值函数是渐近正态的,具有典型的速率(sqrt{n})。 MSC公司: 62C05型 统计决策理论的一般考虑 2012年12月62日 参数估计量的渐近性质 68问题32 计算学习理论 关键词:基于模型的强化学习;稳健的MDP;分布稳健性;\(f)-散度集 软件:ElemStatLearn(电子状态学习) PDF格式BibTeX公司 XML格式引用 \textit{W.Yang}等人,Ann.Stat.50,No.6,3223--3248(2022;Zbl 07641124) 全文: 内政部 arXiv公司 链接 参考文献: [1] AGARWAL,A.、KAKADE,S.和YANG,L.F.(2020年)。具有生成模型的基于模型的强化学习是极小极大最优的。在第三十三届学习理论会议记录67-83. [2] AGARWAL,R.、SCHUURMANS,D.和NOROUZI,M.(2020年)。对线下强化学习的乐观看法。在会议记录37第十届国际机器学习会议104-114. [3] BEHZADIAN,B.、RUSSEL,R.H.、PETRIK,M.和HO,C.P.(2021年)。使用稳健MDP优化百分位标准。在会议记录24第十届国际人工智能与统计会议1009-1017. [4] BEN-TAL,A.、DEN HERTOG,D.、DE WAEGENAERE,A.、MELENBERG,B.和RENNEN,G.(2013)。受不确定概率影响的优化问题的稳健解。管理。科学。59 341-357. [5] BERTSEKAS,D.P.和TSITSIKLIS,J.N.(1995)。神经动力学编程:概述。在的程序1995年34第十届IEEE决策与控制会议1 560-564. [6] Bertsimas,D.、Gupta,V.和Kallus,N.(2018年)。数据驱动的稳健优化。数学。程序。167 235-292. ·Zbl 1397.90298号 ·doi:10.1007/s10107-017-1125-8 [7] Blanchet,J.和Murthy,K.(2019年)。通过优化运输量化分销模式风险。数学。操作。物件。44 565-600. ·Zbl 1434.60113号 ·doi:10.1287/门.2018.0936 [8] CHEN,J.和JIANG,N.(2019年)。批量强化学习中的信息论考虑。在会议记录36第届国际机器学习大会1042-1051. [9] DAI,B.,NACHUM,O.,CHOW,Y.,LI,L.,SZEPESVáRI,C.和SCHUURMANS,D.(2020年)。Coindice:非政策置信区间估计。高级神经信息处理。系统。33 9398-9411. [10] DANN,C.、NEUMANN,G.和PETERS,J.(2014)。具有时间差异的政策评估:调查与比较。J.马赫。学习。物件。15 809-883. ·Zbl 1317.68150号 [11] Delage,E.和Ye,Y.(2010年)。矩不确定性下的分布稳健优化及其在数据驱动问题中的应用。操作。物件。58 595-612. ·Zbl 1228.90064号 ·doi:10.1287/opre.1090.0741 [12] DERMAN,E.和MANNOR,S.(2020)。强化学习中的分布稳健性和正则性。ArXiv预印本。可从ArXiv:2003.02894获得。 [13] 段毅、贾哲和王明(2020)。线性函数近似下的最小最大最优非政策评估。在会议记录37第十届国际机器学习会议2701-2709. [14] 段毅、金川和李忠(2021)。批量强化学习中的风险边界和Rademacher复杂性。在会议记录38第十届国际机器学习会议2892-2902. [15] DUCHI,J.和NAMKOONG,H.(2019年)。具有凸目标的基于方差的正则化。J.马赫。学习。物件。20第68号论文·Zbl 1489.62193号 [16] DUCHI,J.C.、GLYNN,P.W.和NAMKOONG,H.(2021)。稳健优化的统计:广义经验似然方法。数学。操作。物件。46 946-969. ·Zbl 1473.62292号 ·doi:10.1287/门2020.1085 [17] DUCHI,J.C.和NAMKOONG,H.(2021)。通过分布稳健优化学习性能一致的模型。安。统计师。49 1378-1406. ·Zbl 1473.62019年 ·doi:10.1214/20-aos2004 [18] DUDÍK,M.、ERHAN,D.、LANGFORD,J.和LI,L.(2014)。双重稳健的政策评估和优化。统计师。科学。29 485-511. ·Zbl 1331.62059号 ·doi:10.1214/14-STS500 [19] EPSTEIN,L.G.和SCHNEIDER,M.(2003)。递归多表示。《经济学杂志》。理论113 1-31. ·Zbl 1107.91360号 ·doi:10.1016/S0022-0531(03)00097-8 [20] FARAJTABAR,M.、CHOW,Y.和GHAVAMZADEH,M.(2018年)。更加稳健的双稳健非政策评估。在会议记录35第十届国际机器学习会议1447年-1456年。 [21] FUJIMOTO,S.、MEGER,D.和PRECUP,D.(2019年)。非政策性深度强化学习,无需探索。在会议记录36第十届国际机器学习会议2052-2062. [22] GAO,R.和KLEYWEGT,A.J.(2016)。具有Wasserstein距离的分布鲁棒随机优化。ArXiv预打印。可从ArXiv:1604.02199获得。 [23] GHAVAMZADEH,M.、PETRIK,M.和CHOW,Y.(2016)。通过最大限度地减少强烈的基线遗憾来改进安全政策。高级神经信息处理。系统。29 2298-2306. [24] GHESHLAGHI AZAR,M.、MUNOS,R.和KAPPEN,H.J.(2013)。Minimax PAC限制了生成模型强化学习的样本复杂性。机器。学习。91 325-349. ·Zbl 1295.68180号 ·doi:10.1007/s10994-013-5368-1 [25] GOYAL,V.和GRAND-CLEMENT,J.(2022)。稳健的马尔可夫决策过程:超越矩形。数学。操作。物件。 [26] GRüNEWáLDER,S.、LEVER,G.、BALDASARRE,L.、PONTIL,M.和GRETTON,A.(2012)。使用RKHS嵌入对MDP中的过渡动力学进行建模。在会议记录29第七届国际机器学习会议1603-1610. [27] HAARNOJA,T.、ZHOU,A.、ABBEEL,P.和LEVINE,S.(2018年)。软actor-critic:使用随机actor的非策略最大熵深度强化学习。在会议记录35第届国际机器学习大会1861-1870. [28] Hastie,T.、Tibshirani,R.和Friedman,J.(2009)。统计学习的要素:数据挖掘、推断和预测,第2版。统计学中的斯普林格系列纽约州施普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7 [29] Hirano,K.、Imbens,G.W.和Ridder,G.(2003)。使用估计的倾向得分有效估计平均治疗效果。计量经济学71 1161-1189. ·Zbl 1152.62328号 ·数字对象标识代码:10.1111/1468-0262.00442 [30] HO,C.P.,PETRIK,M.和WIESEMANN,W.(2018年)。Bellman快速更新稳健MDP。在会议记录35第十届国际机器学习会议1979-1988. [31] HO,C.P.,PETRIK,M.和WIESEMANN,W.(2021)。\[{L_1}\]鲁棒马尔可夫决策过程的部分策略迭代。J.马赫。学习。物件。22第275号论文·Zbl 07626790号 [32] Iyengar,G.N.(2005)。稳健的动态编程。数学。操作。物件。30 257-280. ·Zbl 1082.90123号 ·doi:10.1287/门1040.0129 [33] 姜N.和李L.(2016)。用于强化学习的双重稳健的非政策价值评估。在会议记录33第三届国际机器学习会议652-661. [34] JIN,C.、ALLEN-ZHU,Z.、BUBECK,S.和JORDAN,M.I.(2018年)。Q学习是否有效?高级神经信息处理。系统。31 [35] JIN,C.、YANG,Z.、WANG,Z..和JORDAN,M.I.(2020年)。具有线性函数逼近的显著高效强化学习。在第三十三届学习理论会议记录2137-2143. [36] JIN,Y.,YANG,Z.和WANG,Z.(2021)。悲观情绪对离线rl有效吗?在会议记录38第十届国际机器学习会议5084-5096. [37] JONG,N.K.和STONE,P.(2007)。强化学习中基于模型的函数逼近。在会议记录6第十届国际自治代理和多代理系统联合会议1-8. [38] KALLUS,N.和UEHARA,M.(2020)。马尔可夫决策过程中高效非策略评估的双强化学习。J.马赫。学习。物件。21第167号文件·Zbl 1525.68113号 [39] KAUFMAN,D.L.和SCHAEFER,A.J.(2013)。稳健的修改策略迭代。信息J.计算。25 396-410. ·doi:10.1287/ijoc.1120.0509 [40] Lam,H.(2016)。随机系统的鲁棒灵敏度分析。数学。操作。物件。41 1248-1275. ·Zbl 1361.65008号 ·doi:10.1287/门2015.0776 [41] LAZARIC,A.、GHAVAMZADEH,M.和MUNOS,R.(2012年)。最小二乘政策迭代的有限样本分析。J.马赫。学习。物件。13 3041-3074. ·Zbl 1433.68361号 [42] LE,H.、VOLOSHIN,C.和YUE,Y.(2019年)。约束条件下的批量策略学习。在会议记录36第十届国际机器学习会议3703-3712. [43] LEE,J.和RAGINSKY,M.(2018年)。Wasserstein距离的Minimax统计学习。高级神经信息处理。系统。31 [44] LI,L.、MUNOS,R.和SZEPESVáRI,C.(2015)。接近政策价值估计的最小最大值。在会议记录18第十届国际人工智能与统计会议608-616. [45] LI,X.,YANG,W.,Z.和JORDAN,M.I.(2021)。Polyak-Ruppert平均Q学习在统计学上是有效的。ArXiv预打印。可从ArXiv:2112.14582获取。 [46] LILLICRAP,T.P.、HUNT,J.J.、PRITZEL,A.、HEESS,N.、EREZ,T.、TASSA,Y.、SILVER,D.和WIERSTRA,D.(2015)。通过深度强化学习进行持续控制。在会议记录4第七届国际学习代表大会. [47] LIM,S.H.、XU,H.和MANNOR,S.(2013年)。鲁棒马尔可夫决策过程中的强化学习。高级神经信息处理。系统。26 701-709. [48] 刘琦、李磊、唐哲和周德(2018)。打破地平线的诅咒:政策估计的无限地平线。高级神经信息处理。系统。31 [49] MANNOR,S.、MEBEL,O.和XU,H.(2012)。闪电不会两次击中:具有耦合不确定性的稳健MDP。在会议记录29第十届国际机器学习会议451-458. [50] MANNOR,S.、SIMESTER,D.、SUN,P.和TSITSIKLIS,J.N.(2004)。价值函数估计中的偏差和方差。在会议记录21第一届国际机器学习会议72 [51] MNIH,V.、BADIA,A.P.、MIRZA,M.、GRAVES,A.、LILLICRAP,T.、HARLEY,T.,SILVER,D.和KAVUKCUOGLU,K.(2016)。深度强化学习的异步方法。在会议记录33第三届国际机器学习会议1928-1937. [52] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Rusu,A.A.、Veness,J.、Bellemare,M.G.、Graves,A.、Riedmiller,M.、Fidjeland,A.K.等人(2015)。通过深度强化学习进行人性化控制。自然518 529. [53] MOHRI,M.、ROSTAMIZADEH,A.和TALWALKAR,A.(2018年)。机器学习基础.自适应计算与机器学习麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1407.68007号 [54] MUNOS,R.和SZEPESVáRI,C.(2008)。拟合值迭代的有限时间界限。J.马赫。学习。物件。9 815-857. ·Zbl 1225.68203号 [55] Nilim,A.和El Ghaoui,L.(2005年)。转移矩阵不确定的马尔可夫决策过程的鲁棒控制。操作。物件。53 780-798. ·Zbl 1165.90674号 ·doi:10.1287/opre.1050.0216 [56] PANAGANTI,K.和KALATHIL,D.(2022年)。生成模型下鲁棒强化学习的样本复杂性。在会议记录25第十届国际人工智能与统计会议9582-9602. [57] 彭晓波(PENG,X.B.)、安德里乔维奇(ANDRYCHOWICZ,M.)、扎伦巴(ZAREMBA,W.)和阿贝尔(ABBEEL,P.)(2018年)。使用动力学随机化实现机器人控制的模拟到实际转移。2018年IEEE机器人与自动化国际会议(ICRA公司) 3803-3810. [58] 佩特里克,M.(2012)。通过最小化分布鲁棒边界来近似动态规划。在会议记录29第十届国际机器学习会议1595-1602. [59] PETRIK,M.和RUSSEL,R.H.(2019年)。超出置信区域:稳健mdp的严格贝叶斯模糊集。高级神经信息处理。系统。32 [60] PETRIK,M.和SUBRAMANIAN,D.(2014)。RAAM:在强化学习中近似聚合MDP的稳健性优势。高级神经信息处理。系统。27 [61] PUTERMAN,M.L.(1994)。马尔可夫决策过程:离散随机动态规划.概率与数理统计中的威利级数:应用概率统计.威利,纽约·兹伯利0829.90134 [62] QI,Z.和LIAO,P.(2020)。马尔可夫决策过程中的稳健批量策略学习。ArXiv预印本。可从ArXiv:2011.04185获得。 [63] SASON,I.和VERD U.,S.(2016年)\(f)-散度不等式。IEEE传输。Inf.理论62 5973-6006. ·Zbl 1359.94363号 ·doi:10.1109/TIT.2016.2603151 [64] Shapiro,A.(2017)。分布稳健随机规划。SIAM J.Optim公司。27 2258-2275. ·Zbl 1373.90089 ·doi:10.137/16M1058297 [65] SI,N.、ZHANG,F.、ZHOU,Z.和BLANCHET,J.(2020)。离线背景盗贼中分布稳健的政策评估和学习。在会议记录37第十届国际机器学习会议8884-8894. [66] SIDFORD,A.、WANG,M.、WU,X.、YANG,L.F.和YE,Y.(2018年)。用生成模型求解马尔可夫决策过程的近最优时间和样本复杂性。在神经信息处理系统研究进展31 [67] SILVER,D.,HUANG,A.,MADDISON,C.J.,GUEZ,A.,SIFRE,L.,VAN DEN DRIESSHE,G.,SCHRITWIESER,J.,ANTONOGLOU,I.,PANNEERSHELVAM,V.等人(2016年)。通过深度神经网络和树搜索掌握围棋游戏。自然529 484-489. [68] SMIRNOVA,E.、DOHMATOB,E.和MARY,J.(2019年)。分布稳健的强化学习。ArXiv预印本。可从ArXiv:1902.08708获得。 [69] SWAMINATHAN,A.和JOACHIMS,T.(2015)。反事实学习的自归一化估计。高级神经信息处理。系统。28 [70] THOMAS,P.和BRUNSKILL,E.(2016)。用于强化学习的数据高效的非政策政策评估。在会议记录33第三届国际机器学习会议2139-2148. [71] van der Vaart,A.W.(1998)。渐近统计.剑桥统计与概率数学系列3.剑桥大学出版社,剑桥·Zbl 0910.62001号 ·doi:10.1017/CBO978051180225 [72] Wainwright,M.J.(2019年)。高维统计:非共鸣观点.剑桥统计与概率数学系列48.剑桥大学出版社,剑桥·Zbl 1457.62011年 ·doi:10.1017/9781108627771 [73] WANG,R.、FOSTER,D.和KAKADE,S.M.(2020年)。线性函数近似下离线RL的统计极限是什么?在会议记录9第七届国际学习代表大会. [74] WIESEMANN,W.、KUHN,D.和RUSTEM,B.(2013)。稳健的马尔可夫决策过程。数学。操作。物件。38 153-183. ·Zbl 1291.90295号 ·doi:10.1287/门1120.0566 [75] Wozabal,D.(2012年)。模糊条件下的优化框架。安·Oper。物件。193 21-47. ·兹比尔1255.91454 ·doi:10.1007/s10479-010-0812-0 [76] 肖C.、吴Y.、梅J.、戴B.、莱蒂摩尔T.、李L.、斯泽佩斯瓦里C.和舒曼D.(2021)。关于批量策略优化算法的最优性。在会议记录38第十届国际机器学习会议11362-11371. [77] 谢涛和蒋南(2021)。批量值-仅可实现的函数近似值。在会议记录38第十届国际机器学习会议11404-11413. [78] 谢霆、马友友和王永新(2019)。边缘化重要性抽样强化学习的最优非策略评估。高级神经信息处理。系统。32 [79] XU,H.和MANNOR,S.(2006年)。马尔可夫决策过程中的鲁棒性-性能权衡。高级神经信息处理。系统。19 [80] XU,H.和MANNOR,S.(2009年)。不确定马尔可夫决策过程中的参数后悔。在会议记录48h IEEE决策和控制会议(疾病预防控制中心)与联合持有2009 28第届中国控制会议3606-3613. [81] YANG,W.,ZHANG,L.和ZHANG(2022)。对“稳健马尔可夫决策过程的理论理解:样本复杂性和渐近性”的补充https://doi.org/10.1214/22-AOS2225SUPP(网址:https://doi.org/10.1214/22-AOS2225SUPP) [82] YIN,M.,BAI,Y.和WANG,Y.-X.(2021)。强化学习离线策略评估中的近最优可证明一致收敛性。在会议记录24第十届国际人工智能与统计会议1567-1575. [83] YIN,M.和WANG,Y.-X.(2020年)。表格式强化学习的渐进有效非策略评估。在会议记录23第三届国际人工智能与统计会议3948-3958. [84] ZHAO,W.、QUERALTA,J.P.和WESTERLUND,T.(2020年)。机器人深度强化学习中的模拟现实迁移:一项调查。2020年IEEE计算智能研讨会系列(SSCI公司)737-744。 [85] ZHOU,Z.、BAI,Q.、ZHOU、Z.、QIU,L.、BLANCHET,J.和GLYNN,P.(2021)。分布式鲁棒离线表格强化学习的有限样本遗憾界。在会议记录24第十届国际人工智能与统计会议3331-3339 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。