×

稳健马尔可夫决策过程的理论理解:样本复杂性和渐近性。 (英语) Zbl 07641124号

摘要:在本文中,我们研究了稳健马尔可夫决策过程(MDP)的最优稳健策略和值函数的非共振和渐近性能,其中最优稳健策略与值函数是从生成模型估计的。虽然先前研究鲁棒MDP的非共鸣性能的工作局限于KL不确定性集和(s,a)-矩形假设的设置,但我们改进了它们的结果,还考虑了其他不确定性集,包括({L_1})和({chi^2})球。我们的结果表明,当我们在不确定集上假设(s,a)-矩形时,样本复杂度约为(widetilde{mathcal{O}}(frac{|mathcal}s}{|^2}|mathcal{a}|}{varepsilon^2}{rho^2}}{(1-\gamma)^4}}))。此外,我们将结果从(s,a)-矩形假设推广到(s)-矩形假定。在这种情况下,样本复杂性随着不确定性集的选择而变化,并且通常大于矩形假设下的情况。此外,我们还从理论和实证两个角度证明了在(s,a)和(s)-矩形假设下,最优鲁棒值函数是渐近正态的,具有典型的速率(sqrt{n})。

MSC公司:

62C05型 统计决策理论的一般考虑
2012年12月62日 参数估计量的渐近性质
68问题32 计算学习理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] AGARWAL,A.、KAKADE,S.和YANG,L.F.(2020年)。具有生成模型的基于模型的强化学习是极小极大最优的。第三十三届学习理论会议记录67-83.
[2] AGARWAL,R.、SCHUURMANS,D.和NOROUZI,M.(2020年)。对线下强化学习的乐观看法。会议记录37第十届国际机器学习会议104-114.
[3] BEHZADIAN,B.、RUSSEL,R.H.、PETRIK,M.和HO,C.P.(2021年)。使用稳健MDP优化百分位标准。会议记录24第十届国际人工智能与统计会议1009-1017.
[4] BEN-TAL,A.、DEN HERTOG,D.、DE WAEGENAERE,A.、MELENBERG,B.和RENNEN,G.(2013)。受不确定概率影响的优化问题的稳健解。管理。科学。59 341-357.
[5] BERTSEKAS,D.P.和TSITSIKLIS,J.N.(1995)。神经动力学编程:概述。的程序1995年34第十届IEEE决策与控制会议1 560-564.
[6] Bertsimas,D.、Gupta,V.和Kallus,N.(2018年)。数据驱动的稳健优化。数学。程序。167 235-292. ·Zbl 1397.90298号 ·doi:10.1007/s10107-017-1125-8
[7] Blanchet,J.和Murthy,K.(2019年)。通过优化运输量化分销模式风险。数学。操作。物件。44 565-600. ·Zbl 1434.60113号 ·doi:10.1287/门.2018.0936
[8] CHEN,J.和JIANG,N.(2019年)。批量强化学习中的信息论考虑。会议记录36第届国际机器学习大会1042-1051.
[9] DAI,B.,NACHUM,O.,CHOW,Y.,LI,L.,SZEPESVáRI,C.和SCHUURMANS,D.(2020年)。Coindice:非政策置信区间估计。高级神经信息处理。系统。33 9398-9411.
[10] DANN,C.、NEUMANN,G.和PETERS,J.(2014)。具有时间差异的政策评估:调查与比较。J.马赫。学习。物件。15 809-883. ·Zbl 1317.68150号
[11] Delage,E.和Ye,Y.(2010年)。矩不确定性下的分布稳健优化及其在数据驱动问题中的应用。操作。物件。58 595-612. ·Zbl 1228.90064号 ·doi:10.1287/opre.1090.0741
[12] DERMAN,E.和MANNOR,S.(2020)。强化学习中的分布稳健性和正则性。ArXiv预印本。可从ArXiv:2003.02894获得。
[13] 段毅、贾哲和王明(2020)。线性函数近似下的最小最大最优非政策评估。会议记录37第十届国际机器学习会议2701-2709.
[14] 段毅、金川和李忠(2021)。批量强化学习中的风险边界和Rademacher复杂性。会议记录38第十届国际机器学习会议2892-2902.
[15] DUCHI,J.和NAMKOONG,H.(2019年)。具有凸目标的基于方差的正则化。J.马赫。学习。物件。20第68号论文·Zbl 1489.62193号
[16] DUCHI,J.C.、GLYNN,P.W.和NAMKOONG,H.(2021)。稳健优化的统计:广义经验似然方法。数学。操作。物件。46 946-969. ·Zbl 1473.62292号 ·doi:10.1287/门2020.1085
[17] DUCHI,J.C.和NAMKOONG,H.(2021)。通过分布稳健优化学习性能一致的模型。安。统计师。49 1378-1406. ·Zbl 1473.62019年 ·doi:10.1214/20-aos2004
[18] DUDÍK,M.、ERHAN,D.、LANGFORD,J.和LI,L.(2014)。双重稳健的政策评估和优化。统计师。科学。29 485-511. ·Zbl 1331.62059号 ·doi:10.1214/14-STS500
[19] EPSTEIN,L.G.和SCHNEIDER,M.(2003)。递归多表示。《经济学杂志》。理论113 1-31. ·Zbl 1107.91360号 ·doi:10.1016/S0022-0531(03)00097-8
[20] FARAJTABAR,M.、CHOW,Y.和GHAVAMZADEH,M.(2018年)。更加稳健的双稳健非政策评估。会议记录35第十届国际机器学习会议1447年-1456年。
[21] FUJIMOTO,S.、MEGER,D.和PRECUP,D.(2019年)。非政策性深度强化学习,无需探索。会议记录36第十届国际机器学习会议2052-2062.
[22] GAO,R.和KLEYWEGT,A.J.(2016)。具有Wasserstein距离的分布鲁棒随机优化。ArXiv预打印。可从ArXiv:1604.02199获得。
[23] GHAVAMZADEH,M.、PETRIK,M.和CHOW,Y.(2016)。通过最大限度地减少强烈的基线遗憾来改进安全政策。高级神经信息处理。系统。29 2298-2306.
[24] GHESHLAGHI AZAR,M.、MUNOS,R.和KAPPEN,H.J.(2013)。Minimax PAC限制了生成模型强化学习的样本复杂性。机器。学习。91 325-349. ·Zbl 1295.68180号 ·doi:10.1007/s10994-013-5368-1
[25] GOYAL,V.和GRAND-CLEMENT,J.(2022)。稳健的马尔可夫决策过程:超越矩形。数学。操作。物件。
[26] GRüNEWáLDER,S.、LEVER,G.、BALDASARRE,L.、PONTIL,M.和GRETTON,A.(2012)。使用RKHS嵌入对MDP中的过渡动力学进行建模。会议记录29第七届国际机器学习会议1603-1610.
[27] HAARNOJA,T.、ZHOU,A.、ABBEEL,P.和LEVINE,S.(2018年)。软actor-critic:使用随机actor的非策略最大熵深度强化学习。会议记录35第届国际机器学习大会1861-1870.
[28] Hastie,T.、Tibshirani,R.和Friedman,J.(2009)。统计学习的要素:数据挖掘、推断和预测,第2版。统计学中的斯普林格系列纽约州施普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[29] Hirano,K.、Imbens,G.W.和Ridder,G.(2003)。使用估计的倾向得分有效估计平均治疗效果。计量经济学71 1161-1189. ·Zbl 1152.62328号 ·数字对象标识代码:10.1111/1468-0262.00442
[30] HO,C.P.,PETRIK,M.和WIESEMANN,W.(2018年)。Bellman快速更新稳健MDP。会议记录35第十届国际机器学习会议1979-1988.
[31] HO,C.P.,PETRIK,M.和WIESEMANN,W.(2021)。\[{L_1}\]鲁棒马尔可夫决策过程的部分策略迭代。J.马赫。学习。物件。22第275号论文·Zbl 07626790号
[32] Iyengar,G.N.(2005)。稳健的动态编程。数学。操作。物件。30 257-280. ·Zbl 1082.90123号 ·doi:10.1287/门1040.0129
[33] 姜N.和李L.(2016)。用于强化学习的双重稳健的非政策价值评估。会议记录33第三届国际机器学习会议652-661.
[34] JIN,C.、ALLEN-ZHU,Z.、BUBECK,S.和JORDAN,M.I.(2018年)。Q学习是否有效?高级神经信息处理。系统。31
[35] JIN,C.、YANG,Z.、WANG,Z..和JORDAN,M.I.(2020年)。具有线性函数逼近的显著高效强化学习。第三十三届学习理论会议记录2137-2143.
[36] JIN,Y.,YANG,Z.和WANG,Z.(2021)。悲观情绪对离线rl有效吗?会议记录38第十届国际机器学习会议5084-5096.
[37] JONG,N.K.和STONE,P.(2007)。强化学习中基于模型的函数逼近。会议记录6第十届国际自治代理和多代理系统联合会议1-8.
[38] KALLUS,N.和UEHARA,M.(2020)。马尔可夫决策过程中高效非策略评估的双强化学习。J.马赫。学习。物件。21第167号文件·Zbl 1525.68113号
[39] KAUFMAN,D.L.和SCHAEFER,A.J.(2013)。稳健的修改策略迭代。信息J.计算。25 396-410. ·doi:10.1287/ijoc.1120.0509
[40] Lam,H.(2016)。随机系统的鲁棒灵敏度分析。数学。操作。物件。41 1248-1275. ·Zbl 1361.65008号 ·doi:10.1287/门2015.0776
[41] LAZARIC,A.、GHAVAMZADEH,M.和MUNOS,R.(2012年)。最小二乘政策迭代的有限样本分析。J.马赫。学习。物件。13 3041-3074. ·Zbl 1433.68361号
[42] LE,H.、VOLOSHIN,C.和YUE,Y.(2019年)。约束条件下的批量策略学习。会议记录36第十届国际机器学习会议3703-3712.
[43] LEE,J.和RAGINSKY,M.(2018年)。Wasserstein距离的Minimax统计学习。高级神经信息处理。系统。31
[44] LI,L.、MUNOS,R.和SZEPESVáRI,C.(2015)。接近政策价值估计的最小最大值。会议记录18第十届国际人工智能与统计会议608-616.
[45] LI,X.,YANG,W.,Z.和JORDAN,M.I.(2021)。Polyak-Ruppert平均Q学习在统计学上是有效的。ArXiv预打印。可从ArXiv:2112.14582获取。
[46] LILLICRAP,T.P.、HUNT,J.J.、PRITZEL,A.、HEESS,N.、EREZ,T.、TASSA,Y.、SILVER,D.和WIERSTRA,D.(2015)。通过深度强化学习进行持续控制。会议记录4第七届国际学习代表大会.
[47] LIM,S.H.、XU,H.和MANNOR,S.(2013年)。鲁棒马尔可夫决策过程中的强化学习。高级神经信息处理。系统。26 701-709.
[48] 刘琦、李磊、唐哲和周德(2018)。打破地平线的诅咒:政策估计的无限地平线。高级神经信息处理。系统。31
[49] MANNOR,S.、MEBEL,O.和XU,H.(2012)。闪电不会两次击中:具有耦合不确定性的稳健MDP。会议记录29第十届国际机器学习会议451-458.
[50] MANNOR,S.、SIMESTER,D.、SUN,P.和TSITSIKLIS,J.N.(2004)。价值函数估计中的偏差和方差。会议记录21第一届国际机器学习会议72
[51] MNIH,V.、BADIA,A.P.、MIRZA,M.、GRAVES,A.、LILLICRAP,T.、HARLEY,T.,SILVER,D.和KAVUKCUOGLU,K.(2016)。深度强化学习的异步方法。会议记录33第三届国际机器学习会议1928-1937.
[52] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Rusu,A.A.、Veness,J.、Bellemare,M.G.、Graves,A.、Riedmiller,M.、Fidjeland,A.K.等人(2015)。通过深度强化学习进行人性化控制。自然518 529.
[53] MOHRI,M.、ROSTAMIZADEH,A.和TALWALKAR,A.(2018年)。机器学习基础.自适应计算与机器学习麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1407.68007号
[54] MUNOS,R.和SZEPESVáRI,C.(2008)。拟合值迭代的有限时间界限。J.马赫。学习。物件。9 815-857. ·Zbl 1225.68203号
[55] Nilim,A.和El Ghaoui,L.(2005年)。转移矩阵不确定的马尔可夫决策过程的鲁棒控制。操作。物件。53 780-798. ·Zbl 1165.90674号 ·doi:10.1287/opre.1050.0216
[56] PANAGANTI,K.和KALATHIL,D.(2022年)。生成模型下鲁棒强化学习的样本复杂性。会议记录25第十届国际人工智能与统计会议9582-9602.
[57] 彭晓波(PENG,X.B.)、安德里乔维奇(ANDRYCHOWICZ,M.)、扎伦巴(ZAREMBA,W.)和阿贝尔(ABBEEL,P.)(2018年)。使用动力学随机化实现机器人控制的模拟到实际转移。2018年IEEE机器人与自动化国际会议(ICRA公司) 3803-3810.
[58] 佩特里克,M.(2012)。通过最小化分布鲁棒边界来近似动态规划。会议记录29第十届国际机器学习会议1595-1602.
[59] PETRIK,M.和RUSSEL,R.H.(2019年)。超出置信区域:稳健mdp的严格贝叶斯模糊集。高级神经信息处理。系统。32
[60] PETRIK,M.和SUBRAMANIAN,D.(2014)。RAAM:在强化学习中近似聚合MDP的稳健性优势。高级神经信息处理。系统。27
[61] PUTERMAN,M.L.(1994)。马尔可夫决策过程:离散随机动态规划.概率与数理统计中的威利级数:应用概率统计.威利,纽约·兹伯利0829.90134
[62] QI,Z.和LIAO,P.(2020)。马尔可夫决策过程中的稳健批量策略学习。ArXiv预印本。可从ArXiv:2011.04185获得。
[63] SASON,I.和VERD U.,S.(2016年)\(f)-散度不等式。IEEE传输。Inf.理论62 5973-6006. ·Zbl 1359.94363号 ·doi:10.1109/TIT.2016.2603151
[64] Shapiro,A.(2017)。分布稳健随机规划。SIAM J.Optim公司。27 2258-2275. ·Zbl 1373.90089 ·doi:10.137/16M1058297
[65] SI,N.、ZHANG,F.、ZHOU,Z.和BLANCHET,J.(2020)。离线背景盗贼中分布稳健的政策评估和学习。会议记录37第十届国际机器学习会议8884-8894.
[66] SIDFORD,A.、WANG,M.、WU,X.、YANG,L.F.和YE,Y.(2018年)。用生成模型求解马尔可夫决策过程的近最优时间和样本复杂性。神经信息处理系统研究进展31
[67] SILVER,D.,HUANG,A.,MADDISON,C.J.,GUEZ,A.,SIFRE,L.,VAN DEN DRIESSHE,G.,SCHRITWIESER,J.,ANTONOGLOU,I.,PANNEERSHELVAM,V.等人(2016年)。通过深度神经网络和树搜索掌握围棋游戏。自然529 484-489.
[68] SMIRNOVA,E.、DOHMATOB,E.和MARY,J.(2019年)。分布稳健的强化学习。ArXiv预印本。可从ArXiv:1902.08708获得。
[69] SWAMINATHAN,A.和JOACHIMS,T.(2015)。反事实学习的自归一化估计。高级神经信息处理。系统。28
[70] THOMAS,P.和BRUNSKILL,E.(2016)。用于强化学习的数据高效的非政策政策评估。会议记录33第三届国际机器学习会议2139-2148.
[71] van der Vaart,A.W.(1998)。渐近统计.剑桥统计与概率数学系列3.剑桥大学出版社,剑桥·Zbl 0910.62001号 ·doi:10.1017/CBO978051180225
[72] Wainwright,M.J.(2019年)。高维统计:非共鸣观点.剑桥统计与概率数学系列48.剑桥大学出版社,剑桥·Zbl 1457.62011年 ·doi:10.1017/9781108627771
[73] WANG,R.、FOSTER,D.和KAKADE,S.M.(2020年)。线性函数近似下离线RL的统计极限是什么?会议记录9第七届国际学习代表大会.
[74] WIESEMANN,W.、KUHN,D.和RUSTEM,B.(2013)。稳健的马尔可夫决策过程。数学。操作。物件。38 153-183. ·Zbl 1291.90295号 ·doi:10.1287/门1120.0566
[75] Wozabal,D.(2012年)。模糊条件下的优化框架。安·Oper。物件。193 21-47. ·兹比尔1255.91454 ·doi:10.1007/s10479-010-0812-0
[76] 肖C.、吴Y.、梅J.、戴B.、莱蒂摩尔T.、李L.、斯泽佩斯瓦里C.和舒曼D.(2021)。关于批量策略优化算法的最优性。会议记录38第十届国际机器学习会议11362-11371.
[77] 谢涛和蒋南(2021)。批量值-仅可实现的函数近似值。会议记录38第十届国际机器学习会议11404-11413.
[78] 谢霆、马友友和王永新(2019)。边缘化重要性抽样强化学习的最优非策略评估。高级神经信息处理。系统。32
[79] XU,H.和MANNOR,S.(2006年)。马尔可夫决策过程中的鲁棒性-性能权衡。高级神经信息处理。系统。19
[80] XU,H.和MANNOR,S.(2009年)。不确定马尔可夫决策过程中的参数后悔。会议记录48h IEEE决策和控制会议(疾病预防控制中心)与联合持有2009 28第届中国控制会议3606-3613.
[81] YANG,W.,ZHANG,L.和ZHANG(2022)。对“稳健马尔可夫决策过程的理论理解:样本复杂性和渐近性”的补充https://doi.org/10.1214/22-AOS2225SUPP(网址:https://doi.org/10.1214/22-AOS2225SUPP)
[82] YIN,M.,BAI,Y.和WANG,Y.-X.(2021)。强化学习离线策略评估中的近最优可证明一致收敛性。会议记录24第十届国际人工智能与统计会议1567-1575.
[83] YIN,M.和WANG,Y.-X.(2020年)。表格式强化学习的渐进有效非策略评估。会议记录23第三届国际人工智能与统计会议3948-3958.
[84] ZHAO,W.、QUERALTA,J.P.和WESTERLUND,T.(2020年)。机器人深度强化学习中的模拟现实迁移:一项调查。2020年IEEE计算智能研讨会系列(SSCI公司)737-744。
[85] ZHOU,Z.、BAI,Q.、ZHOU、Z.、QIU,L.、BLANCHET,J.和GLYNN,P.(2021)。分布式鲁棒离线表格强化学习的有限样本遗憾界。会议记录24第十届国际人工智能与统计会议3331-3339
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。