文件Zbl 07641124-zbMATH Open

稳健马尔可夫决策过程的理论理解：样本复杂性和渐近性。（英语） Zbl 07641124号

Ann.统计。 50，第6号，3223-3248（2022）.

摘要：在本文中，我们研究了稳健马尔可夫决策过程（MDP）的最优稳健策略和值函数的非共振和渐近性能，其中最优稳健策略与值函数是从生成模型估计的。虽然先前研究鲁棒MDP的非共鸣性能的工作局限于KL不确定性集和（s，a）-矩形假设的设置，但我们改进了它们的结果，还考虑了其他不确定性集，包括（{L_1}）和（{chi^2}）球。我们的结果表明，当我们在不确定集上假设（s，a）-矩形时，样本复杂度约为（widetilde{mathcal{O}}（frac{|mathcal}s}{|^2}|mathcal{a}|}{varepsilon^2}{rho^2}}{（1-\gamma）^4}}））。此外，我们将结果从（s，a）-矩形假设推广到（s）-矩形假定。在这种情况下，样本复杂性随着不确定性集的选择而变化，并且通常大于矩形假设下的情况。此外，我们还从理论和实证两个角度证明了在（s，a）和（s）-矩形假设下，最优鲁棒值函数是渐近正态的，具有典型的速率（sqrt{n}）。

MSC公司：

62C05型	统计决策理论的一般考虑
2012年12月62日	参数估计量的渐近性质
68问题32	计算学习理论

关键词：

基于模型的强化学习；稳健的MDP；分布稳健性；\（f）-散度集

软件：

ElemStatLearn（电子状态学习）

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司链接

参考文献：

[1]	AGARWAL，A.、KAKADE，S.和YANG，L.F.（2020年）。具有生成模型的基于模型的强化学习是极小极大最优的。在第三十三届学习理论会议记录67-83.
[2]	AGARWAL，R.、SCHUURMANS，D.和NOROUZI，M.（2020年）。对线下强化学习的乐观看法。在会议记录37第十届国际机器学习会议104-114.
[3]	BEHZADIAN，B.、RUSSEL，R.H.、PETRIK，M.和HO，C.P.（2021年）。使用稳健MDP优化百分位标准。在会议记录24第十届国际人工智能与统计会议1009-1017.
[4]	BEN-TAL，A.、DEN HERTOG，D.、DE WAEGENAERE，A.、MELENBERG，B.和RENNEN，G.（2013）。受不确定概率影响的优化问题的稳健解。管理。科学。59 341-357.
[5]	BERTSEKAS，D.P.和TSITSIKLIS，J.N.（1995）。神经动力学编程：概述。在的程序1995年34第十届IEEE决策与控制会议1 560-564.
[6]	Bertsimas，D.、Gupta，V.和Kallus，N.（2018年）。数据驱动的稳健优化。数学。程序。167 235-292. ·Zbl 1397.90298号 ·doi:10.1007/s10107-017-1125-8
[7]	Blanchet，J.和Murthy，K.（2019年）。通过优化运输量化分销模式风险。数学。操作。物件。44 565-600. ·Zbl 1434.60113号 ·doi:10.1287/门.2018.0936
[8]	CHEN，J.和JIANG，N.（2019年）。批量强化学习中的信息论考虑。在会议记录36第届国际机器学习大会1042-1051.
[9]	DAI，B.，NACHUM，O.，CHOW，Y.，LI，L.，SZEPESVáRI，C.和SCHUURMANS，D.（2020年）。Coindice：非政策置信区间估计。高级神经信息处理。系统。33 9398-9411.
[10]	DANN，C.、NEUMANN，G.和PETERS，J.（2014）。具有时间差异的政策评估：调查与比较。J.马赫。学习。物件。15 809-883. ·Zbl 1317.68150号
[11]	Delage，E.和Ye，Y.（2010年）。矩不确定性下的分布稳健优化及其在数据驱动问题中的应用。操作。物件。58 595-612. ·Zbl 1228.90064号 ·doi:10.1287/opre.1090.0741
[12]	DERMAN，E.和MANNOR，S.（2020）。强化学习中的分布稳健性和正则性。ArXiv预印本。可从ArXiv:2003.02894获得。
[13]	段毅、贾哲和王明（2020）。线性函数近似下的最小最大最优非政策评估。在会议记录37第十届国际机器学习会议2701-2709.
[14]	段毅、金川和李忠（2021）。批量强化学习中的风险边界和Rademacher复杂性。在会议记录38第十届国际机器学习会议2892-2902.
[15]	DUCHI，J.和NAMKOONG，H.（2019年）。具有凸目标的基于方差的正则化。J.马赫。学习。物件。20第68号论文·Zbl 1489.62193号
[16]	DUCHI，J.C.、GLYNN，P.W.和NAMKOONG，H.（2021）。稳健优化的统计：广义经验似然方法。数学。操作。物件。46 946-969. ·Zbl 1473.62292号 ·doi:10.1287/门2020.1085
[17]	DUCHI，J.C.和NAMKOONG，H.（2021）。通过分布稳健优化学习性能一致的模型。安。统计师。49 1378-1406. ·Zbl 1473.62019年 ·doi:10.1214/20-aos2004
[18]	DUDÍK，M.、ERHAN，D.、LANGFORD，J.和LI，L.（2014）。双重稳健的政策评估和优化。统计师。科学。29 485-511. ·Zbl 1331.62059号 ·doi:10.1214/14-STS500
[19]	EPSTEIN，L.G.和SCHNEIDER，M.（2003）。递归多表示。《经济学杂志》。理论113 1-31. ·Zbl 1107.91360号 ·doi:10.1016/S0022-0531（03）00097-8
[20]	FARAJTABAR，M.、CHOW，Y.和GHAVAMZADEH，M.（2018年）。更加稳健的双稳健非政策评估。在会议记录35第十届国际机器学习会议1447年-1456年。
[21]	FUJIMOTO，S.、MEGER，D.和PRECUP，D.（2019年）。非政策性深度强化学习，无需探索。在会议记录36第十届国际机器学习会议2052-2062.
[22]	GAO，R.和KLEYWEGT，A.J.（2016）。具有Wasserstein距离的分布鲁棒随机优化。ArXiv预打印。可从ArXiv:1604.02199获得。
[23]	GHAVAMZADEH，M.、PETRIK，M.和CHOW，Y.（2016）。通过最大限度地减少强烈的基线遗憾来改进安全政策。高级神经信息处理。系统。29 2298-2306.
[24]	GHESHLAGHI AZAR，M.、MUNOS，R.和KAPPEN，H.J.（2013）。Minimax PAC限制了生成模型强化学习的样本复杂性。机器。学习。91 325-349. ·Zbl 1295.68180号 ·doi:10.1007/s10994-013-5368-1
[25]	GOYAL，V.和GRAND-CLEMENT，J.（2022）。稳健的马尔可夫决策过程：超越矩形。数学。操作。物件。
[26]	GRüNEWáLDER，S.、LEVER，G.、BALDASARRE，L.、PONTIL，M.和GRETTON，A.（2012）。使用RKHS嵌入对MDP中的过渡动力学进行建模。在会议记录29第七届国际机器学习会议1603-1610.
[27]	HAARNOJA，T.、ZHOU，A.、ABBEEL，P.和LEVINE，S.（2018年）。软actor-critic：使用随机actor的非策略最大熵深度强化学习。在会议记录35第届国际机器学习大会1861-1870.
[28]	Hastie，T.、Tibshirani，R.和Friedman，J.（2009）。统计学习的要素:数据挖掘、推断和预测，第2版。统计学中的斯普林格系列纽约州施普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[29]	Hirano，K.、Imbens，G.W.和Ridder，G.（2003）。使用估计的倾向得分有效估计平均治疗效果。计量经济学71 1161-1189. ·Zbl 1152.62328号 ·数字对象标识代码：10.1111/1468-0262.00442
[30]	HO，C.P.，PETRIK，M.和WIESEMANN，W.（2018年）。Bellman快速更新稳健MDP。在会议记录35第十届国际机器学习会议1979-1988.
[31]	HO，C.P.，PETRIK，M.和WIESEMANN，W.（2021）。\[｛L_1｝\]鲁棒马尔可夫决策过程的部分策略迭代。J.马赫。学习。物件。22第275号论文·Zbl 07626790号
[32]	Iyengar，G.N.（2005）。稳健的动态编程。数学。操作。物件。30 257-280. ·Zbl 1082.90123号 ·doi:10.1287/门1040.0129
[33]	姜N.和李L.（2016）。用于强化学习的双重稳健的非政策价值评估。在会议记录33第三届国际机器学习会议652-661.
[34]	JIN，C.、ALLEN-ZHU，Z.、BUBECK，S.和JORDAN，M.I.（2018年）。Q学习是否有效？高级神经信息处理。系统。31
[35]	JIN，C.、YANG，Z.、WANG，Z..和JORDAN，M.I.（2020年）。具有线性函数逼近的显著高效强化学习。在第三十三届学习理论会议记录2137-2143.
[36]	JIN，Y.，YANG，Z.和WANG，Z.（2021）。悲观情绪对离线rl有效吗？在会议记录38第十届国际机器学习会议5084-5096.
[37]	JONG，N.K.和STONE，P.（2007）。强化学习中基于模型的函数逼近。在会议记录6第十届国际自治代理和多代理系统联合会议1-8.
[38]	KALLUS，N.和UEHARA，M.（2020）。马尔可夫决策过程中高效非策略评估的双强化学习。J.马赫。学习。物件。21第167号文件·Zbl 1525.68113号
[39]	KAUFMAN，D.L.和SCHAEFER，A.J.（2013）。稳健的修改策略迭代。信息J.计算。25 396-410. ·doi:10.1287/ijoc.1120.0509
[40]	Lam，H.（2016）。随机系统的鲁棒灵敏度分析。数学。操作。物件。41 1248-1275. ·Zbl 1361.65008号 ·doi:10.1287/门2015.0776
[41]	LAZARIC，A.、GHAVAMZADEH，M.和MUNOS，R.（2012年）。最小二乘政策迭代的有限样本分析。J.马赫。学习。物件。13 3041-3074. ·Zbl 1433.68361号
[42]	LE，H.、VOLOSHIN，C.和YUE，Y.（2019年）。约束条件下的批量策略学习。在会议记录36第十届国际机器学习会议3703-3712.
[43]	LEE，J.和RAGINSKY，M.（2018年）。Wasserstein距离的Minimax统计学习。高级神经信息处理。系统。31
[44]	LI，L.、MUNOS，R.和SZEPESVáRI，C.（2015）。接近政策价值估计的最小最大值。在会议记录18第十届国际人工智能与统计会议608-616.
[45]	LI，X.，YANG，W.，Z.和JORDAN，M.I.（2021）。Polyak-Ruppert平均Q学习在统计学上是有效的。ArXiv预打印。可从ArXiv:2112.14582获取。
[46]	LILLICRAP，T.P.、HUNT，J.J.、PRITZEL，A.、HEESS，N.、EREZ，T.、TASSA，Y.、SILVER，D.和WIERSTRA，D.（2015）。通过深度强化学习进行持续控制。在会议记录4第七届国际学习代表大会.
[47]	LIM，S.H.、XU，H.和MANNOR，S.（2013年）。鲁棒马尔可夫决策过程中的强化学习。高级神经信息处理。系统。26 701-709.
[48]	刘琦、李磊、唐哲和周德（2018）。打破地平线的诅咒：政策估计的无限地平线。高级神经信息处理。系统。31
[49]	MANNOR，S.、MEBEL，O.和XU，H.（2012）。闪电不会两次击中：具有耦合不确定性的稳健MDP。在会议记录29第十届国际机器学习会议451-458.
[50]	MANNOR，S.、SIMESTER，D.、SUN，P.和TSITSIKLIS，J.N.（2004）。价值函数估计中的偏差和方差。在会议记录21第一届国际机器学习会议72
[51]	MNIH，V.、BADIA，A.P.、MIRZA，M.、GRAVES，A.、LILLICRAP，T.、HARLEY，T.，SILVER，D.和KAVUKCUOGLU，K.（2016）。深度强化学习的异步方法。在会议记录33第三届国际机器学习会议1928-1937.
[52]	Mnih，V.、Kavukcuoglu，K.、Silver，D.、Rusu，A.A.、Veness，J.、Bellemare，M.G.、Graves，A.、Riedmiller，M.、Fidjeland，A.K.等人（2015）。通过深度强化学习进行人性化控制。自然518 529.
[53]	MOHRI，M.、ROSTAMIZADEH，A.和TALWALKAR，A.（2018年）。机器学习基础.自适应计算与机器学习麻省理工学院出版社，马萨诸塞州剑桥·Zbl 1407.68007号
[54]	MUNOS，R.和SZEPESVáRI，C.（2008）。拟合值迭代的有限时间界限。J.马赫。学习。物件。9 815-857. ·Zbl 1225.68203号
[55]	Nilim，A.和El Ghaoui，L.（2005年）。转移矩阵不确定的马尔可夫决策过程的鲁棒控制。操作。物件。53 780-798. ·Zbl 1165.90674号 ·doi:10.1287/opre.1050.0216
[56]	PANAGANTI，K.和KALATHIL，D.（2022年）。生成模型下鲁棒强化学习的样本复杂性。在会议记录25第十届国际人工智能与统计会议9582-9602.
[57]	彭晓波（PENG，X.B.）、安德里乔维奇（ANDRYCHOWICZ，M.）、扎伦巴（ZAREMBA，W.）和阿贝尔（ABBEEL，P.）（2018年）。使用动力学随机化实现机器人控制的模拟到实际转移。2018年IEEE机器人与自动化国际会议(ICRA公司) 3803-3810.
[58]	佩特里克，M.（2012）。通过最小化分布鲁棒边界来近似动态规划。在会议记录29第十届国际机器学习会议1595-1602.
[59]	PETRIK，M.和RUSSEL，R.H.（2019年）。超出置信区域：稳健mdp的严格贝叶斯模糊集。高级神经信息处理。系统。32
[60]	PETRIK，M.和SUBRAMANIAN，D.（2014）。RAAM：在强化学习中近似聚合MDP的稳健性优势。高级神经信息处理。系统。27
[61]	PUTERMAN，M.L.（1994）。马尔可夫决策过程:离散随机动态规划.概率与数理统计中的威利级数:应用概率统计.威利，纽约·兹伯利0829.90134
[62]	QI，Z.和LIAO，P.（2020）。马尔可夫决策过程中的稳健批量策略学习。ArXiv预印本。可从ArXiv:2011.04185获得。
[63]	SASON，I.和VERD U.，S.（2016年）\（f）-散度不等式。IEEE传输。Inf.理论62 5973-6006. ·Zbl 1359.94363号 ·doi:10.1109/TIT.2016.2603151
[64]	Shapiro，A.（2017）。分布稳健随机规划。SIAM J.Optim公司。27 2258-2275. ·Zbl 1373.90089 ·doi:10.137/16M1058297
[65]	SI，N.、ZHANG，F.、ZHOU，Z.和BLANCHET，J.（2020）。离线背景盗贼中分布稳健的政策评估和学习。在会议记录37第十届国际机器学习会议8884-8894.
[66]	SIDFORD，A.、WANG，M.、WU，X.、YANG，L.F.和YE，Y.（2018年）。用生成模型求解马尔可夫决策过程的近最优时间和样本复杂性。在神经信息处理系统研究进展31
[67]	SILVER，D.，HUANG，A.，MADDISON，C.J.，GUEZ，A.，SIFRE，L.，VAN DEN DRIESSHE，G.，SCHRITWIESER，J.，ANTONOGLOU，I.，PANNEERSHELVAM，V.等人（2016年）。通过深度神经网络和树搜索掌握围棋游戏。自然529 484-489.
[68]	SMIRNOVA，E.、DOHMATOB，E.和MARY，J.（2019年）。分布稳健的强化学习。ArXiv预印本。可从ArXiv:1902.08708获得。
[69]	SWAMINATHAN，A.和JOACHIMS，T.（2015）。反事实学习的自归一化估计。高级神经信息处理。系统。28
[70]	THOMAS，P.和BRUNSKILL，E.（2016）。用于强化学习的数据高效的非政策政策评估。在会议记录33第三届国际机器学习会议2139-2148.
[71]	van der Vaart，A.W.（1998）。渐近统计.剑桥统计与概率数学系列3.剑桥大学出版社，剑桥·Zbl 0910.62001号 ·doi:10.1017/CBO978051180225
[72]	Wainwright，M.J.（2019年）。高维统计:非共鸣观点.剑桥统计与概率数学系列48.剑桥大学出版社，剑桥·Zbl 1457.62011年 ·doi:10.1017/9781108627771
[73]	WANG，R.、FOSTER，D.和KAKADE，S.M.（2020年）。线性函数近似下离线RL的统计极限是什么？在会议记录9第七届国际学习代表大会.
[74]	WIESEMANN，W.、KUHN，D.和RUSTEM，B.（2013）。稳健的马尔可夫决策过程。数学。操作。物件。38 153-183. ·Zbl 1291.90295号 ·doi:10.1287/门1120.0566
[75]	Wozabal，D.（2012年）。模糊条件下的优化框架。安·Oper。物件。193 21-47. ·兹比尔1255.91454 ·doi:10.1007/s10479-010-0812-0
[76]	肖C.、吴Y.、梅J.、戴B.、莱蒂摩尔T.、李L.、斯泽佩斯瓦里C.和舒曼D.（2021）。关于批量策略优化算法的最优性。在会议记录38第十届国际机器学习会议11362-11371.
[77]	谢涛和蒋南（2021）。批量值-仅可实现的函数近似值。在会议记录38第十届国际机器学习会议11404-11413.
[78]	谢霆、马友友和王永新（2019）。边缘化重要性抽样强化学习的最优非策略评估。高级神经信息处理。系统。32
[79]	XU，H.和MANNOR，S.（2006年）。马尔可夫决策过程中的鲁棒性-性能权衡。高级神经信息处理。系统。19
[80]	XU，H.和MANNOR，S.（2009年）。不确定马尔可夫决策过程中的参数后悔。在会议记录48h IEEE决策和控制会议(疾病预防控制中心)与联合持有2009 28第届中国控制会议3606-3613.
[81]	YANG，W.，ZHANG，L.和ZHANG（2022）。对“稳健马尔可夫决策过程的理论理解：样本复杂性和渐近性”的补充https://doi.org/10.1214/22-AOS2225SUPP（网址：https://doi.org/10.1214/22-AOS2225SUPP）
[82]	YIN，M.，BAI，Y.和WANG，Y.-X.（2021）。强化学习离线策略评估中的近最优可证明一致收敛性。在会议记录24第十届国际人工智能与统计会议1567-1575.
[83]	YIN，M.和WANG，Y.-X.（2020年）。表格式强化学习的渐进有效非策略评估。在会议记录23第三届国际人工智能与统计会议3948-3958.
[84]	ZHAO，W.、QUERALTA，J.P.和WESTERLUND，T.（2020年）。机器人深度强化学习中的模拟现实迁移：一项调查。2020年IEEE计算智能研讨会系列(SSCI公司)737-744。
[85]	ZHOU，Z.、BAI，Q.、ZHOU、Z.、QIU，L.、BLANCHET，J.和GLYNN，P.（2021）。分布式鲁棒离线表格强化学习的有限样本遗憾界。在会议记录24第十届国际人工智能与统计会议3331-3339

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

稳健马尔可夫决策过程的理论理解：样本复杂性和渐近性。（英语） Zbl 07641124号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

稳健马尔可夫决策过程的理论理解：样本复杂性和渐近性。 （英语） Zbl 07641124号

MSC公司：

关键词：

软件：

参考文献：

稳健马尔可夫决策过程的理论理解：样本复杂性和渐近性。（英语） Zbl 07641124号