Sivaramakrishnan拉马尼;阿尔奇斯·盖特 具有数据驱动、基于距离的模糊集的鲁棒马尔可夫决策过程。 (英文) Zbl 1493.90215号 SIAM J.Optim公司。 32,第2期,989-1017(2022). 摘要:我们考虑具有未知状态转移概率的有限和无限时域马尔可夫决策过程。假设它们属于某些模糊集,目标是在这些模糊集的所有概率上最大化最坏情况下的预期总折扣报酬。具体地说,任何状态-作用-阶段三元组的模糊集都是一个整体,它包含了所有概率质量函数(pmf),这些概率质量函数与使用历史独立观察状态转换构建的经验pmf之间存在一定距离。我们证明了当样本大小发散到无穷大时,如果模糊球的半径接近零,则由此产生的鲁棒MDP(RMDP)中的最优值收敛到真实MDP的最优值。此外,对于足够大的样本量,稳健的最优策略对于真正的MDP是最优的。这些结果依赖于一个充分条件,该条件将pmfs相对于距离函数的收敛性与其在适当空间中的分量收敛性联系起来。此外,对于有限样本量,RMDP的最优值提供了真实MDP中稳健最优策略值的一个下界,概率很高。对于这种样本外性能保证,一定的浓度不相等就足够了。几个众所周知的距离满足这些条件。数值实验表明,可以从多个距离函数中进行选择,以构建具有良好样本外性能的可计算RMDP,并平衡保守性和概率保证。 MSC公司: 90立方厘米 动态编程 90立方厘米 马尔可夫和半马尔可夫决策过程 90立方厘米 数学规划中的稳健性 关键词:分布鲁棒优化;动态程序设计;价值收敛;概率性能保证 软件:罗马 PDF格式BibTeX公司 XML格式引用 \textit{S.Ramani}和\textit{A.Ghate},SIAM J.Optim。32,编号2,989--1017(2022;Zbl 1493.90215) 全文: 内政部 参考文献: [1] A.Agarwal、S.Kakade和L.F.Yang,基于模型的强化学习与生成模型是极小极大最优的,《第三十三届学习理论会议论文集》,PMLR 1252020,第67-83页。 [2] G.Bayraksan和D.K.Love,《使用phi-divergences的数据驱动随机规划》,载于《运筹学教程》,INFORMS,Hanover,MD,2015年,第1-19页。 [3] A.Ben-Tal、D.den Hertog、A.De Waegenaere、B.Melenberg和G.Rennen,受不确定概率影响的优化问题的稳健解决方案,Manag。科学。,59(2013),第341-357页。 [4] D.Berend和A.Kontorovich,应用二项式平均绝对偏差的尖锐估计,Statist。普罗巴伯。莱特。,83(2013),第1254-1259页·Zbl 1268.60021号 [5] D.Bertsimas、V.Gupta和N.Kallus,稳健样本平均近似,数学。程序。,171(2018),第217-282页·Zbl 1432.90168号 [6] Z.Chen,P.Yu和W.B.Haskell,《序列决策的分布稳健优化》,《优化》,68(2019),第2397-2426页·Zbl 1431.90169号 [7] E.Delage和S.Mannor,参数不确定性马尔可夫决策过程的百分位优化,Oper。研究,58(2010),第203-213页·Zbl 1226.90128号 [8] E.Delage和Y.Ye,力矩不确定性下的分布鲁棒优化及其在数据驱动问题中的应用,Oper。Res.,58(2010),第595-612页·Zbl 1228.90064号 [9] E.Derman和S.Mannor,强化学习中的分布鲁棒性和正则化,预印本,https://arxiv.org/abs/2003.02894, 2020. [10] D.Duque和D.Morton,分布式鲁棒随机动态规划,SIAM J.Optim。,30(2020年),第2841-2865页,https://doi.org/10.1137/19M1309602。 ·Zbl 1451.90109号 [11] E.Erdogan和G.N.Iyengar,模糊机会约束问题和鲁棒优化,数学。程序。,107(2006),第37-61页·Zbl 1134.90028号 [12] P.M.Esfahani和D.Kuhn,《使用Wasserstein度量的数据驱动分布式稳健优化:性能保证和易处理的重新设计》,数学。程序。,171(2017),第115-166页·Zbl 1433.90095 [13] N.Fournier和A.Guillin,关于经验测度的Wasserstein距离的收敛速度,Probab。理论相关领域,162(2015),第707-738页·Zbl 1325.60042号 [14] R.Gao和A.J.Kleywegt,带Wasserstein距离的分布鲁棒随机优化,预印本,https://arxiv.org/abs/1604.02199, 2016. [15] A.L.Gibbs和F.E.Su,《关于选择和限定概率指标》,《国际统计评论》,70(2002),第419-435页·Zbl 1217.62014年 [16] P.Glasserman和X.X.Xu,随机因素动态的稳健投资组合控制,Oper。Res.,61(2013),第874-893页·Zbl 1291.91192号 [17] J.Goh和M.Sim,分布稳健优化及其可处理近似,Oper。Res.,58(2010),第902-917页·Zbl 1228.90067号 [18] J.I.Gonzalez-Trejo、O.Hernandez-Lerma和L.F.Hoyos-Reyes,离散时间随机系统的Minimax控制,SIAM J.控制优化。,41(2003),第1626-1659页,https://doi.org/10.1137/S0363012901383837。 ·邮编:1045.90083 [19] V.Goyal和J.Grand-Cleément,稳健马尔可夫决策过程:超越矩形,预印本,https://arxiv.org/abs/1811.00215, 2021. [20] 黄琦,贾琦,关旭,不确定风电集成下电动汽车充电负荷的鲁棒调度,IEEE Trans。《智能电网》,第9期(2018年),第1043-1054页。 [21] G.N.Iyengar,鲁棒动态编程,数学。操作。研究,30(2005),第257-280页·Zbl 1082.90123 [22] 江瑞敏,关毅,数据驱动的机会约束随机规划,数学。程序。,158(2016),第291-327页·Zbl 1346.90640号 [23] 江瑞敏,关彦,具有分布模糊性的风险规避两阶段随机规划,Oper。Res.,66(2018),第1390-1405页·Zbl 1455.90114号 [24] D.L.Kaufman和A.J.Schaefer,稳健修改策略迭代,INFORMS J.Compute。,25(2013年),第396-410页。 [25] D.Klabjan、D.Simchi-Levi和M.Song,通过直方图实现稳健随机批量,生产运营。管理。,22(2013),第691-710页。 [26] M.J.Kochenderfer和J.P.Chryssanthacopoulos,《通过动态编程实现鲁棒机载防撞》,项目报告ATC-371,麻省理工学院林肯实验室,马萨诸塞州列克星敦,2011年。 [27] F.Luo和S.Mehrotra,具有决策相关模糊集的分布鲁棒优化,Optim。莱特。,14(2020年),第2565-2594页·Zbl 1460.90121号 [28] S.Mannor、O.Mebel和H.Xu,具有(k)-矩形不确定性的稳健MDP,数学。操作。Res.,41(2016),第1484-1509页·Zbl 1349.90833号 [29] J.Mardia、J.Jiao、E.Tanczos、R.A.Nowak和T.Weissman,《离散分布经验分布的集中不等式:超越类型方法》,《Inf.Inference》,第9期(2020年),第813-850页·Zbl 1473.60047号 [30] C.McDiarmid,《关于有界差分方法》,载于《组合数学调查》,1989年(诺维奇,1989年),伦敦数学。Soc.讲义系列。141,J.Siemons主编,剑桥大学出版社,剑桥,Morgan Kaufmann,San Mateo,CA,1989年,第148-188页·Zbl 0712.05012号 [31] H.Nakao、R.Jiang和S.Shen,基于矩的模糊性分布鲁棒部分可观测马氏决策过程,SIAM J.Optim。,31(2019),第461-488页,https://doi.org/10.1137/19M1268410。 ·Zbl 1458.90633号 [32] A.Nilim和L.El Ghaoui,具有不确定转移矩阵的马尔可夫决策过程的鲁棒控制,Oper。研究,53(2005),第780-798页·Zbl 1165.90674号 [33] L.Pardo,《基于发散测度的统计推断》,Chapman&Hall/CRC,佛罗里达州博卡拉顿,2006年·Zbl 1118.62008号 [34] M.L.Puterman,《马尔可夫决策过程:离散随机动态规划》,John Wiley&Sons,Hoboken,NJ,2014年·Zbl 0829.90134号 [35] H.Rahimian和S.Mehrotra,《分布稳健优化:综述》,预印本,https://arxiv.org/abs/1908.05659,2019年。 [36] A.Rajeswaran、I.Mordatch和V.Kumar,基于模型的强化学习的博弈论框架,《机器学习国际会议论文集》119,PMLR,2020年,第7953-7963页。 [37] P.Rusmevichienton和H.Topalloglu,多项式logit选择模型下收入管理中的产品组合优化,Oper。研究,60(2012),第865-882页·Zbl 1262.90205号 [38] J.K.Satia和R.E.Lave,Jr.,转移概率不确定的马尔可夫决策过程,Oper。研究,21(1973),第728-740页·Zbl 0286.60038号 [39] H.E.Scarf,《库存问题的最小最大解决方案》,技术报告P-910,兰德公司,1957年。 [40] A.Shapiro和S.Ahmed,关于一类极小极大随机规划,SIAM J.Optim。,14(2004),第1237-1249页,https://doi.org/10.1137/S1052623403434012。 ·兹比尔1073.90027 [41] T.Sutter、B.P.G.Van Parys和D.Kuhn,最佳数据驱动优化的一般框架,预印本,https://arxiv.org/pdf/2010.06606.pdf, 2021. [42] A.Szulga,关于随机变量空间中的最小度量,理论问题。申请。,27(1983年),第424-430页。 [43] I.Tzortis、C.D.Charalambous和T.Charalamobus,《总变差距离模糊的动态规划》,SIAM J.Control Optim。,53(2015),第2040-2075页,https://doi.org/10.1137/10955707。 ·Zbl 1327.90363号 [44] I.Tzortis、C.D.Charalambous和T.Charalamobus,总变差距离模糊的无限时域平均成本动态规划,SIAM J.Control Optim。,57(2019),第2843-2872页,https://doi.org/10.1137/18M1210514。 ·Zbl 1421.93148号 [45] B.P.Van Parys、P.M.Esfahani和D.Kuhn,从数据到决策:分布稳健优化是最优的,Manag。科学。,67(2021年),第3387-3402页。 [46] J.Wang、R.Gao和H.Zha,《强化学习的可靠政策外评估》,预印本,https://arxiv.org/abs/2011.04102, 2021. [47] W.Wiesemann、D.Kuhn和B.Rustem,稳健马尔可夫决策过程,数学。操作。研究,38(2013),第153-183页·Zbl 1291.90295号 [48] W.Wiesemann、D.Kuhn和M.Sim,分布鲁棒凸优化,Oper。Res.,62(2014),第1358-1376页·Zbl 1327.90158号 [49] I.Yang,基于Wasserstein距离的分布鲁棒Markov决策过程的凸优化方法,IEEE控制系统。莱特。,1(2017),第164-169页。 [50] I.Yang,Wasserstein分布式鲁棒随机控制:数据驱动方法,IEEE Trans。自动化。对照,66(2021),第3863-3870页·Zbl 1471.93286号 [51] Y.Zhang,医疗决策的鲁棒最优控制,博士论文,北卡罗来纳州立大学,罗利,北卡罗莱纳州,2014年。 [52] C.Zhao和Y.Guan,基于Wasserstein度量的数据驱动风险规避随机优化,Oper。Res.Lett.公司。,46(2018),第262-267页·Zbl 1525.90316号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。