×

具有总变差距离模糊性的无限时域平均费用动态规划。 (英语) Zbl 1421.93148号

小结:我们分析了单位时间无限时域平均成本马尔可夫控制模型,在受控过程条件分布上存在总变差距离模糊性。这个随机最优控制问题被表示为一个极小极大优化问题,其中最小化是在允许的控制策略集上,而最大化是在以标称分布为中心的球中的条件分布集上,相对于总变化距离。我们导出了两个新的等价动态规划方程和一个新的策略迭代算法。新的动态规划方程的主要特点是,最优控制策略对受控过程条件分布的不精确性或模糊性不敏感。新策略迭代算法的主要特点是,使用最大化条件分布执行策略评估和策略改进步骤,该条件分布是通过将状态聚合在一起以形成新状态的注水解决方案获得的。在整个论文中,我们通过各种示例说明了新的动态规划方程和相应的策略迭代算法。

MSC公司:

93E20型 最优随机控制
90立方厘米 动态编程
90立方厘米 数学规划中的极小极大问题
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Arapostathis、V.S.Borkar、E.Fernaáandez-Gaucherand、M.K.Ghosh和S.I.Marcus,具有平均成本准则的离散受控马尔可夫过程:综述SIAM J.控制优化。,31(1993),第282-344页,https://doi.org/10.1137/0331018。 ·Zbl 0770.93064号
[2] J.Baras和M.Rabi,自动机的最大熵模型、动态博弈和鲁棒输出反馈控制,《第44届IEEE决策与控制会议记录》,2005年,第1043-1049页。
[3] T.Basar和P.Bernhard,\(H-\infty)最优控制及相关的Minimax设计问题:一种动态博弈方法《Collection Systèmes complexscripts》,Birkha˿用户,巴塞尔,1995年·Zbl 0835.93001号
[4] A.Bensoussan和R.Elliot,有限维风险敏感控制问题SIAM J.控制优化。,33(1995),第1834-1846页,https://doi.org/10.1137/S0363012993255879。 ·Zbl 0841.93081号
[5] D.Bertsekas,动态规划与随机控制,学术出版社,纽约,1976年·Zbl 0549.93064号
[6] V.S.Borkar,马尔可夫链单位时间最小费用控制SIAM J.控制优化。,22(1984),第965-978页,https://doi.org/10.1137/0322062。 ·Zbl 0566.93069号
[7] V.S.Borkar,具有长期平均成本准则的马尔可夫链控制:动态规划方程SIAM J.控制优化。,27(1989),第642-657页,https://doi.org/10.1137/0327034。 ·Zbl 0668.60059号
[8] P.E.凯恩斯,线性随机系统约翰·威利父子公司,纽约,1988年·Zbl 0658.93003号
[9] C.D.Charalambous和J.Hibey,基于可测值分解的部分可观测非线性风险敏感控制问题的最小值原理《随机随机报告》,57(1996),第247-288页·Zbl 0891.93084号
[10] C.D.Charalambous和F.Rezaei,相对熵约束下的随机不确定系统:极小极大对策的诱导范数和单调性,IEEE传输。自动化。控制,52(2007),第647-663页·Zbl 1366.93618号
[11] C.D.Charalambous、I.Tzortzis和T.Charalambos,具有总变分距离不确定性的动态规划,《第51届IEEE决策与控制会议(CDC)会议记录》,IEEE,2012年,第1909-1914页。
[12] C.D.Charalambous、I.Tzortzis、S.Loyka和T.Charalambos,具有总变差距离的极值问题及其应用,IEEE传输。自动化。控制,59(2014),第2353-2368页·Zbl 1360.49015号
[13] T.Cover和J.Thomas,信息论要素John Wiley&Sons,纽约,1991年·Zbl 0762.94001号
[14] N.Dunford和J.Schwartz,线性算子:一般理论《跨科学出版社》,纽约,1958年·Zbl 0084.10402号
[15] P.Dupuis和R.Ellis,大偏差理论的弱收敛方法约翰·威利父子公司,纽约,1997年·Zbl 0904.60001号
[16] A.Gibbs和F.Su,关于概率度量的选择和定界,国际。统计师。第70版(2002年),第419-435页·Zbl 1217.62014年
[17] O.Hernandez-Lerma和J.B.Lasserre,离散时间马尔可夫控制过程:基本最优准则,申请。数学。(纽约)30,Springer-Verlag,纽约,1996年。
[18] M.James、J.Baras和R.Elliot,部分可观测离散时间非线性系统的风险敏感控制和动态对策,IEEE传输。自动化。控制,39(1994),第780-792页·Zbl 0807.93067号
[19] P.R.Kumar和P.Varaiya,随机系统:估计、识别和自适应控制新泽西州上鞍河普伦蒂斯·霍尔出版社,1986年·Zbl 0706.93057号
[20] S.Mannor、O.Mebel和H.Xu,具有(k)-矩形不确定性的稳健MDP,数学。操作。Res.,41(2016),第1484-1509页,https://doi.org/10.1287/moor.2016.0786。 ·Zbl 1349.90833号
[21] I.Petersen、M.James和P.Dupuis,具有相对熵约束的随机不确定系统的Minimax最优控制,IEEE传输。自动化。控制,45(2000),第398-412页·Zbl 0978.93083号
[22] M.L.Puterman,马尔可夫决策过程John Wiley&Sons,纽约,1994年·Zbl 0829.90134号
[23] L.I.Sennott,马尔可夫控制过程平均最优性的另一组条件,《系统控制快报》。,24(1995年),第147-151页·Zbl 0877.93135号
[24] I.Tzortzis、C.D.Charalambous和T.Charalambos,总变差距离模糊的动态规划SIAM J.控制优化。,53(2015),第2040-2075页,https://doi.org/10.1137/10955707。 ·Zbl 1327.90363号
[25] I.Tzortzis、C.D.Charalambous、T.Charalamobus、C.K.Kourtellaris和C.N.Hadjicostis,不确定系统的鲁棒线性二次调节器,《第55届IEEE决策与控制会议(CDC)会议记录》,IEEE,2016年,第1515-1520页。
[26] V.Ugrinovskii和I.Petersen,随机部分观测时变不确定系统的有限时域极小极大最优控制,数学。《控制信号系统》,12(1999),第1-23页·Zbl 0929.93038号
[27] J.H.Van Schuppen,离散时间随机系统的数学控制与系统理论,预印本,2017年。
[28] H.Xu和S.Mannor,分布稳健马尔可夫决策过程,数学。操作。研究,37(2012),第288-300页·Zbl 1243.90236号
[29] I.杨,具有Wasserstein距离的分布鲁棒Markov决策过程的凸优化方法IEEE控制系统。莱特。,1(2017),第164-169页。
[30] P.Yu和H.Xu,马尔可夫决策过程中的分布鲁棒对应,IEEE传输。自动化。控制,61(2016),第2538-2543页·Zbl 1359.90150号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。