×

求解有限时域控制问题的树结构算法的误差估计。 (英语) Zbl 1503.49025号

摘要:在最优控制问题的动态规划方法中,值函数起着至关重要的作用,它被表征为Hamilton-Jacobi-Bellman(HJB)方程的唯一粘性解。众所周知,这种方法受到“维数灾难”的影响,这种限制减少了它在实际应用中的使用。在这里,我们分析了一种基于树结构的动态规划算法,以缓解“维数灾难”。该树是通过离散时间动力学建立的,避免了使用固定空间网格,这是高维问题的瓶颈,这也降低了值函数逼近时网格上的投影。在这项工作中,我们提出了基于树结构算法的值函数逼近的一阶误差估计。该估计结果与用于动力学近似的数值方法具有相同的收敛阶。此外,我们还分析了一种对树进行修剪的技术,以减少复杂度和计算量。最后,我们给出了一些数值试验来证明理论结果。

MSC公司:

49升20 最优控制与微分对策中的动态规划
49甲15 常微分方程最优控制问题的存在性理论
49J20型 偏微分方程最优控制问题的存在性理论
93B52号 反馈控制
35层21 哈密尔顿-雅可比方程
90立方厘米 动态编程
35D40型 偏微分方程的粘度解决方案
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Akian、S.Gaubert和A.Lakhoua,求解确定性最优控制问题的max-plus有限元方法:基本性质和收敛性分析。SIAM J.控制优化。47 (2008) 817-848. ·Zbl 1157.49034号 ·doi:10.1137/060655286
[2] A.Alla、M.Falcone和D.Kalise,动态规划方程的有效策略迭代算法。SIAM J.科学。计算。37 (2015) 181-200. ·Zbl 1327.65259号
[3] A.Alla、M.Falcone和L.Saluzzi,有限时域最优控制问题的树结构高效DP算法。SIAM J.科学。计算。41(2019)A2384-A2406·Zbl 1423.49024号 ·doi:10.1137/18M1203900
[4] A.Alla、M.Falcone和L.Saluzzi,通过树结构算法实现有限时域控制问题的高阶近似。IFAC-PapersOnLine 52(2019)19-24·Zbl 1423.49024号 ·doi:10.1016/j.ifacol.2019.08.004
[5] A.Alla、M.Falcone和L.Saluzzi,状态约束最优控制问题的树结构算法。伦德。马特马特。苏·阿普利克。41 (2020) 193-221. ·Zbl 1454.65055号
[6] A.Alla、M.Falcone和S.Volkwein,通过动态规划方法对无限时域问题的POD近似进行误差分析。SIAM J.控制优化。55 (2017) 3091-3115. ·Zbl 1378.49025号 ·数字对象标识代码:10.1137/15M1039596
[7] A.Alla和L.Saluzzi,用于控制树结构上的非线性偏微分方程的HJB-POD方法。申请。数字。数学。155 (2020) 192-207. ·Zbl 1437.49039号 ·doi:10.1016/j.apnum.2019.11.023
[8] A.Alla和L.Saluzzi,树结构最优控制问题的反馈重建技术,预印arXiv:2210.02375(2022)·Zbl 1437.49039号
[9] M.Assellau,O.Bokanowski和A.Desilles,H.Zidani,状态约束下最大运行成本控制问题的价值函数和最优轨迹。应用于中止着陆问题。ESAIM:数学。模型。数字。分析52(2018)305-335·Zbl 1397.49038号 ·doi:10.1051/m2安/2017064
[10] A.Bachouch,C.Huré,N.Langrené和H.Pham,有限热点随机控制问题的深度神经网络算法:数值应用。卫理公会。计算。申请。普罗巴伯。24 (2022) 143-178. ·Zbl 1496.93112号 ·doi:10.1007/s11009-019-09767-9
[11] M.Bardi和I.Capuzzo-Dolectta,Hamilton-Jacobi-Bellman方程的最优控制和粘度解。Birkhäuser,巴塞尔(1997年)·Zbl 0890.49011号
[12] R.Bellman,《动态规划》。普林斯顿大学出版社,新泽西州普林斯顿(1957)·Zbl 0077.13605号
[13] P.Benner、Z.Bujanović、P.Kürschner和J.Saak,大型连续时间代数Riccati方程和LQR问题不同解的数值比较。SIAM J.科学。计算。42(2020)A957-A996·Zbl 1437.65021号 ·doi:10.1137/18M1220960
[14] D.Bini,B.Iannazzo和B.Meini,代数Riccati方程的数值解,Fundam。算法,SIAM,费城(2012)·Zbl 1244.65058号
[15] S.Cacase、E.Cristiani、M.Falcone和A.Picarelli,一类Hamilton-Jacobi-Bellman方程的补丁动态规划方案。SIAM J.科学。计算。34(2012)A2625-A2649·Zbl 1259.65097号 ·数字对象标识代码:10.1137/10841576
[16] P.Cannarsa和C.Sinestari,半凹函数,Hamilton-Jacobi方程和最优控制问题。Birkhäuser Boston(2004年)·Zbl 1095.49003号 ·doi:10.1007/b138356
[17] I.Capuzzo Dolcetta,关于动态规划的Hamilton-Jacobi方程的离散近似。申请。数学。最佳方案。10 (1983) 367-377. ·Zbl 0582.49019号 ·doi:10.1007/BF01448394
[18] I.Capuzzo Dolcetta和H.Ishii,确定性控制理论中Bellman方程的近似解。申请。数学。最佳方案。11(1984)161-181·Zbl 0553.49024号 ·doi:10.1007/BF01442176
[19] J.Darbon和S.Osher,分裂可以克服维度的诅咒。通信、成像、科学和工程中的分裂方法,科学。计算。,查姆施普林格(2016)427-432·Zbl 1372.65190号
[20] J.Darbon和S.Osher,控制理论和其他领域中出现的某些Hamilton-Jacobi方程克服维数灾难的算法。Res.数学。科学。3 (2016) 19-26. ·Zbl 1348.49026号 ·doi:10.1186/s40687-016-0068-7
[21] S.Dolgov,D.Kalise和K.Kunisch,高维Hamilton-Jacobi-Bellman方程的张量分解。SIAM J.科学。计算。43(2021)A1625-A1650·Zbl 1471.65184号 ·doi:10.1137/19M1305136
[22] S.Dolgov、D.Kalise和L.Saluzzi,Hamilton-Jacobi-Bellman方程的数据驱动张量列梯度交叉近似。预印arXiv:2205.05109(2022)。
[23] M.Falcone,确定性控制理论无限时域问题的数值方法,应用。数学。最佳方案。15 (1987) 1-13. ·Zbl 0715.49023号 ·doi:10.1007/BF01442644
[24] M.Falcone和R.Ferretti,Hamilton-Jacobi-Bellman方程粘性解的离散时间高阶格式。数字。数学。67 (1994) 315-344. ·Zbl 0791.65046号 ·doi:10.1007/s002110050031
[25] M.Falcone和R.Ferretti,线性和Hamilton-Jacobi方程的半拉格朗日近似方案。SIAM(2013)·Zbl 1335.65001号
[26] M.Falcone和T.Giorgi,演化Hamilton-Jacobi方程的近似方案,载于W.M.McEneaney、G.Yin和Q.Zhang(编辑),“随机分析、控制、优化和应用:纪念W.H.Fleming的一卷”。Birkhaäuser(1999)289-303·Zbl 0931.65067号
[27] M.Falcone、P.Lanucara和A.Seghini,Hamilton-Jacobi-Bellman方程的分裂算法。申请。数字。数学。15 (1994) 207-218. ·Zbl 0812.65050号 ·doi:10.1016/0168-9274(94)00017-4
[28] A.Festa,基于区域分解的并行Howard算法。数学。计算。模拟。147 (2018) 121-139. ·Zbl 07316204号 ·doi:10.1016/j.matcom.2017.04.008
[29] W.H.Fleming和H.M.Soner,受控马尔可夫过程和粘度解。Springer-Verlag,纽约(1993年)·Zbl 0773.60070号
[30] J.Garcke和A.Kröner,通过在自适应稀疏网格上求解HJB方程实现PDE的次优反馈控制。科学杂志。计算。70(2017)1-28·Zbl 1434.49020号 ·doi:10.1007/s10915-016-0240-7
[31] L.Grüne和J.Pannek,非线性模型预测控制。施普林格(2011)·Zbl 1220.93001号 ·doi:10.1007/978-0-85729-501-9
[32] L.Grüne,动态规划,最优控制和模型预测控制。模型预测控制手册。控制工程,Birkhäuser/Springer,Cham(2019),第29-52页。
[33] J.Han、A.Jentzen和E.Weinan,使用深度学习求解高维偏微分方程。程序。国家。阿卡德。科学。美国115(2018)8505-8510·Zbl 1416.35137号 ·doi:10.1073/pnas.1718942115
[34] M.Hinze、R.Pinnau、M.Ulbrich和S.Ulbich,《PDE约束优化》第23卷。数学建模:理论与应用。Springer-Verlag(2009)·Zbl 1167.49001号
[35] C.Huré,H.Pham,A.Bachouch和N.Langrené,有限水平随机控制问题的深度神经网络算法:收敛分析。信诺59(2021)525-557·Zbl 1466.65007号 ·doi:10.1137/20M1316640
[36] D.Kalise和K.Kunisch,高维Hamilton-Jacobi-Bellman方程的多项式逼近及其在半线性抛物偏微分方程反馈控制中的应用。SIAM J.科学。计算。40(2018)A629-A652·Zbl 1385.49022号 ·doi:10.1137/17M1116635
[37] K.Kunisch,S.Volkwein和L.Xie,基于HJB-POD的进化问题最优控制反馈设计。SIAM J.应用。动态。系统。4 (2004) 701-722. ·Zbl 1058.35061号 ·doi:10.1137/030600485
[38] R.J.Leveque,常微分方程和偏微分方程的有限差分方法:稳态和时间相关问题。SIAM图书(2007)·Zbl 1127.65080号 ·数字对象标识代码:10.1137/1.9780898717839
[39] W.M.McEneaney,Hamilton-Jacobi-Bellman偏微分方程无诅咒维数方法的收敛速度,表示为二次型的极大值。SIAM J.控制优化。48 (2009) 2651-2685. ·Zbl 1203.49039号 ·doi:10.1137/070687980
[40] W.M.McEneaney,一种求解某些HJB偏微分方程的无诅咒维数值方法。SIAM J.控制优化。46 (2007) 1239-1276. ·兹比尔1251.65168 ·doi:10.1137/040610830
[41] C.Navasca和A.J.Krener,Hamilton-Jacobi-Bellman偏微分方程的Patchy解,载于A.Chiuso等人(编辑),《建模、估计和控制》第364卷,《控制和信息科学讲义》(2007年),第251-270页·Zbl 1354.93071号
[42] S.Osher和R.Fedkiw,水平集方法和动态隐式曲面。斯普林格(2003)·Zbl 1026.76001号 ·doi:10.1007/b98879
[43] L.Saluzzi,通过动态规划解决最优控制问题的树结构算法,Gran Sasso科学研究所博士论文(2020年)https://iris.gssi.it/handle/20.500.12571/10021。 ·兹比尔1437.49039
[44] J.A.Sethian,水平设置方法和快速行进方法。剑桥大学出版社(1999)·Zbl 0929.65066号
[45] V.Simoncini,大型代数Riccati方程的有理Krylov子空间投影方法分析。SIAM J.矩阵分析。申请。37 (2016) 1655-1674. ·Zbl 06655499号 ·doi:10.1137/16M1059382
[46] V.Simoncini、D.B.Szyld和M.Monsalve,关于求解大规模代数Riccati方程的两种数值方法。IMA J.数字。分析。34 (2014) 904-920. ·Zbl 1298.65083号 ·doi:10.1093/imanum/drt015
[47] S.Volkwein,《使用适当正交分解进行模型简化》,康斯坦茨大学讲稿(2013)。
[48] I.Yegorov、P.M.Dower和L.Grüne,一种基于特征的无维数诅咒方法,用于逼近控制Lyapunov函数和反馈稳定。第23届网络与系统数学理论国际研讨会论文集香港科技大学,香港,2018年7月16-20日,342-349。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。