×

Hermite核替代了高维非线性最优控制问题的值函数。 (英语) Zbl 07845581号

摘要:高维动力系统最优反馈控制的数值方法通常受到维数灾难的影响。在当前的演示中,我们为最优控制问题的值函数设计了一种无网格的基于数据的近似方法,该方法部分缓解了维数问题。该方法基于贪婪的Hermite核插值方案,通过其结构结合了上下文知识。特别是,在目标状态下,值函数代理被优雅地强制为0,非负,并被构造为线性化模型的校正。该算法允许以无矩阵的方式进行公式化,从而确保对代理进行有效的离线和在线评估,从而避免了多元Hermite插值的大矩阵问题。此外,在代理项的离线生成中使用了增量Cholesky因子分解。对于有限时间范围,证明了代理项对值函数的收敛性,以及代理项对最优受控动力系统的收敛性。实验证明了该方案的有效性,其中使用了一个新的具有明确给定值函数的理论模型。这也可能有助于社区验证其他最优控制方法。

MSC公司:

30立方厘米 一个复变量的核函数及其应用
49号35 最优反馈综合
93B52号 反馈控制
93立方厘米 由常微分方程控制的控制/观测系统
93立方厘米 控制理论中的非线性系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Sethi,S.P.:最优控制理论:在管理科学和经济学中的应用。施普林格(2021)。doi:10.1007/978-3-030-91745-6·Zbl 1487.49001号
[2] 德米特鲁克,AV;库兹基纳,NV,无限时间区间上最优控制问题的存在性定理,数学。注释,78,3466-4802005·Zbl 1151.49302号 ·文件编号:10.1007/s11006-005-0147-3
[3] Bellman,R.E.:自适应控制过程:导游。普林斯顿大学出版社(1961)·兹伯利0103.12901
[4] Falcone,M.,Ferretti,R.:线性方程和Hamilton-Jacobi方程的半拉格朗日近似方案。工业和应用数学学会,宾夕法尼亚州费城(2013)。doi:10.1137/1.9781611973051·Zbl 1335.65001号
[5] Bokanowski,O。;Garcke,J。;格里贝尔,M。;Klompmaker,I.,一阶Hamilton-Jacobi-Bellman方程的自适应稀疏网格半拉格朗日格式,J.Sci。计算。,55, 3, 575-605, 2013 ·Zbl 1269.65076号 ·数字对象标识代码:10.1007/s10915-012-9648-x
[6] Alla,A。;Falcone,M。;Saluzzi,L.,有限时域最优控制问题的树结构上的高效DP算法,SIAM J.Sci。计算。,41, 4, 2384-2406, 2019 ·兹比尔1423.49024 ·doi:10.1137/18M1203900
[7] Alla,A。;法尔科内,M。;Saluzzi,L.,状态约束最优控制问题的树结构算法,Rendiconti di Matematica e delle sue Applicazioni,5,193-2212020·Zbl 1454.65055号
[8] Alla,A.,Saluzzi,L.:一种用于控制树结构上非线性偏微分方程的HJB-POD方法。应用数值数学155(2019)。doi:10.1016/j.apnum.2019.11.023·Zbl 1437.49039号
[9] Bellman,R.,《马尔科夫决策过程》,《数学与力学杂志》,6,5,679-6841957·Zbl 0078.34101号
[10] Falcone,M.,确定性控制理论无限时域问题的数值方法,应用。数学。最佳。,15, 1, 1-13, 1987 ·Zbl 0715.49023号 ·doi:10.1007/BF01442644
[11] Alla,A.、Oliveira,H.、Santin,G.:基于HJB-RBF的PDE控制方法。科学杂志。计算。96(1) (2023). 数字对象标识代码:10.1007/s10915-023-02208-3·Zbl 1517.49016号
[12] Heydari,A.,《重新审视近似动态规划及其收敛性》,IEEE Trans。赛博。,44, 12, 2733-2743, 2014 ·doi:10.1109/TCYB.2014.2314612
[13] Kamalapurkar,R.,Walters,P.,Rosenfeld,J.,Dixon,W.:最优反馈控制的强化学习:基于Lyapunov的方法(通信和控制工程)。斯普林格(2018)。3319783831 ·Zbl 1403.49001号
[14] Bellman,R.E.:动态编程。普林斯顿大学出版社(1957)·Zbl 0077.13605号
[15] Kalise,D。;Kunisch,K.,高维Hamilton-Jacobi-Bellman方程的多项式逼近及其在双线性抛物型偏微分方程反馈控制中的应用,SIAM J.Sci。计算。,40, 2, 629-652, 2018 ·Zbl 1385.49022号 ·doi:10.1137/17M1116635
[16] Kalise,D。;昆都,S。;Kunisch,K.,通过高维Hamilton-Jacobi-Isaacs方程的数值逼近实现非线性偏微分方程的鲁棒反馈控制,SIAM J.Appl。动态。系统。,19, 2, 1496-1524, 2020 ·Zbl 1443.49041号 ·doi:10.137/19M1262139
[17] 多尔戈夫,S。;Kalise,D。;Kunisch,K.,高维Hamilton-Jacobi-Bellman方程的张量分解方法,SIAM J.Sci。计算。,43, 3, 1625-1650, 2021 ·Zbl 1471.65184号 ·doi:10.1137/19M1305136
[18] Alla,A。;Haasdonk,B。;Schmidt,A.,通过模型降阶和动态规划原理对参数化PDE进行反馈控制,高级计算。数学。,46, 1, 9, 2020 ·Zbl 1441.49031号 ·doi:10.1007/s10444-020-09744-8
[19] 奥斯特,M。;Sallandt,L。;Schneider,R.,使用层次张量格式逼近有限时域控制问题的最优反馈控制器,SIAM J.Sci。计算。,44, 3, 746-770, 2022 ·Zbl 1491.49021号 ·doi:10.1137/21m1412190
[20] Eigel,M.,Schneider,R.,Sommer,D.:哈密尔顿-雅可比-贝尔曼方程解的动态低阶近似。数线性代数应用。30(3) (2022). doi:10.1002/nla.2463·Zbl 07729585号
[21] Saridis,GN;Lee,CG,可训练机械手最优控制的近似理论,IEEE Trans。系统。人类网络。,9, 3, 152-159, 1979 ·Zbl 0398.49001号 ·doi:10.1109/TSMC.1979.4310171
[22] Alla,A。;法尔科内,M。;Kalise,D.,动态规划方程的有效策略迭代算法,SIAM J.Sci。计算。,37, 1, 181-200, 2015 ·Zbl 1327.65259号 ·doi:10.1137/130932284
[23] Grüne,L。;Pannek,J.,非线性模型预测控制:理论与算法,2011,通信与控制工程:斯普林格,通信与控制工程·Zbl 1220.93001号 ·doi:10.1007/978-0-85729-501-9
[24] Freeman,R.A.,Kokotovic,P.V.:反馈线性化系统的最佳非线性控制器。见:《美国管制会议记录》,第4卷,第2722-2726页(1995年)。电气与电子工程师学会公司
[25] 施密特,A。;Haasdonk,B.,大尺度参数代数Riccati方程的约化基近似,ESAIM:控制优化。微积分变化,2018年第24、1、129-151页·兹比尔1396.49030
[26] Breiten,T。;Kunisch,K。;Pfeiffer,L.,与双线性最优控制问题相关的值函数的Taylor展开,亨利·庞加莱学院年鉴,非线性分析,36,5,1361-13992019·Zbl 1420.49005号 ·doi:10.1016/j.anihpc.2019.01.001
[27] 乔伊门,T.:状态相关Riccati方程(SDRE)控制:一项调查。IFAC程序。第41卷(2),3761-3775页(2008年)。doi:10.3182/20080706-5-KR-1001.00635。第17届IFAC世界大会
[28] 阿尔比·G。;比西戈,S。;Kalise,D.,使用状态相关Riccati方程的最优反馈律的梯度增强监督学习,IEEE控制系统。莱特。,6, 836-841, 2022 ·doi:10.1109/LCSYS.2021.3086697
[29] Kunisch,K.,Walter,D.:通过值函数近似实现动力系统的最优反馈控制(2023)。doi:10.48550/ARXIV.2302.13122
[30] Kunisch,K.,Walter,D.:通过深度神经网络近似实现自治系统的半全局最优反馈镇定。ESAIM:控制优化。微积分变量27,16。doi:10.1051/cocv/202109·Zbl 1511.49021号
[31] Kunisch,K.,Vásquez-Varas,D.:有限时域控制问题的最优多项式反馈律(2023)。doi:10.48550/ARXIV.2302.09878
[32] Kunisch,K.,Vásquez-Varas,D.,Walter,D.:学习最优反馈算子及其多项式近似(2022)。doi:10.48550/ARXIV.2208.14120
[33] Rao,AV,优化控制数值方法综述,高级宇航员。科学。,135, 1, 497-528, 2009
[34] Pontryagin,L.S.、Boltyanskii,V.G.、Gamkrelidze,R.V.、Mishchenko,E.F.:优化过程的数学理论。跨科学(1962)·Zbl 0102.32001号
[35] Nakamura-Zimmerer,T。;龚,Q。;Kang,W.,高维Hamilton-Jacobi-Bellman方程的自适应深度学习,SIAM J.Sci。计算。,43, 2, 1221-1247, 2021 ·Zbl 1467.49028号 ·doi:10.1137/19M1288802
[36] 阿兹米,B。;Kalise,D。;Kunisch,K.,通过梯度增强稀疏多项式回归恢复最优反馈律,J.Mach。学习。2021年第22、48、1-32号决议·兹伯利07370565
[37] Kang,W。;Wilcox,LC,《减轻维数灾难:最优反馈控制和HJB方程的稀疏网格特征法》,计算。最佳方案。申请。,68, 2, 289-315, 2017 ·Zbl 1383.49045号 ·doi:10.1007/s10589-017-9910-0
[38] Schmidt,A.,Haasdonk,B.:值函数的数据驱动代理及其在动态系统反馈控制中的应用。IFAC论文在线51(2),307-312(2018)。第九届维也纳国际数学建模会议
[39] Ehring,T.,Haasdonk,B.:通过内核代理对耦合软组织系统进行反馈控制。参见:《2021年夫妻诉讼》。《百科全书》(2021)。doi:10.23967/coubled.2021.026
[40] Ehring,T.,Haasdonk,B.:贪婪采样和逼近,用于实现高维非线性系统的反馈控制。IFAC论文在线55(20),325-330(2022)。doi:10.1016/j.ifacol.2022.09.116。2022年第十届维也纳国际数学建模会议
[41] 维茨,D。;Haasdonk,B.,向量核正交贪婪算法,Dolomites Res.Note近似,683-1002013
[42] Wenzel,T.、Santin,G.、Haasdonk,B.:目标数据相关贪婪核算法的分析:f-、f-和f/P-贪婪的收敛速度。构造近似,1-30(2022)
[43] 巴迪,M。;Capuzzo-Dolcetta,I.,Hamilton-Jacobi-Bellman方程的最优控制和粘度解,2008,Birkhäuser Boston:Modern Birkháuser Classics,Birkh-user Boton·Zbl 1134.49022号
[44] Benveniste,LM;Scheinkman,JA,《论经济动态模型中价值函数的可微性》,《计量经济学》,47,3,727-7321979年·Zbl 0435.90031号 ·doi:10.2307/1910417
[45] Aseev,SM;Veliov,VM,经济学中无限小时最优控制问题最大值原理的另一种观点,Russ.Math。调查。,74, 6, 963, 2019 ·Zbl 1480.49022号 ·doi:10.1070/RM9915
[46] Michel,P.:关于无限时域优化问题中的横向条件。《计量经济学:计量经济学社会杂志》,975-985(1982)·Zbl 0483.90026号
[47] Seierstad,A.,Sydsaeter,K.:最优控制理论中的充分条件。《国际经济评论》18(2),367。doi:10.307/2525753·Zbl 0392.49010号
[48] Fahroo,F。;Ross,IM,无限大非线性最优控制问题的伪谱方法,J.Guid。控制。动态。,31, 4, 927-936, 2008 ·数字对象标识代码:10.2514/1.33117
[49] 加格,D。;黑格,WW;Rao,AV,解决无限小时最优控制问题的伪谱方法,Automatica,47,4,829-8372011·Zbl 1215.49040号 ·doi:10.1016/j.automatica.2011.01.085
[50] De Marchi,S。;沙巴克,R。;Wendland,H.,径向基函数插值的近最优数据相关点位置,高级计算。数学。,23, 317-330, 2005 ·Zbl 1070.65008号 ·doi:10.1007/s10444-004-1829-1
[51] Wendland,H.:分散数据近似第17卷。剑桥大学出版社(2004)
[52] Sontag,E.D.:《数学控制理论:确定性有限维系统》第6卷。施普林格(2013)
[53] Kirszbraun,M.,Un ber die zusammenziehende und Lipschitzsche Transformationen,Fundam。数学。,22, 1, 77-108, 1934 ·doi:10.4064/fm-22-1-77-108
[54] Gronwall,T.H.:关于微分方程组解的参数导数的注释。数学年鉴,292-296(1919)
[55] Khalil,H.:非线性系统:Pearson New,第3卷,国际Pearson教育有限公司,Harlow(2013)
[56] Gilding,B.H.,Kersner,R.:非线性扩散-对流反应中的行波,第60卷。斯普林格(2004)·Zbl 1073.35002号
[57] Alla,A。;Kalise,D。;Simoncini,V.,非线性偏微分方程的状态相关Riccati方程反馈镇定,高级计算。数学。,49, 1, 9, 2023 ·Zbl 1516.93203号 ·doi:10.1007/s10444-022-09998-4
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。