×

使用层次张量格式逼近有限时域控制问题的最优反馈控制器。 (英语) Zbl 1491.49021号

概述:常微分方程控制系统在科学和工程中普遍存在。为了找到最优反馈控制器,值函数和相关的基本方程,如Bellman方程和Hamilton-Jacobi-Bellman方程式是必不可少的。由于这些方程的非线性和(可能)高维性,其数值处理带来了巨大的挑战。本文考虑一个具有关联Bellman方程的有限水平控制系统。在时间离散化之后,我们得到了一系列短时域问题,我们称之为局部最优控制问题。为了解决局部最优控制问题,我们采用了两种不同的方法;一个是众所周知的策略迭代,其中每个时间步都需要一个定点迭代。另一种算法借鉴模型预测控制的思想,通过开环控制方法在短时间内解决局部最优控制问题,允许我们用伴随方法代替定点迭代。对于高维系统,我们应用低阶层次张量积近似/基于树的张量格式,特别是张量列和多多项式,以及高维求积,例如蒙特卡罗。我们证明了关于时间离散的线性误差传播,并通过控制带有不稳定反应项的扩散方程和Allen-Cahn方程给出了数值证据。

MSC公司:

49号35 最优反馈综合
49克15 常微分方程问题的最优性条件
15A69号 多线性代数,张量演算
49米41 PDE约束优化(数值方面)

软件:

干燥;阿莱亚
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] C.Atkeson,《使用局部轨迹优化器加速动态规划中的全局优化》,《神经信息处理系统会议论文集》,1994年,第663-663页。
[2] M.Akian和E.Fodjo,解Hamilton-Jacobi-Bellman方程的概率Max-Plus格式,Springer INdAM Ser。,查姆施普林格,2018年,第183-209页·兹比尔1415.65240
[3] A.Alla、M.Falcone和D.Kalise,动态规划方程的有效策略迭代算法,SIAM J.Sci。计算。,37(2015),第A181-A200页·Zbl 1327.65259号
[4] M.Akian、S.Gaubert和A.Lakhoua,求解确定性最优控制问题的max-plus有限元方法的收敛性分析,《IEEE决策与控制会议论文集》,2009年,第927-934页·Zbl 1157.49034号
[5] B.Azmi、D.Kalise和K.Kunisch,通过梯度增强稀疏多项式回归恢复最优反馈律,J.Mach。学习。研究,22(2021),第1-32页·Zbl 07370565号
[6] A.Alla和L.Saluzzi,控制树状结构上非线性偏微分方程的HJB-POD方法,应用。数字。数学。,155(2020),第192-207页·Zbl 1437.49039号
[7] M.Bardi和I.Capuzzo Dolcetta,汉密尔顿-雅可比-贝尔曼方程的最优控制和粘度解,Birkaõuser,Basef,1997·Zbl 0890.49011号
[8] M.Bardi和F.Da Lio,关于一些无界控制问题的Bellman方程,NoDEA非线性微分方程应用。,4(1997年),第491-510页·Zbl 0894.49017号
[9] R.Bellman,《动态编程》,多佛出版社,纽约米尼奥拉,1957年·Zbl 0077.13605号
[10] R.Bellman,《动态编程》,《科学》,153(1966),第34-37页。
[11] M.Bachmayr、R.Schneider和A.Uschmajew,高维偏微分方程解的张量网络和层次张量,Found。计算。数学。,16(2016),第1423-1472页·Zbl 1357.65153号
[12] B.Bouchard和N.Touzi,倒向随机微分方程的离散时间近似和Monte-Carlo模拟,随机过程应用。,111(2004),第175-206页·Zbl 1071.60059号
[13] S.Beeler、H.Tran和H.Banks,非线性系统的反馈控制方法,J.Optim。理论应用。,107(2000),第1-33页·Zbl 0971.49023号
[14] F.Cucker和S.Smale,《学习的数学基础》,布尔。阿默尔。数学。Soc.(N.S.),392001年·Zbl 0983.68162号
[15] A.L.Dontchev、W.W.Hager、A.B.Poore和Bing Yang,非线性控制中的最优性、稳定性和收敛性,应用。数学。最佳。,31(1995),第297-326页·Zbl 0821.49022号
[16] K.Debrabant和E.Jakobsen,线性和完全非线性Hamilton-Jacobi-Bellman方程的半拉格朗日格式,摘自《双曲问题:理论、数值、应用》,Springer,Cham,2014年,第483-490页。
[17] S.Dolgov、D.Kalise和K.K.Kunisch,高维Hamilton-Jacobi-Bellman方程的张量分解方法,SIAM J.Sci。计算。,43(2021),第A1625-A1650页·Zbl 1471.65184号
[18] J.Darbon、G.P.Langlois和T.Meng,通过神经网络架构克服某些Hamilton-Jacobi偏微分方程的维数灾难,Res.Math。科学。,7(2020年),第1-50页·Zbl 1445.35119号
[19] W.E、J.Han和A.Jentzen,基于深度学习的高维抛物型偏微分方程和倒向随机微分方程数值方法,Commun。数学。《统计》,第5卷(2017年),第349-380页·Zbl 1382.65016号
[20] M.Eigel、M.Marschall、M.Pfeffer和R.Schneider,分层张量表示中对数正态系数的自适应随机Galerkin FEM,Numer。数学。,145(2020年),第655-692页·Zbl 1439.65160号
[21] M.Falcone,确定性控制理论的无限视界问题的数值方法,应用。数学。最佳。,15(1987),第1-13页·Zbl 0715.49023号
[22] M.Falcone和R.Ferretti,线性和Hamilton-Jacobi方程的半拉格朗日近似方案,SIAM,费城,2013年·Zbl 1335.65001号
[23] M.Falcone、P.Lanucara和A.Seghini,Hamilton-Jacobi-Bellman方程的分裂算法,应用。数字。数学。,15(1994年),第207-218页·Zbl 0812.65050号
[24] K.Fackeldey、M.Oster、L.Sallandt和R.Schneider,使用张量序列格式的随机微分方程驱动的退出时间反馈控制问题的近似策略迭代,多尺度模型。Simul,20(2022),第379-403页·Zbl 1492.93196号
[25] L.Grasedyck和S.Kra¨mer,等级自适应张量补全的TT格式中的稳定ALS近似,Numer。数学。,143(2019),第855-904页·Zbl 1437.65031号
[26] A.Gorodetsky、S.Karaman和Y.Marzouk,张量-应变分解的连续模拟,计算。方法应用。机械。工程,347(2019),第59-84页·Zbl 1440.65054号
[27] A.Gorodetsky,S.Karaman和Y.Marzouk,使用连续张量分解的高维随机最优控制,Inter。J.机器人。第37号决议(2018年),第340-377页。
[28] E.Gobet、J.Lemor和X.Warin,基于回归的蒙特卡罗方法求解倒向随机微分方程,Ann.Appl。概率。,15(2005),第2172-2202页·Zbl 1083.60047号
[29] L.Gruíne和J.Pannek,《非线性模型预测控制》,摘自《非线性模型预估控制》,施普林格,查姆,2017年,第45-69页·Zbl 1429.93003号
[30] C.Garcia、D.Prett和M.Morari,《模型预测控制:理论与实践——调查》,《自动化》,25(1989),第335-348页·Zbl 0685.93029号
[31] W.Hackbusch,数值张量微积分,数值学报。,23(2014年),第651-742页·Zbl 1396.65091号
[32] A.Horowitz、M.Damle和J.Burdick,高维线性Hamilton-Jacobi-Bellman方程,《第53届IEEE决策与控制会议论文集》,IEEE,2014年,第5880-5887页。
[33] 何春芳,张明明,刘凤,丁忠,一类非线性系统的自适应最优控制:在线策略迭代方法,IEEE Trans。神经网络。学习。系统。,31(2020年),第549-558页。
[34] W.Hackbusch和S.Kuöhn,张量表示的新格式,J.Fourier Ana。申请。,15(2009年),第706-722页·Zbl 1188.15022号
[35] R.Herzog和K.Kunisch,PDE约束优化算法,GAMM-Mitt。,33(2010年),第163-176页·Zbl 1207.49034号
[36] R.Howard,《动态规划和马尔可夫过程》,John Wiley,纽约,1960年·Zbl 0091.16001号
[37] S.Holtz、T.Rohwedder和R.Schneider,张量列格式张量优化的交替线性方案,SIAM J.Sci。计算。,34(2012),第A683-A713页·Zbl 1252.15031号
[38] S.Holtz、T.Rohwedder和R.Schneider,关于固定TT-rank张量的流形,Numer。数学。,120(2012),第701-731页·Zbl 1242.15022号
[39] W.Hackbusch和R.Schneider,张量空间和层次张量表示,Springer,Cham,2014年·Zbl 1317.65102号
[40] B.Huber和S.Wolf,Xerus-通用Tensor图书馆,2014-2017年,https://libxerus.org/。
[41] K.Ito、C.Reisinger和Y.Zhang,一种基于神经网络的策略迭代算法,用于域上随机博弈,具有全局超线性收敛性。计算。数学。,2020年,第1-44页。
[42] B.Kafash、A.Delavarkhalafi和S.M.Karbassi,Hamilton-Jacobi-Bellman变分迭代方法的应用,Appl。数学。型号。,37(2013),第3917-3928页·Zbl 1270.49004号
[43] D.Kalise和K.Kunisch,高维Hamilton-Jacobi-Bellman方程的多项式逼近及其在半线性抛物型偏微分方程反馈控制中的应用,SIAM J.Sci。计算。,40(2018年),第A629-A652页·兹比尔1385.49022
[44] D.Kleinman,稳定线性常数系统的简单方法,IEEE Trans。自动化。控制,15(1970),第692-692页。
[45] W.Kang和L.Wilcox,缓解维数灾难:最优反馈控制和HJB方程的稀疏网格特征法,计算。最佳方案。申请。,68(2017),第289-315页·Zbl 1383.49045号
[46] J.Landsberg,《张量:几何学和应用》,代表。理论,381(2012),3·Zbl 1238.15013号
[47] J.Lawton和R.W.Beard,Hamilton-Jacobi-Bellman方程的数值有效近似,《1998年美国控制会议论文集》,1998年,第195-199页。
[48] B.Luo,H.-N.Wu,T.Huang,D.Liu,仿射非线性连续时间最优控制设计的基于数据的近似策略迭代,Automatica,50(2014),第3281-3290页·Zbl 1309.93188号
[49] N.Nuísken和L.Richter,使用神经网络求解高维Hamilton-Jacobi-Bellman偏微分方程:从控制扩散理论和路径空间测度的观点,偏微分方程应用。,2 (2021), 48. ·Zbl 1480.35101号
[50] T.Nakamura-Zimmerer、Q.Gong和W.Kang,高维Hamilton-Jacobi-Bellman方程的自适应深度学习,SIAM J.Sci。计算。,43(2021),第A1221-A1247页·Zbl 1467.49028号
[51] I.Oseledets,张量-应变分解,SIAM J.Sci。计算。,33(2011年),第2295-2317页·Zbl 1232.15018号
[52] M.Oster,L.Sallandt,and R.Schneider,《用层次张量积逼近定态Hamilton-Jacobi-Bellman方程》,预印本,arXiv:1911.00279[math.oc],2019年。
[53] I.Oseledets和E.Tyrtyshnikov,《打破维度诅咒,或如何在多个维度中使用SVD》,SIAM J.Sci。计算。,31 (2009), 3744-3759. ·兹比尔1200.65028
[54] I.Oseledets和E.Tyrtyshnikov,多维数组的TT交叉逼近,线性代数应用。,432(2010),第70-88页·Zbl 1183.65040号
[55] H.Pham,《随机控制及其应用的一些最新方面》,Probab。调查。,2(2005年),第506-549页·Zbl 1189.93146号
[56] M.Puterman和S.Brumelle,关于平稳动态规划中策略迭代的收敛性,数学。操作。Res.,4(1979),第60-69页·Zbl 0411.90072号
[57] L.Pontryagin、V.Boltyanskii、R.Gamkrelidze和E.Mishchenko,《优化过程的数学理论》,威利,纽约,1962年·Zbl 0102.32001号
[58] S.Pakkhesal和S.Shamahdari,多项式时变系统次优控制的基于平方和的策略迭代,亚洲控制杂志,正在出版中。
[59] S.Qin和T.Badgwell,工业模型预测控制技术综述,控制工程实践。,11(2003年),第733-764页。
[60] M.Raissi、P.Perdikaris和G.E.Karniadakis,《以物理为基础的神经网络:解决涉及非线性偏微分方程的正问题和逆问题的深度学习框架》,J.Compute。物理。,378(2019),第686-707页·Zbl 1415.68175号
[61] L.Richter,L.Sallandt,and N.Nu¨sken,使用张量列格式求解高维抛物线偏微分方程,预印本,arXiv:2102.11830[stat.ML],2021。
[62] I.Steinwart和A.Christmann,支持向量机,施普林格商会,2008年·兹比尔1203.68171
[63] G.N.Saridis和C.S.G.Lee,可训练机械手的最优控制近似,《1977年IEEE决策与控制会议论文集》,包括第16届自适应过程研讨会和模糊集理论与应用专题研讨会,1977年,第749-754页。
[64] E.Stefansson和Y.Leong,用于求解高维线性Hamilton-Jacobi-Bellman方程的序贯交替最小二乘法,《2016年IEEE/RSJ智能机器人与系统国际会议(IROS)论文集》,2016年,第3757-3764页。
[65] S.Szalay、M.Pfeffer、V.Murg、G.Barcza、F.Verstraete、R.Schneider和O¨。Legeza,从头算量子化学中的张量积方法和纠缠优化,国际量子化学杂志。,115(2015),第1342-1391页。
[66] W.Sickel和T.Ullrich,Sobolev-Besov空间的张量积及其在双曲交叉近似中的应用,《J近似理论》,161(2009),第748-786页·Zbl 1194.46056号
[67] Ad.Tahirovic和A.Astolfi,基于线性策略迭代的连续非线性系统的最优控制,载于2019年IEEE第58届决策与控制会议(CDC),2019年,第5238-5243页。
[68] D.Tonon、M.Aronna和D.Kalise,《最优控制:新方向和应用》,Springer,Cham,2017年·Zbl 1378.49001号
[69] V.Vapnik,学习理论风险最小化原则,《神经信息处理系统会议记录》,1992年,第831-838页。
[70] N.Yazdani、R.Moghaddam、B.Kiumarsi和H.Modares,约束非线性系统控制的安全认证策略迭代算法,IEEE控制系统。莱特。,4(2020年),第686-691页。
[71] M.Zhou、J.Han和J.Lu,基于神经网络的高维静态Hamilton-Jacobi-Bellman偏微分方程的Actor-critic方法,SIAM J.Sci。计算。,43(2021年),第A4043-4066页·Zbl 1481.65203号
[72] M.Zhong、M.Johnson、Y.Tassa、T.Erez和E.Todorov,值函数近似和模型预测控制,摘自2013年IEEE自适应动态规划和强化学习(ADPRL)研讨会论文集,IEEE,2013年,第100-107页。
[73] Z.Zhao,Y.Yang,H.Li,D.Liu,带策略迭代的近似有限时域最优控制,《第33届中国控制会议论文集》,2014年,第8895-8900页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。