×

高维Hamilton-Jacobi-Bellman方程的自适应深度学习。 (英语) Zbl 1467.49028号

摘要:计算非线性系统的最优反馈控制通常需要求解Hamilton-Jacobi-Bellman(HJB)方程,当状态维数较大时,这是众所周知的困难。现有的高维问题策略通常依赖于特定的,限制性问题结构或仅在某些标称轨迹附近局部有效。本文提出了一种数据驱动的方法来逼近一般高维非线性系统HJB方程的半全局解,并实时计算候选最优反馈控制。为了实现这一点,我们使用神经网络(NN)对HJB方程的解进行建模,神经网络是在不离散状态空间的情况下生成的数据进行训练的。通过利用问题的已知物理特性并使用部分训练的神经网络来辅助自适应数据生成,训练变得更加有效和数据效率更高。我们通过学习与六维非线性刚体姿态控制相对应的HJB方程的解,以及由Burgers型偏微分方程的镇定引起的尺寸达30的非线性系统,证明了我们方法的有效性。然后将训练好的神经网络用于这些系统的实时反馈控制。

MSC公司:

49号35 最优反馈综合
49公里15 常微分方程问题的最优性条件
49升20 最优控制与微分对策中的动态规划
68T05型 人工智能中的学习和自适应系统
90立方 非线性规划
93立方厘米 由常微分方程控制的控制/观测系统
93C20美元 偏微分方程控制/观测系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Abadi、A.Agarwal、P.Barham等人,《TensorFlow:异构系统上的大规模机器学习》,https://arxiv.org/abs/1603.04467, 2016.
[2] M.Abu-Khalaf和F.L.Lewis,使用神经网络HJB方法的饱和执行器非线性系统的近似最优控制律,Automatica J.IFAC,41(2005),第779-791页,https://doi.org/10.1016/j.automatica.2004.11.034。 ·Zbl 1087.49022号
[3] E.Al'brekht,《关于非线性系统的最优镇定》,J.Appl。数学。机械。,25(1961年),第1254-1266页,https://doi.org/10.1016/0021-8928(61)90005-3. ·Zbl 0108.10503号
[4] A.Bachouch、C.Hureí、N.Langreneí和H.Pham,有限水平随机控制问题的深度神经网络算法:数值应用,https://arxiv.org/abs/1812.05916, 2018. ·Zbl 1466.65007号
[5] O.Bokanowski、J.Garcke、M.Griebel和I.Klompmaker,一阶Hamilton-Jacobi-Bellman方程的自适应稀疏网格半拉格朗日格式,科学杂志。计算。,55(2013),第575-605页,https://doi.org/10.1007/s10915-012-9648-x。 ·兹比尔1269.65076
[6] L.Bottou、F.E.Curtis和J.Nocedal,《大规模机器学习的优化方法》,SIAM Rev.,60(2018),第223-311页,https://doi.org/10.1137/16M1080173。 ·Zbl 1397.65085号
[7] R.H.Byrd、G.M.Chin、J.Nocedal和Y.Wu,机器学习优化方法中的样本大小选择,数学。程序。,134(2012),第127-155页,https://doi.org/10.1007/s10107-012-0572-5。 ·Zbl 1252.49044号
[8] R.H.Byrd、P.Lu、J.Nocedal和C.Zhu,边界约束优化的有限内存算法,SIAM J.Sci。计算。,16(1995),第1190-1208页,https://doi.org/10.1137/0916069。 ·Zbl 0836.65080号
[9] S.Cacase、E.Cristiani、M.Falcone和A.Picarelli,一类Hamilton-Jacobi-Bellman方程的补丁动态规划方案,SIAM J.Sci。计算。,34(2012),第A2625-A2649页,https://doi.org/10.1137/10841576。 ·Zbl 1259.65097号
[10] T.Cheng、F.L.Lewis和M.Abu-Khalaf,使用神经网络HJB方法的非线性系统的固定最终时间约束最优控制,IEEE Trans。神经网络。,18(2007),第1725-1737页,https://doi.org/10.109/TNN.2007.905848。
[11] Y.T.Chow、J.Darbon、S.Osher和W.Yin,克服状态相关Hamilton-Jacobi方程维数灾难的算法,J.Compute。物理。,387(2019),第376-409页,https://doi.org/10.1016/j.jcp.2019.01.051。 ·Zbl 1452.49016号
[12] M.G.Crandall和P.-L.狮子,哈密尔顿-雅可比方程的粘度解,Trans。阿默尔。数学。Soc.,277(1983),第1-42页,https://doi.org/10.2307/1999343。 ·Zbl 0599.35024号
[13] J.Darbon、G.P.Langlois和T.Meng,通过神经网络架构克服某些Hamilton-Jacobi偏微分方程的维数灾难,Res.Math。科学。,7(2020),第20页,https://doi.org/10.1007/s40687-020-00215-6。 ·Zbl 1445.35119号
[14] J.Darbon和T.Meng,关于能够表示某些高维Hamilton-Jacobi偏微分方程粘性解的一些神经网络结构,J.Compute。物理。,425 (2021), 109907, https://doi.org/10.1016/j.jcp.2020.109907。 ·Zbl 07508503号
[15] J.Darbon和S.Osher,控制理论和其他领域中出现的某些Hamilton-Jacobi方程克服维数灾难的算法,《数学研究》。科学。,3 (2016), https://doi.org/10.1186/s40687-016-0068-7。 ·Zbl 1348.49026号
[16] J.Diebel,《代表态度:欧拉角、单位四元数和旋转向量》,2006年,https://www.astro.rug.nl/software/kapteyn-beta/_downloads/attitude.pdf(2020年5月16日)。
[17] M.Falcone和R.Ferretti,线性和Hamilton-Jacobi方程的半拉格朗日近似方案,SIAM,费城,2013,https://doi.org/10.1137/1.9781611973051。 ·Zbl 1335.65001号
[18] J.Han、A.Jentzen和W.E,使用深度学习求解高维偏微分方程,Proc。国家。阿卡德。科学。美国,115(2018),第8505-8510页,https://doi.org/10.1073/pnas.1718942115。 ·Zbl 1416.35137号
[19] C.Hureí,H.Pham,A.Bachouch,and N.Langreneí,有限水平随机控制问题的深度神经网络算法,第一部分:收敛分析,https://arxiv.org/abs/1812.04300, 2018. ·Zbl 1466.65007号
[20] D.Izzo、E.O¨ztu¨rk和M.Ma¨rtens,通过最优政策和/或价值函数的深度表示进行的行星间转移,《遗传与进化计算会议论文集》,2019年,第1971-1979页,https://doi.org/10.1145/3319619.3326834。
[21] F.Jiang、G.Chou、M.Chen和C.J.Tomlin,使用神经网络计算近似和保证的可行Hamilton-Jacobi-Bellman PDE解,https://arxiv.org/abs/1611.03158, 2016.
[22] D.Kalise和K.Kunisch,高维Hamilton-Jacobi-Bellman方程的多项式逼近及其在半线性抛物型偏微分方程反馈控制中的应用,SIAM J.Sci。计算。,40(2018年),第A629-A652页,https://doi.org/10.1137/17M1116635。 ·Zbl 1385.49022号
[23] W.Kang,P.De和A.Isidori,通过非线性方法在风切变中的飞行控制,《第31届IEEE决策与控制会议论文集》,第1卷,1992年,第1135-1142页。
[24] W.Kang和L.C.Wilcox,HJB方程的无因果关系计算方法及其在刚体卫星上的应用,载于AIAA制导、导航和控制会议论文集,2015年,第1-10页,https://doi.org/10.2514/6.2015-2009。
[25] W.Kang和L.C.Wilcox,缓解维数灾难:最优反馈控制的稀疏网格特征法和HJB方程,计算。最佳方案。申请。,68(2017),第289-315页,https://doi.org/10.1007/s10589-017-9910-0。 ·Zbl 1383.49045号
[26] J.Kierzenka和L.F.Shampine,基于残差控制和MATLAB PSE的BVP求解器,ACM Trans。数学。软件,27(2001),第299-316页,https://doi.org/10.1145/502800.502801。 ·Zbl 1070.65555号
[27] D.Liberzon,《变分法与最优控制理论:简明导论》,普林斯顿大学出版社,新泽西州普林斯顿,2011年,https://doi.org/10.2307/j.ctvcm4g0s。 ·Zbl 1239.49001号
[28] D.Lukes,非线性动力系统的最优调节,SIAM J.Control,7(1969),第75-100页,https://doi.org/10.1137/0307007。 ·Zbl 0184.18802号
[29] O.L.Mangasarian,非线性系统最优控制的充分条件,SIAM J.control,4(1966),第139-152页,https://doi.org/10.1137/0304013。 ·Zbl 0154.10401号
[30] C.Navasca和A.J.Krener,Hamilton-Jacobi-Bellman偏微分方程的Patchy解,Springer,柏林,2007年,第251-270页,https://doi.org/10.1007/978-3-540-73570-0_20。 ·Zbl 1354.93071号
[31] S.Osher和J.A.Sethian,以曲率相关速度传播的前沿:基于Hamilton-Jacobi公式的算法,J.Compute。物理。,79(1988),第12-49页,https://doi.org/10.1016/0021-9991(88)90002-2. ·Zbl 0659.65132号
[32] M.Raissi、P.Perdikaris和G.Karniadakis,《以物理为基础的神经网络:解决涉及非线性偏微分方程的正问题和逆问题的深度学习框架》,J.Compute。物理。,378(2019),第686-707页,https://doi.org/10.1016/j.jcp.2018.10.045。 ·Zbl 1415.68175号
[33] J.Sirignano和K.Spiliopoulos,DGM:解偏微分方程的深度学习算法,J.Compute。物理。,375(2018),第1339-1364页,https://doi.org/10.1016/j.jcp.2018.08.029。 ·兹比尔1416.65394
[34] Y.Tassa和T.Erez,带神经网络值函数逼近器的HJB方程的最小二乘解,IEEE Trans。神经网络。,18(2007),第1031-1041页,https://doi.org/10.109/TNN.2007.899249。
[35] L.N.Trefethen,MATLAB中的光谱方法,SIAM,费城,2000年,https://doi.org/10.1137/1.978089878719598。 ·Zbl 0953.68643号
[36] P.Virtanen、R.Gommers、T.E.Oliphant等人,《SciPy 1.0:Python中科学计算的基本算法》,《自然方法》,17(2020),第261-272页,https://doi.org/10.1038/s41592-019-0686-2。
[37] I.Yegorov和P.M.Dower,《基于特征的无诅咒多维数值方法解决哈密顿-雅可比方程的观点》,应用。数学。最佳。,83(2021),第1-49页,https://doi.org/10.1007/s00245-018-9509-6。 ·Zbl 1461.49028号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。