×

基于值粒度的最优控制问题和机器学习算法的表述。 (英语) Zbl 1523.49031号

摘要:最优控制问题通常是通过哈密顿-雅可比方程(HJE)找到值函数,然后取哈密顿量的极小值来获得控制。在这项工作中,我们没有关注值函数,而是提出了一种新的公式,将值函数(值粒度)的梯度表示为连续时间确定性折扣最优控制问题中的解耦偏微分方程组。我们利用方程组与值函数的HJE具有相同的特征曲线这一事实,为该方程组并行开发了一个有效的迭代方案。在理论部分,我们证明了对于权重函数中的某个合适的指数\(\alpha\),该迭代方案在\(L_\alpha^2)意义上线性收敛。对于数值方法,我们将特征线方法与机器学习技术相结合。具体来说,我们在每次策略迭代时从初始状态集合中生成多条特征曲线,并在每条曲线上同时计算值函数及其梯度,作为标记数据。然后,应用有监督机器学习来最小化值函数及其梯度的加权平方损失。实验结果表明,该方法不仅显著提高了数值估计的准确性,而且提高了估计的效率和鲁棒性,特别是在特征数据较少或训练步骤较少的情况下。

MSC公司:

49升20 最优控制与微分对策中的动态规划
49公里15 常微分方程问题的最优性条件
65千5 数值数学规划方法
68T05型 人工智能中的学习和自适应系统

软件:

亚当
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alla,A.、Falcone,M.和Kalise,D.,动态规划方程的有效策略迭代算法,SIAM J.Sci。计算。,37(2015),第A181-A200页,doi:10.1137/130932284·Zbl 1327.65259号
[2] Bachouch,A.、Huré,C.、Langrené,N.和Pham,H.,有限水平随机控制问题的深度神经网络算法:数值应用,Methodol。计算。申请。可能性。,24(2022),第143-178页·Zbl 1496.93112号
[3] Barto,S.,《可解决困难学习控制问题的类神经元自适应元件》,IEEE Trans。系统。曼赛本。,13(1983年),第834-846页。
[4] Bea,R.W.,非线性最优和鲁棒控制的连续Galerkin近似算法,《国际控制杂志》,71(1998),第717-743页·Zbl 0945.49021号
[5] Beard,R.W.、Saridis,G.N.和Wen,J.T.,广义Hamilton-Jacobi-Bellman方程的Galerkin近似,Automatica,33(1997),第2159-2177页·Zbl 0949.93022号
[6] Beard,R.W.、Saridis,G.N.和Wen,J.T.,《时不变Hamilton-Jacobi-Bellman方程的近似解》,J.Optim。理论应用。,96(1998),第589-626页·Zbl 0916.49021号
[7] Bellman,R.,印地安那大学马可夫决策过程。J.,6(1957),第679-684页,doi:10.1512/iumj.1957.6.56038·Zbl 0078.34101号
[8] Bellman,R.,《动态编程》,普林斯顿大学出版社,新泽西州普林斯顿,1957年·Zbl 0077.13605号
[9] Bensoussan,A.,《随机偏微分方程及其应用中随机PDE背景下的分裂方法》,Rozovskii,B.L.和Sowers,R.B.编辑,Springer,Berlin,Heidelberg,1992年,第22-31页·Zbl 0765.60060号
[10] Bensoussan,A.,《动力系统的估计和控制》,Springer,Cham,2018年·兹比尔1401.37001
[11] Bensoussan,A.、Li,Y.、P.C.Nguyen,D.、Tran,M.-B.、Yam,S.C.P.和Zhou,X.,《机器学习和控制理论》,摘自《数值分析手册》,Trélat,E.和Zuazua,E.编辑,Elsevier B.V.,2022年,第531-558页·Zbl 1493.68292号
[12] Bertsekas,D.P.,《动态规划与最优控制》,第一卷,第二版,雅典娜科学出版社,马萨诸塞州贝尔蒙特,2001年·Zbl 1083.90044号
[13] Bertsekas,D.P.,强化学习和最优控制,Athena Scientific,马萨诸塞州贝尔蒙特,2019。
[14] Chen,P.,Darbon,J.和Meng,T.,某些高维最优控制问题的Hopf型表示公式和有效算法,预印本,https://arxiv.org/abs/2110.02541, 2021.
[15] Chen,P.,Darbon,J.和Meng,T.,某些高维最优控制问题的Lax-Oleinik型公式和有效算法,http://arxiv.org/abs/2109.14849, 2021.
[16] Chow,Y.T.、Darbon,J.、Osher,S.和Yin,W.,克服由最优控制和微分对策问题产生的含时非凸Hamilton-Jacobi方程维数灾难的算法,科学杂志。计算。,73(2017),第617-643页,doi:10.1007/s10915-017-0436-5·Zbl 1381.65048号
[17] Chow,Y.T.、Darbon,J.、Osher,S.和Yin,W.,《克服某些非凸Hamilton-Jacobi方程、投影和微分对策的维数诅咒的算法》,《数学年鉴》。科学。申请。,3(2018年),第369-403页·Zbl 1415.35087号
[18] Chow,Y.T.、Li,W.、Osher,S.和Yin,W.,通过广义Hopf公式在密度空间中求解Hamilton-Jacobi方程的算法,J.Sci。计算。,80(2019),第1195-1239页·Zbl 1422.91102号
[19] Darbon,J.、Dower,P.M.和Meng,T.,使用Min Plus代数解决某些高维最优控制问题的神经网络结构和Hamilton-Jacobi偏微分方程,预印本,http://arxiv.org/abs/2105.03336,2021年·Zbl 1507.49019号
[20] Darbon,J.、Langlois,G.P.和Meng,T.,通过神经网络架构克服某些Hamilton-Jacobi偏微分方程的维数灾难,Res.Math。科学。,7(2020),20,doi:10.1007/s40687-020-00215-6·Zbl 1445.35119号
[21] Darbon,J.和Meng,T.,关于能够表示某些高维Hamilton-Jacobi偏微分方程粘性解的一些神经网络结构,J.Compute。物理。,425(2021),109907,doi:10.1016/j.jcp.2020.109907·Zbl 07508503号
[22] Darbon,J.和Osher,S.,《控制理论和其他领域中出现的某些Hamilton-Jacobi方程克服维数灾难的算法》,《数学研究》。科学。,3(2016),第1-26页·Zbl 1348.49026号
[23] E.,W.,Han,J.和Jentzen,A.,《求解高维偏微分方程的算法:从非线性蒙特卡罗到机器学习》,非线性,35(2022),第278-310页·Zbl 1490.60202号
[24] Falcone,M.和Ferretti,R.,线性和Hamilton-Jacobi方程的半拉格朗日近似方案,SIAM,2013,doi:10.1137/1.9781611973051·Zbl 1335.65001号
[25] Fleming,W.和Soner,H.,《受控马尔可夫过程和粘度解》,第二版,Springer,纽约,2006年·Zbl 1105.60005号
[26] Fleming,W.H.和Rishel,R.W.,确定性和随机最优控制,Springer-Verlag,纽约,1975年·Zbl 0323.49001号
[27] Han,J.,Jentzen,A.和W.,E.,使用深度学习求解高维偏微分方程,Proc。国家。阿卡德。科学。美国,115(2018),第8505-8510页·Zbl 1416.35137号
[28] Horowitz,M.B.、Damle,A.和Burdick,J.W.,《高维线性Hamilton-Jacobi-Bellman方程》,《第53届IEEE决策与控制会议论文集》,2014年,第5880-5887页。
[29] 《动态规划与马尔可夫过程》,麻省理工学院技术出版社,马萨诸塞州剑桥。;约翰·威利父子公司,纽约-朗顿,1960年·兹比尔0091.16001
[30] Lillicrap,T.P.、Hunt,J.J.、Pritzel,A.、Heess,N.、Erez,T.、Tassa,Y.、Silver,D.和Wierstra,D.,《深度强化学习的持续控制》,预印本,https://arxiv.org/abs/1509.02971, 2016.
[31] Huré,C.、Pham,H.、Bachouch,A.和Langrené,N.,有限时域随机控制问题的深度神经网络算法:收敛分析,SIAM J.Numer。分析。,59(2021),第525-557页,doi:10.1137/20M1316640·兹比尔1466.65007
[32] Izzo,D.、Oh ztürk,E.和Märtens,M.,通过对最优政策和/或价值函数的深度表示进行行星间转移,载于《遗传与进化计算会议指南》(GECCO’19),美国计算机学会,美国计算机协会,纽约,2019年,第1971-1979页,doi:10.1145/3319619.3326834。
[33] Kalise,D.和Kunisch,K.,高维Hamilton-Jacobi-Bellman方程的多项式逼近及其在半线性抛物线PDES反馈控制中的应用,SIAM J.Sci。计算。,40(2018),第A629-A652页,doi:10.1137/17M1116635·Zbl 1385.49022号
[34] Kang,W.和Wilcox,L.,《HJB方程的无因果关系计算方法及其在刚体卫星上的应用》,载于《美国国际航空航天局制导、导航和控制会议论文集》,2015年,第2009页。
[35] Kang,W.和Wilcox,L.C.,《减轻维数灾难:最优反馈控制的稀疏网格特征法和HJB方程》,计算。最佳方案。申请。,68(2017),第289-315页,doi:10.1007/s10589-017-9910-0·Zbl 1383.49045号
[36] Kim,J.,《连续时间Q-学习的Hamilton-Jacobi-Bellman方程》,120(2020),第1-10页,https://proceedings.mlr.press/v120/kim20b.html。
[37] Kim,J.,Shin,J.和Yang,I.,Hamilton-Jacobi深度Q学习,用于具有Lipschitz连续控制的确定性连续时间系统,J.Mach。学习。Res.,22(2021),206,doi:10.5555/3546258.3546464·Zbl 07626721号
[38] Kingma,D.P.和Ba,J.,Adam:随机优化方法,预印本,https://arxiv.org/abs/1412.6980, 2014.
[39] Kontoudis,G.P.和Vamvoudakis,K.G.,《带连续时间Q-学习的动态运动规划:在线、无模型和安全的导航框架》,神经网络。学习。系统。,30(2019年),第3808-3817页。
[40] 劳伦斯,E.C.,《偏微分方程》,第二版,美国数学学会,2010年·Zbl 1194.35001号
[41] Lin,A.T.,Chow,Y.T.,和Osher,S.J.,克服由非线性最优控制和微分对策引起的Hamilton-Jacobi方程中维数灾难的分裂方法,用于轨迹生成,Commun。数学。科学。,16(2018),第1933-1973页,doi:10.4310/cms.2018.v16.n7.a9·Zbl 1480.49039号
[42] Nakamura-Zimmerer,T.、Gong,Q.和Kang,W.,高维Hamilton-Jacobi-Bellman方程的自适应深度学习,SIAM J.Sci。计算。,43(2021),第A1221-A1247页,doi:10.1137/19M1288802·Zbl 1467.49028号
[43] Nakamura-Zimmerer,T.、Gong,Q.和Kang,W.,Qrnet:使用LQR增强神经网络的最优调节器设计,IEEE控制系统。莱特。,5(2021年),第1303-1308页。
[44] Osher,S.和Sethian,J.A.,《以曲率相关速度传播的前沿:基于Hamilton-Jacobi公式的算法》,J.Compute。物理。,79(1988),第12-49页·兹伯利0659.65132
[45] Oster,M.、Sallandt,L.和Schneider,R.,用层次张量积逼近定常Hamilton-Jacobi-Bellman方程,预印本,https://arxiv.org/abs/1911.00279, 2019.
[46] Palanisamy,M.、Modares,H.、Lewis,F.L.和Aurangzeb,M.,无限小时折现成本线性二次调节器问题的连续时间Q-学习,IEEE Trans。Cybernet.45(2015),第165-176页。
[47] Pontryagin,L.S.,《最优过程的数学理论》,CRC出版社,佛罗里达州博卡拉顿,1987年。
[48] Puterman,M.L.和Brumelle,S.L.,关于平稳动态规划中策略迭代的收敛性,数学。操作。Res.,4(1979),第60-69页·Zbl 0411.90072号
[49] Recht,B.,《强化学习之旅:从连续控制的视角》,《控制机器人的安·瑞夫》。自动。系统。,2(2019年),第253-279页。
[50] Sutton,R.S.和Barto,A.G.,《强化学习:导论》,第二版,麻省理工学院出版社,马萨诸塞州剑桥,2018年·Zbl 1407.68009号
[51] Tailor,D.和Izzo,D.,《通过监督模拟学习学习最佳状态反馈》,《天体动力学》,第3期(2019年),第361-374页,doi:10.1007/s42064-019-0054-0。
[52] Tsai,Y.-H.R.,Cheng,L.-T.,Osher,S.和Zhao,H.-K.,一类Hamilton-Jacobi方程的快速扫描算法,SIAM J.Numer。分析。,41(2003),第673-694页,doi:10.1137/S0036142901396533·Zbl 1049.35020号
[53] Tsitsiklis,J.N.,《全局最优轨迹的高效算法》,载于1994年第33届IEEE决策与控制会议论文集,第2卷,1994年,第1368-1373页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。