×

SympOCnet:通过应用于高维多智能体路径规划问题来解决最优控制问题。 (英语) Zbl 1504.49052号

摘要:实时解决高维最优控制问题是一个重要但具有挑战性的问题,应用于多智能体路径规划问题,近年来随着无人机的日益普及,这些问题越来越受到关注。本文提出了一种新的神经网络方法,称为辛网(SympOCnet),该方法应用辛网络解决具有状态约束的高维最优控制问题。我们给出了二维和三维空间中路径规划问题的几个数值结果。具体来说,我们证明了SympOCnet可以在一个GPU上在1.5小时内解决500维以上的问题,这表明了SympOCnet的有效性和效率。该方法具有可扩展性,有可能实时解决真正的高维路径规划问题。

MSC公司:

49立方米 基于非线性规划的数值方法
49平方米 松弛型数值方法
49平方米29 涉及对偶性的数值方法
2017年10月68日 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Akian、R.Bapat和S.Gaubert,Max-plus代数,收录于《线性代数手册》,L.Hogben主编,《离散数学》。申请。(博卡拉顿),查普曼和霍尔/CRC,佛罗里达州博卡拉顿,2007年,25日·Zbl 0922.15001号
[2] M.Akian、S.Gaubert和A.Lakhoua,求解确定性最优控制问题的max-plus有限元方法:基本性质和收敛性分析,SIAM J.control Optim。,47(2008),第817-848页,https://doi.org/10.1137/060655286。 ·兹比尔1157.49034
[3] A.Alla、M.Falcone和L.Saluzzi,有限时域最优控制问题树结构上的高效DP算法,SIAM J.Sci。计算。,41(2019年),第A2384-A2406页,https://doi.org/10.1137/18M1203900。 ·Zbl 1423.49024号
[4] A.Alla、M.Falcone和S.Volkwein,通过动态规划方法对无限时域问题的POD近似进行误差分析,SIAM J.控制优化。,55(2017),第3091-3115页,https://doi.org/10.1137/15M1039596。 ·Zbl 1378.49025号
[5] A.Bachouch、C.Hureí、N.Langreneí和H.Pham,有限水平随机控制问题的深度神经网络算法:数值应用,预印本,https://arxiv.org/abs/1812.05916, 2018. ·Zbl 1496.93112号
[6] S.Bansal和C.J.Tomlin,《DeepReach:高维可达性的深度学习方法》,《2021年IEEE机器人与自动化国际会议论文集》,2021年,第1817-1824页。
[7] M.Bardi和I.Capuzzo-Dolectta,Hamilton-Jacobi-Bellman方程的最优控制和粘度解,以及Maurizio Falcone和Pierpaolo Soravia的附录,《发现系统控制》。申请。,Birkha¨user Boston,马萨诸塞州波士顿,1997年,https://doi.org/10.1007/978-0-8176-4755-1。 ·Zbl 0890.49011号
[8] R.E.Bellman,《自适应控制过程:导览》,普林斯顿大学出版社,新泽西州普林斯顿,1961年·Zbl 0103.12901号
[9] D.P.Bertsekas,《约束优化和拉格朗日乘子方法》,计算机科学和应用数学,学术出版社,[Harcourt Brace Jovanovich,出版商],纽约,伦敦,1982年,https://doi.org/10.1016/C2013-0-10366-2。 ·Zbl 0572.90067号
[10] D.P.Bertsekas,《强化学习与最优控制》,雅典娜科学出版社,马萨诸塞州贝尔蒙特,2019年。
[11] O.Bokanowski、N.Gammoudi和H.Zidani,状态约束最优控制问题的乐观规划算法,计算。数学。申请。,109(2022),第158-179页,https://doi.org/10.1016/j.camwa.2022.01.016。 ·Zbl 1524.49062号
[12] O.Bokanowski、J.Garcke、M.Griebel和I.Klompmaker,一阶Hamilton-Jacobi-Bellman方程的自适应稀疏网格半拉格朗日格式,J.Sci。计算。,55(2013),第575-605页·Zbl 1269.65076号
[13] M.Chen、J.F.Fisac、S.Sastry和C.J.Tomlin,通过双障碍Hamilton-Jacobi-Isaacs变分不等式进行多车辆系统的安全顺序路径规划,载于《2015年欧洲控制会议论文集》,IEEE,新泽西州皮斯卡塔韦,2015,第3304-3309页。
[14] M.Chen、Q.Hu、J.F.Fisac、K.Akametalu、C.Mackin和C.J.Tomlin,《空中高速公路上无人飞行排基于可达性的安全和目标满意度》,《制导控制动力学杂志》。,40(2017年),第1360-1373页。
[15] M.Chen和C.J.Tomlin,解耦系统的精确有效Hamilton-Jacobi可达性,《2015年IEEE第54届决策与控制会议论文集》,2015年,第1297-1303页。
[16] P.Chen、J.Darbon和T.Meng,某些高维最优控制问题的Hopf型表示公式和有效算法,预印本,https://arxiv.org/abs/1102.02541, 2021.
[17] P.Chen、J.Darbon和T.Meng,某些高维最优控制问题的Lax-Oleinik型公式和有效算法,预印本,https://arxiv.org/abs/2109.14849, 2021.
[18] A.R.Conn、N.I.M.Gould和P.L.Toint,用于一般约束和简单边界优化的全局收敛增广拉格朗日算法,SIAM J.Numer。分析。,28(1991),第545-572页,https://doi.org/10.1137/0728030。 ·兹比尔0724.65067
[19] M.Coupechoux、J.Darbon、J.-M Keílif和M.Sigelle,《使用拉格朗日力学的无人机基站的最佳轨迹》,载于《IEEE INFOCOM 2019-IEEE计算机通信研讨会会议记录》(INFOCOM WKSHPS),2019年,第626-631页。
[20] J.Darbon,《成像科学中的凸有限维变分方法和Hamilton-Jacobi方程》,SIAM J.imaging Sci。,8(2015),第2268-2293页,https://doi.org/10.1137/10944163。 ·Zbl 1330.35076号
[21] J.Darbon、P.M.Dower和T.Meng,使用Min Plus代数解决某些高维最优控制问题和Hamilton-Jacobi偏微分方程的神经网络结构,预印本,https://arxiv.org/abs/2105.03336, 2021. ·Zbl 1507.49019号
[22] J.Darbon、G.P.Langlois和T.Meng,通过神经网络架构克服某些Hamilton-Jacobi偏微分方程的维数灾难,Res.Math。科学。,7 (2020), 20, https://doi.org/10.1007/s40687-020-00215-6。 ·Zbl 1445.35119号
[23] J.Darbon和T.Meng,关于成像科学中的分解模型和多时间Hamilton-Jacobi偏微分方程,SIAM J.imaging Sci。,13(2020年),第971-1014页,https://doi.org/10.1137/19M1266332。 ·Zbl 1455.35051号
[24] J.Darbon和T.Meng,关于能够表示某些高维Hamilton-Jacobi偏微分方程粘性解的一些神经网络结构,J.Compute。物理。,425 (2021), 109907, https://doi.org/10.1016/j.jcp.2020.109907。 ·Zbl 07508503号
[25] J.Darbon、T.Meng和E.Resmerita,《关于Hamilton-Jacobi偏微分方程和具有特定非加性噪声的图像去噪模型》,J.Math。成像视觉。,64(2022),第408-441页,https://doi.org/10.1007/s10851-022-01073-3。 ·Zbl 07557140号
[26] J.Darbon和S.Osher,控制理论和其他领域中出现的某些Hamilton-Jacobi方程克服维数灾难的算法,《数学研究》。科学。,3 (2016), 19, https://doi.org/10.1186/s40687-016-0068-7。 ·Zbl 1348.49026号
[27] D.Delahaye、S.Puechmorel、P.Tsiotras和E.Feíron,《飞机轨迹设计的数学模型:调查》,载于《空中交通管理与系统》,日本斯普林格,2014年,第205-247页。
[28] J.Denk和G.Schmidt,使用优化控制技术合成仿人机器人的行走原始数据库,《IEEE-RAS国际仿人机器人会议论文集》,2001年,第319-326页。
[29] B.Djeridane和J.Lygeros,PDE解的神经近似:可达性计算的应用,第45届IEEE决策与控制会议论文集,2006年,第3034-3039页,https://doi.org/10.1109/CDC.2006.377184。
[30] S.Dolgov、D.Kalise和K.K.Kunisch,高维Hamilton-Jacobi-Bellman方程的张量分解方法,SIAM J.Sci。计算。,43(2021),第A1625-A1650页,https://doi.org/10.1137/19M1305136。 ·Zbl 1471.65184号
[31] P.M.Dower、W.M.McEneaney和H.Zhang,最优控制问题的Max-plus基本解半群,《2015年控制及其应用会议论文集》,SIAM,费城,2015年,第368-375页https://doi.org/10.1137/1.9781611974072.51。
[32] A.El Khoury、F.Lamiraux和M.Taix,拟人机器人的最佳运动规划,《2013年IEEE机器人与自动化国际会议论文集》,2013年,第3136-3141页。
[33] L.C.Evans,《数学最优控制理论导论》0.2版,讲稿,加利福尼亚大学数学系,伯克利分校,1983年,https://math.berkeley.edu/evans/control.course.pdf。
[34] F.Fahroo和I.M.Ross,用Legendre伪谱方法估计Costate,J.制导控制发电机。,24(2001),第270-277页。
[35] F.Fahroo和I.M.Ross,切比雪夫伪谱法直接弹道优化,J.制导控制发电机。,25(2002),第160-166页。
[36] M.Fallon、S.Kuindersma、S.Karumanchi、M.Antone、T.Schneider、H.Dai、C.P.D'Arpino、R.Deits、M.DiCicco、D.Fourie、T.Koolen、P.Marion、M.Posa、A.Valenzuela、K.-T Yu、J.Shah、K.Iagnemma、R.Tedrake和S.Teller,《基于在线负担感知和全身规划的架构》,《J.Field Robotics》,32(2015),第229-254页。
[37] S.Feng、E.Whitman、X.Xinjilefu和C.G.Atkeson,阿特拉斯机器人基于优化的全身控制,《2014年IEEE-RAS类人机器人国际会议论文集》,2014年,第120-127页。
[38] W.H.Fleming和W.M.McEneaney,非线性滤波Hamilton-Jacobi-Bellman方程的基于max-plus的算法,SIAM J.控制优化。,38(2000),第683-710页,https://doi.org/10.1137/S0363012998332433。 ·Zbl 0949.35039号
[39] K.Fujiwara、S.Kajita、K.Harada、K.Kaneko、M.Morisawa、F.Kanehiro、S.Nakaoka和H.Hirukawa,拟人机器人下落运动的最佳规划,载于2007年IEEE/RSJ智能机器人和系统国际会议论文集,2007年,第456-462页。
[40] J.Garcke和A.Kroöner,通过在自适应稀疏网格上求解HJB方程实现PDE的次优反馈控制,J.Sci。计算。,70(2017),第1-28页·Zbl 1434.49020号
[41] D.Garg,《优化控制的全球伪谱方法进展》,佛罗里达大学盖恩斯维尔分校博士论文,2011年。
[42] S.Gaubert、W.McEneaney和Z.Qu,基于max-plus的近似方法中降维的诅咒:理论估计和改进的剪枝算法,《2011年第50届IEEE决策与控制会议和欧洲控制会议论文集》,2011年,第1054-1061页。
[43] S.Greydanus、M.Dzamba和J.Yosinski,哈密尔顿神经网络,《神经信息处理系统进展》32,H.Wallach等人,编辑,Curran Associates,Inc.,2019年,https://proceedings.neurips.cc/paper/2019/file/26cd8ecadce0d4efd6cc8a8725cbd1f8-paper.pdf。
[44] E.Hairer、M.Hochbruck、A.Iserles和C.Lubich,《几何-数值积分》,Oberwolfach Rep.,3(2006),第805-882页·Zbl 1109.65301号
[45] J.Han、A.Jentzen和W.E,使用深度学习求解高维偏微分方程,Proc。国家。阿卡德。科学。美国,115(2018),第8505-8510页,https://doi.org/10.1073/pnas.1718942115。 ·Zbl 1416.35137号
[46] M.Hofer、M.Muehlebach和R.D'Andrea,无人机近似模型预测控制方案的应用,2016年IEEE机器人与自动化国际会议(ICRA)论文集,2016年,第2952-2957页。
[47] M.B.Horowitz、A.Damle和J.W.Burdick,《高维线性Hamilton-Jacobi-Bellman方程》,《第53届IEEE决策与控制会议论文集》,2014年,第5880-5887页。
[48] C.Hureí,H.Pham和X.Warin,《高维非线性偏微分方程的一些机器学习方案》,预印本,https://arxiv.org/abs/11902.01599v1, 2019. ·Zbl 1440.60063号
[49] C.Hureí,H.Pham,A.Bachouch,and N.Langreneí,有限水平随机控制问题的深度神经网络算法:收敛分析,SIAM J.Numer。分析。,59(2021),第525-557页,https://doi.org/10.1137/20M1316640。 ·Zbl 1466.65007号
[50] F.Jiang,G.Chou,M.Chen和C.J.Tomlin,使用神经网络计算近似和保证可行的Hamilton-Jacobi Bellman PDE解,预印本,https://arxiv.org/abs/1611.03158, 2016.
[51] L.Jin、S.Li、J.Yu和J.He,《使用神经网络的机器人操纵器控制:调查》,《神经计算》,第285期(2018年),第23-34页,https://doi.org/10.1016/j.neucom.2018.01.002。
[52] P.Jin、Z.Zhang、I.G.Kevrekidis和G.E.Karniadakis,通过泊松神经网络学习泊松系统和自治系统的轨迹,预印本,https://arxiv.org/abs/2012.03133, 2020.
[53] P.Jin,Z.Z.Zhang,A.Zhu,Y.Tang,和G.E.Karniadakis,《辛网:识别哈密顿系统的内在结构-保留辛网络》,《神经网络》,132(2020),第166-179页·Zbl 1475.68316号
[54] D.Kalise、S.Kundu和K.Kunisch,通过高维Hamilton-Jacobi-Isaacs方程的数值逼近实现非线性偏微分方程的鲁棒反馈控制,SIAM J.Appl。动态。系统。,19(2020),第1496-1524页,https://doi.org/10.1137/19M1262139。 ·Zbl 1443.49041号
[55] D.Kalise和K.Kunisch,高维Hamilton-Jacobi-Bellman方程的多项式逼近及其在半线性抛物型偏微分方程反馈控制中的应用,SIAM J.Sci。计算。,40(2018年),第A629-A652页,https://doi.org/10.1137/17M1116635。 ·Zbl 1385.49022号
[56] W.Kang和L.C.Wilcox,缓解维数灾难:最优反馈控制的稀疏网格特征法和HJB方程,计算。最佳方案。申请。,68(2017),第289-315页·Zbl 1383.49045号
[57] Y.H.Kim、F.L.Lewis和D.M.Dawson,使用神经网络对机器人操作器进行智能优化控制,Automatica,36(2000),第1355-1364页,https://doi.org/10.1016/S0005-1098(00)00045-5. ·Zbl 1002.93039号
[58] D.P.Kingma和J.Ba,Adam:《随机优化方法》,载于《第三届学习表征国际会议论文集》(ICLR 2015),加利福尼亚州圣地亚哥,2015年,会议跟踪论文集,2015年。
[59] M.R.Kirchner、M.J.Debord和J.P.Hespanha,异构多车辆系统最佳协调的Hamilton-Jacobi公式,《2020 IEEE/RSJ智能机器人与系统国际会议(IROS)论文集》,2020年,第11623-11630页。
[60] S.Kuindersma、R.Deits、M.Fallon、A.Valenzuela、H.Dai、F.Percenter、T.Koolen、P.Marion和R.Tedrake,《Atlas类人机器人基于优化的运动规划、估计和控制设计》,《自治机器人》,40(2016),第429-455页。
[61] K.Kunisch、S.Volkwein和L.Xie,基于HJB-POD的进化问题最优控制反馈设计,SIAM J.Appl。动态。系统。,3(2004),第701-722页,https://doi.org/10.1137/030600485。 ·兹比尔1058.35061
[62] P.Lambrianides、Q.Gong和D.Venturi,不确定性下计算最优控制的一种新的可扩展算法,J.Compute。物理。,420 (2020), 109710, https://doi.org/10.1016/j.jcp.2020.109710。 ·Zbl 07506628号
[63] D.Lee和C.J.Tomlin,汉密尔顿-雅可比分析中的Hopf-Lax公式,可达避免问题,IEEE控制系统。莱特。,5(2020年),第1055-1060页。
[64] D.Lee和C.J.Tomlin,基于计算效率的Hamilton-Jacobi公式的状态约束最优控制问题,预印本,https://arxiv.org/abs/2106.13440, 2021.
[65] F.Lewis、D.Dawson和C.Abdallah,《机器人操纵器控制:理论与实践》,第二版,修订和扩展,《控制工程》,马赛尔·德克尔,2004年。
[66] A.Li、S.Bansal、G.Giovanis、V.Tolani、C.Tomlin和M.Chen,使用Hamilton-Jacobi可达性为基于学习的视觉导航生成强大的监督,摘自《动态与控制学习》,PMLR,2020年,第500-510页。
[67] F.Lin和R.D.Brandt,机械手鲁棒控制的最优控制方法,IEEE Trans。机器人自动化,14(1998),第69-77页。
[68] L.Lu、P.Jin、G.Pang、Z.Zhang和G.E.Karniadakis,基于算子的普遍逼近定理通过DeepONet学习非线性算子,Nature Mach。智力。,3(2021年),第218-229页。
[69] V.R.Makkapati、J.Ridderhof、P.Tsiotras、J.Hart和B.van Bloemen Waanders,高超音速飞行器的减敏弹道优化,《2021年IEEE航空航天会议论文集》(50100),2021年,第1-10页,https://doi.org/10.109/AERO50100.2021.9438511。
[70] W.M.McEneaney,解某些HJB偏微分方程的无诅咒维数值方法,SIAM J.Control Optim。,46(2007),第1239-1276页,https://doi.org/10.1137/040610830。 ·Zbl 1251.65168号
[71] W.M.McEneaney,非线性控制和估计的Max-plus方法,发现系统控制。申请。,Birkha¨user Boston,马萨诸塞州波士顿,2006年·Zbl 1103.93005号
[72] W.M.McEneaney、A.Deshpande和S.Gaubert,HJB PDE无维诅咒方法中的复杂度衰减,《2008年美国控制会议论文集》,IEEE,新泽西州皮斯卡塔韦,2008年,第4684-4690页。
[73] W.M.McEneaney和L.J.Kluberg,一类HJB偏微分方程无维数诅咒方法的收敛速度,SIAM J.控制优化。,48(2009),第3052-3079页,https://doi.org/10.1137/070681934。 ·Zbl 1218.35074号
[74] X.Meng和G.E.Karniadakis,《从多保真数据中学习的复合神经网络:函数逼近和PDE逆问题的应用》,J.Compute。物理。,401 (2020), 109020. ·Zbl 1454.76006号
[75] K.R.Meyer和D.C.Offin,哈密顿动力系统和N体问题导论,应用。数学。科学。90,施普林格,查姆,1992年,https://doi.org/https://doi.org/10.1007/978-3-319-53691-0. ·Zbl 1372.70002号
[76] T.Nakamura-Zimmerer、Q.Gong和W.Kang,高维Hamilton-Jacobi-Bellman方程的自适应深度学习,SIAM J.Sci。计算。,43(2021),第A1221-A1247页,https://doi.org/10.1137/19M1288802。 ·Zbl 1467.49028号
[77] T.Nakamura-Zimmerer、Q.Gong和W.Kang,QRnet:使用LQR增强神经网络的最优调节器设计,IEEE控制系统。莱特。,5(2021年),第1303-1308页,https://doi.org/10.1109/LCSYS.2020.3034415。
[78] K.N.Niarcos和J.Lygeros,连续时间可达性计算的神经近似,第45届IEEE决策与控制会议论文集,2006年,第6313-6318页,https://doi.org/10.109/CDC.2006.377358。
[79] D.Onken、L.Nurbekyan、X.Li、S.W.Fung、S.Osher和L.Ruthotto,《用于高维最优控制的神经网络方法》,预印本,https://arxiv.org/abs/2104.03270, 2021.
[80] C.Parzani和S.Puechmorel,关于协调优化飞机轨迹规划的Hamilton-Jacobi-Bellman方法,最优控制应用。方法,39(2018),第933-948页·Zbl 1396.49019号
[81] M.Raissi、P.Perdikaris和G.E.Karniadakis,《以物理为基础的神经网络:解决涉及非线性偏微分方程的正问题和逆问题的深度学习框架》,J.Compute。物理。,378(2019),第686-707页·Zbl 1415.68175号
[82] A.V.Rao,最优控制数值方法综述,高级航天科学。,135(2009),第497-528页。
[83] C.Reisinger和Y.Zhang,矫正深度神经网络克服了非线性刚性系统零和对策中非光滑值函数的维数诅咒,Ana。申请。,18(2020年),第951-999页,https://doi.org/10.1142/S0219530520500116。 ·Zbl 1456.82804号
[84] D.R.Robinson、R.T.Mar、K.Estabridis和G.Hewer,非凸环境中异构多智能体系统最优轨迹生成的有效算法,IEEE机器人自动化快报。,3(2018年),第1215-1222页。
[85] I.M.Ross和M.Karpenko,《伪谱最优控制综述:从理论到飞行》,《控制年鉴》,36(2012),第182-197页,https://doi.org/10.1016/j.arcontrol.2012.09.002。
[86] V.R.Royo和C.Tomlin,神经网络递归回归:近似HJI PDE解,预印本,https://arxiv.org/abs/1611.02739, 2016.
[87] A.Rucco、G.Notarstefano和J.Hauser,双轨汽车的有效最短时间轨迹生成策略,IEEE Trans。控制系统。《技术》,23(2015),第1505-1519页。
[88] A.Rucco、P.Sujit、A.P.Aguiar、J.B.De Sousa和F.L.Pereira,无人空中飞行器的最佳交会轨迹,IEEE Trans。航空电子。系统。,54(2017),第834-847页。
[89] J.Sirignano和K.Spiliopoulos,DGM:解偏微分方程的深度学习算法,J.Compute。物理。,375(2018),第1339-1364页,https://doi.org/10.1016/j.jcp.2018.08.029。 ·Zbl 1416.65394号
[90] S.Spedicato和G.Notarstefano,受限环境中四转子的最短时间轨迹生成,IEEE Trans。控制系统。Tech.,26(2017),第1335-1344页。
[91] E.Todorov,最优行动的有效计算,Proc。国家。阿卡德。科学。美国,106(2009),第11478-11483页·Zbl 1203.68327号
[92] I.Yegorov和P.M.Dower,《基于特征的无诅咒多维数值方法解决哈密顿-雅可比方程的观点》,应用。数学。最佳。,83(2017),第1-49页·兹比尔1461.49028
[93] Z.Zhang,Y.Shin和G.E.Karniadakis,GFINNs:确定性和随机动力系统的通用形式主义神经网络,Phil.Trans。R.Soc.A,380(2022),20210207,https://doi.org/10.1098/rsta.2021.0207。
[94] M.Zhou、J.Han和J.Lu,基于神经网络的高维静态Hamilton-Jacobi-Bellman偏微分方程的Actor-critic方法,SIAM J.Sci。计算。,43(2021),第A4043-A4066页,https://doi.org/10.1137/21M1402303。 ·Zbl 1481.65203号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。