×

使用不完美模型的MHE和MPC方案进行基于学习的状态估计和控制。 (英语) Zbl 1521.93050号

小结:本文提出了一种基于强化学习的观测器/控制器,它使用了移动时域估计(MHE)和模型预测控制(MPC)方案,其中MHE-MPC中使用的模型无法准确捕获实际系统的动态。我们首先展示了MHE成本修正如何提高MHE方案的性能,从而即使底层MHE模型不完善,也能提供真实的状态估计。然后,基于不准确的MHE-MPC模型,提出了一种兼容的确定性策略梯度(DPG)算法来直接调整估计器(MHE)和控制器(MPC)的参数,以实现最佳的闭环性能。为了证明所提出的基于学习的估计器控制的有效性,给出了三个数值例子。

MSC公司:

93B45码 模型预测控制
93E10型 随机控制理论中的估计与检测
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] B.Amos,L.Xu,J.Z.Kolter,输入凸神经网络,2017年。1609.07152
[2] 阿鲁库马兰,K。;Deisenroth,M.P。;布伦达奇,M。;Bharath,A.A.,《深度强化学习:简要调查》,IEEE Signal Process。Mag.,34,6,26-38(2017)
[3] 小檗,J。;科勒,J。;米勒,硕士。;Allgöwer,F.,数据驱动模型预测控制:闭环保证和实验结果,at-Automatisierungstechnik,69,7,608-618(2021)
[4] Bezuglyi,S。;Jorgensen,P.E.T.,转移算子,自同态和可测分区,105-111(2018),Springer International Publishing·Zbl 1416.37002号
[5] F.Bünning,A.Schalbetter,A.Aboudonia,M.H.de Badyn,P.Heer,J.Lygeros,用于构建MPC的输入凸神经网络,2020,arXiv:2011.3227
[6] 蔡伟(Cai,W.)。;伊斯法哈尼,H.N。;Kordabad,A.B。;Gros,S.,使用基于MPC的强化学习优化智能电网峰值功率惩罚管理,第60届IEEE决策与控制会议(CDC)论文集,6365-6370(2021),IEEE
[7] 蔡伟(Cai,W.)。;Kordabad,A.B。;Esfahani,H.N。;莱卡斯,A.M。;Gros,S.,基于MPC的自动水面车辆简化货运任务强化学习,第60届IEEE决策与控制会议(CDC)会议记录,2990-1995(2021)
[8] 第六届IFAC智能控制和自动化科学会议ICONS 2022
[9] Esfahani,H.N。;Kordabad,A.B。;Gros,S.,使用强化学习的近似稳健NMPC,欧洲控制会议(ECC),132-137(2021)
[10] Esfahani,H.N。;Kordabad,A.B。;Gros,S.,基于MPC/MHE的未建模和部分可观测动态强化学习,美国控制会议(ACC)会议记录,2121-2126(2021)
[11] 格罗斯,S。;Zanon,M.,《使用强化学习的数据驱动经济NMPC》,IEEE Trans。自动。控制,65,2636-648(2020)·兹比尔07256190
[12] 郭振东。;阿扎尔,M.G。;皮奥,B。;Pires,B.A。;Pohlen,T。;Munos,R.,神经预测信念表征,CoRR,abs/1811.06407(2018)
[13] Halvgaard,R。;新泽西州鲍尔森。;Madsen,H。;Jörgensen,J.B.,智能电网中建筑气候控制的经济模型预测控制,IEEE PES创新智能电网技术(ISGT)进展,1-6(2012)
[14] Hausknecht,M.J。;Stone,P.,部分可观察MDP的深度重复Q-学习,CoRR,abs/1507.06527(2015)
[15] Kaelbling,L.P。;利特曼,M.L。;Cassandra,A.R.,《部分可观测随机域中的规划和行动》,Artific。智力。,101, 1, 99-134 (1998) ·兹比尔0908.68165
[16] 卡格,B。;Lucia,S.,通过深度学习的近似移动时域估计和鲁棒非线性模型预测控制,计算。化学。工程,148107266(2021)
[17] Kordabad,A.B。;Esfahani,H.N。;莱卡斯,A.M。;Gros,S.,基于情景树MPC的ASV强化学习,美国控制会议论文集,1985-1990(2021)
[18] S.Muntwiller,K.P.Wabersich,M.N.Zeilinger,通过可微凸优化层进行基于学习的移动时域估计,2021,arXiv:2109.03962
[19] 年,X。;Irissappane,A.A。;Roijers,D.,Dcrac:多目标部分可观测环境的深条件递归actor-critic,国际自治代理和多代理系统基金会会议记录。国际自治代理和多代理系统基金会会议记录,AAMAS’20,931-938(2020)
[20] Nocedal,J。;Wright,S.,《数值优化》(2006),施普林格出版社·Zbl 1104.65059号
[21] 库尔,P。;Diehl,M。;Kraus,T。;施洛德,J.P。;Bock,H.G.,移动地平线状态和参数估计的实时算法,计算。化学。工程,35,1,71-83(2011)
[22] Pipino,H.A。;卡佩莱蒂,C.A。;Adam,E.J.,应用于连续搅拌槽反应器的自适应多模型预测控制,计算。化学。工程,145107195(2021)
[23] 拉奥,C.V。;罗林斯,J.B.,《约束过程监控:移动地平线方法》,AIChE J.,48,1,97-109(2002)
[24] 第21届IFAC世界大会
[25] 罗林斯,J.B。;Ji,L.,基于优化的状态估计:现状和一些新结果,《过程控制》,22,8,1439-1444(2012)
[26] 罗林斯,J.B。;D.Q.梅恩。;Diehl,M.,《模型预测控制:理论、计算和设计》,第2期(2017年),威斯康星州麦迪逊诺布希尔出版社
[27] I-387-I-395号州际公路
[28] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(2018),麻省理工学院出版社·Zbl 1407.68009号
[29] Gangwani,T。;雷曼,J。;刘,Q。;彭杰,《POMDP中模仿学习的学习信念表征》,第35届人工智能不确定性会议论文集,1-14(2019)
[30] 坦尼,M。;罗林斯,J.,《高效移动时域估计和非线性模型预测控制》,《美国控制会议论文集》(IEEE Cat.No.CH37301),6,4475-4480 vol.6(2002)
[31] B.Wang,Z.Ma,S.Lai,L.Zhao,T.H.Lee,鲁棒飞行控制的可微移动时域估计,2021,arXiv:2108.03212
[32] X.向。;Foo,S.,《深度强化学习应用于解决部分可观测马尔可夫决策过程(POMDp)问题的最新进展:游戏、机器人和自然语言处理中的部分基础和应用》,马赫。学习。知识。摘录。,3, 3, 554-581 (2021)
[33] 2018年第十届IFAC化学过程先进控制研讨会ADCHEM
[34] 扎姆扎姆,A.S。;Fu,X。;Sidiropoulos,N.D.,配电系统状态估计的基于数据驱动学习的优化,IEEE Trans。电力系统。,34, 6, 4796-4805 (2019)
[35] Zanon,M。;Gros,S.,《使用稳健MPC的安全强化学习》,IEEE Trans。自动。对照,66,8,3638-3652(2021)·Zbl 1471.93093号
[36] 钟,X。;镍,锌。;Tang,Y。;He,H.,使用自适应动态规划的数据驱动部分可观测动态过程,IEEE自适应动态规划和强化学习研讨会论文集,1-8(2014)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。