Kybernetika 59 3号, 365-391, 2023

基于辨识器-临界学习的完全未知非线性系统事件触发最优控制

彭志南，张志全，瑞洛（Rui Luo），Yiqun Kuang（一群光），胡江平，洪成和比乔伊·库马尔·高什内政部：10.14736/kyb-2023-3-0365

摘要：

针对完全未知非线性系统的事件触发最优控制，提出了一种在线辨识-关键学习框架。与经典的基于actor-critic神经网络的自适应动态规划（ADP）方法不同，本文提出了一种基于滤波-回归的方法来重构未知系统动力学，从而避免了控制设计回路中对精确系统模型的依赖。同时，仅利用测量的系统状态和输入数据，设计了神经网络自适应律用于参数估计，方便了辨识器-临界神经网络的设计。分析了自适应律的收敛性。此外，为了降低状态采样频率，在所提出的最优控制设计中嵌入了两种非周期采样方案，即静态和动态事件触发器。最后，通过仿真验证了所提出的事件触发最优控制策略的有效性。

关键词：

最优控制，事件触发机制，未知非线性系统，自适应动态规划，辨识-临界神经网络

分类：

93C10、68T07

纸张.pdf

参考文献：

S.Bhasin、R.Kamalapurkar、M.Johnson、K.G.Vamvudakis、F.L.Lewis和W.E.Dixon:一种用于不确定非线性系统近似最优控制的新型actor-critic-identifier结构。 Automatica 49（2013），82-92。 DOI:10.1016/j.自动2012.09.019
B.Chen、J.Hu、Y.Zhao和B.K.Ghosh:基于有限时间观测器的不确定异构水下机器人自适应滑模跟踪控制。神经计算481（2022），322-332。 DOI:10.1016/j.neucom.2022.01.038
X.Fu和Z.Li:基于零和微分对策的非线性系统神经网络最优控制。 Kybernetika基贝内提卡57（2021），546-566。内政部：10.14736/kyb-2021-3-0546
A.吉拉德:事件触发控制的动态触发机制。 IEEE传输。自动化。控制60（2015），1992-1997。内政部：10.1109/TAC.2014.2366855
J.Hu、G.Chen和H.X.Li:具有通信延迟的领导-跟随多智能体系统的分布式事件触发跟踪控制。 Kybernetika 47（2011），第630-643页。交叉参考
胡锦涛、耿锦涛、朱锦涛:基于观测器的一致性跟踪控制及其在事件触发跟踪中的应用。 Commun公司。非线性科学。数字。模拟。20 (2015), 559-570. DOI:10.1016/j.cnsns.2014.06.002
Y.Jiang和Z.P Jiang:具有完全未知动力学的连续线性系统的计算自适应最优控制。 Automatica 48（2012），2699-2704。 DOI:10.1016/j.自动2012.06.096
H.K.哈利勒:非线性系统。第三版。新泽西州普伦蒂斯·霍尔姆上鞍河，2002年。交叉参考
B.Kiumarsi和F.L.Lewis:部分未知非线性离散时间系统基于Actor-critic的最优跟踪。 IEEE传输。神经网络。学习。系统。26 (2015), 140-151. 内政部：10.1109/TNNLS.2014.2358227
G.克里塞尔梅耶:指数收敛速度的自适应观测器。 IEEE传输。自动化。控制AC-22（1977），2-8。交叉参考
F.Lewis、S.Jagannathan和A.Yesildirak:机器人机械手和非线性系统的神经网络控制。 Taylor和Francis，伦敦，1999年。交叉参考
F.L.Lewis、D.L.Vrabie和V.L.Syrmos:最优控制。第三版。 Wiley，纽约，2012年。内政部：10.1002/9781118122631
R.Luo、Z.Peng、J.Hu和B.K.Bijoy:具有松弛PE条件的完全未知系统的自适应最优控制。 In：程序。IEEE第十一届数据驱动控制和学习系统会议（DDCLS），成都，2022年，第836-841页。内政部：10.1109/DDCLS55054.2022.9858418
Y.Lv、J.Na、Q.Yang、X.Wu和Y.Guo:具有完全未知动态的连续非线性系统的在线自适应最优控制。《国际期刊控制》89（2016），99-112。内政部：10.1080/00207179.2015.1060362
R.Luo、Z.Peng和J.Hu:基于模型辨识的最优控制及其在多智能体学习和控制中的应用。数学11（2023），906。 DOI:10.3390/道路11040906
W.Makumi、M.L.Greene、Z.Bell、B.Bialy、R.Kamalapurkar和W.Dixon:分层强化学习并获得高超声速飞行器的基于调度的控制。 AIAA SCITECH 2023论坛，马里兰州国家港湾和在线，2023年1月11日。内政部：10.2514/6.2023-2505
Y.Ouyang、L.Dong和C.Sun:基于批判性学习的机器人机械手控制，具有规定的约束条件。 IEEE传输。赛博。52 (2022), 2274-2283. 内政部：10.1109/TCYB.2020.3003550
彭日成、罗日成、胡日成、石克勤和戈什:基于事件触发强化学习的离散多智能体系统分布式最优跟踪控制。 IEEE传输。电路系统。I-Regul公司。巴普。69 (2022), 3689-3700. 内政部：10.1109/TCSI.2022.3177407
Z.Peng、R.Luo、J.Hu、K.Shi、S.K.Nguang和B.K.Ghosh:基于内部强化Q学习的非线性多智能体系统的最优跟踪控制。 IEEE传输。神经网络。学习。系统。33 (2022), 4043-4055. DOI:10.1109/TNNLS.2021.3055761
Z.Peng、Y.Zhao、J.Hu、R.Luo、B.K.Ghosh和S.K.Nguang:使用强化学习方法的多智能体系统基于输入-输出数据的输出反同步控制。 IEEE传输。Ind.通知。17 (2021), 7359-7367. 内政部：10.1109/TII.2021.3050768
沈先生、王晓霞先生、朴智华先生、Y.Yi先生和W.W.Che先生:具有事件触发输出的网络化非线性系统的基于数据驱动的扩展扰动观测器控制。 IEEE传输。系统。人类网络。系统。待发布。内政部：10.1109/TSMC.2022.3222491
R.Song、F.Lewis、Q.Wei、H.G.Zhang、Z.P.Jiang和D.Levine:使用输入输出数据进行连续时间最优控制的多actor-critic结构。 IEEE传输。神经网络。学习。系统。26 (2015), 851-865. 内政部：10.1109/TNNLS.2015.2399020
P.塔布阿达:稳定控制任务的事件触发实时调度。 IEEE传输。自动化。控制52（2007），1680-1685。内政部：10.1109/TAC.2007.904277
K.Wang和C.Mu:与动态触发方法相关的未知非线性系统的事件采样学习。 In：程序。IEEE决策与控制会议（CDC），济州2020，第5200-5205页。数字对象标识码：10.1109/CDC42340.2020.9303929
D.Wang、C.Mu和D.Liu:自适应批评家设计用于解决基于事件的$H_\infty$控制问题。 In：程序。美国控制会议（ACC），2017年西雅图，第2435-2400页。内政部：10.23919/ACC.2017.7963318
X.Wang、W.Qin、J.H.Park和M.Shen:具有未知扰动的离散非线性系统的事件触发数据驱动控制。 ISA事务。128 (2022), 256-264. DOI:10.1016/j.isatra.2021.11.026
P.J.沃博斯:用于实时控制和神经建模的近似动态规划。 In:《智能控制手册：神经、模糊和自适应方法》（D.A.White和D.A.Sofge，Eds.），Van Nostrand Reinhold，纽约，1992年，ch.13。交叉参考
N.Xu、B.Niu、H.Wang、X.Huo和X.Zhao:单网络ADP用于解决完全未知非线性系统的最优事件触发跟踪控制问题。《国际情报杂志》。系统。36 (2021), 4795-4815. 数字对象标识码：10.1002/int.22491
薛S.、罗B.B.、刘D.D.和高Y:基于自适应动态规划的事件触发最优跟踪控制。《国际鲁棒非线性控制杂志》31（2021），7480-7497。内政部：10.1002/rnc.5687
X.Yang和H.He:动态未知非线性系统事件触发鲁棒控制的自适应批评器设计。 IEEE传输。赛博。49 (2019), 2255-2267. 内政部：10.1109/TCYB.2018.2823199
X.Yang、H.He和D.Liu:未知非线性系统的事件触发强化学习最优神经控制设计。 IEEE传输。系统。人类网络。系统。49 (2019), 1866-1878. 内政部：10.1109/TSMC.2017.2774602

凯贝内提卡

日记账

账户

Kybernetika 59 3号, 365-391, 2023

基于辨识器-临界学习的完全未知非线性系统事件触发最优控制

摘要：

关键词：

分类：

参考文献：