×

具有输入约束和不确定性的未知非线性系统基于积分强化学习的保性能控制。 (英语) Zbl 1510.49015号

摘要:本文利用增强学习(RL)算法研究了具有输入约束和扰动的非线性系统的保成本控制(GCC)问题。首先,通过建立一个难以求解的修正Hamilton-Jacobi-Bellman(HJI)方程,设计了一种基于模型的策略迭代(PI)GCC算法,用于输入约束非线性扰动系统。此外,在不需要任何系统动力学知识的情况下,通过设计具有控制律和辅助扰动策略的辅助系统,利用积分强化学习(IRL)算法开发了在线无模型GCC方法。为了实现所提出的控制算法,构造了执行器和扰动神经网络来逼近最优控制输入和最坏情况扰动策略,而临界神经网络用于逼近最优值函数。此外,还提出了一种同步权值更新律,以最小化神经网络近似残差。应用李亚普诺夫方法分析了受控系统的渐近稳定性。最后,通过两个非线性仿真实例验证了该控制方法的有效性和可行性。

MSC公司:

49公里15 常微分方程问题的最优性条件
49升20 最优控制与微分对策中的动态规划
93B52号 反馈控制
93立方厘米 控制理论中的非线性系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 卡恩,S。;Lee,E.,《最优控制:理论及其应用简介》,IEEE Trans。自动。控制,12,3,345-347(1967)
[2] Alt,W。;施耐德,C。;Seydenschwanz,M.,bang-bang解的线性二次型最优控制问题的正则化和隐式欧拉离散化,应用。数学。计算。,287-288, 104-124 (2016) ·Zbl 1410.49007号
[3] 张,H。;张凯。;肖·G。;Jiang,H.,通过即插即用事件采样关键唯一算法实现未知约束输入非线性系统的鲁棒最优控制方案,IEEE Trans。系统。人类网络。系统。,50, 9, 3169-3180 (2020)
[4] 刘,X。;李毅。;张伟,离散系统带约束的随机线性二次型最优控制,应用。数学。计算。,228, 264-270 (2014) ·Zbl 1364.49032号
[5] 王,X。;沈,M。;Xiao,Y。;Rong,L.,综合干预下寨卡病毒感染模型的最优控制和成本效益分析,应用。数学。计算。,359, 165-185 (2019) ·Zbl 1428.92074号
[6] 张宏,刘川,苏宏,张凯,基于回声状态网络的连续非线性大系统分散控制,IEEE Trans。系统。人类网络。系统。待发布。10.1109/TSMC2019.2958484号
[7] 杨,X。;Luo,D.L.B。;Li,C.,通过积分强化学习对一类未知非线性约束输入系统进行基于数据的鲁棒自适应控制,Inf.Sci。,369, 10, 731-747 (2016) ·Zbl 1429.93195号
[8] Liang H.,Liu G.,Zhang H.,Huang T.,具有动态不确定性的非仿射非线性多智能体系统基于神经网络的事件触发自适应控制,IEEE Trans。神经网络。学习。系统。待发布。10.1109/TNNLS.2020.3003950
[9] Liang,H。;Zhang,Y。;黄,T。;Ma,H.,具有输入量化的多智能体系统的规定性能协同控制,IEEE Trans。赛博。,50, 5, 1810-1819 (2020)
[10] 彭,C。;Sun,H.,《恶意拒绝服务攻击下网络控制系统的类交换事件触发控制》,IEEE Trans。自动。控制,65,9,3943-3949(2020)·兹比尔1533.93493
[11] 彭,C。;吴,M。;谢,X。;Wang,Y.,不完全前提匹配网络非线性系统的事件触发预测控制,IEEE Trans。模糊系统。,26, 5, 2797-2806 (2018)
[12] Wu Y.,Pan Y.,Chen M.,Li H.,随机多智能体系统的量化自适应有限时间二部神经网络跟踪控制,IEEE Trans。赛博。待发布。10.1109/TCYB.2020.3008020年10月10日
[13] 魏强。;Wang,L。;刘,Y。;Polycarpou,M.M.,《通过深度异步actor-critic学习实现最佳电梯群控》,IEEE Trans。神经网络。学习。系统。,31, 12, 5245-5256 (2020)
[14] 张,H。;肖·G。;刘,Y。;Liu,L.,输入约束下连续非线性系统基于值迭代的控制器设计,IEEE Trans。系统。人类网络。系统。,50, 11, 3986-3995 (2020)
[15] 魏强,李宏,杨欣,何宏,多控制器非线性系统的连续时间分布式策略迭代,IEEE Trans。赛博。待发布。10.1109/TCYB.2020.2979614
[16] 魏强。;廖,Z。;杨,Z。;李,B。;Liu,D.,连续时间时变策略迭代,IEEE Trans。赛博。,50, 12, 4958-4971 (2020)
[17] 张,H。;梁,Y。;苏,H。;Liu,C.,基于强化学习算法的执行器故障非线性系统的事件驱动保性能控制设计,IEEE Trans。系统。人类网络。系统。,50, 11, 4135-4150 (2020)
[18] Li Y.,Gao W.,Huang S.,Wang R.,Gevorgian V.,Gao W.,基于深度强化学习方法的虚拟同步发电机数据驱动最优控制策略,J.Mod电力系统。清洁能源,即将出版。10.35833/MPCE.2020.000267
[19] 张,H。;崔,L。;Luo,Y.,使用单网络ADP的连续非线性系统非零和微分对策的近最优控制,IEEE Trans。赛博。,43, 1, 206-216 (2013)
[20] 魏强。;宋,R。;廖,Z。;李,B。;Lewis,F.L.,离散时间脉冲自适应动态规划,IEEE Trans。赛博。,50, 10, 4293-4306 (2020)
[21] 张,H。;崔,L。;张,X。;Luo,Y.,使用自适应动态规划方法的未知一般非线性系统的数据驱动鲁棒近似最优跟踪控制,IEEE Trans。神经网络。,22, 12, 2226-2236 (2011)
[22] 张,H。;秦,C。;Luo,Y.,使用双重启发式规划的离散时间切换非线性系统基于神经网络的约束最优控制方案,IEEE Trans。自动。科学。工程,11,3,839-849(2014)
[23] Sutton,R.S。;Barto,A.G.,《强化学习:简介》,IEEE Trans。神经网络。,9, 5, 1054 (1998)
[24] 张杰。;王,Z。;Zhang,H.,《基于数据的多智能体系统优化控制:强化学习设计方法》,IEEE Trans。赛博。,49, 12, 4441-4449 (2019)
[25] 阿迪布,F.Y。;Braun,J.D.,一类连续时间输入约束最优控制问题的强化学习,Automatica,99221-227(2019)·Zbl 1408.49023号
[26] 罗,B。;刘博士。;黄,T。;Liu,J.,基于自适应动态规划和多步策略评估的输出跟踪控制,IEEE Trans。系统。人类网络。系统。,49, 10, 2155-2165 (2019)
[27] 崔,X。;张,H。;罗,Y。;Jiang,H.,具有扰动和输入约束的不确定非线性系统(H_infty\)跟踪设计的自适应动态规划,Int.J.Adapt。控制信号处理。,31, 11, 1567-1583 (2017) ·Zbl 1386.93156号
[28] 肖·G。;张,H。;张凯。;Wen,Y.,基于值迭代的连续非线性系统(H_)控制器设计积分强化学习方法,神经计算,285,51-59(2018)
[29] 刘,C。;张,H。;肖·G。;Sun,S.,基于积分强化学习的输入受限的未知非线性互联大系统分散最优跟踪控制,神经计算,323,5,1-11(2019)
[30] 谢,X。;岳,D。;Park,J.H.,基于相邻瞬间联合切换机制的离散时间模糊系统基于观测器的状态估计,IEEE Trans。赛博。,50, 8, 3545-3555 (2020)
[31] 刘,Y。;夏,J。;B·孟。;宋,X。;Shen,H.,通过记忆采样数据控制方案实现半马尔可夫跳变复杂动态网络的扩展耗散同步,J.Frankl。Inst.,357,15109000-10920(2020)·Zbl 1450.93082号
[32] 王荣,孙强,涂平,肖杰,桂毅,王平,直流微电网非均匀初始条件下大型变流器的降阶聚合模型,IEEE Trans。能量转换。即将发布。10.1109/TEC.2021.3050434号
[33] 王,R。;孙,Q。;马·D。;Liu,Z.,下垂控制变换器在电磁时间尺度下的小尺寸稳定性分析,IEEE Trans。维持。能源,10,3,1459-1469(2019)
[34] 弗拉比,D。;帕斯特拉瓦努布,O。;阿布·哈拉夫,M。;Lewis,F.,基于策略迭代的连续线性系统自适应最优控制,Automatica,45,2,477-484(2009)·Zbl 1158.93354号
[35] 弗拉比,D。;Lewis,F.L.,部分未知非线性系统连续时间直接自适应最优控制的神经网络方法,神经网络。,22, 3, 237-246 (2009) ·Zbl 1335.93068号
[36] 刘,L。;刘,Y。;陈,A。;唐,S。;Chen,C.,切换非线性系统基于积分势垒Lyapunov函数的自适应控制,科学。中国信息科学。,63, 3, 132203:1-132203:14 (2020)
[37] 刘,L。;李,X。;刘,Y。;Tong,S.,一类电磁悬架系统基于神经网络的自适应事件触发控制,控制工程实践。,106, 104675 (2021)
[38] Han,J。;刘,X。;高,X。;Wei,X.,带有向图的非线性多智能体系统基于中间观测器的鲁棒分布式故障估计,IEEE Trans。Ind.Inf.,16,12,7426-7436(2020年)·Zbl 1228.81208号
[39] 刘,X。;高,X。;Han,J.,一类非线性多智能体系统的分布式故障估计,IEEE Trans。系统。人类网络。系统。,50, 9, 3382-3390 (2020)
[40] Yang,G。;Wang,J。;Soh,Y.,不确定非线性系统的可靠保性能控制,IEEE Trans。自动。控制,45,11,2188-2192(2000)·Zbl 0991.93035号
[41] 朱,B。;Zhang,X.,不确定T-S模糊广义互联系统的分散鲁棒保性能控制器设计,国际期刊信息系统。,1, 1, 73-88 (2005) ·兹比尔1139.93333
[42] 孙S.,张海,秦忠,Xi R.,多区间时变时滞不确定切换T-S模糊系统的时滞相关H∞保性能控制,IEEE Trans。模糊系统。待发布。10.1109/TFUZZ.2020.2968877号
[43] Wen,S。;郭,G。;Gao,B.C.X.,《随机介质接入协议网络系统的保证成本控制:方法和应用》,第13、2、258-268页(2019年)·Zbl 1434.93090号
[44] 王,D。;Liu,D.,《利用基于事件的自适应关键技术实现学习和保证成本控制》,IEEE Trans。神经网络。学习。系统。,29, 12, 6004-6014 (2018)
[45] 刘博士。;王,D。;Wang,F。;李,H。;Yang,X.,基于神经网络的连续时间不确定非线性系统最优鲁棒保成本控制的在线HJB解,IEEE Trans。赛博。,44, 12, 2834-2847 (2014)
[46] 杨,X。;刘博士。;魏强。;Wang,D.,使用自适应动态规划的一类不确定非线性系统的保成本神经跟踪控制,神经计算,198,80-90(2016)
[47] 张,H。;曲,Q。;肖·G。;Cui,Y.,具有匹配和非匹配扰动的约束输入非线性系统的最优保成本滑模控制,IEEE Trans。神经网络。学习。系统。,29, 6, 2112-2126 (2018)
[48] 彭,C。;李,J。;Fei,M.,具有能量限制dos攻击的多区域电力系统的弹性事件触发负载频率控制,IEEE Trans。电力系统。,32, 5, 4110-4118 (2017)
[49] 吴,H。;Luo,B.,基于神经网络的在线同步策略更新算法,用于求解非线性H_(infty)控制中的HJI方程,IEEE Trans。神经网络。学习。系统。,23, 12, 1884-1895 (2012)
[50] Wang J.,Wang X.,Xie N.,Xia J.,Shen H.,反应扩散耦合神经网络基于模糊模型的H∞钉扎同步,IEEE Trans。模糊系统。待发布。10.1109/TFUZZ.2020.3036697号
[51] Wang J.,Ru T.,Shen H.,Cao J.,Park J.H.,使用采样数据的半马尔可夫跳跃惯性神经网络的有限时间L2-L∞同步,IEEE Trans。净值。科学。待出版的工程。10.1109/TNSE.2020.3032025
[52] Wang,Y。;胡,X。;Shi,K。;宋,X。;Shen,H.,有限信号持续驻留时间下切换复杂动态网络的基于网络的被动估计,J.Frankl。研究所,357,15,10921-10936(2020)·Zbl 1450.93078号
[53] 阿布·哈拉夫,M。;刘易斯,F.L。;Huang,J.,具有输入饱和的(H_)状态反馈控制的Hamilton-Jacobi-Isaacs方程的策略迭代,IEEE Trans。自动。控制,51,121989-1995(2006)·Zbl 1366.93147号
[54] 莫达雷斯,H。;Lewis,F.,约束输入系统的H_(infty)控制中产生的非二次双层零和对策的在线解,国际期刊Adapt。控制信号处理。,28, 232-254 (2014) ·Zbl 1331.93055号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。