王、丁;任、金;哈,明明 基于值迭代的仿射非线性最优控制涉及容许性讨论。 (英语) Zbl 1528.49024号 国际J鲁棒非线性控制 32,编号13,7290-7303(2022). 摘要:本文研究仿射非线性动力学基于值迭代的控制策略的可容许性分析。首先,讨论了非线性和线性系统的一系列容许控制准则。有了这些准则的帮助,与以前的工作相比,更方便地确定迭代控制策略是否是可接受的。其次,一旦迭代控制策略被准则建立为可接受的,使用控制律的闭环系统的稳定性就可以得到保证。此外,在一定条件下,可以得到类似于策略迭代的可容许性和渐近稳定性。最后,给出了两个具有物理背景的数值算例,验证了理论结果的有效性。{©2022 John Wiley&Sons有限公司} MSC公司: 49升20 最优控制与微分对策中的动态规划 93D20型 控制理论中的渐近稳定性 关键词:自适应动态规划;容许控制策略;渐近稳定性;强化学习;值迭代 PDF格式BibTeX公司 XML格式引用 \textit{D.Wang}等,国际鲁棒非线性控制32,No.13,7290--7303(2022;Zbl 1528.49024) 全文: DOI程序 参考文献: [1] 贝尔曼R。动态编程。普林斯顿大学出版社;1957. ·Zbl 0077.13605号 [2] 哈利勒。非线性系统。普伦蒂斯·霍尔;2002. ·Zbl 1003.34002号 [3] 贾加纳森。非线性离散时间系统的神经网络控制。泰勒和弗朗西斯;2006. ·Zbl 1123.93010号 [4] 刘迪·刘易斯FL。反馈控制的强化学习和近似动态规划。威利;2013 [5] 张赫、刘德、罗伊、王德。用于控制的自适应动态规划。施普林格-维拉格;2013. ·Zbl 1279.49017号 [6] 刘德、魏奇、王德、杨X、李赫。自适应动态规划及其在最优控制中的应用。施普林格;2017. ·Zbl 1390.93003号 [7] KiumarsiB、VamvoudakisKG、ModaresH、LewisFL。使用强化学习的最优和自主控制:一项调查。IEEE Trans Neural Netw学习系统。2018;29(6):2042‐2062. [8] 佛罗里达州路易斯市、弗拉比德市、弗吉尼亚州瓦姆沃达基斯市。强化学习和反馈控制:使用自然决策方法设计最优自适应控制器。IEEE控制系统杂志2012;32(6):76‐105. ·Zbl 1395.93584号 [9] 林肯B,兰泽A。放松的动态编程。IEEE Trans Automat控制。2006;51(8):1249‐1260. ·Zbl 1366.90208号 [10] 刘德、徐毅、魏强、刘翔。基于自适应动态规划的变气候太阳能住宅能源调度。IEEE/CAA J自动化标准。2018;5(1):36‐46. [11] LuoB、LiuD、WuH、WangD、LewisFL。基于数据的最优控制的策略梯度自适应动态规划。IEEE Trans Cybern公司。2017;47(10):3341‐3354. [12] 王德、哈姆、乔杰。事件驱动形式下离散非线性系统的自学习最优调节。IEEE Trans Automat控制。2020;65(3):1272‐1279. ·Zbl 1533.93653号 [13] 王德、贺、刘德。自适应临界非线性鲁棒控制:综述。IEEE Trans Cybern公司。2017;47(10):3429‐3451. [14] 王德、刘德、魏奇、赵德、金恩。基于自适应动态规划的未知非仿射非线性离散时间系统的最优控制。自动化。2012;48(8):1825‐1832. ·Zbl 1269.49042号 [15] WeiQ、LiuD、LiuY、SongR。通过自适应动态规划实现微电网中的最优约束自学习电池顺序管理。IEEE/CAA J自动化标准。2017;4(2):168‐176. [16] 王德、赵明、乔杰。非线性废水处理系统的非对称约束智能最优跟踪。国际J鲁棒非线性控制。2021年;31(14):6773‐6787. [17] WenG、ChenCLP、GeSS。一类动态函数未知的非线性严格反馈系统的简化优化反推控制。IEEE Trans Cybern公司。2021年;51(9):4567‐4580. [18] 翁、陈丽萍、李斌。一类具有未知动力学的多智能体系统的简化强化学习优化编队控制。IEEE Trans Ind Electron公司。2020;67(9):7879‐7888. [19] 翁、陈丽萍、林恩。一类随机非线性系统的强化学习简化优化控制。信息科学。2020;517:230‐243. ·Zbl 1461.93555号 [20] WangD、HaM、ZhaoM。高级最优控制的智能评判框架。Artif Intell修订版2022;55(1):1‐22. [21] 王德、乔杰、程莉。折现保证成本控制设计的近似神经最优解。IEEE Trans Cybern公司。2022;52(1):77‐86。 [22] BertsekasDP。最优控制和自适应动态规划中的值和策略迭代。IEEE Trans Neural Netw学习系统。2017;28(3):500‐509. [23] 刘德伟(音)。离散时间非线性系统的广义策略迭代自适应动态规划。IEEE Trans-Syst Man-Cybern系统。2015;45(12):1577‐1591. [24] 兰泽A。交换系统中的松弛动态规划。IEE过程控制理论应用。2006;153(5):567‐574. [25] Al-TamimiA、LewisFL、Abu‐KhalafM。使用近似动态规划的离散时间非线性HJB解:收敛证明。IEEE Trans Syst Man Cybern公司。2008;38(4):943‐949。 [26] LiH、LiuD。离散仿射非线性系统的广义值迭代最优控制。IET控制理论应用。2012;6(18):2725‐2736. [27] WeiQ、LewisFL、LiuD、SongR、LinH。离散时间局部值迭代自适应动态规划:收敛性分析。IEEE Trans-Syst Man-Cybern系统。2018;48(6):1176‐1190. [28] 刘德伟(音)。一种新的迭代离散时间非线性系统的[(θ\]\)自适应动态规划。IEEE Trans-Automat科学工程2014;11(4):1176‐1190. [29] 刘德伟(音)。离散时间非线性系统最优控制的值迭代自适应动态规划。IEEE Trans Cybern公司。2016;46(3):840‐853. [30] 使用稳定初始策略在值迭代下的最优自适应控制的稳定性分析。IEEE Trans Neural Netw学习系统。2018;29(9):4522‐4527. [31] 使用具有近似误差的值迭代进行最优自适应控制的稳定性分析。IEEE Trans Automat控制。2018;63(9):3119‐3126. ·Zbl 1423.49026号 [32] 刘德伟(音)。离散时间非线性系统的策略迭代自适应动态规划算法。IEEE Trans Neural Netw学习系统。2014;25(3):621‐634. [33] 哈伊姆、旺德、刘德。折扣最优控制的广义值迭代及稳定性分析。系统控制许可。2021年;147:104847. ·Zbl 1454.93226号 [34] 王德、赵明、哈姆、乔杰。通过广义值迭代实现约束非线性系统的折现近最优调节。国际J鲁棒非线性控制。2021年;31(17):8481‐8503. [35] 王德、何赫、钟X、刘德。事件驱动的非线性折扣最优调节涉及电力系统应用。IEEE Trans Ind Electron公司。2017;64(10):8177‐8186. 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。