×

基于值迭代的仿射非线性最优控制涉及容许性讨论。 (英语) Zbl 1528.49024号

摘要:本文研究仿射非线性动力学基于值迭代的控制策略的可容许性分析。首先,讨论了非线性和线性系统的一系列容许控制准则。有了这些准则的帮助,与以前的工作相比,更方便地确定迭代控制策略是否是可接受的。其次,一旦迭代控制策略被准则建立为可接受的,使用控制律的闭环系统的稳定性就可以得到保证。此外,在一定条件下,可以得到类似于策略迭代的可容许性和渐近稳定性。最后,给出了两个具有物理背景的数值算例,验证了理论结果的有效性。
{©2022 John Wiley&Sons有限公司}

MSC公司:

49升20 最优控制与微分对策中的动态规划
93D20型 控制理论中的渐近稳定性
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 贝尔曼R。动态编程。普林斯顿大学出版社;1957. ·Zbl 0077.13605号
[2] 哈利勒。非线性系统。普伦蒂斯·霍尔;2002. ·Zbl 1003.34002号
[3] 贾加纳森。非线性离散时间系统的神经网络控制。泰勒和弗朗西斯;2006. ·Zbl 1123.93010号
[4] 刘迪·刘易斯FL。反馈控制的强化学习和近似动态规划。威利;2013
[5] 张赫、刘德、罗伊、王德。用于控制的自适应动态规划。施普林格-维拉格;2013. ·Zbl 1279.49017号
[6] 刘德、魏奇、王德、杨X、李赫。自适应动态规划及其在最优控制中的应用。施普林格;2017. ·Zbl 1390.93003号
[7] KiumarsiB、VamvoudakisKG、ModaresH、LewisFL。使用强化学习的最优和自主控制:一项调查。IEEE Trans Neural Netw学习系统。2018;29(6):2042‐2062.
[8] 佛罗里达州路易斯市、弗拉比德市、弗吉尼亚州瓦姆沃达基斯市。强化学习和反馈控制:使用自然决策方法设计最优自适应控制器。IEEE控制系统杂志2012;32(6):76‐105. ·Zbl 1395.93584号
[9] 林肯B,兰泽A。放松的动态编程。IEEE Trans Automat控制。2006;51(8):1249‐1260. ·Zbl 1366.90208号
[10] 刘德、徐毅、魏强、刘翔。基于自适应动态规划的变气候太阳能住宅能源调度。IEEE/CAA J自动化标准。2018;5(1):36‐46.
[11] LuoB、LiuD、WuH、WangD、LewisFL。基于数据的最优控制的策略梯度自适应动态规划。IEEE Trans Cybern公司。2017;47(10):3341‐3354.
[12] 王德、哈姆、乔杰。事件驱动形式下离散非线性系统的自学习最优调节。IEEE Trans Automat控制。2020;65(3):1272‐1279. ·Zbl 1533.93653号
[13] 王德、贺、刘德。自适应临界非线性鲁棒控制:综述。IEEE Trans Cybern公司。2017;47(10):3429‐3451.
[14] 王德、刘德、魏奇、赵德、金恩。基于自适应动态规划的未知非仿射非线性离散时间系统的最优控制。自动化。2012;48(8):1825‐1832. ·Zbl 1269.49042号
[15] WeiQ、LiuD、LiuY、SongR。通过自适应动态规划实现微电网中的最优约束自学习电池顺序管理。IEEE/CAA J自动化标准。2017;4(2):168‐176.
[16] 王德、赵明、乔杰。非线性废水处理系统的非对称约束智能最优跟踪。国际J鲁棒非线性控制。2021年;31(14):6773‐6787.
[17] WenG、ChenCLP、GeSS。一类动态函数未知的非线性严格反馈系统的简化优化反推控制。IEEE Trans Cybern公司。2021年;51(9):4567‐4580.
[18] 翁、陈丽萍、李斌。一类具有未知动力学的多智能体系统的简化强化学习优化编队控制。IEEE Trans Ind Electron公司。2020;67(9):7879‐7888.
[19] 翁、陈丽萍、林恩。一类随机非线性系统的强化学习简化优化控制。信息科学。2020;517:230‐243. ·Zbl 1461.93555号
[20] WangD、HaM、ZhaoM。高级最优控制的智能评判框架。Artif Intell修订版2022;55(1):1‐22.
[21] 王德、乔杰、程莉。折现保证成本控制设计的近似神经最优解。IEEE Trans Cybern公司。2022;52(1):77‐86。
[22] BertsekasDP。最优控制和自适应动态规划中的值和策略迭代。IEEE Trans Neural Netw学习系统。2017;28(3):500‐509.
[23] 刘德伟(音)。离散时间非线性系统的广义策略迭代自适应动态规划。IEEE Trans-Syst Man-Cybern系统。2015;45(12):1577‐1591.
[24] 兰泽A。交换系统中的松弛动态规划。IEE过程控制理论应用。2006;153(5):567‐574.
[25] Al-TamimiA、LewisFL、Abu‐KhalafM。使用近似动态规划的离散时间非线性HJB解:收敛证明。IEEE Trans Syst Man Cybern公司。2008;38(4):943‐949。
[26] LiH、LiuD。离散仿射非线性系统的广义值迭代最优控制。IET控制理论应用。2012;6(18):2725‐2736.
[27] WeiQ、LewisFL、LiuD、SongR、LinH。离散时间局部值迭代自适应动态规划:收敛性分析。IEEE Trans-Syst Man-Cybern系统。2018;48(6):1176‐1190.
[28] 刘德伟(音)。一种新的迭代
离散时间非线性系统的[(θ\]\)自适应动态规划。IEEE Trans-Automat科学工程2014;11(4):1176‐1190.
[29] 刘德伟(音)。离散时间非线性系统最优控制的值迭代自适应动态规划。IEEE Trans Cybern公司。2016;46(3):840‐853.
[30] 使用稳定初始策略在值迭代下的最优自适应控制的稳定性分析。IEEE Trans Neural Netw学习系统。2018;29(9):4522‐4527.
[31] 使用具有近似误差的值迭代进行最优自适应控制的稳定性分析。IEEE Trans Automat控制。2018;63(9):3119‐3126. ·Zbl 1423.49026号
[32] 刘德伟(音)。离散时间非线性系统的策略迭代自适应动态规划算法。IEEE Trans Neural Netw学习系统。2014;25(3):621‐634.
[33] 哈伊姆、旺德、刘德。折扣最优控制的广义值迭代及稳定性分析。系统控制许可。2021年;147:104847. ·Zbl 1454.93226号
[34] 王德、赵明、哈姆、乔杰。通过广义值迭代实现约束非线性系统的折现近最优调节。国际J鲁棒非线性控制。2021年;31(17):8481‐8503.
[35] 王德、何赫、钟X、刘德。事件驱动的非线性折扣最优调节涉及电力系统应用。IEEE Trans Ind Electron公司。2017;64(10):8177‐8186.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。