文件Zbl 1528.49024-zbMATH Open

基于值迭代的仿射非线性最优控制涉及容许性讨论。（英语） Zbl 1528.49024号

国际J鲁棒非线性控制 32，编号13，7290-7303（2022）.

摘要：本文研究仿射非线性动力学基于值迭代的控制策略的可容许性分析。首先，讨论了非线性和线性系统的一系列容许控制准则。有了这些准则的帮助，与以前的工作相比，更方便地确定迭代控制策略是否是可接受的。其次，一旦迭代控制策略被准则建立为可接受的，使用控制律的闭环系统的稳定性就可以得到保证。此外，在一定条件下，可以得到类似于策略迭代的可容许性和渐近稳定性。最后，给出了两个具有物理背景的数值算例，验证了理论结果的有效性。
{©2022 John Wiley&Sons有限公司}

MSC公司：

49升20	最优控制与微分对策中的动态规划
93D20型	控制理论中的渐近稳定性

关键词：

自适应动态规划；容许控制策略；渐近稳定性；强化学习；值迭代

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	贝尔曼R。动态编程。普林斯顿大学出版社；1957. ·Zbl 0077.13605号
[2]	哈利勒。非线性系统。普伦蒂斯·霍尔；2002. ·Zbl 1003.34002号
[3]	贾加纳森。非线性离散时间系统的神经网络控制。泰勒和弗朗西斯；2006. ·Zbl 1123.93010号
[4]	刘迪·刘易斯FL。反馈控制的强化学习和近似动态规划。威利；2013
[5]	张赫、刘德、罗伊、王德。用于控制的自适应动态规划。施普林格-维拉格；2013. ·Zbl 1279.49017号
[6]	刘德、魏奇、王德、杨X、李赫。自适应动态规划及其在最优控制中的应用。施普林格；2017. ·Zbl 1390.93003号
[7]	KiumarsiB、VamvoudakisKG、ModaresH、LewisFL。使用强化学习的最优和自主控制：一项调查。IEEE Trans Neural Netw学习系统。2018;29(6):2042‐2062.
[8]	佛罗里达州路易斯市、弗拉比德市、弗吉尼亚州瓦姆沃达基斯市。强化学习和反馈控制：使用自然决策方法设计最优自适应控制器。IEEE控制系统杂志2012；32(6):76‐105. ·Zbl 1395.93584号
[9]	林肯B，兰泽A。放松的动态编程。IEEE Trans Automat控制。2006;51(8):1249‐1260. ·Zbl 1366.90208号
[10]	刘德、徐毅、魏强、刘翔。基于自适应动态规划的变气候太阳能住宅能源调度。IEEE/CAA J自动化标准。2018;5(1):36‐46.
[11]	LuoB、LiuD、WuH、WangD、LewisFL。基于数据的最优控制的策略梯度自适应动态规划。IEEE Trans Cybern公司。2017;47(10):3341‐3354.
[12]	王德、哈姆、乔杰。事件驱动形式下离散非线性系统的自学习最优调节。IEEE Trans Automat控制。2020;65(3):1272‐1279. ·Zbl 1533.93653号
[13]	王德、贺、刘德。自适应临界非线性鲁棒控制：综述。IEEE Trans Cybern公司。2017;47(10):3429‐3451.
[14]	王德、刘德、魏奇、赵德、金恩。基于自适应动态规划的未知非仿射非线性离散时间系统的最优控制。自动化。2012;48(8):1825‐1832. ·Zbl 1269.49042号
[15]	WeiQ、LiuD、LiuY、SongR。通过自适应动态规划实现微电网中的最优约束自学习电池顺序管理。IEEE/CAA J自动化标准。2017;4(2):168‐176.
[16]	王德、赵明、乔杰。非线性废水处理系统的非对称约束智能最优跟踪。国际J鲁棒非线性控制。2021年；31(14):6773‐6787.
[17]	WenG、ChenCLP、GeSS。一类动态函数未知的非线性严格反馈系统的简化优化反推控制。IEEE Trans Cybern公司。2021年；51(9):4567‐4580.
[18]	翁、陈丽萍、李斌。一类具有未知动力学的多智能体系统的简化强化学习优化编队控制。IEEE Trans Ind Electron公司。2020;67(9):7879‐7888.
[19]	翁、陈丽萍、林恩。一类随机非线性系统的强化学习简化优化控制。信息科学。2020;517:230‐243. ·Zbl 1461.93555号
[20]	WangD、HaM、ZhaoM。高级最优控制的智能评判框架。Artif Intell修订版2022；55(1):1‐22.
[21]	王德、乔杰、程莉。折现保证成本控制设计的近似神经最优解。IEEE Trans Cybern公司。2022;52（1）：77‐86。
[22]	BertsekasDP。最优控制和自适应动态规划中的值和策略迭代。IEEE Trans Neural Netw学习系统。2017;28(3):500‐509.
[23]	刘德伟（音）。离散时间非线性系统的广义策略迭代自适应动态规划。IEEE Trans-Syst Man-Cybern系统。2015;45(12):1577‐1591.
[24]	兰泽A。交换系统中的松弛动态规划。IEE过程控制理论应用。2006;153(5):567‐574.
[25]	Al-TamimiA、LewisFL、Abu‐KhalafM。使用近似动态规划的离散时间非线性HJB解：收敛证明。IEEE Trans Syst Man Cybern公司。2008;38（4）：943‐949。
[26]	LiH、LiuD。离散仿射非线性系统的广义值迭代最优控制。IET控制理论应用。2012;6(18):2725‐2736.
[27]	WeiQ、LewisFL、LiuD、SongR、LinH。离散时间局部值迭代自适应动态规划：收敛性分析。IEEE Trans-Syst Man-Cybern系统。2018;48(6):1176‐1190.
[28]	刘德伟（音）。一种新的迭代离散时间非线性系统的[（θ\]\）自适应动态规划。IEEE Trans-Automat科学工程2014；11(4):1176‐1190.
[29]	刘德伟（音）。离散时间非线性系统最优控制的值迭代自适应动态规划。IEEE Trans Cybern公司。2016;46(3):840‐853.
[30]	使用稳定初始策略在值迭代下的最优自适应控制的稳定性分析。IEEE Trans Neural Netw学习系统。2018;29(9):4522‐4527.
[31]	使用具有近似误差的值迭代进行最优自适应控制的稳定性分析。IEEE Trans Automat控制。2018;63(9):3119‐3126. ·Zbl 1423.49026号
[32]	刘德伟（音）。离散时间非线性系统的策略迭代自适应动态规划算法。IEEE Trans Neural Netw学习系统。2014;25(3):621‐634.
[33]	哈伊姆、旺德、刘德。折扣最优控制的广义值迭代及稳定性分析。系统控制许可。2021年；147:104847. ·Zbl 1454.93226号
[34]	王德、赵明、哈姆、乔杰。通过广义值迭代实现约束非线性系统的折现近最优调节。国际J鲁棒非线性控制。2021年；31(17):8481‐8503.
[35]	王德、何赫、钟X、刘德。事件驱动的非线性折扣最优调节涉及电力系统应用。IEEE Trans Ind Electron公司。2017;64(10):8177‐8186.

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：书本；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于值迭代的仿射非线性最优控制涉及容许性讨论。（英语） Zbl 1528.49024号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

基于值迭代的仿射非线性最优控制涉及容许性讨论。 （英语） Zbl 1528.49024号

MSC公司：

关键词：

参考文献：

基于值迭代的仿射非线性最优控制涉及容许性讨论。（英语） Zbl 1528.49024号