×

基于数据的不确定离散时间系统的自适应动态规划鲁棒最优控制。 (英语) Zbl 1531.93069号

摘要:本文提出了一种新的基于数据的自适应动态规划算法,用于求解具有不确定性的离散时间系统的最优控制策略。首先,针对不确定系统,设计了相应的哈密顿函数,然后得到了鲁棒自适应动态规划算法。其次,利用系统的输入和输出数据,构造了基于数据的Bellman方程,并推导出了不需要系统精确模型的基于数据的鲁棒自适应动态规划算法。最后,通过仿真实例验证了该算法的有效性。
{©2021 John Wiley&Sons有限公司}

MSC公司:

93立方厘米35 灵敏度(稳健性)
93C55美元 离散时间控制/观测系统
93C40型 自适应控制/观测系统
49升20 最优控制与微分对策中的动态规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 刘易斯LF、VrabieD、SyrmosV。最优控制。威利;2012
[2] WeiQ、WangL、LiuY、PolycarpouM。通过深度异步actor critical学习实现最佳电梯群控。IEEE Trans Neural Netw学习系统。2020;31(12):5245‐5256.
[3] 朱,赵德,贺。离散时间最优控制的不变自适应动态规划。IEEE Trans-Syst Man-Cybern系统。2020;50(11):3959‐3971。
[4] SongR、ZhuL。基于ADP的离散非线性系统的最优定点跟踪控制。IEEE/CAA J Automat公司。2019;6(3):657‐666.
[5] YangX,HeH。使用强化学习的一类非线性互联系统的分散事件触发控制。IEEE Trans Cybern公司。2021;51(2):635‐648.
[6] WeiQ、SongR、LiaZ、LiB、LewisFL。离散时间脉冲自适应动态规划。IEEE Trans Cybern公司。2020;50(10):4293‐4306.
[7] 张赫、梁毅、苏赫、刘C。基于强化学习算法的非线性执行器故障系统的事件驱动保性能控制设计。IEEE Trans-Syst Man-Cybern系统。2019;50(11):4135‐4150.
[8] YangX、HeH、ZhongX。非线性约束优化的近似动态规划。IEEE Trans Cybern公司。2021;51(5):2419‐2432.
[9] 刘X、朱伟、陈杰、郑Q、王C。基于网络物理系统的区域发电Q学习控制方法。沈阳工业大学学报。2021;43(02):138‐143。
[10] 刘伟(LiuW)、SunY、AnX、GaoX、SunX。基于FA-IACS算法的车辆路径优化问题。沈阳工业大学学报。2020;42(04):442‐447.
[11] ZhengY、YuX、MaS、HanZ、DongY。变电站故障报警检测机器人的自主运动规划。沈阳工业大学学报。2021;43(01):6‐11.
[12] ZhangK、SuR、ZhangH、TianY。具有迭代单关键学习框架的自动车辆自适应弹性事件触发控制设计。IEEE跨神经网络学习系统。2021https://doi.org/10.109/TNNLS.2021.3053269 ·doi:10.1109/TNNLS.2021.3053269
[13] ZhangK、SuR、ZhangH。针对一类具有部分未知信息的马尔可夫跳跃系统,提出了一种新的弹性控制方案。IEEE Trans Cybern公司。2021https://doi.org/10.109/TCYB.2021.3050619 ·doi:10.10109/TCB.2021.3050619文件
[14] DongL、TangY、HeH、SunC。使用辅助ADP进行负载频率控制的事件触发方法。IEEE输电系统。2017;32(1):581‐589.
[15] DongL、ZhongX、SunC、HeH。具有控制约束的连续时间系统的事件触发自适应动态规划。IEEE Trans Neural Netw学习系统。2017;28(8):1941‐1952.
[16] DongL、YuanX、SunC。通过演员评论设计实现事件触发的后退视野控制。科学中国信息科学。2020;63(5):150210.
[17] WeiQ、LiH、YangX、HeH。多控制器非线性系统的连续时间分布式策略迭代。IEEE Trans Cybern公司。2021;515:2372‐2383.
[18] 张赫、江赫、罗C、小G。使用基于策略迭代的自适应动态规划算法的多人离散时间非零和游戏。IEEE Trans Cybern公司。2017;47(10):3331‐3340.
[19] WeiQ、LiaZ、YangZ、LiB、LiuD。连续时变策略迭代。IEEE Trans Cybern公司。2020;50(12):4958‐4971。
[20] 罗波、杨毅、吴赫、黄特。平衡离散时间控制的值迭代和策略迭代。IEEE Trans-Syst Man-Cybern系统。2020;50(11):3948‐3958.
[21] 刘德伟(音)。离散时间非线性系统的策略迭代自适应动态规划算法。IEEE Trans Neural Netw学习系统。2014;25(3):621‐634.
[22] 张赫、小刚、刘毅、刘莉。具有输入约束的连续时间非线性系统基于值迭代的(H_{\operatorname{\infty}})控制器设计。IEEE Trans-Syst Man-Cybern系统。2020;50(11):3986‐3995.
[23] 江泽平,BianT。连续时间非线性系统的强化学习和自适应最优控制:一种值迭代方法。IEEE Trans Neural Netw学习系统。2021https://doi.org/10.109/TNNLS.2020.3045087 ·doi:10.1109/TNNLS.2020.3045087
[24] 罗波、杨毅、刘德。线性离散时间系统基于数据的两人零和博弈的策略迭代Q学习。IEEE Trans Cybern公司。2020https://doi.org/10.109/TCYB.2020.2970969 ·doi:10.1109/TCYB.2020.2970969
[25] SongR、WeiQ、ZhangH、LewisFL。动力学完全未知的离散时间非零和博弈。IEEE Trans Cybern公司。2019;51(6):2929-2943。
[26] 张赫、刘毅、小庚、江赫。一类多时滞离散时间系统的基于数据的自适应动态规划。IEEE Trans-Syst Man-Cybern系统。2020;50(2):432‐441.
[27] 刘毅、张赫、YuR、XingZ。基于数据的自适应动态规划对离散时滞系统的H∞跟踪控制。IEEE Trans-Syst Man-Cybern系统。2020;50(11):4078‐4085.
[28] WeiQ、LiaoZ、SongR、Zhang P、WangZ、XiaoJ。通过基于数据的自适应动态规划实现冰蓄冷空调系统的自学习最优控制。IEEE Trans Ind Electron公司。2021;68(4):3599‐3608.
[29] WeiQ、LiaoZ、ShiG。智能家居能源管理中的广义行为批评学习最优控制。IEEE Trans Ind信息。2020https://doi.org/10.1109/TI.2020.3042631 ·doi:10.1109/TII.2020.3042631
[30] WeiQ、LiT、LiuD。通过人类表情学习空调系统的控制。IEEE Trans Ind Electron公司。2020https://doi.org/10.109/TIE.2020.3001849 ·doi:10.1109/TIE.2020.3001849
[31] 刘毅、邢姿、陈雷、徐杰、李毅、王赫。通过基于数据的策略迭代对一类离散时间系统进行H∞控制,并将其应用于风力涡轮机控制。IEEE接入。2020;8:14565‐14572.
[32] 布珊·辛格。无人直升机参数不确定性的随机概率方法。最优控制应用方法。2021;42:376‐394. ·Zbl 1469.93082号
[33] WangX、WeiH、。植保机械喷洒臂的鲁棒保性能控制。沈阳工业大学学报。2019;41(06):669‐674.
[34] RohmanFS、SataSA、OthmanMR、AzizN。用无导数估计优化不确定性自催化。最优控制应用方法。2021;42:180‐194. ·Zbl 1469.93105号
[35] NieR、AiQ、HeS、YanZ、LuanX、LiuF。基于观测器的滑模技术对不确定时滞切换系统的鲁棒有限时间控制和估计。最优控制应用方法。2020;41:1813‐1830. ·Zbl 1470.93041号
[36] 张赫、张克、小刚、江赫。未知约束输入非线性系统的鲁棒最优控制方案,通过即插即用事件采样仅限评论算法实现。IEEE Trans-Syst Man-Cybern系统。2020;50(9):3169‐3180.
[37] 黄Y。基于并行学习的自适应动态规划的不确定非线性系统最优保成本控制。IET控制理论应用。2018;12:1025‐1035.
[38] MuC、ZhangY、GaoZ、SunC。一类具有非匹配不确定性的非线性系统的基于ADP的鲁棒跟踪控制。IEEE Trans-Syst Man-Cybern系统。2020;50(11):4056‐4067。
[39] 江毅、江泽平。鲁棒自适应动态规划。John Wiley&Sons公司;2017. ·Zbl 1406.90003号
[40] 黄X,DongJ。基于ADP的部分未知非线性系统协同交互设计鲁棒弹性控制。IEEE Trans-Syst Man-Cybern系统。2020https://doi.org/10.109/TSMC.2020.2970040 ·doi:10.1109/TSMC.2020.2970040
[41] CuiL,ZhangY,WangX,等。不确定非线性互联系统的事件触发分布式自学习鲁棒跟踪控制。应用数学计算。2021;395:125871. ·Zbl 1508.91076号
[42] 薛斯、罗波、刘德。非匹配不确定非线性连续时间系统的事件触发自适应动态规划。IEEE Trans Neural Netw学习系统。2020https://doi.org/10.109/TNNLS.2020.3009015 ·doi:10.1109/TNNLS.2020.3009015
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。