×

\马尔可夫跳跃系统(H_{infty})最优输出跟踪控制:一种基于强化学习的方法。 (英语) Zbl 07843921号

摘要:本文研究了马尔可夫跳变系统的(H_{infty})最优输出跟踪控制问题,其中考虑了转移概率已知或完全未知的两种情况。基于博弈论和(H_{infty})性能,考虑了二次成本,在二次成本中引入折扣参数,以跟踪不稳定系统并消除噪声能量有界的假设。通过动态规划给出了博弈耦合的代数Riccati方程及其相应的控制器。进一步研究了跟踪误差系统的随机稳定性。此外,针对转移概率已知或完全未知的(H_{infty})最优跟踪控制器,分别提出了迭代算法和基于强化学习的算法。最后,对一台直流电机进行了数值仿真,以验证所提结果的有效性。
©2024 John Wiley&Sons有限公司。

MSC公司:

93B36型 \(H^\infty)-控制
93E20型 最优随机控制
93E15型 控制理论中的随机稳定性
68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] LoparoKA FangY。跳跃线性系统的随机稳定性。IEEE Trans Automat控制。2002年;47(7):1204‐1208. ·Zbl 1364.93844号
[2] LoparoKA FangY。连续时间跳跃线性系统的稳定性。IEEE Trans Automat控制。2002年;47(10):1590‐1603. ·Zbl 1364.93632号
[3] HouZ、LuoJ、ShiP、NguangSK。具有半马尔可夫跳跃参数的伊藤微分方程的随机稳定性。IEEE Trans Automat控制。2006;51:1383‐1387. ·Zbl 1366.60082号
[4] LiF、WuL、ShiP。具有模式相关时滞的半马尔可夫跳跃系统的随机稳定性。国际J鲁棒非线性控制。2014;24(18):3317‐3330. ·Zbl 1302.93229号
[5] WuX、ShiP、TangY、MaoS、QianF。半马尔可夫跳跃随机非线性系统的稳定性分析。IEEE Trans Automat控制。2022;67(4):2084‐2091. ·Zbl 07564829号
[6] 田毅、颜赫、张赫、程杰、沈赫。具有随机模式相关时滞的隐半马尔可夫跳变系统的异步输出反馈控制。IEEE Trans Automat控制。2021年;67:4107‐4114. ·Zbl 07599402号
[7] 田毅、颜浩、张浩、王明、易杰。分段齐次半马尔可夫跳跃线性系统的时变增益控制器综合。自动化。2022;146:110594. ·Zbl 1504.93393号
[8] 程杰、ParkJH、WuZG。奇异摄动Markov跳跃Lur'e系统的有限时间控制。IEEE Trans Automat控制。2023;68(11):6804‐6811.
[9] 程杰,谢L,张D,严H。奇异半马尔可夫跳跃系统滑模控制的新型事件触发协议。自动化。2023;151:110906. ·兹比尔1526.93146
[10] SunQ、LimCC、ShiP、LiuF。马尔可夫跳变线性系统动时域估计器的设计与稳定性。IEEE Trans Automat控制。2018;64(3):1109‐1124. ·Zbl 1482.93611号
[11] BalenzuelaMP、WillsAG、RentonC、NinnessB。跳马尔可夫线性系统的一种新的平滑算法。自动化。2022;140:110218. ·Zbl 1485.93557号
[12] ShenY、WuZG、ShiP、AhnCK。概率不确定马尔可夫跳跃系统的模型降阶。IEEE Trans Automat控制。2019年;65(1):382‐388. ·Zbl 1483.93047号
[13] ShenY、WuZG、MengD。不确定2-D马尔可夫跳跃系统的非同步模型降阶。IEEE Trans Cybern公司。2022;52(10):10177‐10186. doi:10.1109/TCYB.2021.3069784
[14] 方赫、张明、贺斯、栾X、刘芳、丁Z。解决潮汐涡轮机系统的零和控制问题:在线强化学习方法。IEEE Trans Cybern公司。2022;53(12):7635‐7647. doi:10.1109/TCYB.2022.3186886
[15] OliveiraRC、VargasAN、doValJBR、PeresPLD。独立于模式
[( {H} _2建模为马尔可夫跳跃线性系统的直流电机的控制。IEEE变速器控制系统技术。2014;22:1915‐1919.
[16] CostaOLV、FragosoMD、MarquesRP。离散时间马尔可夫跳跃线性系统。施普林格科技与商业媒体;2006
[17] CostaOLV、FragosoMD、TodorovMG。连续时间马尔可夫跳跃线性系统。施普林格科技与商业媒体;2012
[18] WeerenA StoorvogelAA公司。离散时间Riccati方程与
[({高}_{\infty}\]\)控制问题。IEEE Trans Automat控制。1994;39:686‐691. ·兹伯利0815.93029
[19] De SouzaCE,弗拉戈索医学博士。具有马尔可夫跳变参数线性系统的H_∞控制。控制理论先进技术。1993;9(2):457‐466.
[20] FragosoMD、doValJBR、PintoDL。线性跳跃
[( {高}_{\infty}\]\)控制:离散时间情况。控制理论先进技术。1995;10(第4部分第3节):1459‐1474。
[21] CostaOLV,doValJBR。完整信息
[( {高}_离散时间无限马尔可夫跳跃参数系统的{\infty}\]\)控制。数学分析应用杂志。1996年;202:578‐603. ·Zbl 0862.93025号
[22] BoukasEK ShiP。参数不确定马尔可夫跳跃线性系统的H_∞控制。最优化理论应用杂志。1997;95:75‐99. ·Zbl 1026.93504号
[23] 成本OLV,MarquesRP。混合的
[( {H} _2/{高}_{\infty}\]\)离散时间马尔可夫跳变线性系统的控制。IEEE Trans Automat控制。1998;43:95‐100. ·Zbl 0907.93062号
[24] 黄毅、张伟、冯。无限地平线
[( {H} _2/{高}_{\infty}\]\)具有马尔可夫跳的随机系统的控制。自动化。2008;44:857‐863. ·Zbl 1283.93253号
[25] LuanX、Zhao S、LiuF。具有不确定转移概率的离散时间马尔可夫跳跃系统的H_∞控制。IEEE Trans Automat控制。2013年;58:1566‐1572. ·Zbl 1369.93178号
[26] 成本OLV,MarquesRP。递归算法
[( {高}_{\infty}\]\)离散时间耦合代数Riccati方程。IFAC Proc Vol.1999年;32:4953‐4958.
[27] TanN、ZhongZ、PengY、LiZ、NiF。冗余机械臂容错跟踪控制的离散无模型方案。IEEE Trans Industr信息。2022;18:8595‐8606.
[28] HuangZ、BauerR、PanY。应用于多移动机器人的事件触发编队跟踪控制。IEEE Trans Ind Electron公司。2022;70:846‐854.
[29] BoukasEK。马尔可夫跳跃系统的参考模型跟踪。国际系统科学杂志。2007;40:393‐401. ·Zbl 1172.93344号
[30] FuY、LiCJ。具有随机推力器故障的航天器轨迹跟踪控制问题的参数化方法。IET控制理论应用。2016;10:2331‐2338.
[31] 王Z、袁毅、杨赫。具有执行器故障和未建模动力学的严格反馈马尔可夫跳跃非线性系统的自适应模糊跟踪控制。IEEE Trans Cybern公司。2020;50(1):126‐139.
[32] BalenzuelaMP、WillsAG、RentonC、NinnessB。跳跃马尔可夫线性系统的参数估计。自动化。2022;135:109949. ·Zbl 1478.93678号
[33] CostaOLV,AyaJC公司。蒙特卡洛TD
离散时间马尔可夫跳跃线性系统最优控制的[(lambda)]\)方法。自动化。2002年;38(2):217‐225. ·Zbl 0991.93124号
[34] BeirigoRL、TodorovMG、BarretoAMS。在线TD
离散时间马尔可夫跳跃线性系统的[(lambda)\]\)。论文发表于:2018年IEEE决策与控制会议(CDC)。2018
[35] ChenJ、HeT、LiuF。基于观察者的稳健
[({高}_基于模糊李亚普诺夫函数的不确定马尔可夫跳跃系统的{\infty}\]\)控制。Trans-Inst测量控制。2019年;41(3):657‐667. doi:10.1177/0142331218765610
[36] ZhangK、ZhangH、CaiY、SuR。基于积分RL方法的耦合马尔可夫跳跃系统模态相关控制的并行最优跟踪控制方案。IEEE Trans-Autom科学工程2019;17(3):1332‐1342.
[37] CostaOLV,doValJBR。随机输入离散马尔可夫系统的跳跃LQ最优控制。Stochast分析应用。1998;16:843‐858. ·Zbl 0913.93079号
[38] KiumarsiB、LewisFL、ModaresH、KarinpurA、Naghibi‐SistaniMB。具有未知动力学的线性离散时间系统最优跟踪控制的强化Q学习。自动化。2014;50:1167‐1175. ·Zbl 1417.93134号
[39] 张磊、杨特、施普、朱莉。具有复杂转移概率的马尔可夫跳跃系统的分析与设计。施普林格;2016:54. ·Zbl 1343.93003号
[40] CheneyEW。应用数学分析。施普林格;2001. ·Zbl 0984.46006号
[41] 贝特斯卡斯D。动态规划:确定性和随机模型。普伦蒂斯·霍尔;1987. ·Zbl 0649.93001号
[42] KiumarsiB、LewisFL、JiangZP。线性离散时间系统的H_∞控制:非策略强化学习。自动化。2017;78:144‐152. ·Zbl 1357.93034号
[43] 克莱曼D。关于Riccati方程计算的迭代技术。IEEE Trans Automat控制。1968;13(1):114‐115.
[44] 罗文武(音)。学习线性连续时间解的同时策略更新算法
[( {高}_{\infty}\]\)状态反馈控制。通知科学。2013年;222:472‐485. ·Zbl 1293.93275号
[45] ZeidlerE。非线性泛函分析及其应用I:不动点定理。施普林格;1986. ·Zbl 0583.47050号
[46] 巴托·萨顿。强化学习:简介。麻省理工学院出版社;2018. ·Zbl 1407.68009号
[47] BoukasEK,Zhang L。转移概率部分未知的马尔可夫跳跃线性系统的稳定性和镇定。自动化。2009;45(2):463‐468. ·Zbl 1158.93414号
[48] CostaOLV,弗拉戈索医学博士。无限马尔可夫跳跃参数系统的离散时间LQ最优控制问题。IEEE Trans Automat控制。1995;40(12):2076‐2088. ·Zbl 0843.93091号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。