×

具有未知动态和随机不确定信道的多智能体系统基于ADP的鲁棒一致性。 (英语) Zbl 07821178号

摘要:本文研究具有未知动力学和随机不确定信道的线性离散时间多智能体系统的鲁棒一致性。信号传输信道中不可避免地会出现依赖于主体相对状态的随机乘法不确定性。为了处理这些不确定性,设计了分布式鲁棒控制器。在设计这种鲁棒控制器之前,首先考虑了单智能体系统的最优控制问题。基于自适应动态规划技术,提出了一种无模型的非策略算法,用于求解具有完全未知系统动力学的每个agent的最优控制器。根据均方稳定性理论,揭示了在不依赖系统动态信息的情况下,利用单智能体系统的最优控制器和其他相关参数可以获得分布式鲁棒控制器。此外,通过一个充分条件描述了不确定性与鲁棒控制器之间的关系。最后,为了证明理论分析的有效性,给出了一个数值例子。
©2024 John Wiley&Sons有限公司。

MSC公司:

93C40型 自适应控制/观测系统
90立方厘米 动态编程
93D50型 共识
93C55美元 离散时间控制/观测系统
93二氧化碳 控制理论中的线性系统
93甲16 多代理系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 金S、王S、方F。基于多智能体系统的微电网容量配置博弈分析。国际电力能源系统杂志。2021;125(106485):1‐10.
[2] ChenS,DongJ,HaP,LiY,LabiS。图神经网络和强化学习在互联自主车辆多智能体协同控制中的应用。计算机辅助土木工程2021;36(7):838‐857.
[3] ElhosenyM、MohammedMA、MostafaSA等。一种新的用于心脏病诊断的多代理特征包装机器学习方法。计算,材料控制。2021;67:51‐71.
[4] 王赫、任伟、于伟、张德。一类带定向网络的二阶扰动多智能体系统的完全分布式一致性控制。自动化。2021;132(109816):1‐12. ·Zbl 1478.93644号
[5] DuH、WenG、WuD、ChengY、LüJ。非线性异构多智能体系统的分布式定时一致性。自动化。2020;113(108797):1‐11. ·Zbl 1440.93232号
[6] 翁,陈CLP。针对一类非线性严格反馈动态多智能体系统,使用强化学习优化反步一致性控制。IEEE Trans Neural Netw学习系统。2023;34(3):1524‐1536.
[7] 穆恩祖、帕帕克里斯托多卢阿、奥尔格沃夫。具有通信约束的非线性相对二阶多智能体系统的鲁棒一致控制器设计。IEEE Trans Automat控制。2011年;56(1):145‐151. ·Zbl 1368.93224号
[8] 兰姆,谢尔。数据速率有限的非线性异构多智能体系统的实际输出一致性。自动化。2021;129(109624):1‐10. ·Zbl 1478.93639号
[9] LiD、LiT。随机线性异质多智能体系统的协同输出反馈跟踪控制。IEEE Trans Automat控制。2023;68(1):47‐62. ·Zbl 07733679号
[10] 宗X、李T、张JF。具有加性和乘性测量噪声的连续时间多智能体系统的一致性条件。SIAM J控制优化。2018年;56(1):19‐52. ·Zbl 1386.93281号
[11] MaQ、XuS。有意延迟有利于二阶多智能体系统的一致性。自动化。2023;147(110750):1‐9. ·Zbl 1505.93239号
[12] LiW、NiuY、CaoZ、LvX。基于随机通信协议的多智能体系统的滑模控制。国际J鲁棒非线性控制。2022;32(13):7522‐7535。
[13] MaQ、XuS。二阶时滞多智能体系统的一致性切换。IEEE Trans Cybern公司。2022;52(5):3349‐3353.
[14] 富林斯基,TelejkoT。关于加性噪声和乘性噪声的干扰效果。Phys Lett A.1991;152(1‐2):11‐14.
[15] LiT、WuK、ZhangJF。具有相对状态相关测量噪声的多智能体共识。IEEE传输自动控制。2014;59(9):2463‐2468·Zbl 1360.93033号
[16] LiZ、ChenJ。具有随机不确定信道的多智能体系统的鲁棒一致性。2016年美国控制会议;2016:3722‐3727.
[17] LiZ、ChenJ。在随机不确定网络上通信的多代理系统的鲁棒一致性。SIAM J控制优化。2019;57(5):3553‐3570. ·Zbl 1428.93096号
[18] ModaresH、NageshraoSP、LopesG、GabrielAD、BabuškaR、LewisFL。使用非策略强化学习实现异构系统的最佳无模型输出同步。自动化。2016;第71:334-341页·Zbl 1343.93006号
[19] 高伟、江泽平。通过测量反馈实现时滞系统的自适应最优输出调节。IEEE Trans Neural Netw学习系统。2019;30(3):938‐945.
[20] GaoW、LiuY、OdekunleA、YuY、LuP。离散时间多智能体系统的自适应动态规划和合作输出调节。国际控制,自动系统。2018年;16(5):2273‐2281.
[21] 张杰,王Z,张赫。基于数据的多智能体系统最优控制:强化学习设计方法。IEEE Trans Cybern公司。2019;49(12):4441‐4449.
[22] Zhao F、GaoW、Liu T、JiangZP。基于事件触发输出反馈的线性离散时间系统的自适应最优输出调节。自动化。2022;137(110103):1‐10. ·Zbl 1482.93334号
[23] DjordjevicV、TaoH、SongX、HeS、GaoW、StojanovicV。液压伺服执行器的数据驱动控制:事件触发自适应动态编程方法。Math Biosci Eng.2023;20(5):8561‐8582.
[24] YanB、ShiP、LimCC、ShiZ。基于强化学习的异构多智能体系统最优鲁棒编队控制。国际J鲁棒非线性控制。2022;32(5):2683‐2704。
[25] Zhang K、SunT、TaoY、GencS、MallyaS、BasarT。具有模型不确定性的鲁棒多智能体强化学习。高级神经信息处理系统。2020;33:10571‐10583.
[26] MesbahiM,EgerstedtM。多智能体网络中的图论方法。普林斯顿大学出版社;2010. ·Zbl 1203.93001号
[27] XiaoN、XieL、QiuL。随机乘性信道上多输入系统的均方镇定。第48届IEEE决策与控制大会(CDC)会议记录与2009年第28届中国控制大会联合举行。IEEE;2009:6893‐6898.
[28] VrabieD、VamvoudakisKG、刘易斯FL。最优自适应控制和强化学习原理的微分对策。IET;2013. ·Zbl 1316.49007号
[29] 克莱曼。关于Riccati方程计算的迭代技术。IEEE传输自动控制。1968;13(1):114‐115.
[30] JiangY、KiumarsiB、FanJ、ChaiT、LiJ、LewisFL。使用强化学习对动态未知的线性离散时间系统进行最优输出调节。IEEE Trans Cybern公司。2020;50(7):3147‐3156.
[31] QinJ、LiM、ShiY、MaQ、ZhengW。基于非策略强化学习的输入饱和多智能体系统的最优同步控制。IEEE Trans Neural Netw学习系统。2019;30(1):85‐96.
[32] 路易斯安那州莫达雷什。使用强化学习的部分未知连续时间系统的线性二次跟踪控制。IEEE传输自动控制。2014;59(11):3051‐3056. ·Zbl 1360.93726号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。