×

通过自适应动态规划和事件触发方法对合作竞争网络中的二阶代理进行最优群一致性控制。 (英语) Zbl 1531.93387号

摘要:本文利用事件触发和自适应动态规划方法研究了二阶多智能体系统的最优群体一致性控制问题。该方法仅使用代理之间的交互信息。综合考虑代理之间的合作竞争耦合作用,提出了一种新的跟踪误差函数,以满足群体一致性的要求。在此基础上,我们利用Bellman最优性原理来描述最优群体一致性问题。为了实现该方法,使用actor-critic神经网络实时逼近迭代性能指标函数和控制策略。同时,为每个代理安装了带有过滤功能的事件触发条件,以降低控制成本。因此,actor-critic网络的权重仅在触发事件的瞬间更新。证明了权重估计误差和控制策略估计误差一致最终有界,避免了系统中的Zeno行为。最后,对比仿真结果表明,该方法可以大大减少系统控制策略的更新次数。
{©2022 John Wiley&Sons有限公司}

MSC公司:

93D50型 共识
93甲16 多代理系统
93B70型 网络控制
93C40型 自适应控制/观测系统
49升20 最优控制与微分对策中的动态规划
93元65角 离散事件控制/观测系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 郭杰、林茨、曹明、杨。自主移动机器人的自适应主从编队控制。2010年美国控制会议记录;2010:6822‐6827; IEEE出版社。
[2] ZhuJ、LuJ、YuX。具有邻近图的多智能体非完整系统的群集。IEEE Trans Circuits System I注册。2013;60(1):199‐210. ·Zbl 1468.93047号
[3] 郭克、利克斯、谢尔。超宽带和基于里程计的协作相对定位,应用于多无人机编队控制。IEEE Trans Cybern公司。2020;50(6):2590‐2603.
[4] 马西奥尼普、凯维茨基、吉尔、维哈根姆。基于分解的卫星编队线性时间周期分布式控制方法。IEEE传输控制系统技术。2011;19(3):481‐492。
[5] HuJ和HuX。协同移动传感器目标跟踪中的非线性滤波。自动化。2010;46(12):2041‐2046. ·Zbl 1205.94036号
[6] RenW、BeardRW、AtkinsEM。多智能体协调中共识问题的调查。2005年美国控制会议记录;2005:1859‐1864; IEEE出版社。
[7] 王D、王Z、文C。利用自适应技术对一类具有干扰抑制的不确定非线性多智能体网络进行分布式最优一致性控制。IEEE Trans-Syst Man-Cybern系统。2021;51(7):4389‐4399.
[8] VamvoudakisKG,路易斯安那州。多玩家非零和游戏:耦合Hamilton‐Jacobi方程的在线自适应学习解决方案。自动化。2011;47(8):1556‐1569. ·Zbl 1237.91015号
[9] 高伟、江泽平、刘易斯、王毅。使用自适应动态规划的多智能体系统的合作最优输出调节。2017年美国控制会议记录;2017年:2674‐2679;IEEE出版社。
[10] 张赫、张杰、杨刚、罗毅。基于领导的模糊自适应动态规划多智能体微分对策一致性问题的最优协调控制。IEEE Trans Fuzzy系统。2015;23(1):152‐163.
[11] 王杰、徐敏、吴赫、黄特。多权值耦合神经网络的有限时间无源性。IEEE Trans-New Sci Eng.2018;5(3):184‐197.
[12] 路易斯安那州AbouheafMI。多智能体差异图形游戏:纳什在线自适应学习解决方案。第52届IEEE决策与控制会议记录;2013:5803‐5809; 意大利,IEEE出版社。
[13] ArulkumaranK、DeisenrothMP、BrundageM、BharathAA。深度强化学习:一个简短的调查。IEEE信号处理杂志2017;34(6):26‐38.
[14] SiJ、WangY。通过联想和强化进行在线学习控制。IEEE Trans神经网络。2001;12(2):264‐276.
[15] 翁,陈丽萍,刘玉杰,刘姿。一类非线性多智能体状态时滞系统基于神经网络的自适应领导跟随一致性控制。IEEE Trans Cybern公司。2017;47(8):2151‐2160.
[16] 姜浩、张浩、谢旭、韩杰。基于神经网络的学习算法,用于通过自适应动态规划实现具有控制约束的离散时间多人系统的合作博弈。神经计算。2019;344:13‐19.
[17] 张赫、冯特、杨刚、梁赫。有向图上多智能体系统的分布式协同最优控制:一种逆优化方法。IEEE Trans Cybern公司。2015;45(7):1315‐1326.
[18] WeiQ、LiuD、LewisFL。连续时间异构多代理差分图形游戏的最优分布式同步控制。信息科学。2015;317:96‐113·兹比尔1386.93023
[19] AbouheafM、LewisF、HaesaertS、BabuskaR、VamvoudakisK。多智能体离散时间图形游戏:交互式纳什均衡和值迭代解。论文发表于:2013年美国控制会议论文集;2013:4189‐4195; IEEE出版社。
[20] AbouheafMI、LewisFL、VamvoudakisKG、HaesaertS、BabuskaR。多代理离散时间图形游戏和强化学习解决方案。自动化。2014;50(12):3038‐3053. ·Zbl 1367.91032号
[21] GaoW、JiangY、DavariM。通过鲁棒自适应动态规划对多智能体系统进行数据驱动的合作输出调节。IEEE Trans Circuits Syst II实验简介。2019;66(3):447‐451.
[22] 张赫、江赫、罗伊、小刚。使用强化学习方法对具有未知动力学的离散时间多智能体系统进行数据驱动的最优一致性控制。IEEE Trans Ind Electron公司。2017;64(5):4091‐4100.
[23] LiK、JiL、Yang S、LiH、Liax。合作竞争异构多智能体系统的耦合群体共识:一种完全分布式的事件触发和固定控制方法。IEEE Trans Cybern公司。2020年doi:10.1109/TCYB.2020.3024551
[24] DongL、ZhongX、SunC、HeH。具有控制约束的连续时间系统的事件触发自适应动态规划。IEEE Trans Neural Netw学习系统。2017;28(8):1941‐1952.
[25] 哈姆、王德、刘德。离散时间约束非线性系统的事件触发自适应临界控制设计。IEEE Trans-Syst Man-Cybern系统。2020;50(9):3158‐3168.
[26] WeiQ、LiuD、LinQ、SongR。通过局部策略迭代自适应动态规划实现离散时间最优控制。IEEE Trans Cybern公司。2017;47(10):3367‐3379.
[27] SahooA、XuH、JagannathanS。非线性连续时间系统基于神经网络的事件触发状态反馈控制。IEEE Trans Neural Netw学习系统。2016;27(3):497‐509.
[28] 罗波、杨毅、刘德、吴华。使用自适应动态编程实现具有性能保证的事件触发最优控制。IEEE Trans Neural Netw学习系统。2020;31(1):76‐88。
[29] YangW、WeiQ、LiuD。离散时间多人游戏的事件触发自适应动态编程。信息科学。2019;506:457‐470. ·Zbl 1459.91005号
[30] SahooA、XuH、JagannathanS。使用神经动力学编程对非线性离散时间系统进行接近最优的事件触发控制。IEEE Trans Neural Netw学习系统。2015;27(9):1801‐1815.
[31] WeiZ,ZhangH。基于事件触发自适应动态规划方法的非线性多智能体系统分布式最优协调控制。ISA事务。2019;91:184‐195.
[32] 达尔、维玛、贝赫拉。互联系统中Nash解决方案的在线事件触发近最优控制器。IEEE Trans Neural Netw学习系统。2020;31(12):5534‐5548.
[33] JiL,YuX,LiC。集团对具有输入时滞的竞争网络中异构多代理系统的共识。IEEE Trans-Syst Man-Cybern系统。2020;50(11):4655‐4466.
[34] 丰F、徐Y、唐Z。基于竞争与合作关系的铁路保价运输费率研究。高级机械工程2018;10(1):1687814017747691. doi:10.1177/1687814017747691
[35] 刘杰、妈的、利普、伦克斯、马赫。基于合作竞争PSO算法的多无人机航迹规划。2015 IEEE智能车辆研讨会论文集;2015:107‐114; 韩国,IEEE出版社。
[36] 姜瑜、JiL、LiuQ、Yang S、LiaoX。集团对具有合作竞争交互和时间延迟的离散时间异构多代理系统的共识。神经计算。2018;319:92‐101.
[37] 左,马杰,王毅。分层事件触发控制,通过竞争和合作互联实现群体共识。神经计算。2018;275:1964‐1972.
[38] 翟正伟。关于具有合作和竞争交互的网络中所有代理的生存。IEEE Trans Automat控制。2019;64(9):3853‐3860·兹比尔1482.92085
[39] WuY、HuB、GuanZ。具有噪声信道的合作竞争随机交换网络的一致性问题。IEEE Trans Neural Netw学习系统。2019;30(1):35‐43.
[40] YuJ、WangL。具有无向通信图的多代理系统中的群体共识。第七届亚洲控制会议记录;2009:105‐110; 中国,IEEE出版社。
[41] LiM、LiuB、ZhuY、WangL、Zhou M。具有采样数据的非线性复杂动力学网络的群同步。数学问题工程2014。doi:10.1155/2014/142061·Zbl 1407.93022号
[42] 余钦杰。一般拓扑下多集成代理的群一致性。第52届IEEE决策与控制会议记录;2013年:2752‐2757;意大利,IEEE出版社。
[43] 谢德良。具有时滞的多代理系统的二阶群共识。神经计算。2015;153:133‐139.
[44] 尚尼。具有噪声和时滞的定向网络中多智能体系统的群体共识。国际系统科学杂志。2015;46(14):2481‐2492. ·Zbl 1332.93025号
[45] 王D,王D,王W。时滞多智能体系统控制的必要和充分条件。自动化。2019;103:418‐423. ·Zbl 1415.93033号
[46] ShenH、HuX、WangJ、CaoJ、QianW。双层切换调节下马尔可夫跳奇摄动耦合神经网络的非脆弱同步。IEEE Trans Neural Netw学习系统。2021.doi:10.1109/TNNLS.2021.3107607。
[47] LiJ、JiL、LiH。未知二阶多智能体系统的最优一致性控制:使用无模型强化学习方法。应用数学计算。2021.doi:10.1016/j.ac.2021.126451·Zbl 1510.93020号
[48] 格拉瓦卢·比索利斯。非线性系统的比较原理、正不变性和约束调节。自动化。1995;31(2):217‐222. ·Zbl 0825.93189号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。