×

具有输入饱和的网络欧拉-拉格朗日代理的强化学习协同控制的量化数据资源分配。 (英语) Zbl 1525.93007号

摘要:本文在强化学习(RL)框架下研究了具有量化数据交互和输入饱和的网络化Euler-Lagrange Agent(NELA)的资源分配问题。我们提出了一种分层控制策略,包括分布式资源分配估计器(DRAE)和局部RL线性滑模控制器(RL-LSMC)。具体地说,提出了基于梯度下降和状态反馈的DRAE,其目的是通过估计状态来实现资源的最优分配。局部RL-LSMC是利用关键神经网络的反馈和行动者神经网络的逼近能力设计的,它促使NELA的状态跟踪最优估计状态。借助Lyapunov稳定性论证,建立了几个充分条件。最后,通过两个仿真实例验证了该递阶控制算法的有效性。

MSC公司:

93甲16 多代理系统
93B70型 网络控制
91B32型 资源和成本分配(包括公平分配、分摊等)
93B12号机组 可变结构系统
93D05型 Lyapunov和控制理论中的其他经典稳定性(拉格朗日、泊松、\(L^p,L^p\)等)

软件:

WOA公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 戴,H。;方,X。;Jia,J.,一类资源分配问题的基于共识的分布式定时优化,J.Franklin Inst.,359,18,11135-11154(2022)·Zbl 1504.93346号
[2] 王,X。;Yang,S。;郭,Z。;Lian,M。;Huang,T.,状态相关网络上用于优化资源分配的分布式动态系统,IEEE Trans。净值。科学。工程师,9,4,2940-2951(2022)
[3] 李,X。;卢,L。;Ni,W。;Jamalipour,A。;张,D。;Du,H.,用于车对车通信资源分配的联合多代理深度强化学习,IEEE Trans。车辆。技术。,71, 8, 8810-8824 (2022)
[4] 陈,Y。;Wang,Y。;张杰。;Li,Z.,智能反射面辅助车辆通信的资源分配,IEEE Trans。车辆。技术。,69, 10, 12321-12326 (2020)
[5] Pham,Q.-V。;米尔贾利利,S。;库马尔,N。;Alazab,M。;Hwang,W.J.,Whale优化算法及其在无线网络资源分配中的应用,IEEE Trans。车辆。技术。,69, 4, 4285-4297 (2020)
[6] 冯,J。;张伟。;裴,Q。;吴杰。;Lin,X.,无线供电联邦边缘学习系统的异构计算和资源分配,IEEE Trans。社区。,70, 5, 3220-3233 (2022)
[7] 施,X。;孟,Z。;Dong,S。;Wang,X.,带外部干扰的二阶多智能体系统的分布式资源分配算法,国际控制杂志,96,9,2181-2189(2023)·Zbl 1521.93007号
[8] Deng,Z.,加权有向图上二阶多智能体系统资源分配问题的分布式算法设计,IEEE Trans。系统。人类网络。系统。,51, 6, 3512-3521 (2019)
[9] 施,X。;徐,L。;Yang,T。;林,Z。;Wang,X.,一般线性多智能体系统的分布式定时资源分配算法,IEEE Trans。电路系统。II Express简报,69,62867-2871(2022)
[10] 李,S。;年,X。;邓,Z。;陈,Z.,一般线性多智能体系统的预定义时间分布式优化,,信息科学。(纽约),584111-125(2022)
[11] Zhu,Y。;Ren,W。;于伟(Yu,W.)。;Wen,G.,通过连续时间算法在有向图上进行分布式资源分配,IEEE Trans。系统。人类网络。系统。,51, 2, 1097-1106 (2021)
[12] 卢,M。;吴杰。;詹,X。;Han,T。;Yan,H.,有无输入饱和的二阶异质多智能体系统的一致性,ISA Trans。,126, 14-20 (2022)
[13] Rehan,M。;图法尔,M。;Ahmed,S.,使用自适应事件触发机制在输入饱和的有向拓扑下非线性多智能体系统的无领导一致性控制,J.Franklin Inst.,358,12,6217-6239(2021)·Zbl 1470.93147号
[14] 赵,G。;王,Z。;Hua,C.,具有输入饱和的异质多智能体系统的半全局协作集群输出调节,J.Franklin Inst.,358,15,7507-7527(2021)·Zbl 1472.93008号
[15] 李,P。;贾巴里,F。;Sun,X.M.,具有输入饱和和未知先导输入的多智能体系统的控制,Automatica,130,109677(2021)·Zbl 1478.93030号
[16] 徐,Y。;Wang,J。;Zhang,Y。;Xu,Y.,具有输入饱和的高阶多智能体系统的事件触发二方共识,神经计算,379284-295(2020)
[17] 帕萨,P。;阿克巴扎德-T,M.-R。;Baghbani,F.,基于观测器的自适应情感命令滤波反步法,用于输入饱和不确定严格反馈多智能体系统的协同控制,IET控制理论应用。,17, 7, 906-924 (2023)
[18] 王,B。;Chen,W。;Zhang,B.,通过变形低增益反馈实现输入饱和的多智能体不确定系统的半全局鲁棒跟踪一致性,Automatica,103363-373(2019)·Zbl 1415.93096号
[19] 张,Z。;Dong,J.,具有多个间歇数据包丢失和执行器故障的区间2型模糊多智能体系统的控制,J.Franklin Inst.,357,10,6096-6120(2020)·Zbl 1441.93018号
[20] Sakthivel,R。;Parivallal,A。;孔,F。;Ren,Y.,具有增益波动的Takagi-Sugeno模糊不确定多智能体系统的双方共识,IEEE Trans。信号信息处理。净值。,9, 74-83 (2023)
[21] 刘,H。;翁,P。;田,X。;Mai,Q.,无人机-USV异构多智能体系统的分布式自适应定时编队控制,海洋工程,267113240(2023)
[22] Werbos,P.J.,应用于简单强化学习问题的HDP一致性,神经网络。,3, 2, 179-189 (1990)
[23] 吴,C。;潘·W。;Sun,G。;刘杰。;Wu,L.,网络物理系统的学习跟踪控制,IEEE Internet Things J.,8,11,9151-9163(2021)
[24] 赞菲拉赫,I.A。;预杯,R.-E。;罗马人,R.C。;Petriu,E.M.,基于神经网络的控制,使用actor-critic强化学习和灰狼优化器进行实验伺服系统验证,专家系统。申请。,2012年12月22日(2023年)
[25] 王,S。;金,X。;毛,S。;瓦西拉科斯,A.V。;Tang,Y.,通过强化学习实现多个欧拉-拉格朗日系统的无模型事件触发最优一致性控制,IEEE Trans。净值。科学。工程师,8,1,246-258(2021)
[26] He,W。;高,H。;周,C。;杨,C。;Li,Z.,柔性双墨水机械手的强化学习控制:实验研究,IEEE Trans。系统。人类网络。系统。,51, 12, 7326-7336 (2021)
[27] 丁·T·F。;Ge,M.-F。;熊,C.-H。;Park,J.H.,《具有量化数据交互的网络机器人系统的双方共识》,《信息科学》。(纽约),511229-242(2020)·Zbl 1461.93465号
[28] 吴杰。;邓,Q。;Han,T。;Yan,H.C.,具有量化通信的非线性多智能体系统的分布式二方跟踪共识,神经计算,39578-85(2020)
[29] 彭,Z.-H。;郑长波。;李,C。;刘,G.-P。;Han,Q.L.,具有随机通信约束和量化信号的多智能体系统基于云的时变编队预测控制,IEEE Trans。电路系统。II快速简报,69,3,1282-1286(2022)
[30] 王,Q。;李,S。;He,W。;Zhong,W.,具有量化通信的线性多智能体系统的完全分布式事件触发二方一致性,IEEE Trans。电路系统。II快速简报,69,7,3234-3238(2022)
[31] 詹,X。;Hao,L。;Han,T。;Yan,H.,具有量化信息的异构多智能体系统的自适应二部输出一致性:固定时间方法,J.Franklin Inst.,358,14,7221-7236(2021)·兹比尔1471.93254
[32] Li,K。;刘,Q。;Zeng,Z.,基于量化事件触发通信的分布式资源分配优化多代理系统,信息科学。(纽约),577336-352(2021)
[33] Li,R.,通过增量被动性理论进行最优资源分配问题的分布式算法设计,系统。控制信函。,138, 104650 (2020) ·Zbl 1436.93008号
[34] Long,J。;Wang,W。;刘凯。;黄,J.,具有事件触发通信的不确定Euler-Lagrange系统的自适应时变编队控制,国际J.鲁棒非线性控制,31,18,9026-9039(2021)
[35] 曹,S。;Sun,L。;姜杰。;Zuo,Z.,基于强化学习的输入饱和不确定机器人固定时间轨迹跟踪控制,IEEE Trans。神经网络。学习。系统。,34, 8, 4584-4595 (2023)
[36] Wang,H。;Ren,W。;于伟(Yu,W.)。;Zhang,D.,一类带定向网络的扰动二阶多智能体系统的完全分布式一致性控制,Automatica,132109816(2021)·Zbl 1478.93644号
[37] 顾,Z.-W。;Ge,M.-F。;刘,Z.-W。;Yan,H。;刘杰。;Xu,J.Z.,多个不确定拉格朗日对象任务空间二部协调的层次优化,Automatica,149,110829(2023)·Zbl 1507.93006号
[38] 邹,Y。;孟,Z。;Hong,Y.,欧拉-拉格朗日系统的自适应分布式优化算法,Automatica,119109060(2020)·Zbl 1451.93173号
[39] 王,X。;王,G。;Li,S.,多智能体系统的分布式固定时间优化算法,Automatica,122109289(2020)·Zbl 1453.93013号
[40] Lakshmanan,H。;De Farias,D.P.,动态代理网络中的分散资源分配,SIAM J.Optim。,19, 2, 911-940 (2008) ·Zbl 1176.90460号
[41] Rockafellar,R.T.,《凸分析》,普林斯顿大学出版社(1970)·Zbl 0229.90020号
[42] Yesmin,A。;Bera,M.K.,具有对数量化状态测量和延迟控制更新的基于事件的滑模控制器设计,ISA Trans。,124, 280-289 (2022)
[43] Lee,C.-C。;P.-C.钟。;蔡继荣。;Chang,C.I.,稳健径向基函数神经网络,IEEE Trans。系统。人类网络。B部分(控制论),29,6,674-685(1999)
[44] 赵(Q.Zhao)。;Si,J。;Sun,J.,《直接启发式动态规划在线强化学习控制:从时间驱动到事件驱动》,IEEE Trans。神经网络。学习。系统。,33, 8, 4139-4144 (2022)
[45] 斯隆·J·J·E。;李伟,应用非线性控制,应用。非线性控制(1991)·兹伯利0753.93036
[46] 王,Z。;Shan,J.,带执行器故障的不确定多智能体系统的固定时间一致性,J.Franklin Inst.,357,2,1199-1220(2020)·Zbl 1429.93345号
[47] R.-E.Precup、R.-C.Roman、A.Safaei、数据驱动无模型控制器、CRC Press2021·Zbl 1495.93002号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。