×

基于在线强化学习的物理耦合网络离散时间系统的稳定分布式神经控制器。 (英语) Zbl 1398.93035号

摘要:电网和运输系统等物理耦合网络基础设施的大规模、时变性和多样化导致其控制器设计、实施和扩展的复杂性。为了应对这些挑战,我们提出了一种在线分布式强化学习控制算法,该算法为每个子系统或称为代理的一层神经网络,以适应网络基础设施的变化。每个控制器包括一个临界网络和一个动作网络,分别用于逼近策略效用函数和期望控制律。为了避免大量试验,提高稳定性,行动网络训练引入了监督学习机制,以降低长期成本。利用学习算法分析了控制系统的稳定性;估计了跟踪误差的上界和神经网络的权值。我们提出的控制器的有效性在模拟;结果表明,在通信延迟和干扰的情况下也具有稳定性。

理学硕士:

93甲15 大型系统
68T05型 人工智能中的学习和自适应系统
92B20型 生物研究、人工生命和相关主题中的神经网络
93甲14 分散的系统

软件:

二进制连接
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 孙,J。;郑浩。;Chai,Y。;胡,Y。;张凯。;Zhu,Z.,通过屏障功能缓解UPFC瞬态电流违规的电力系统纠正控制直接方法,国际电力与能源系统杂志,78,626-636,(2016)·doi:10.1016/j.ijepes.2015.11.105
[2] 孙,J。;Chai,Y。;胡,Y。;郑浩。;Ring,R。;Zhang,K.,带屏障功能电网避免发电机跳闸的UPFC控制设计,国际电力与能源系统杂志,68,150-158,(2015)·doi:10.1016/j.ijepes.2014.12.058
[3] 孙,J。;胡,Y。;Chai,Y。;Ring,R。;郑浩。;王,G。;Zhu,Z.,具有通信成本降低的时变通信延迟下的L-infinity事件触发网络控制,富兰克林研究所学报,352,11,4776-4800,(2015)·Zbl 1395.93071号 ·doi:10.1016/j.jfranklin.2015.07.016
[4] 李,H。;陈,G。;黄,T。;Dong,Z.,有限带宽通信和时变定向拓扑网络系统中的高性能一致性控制,IEEE神经网络和学习系统汇刊,28,5,1043-1054,(2017)·doi:10.1109/tnnls.2016.519894
[5] 彭,Z。;王,D。;张,H。;Sun,G。;Wang,H.,不确定动态多智能体系统协同跟踪的分布式模型参考自适应控制,IET控制理论与应用,7,8,1079-1087,(2013)·doi:10.1049/iet-cta.2012.0765文件
[6] Chu,H。;袁杰。;Zhang,W.,具有输入饱和的线性多智能体系统基于观测器的自适应一致性跟踪,IET控制理论与应用,9,14,2124-2131,(2015)·doi:10.1049/iet-cta.2014.1268
[7] 苏,H。;陈明珠。;王,X。;Wang,H。;Valeyev,N.V.,多导程耦合谐振子的自适应集群同步,IET控制理论与应用,7,5,765-772,(2013)·doi:10.1049/iet-cta.2012.0910
[8] Feng,Y。;Lv,Y。;Duan,Z.,定向拓扑上线性耦合Lur'e系统的分布式自适应一致性协议,IET控制理论应用,11,15,2465-2474,(2017)
[9] Bemporad,A。;Heemels,M。;Johansson,M.,《网络控制系统》。网络控制系统,控制和信息科学讲稿,(2010年),英国伦敦:斯普林格,英国伦敦·Zbl 1201.93003号 ·数字对象标识代码:10.1007/978-0-85729-033-5
[10] 秦,J。;马奇。;郑伟新。;高,H。;Kang,Y.,集成代理相互作用集群的鲁棒\(H_\infty\)群共识,电气和电子工程师学会自动控制汇刊,62,7,3559-3566,(2017)·Zbl 1370.93028号 ·doi:10.1109/TAC.2017.2660240
[11] Sarangapani,J.,非线性离散时间系统的神经网络控制,(2006),CRC出版社·Zbl 1123.93010号
[12] Sutton,R.S。;Barto,A.G.,《强化学习:简介》(1998),英国:麻省理工学院出版社,英国剑桥
[13] Prokhorov,D.V。;Wunsch,D.C.,自适应批评家设计,IEEE神经网络和学习系统汇刊,8,5,997-1007,(1997)·doi:10.1009/72.63201
[14] Xu,X。;Lian,C。;左,L。;He,H.,《基于内核的实时在线学习控制近似动态编程:实验研究》,IEEE控制系统技术汇刊,22,1,146-156,(2014)·doi:10.1109/tcst.2013.246866
[15] Lee,J.Y。;Park,J.B。;Choi,Y.H.,具有同时不变探索的连续时间输入仿射非线性系统的积分强化学习,IEEE神经网络和学习系统汇刊,26,5,916-932,(2015)·doi:10.1109/TNNLS.2014.2328590
[16] Sarangapani,J.,非线性离散时间系统的神经网络控制(公共行政和公共政策),(2006),CRC/Taylor&Francis·Zbl 1123.93010号
[17] 张,C。;阿卜杜拉,S。;Lesser,V.,通过自动化监督实现高效的多智能体强化学习
[18] Kumar Jilledi,S.,输电系统中使用统一潮流控制器(UPFC)和行间潮流控制器(IPFC)的多线潮流控制的比较,国际工程科学与技术杂志,3,4,3229-3235,(2011)
[19] 徐,B。;杨,C。;Shi,Z.,使用确定性学习技术的强化学习输出反馈NN控制,IEEE神经网络和学习系统汇刊,25,3,635-641,(2014)·doi:10.1109/TNNLS.2013.2292704
[20] 刘,L。;王,Z。;Zhang,H.,通过较少学习参数的强化学习算法实现MIMO离散时间系统的自适应容错跟踪控制,IEEE自动化科学与工程学报,14,1,299-313,(2017)·doi:10.1109/tase.2016.2517155
[21] 崔,R。;杨,C。;李毅。;Sharma,S.,使用强化学习的具有控制输入非线性的auv的自适应神经网络控制,IEEE系统、人类和控制论汇刊:系统,47,61019-1029,(2017)·doi:10.1109/TSMC.2016.2645699
[22] 安德森,C.W。;杨,P.M。;Buehner,M.R。;奈特,J.N。;Bush,K.A。;Hittle,D.C.,使用递归神经网络的积分二次约束的鲁棒强化学习控制,IEEE神经网络和学习系统汇刊,18,4,993-1002,(2007)·doi:10.1109/TNN.2007.899520
[23] Courbariaux,M。;Y.本吉奥。;David,J.-P.,Binaryconnect:在传播过程中用二进制权重训练深层神经网络,第29届神经信息处理系统年会论文集,NIPS
[24] 王,Z。;刘,F。;低,S.H。;赵,C。;Mei,S.,《带运行约束的分布式频率控制》,第二部分:网络功率平衡,IEEE智能电网交易,PP,99,1-1,(2017)·doi:10.1109/TSG.2017.2731811
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。