×

概率布尔控制网络的自触发控制:一种强化学习方法。 (英语) Zbl 07566311号

总结:在这项工作中,讨论了概率布尔控制网络(PBCNs)的最优反馈控制设计策略。研究了基于强化学习(RL)的控制,以最小化模型设计工作并调节具有高复杂性的PBCN。提出了一种(Q)学习随机森林((Q)LRF)算法;利用该算法,设计了状态反馈控制器,使PBCN稳定在给定的平衡点。进一步,通过采用(Q)LRF稳定的闭环PBCN,定义了一个Lyapunov函数,并给出了其构造方法。利用这种李亚普诺夫函数,提出了一种新的自触发控制策略,该策略根据触发时序重新计算控制器,从而在保持闭环PBCN稳定性的同时获得最优控制策略。最后,通过计算机仿真验证了结果。

MSC公司:

93至XX 系统论;控制
94-XX年 信息与通信理论、电路
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 刘易斯,F.L。;弗拉比,D。;Vamvoudakis,K.G.,《强化学习和反馈控制:使用自然决策方法设计最优自适应控制器》,IEEE控制系统。Mag.,32,6,76-105(2012)·Zbl 1395.93584号
[2] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(2018),剑桥:马萨诸塞州剑桥市,美国:麻省理工学院出版社·Zbl 1407.68009号
[3] 沃特金斯,C.J。;大研,P.,Q-learning,马赫。学习。,8, 3-4, 279-292 (1992) ·Zbl 0773.68062号
[4] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,A.A。;维尼斯,J。;Bellemare,M.G。;格雷夫斯,A。;里德米勒,M。;菲杰兰,A.K。;Ostrovski,G.,《通过深度强化学习实现人类层面的控制》,《自然》,518,7540,529-533(2015)
[5] Lapan,M.,《深度强化学习实践:应用现代RL方法,使用深度Q网络、价值迭代、政策梯度》,TRPO,AlphaGo Zero and More(2018),Packt Publishing Ltd。
[6] 施穆列维奇,I。;Dougherty,E.R。;Kim,S。;张伟,概率布尔网络:基因调控网络的基于规则的不确定性模型,生物信息学,18,2,261-274(2002)
[7] 李,F。;Tang,Y.,切换布尔控制网络的集稳定化,Automatica,78,223-230(2017)·Zbl 1357.93079号
[8] Fornasini,E。;Valcher,M.E.,《关于布尔控制网络的周期轨迹》,Automatica,49,5,1506-1509(2013)·兹比尔1319.93010
[9] Yerudkar,A。;Del Vecchio,C。;Glielmo,L.,切换布尔控制网络的反馈稳定控制设计,Automatica,116,1-8(2020)·Zbl 1440.93205号
[10] Fornasini,E。;Valcher,M.E.,布尔控制网络的反馈稳定、调节和最优控制,2014年美国控制会议,1981-1986(2014),IEEE
[11] Yerudkar,A。;Del Vecchio,C。;Glielmo,L.,通过状态反馈控制切换布尔控制网络,2019年第18届欧洲控制会议(ECC),1999-2004(2019),IEEE
[12] Del Vecchio,C。;Glielmo,L。;Corless,M.,x染色体连锁隐性疾病模型的平衡与稳定性分析,2012年IEEE第51届IEEE决策与控制会议(CDC),4936-4941(2012),IEEE
[13] Yerudkar,A。;Del Vecchio,C。;Glielmo,L.,交换布尔控制网络的采样数据集稳定,IFAC-PapersOnLine,53,2,6139-6144(2020)
[14] 李,R。;杨,M。;Chu,T.,概率布尔网络的状态反馈稳定,Automatica,50,4,1272-1278(2014)·Zbl 1298.93275号
[15] 周,R。;郭毅。;Wu,Y。;Gui,W.,概率布尔控制网络的渐近反馈集镇定,IEEE Trans。神经网络。学习。系统。,31, 11, 4524-4537 (2019)
[16] Yerudkar,A。;Del Vecchio,C。;Glielmo,L.,概率布尔控制网络的输出跟踪控制,2019年IEEE国际系统、人与控制论会议(SMC),2109-2114(2019),IEEE
[17] 黄,C。;卢,J。;翟,G。;曹,J。;卢,G。;Perc,M.,概率布尔网络的概率稳定性和稳定性,IEEE Trans。神经网络。学习。系统。,32, 1, 241-251 (2020)
[18] 刘,Y。;Li,H.,概率布尔网络拓扑结构和稳定性的逻辑矩阵分解,系统。控制信函。,149, 104878 (2021) ·Zbl 1478.93294号
[19] 刘,Q。;何毅。;Wang,J.,使用离散时间Markov决策过程的概率布尔网络最优控制,Physica A,5031297-1307(2018)·Zbl 1514.90052号
[20] Wu,Y。;沈,T.,随机逻辑动力系统最优控制的策略迭代算法,IEEE Trans。神经网络。学习。系统。,29, 5, 2031-2036 (2017)
[21] 丰田章男。;Wu,Y.,关于概率布尔控制网络的最优时变反馈可控性,IEEE Trans。神经网络。学习。系统。,2202-2208年6月31日(2020年)
[22] Wu,Y。;郭毅。;丰田章男,概率布尔网络无限时域平均最优控制的策略迭代方法,IEEE Trans。神经网络。学习。系统。,32, 7, 2910-2924 (2020)
[23] 刘,Y。;Wang,L。;卢,J。;Cao,J.,概率布尔控制网络的采样数据稳定,系统。控制信函。,124, 106-111 (2019) ·Zbl 1408.93099号
[24] 刘杰。;刘,Y。;郭毅。;Gui,W.,《概率布尔控制网络的采样数据状态反馈镇定:控制Lyapunov函数方法》,IEEE Trans。赛博。,50, 9, 3928-3937 (2019)
[25] 林,L。;曹,J。;Rutkowski,L.,概率布尔控制网络的鲁棒事件触发控制不变性,IEEE Trans。神经网络。学习。系统。,31, 3, 1060-1065 (2019)
[26] 杨,X。;Li,H.,《函数扰动对概率布尔网络渐近稳定性的影响:转变为有限时间稳定性》,J.Frankl。研究所,357,15,10810-10827(2020)·Zbl 1450.93048号
[27] 李,H。;杨,X。;Wang,S.,概率布尔网络有限时间稳定性和稳定性的扰动分析,IEEE Trans。赛博。,51, 9, 4623-4633 (2020)
[28] 李,F。;Xie,L.,使用钉扎控制的概率布尔网络的集镇定,IEEE Trans。神经网络。学习。系统。,30, 8, 2555-2561 (2018)
[29] 林,L。;曹,J。;卢,J。;钟,J。;Zhu,S.,通过钉扎控制稳定大规模概率布尔网络,IEEE Trans。赛博。(2021)
[30] 朱,S。;卢,J。;钟,J。;刘,Y。;Cao,J.,《关于通过固定可观测性构建大型布尔网络的传感器》,IEEE Trans。自动。控制(2021)
[31] 陈,B。;曹,J。;戈尔巴乔夫,S。;刘,Y。;Kurths,J.,概率布尔网络的Pinning渐近稳定:有向图方法,IEEE Trans。控制网络系统。(2022)
[32] Cheng,D。;Qi,H.,布尔网络动力学的线性表示,IEEE Trans。自动。控制,55,10,2251-2258(2010)·Zbl 1368.37025号
[33] Cheng,D。;齐,H。;Li,Z.,《布尔网络的分析和控制:一种半传感器产品方法》(2011),施普林格出版社:英国伦敦施普林格·Zbl 1209.93001号
[34] Acernese,A。;Yerudkar,A。;Glielmo,L。;Del Vecchio,C.,概率布尔控制网络反馈稳定问题的强化学习方法,IEEE控制系统。莱特。,5, 1, 337-342 (2020)
[35] 巴贾里亚,P。;Yerudkar,A。;Del Vecchio,C.,概率布尔控制网络的非周期采样数据稳定:放松Bellman算子的深度q学习方法,2021年欧洲控制会议(ECC),836-841(2021),IEEE
[36] 贝拉斯科,M。;Fuertes,J。;Marti,P.,实时控制系统的自触发任务模型,第24届IEEE实时系统研讨会(RTSS03)进行中会议,384(2003)
[37] 张杰。;李,S。;Xiang,Z.,一类传感器故障切换非线性系统的自适应模糊输出反馈事件触发控制,IEEE Trans。圆形。系统。一、 67、12、5336-5346(2020年)·Zbl 1468.93105号
[38] 邹伟(Zou,W.)。;Shi,P。;Xiang,Z。;Shi,Y.,通过事件触发策略实现切换随机非线性多智能体系统的一致跟踪控制,IEEE Trans。神经网络。学习。系统。,31, 3, 1036-1045 (2019)
[39] 邹伟(Zou,W.)。;Ahn,C.K。;Xiang,Z.随机非线性多智能体系统的事件触发一致跟踪控制,IEEE系统。J.,13,4,4051-4059(2019)
[40] 小马祖(Mazo Jr,M.)。;Anta,A。;Tabuada,P.,《线性控制器的ISS自触发实现》,Automatica,46,8,1310-1314(2010)·Zbl 1205.93081号
[41] Heemels,W。;Johansson,K.H。;Tabuada,P.,《事件触发和自触发控制简介》,2012年IEEE第51届IEEE决策与控制会议(CDC),3270-3285(2012),IEEE
[42] Wan,H。;栾,X。;Karimi,H.R。;Liu,F.,马尔可夫跳跃系统的动态自触发控制器协同设计,IEEE Trans。自动。控制,66,3,1353-1360(2020)·Zbl 07352087号
[43] Aghaeeyan,A。;亚兹丹帕纳,M。;Estakhrouieh,M.R.,基于自触发策略的化疗剂量方案设计,2020年欧洲控制会议(ECC),252-257(2020),IEEE
[44] 孟,M。;萧,G。;Cheng,D.,布尔控制网络的自触发调度,IEEE Trans。赛博。,1-11 (2021)
[45] Fornasini,E。;Valcher,M.E.,布尔控制网络的最优控制,IEEE Trans。自动。控制,59,5,1258-1270(2014)·Zbl 1360.93387号
[46] Ching,W.-K。;张世清。;焦,Y。;Akutsu,T。;新界青市。;Wong,A.,具有硬约束的概率布尔网络的最优控制策略,IET系统。生物学,3,2,90-99(2009)
[47] Liu,Q.,概率布尔网络的最优控制方法,Physica A,391,24,6682-6689(2012)
[48] Bellman,R.E。;Dreyfus,S.E.,《应用动态编程》(2015),普林斯顿大学出版社
[49] Bertsekas,D.P.,动态规划和最优控制,1(1995),雅典娜科学贝尔蒙特:雅典娜科技贝尔蒙特马萨诸塞州·Zbl 0904.90170号
[50] Breiman,L.,装袋预测,马赫数。学习。,24123-140(1996年)·Zbl 0858.68080号
[51] Busoniu,L。;巴布斯卡,R。;德舒特,B。;Ernst,D.,《使用函数逼近器的强化学习和动态规划》(2017),CRC出版社:CRC出版社FL USA
[52] Anosov,D.V。;Aranson,S.K。;阿诺德,V.I。;Bronshtein,I。;伊利亚申科,Y.S。;Grines,V.,常微分方程与光滑动力系统(1997),施普林格出版社·Zbl 0858.34001号
[53] 卢·T。;舒尔曼斯,D。;Boutiler,C.,非洗脱性q学习和价值迭代,高级神经信息处理。系统。,31, 9949-9959 (2018)
[54] Witten,I.H。;Frank,E.,《数据挖掘:使用java实现的实用机器学习工具和技术》,ACM SIGMOD Record,31,1,76-77(2002)
[55] Biau,G.,《随机森林模型分析》,J.Mach。学习。第13号、第1号、第1063-1095号决议(2012年)·Zbl 1283.62127号
[56] Akutsu,T。;Hayashida,M。;Ching,W.-K。;Ng,M.K.,《布尔网络的控制:树结构网络的硬度结果和算法》,J.Theor。生物学,244,4,670-679(2007)·兹比尔1450.92040
[57] 孟,M。;刘,L。;Feng,G.,带马尔可夫跳变参数布尔网络的稳定性和(l_1)增益分析,IEEE Trans。自动。控制,62,8,4222-4228(2017)·Zbl 1373.93368号
[58] M.阿巴迪。;巴勒姆,P。;陈,J。;陈,Z。;A.戴维斯。;迪安·J。;德文,M。;盖玛瓦特,S。;欧文,G。;Isard,M.,Tensorflow:一个用于大规模机器学习的系统,第12届USENIX操作系统设计与实现研讨会(OSDI 16),265-283(2016)
[59] F.Cholet等人,Keras,2015年(https://keras.io网址).
[60] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;Dubourg,V.公司。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J.Mach。学习。第12号决议,2825-2830(2011年)·Zbl 1280.68189号
[61] 哈格伯格,A。;斯瓦特,P。;S Chult,D.,《使用NetworkX探索网络结构、动力学和功能》,技术报告(2008),洛斯阿拉莫斯国家实验室
[62] 罗贝娃,R。;Hodge,T.,《现代生物学中的数学概念和方法:使用现代离散模型》(2013),学术出版社·Zbl 1273.92004年
[63] 高,S。;Sun,C。;湘,C。;秦,K。;Lee,T.H.,具有平均成本的切换布尔控制网络的无限小时最优控制:一种有效的图形理论方法,IEEE Trans。赛博。,52, 4, 2314-2328 (2020)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。