×

在高速网络中学习智能控制:计算智能与控制和Q-学习理论的协同作用。 (英语) 兹比尔1402.68026

Sgurev,Vassil(编辑)等人,《智能系统中的创新问题》。查姆:施普林格(ISBN 978-3-319-27266-5/hbk;978-3-3169-27267-2/电子书)。计算智能研究623111-139(2016)。
摘要:在高速通信和计算机网络中,拥塞和数据包丢弃现象对服务质量和整体性能的影响比以往任何时候都更大,并且具有不确定的变化。自从互联网问世以来,他们的控制和可能的预防都需要进行广泛的研究。由于不确定性和时变现象,获取网络流量模式的准确和完整信息非常困难,特别是对于多瓶颈情况,因此需要学习智能控制。其中一种控制是基于Q学习算法和对手策略纳什均衡理论的多智能体流控制器(MAFC)。另一种是模型相关的Q学习控制(MIQL)方案,它关注优先级较高的流,也不需要通信流量和拥塞的先验知识。不同优先级的通信流的竞争被认为是两层非合作博弈。纳什Q学习算法控制通过试错和与网络环境的交互来获得纳什Q值,从而改进其行为策略。MAFC可以学会采取最佳措施来调节源流,以确保高吞吐量和低丢包率。MIQL控件通过特定的学习处理,确实为优先级较低的源实现了最佳发送速率,同时观察优先级较高的源。与标准控制器相比,设计的智能控制器在控制高速网络中的流量方面取得了优异的性能,并避免了通信拥塞。
关于整个系列,请参见[Zbl 1373.68022号].

MSC公司:

68M10个 计算机系统中的网络设计和通信
68平方米 计算机系统环境下的性能评估、排队和调度
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿斯特罗姆,K.J.:导言:复杂系统和控制。地址:阿斯特姆,KJ。,Albertos,P.,Blanke,M.,Isidori,A.,Sanz,R.(编辑)《复杂系统的控制》,第1章,第1-20页。施普林格,伦敦(2001)·Zbl 0969.93004号
[2] Siljak,D.D.:复杂系统的分散控制。波士顿学术出版社(1991)·Zbl 0728.93004号
[3] Wiener,N.:动物和机器中的控制论或控制与通信。麻省理工学院出版社,马萨诸塞州科姆布里奇(1948)。
[4] Tsien,H.-S.:《工程赛博学》。麦格劳·希尔,纽约州纽约市(1954年)。
[5] Dimirovski,G.M.,Gough,N.E.,Barnett,S.:系统和控制理论的范畴。《国际期刊控制》8(9),1081-1090(1977)·Zbl 0402.93003号
[6] Gitt,W.:信息:第三基本量。西门子版本56,36-41(1989)
[7] Kalman,R.E.:《控制的一般理论》,载于《第一届国际自动控制大会论文集》。巴特沃思科学研究所,英国伦敦,第1卷,第481-506页。俄文:Trudyi I Kongressa IFAK,Izdatelystvo AN SSSR,莫斯科,SSSR第2卷,第521-547页(1961年)
[8] Pontryagin,L.S.,Boltyanskiy,V.G.,Gamkrelidze,R.V.,Mishchenko,E.F.:Matematicheskaya teoriya optimalynih processov,Izdatelystvo fizichko matematicheskoy literaturi,莫斯科,SSSR。另见英文(1962):最优化过程的数学理论。J.Wiley InterScience,纽约(1961年)·Zbl 0102.31901号
[9] Savkin,A.V.,Matveev,A.S.:循环线性微分自动机:一类简单的混合动力系统。Automatica 36(5),727-734(2000)·Zbl 0986.93043号 ·doi:10.1016/S0005-1098(99)00199-5
[10] Imer,O.C.,Basar,T.:控制高速网络中的拥塞。欧洲药典对照7(2-3),132-144(2001)·Zbl 1293.93413号 ·doi:10.3166/ejc.7.132-144
[11] Jacobson,V.:拥塞避免和控制。ACM计算。Commun公司。第18版,314-329(1988)·doi:10.1145/52325.52356
[12] Alpcan,T.,Basar,T.:访问控制系统中入侵检测的博弈分析。收录:第43届IEEE决策与控制会议记录,巴哈马天堂岛,12月14-17日。IEEE出版社,美国新泽西州皮斯卡塔韦,第1568-1573页(2004)
[13] Basar,T.,Olsder,G.J.:《动态非合作博弈论》,第二版。宾夕法尼亚州费城SIAM(1999)·Zbl 0946.91001号
[14] Dimirovski,G.M:网络Q-Learning控制防止网络入侵风险:控制理论和计算智能的协同作用。摘自:Duman,E.,Atiya,A.(编辑)《计算机辅助说服中风险分析的使用》,第88卷。北约科学子系列E,第20章第三部分。IOS出版社,阿姆斯特丹,柏林-东京-华盛顿特区,第281-303页(2011年)
[15] Gevros,P.、Crowcoft,J.、Kirstein,P.和Bhatti,S.:拥塞控制机制和尽力服务模型。IEEE网络。15(3), 16-26 (2001) ·数字对象标识代码:10.1109/65.923937
[16] Imer,O.C.,Compans,S.,Basar,T.,Srikant,R.:ATM网络中的ABR拥塞控制。IEEE控制系统。Mag.21(1),38-56(2001)·doi:10.1009/37.898791
[17] Jing,Y.-W.,Li,X.,Dimirovski,G.M.,Zheng,Y.,Zhang,S.-Y.:高速网络的Nash Q学习多代理流控制。摘自:《第28届美国控制会议记录》,美国密苏里州圣路易斯,6月10日至12日,第3304-3309页。IEEE出版社,美国新泽西州皮斯卡塔韦(2009)
[18] Lestas,M.、Pitsillides,A.、Ioannou,P.、Hadjipollas,G.:自适应拥塞协议:具有学习能力的拥塞控制协议。计算。Netw公司。国际期刊计算。电信通信。Netw公司。51(13), 3773-3798 (2007) ·Zbl 1121.68012号
[19] Li,X.,Dimirovski,G.M.,Jing,Y.-W.,Zhang,S.-Y.:高速网络的Q-学习模型相关流量控制器。摘自:《第28届美国控制会议记录》,美国密苏里州圣路易斯,6月10日至12日,第1544-1548页。IEEE出版社,美国新泽西州皮斯卡塔韦(2009)
[20] Li,X.,Zhou,Y.C.,Dimirovski,G.M.,Jing,Y.-W.:ATM网络ABR流量控制的模拟退火Q-学习算法。摘自:《第27届美国控制会议记录》,美国华盛顿州西雅图,6月11-13日,第4462-4467页。IEEE出版社,美国新泽西州皮斯卡塔韦(2008)
[21] Li,X.,Shen,X.J.,Jing,Y.-W.,Zhang,S.-Y.:ATM网络ABR流量控制的模拟退火强化学习算法。摘自:第46届IEEE决策与控制会议记录,美国洛杉矶新奥尔良,12月12-14日,第5716-5721页。IEEE出版社,美国新泽西州皮斯卡塔韦(2007)
[22] Ren,T.,Zhu,Z.,Yu,H.,Dimirovski,G.M.:ATM网络拥塞问题的积分滑模控制器。《国际期刊控制》86(3),529-539(2013)·兹比尔1278.93064
[23] Ren,T.,Wang,C.,Luo,X.,Jing,Y.,Dimirovski,G.M.:时变多时滞ATM网络ABR流量控制的鲁棒控制器设计。《国际创新计算杂志》。信息控制5(8),68-74(2009)
[24] Ren,T.,Gao,Z.,Kong,W.,Jing,Y.,Yang,M.,Dimirovski,G.M.:具有时变多时滞的ATM网络中模糊免疫流控制器的性能和鲁棒性分析。J.控制理论应用。6(3), 253-258 (2008) ·doi:10.1007/s11768-008-6184-1
[25] Aizerman,M.A.,Breverman,E.M.,Rosonoer,L.I.:模式识别学习中潜在函数方法的理论基础(俄语)。Avtomatika i Telemechanika电话:25,821-837(1964)·Zbl 0151.24701号
[26] Aizerman,M.A.,Breverman,E.M.,Rosonoer,L.I.:模式识别学习的概率问题和势函数方法(俄语)。Avtomatika i Telemechanika电话:25,821-837(1964)·Zbl 0151.24701号
[27] Chatovich,A.、Okug,S.、Dundar,G.:ATM网络的层次神经模糊呼叫接纳控制器。计算。Commun公司。24(11), 1031-1044 (2001) ·doi:10.1016/S0140-3664(00)00331-5
[28] Cheng,R.G.,Chang,C.J.,Lin,L.F.:多媒体高速网络的QoS供应神经模糊连接接纳控制器。IEEE ACM传输。Netw公司。7(1), 111-121 (1999) ·数字对象标识代码:10.1109/90.759332
[29] Harmer,P.K.,Williams,P.D.,Gunsh,G.H.,Lamont,G.B.:计算机安全应用的人工免疫系统架构。IEEE传输。进化。计算。6(2), 252-280 (2002) ·doi:10.10109/TEVC202.1011540
[30] Xiao,M.C.,Tan,S.W.,Hwang,K.S.,Wu,C.S.:一种用于高速多媒体网络拥塞控制的强化学习方法。赛博。系统。36(2), 181-202 (2005) ·Zbl 1069.90022号 ·doi:10.1080/01969720590897224
[31] Hwang,K.S.,Tan,S.W.,Shoiao,M.C.,Wu,C.S.:高速网络的协作多代理拥塞控制。IEEE传输。系统。人类网络。B部分:网络。35(2), 255-268 (2005) ·doi:10.1109/TSMCB.2004.842418
[32] MathWorks实验室:Matlab:控制工具箱,模糊工具箱。LMI工具箱,The MathWorks Inc,Natick(1991)
[33] MathWorks实验室:Matlab:Simulink-动态系统仿真软件。MathWorks Inc,Natick(1996)
[34] Dimirovski,G.M.:使用模糊逻辑和神经网络的控制综合设计中的Lyapunov稳定性。摘自:7月11日至15日在巴黎举行的第17届伊斯兰医学会世界大会会议记录。IMACS和里尔中央学院,法国维伦纽夫,论文T5-I-01-0907,第1-8页(2005年)
[35] Marinos,P.N.:模糊逻辑及其在开关系统中的应用。IEEE传输。计算。18(4), 343-348 (1969) ·兹标0172.30104 ·doi:10.1109/T-C.1969.222662
[36] Palm,R.,Driankov,D.:模糊切换混合系统——建模和识别。1998年IEEE模糊系统国际会议论文集,马里兰州盖瑟斯堡,第130-135页。IEEE出版社,美国新泽西州皮斯卡塔韦(1998)
[37] Tanaka,K.,Masaaki,I.,Wang,H.O.:切换模糊系统的稳定性和光滑性条件。第19届美国控制会议记录,第2474-2478页。IEEE出版社,美国新泽西州皮斯卡塔韦(2000)
[38] Wang,H.O.,Tanaka,K.,Griffin,M.:非线性系统的模糊控制方法:稳定性和设计问题。IEEE传输。模糊系统。4(1), 14-23 (1996) ·数字对象标识代码:10.1109/91.481841
[39] Ye,H.,Michael,A.N.:混合动力系统的稳定性理论。IEEE传输。自动化。控制43(4),464-474(1998)·Zbl 0905.93024号
[40] Zhao,J.,Dimirovski,G.M.:一类切换非线性系统的二次稳定性。IEEE传输。自动化。控制49(4),574-578(2004)·Zbl 1365.93382号 ·doi:10.1109/TAC.2004.825611
[41] Yang,H.,Dimirovski,G.M.,Zhao,J.:切换模糊系统:表示建模、稳定性和控制设计。收录于:Chountas,P.、Petrounias,I.、Kacprzyk,J.(编辑)《计算智能研究》第109卷——新型系统架构的智能技术和工具,第9章,第169-184页。施普林格,柏林-海德堡(2008)
[42] Yang,M.,Jing,Y.,Dimirovski,G.M.,Zhang,N.:网络拥塞控制算法的稳定性和性能分析。摘自:《第46届IEEE决策与控制会议记录》,美国洛杉矶新奥尔良,12月12-14日,第4453-4458页。IEEE出版社,美国新泽西州皮斯卡塔韦(2007)
[43] Jing,Y.W.:通信网络的高级模糊和学习控制及其应用效果的研究。中国沈阳东北大学信息科学与工程学院CCN-2007-2008-Shenyang-Skopje私人通信报告(2009)。
[44] Watkins,C.J.C.H.,Dayan,P.:Q学习。机器。学习。8(3), 279-292 (1992) ·Zbl 0773.68062号
[45] Kaelbling,L.P.,Littman,M.L.,Moore,A.W.:强化学习:一项调查。J.阿蒂夫。智力。第4(1)号决议,237-285(1996)
[46] Sutton,R.S.,Barto,A.G.:强化学习:简介。麻省理工学院出版社,马萨诸塞州剑桥,美国(1998年)
[47] Littman,M.L.:马尔可夫博弈中的值函数强化学习。认知杂志。系统。第2(1)号决议,55-66(2001)·doi:10.1016/S1389-0417(01)00015-8
[48] Szepesvari,C.,Littman,M.L.:基于价值函数的强化学习算法的统一分析。神经计算。11(8), 2017-2060 (1999) ·doi:10.11162/08997699300016070
[49] Hu,J.,Wellman,M.P.:广义和随机博弈的Nash Q学习。J.马赫。学习。第4号决议,1039-1069(2003)·Zbl 1094.68076号
[50] Jing,Y.W.,Dimirovski,G.M.:互联网上的多媒体传输:基于控制的AIMD算法改进。摘自:《第三届IEEE信息和通信技术国际会议论文集:从理论到应用》,叙利亚大马士革,4月24日至28日。IEEE出版社,美国新泽西州皮斯卡塔韦,法国布列塔尼,ENST Brest,论文SEN06-1/1-6(2006)
[51] Dimirovski,G.M.:自适应模糊神经推理模型中的复杂性与完整性解决方案。《国际情报杂志》。系统。23(5), 556-573 (2008) ·Zbl 1135.68531号 ·doi:10.1002/int.20283
[52] Nash,J.F.:非合作游戏。安。数学。54(2), 286-295 (1951) ·Zbl 0045.08202号 ·doi:10.2307/1969529
[53] Bishop,C.M.:模式识别和机器学习。英国伦敦施普林格出版社(2006年)·Zbl 1107.68072号
[54] Chiu,D.M.,Jain,R.:计算机网络拥塞避免的增减算法分析。计算。Netw公司。ISDN系统。17, 1-14 (1989) ·Zbl 0684.68016号 ·doi:10.1016/0169-7552(89)90019-6
[55] Bradtke,S.J.,Ydstie,BE,Barto,A.G.:使用策略迭代的自适应线性二次控制。摘自:《第13届美国控制会议论文集》,伊利诺伊州芝加哥,6月13日至15日,第3475-3479页。IEEE出版社,新泽西州皮斯卡塔韦(1994)
[56] Haykin,S.:神经网络和学习机器,第三版。Pearson Prentice Hall,上鞍河(2009)
[57] Ljung,L.:系统标识-用户理论,第2版。Prentice Hall PTR,Upper Saddle River(1999年)·Zbl 0615.93004号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。