×

基于神经模糊系统和强化学习算法的自适应群体行为捕获。 (英语) Zbl 1190.68046号

摘要:本文的目的是提出一种带有强化学习(RL)算法的神经模糊系统,用于自适应群体行为捕获。其基本思想是每个个体(主体)具有相同的内部模型和相同的学习过程,适应性行为只能通过环境的奖惩获得。群的形成也是由RL设计的,例如时间差分(TD)-错误学习算法,与个体学习相比,它可以带来更快的探索过程。
每个个体的内部模型由一个模糊网络构成输入状态分类的一部分,以及采用一种称为actor-critic方法的RL方法的最优行为学习网络的一部分。根据agent行为试验中观察到的环境状态变化,在线自适应地形成模糊网络中的隶属函数和模糊规则。通过TD-error修正了模糊网络和参与者的行为值函数之间的连接权值,参与者提供了随机的行为选择策略,批评者提供了状态传输的评估。
针对多个目标导向导航问题对该系统进行了仿真实验,结果表明,与个体学习相比,群体学习能够成功地形成群体,并更快地找到最优路径。
将模糊识别系统和RL算法两种技术融合到个体内部模型中,用于群体形成和自适应行为捕获。该模型可应用于多智能体系统、群体机器人、元启发式优化等领域。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T40型 机器人人工智能
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 内政部:10.1109/CEC.1999.782657·doi:10.1109/CEC.1999.782657
[2] 内政部:10.1109/3477.484436·数字标识代码:10.1109/3477.484436
[3] DOI:10.1016/S0893-6080(02)00044-8·Zbl 02022227号 ·doi:10.1016/S0893-6080(02)00044-8
[4] 内政部:10.9746/sicetr1965.42.1244·数字对象标识代码:10.9746/sicetr1965.42.1244
[5] 内政部:10.1109/5326.704563·doi:10.10109/5326.704563
[6] Kobayashi,K.,Mizuno,S.,Kuremoto,T.和Obayashi,M.(2005),“使用模糊ART的基于状态空间构建的强化学习系统”,国际仪器、控制和信息技术会议记录(SICE年会,2005),8月8-10日,冈山,第3653-8页。
[7] 内政部:10.1541/ieejeis.128.1303·doi:10.1541/ieejeiss.128.1303
[8] Kuremoto,T.、Obayashi,M.和小林石,K.(2007),“利用强化学习进行SOFNN时间序列预测”,第27届国际预测研讨会论文集(ISF2007),6月24日至27日,纽约州纽约市,第99页。
[9] Kuremoto,T.、Obayashi,M.、Yamamoto,A.和Kobayashi.,K.(2003),“通过强化学习预测混沌时间序列”,《第二届计算智能、机器人和自治系统国际会议论文集》(CIRAS2003),CD-ROM,12月15日至18日,新加坡。
[10] Kuremoto,T.,Obayashi,M.,小林,K.,Adachi,H.和Yoneda,K.(2008c),“群行为的强化学习系统”,《IEEE计算智能世界大会论文集》(WCCI/IJCNN 2008),6月1日至7日,香港,第3710-5页·doi:10.1109/IJCNN.2008.4634330
[11] Obayashi,M.,Kuremoto,T.和Kobayash,K.(2008),“用于自治机器人连续状态空间的自组织模糊神经强化学习系统”,《建模、控制和自动化计算智能国际会议论文集》(CIMCA 2008),12月10日至12日,维也纳,第552-9页·doi:10.1109/CIMCA.2008.25
[12] DOI:10.1016/S0893-6080(99)00055-6·doi:10.1016/S0893-6080(99)00055-6
[13] Schultz,W.(1998),“多巴胺神经元的预测奖赏信号”,《神经生理学杂志》,第80卷,第1-27页。
[14] 内政部:10.1177/107385840100700406·doi:10.1177/107385840100700406
[15] 内政部:10.1126/science.275.5306.1593·数字对象标识代码:10.1126/science.275.5306.1593
[16] Sycara,K.P.(1998),“多智能体系统”,《人工智能杂志》,夏季,第79-92B页。
[17] 内政部:10.1038/35083500·doi:10.1038/35083500
[18] DOI:10.1016/j.jnca.2006.09.004·Zbl 05463510号 ·doi:10.1016/j.jnca.2006.09.004
[19] 内政部:10.1016/j.ins.2007.03.012·Zbl 05174410号 ·doi:10.1016/j.ins.2007.03.012
[20] Kaelbling,L.P.和Littman,M.L.(1996),“强化学习:一项调查”,《人工智能研究杂志》,第4卷,第237-85页。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。