高桥县栗本;Masanao Obayashi;库尼卡祖·小林 基于神经模糊系统和强化学习算法的自适应群体行为捕获。 (英语) Zbl 1190.68046号 《国际情报杂志》。计算。赛博。 2,第4期,724-744(2009). 摘要:本文的目的是提出一种带有强化学习(RL)算法的神经模糊系统,用于自适应群体行为捕获。其基本思想是每个个体(主体)具有相同的内部模型和相同的学习过程,适应性行为只能通过环境的奖惩获得。群的形成也是由RL设计的,例如时间差分(TD)-错误学习算法,与个体学习相比,它可以带来更快的探索过程。每个个体的内部模型由一个模糊网络构成输入状态分类的一部分,以及采用一种称为actor-critic方法的RL方法的最优行为学习网络的一部分。根据agent行为试验中观察到的环境状态变化,在线自适应地形成模糊网络中的隶属函数和模糊规则。通过TD-error修正了模糊网络和参与者的行为值函数之间的连接权值,参与者提供了随机的行为选择策略,批评者提供了状态传输的评估。针对多个目标导向导航问题对该系统进行了仿真实验,结果表明,与个体学习相比,群体学习能够成功地形成群体,并更快地找到最优路径。将模糊识别系统和RL算法两种技术融合到个体内部模型中,用于群体形成和自适应行为捕获。该模型可应用于多智能体系统、群体机器人、元启发式优化等领域。 引用于4文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 68T40型 机器人人工智能 关键词:群体行为;神经模糊系统;强化学习;机器人技术 PDF格式BibTeX公司 XML格式引用 \textit{T.Kuremoto}等人,《国际情报杂志》。计算。赛博。2,第4号,724--744(2009;Zbl 1190.68046) 全文: 内政部 参考文献: [1] 内政部:10.1109/CEC.1999.782657·doi:10.1109/CEC.1999.782657 [2] 内政部:10.1109/3477.484436·数字标识代码:10.1109/3477.484436 [3] DOI:10.1016/S0893-6080(02)00044-8·Zbl 02022227号 ·doi:10.1016/S0893-6080(02)00044-8 [4] 内政部:10.9746/sicetr1965.42.1244·数字对象标识代码:10.9746/sicetr1965.42.1244 [5] 内政部:10.1109/5326.704563·doi:10.10109/5326.704563 [6] Kobayashi,K.,Mizuno,S.,Kuremoto,T.和Obayashi,M.(2005),“使用模糊ART的基于状态空间构建的强化学习系统”,国际仪器、控制和信息技术会议记录(SICE年会,2005),8月8-10日,冈山,第3653-8页。 [7] 内政部:10.1541/ieejeis.128.1303·doi:10.1541/ieejeiss.128.1303 [8] Kuremoto,T.、Obayashi,M.和小林石,K.(2007),“利用强化学习进行SOFNN时间序列预测”,第27届国际预测研讨会论文集(ISF2007),6月24日至27日,纽约州纽约市,第99页。 [9] Kuremoto,T.、Obayashi,M.、Yamamoto,A.和Kobayashi.,K.(2003),“通过强化学习预测混沌时间序列”,《第二届计算智能、机器人和自治系统国际会议论文集》(CIRAS2003),CD-ROM,12月15日至18日,新加坡。 [10] Kuremoto,T.,Obayashi,M.,小林,K.,Adachi,H.和Yoneda,K.(2008c),“群行为的强化学习系统”,《IEEE计算智能世界大会论文集》(WCCI/IJCNN 2008),6月1日至7日,香港,第3710-5页·doi:10.1109/IJCNN.2008.4634330 [11] Obayashi,M.,Kuremoto,T.和Kobayash,K.(2008),“用于自治机器人连续状态空间的自组织模糊神经强化学习系统”,《建模、控制和自动化计算智能国际会议论文集》(CIMCA 2008),12月10日至12日,维也纳,第552-9页·doi:10.1109/CIMCA.2008.25 [12] DOI:10.1016/S0893-6080(99)00055-6·doi:10.1016/S0893-6080(99)00055-6 [13] Schultz,W.(1998),“多巴胺神经元的预测奖赏信号”,《神经生理学杂志》,第80卷,第1-27页。 [14] 内政部:10.1177/107385840100700406·doi:10.1177/107385840100700406 [15] 内政部:10.1126/science.275.5306.1593·数字对象标识代码:10.1126/science.275.5306.1593 [16] Sycara,K.P.(1998),“多智能体系统”,《人工智能杂志》,夏季,第79-92B页。 [17] 内政部:10.1038/35083500·doi:10.1038/35083500 [18] DOI:10.1016/j.jnca.2006.09.004·Zbl 05463510号 ·doi:10.1016/j.jnca.2006.09.004 [19] 内政部:10.1016/j.ins.2007.03.012·Zbl 05174410号 ·doi:10.1016/j.ins.2007.03.012 [20] Kaelbling,L.P.和Littman,M.L.(1996),“强化学习:一项调查”,《人工智能研究杂志》,第4卷,第237-85页。 此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。