文件Zbl 1190.68046-zbMATH打开

基于神经模糊系统和强化学习算法的自适应群体行为捕获。（英语） Zbl 1190.68046号

《国际情报杂志》。计算。赛博。 2，第4期，724-744（2009）.

摘要：本文的目的是提出一种带有强化学习（RL）算法的神经模糊系统，用于自适应群体行为捕获。其基本思想是每个个体（主体）具有相同的内部模型和相同的学习过程，适应性行为只能通过环境的奖惩获得。群的形成也是由RL设计的，例如时间差分（TD）-错误学习算法，与个体学习相比，它可以带来更快的探索过程。
每个个体的内部模型由一个模糊网络构成输入状态分类的一部分，以及采用一种称为actor-critic方法的RL方法的最优行为学习网络的一部分。根据agent行为试验中观察到的环境状态变化，在线自适应地形成模糊网络中的隶属函数和模糊规则。通过TD-error修正了模糊网络和参与者的行为值函数之间的连接权值，参与者提供了随机的行为选择策略，批评者提供了状态传输的评估。
针对多个目标导向导航问题对该系统进行了仿真实验，结果表明，与个体学习相比，群体学习能够成功地形成群体，并更快地找到最优路径。
将模糊识别系统和RL算法两种技术融合到个体内部模型中，用于群体形成和自适应行为捕获。该模型可应用于多智能体系统、群体机器人、元启发式优化等领域。

引用于4文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
68T40型	机器人人工智能

关键词：

群体行为;神经模糊系统;强化学习;机器人技术

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	内政部：10.1109/CEC.1999.782657·doi:10.1109/CEC.1999.782657
[2]	内政部：10.1109/3477.484436·数字标识代码：10.1109/3477.484436
[3]	DOI:10.1016/S0893-6080（02）00044-8·Zbl 02022227号 ·doi:10.1016/S0893-6080（02）00044-8
[4]	内政部：10.9746/sicetr1965.42.1244·数字对象标识代码：10.9746/sicetr1965.42.1244
[5]	内政部：10.1109/5326.704563·doi:10.10109/5326.704563
[6]	Kobayashi，K.，Mizuno，S.，Kuremoto，T.和Obayashi，M.（2005），“使用模糊ART的基于状态空间构建的强化学习系统”，国际仪器、控制和信息技术会议记录（SICE年会，2005），8月8-10日，冈山，第3653-8页。
[7]	内政部：10.1541/ieejeis.128.1303·doi:10.1541/ieejeiss.128.1303
[8]	Kuremoto，T.、Obayashi，M.和小林石，K.（2007），“利用强化学习进行SOFNN时间序列预测”，第27届国际预测研讨会论文集（ISF2007），6月24日至27日，纽约州纽约市，第99页。
[9]	Kuremoto，T.、Obayashi，M.、Yamamoto，A.和Kobayashi.，K.（2003），“通过强化学习预测混沌时间序列”，《第二届计算智能、机器人和自治系统国际会议论文集》（CIRAS2003），CD-ROM，12月15日至18日，新加坡。
[10]	Kuremoto，T.，Obayashi，M.，小林，K.，Adachi，H.和Yoneda，K.（2008c），“群行为的强化学习系统”，《IEEE计算智能世界大会论文集》（WCCI/IJCNN 2008），6月1日至7日，香港，第3710-5页·doi:10.1109/IJCNN.2008.4634330
[11]	Obayashi，M.，Kuremoto，T.和Kobayash，K.（2008），“用于自治机器人连续状态空间的自组织模糊神经强化学习系统”，《建模、控制和自动化计算智能国际会议论文集》（CIMCA 2008），12月10日至12日，维也纳，第552-9页·doi:10.1109/CIMCA.2008.25
[12]	DOI:10.1016/S0893-6080（99）00055-6·doi:10.1016/S0893-6080（99）00055-6
[13]	Schultz，W.（1998），“多巴胺神经元的预测奖赏信号”，《神经生理学杂志》，第80卷，第1-27页。
[14]	内政部：10.1177/107385840100700406·doi:10.1177/107385840100700406
[15]	内政部：10.1126/science.275.5306.1593·数字对象标识代码：10.1126/science.275.5306.1593
[16]	Sycara，K.P.（1998），“多智能体系统”，《人工智能杂志》，夏季，第79-92B页。
[17]	内政部：10.1038/35083500·doi:10.1038/35083500
[18]	DOI:10.1016/j.jnca.2006.09.004·Zbl 05463510号 ·doi:10.1016/j.jnca.2006.09.004
[19]	内政部：10.1016/j.ins.2007.03.012·Zbl 05174410号 ·doi:10.1016/j.ins.2007.03.012
[20]	Kaelbling，L.P.和Littman，M.L.（1996），“强化学习：一项调查”，《人工智能研究杂志》，第4卷，第237-85页。

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于神经模糊系统和强化学习算法的自适应群体行为捕获。（英语） Zbl 1190.68046号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

基于神经模糊系统和强化学习算法的自适应群体行为捕获。 （英语） Zbl 1190.68046号

MSC公司：

关键词：

参考文献：

基于神经模糊系统和强化学习算法的自适应群体行为捕获。（英语） Zbl 1190.68046号