Learning a DFT-based sequence with reinforcement learning: a NAO implementation

Boris Durán; Gauss Lee; Robert Lowe

doi:10.2478/s13230-013-0109-5

开放式访问发布人：De Gruyter开放存取 2013年4月15日

使用强化学习学习基于DFT的序列：一种NAO实现

鲍里斯·杜兰 , 高斯·李和罗伯特·洛

来自日志Paladyn，行为机器人杂志

https://doi.org/10.2478/s13230-013-0109-5

摘要

机器人平台中序列学习的实现带来了几个挑战。决定何时停止一个动作并继续下一个动作需要在感官信息的稳定性和下一个需要什么动作的知识之间取得平衡。这里介绍的工作为成功执行和学习动态序列提供了一个起点。利用NAO仿人平台，我们提出了一个基于动态场理论和强化学习方法的数学模型，用于获取和执行一系列基本运动行为。给出了用于序列生成的两种强化学习方法的仿真和实现结果。

关键词：序列;神经动力学;强化学习;类人的

工具书类

[1] S.Amari，“横向抑制型神经场中模式形成的动力学，”生物控制论第27卷，第77-87页，1977年。2007年10月10日/BF00337259在谷歌学者中搜索公共医学

[2] G.Schöner，剑桥计算认知建模手册R.Sun，英国：剑桥大学出版社，2008，ch.认知的动力系统方法，第101-126页。10.1017/CBO9780511816772.007在谷歌学者中搜索

[3] E.Bicho、P.Mallet和G.Schoner，“带有低电平传感器的自动车辆上的目标表示”国际机器人研究杂志2000年5月，第19卷，第5期，第424-447页。[在线]。可用：http://dx.doi.org/10.1177/02783640022066950在谷歌学者中搜索

[4] W.Erlhagen、A.Mukovskiy、F.Chersi和E.Bicho，“关于联合行动任务意图理解的发展”，2007年。10.1109/DEVLRN.2007.4354022在谷歌学者中搜索

[5] Y.Sandamirskaya和G.Schöner，“序列的具体描述：不稳定性如何驱动序列生成，”神经网络，第23卷，第10期，第1164–1179页，2010年12月。在谷歌学者中搜索

[6] Y.Sandamirskaya、M.Richter和G.Schöner，《序列生成和行为组织的神经动力学》前面。计算。神经科学：计算神经科学和神经技术伯恩斯坦会议和Neurex年会，BC112011年第0期。在谷歌学者中搜索

[7] R.S.Sutton和A.G.Barto，强化学习：简介（自适应计算和机器学习）麻省理工学院出版社，1998年3月。[在线]。可用：http://www.amazon.com/exec/obidos/redirect？tag=citeulike07网址-20&路径=ASIN/0262193981在谷歌学者中搜索

[8] R.E.Suri和W.Schultz，“利用多巴胺类强化信号的神经网络模型学习顺序运动”实验脑研究第121卷，第350–354页，1998年，10.1007/s002210050467。[在线]。可用：http://dx.doi.org/10.1007/s002210050467在谷歌学者中搜索公共医学

[9] J.Modayil、A.White和R.S.Sutton，“强化学习机器人中的多时间尺度下一步”CoRR公司，第abs/1112.1133卷，2011年。在谷歌学者中搜索

[10] Y.Sandamirskaya和G.Schöner，“动作系统中的序列：多维动态神经场的实现”发展与学习，2010年。ICDL 2010。第九届IEEE国际会议, 2010.10.1109/DEVLRN.2010.5578834在谷歌学者中搜索

[11] Y.Niv，“大脑中的强化学习”数学心理学杂志，第53卷，第3期，第139-154页，2009年。[在线]。可用：http://linkinghub.elsevier.com/retrieve/pii/S0222496080011812016年10月10日/j.jmp.2008.12005在谷歌学者中搜索

[12] M.Wiering和M.van Otterlo，强化学习：现状，序列号。适应、学习和优化。施普林格，2012年。[在线]。可用：http://books.google.com/books？id=YPjNuvrJR0MC10.1007/978-3-642-27645-3在谷歌学者中搜索

[13] E.Thelen和L.Smith，开发的动态系统方法，序列号。麻省理工学院出版社/布拉德福德图书认知心理学系列。米特出版社，1996年。[在线]。可用：http://books.google.com/books？id=kBslxoe0TekC在谷歌学者中搜索

[14] J.K.O'Regan和A.Noé，“视觉和视觉意识的感觉运动描述。”行为科学和脑科学，第24卷，第5期，2001年10月。[在线]。可用：http://view.ncbi.nlm.nih.gov/pubmed/1223989210.1017/S0140525X01000115在谷歌学者中搜索

[15] S.Kazerounian、M.D.Luciw、M.Richter和Y.Sandamirskaya，“神经动力学中行为序列的自主强化”CoRR公司，第abs/1210.35692012卷。10.1109/DevLrn.2012.6400831在谷歌学者中搜索

收到：2012-12-18

认可的：2013-3-27

在线发布：2013-4-15

印刷出版：2012-12-1

本作品根据Creative Commons Attribution-NonCommercial-NoDerivatives 3.0许可证授权。

使用强化学习学习基于DFT的序列：一种NAO实现

摘要

工具书类

期刊和发行

同一期中的文章