×

自适应动态规划作为一种感觉运动控制理论。 (英语) Zbl 1307.49024号

基于优化和最优控制理论的模型可以解释传感器运动控制的许多特性。然而,以前的大多数模型都假设中枢神经系统能够获得关于感觉运动系统及其交互环境的精确知识。这一观点很难从理论上得到证明,也没有通过实验得到令人信服的验证。为了解决这个问题,本文从自适应动态规划(ADP)的角度提出了一种新的传感器运动控制计算机制,该机制具有强化学习的一些特点。基于ADP的传感器运动控制模型表明,人体运动的命令信号直接来自实时感官数据,而无需识别系统动力学。基于所提出的ADP理论,开发了一种迭代学习方案,并进行了严格的收敛性分析。有趣的是,这里提倡的计算模型能够重现在存在发散力场或速度相关力场的实验中观察到的运动学习行为。此外,该建模策略提供了一种对整个系统进行稳定性分析的明确方法。因此,我们推测人类感觉运动系统使用ADP型机制来控制运动,并成功适应环境中存在的不确定性。

MSC公司:

49升20 最优控制与微分对策中的动态规划
92秒20 生物研究、人工生命和相关主题中的神经网络
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bellman RE(1957)动态编程。普林斯顿大学出版社,新泽西州普林斯顿·Zbl 0077.13605号
[2] Berniker M,Kording K(2008)《估计适应和泛化运动误差的来源》。《自然神经科学》11(12):1454-1461·Zbl 1151.34021号 ·doi:10.1038/nn.2229
[3] Bhushan N,Shadmehr R(1999),学习力场中伸展运动时人类自适应控制的计算性质。生物Cybern 81(1):39-60·兹比尔0942.92005 ·doi:10.1007/s004220050543
[4] Bristow DA、Tharayil M、Alleyne AG(2006)《迭代学习控制的调查》。IEEE控制系统杂志26(3):96-114·doi:10.1109/MCS.2006.1636313
[5] Burdet E,Osu R,Franklin D,Yoshioka T,Milner T,Kawato M(2000)一种测量多关节手臂运动过程中端点刚度的方法。生物医学杂志33(12):1705-1709·doi:10.1016/S0021-9290(00)00142-1
[6] Burdet E,Osu R,Franklin DW,Milner TE,Kawato M(2001)中枢神经系统通过学习最佳阻抗来稳定不稳定的动力学。自然414(6862):446-449·doi:10.1038/35106566
[7] Davidson PR,Wolpert DM(2003),可变环境中的运动学习和预测。Curr Opin Neurobiol神经生理学13(2):232-237·doi:10.1016/S0959-4388(03)00038-2
[8] Diedrichsen J、Shadmehr R、Ivry RB(2010)《运动协调:最优反馈控制及超越》。趋势认知科学14(1):31-39·doi:10.1016/j.tics.2009.11.004
[9] Doya K(2000)持续时间和空间中的强化学习。神经计算12(1):219-245·doi:10.11162/089977600300015961
[10] Doya K、Kimura H、Kawato M(2001)学习和控制的神经机制。IEEE控制系统杂志21(4):42-54·doi:10.1109/37.939943
[11] Fitts PM(1954)人类运动系统控制运动幅度的信息能力。实验心理学杂志47(6):381-391·doi:10.1037/h0055392
[12] Flash T,Hogan N(1985)手臂运动的协调:实验证实的数学模型。神经科学杂志5(7):1688-1703
[13] Franklin DW,Wolpert DM(2011),感觉运动控制的计算机制。神经元72(3):425-442·doi:10.1016/j.neuron.2011.10.006
[14] Franklin DW、Burdet E、Osu R、Kawato M、Milner TE(2003),刚度在多关节手臂运动适应稳定和不稳定动力学中的功能意义。实验脑研究151(2):145-157
[15] Franklin DW、Burdet E、Tee KP、Osu R、Chew CM、Milner TE、Kawato M(2008)CNS使用简单算法学习稳定、准确和高效的动作。神经科学杂志28(44):11165-11173
[16] Gomi H,Kawato M(1996)通过测量多关节运动期间的手臂刚度来检验平衡点控制假设。科学272:117-120
[17] Harris CM、Wolpert DM(1998),信号相关噪声决定运动规划。自然394:780-784
[18] Hogan N(1985)多关节姿势和运动控制的力学。生物网络52(5):315-331·Zbl 0599.73101号
[19] Hogan N,Flash T(1987)《动作优雅:运动协调的定量理论》。《神经科学趋势》10(4):170-174
[20] Horn RA(1990)矩阵分析。剑桥大学出版社·Zbl 0704.15002号
[21] Hudson TE,Landy MS(2012),对感觉-运动反射扰动的适应对错误源是盲目的。J维斯12(1):1-10
[22] ItóK(1944)随机积分。数学科学学报20(8):519-524·Zbl 0060.29105号
[23] Izawa J,Shadmehr R(2011)运动适应期间从感觉和奖赏预测错误中学习。PLoS计算机生物学7(3):e1002012
[24] Izawa J、Rane T、Donchin O、Shadmehr R(2008)《运动适应作为再优化过程》。神经科学杂志28(11):2883-2891
[25] 姜瑜,姜振平(2012a)动力学完全未知连续线性系统的计算自适应最优控制。Automatica 48(10):2699-2704·Zbl 1271.93088号
[26] 姜瑜。;江,ZP;Liu,D.(编辑);Lewis,F.(编辑),鲁棒自适应动态规划,281-302(2012),纽约
[27] 姜瑜,姜振平(2013a)最优非线性控制设计的鲁棒自适应动态规划。arXiv,预印arXiv:13032247v1[mathDS]·Zbl 1108.93082号
[28] Jiang ZP,Jiang Y(2013b)线性和非线性系统的鲁棒自适应动态规划:概述。欧洲药典控制19(5):417-425·Zbl 1293.49053号
[29] 姜瑜,姜振平(2014)非线性系统的鲁棒自适应动态规划与反馈镇定。IEEE Trans Neural Netw学习系统25(5):882-893
[30] 姜瑜,Chemudupati S,Jorgensen JM,姜振平,Peskin CS(2011a)涉及人类肾脏的最优控制机制。In:第50届IEEE决策与控制会议和欧洲控制会议(CDC-ECC),佛罗里达州奥兰多,第3688-3693页
[31] 姜瑜,姜振平,钱恩(2011b)人体伸臂运动的最优控制机制。附:第30届中国控制会议记录,IEEE,中国烟台,第1377-1382页
[32] Kleinman D(1969a)关于线性随机系统的稳定性。IEEE Trans Autom Control 14(4):429-430
[33] Kleinman D(1969b)具有控制相关噪声的线性系统的最优平稳控制。IEEE Trans Autom Control 14(6):673-677
[34] Kording KP,Tenenbaum JB,Shadmehr R(2007)记忆的动力学是对不断变化的身体进行最佳适应的结果。《自然神经科学》10(6):779-786
[35] Lewis F、Syrmos V(1995)《最优控制》。纽约威利
[36] Lewis FL,Vrabie D(2009),反馈控制的强化学习和自适应动态规划。IEEE电路系统杂志9(3):32-50
[37] Liu D,Todorov E(2007)最优反馈控制预测的灵活感觉运动策略的证据。神经科学杂志27(35):9354-9368
[38] Ljung L(1999)系统识别。威利,伦敦·Zbl 1431.93015号
[39] Milne TE(1993),肘关节粘弹性行为对自由运动中速度和载荷的依赖性。实验脑研究93(1):177-180
[40] Morasso P(1981)手臂运动的空间控制。实验脑研究42(2):223-227
[41] Murray JJ、Cox CJ、Lendaris GG、Saeks R(2002)《自适应动态规划》。IEEE Trans-Syst Man Cybern C应用程序第32版(2):140-153
[42] Mussa-Ivaldi FA、Hogan N、Bizzi E(1985),人类手臂姿势的神经、机械和几何因素。神经科学杂志5(10):2732-2743
[43] Powell WB(2011)《近似动态规划:解决维度的诅咒》,第2版。威利,伦敦·Zbl 1242.90002号
[44] Qian N,Jiang Y,Jing ZP,Mazzoni P(2013)运动持续时间,Fitts定律,生物运动系统的无限小时最优反馈控制模型。神经计算25(3):697-724·Zbl 1269.92003号
[45] Schmidt RA,Lee TD(2011)《运动控制和学习:行为重点》,第5版。人体动力学
[46] Scott SH(2004)最优反馈控制和意志电机控制的神经基础。《国家神经科学评论》5(7):532-546
[47] Shadmehr R,Mussa-Ivaldi FA(1994),运动任务学习期间动力学的自适应表征。神经科学杂志14(5):3208-3224
[48] Sutton RS,Barto AG(1998)《强化学习:导论》。麻省理工学院出版社,剑桥
[49] Tanaka H,Krakauer JW,Qian N(2006)确定运动持续时间的优化原则。神经生理学杂志95(6):3875-3886·Zbl 1121.74028号
[50] Tee KP、Franklin DW、Kawato M、Milner TE、Burdet E(2010)冗余肌肉系统中力和阻抗的并行适应。生物网络102(1):31-44·Zbl 1266.92012号
[51] Todorov E(2005)适用于传感运动系统噪声特性的随机最优控制和估计方法。神经计算17(5):1084-1108·Zbl 1108.93082号
[52] Todorov E,Jordan MI(2002),作为运动协调理论的最优反馈控制。国家神经科学5(11):1226-1235
[53] Uno Y,Kawato M,Suzuki R(1989)人类多关节手臂运动中最佳轨迹的形成和控制:最小扭矩变化模型。生物博客Cybern 61(2):89-101
[54] Vrabie D,Pastravanu O,Abu-Khalaf M,Lewis F(2009)基于策略迭代的连续线性系统自适应最优控制。Automatica 45(2):477-484·兹比尔1158.93354
[55] Watkins C(1989)从延迟奖励中学习。博士论文。剑桥大学
[56] Wei K,Körding K(2010),反馈和状态估计的不确定性决定了电机适应的速度。前端计算机神经科学4:1-9·兹比尔1266.92012
[57] Werbos P(1968)《智力的要素》。控制论(纳穆尔)(3)
[58] Werbos P(1974)《超越回归:行为科学中预测和分析的新工具》。博士论文。哈佛大学
[59] Werbos PJ(1989)控制和系统识别的神经网络。附:第28届IEEE决策与控制会议记录,第260-265页
[60] Wolpert DM,Ghahramani Z(2000)运动神经科学的计算原理。《自然神经科学》3:1212-1217
[61] Yang C,Ganesh G,Haddadin S,Parusel S,Albu-Schaeffer A,Burdet E(2011)稳定和不稳定交互中力和阻抗的类人适应。IEEE Trans机器人27(5):918-930
[62] Zhou K,Doyle JC,Glover K(1996)鲁棒最优控制,第272卷。新泽西州普伦蒂斯·霍尔·兹比尔0999.49500
[63] Zhou SH,Oetomo D,Tan Y,Burdet E,Mareels I(2012)通过模型参考迭代学习控制建模个体人类运动行为。IEEE Trans生物医学工程59(7):1892-1901
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。