×

视觉运动行为的模块化反向强化学习。 (英语) Zbl 1294.68137号

小结:在各种各样的情况下,人们都希望能够对观察到的动物或人类行为有一个表达力强且准确的模型。虽然通用数学模型可以成功地捕获观察到的行为的特性,但最好将模型建立在生物学事实上。由于在视觉运动任务中有大量的基于奖励的学习经验证据,我们使用了一个计算模型,该模型基于这样的假设,即被观察的主体正在平衡其行为的成本和收益,以实现其目标。这导致使用强化学习框架,该框架还为视觉运动任务解决方案的学习提供了成熟的算法。为了将主体的目标量化为观察到的行为中隐含的奖励,我们建议使用反向强化学习,该学习将主体的目标量化为观察到的行为中隐含的奖励。基于模块化认知结构的假设,我们引入了一种模块化反向强化学习算法,该算法估计导航中组件任务的相对报酬贡献,包括沿着路径避开障碍物和接近目标。它显示了如何恢复单个任务的组件奖励权重,并且可以通过行为目标简明扼要地解释观测轨迹中的变化。通过仿真证明,使用少量的观测数据就可以获得良好的估计值,从而可以预测新配置中的行为。

MSC公司:

68T45型 机器视觉和场景理解
68T05型 人工智能中的学习和自适应系统
92D50型 动物行为

软件:

SSVM(SSVM)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Barrett HC,Kurzban R(2006)《认知中的模块性:构建辩论》。《心理学评论》113(3):628·doi:10.1037/0033-295X.113.3.628
[2] 巴托,AC;胡克,JC(编辑);Davis,JL(编辑);Beiser,DG(编辑),适应性批评家和基底神经节,215-232(1995),马萨诸塞州剑桥
[3] Billard A,Mataric MJ(2001)《通过模仿学习人类手臂运动:对受生物启发的连接主义建筑的评估》。机器人自动系统37:145-160·兹比尔1016.68121 ·doi:10.1016/S0921-8890(01)00155-5
[4] Bromberg-Martin ES、Matsumoto M、Hikosaka O(2010)《动机控制中的多巴胺:奖励、厌恶和警觉》。神经元68:815-834·doi:10.1016/j.neuron.2010.11.022
[5] Brooks R(1986)移动机器人的鲁棒分层控制系统。IEEE J机器人自动化2(1):14-23
[6] Chang,Y-H;Ho,T。;Kaelbling,有限合伙人;Thrun,S.(编辑);Saul,L.(编辑);Schölkopf,B.(ed.),《所有学习都是本地的:全球奖励游戏中的多智能体学习》(2004),马萨诸塞州剑桥
[7] Daw ND、O'Doherty JP、Dayan P、Seymour B、Dolan RJ(2006)人类探索性决策的皮层基质。《自然》441(7095):876-879。编号1476-4687。doi:10.1038/nature04766。统一资源定位地址http://www.ncbi.nlm.nih.gov/pubmed/16778890
[8] Daw ND,Doya K(2006)学习和奖励的计算神经生物学。神经生理学研究16(2):199-204·doi:10.1016/j.conb.2006.03.006
[9] Dayan P,Hinton GE(1992)《封建强化学习》。内容:神经信息处理系统的进展5。Morgan Kaufmann出版社,伯灵顿,第271-271页·Zbl 0876.68090号
[10] Dimitrakakis C,Rothkopf CA(2011)贝叶斯多任务反向强化学习。In:强化学习欧洲研讨会(EWRL)
[11] Fajen BR、Warren WH(2003),转向、障碍物避免和路线选择的行为动力学。实验心理学幽默感知表演29(2):343·doi:10.1037/0096-1523.29.2343
[12] Fodor JA(1983)心智模块化。麻省理工学院出版社,马萨诸塞州剑桥
[13] Gershman SJ、Pesaran B、Daw ND(2009)人类强化学习通过学习效应器特定值来细分结构化动作空间。神经科学杂志29(43):13524-13531·doi:10.1523/JNEUROSCI.2469-09.2009
[14] Glimcher PW(2004)《决策、不确定性和大脑:神经经济学》。麻省理工学院出版社,布拉德福德出版社,马萨诸塞州剑桥
[15] Gold JI,Shadlen MN(2007)决策的神经基础。《神经科学年鉴》30(1):535-574。国际标准编号0147-006X。doi:10.1146/annurev.neuro.29.051605.113038·Zbl 1017.90105号
[16] Graybiel AM、Aosaki T、Flaherty AW、Kimura M(1994)《基底节和适应性运动控制》。科学265(5180):1826-1831·doi:10.1126/science.8091209
[17] Haber SN(2003)《灵长类基底神经节:平行和整合网络》。神经病学杂志26(4):317-330·doi:10.1016/j.jchemneu.2003.10003
[18] 汉弗莱斯,M。;Maes,P.(编辑);Mataric,M.(编辑);Meyer,J-A(编辑);Pollack,J.(编辑);Wilson,SW(编辑),《使用强化学习的行动选择方法》,135-144(1996),马萨诸塞州剑桥
[19] Kaelbling LP(1993)随机领域中的分层学习:初步结果。摘自:第十届机器学习国际会议论文集,第951卷,第167-173页
[20] Lee YJ,Mangasarian OL(2001)Ssvm:用于分类的平滑支持向量机。计算优化应用程序20(1):5-22·Zbl 1017.90105号 ·doi:10.1023/A:101125321374
[21] Lopes M,Melo F,Montesano L(2009)反向强化学习中奖励估计的主动学习。收录:Buntine W、Grobelnik M、MladenićD、Shawe-Taylor J(编辑)数据库中的机器学习和知识发现。计算机科学课堂讲稿,第5782卷。施普林格,柏林,海德堡,第31-46页。http://dx.doi.org/10.1007/978-3642-04174-7_3
[22] Minsky M(1988)心理学会。西蒙和舒斯特
[23] Montague PR,Dayan P,Sejnowski TJ(1996)基于预测赫布学习的中脑多巴胺系统框架。神经科学杂志16:1936-1947
[24] Neu G,Szepesvári C(2007)使用反向强化学习和梯度方法的学徒学习。摘自:第23届人工智能不确定性会议记录,第295-302页
[25] Ng AY,Russell S(2000)《反向强化学习算法》。摘自:《第17届机器学习国际会议论文集》,Morgan Kaufmann,第663-670页
[26] Pastor P、Hoffmann H、Asfour T、Schaal S(2009)《通过示范学习运动技能的学习和推广》。参加:机器人与自动化国际会议
[27] Pinker SA(1999)《思维如何运作》。Ann N Y科学院882(1):119-127
[28] Puterman ML(1994)Markov决策过程。威利,纽约,纽约·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[29] Ramachandran D,Amir E(2007)贝叶斯反向强化学习。参加:第20届国际人工智能联合会议
[30] Rothkopf CA(2008)基于任务的视觉引导行为模块化模型。罗切斯特大学计算机科学系大脑与认知科学系博士论文
[31] Rothkopf CA,Ballard DH(2010)《多目标视觉行为中的信贷分配》。心理学前沿,1,具体化认知专题(00173)
[32] Rothkopf CA,Dimitrakakis C(2001)偏好启发和反向强化学习。In:第22届欧洲机器学习会议(ECML)
[33] Rummery GA、Niranjan M(1994)使用连接主义系统的在线Q学习。技术报告CUED/F-INFENG/TR 166,剑桥大学工程系·Zbl 1016.68121号
[34] Russell S,Zimdars AL(2003)强化学习代理的Q分解。摘自:机器学习国际会议论文集,第20卷,第656页
[35] Samejima K,Ueda Y,Doya K,Kimura M(2005)纹状体中动作特异性奖励值的表示。科学310(5752):1337·doi:10.1126/science.115270
[36] Schmidt M,Fung G,Rosales R(2007)《l1正则化的快速优化方法:比较研究和两种新方法》。收录:Kok J、Koronacki J、Mantaras R、Matwin S、Mladenic D、Skowron A(编辑)《机器学习:ECML 2007》,计算机科学讲稿第4701卷,柏林斯普林格,2007年,第286-297页。国际标准图书编号978-3-540-74957-8
[37] Schöner G,Dose M(1992)用于规划和控制自动车辆运动的任务级系统集成的动态系统方法。机器人自动系统10(4):253-267·doi:10.1016/0921-8890(92)90004-I
[38] Schultz W,Dayan P,Montague PR(1997)预测和奖励的神经基质。科学275:1593-1599·数字对象标识代码:10.1126/science.275.5306.1593
[39] Seymour B、O'Doherty JP、Dayan P、Koltzenburg M、Jones AK、Dolan RJ、Friston KJ、Frackowiak RS(2004)时间差异模型描述了人类的高阶学习。性质429(6992):664-667·doi:10.1038/nature02581
[40] Singh S,Cohn D(1998)《如何动态合并马尔可夫决策过程》。In:神经信息处理系统10,pp 1057-1063
[41] Sprague N,Ballard D(2003),使用模块化sarsa的多目标强化学习(0)。In:国际人工智能联合会议,阿卡普尔科,2003年8月
[42] Sprague N,Ballard DH(2007)《建模体现的视觉行为》。ACM事务应用感知4(2):11·数字对象标识代码:10.1145/1265957.1265960
[43] Sutton RS(1988)通过时间差异方法学习预测。马赫学习3:9-44
[44] Sutton RS,Barto AG(1998)《强化学习:导论》。麻省理工学院出版社,马萨诸塞州剑桥
[45] Von Neumann J、Morgenstern O、Rubinstein A、Kuhn HW(1947)《博弈论与经济行为》。普林斯顿大学出版社,新泽西州普林斯顿·Zbl 1241.91002号
[46] Whitehead SD(1991)强化学习中合作机制的复杂性分析。摘自:人工智能协会会议记录
[47] Whitehead SD,Ballard DH(1991)通过试验和错误学习感知和行动。马赫学习7:45-83
[48] Ziebart BD,Bagnell JA,Dey AK(2010)通过最大因果熵原理建模交互。摘自:Johannes F,Thorsten J(eds)《第27届机器学习国际会议(ICML-10)论文集》,2010年6月21日至24日。以色列海法,第1255-1262页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。