×

奖励预测错误,而非感官预测错误,在人类强化学习的模型选择中起着重要作用。 (英语) Zbl 1525.91148号

概要:基于模型的强化学习使代理能够根据预测的状态和结果优化其操作,从而在可变的环境和任务中进行学习。这种机制也被认为存在于大脑中。然而,大脑如何选择合适的模型来应对环境,目前尚不清楚。在这里,我们研究了强化学习任务期间人脑中的模型选择算法。大脑中模型选择的一个主要理论是基于感官预测误差。在这里,我们将这一理论与具有奖励预测误差的内部模型选择的另一种可能性进行了比较。为了比较这两种理论,我们设计了一个从一阶马尔可夫决策过程到二阶马尔可夫决策过程的切换实验,该过程提供了关于环境变化的奖励或感官预测误差。我们测试了两个由不同预测误差驱动的代表性计算模型。一种是感官预测误差驱动的贝叶斯算法,该算法被视为动物强化学习任务中具有代表性的内部模型选择算法。另一种是奖惩-错误驱动的策略梯度算法。我们将这两个计算模型的仿真结果与人类强化学习行为进行了比较。模型拟合结果表明,策略梯度算法优于贝叶斯算法。这表明人脑在强化学习任务中利用奖赏预测误差来选择合适的内部模型。

理学硕士:

91E40型 心理学中的记忆和学习
91-05 博弈论、经济学和金融相关问题的实验工作
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bellman,R.,《动态规划,科学》,153,3731,34-37(1966)
[2] Bertin,M。;Schweighofer,N。;Doya,K.,《基于多模型的强化学习解释多巴胺神经元活动》,神经网络,20,6,668-675(2007)·Zbl 1119.68376号
[3] Daw,北卡罗来纳州。;Dayan,P.,《基于模型评估的算法剖析》,皇家学会学报B:生物科学,369,1655,Article 20130478 pp.(2014)
[4] Daw,N.D。;Gershman,S.J。;西摩,B。;达扬,P。;Dolan,R.J.,《基于模型对人类选择的影响和纹状体预测误差》,《神经元》,69,6,1204-1215(2011)
[5] 娃娃,B.B。;西蒙,D.A。;Daw,N.D.,《基于模型的强化学习的普遍性》,《神经生物学的当前观点》,22,6,1075-1081(2012)
[6] 多诺佐,M。;柯林斯,A.G。;Koechlin,E.,《人类前额叶皮层推理基础》,《科学》,3441481-1486(2014)
[7] Doya,K。;Samejima,K。;卡塔吉里,K.-i。;Kawato,M.,基于多模型的强化学习,神经计算,14,6,1347-1369(2002)·Zbl 0997.93037号
[8] Fermin,A.S。;吉田,T。;Yoshimoto,J。;伊藤,M。;南卡罗来纳州田中市。;Doya,K.,基于模型的行动计划涉及皮质-小脑和基底神经节网络,《科学报告》,6,1,1-14(2016)
[9] Gläscher,J。;Daw,N.D。;大研,P。;O'Doherty,J.,《状态与奖励:基于模型和无模型强化学习背后的分离神经预测误差信号》,《神经元》,66,4,585-595(2010)
[10] Haruno,M。;Wolpert,D.M。;Kawato,M.,用于感觉运动学习和控制的马赛克模型,神经计算,13,10,2201-2220(2001)·Zbl 0984.68151号
[11] Kaelbling,L.P。;利特曼,M.L。;Cassandra,A.R.,《部分可观测随机域中的规划和行动》,人工智能,101,1-2,99-134(1998)·Zbl 0908.68165号
[12] 克劳斯,W。;史密特纳尔,P。;Dolan,R.J.,《多巴胺增强基于模型而非无模型的选择行为》,《神经元》,75,3,418-424(2012)
[13] Lee,S.W。;Shimojo,S。;O'Doherty,J.P.,基于模型和无模型学习之间仲裁的神经计算,神经元,81,3,687-699(2014)
[14] 利特曼,M.L。;卡桑德拉,A.R。;Kaelbling,L.P.,部分可观测环境的学习策略:扩展,(机器学习学报1995(1995),Morgan Kaufmann),362-370
[15] Mauricio,A。;奥利维尔,B。;Vincent,T。;Françcois,C.,具有信念依赖奖励的POMDP扩展,神经信息处理系统进展,23(2010)
[16] 彼得·R。;佩斯科特·T·J。;Gurney,K.,《基底神经节:脊椎动物解决选择问题的方法?》?,神经科学,89,4,1009-1023(1999)
[17] 彼得斯,J。;Schaal,S.,机器人政策梯度方法,(IEEE/RSJ智能机器人和系统国际会议(2006),IEEE)
[18] 鲁塞克,E.M。;内贾德本人。;Botvinick,M.M。;Gershman,S.J。;Daw,N.D.,预测表征可以将基于模型的强化学习与无模型机制联系起来,《公共科学图书馆·计算生物学》,第13、9页,文章e1005768页(2017)
[19] 辛格,S.P.,《通过组合基本解决方案进行学习的转移》,机器学习,8,3,323-339(1992)·Zbl 0772.68073号
[20] 杉本,N。;Haruno,M。;Doya,K。;Kawato,M.,多分辨率环境下的MOSAIC,神经计算,24,3,577-606(2012)·Zbl 1238.68132号
[21] Sutton,R.S.,《基于近似动态编程的学习、规划和反应的集成架构》,《机器学习学报》1990年,216-224(1990),Morgan Kaufmann
[22] Sutton,R.S。;Barto,A.G.,《强化学习导论》,第135卷(1998年),麻省理工学院出版社:麻省理学院出版社剑桥
[23] Sutton,R.S。;McAllester,D。;辛格,S。;Mansour,Y.,《函数逼近强化学习的策略梯度方法》,神经信息处理系统进展,12(1999)
[24] 托德,M。;Niv,Y。;Cohen,J.D.,《通过多巴胺能增强学习在部分可观察环境中使用工作记忆》,《神经信息处理系统进展》,21(2008)
[25] Williams,R.J.,连接强化学习的简单统计梯度允许算法,机器学习,8,3,229-256(1992)·Zbl 0772.68076号
[26] Wolfram,S.公司。;大研,P。;Montague,P.R.,预测和奖励的神经基质,《科学》,27553061593-1599(1997)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。