×

用于评估强化学习中的学习和猜测策略的分层贝叶斯方法。 (英语) Zbl 1437.91378号

小结:在两臂强盗任务中,参与者学习刺激对中哪个刺激值最高。在典型的强化学习研究中,参与者被随机分成若干对;常用的分析假设每对都是以类似的方式学习的。然而,当任务变得更加困难时,参与者可能会学习一些刺激配对,而他们无法学习其他配对,也就是说,他们只是猜测配对的子集。我们提出了强化学习/猜测(RLGuess)模型,使研究人员能够对这种学习和猜测过程进行建模。我们在贝叶斯层次结构框架中实现了该模型。仿真结果表明,当参与者猜测:拟合度增强,参数估计无偏时,RLGuess模型的性能优于标准的强化学习模型。一个实证应用说明了RLGuess模型的优点。

MSC公司:

91E40型 心理学中的记忆和学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Bartlema,A。;李,M。;韦策尔斯,R。;Vanpaemel,W.,《个体差异的贝叶斯分层混合方法:类别学习中选择性注意和表征的案例研究》,《数学心理学杂志》,59,132-150(2014)·Zbl 1309.91118号
[2] Bááth,R.,《贝叶斯急救》(2014),2018年11月2日检索自http://www.sumsar.net/blog/2014/01/bayesian-first-aid/
[3] Busemeyer,J.R。;Stout,J.C.,认知决策模型对临床评估的贡献:Bechara赌博任务的分解表现,心理评估,14,3,253(2002)
[4] 克里斯塔库,A。;Gershman,S.J。;Niv,Y。;Simmons,A。;布拉默,M。;Rubia,K.,《青少年和青年时期决策的神经和心理成熟》,《认知神经科学杂志》,25,11,1807-1823(2013)
[5] Cohen,J.,《行为科学的统计权力分析》(1988年),劳伦斯·埃尔鲍姆协会·Zbl 0747.62110号
[6] 柯林斯,A.G.E。;Frank,M.J.,有多少强化学习是工作记忆,而不是强化学习?行为、计算和神经遗传学分析,《欧洲神经科学杂志》,35,7,1024-1035(2012)
[7] Daw,N.D。;卡卡德,S。;Dayan,P.,5-羟色胺和多巴胺之间的对立相互作用,神经网络,15,4,603-616(2002)
[8] Daw,N.D。;奥多尔蒂,J.P。;大研,P。;西摩,B。;Dolan,R.J.,《人类探索决策的皮层基质》,《自然》,441、7095、876-879(2006)
[9] 德克尔,J.H。;洛伦科,F.S。;娃娃,B.B。;Hartley,C.A.,经验奖励学习超过成年前的指导,认知、情感和行为神经科学,15,2,310-320(2015)
[10] Decker,J.H。;奥托·A.R。;Daw,N.D。;Hartley,C.A.,《从习惯生物到目标导向型学习者:追踪基于模型的强化学习的发展涌现》,《心理科学》,27,6,848-858(2016)
[11] 娃娃,B.B。;雅各布斯·W·J。;Sanfey,A.G。;Frank,M.J.,《强化学习的教学控制:行为和神经计算研究》,《大脑研究》,1299,74-94(2009)
[12] 经济体,M。;Kurth-Nelson,Z。;Lübbert,A。;吉塔特·马西普,M。;Dolan,R.J.,《人类基于模型的推理随着训练而变得自动化》,《公共科学图书馆·计算生物学》,第11、9期,文章e1004463页,(2015)
[13] 埃夫隆,B。;Morris,C.,Stein的统计悖论,《科学美国人》,236,5,119-127(1977)
[14] Eppinger,B。;Kray,J.,《选择还是避免:从正面和负面反馈中学习的年龄差异》,《认知神经科学杂志》,23,1,41-52(2011)
[15] Eppinger,B。;Kray,J。;模拟,B。;Mecklinger,A.,比预期好还是差?《衰老、学习与ERN》,《神经心理学》,46,2,521-539(2008)
[16] Eppinger,B。;模拟,B。;Kray,J.,《学习和错误处理的发展差异:来自ERP的证据》,《心理生理学》,46,5,1043-1053(2009)
[17] M.J.弗兰克。;娃娃,B.B。;Oas-Terpstra,J。;Moreno,F.,额叶和纹状体多巴胺能基因预测探索和开发中的个体差异,《自然神经科学》,12,8,1062-1068(2009)
[18] M.J.弗兰克。;Kong,L.,《老年人如何避免》,《心理学与老龄化》,23,2,392-398(2008)
[19] M.J.弗兰克。;穆斯塔法,A.A。;Haughey,H.M。;柯兰,T。;Hutchison,K.E.,《遗传三重分离揭示多巴胺在强化学习中的多重作用》,《美国国家科学院院刊》,104,41,16311-16316(2007)
[20] M.J.弗兰克。;塞伯格,L.C。;O'Reilly,R.C.,《胡萝卜还是大棒:帕金森病中的认知强化学习》,《科学》,30657031940-1943(2004)
[21] 加里斯泰尔,C.R。;费尔赫斯特,S。;Balsam,P.,《学习曲线:定量分析的含义》,《国家科学院学报》,101,36,13124-131311(2004)
[22] Gamerman,D。;Lopes,H.F.,《马尔可夫链蒙特卡罗:贝叶斯推断的随机模拟》(2006),查普曼和霍尔/CRC出版社·Zbl 1137.62011年
[23] Gelman,A。;Rubin,D.B.,使用多序列从迭代模拟中推断,《统计科学》,第7、4、457-472页(1992年)·Zbl 1386.65060号
[24] Gershman,S.J.,学习率是否适应奖励分配?,《心理学通报与评论》,22,5,1320-1327(2015)
[25] Gershman,S.J.,强化学习模型的实证先验,《数学心理学杂志》,71,1-6(2016)·Zbl 1359.62500
[26] Gershman,S.J。;佩萨兰,B。;Daw,N.D.,《人类强化学习通过学习效应器特定值细分结构化动作空间》,《神经科学杂志》,29,43,13524-13531(2009)
[27] 吉尔克斯,W.R。;理查森,S。;Spiegelhalter,D.J.,《马尔可夫链蒙特卡罗介绍》(Markov chain Monte Carlo in practice,1996),CRC出版社)·Zbl 0845.60072号
[28] 哈默勒,D。;李,S.-C。;缪勒,V。;Lindenberger,U.,概率强化学习期间监测得失的电生理相关性的寿命差异,认知神经科学杂志,23,3,579-592(2011)
[29] 豪泽,T.U。;Iannaccone,R。;Walitza,S。;Brandeis,D。;Brem,S.,《青春期的认知灵活性:发育过程中适应性决策中奖赏预测错误处理的神经和行为机制》,《神经影像》,104,347-354(2015)
[30] Kim,H。;Shimojo,S。;J.P.奥多尔蒂,避免一个令人厌恶的结果是否值得?人脑中避免学习的神经基质,《公共科学图书馆·生物学》,第4、8期,第233页(2006年)
[31] Kramer,A.,《信息或动机:关于正面与负面反馈效果的FMRI调查》(2017年),阿姆斯特丹大学
[32] Kruschke,J.K.(2013)。贝叶斯估计取代t检验,142(2),573-603。http://dx.doi.org/10.1037/a0029146。
[33] Lee,医学博士。;Wagenmakers,E.J.,《贝叶斯认知建模:实践课程》(2013),剑桥大学出版社:剑桥大学出版社
[34] Lee,医学博士。;Webb,M.R.,《认知中的个体差异建模》,《心理学通报与评论》,第12、4、605-621页(2005年)
[35] Lee,医学博士。;张,S。;蒙罗,M。;Steyvers,M.,土匪问题中人类和最佳表现的心理模型,认知系统研究,12,2164-174(2011)
[36] 莱特霍尔,N.R。;Gorlick,医学硕士。;Schoeke,A。;M.J.弗兰克。;Mather,M.,《压力调节年轻人和老年人的强化学习》,《心理学与老龄化》,第28、1、35页(2013年)
[37] Luce,R.D.,《个人选择行为》,《计量经济学》(1959年)·Zbl 0093.31708号
[38] Nieuwenhuis,S。;Ridderinkhof,K.R。;塔尔斯玛,D。;科尔斯,M.G。;Holroyd,C.B。;Kok,A.,《老年人错误处理改变的计算说明:多巴胺和错误相关的消极性》,《认知、情感和行为神经科学》,2,1,19-36(2002)
[39] Niv,Y。;丹尼尔·R。;Geana,A。;Gershman,S.J。;Leong,Y.C。;Radulescu,A.,《多维环境中的强化学习依赖于注意机制》,《神经科学杂志》,35,21,8145-8157(2015)
[40] Niv,Y。;Edlund,J.A。;大研,P。;O'Doherty,J.P.,《神经预测误差揭示了人脑中的风险敏感性强化学习过程》,《神经科学杂志》,32,2,551-562(2012)
[41] O'Doherty,J.P.,《人脑中的奖励表征和奖励相关学习:来自神经成像的见解》,《神经生物学的当前观点》,第14、6、769-776页(2004年)
[42] 奥多尔蒂,J。;大研,P。;舒尔茨,J。;Deichmann,R。;Friston,K。;Dolan,R.J.,腹侧和背侧纹状体在仪器调节中的分离作用,《科学》,304,452-454(2004)
[43] Palminteri,S。;Justo,D。;贾夫雷特,C。;Pavlicek,B。;Dauta,A。;Delmaire,C…;Pessiglione,M.,前岛叶和背纹状体在基于惩罚的回避学习中的关键作用,神经元,76,5,998-1009(2012)
[44] Palminteri,S。;卡马斯,M。;乔菲利,M。;Coricelli,G.,奖惩学习中价值信号的上下文调制,自然通讯,68096(2015)
[45] Pessiglione,M。;西摩,B。;弗兰丁,G。;多兰·R·J。;Frith,C.D.,《多巴胺依赖性预测误差是人类追求回报行为的基础》,《自然》,442,7106,1042-1045(2006)
[46] 彼得斯,S。;布拉姆斯,B.R。;Raijmakers,M.E.J。;Koolschijn,P.C.M.P。;Crone,E.A.,《儿童和青少年发展中反馈学习的神经编码》,《认知神经科学杂志》,26,8,1705-1720(2014)
[47] 普卢默(2003)。JAGS:使用吉布斯抽样分析贝叶斯图形模型的程序。第三届分布式统计计算国际研讨会论文集。http://dx.doi.org/10.1.13.3406。
[48] R开发核心团队;R核心团队,R:统计计算的语言和环境(2017)
[49] Raio,C.M。;哈特利,C.A。;Orederu,T.A。;Li,J.等人。;Phelps,E.A.,“压力减弱了厌恶值的灵活更新”,《美国国家科学院院刊》,114,42,11241-11246(2017)
[50] Rescorla,R.A。;Wagner,A.R.,《巴甫洛夫条件反射理论:强化和非强化有效性的变化》,(Black,A.H.;Prokasy,W.F.,《经典条件反射II:当前研究和理论》(1972),《阿普尔顿世纪克罗夫茨:阿普尔顿年代克罗夫茨纽约》,64-99
[51] 舒特,I。;熔渣工,H.A。;柯林斯,A.G。;M.J.弗兰克。;Kenemans,J.L.,Stimulus discriminability may bias value-based probability learning,《公共科学图书馆·综合》,12,5,文章e0176205 pp.(2017)
[52] Shiffrin,R.M。;Lee,医学博士。;Kim,W。;Wagenmakers,E.J.,《模型评估方法调查与分层贝叶斯方法教程》,《认知科学》,32,1248(2008)
[53] 西蒙,J。;霍华德·J。;Howard,D.,从积极和消极的概率反馈中学习的成人年龄差异,神经心理学,24,4,534-541(2010)
[54] Speekenbrink,M。;Konstantinidis,E.,《不安土匪问题中的不确定性和探索》,《认知科学专题》,7351-367(2015)
[55] 施皮盖尔哈特,D.J。;贝斯特,N.G。;卡林,B.P。;Van Der Linde,A.,《模型复杂性和拟合的贝叶斯度量》,《皇家统计学会杂志》。B系列:统计方法,64,4,583-616(2002)·Zbl 1067.62010年
[56] 斯坦格罗弗,H。;韦策斯,R。;Wagenmakers,E.J.,爱荷华州赌博任务强化学习模型的绝对性能,决策,3115-131(2014)
[57] 斯特恩,C.E。;谢尔曼,S.J。;基尔霍夫,B.A。;Hasselmo,M.E.,《使用新颖和熟悉的刺激对工作记忆任务的内侧颞叶和前额叶贡献》,《海马》,11,4,337-346(2001)
[58] 苏,Y.-S。;Yajima,M.,R2jags:使用R运行JAGS。R包(2015年)
[59] Sutton,R.S。;Barto,A.G.,《强化学习:简介》(2018)·Zbl 1407.68009号
[60] 范登博斯,W。;科恩,M.X。;Kahnt,T。;Crone,E.A.,《纹状体-内侧前额叶皮层连接预测强化学习的发展变化》,《大脑皮层》,22,6,1247-1255(2012)
[61] 范登博斯,W。;Güro-lu,B。;Van Den Bulk,B.G。;南澳大利亚共和国Rombouts。;克罗恩,E.A.,好于预期还是像你想象的那样坏?概率反馈处理的神经认知发展,人类神经科学前沿,3,52(2009)
[62] 范德沙夫,M.E。;Warmerdam,E。;克罗内,E.A。;Cools,R.,《发育过程中奖惩反转学习的不同线性和非线性轨迹:多巴胺在青少年决策中的作用相关性》,发展认知神经科学,1,4,578-590(2011)
[63] Van Leijenhorst,L。;克罗内,E.A。;Bunge,S.A.,《风险评估和反馈处理中发育差异的神经相关性》,《神经心理学》,44,2158-2170(2006)
[64] van Ravenzwaaij,D。;凯西,P。;Brown,S.D.,《马尔可夫链蒙特卡罗抽样的简单介绍》,《心理学通报与评论》(2018年)
[65] Verburg,M。;斯奈林斯,P。;Zeguers,M.H.T。;Huizenga,H.M.,儿童和成人的正面与负面反馈学习,实验心理学季刊,1-11(2018)
[66] Wagenmakers,E.J。;莫雷,R.D。;Lee,M.D.,Bayesian Benefits for the practical research,心理科学的当前方向,25,168-176(2016)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。