×

强化学习和冬日轮换决策过程的比较模型:向W.K.Estes致敬。 (英语) Zbl 1309.91124号

概述:W.K.Estes经常支持一种模型开发方法,即通过添加一个或多个自由参数来增强现有模型,以解释额外的心理机制。按照同样的方法,我们利用W.K.Estes先生“自己的增强学习方程[“走向学习的统计理论”,《心理学评论》57,第2期,94-107(1950;doi:10.1037/h0058559)]为了提高我们在最近的大部分工作中使用的冬季-日间-日班(WSLS)模型的合理性。我们还通过增强其假设来提高基本强化学习(RL)模型的可行性。Estes还支持假设多个并发认知过程之间进行比较的模型。根据这一点,我们开发了一个WSLS-RL模型,该模型假设人们在试验结果相对较好(“赢”)或较差(“输”)的情况下,倾向于保留相同的选项或切换到不同的选项,并且根据每个选项的相对预期值调整保留或切换的趋势。将WSLS-RL模型的模拟结果与三个不同决策实验的数据进行比较,结果表明WSLS-RL能够很好地描述决策行为。我们的结果也支持这样一种说法,即人类参与者权衡了之前试验结果的总体效价和决策过程中每个选项的相对价值。

MSC公司:

91E40型 心理学中的记忆和学习
91B06型 决策理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahn,W.Y。;Busemeyer,J.R。;Wagenmakers,E.J。;Stout,J.C.,使用泛化标准方法比较决策学习模型,认知科学,321376-1402(2008)
[2] 博加茨,R。;McClure,S.M。;Li,J.等人。;科恩,J.D。;Montague,P.R.,《人类强化学习中行为偏差的短期记忆追踪》,《大脑研究》,1153111-121(2007)
[3] 库珀,J.A。;沃西,D.A。;Gorlick,医学硕士。;Maddox,W.T.,《历史依赖性决策中的跨寿命脚手架》,《心理学与老龄化》,28,505-514(2013)
[4] Daw,N.D。;Gershman,S.J。;西摩,B。;大研,P。;Dolan,R.J.,《基于模型对人类选择的影响和纹状体预测误差》,《神经元》,69,1204-1215(2011)
[5] Daw,N.D。;奥多尔蒂,J.P。;大研,P。;西摩,B。;Dolan,R.J.,《人类探索决策的皮层基质》,《自然》,441876-879(2006)
[6] 埃雷夫,I。;Roth,A.E.,《预测人们如何玩游戏:具有独特混合策略均衡的实验游戏中的强化学习》,《美国经济评论》,88,848-881(1998)
[7] Estes,W.K.,《走向学习的统计理论》,《心理学评论》,第57期,第94-107页(1950年)
[8] Estes,W.K.,《强化的恒定、可变或或有概率学习理论》,《心理测量学》,22,113-132(1957)·Zbl 0084.15504号
[9] Estes,W.K.,《分类与认知》(1994),牛津大学出版社:牛津大学出版社·Zbl 0835.52001号
[10] Estes,W.K.,记忆丧失、恢复和扭曲的过程,《心理学评论》,104,148-169(1997)
[11] Estes,W.K.,《通向记忆和决策模型的陷阱》,《心理经济学通报与评论》,第9期,第3-25页(2002年)
[12] Estes,W.K。;Da Polito,F.,《配对关联学习中信息存储和检索过程的独立变化》,《实验心理学杂志》,75,18-26(1967)
[13] Estes,W.K。;Straughan,J.H.,根据统计学习理论分析言语条件反射情况,实验心理学杂志,47225-234(1954)
[14] M.J.弗兰克。;塞伯格,L.C。;O'Reilly,R.C.,《胡萝卜还是大棒:帕金森病中的强化学习》,《科学》,3061940-1943(2004)
[15] J.J.古德诺。;Pettigrew,T.F.,先前经验模式对策略和学习设置的影响,实验心理学杂志,49381-389(1955)
[16] Gureckis,T.M。;Love,B.C.,《噪音中的学习:可变环境中的动态决策》,《数学心理学杂志》,第53期,第180-193页(2009年)·兹比尔1176.91137
[17] Howard-Jones,P.A。;博加茨,R。;Yoo,J.H。;Leonards,美国。;Demetriou,S.,《从竞争对手学习的神经机制》,《神经影像》,53790-799(2010)
[18] 科瓦奇,C.K。;Daw,N.D。;Rudrauf,D。;特雷内尔,D。;奥多尔蒂,J。;Adolphs,R.,《前额叶皮层通过跟踪最近的奖励趋势促进行动选择》,《神经科学杂志》,32,8434-8442(2012)
[19] Maddox,W.T。;Estes,W.K.,《类别学习的双过程模型》(论文发表于北卡罗来纳大学教堂山分校数学心理学学会第31届年会(1996年))
[20] Maddox,W.T。;Estes,W.K.,《识别中的直接和间接刺激频率效应》,《实验心理学杂志:学习、记忆和认知》,3539-559(1997)
[21] Medin,D.L.,《强化在猴子辨别学习中的作用》,《心理学公报》,77,305-318(1972)
[22] Neth,H。;西姆斯,C.R。;Gray,W.D.,《优化主导最大化:尽管有全球反馈,但仍保持稳定的次优绩效》(Sun,R.;Miyake,N.,《认知科学学会第28届年会论文集》(2006),劳伦斯·埃尔鲍姆协会:劳伦斯·埃尔鲍姆协会希尔斯代尔,新泽西州)
[23] 诺瓦克,M。;Sigmund,K.,《在《囚徒的困境》游戏中胜于针锋相对的输赢策略》,《自然》,364,56-58(1993)
[24] 奥托·A.R。;Love,B.C.,《你不想知道自己错过了什么:当放弃奖励的信息阻碍动态决策时,判断与决策》,5,1,1-10(2010)
[25] 奥托·A.R。;Markman,A.B。;Gureckis,T.M。;Love,B.C.,《动态决策环境中的调节配合和系统探索》,《实验心理学杂志:学习、记忆和认知》,36797-804(2010)
[26] 奥托·A.R。;泰勒,E.G。;马克曼,A.B.,至少有两种概率匹配。第二项任务的证据,认知,118274-279(2011)
[27] Sloman,S.A.,《两种推理系统的实证案例》,《心理公报》,119,3-22(1996)
[28] Smith,E.R。;Decoster,J.,《社会和认知心理学中的双重过程模型:概念整合和与潜在记忆系统的联系》,《人格与社会心理学评论》,第4期,第108-131页(2000年)
[29] 斯泰弗斯,M。;Lee,医学博士。;Wagenmakers,E.J.,《人类对强盗问题决策的贝叶斯分析》,《数学心理学杂志》,第53期,第168-179页(2009年)·兹比尔1176.90319
[30] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(1998年),麻省理工学院出版社:麻省理学院出版社剑桥
[31] 华盛顿州。;Evans,J.St.B.T.,推理中的双重过程,认知,3141-154(1975)
[32] 沃西,D.A。;Gorlick,医学硕士。;帕切科,J.L。;Schnyer,D.M。;Maddox,W.T.,《随着年龄增长,智慧随之而来:年轻人和老年人的决策》,《心理科学》,第22期,第1375-1380页(2011年)
[33] 沃西,D.A。;霍桑,M.J。;Otto,A.R.,《爱荷华州赌博任务中策略使用的异质性:双日轮换和强化学习模式的比较》,《心理通报与评论》,第20期,第364-371页(2013年)
[34] 沃西,D.A。;Maddox,W.T.,选择任务中策略使用的年龄差异,神经科学前沿,5,145,1-10(2012)
[35] 沃西,D.A。;Maddox,W.T。;Markman,A.B.,《选择任务中的调节配合效应》,《心理学通报与评论》,第14期,第1125-1132页(2007年)
[36] 沃西,D.A。;奥托·A.R。;Maddox,W.T.,《动态决策中的工作记忆负荷和暂时性近视》,《实验心理学杂志:学习、记忆和认知》(2012年),Advance在线出版物
[37] 沃西,D.A。;庞,B。;Byrne,K.A.,《爱荷华州赌博任务模型中坚持和期望值表征的角色分解》,心理学前沿,4640(2013)
[38] 耶奇亚姆,E。;Busemeyer,J.R.,《基于经验的决策学习模型中嵌入的基本假设比较》,《心理学通报与评论》,第12期,第387-402页(2005年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。