×

具有非对称值更新的强化学习的统计结构。 (英语) Zbl 1411.91469号

摘要:强化学习(RL)模型已被广泛用于模拟人类和其他动物的选择行为。在标准RL模型中,假设动作值根据奖励预测误差(RPE)进行更新,即获得的奖励与预期奖励之间的差异。许多研究指出,更新的幅度取决于RPE的符号而有偏差。在RL模型中,偏差由正RPE和负RPE的差异学习率表示。然而,估计的差异学习率反映了行为数据的哪一方面尚不清楚。在本研究中,我们基于理论考虑和数值模拟,研究了差异学习率如何影响选择行为的统计特性(即过去经验和当前选择之间的关系)。我们澄清了当学习率不同时,与具有对称值更新的标准RL模型相比,过去结果的影响取决于后续结果。基于这些结果,我们提出了一个模型中立的统计检验来验证价值更新是不对称的假设。价值更新的不对称性导致了选择的自相关(即重复相同的选择或不考虑过去的回报而切换选择的倾向)。相反,如果没有内在自相关因子的RL模型拟合到具有内在自相关的数据,则会出现统计偏差,从而高估学习率的差异。我们证明,这种偏差会导致RL模型拟合中的统计伪影,从而导致“伪正偏差”和“伪确认偏差”。

MSC公司:

91E40型 心理学中的记忆和学习
第62页,共15页 统计学在心理学中的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahn,W.Y。;海恩斯,N。;Zhang,L.,用hBayesDM包揭示强化学习和决策的神经计算机制,计算精神病学,12457(2017)
[2] Ahn,W.Y。;Krawitz,A。;Kim,W。;Busemeyer,J.R。;Brown,J.W.,《基于模型的fMRI分析与分层贝叶斯参数估计》,《神经科学、心理学和经济学杂志》,4,2,95(2011)
[3] Akaike,H.,统计模型识别的新视角,IEEE自动控制汇刊,19,6716-723(1974)·Zbl 0314.62039号
[4] Akaishi,R。;Umeda,K。;长濑,A。;Sakai,K.,内部选择估计的自治机制是决策惯性的基础,Neuron,81,1,195-206(2014)
[5] 贝茨,D。;Mächler,M。;Bolker,B.M。;Walker,S.C.,使用lme4拟合线性混合效应模型,统计软件杂志,67,1,1-48(2015)
[6] Behrens,T。;Woolrich,M。;沃尔顿,M。;Rushworth,M.,《在一个不确定的世界中学习信息的价值》,《自然神经科学》,10,9,1214-1221(2007)
[7] 卡泽,R.D。;van der Meer,M.A.,差异学习率对积极和消极结果的适应性,生物控制论,107,6,711-719(2013)
[8] Corrado,G。;Doya,K.,通过基于模型的决策分析理解神经编码,《神经科学杂志》,27,31,8178(2007)
[9] Corrado,G。;Sugrue,L.P。;Seung,H.S。;Newsome,W.T.,灵长类选择动力学的线性-非线性-Poisson模型,行为实验分析杂志,84,3,581-617(2005)
[10] Daw,N。;Gershman,S.J。;西摩,B。;大研,P。;Dolan,R.J.,《基于模型的对人类选择和纹状体预测误差的影响》,神经元,69,61204-1215(2011)
[11] Daw,N。;奥多尔蒂,J。;大研,P。;西摩,B。;Dolan,R.,《人类探索性决策的皮层基质》,《自然》,4417095876-879(2006)
[12] M.J.弗兰克。;穆斯塔法,A.A。;Haughey,H.M。;柯兰,T。;Hutchison,K.E.,《遗传三重分离揭示多巴胺在强化学习中的多重作用》,《美国国家科学院院刊》,104,41,16311-16316(2007)
[13] Gershman,S.J.,学习率是否适应奖励分配?,《心理通报与评论》,22,5,1320-1327(2015)
[14] Gershman,S.J.,强化学习模型的实证先验,《数学心理学杂志》,71,1-6(2016)·Zbl 1359.62500
[15] 格什曼,S.J。;佩萨兰,B。;Daw,N.,《人类强化学习通过学习效应器特定值细分结构化动作空间》,《神经科学杂志》,29,43,13524-13531(2009)
[16] Ghalanos,A.和Theussl,S.(2011年)。Rsolnp:使用增广拉格朗日乘子法的一般非线性优化,1.15版。;Ghalanos,A.和Theussl,S.(2011年)。Rsolnp:使用增广拉格朗日乘子法的一般非线性优化,1.15版。
[17] Gillan,C.M。;科辛斯基,M。;惠兰,R。;菲尔普斯,E.A。;Daw,N.D.,描述与目标导向控制缺陷相关的精神症状维度,eLife,2016年3月5日,1-24(2016)
[18] Huys,Q.J。;冷却,R。;Gölzer,M。;弗里德尔,E。;Heinz,A。;Dolan,R.J.,《解开方法、激活和价在工具性和巴甫洛夫反应中的作用》,《公共科学图书馆·计算生物学》,第7、4期,第1002028页,(2011)
[19] 胡斯,Q.J。;驼峰,M。;Williams,J.,计算模型对精神病学有用吗?,神经网络,24,6,544-551(2011)
[20] 伊藤,M。;Doya,K.,大鼠基底神经节决策模型的验证和决策变量的分析,《神经科学杂志》,29,31,9861(2009)
[21] Katahira,K.,《强化学习参数与强化历史对选择行为的影响之间的关系》,《数学心理学杂志》,66,59-69(2015)·Zbl 1354.91132号
[22] Katahira,K.,分层模型如何在个体层面改善模型参数的点估计,《数学心理学杂志》,73,37-58(2016)·Zbl 1396.91655号
[23] Katahira,K。;Bai,Y。;Nakao,T.,强化学习模型分析中的伪学习效应:初始偏好的错误指定问题,PsyArXiv(2017)
[24] Katahira,K。;Yuki,S。;Okanoya,K.,使用带有概率反馈的选择任务对主观价值进行基于模型的估计,《数学心理学杂志》,79,29-43(2017)·兹比尔1397.92756
[25] 科瓦奇,C.K。;Daw,N。;Rudrauf,D。;特雷内尔,D。;奥多尔蒂,J.P。;Adolphs,R.,《前额叶皮层通过跟踪最近的奖励趋势促进行动选择》,《神经科学杂志》,32,25(2012)
[26] 库兹马诺维奇,B。;Rigoux,L.,《依赖于价的信念更新:计算验证》,《心理学前沿》,8(2017)
[27] 刘,B。;Glimcher,P.W.,恒河猴匹配行为的动态响应模型,行为实验分析杂志,84,3,555-579(2005)
[28] Lefebvre,G。;勒布雷顿,M。;Meyniel,F。;Bourgeois-Gironde,S。;Palminteri,S.,乐观强化学习的行为和神经表征,自然-人类行为,10067(2017)
[29] Maia,T.V。;Frank,M.J.,《从强化学习模型到精神病和神经疾病》,《自然神经科学》,第14、2、154-162页(2011年)
[30] Mathys,C。;Daunizeau,J。;Friston,K.J。;Stephan,K.E.,《不确定性下个体学习的贝叶斯基础》,人类神经科学前沿,5(2011)
[31] Nassar,M.R。;Gold,J.I.,《对未知的健康恐惧:神经科学计算模型中参数拟合解释的视角》,《公共科学图书馆·计算生物学》,第9、4期,第1003015页,(2013)
[32] Niv,Y。;Edlund,J。;大研,P。;O'Doherty,J.,《神经预测错误揭示了人类大脑中对风险敏感的强化学习过程》,神经科学杂志,32,2551-562(2012)
[33] Palminteri,S。;Lefebvre,G。;Kilford,E.J。;Blakemore,S.J.,《人类强化学习中的确认偏差:来自反事实反馈处理的证据》,《公共科学图书馆·计算生物学》,第13、8期,第1005684页,文章(2017年)
[34] R核心团队,R:统计计算的语言和环境(2015),R统计计算基金会:R统计计算基础,奥地利维也纳
[35] Schwarz,G.,估算模型的维度,《统计年鉴》,6,2,461-464(1978)·兹伯利0379.62005
[36] 西摩,B。;Daw,北。;Roiser,J.P。;大研,P。;Dolan,R.,血清素在人类决策中选择性调节奖赏价值,《神经科学杂志》,32,17,5833-5842(2012)
[37] 富山,A。;Katahira,K。;Ohira,H.,基于模型的选择偏好的简单计算算法,认知、情感和行为神经科学,17,764-783(2017)
[38] Yechiam,E。;Busemeyer,J。;斯托特,J。;Bechara,A.,《使用认知模型绘制神经心理障碍和人类决策缺陷之间的关系》,《心理科学》,16,12,973-978(2005)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。