×

用于学习刺激的上下文相关关联的神经回路。 (英语) Zbl 1434.68533号

摘要:强化学习与神经网络的结合为解决工程和认知科学中的某些任务提供了一个强大的框架。先前的研究表明,神经网络具有自动提取特征和学习分层决策规则的能力。在这项工作中,我们研究了使用两种神经网络模型(使用连续放电率神经元)和神经电路门控模型执行上下文相关关联任务的强化学习方法。该任务允许检查不同模型提取分层决策规则的能力,并将其推广到训练阶段的模型示例之外。我们发现,使用Hebbian协会基于响应的规则训练的简单神经电路门控模型的性能几乎与使用更复杂的误差反向传播方法训练的神经网络相结合的强化学习算法的性能相同。一种可能的解释是,层次推理是性能的关键,而特定的学习方法则不那么重要。

MSC公司:

68T07型 人工神经网络与深度学习
68T05年 人工智能中的学习和自适应系统
92B20型 用于/用于生物研究、人工生命和相关主题的神经网络

软件:

LSTM公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴德雷,D。;Frank,M.J.,《皮质-纹状体回路中的分层强化学习机制2:来自fMRI的证据》,《大脑皮层》,22,3,527-536(2012)
[2] 巴德雷,D。;Kayser,A.S。;D’Esposito,M.,《额叶皮层与抽象动作规则的发现》,《神经元》,66,2,315-326(2010)
[3] Bertsekas,D.P.,《动态规划和最优控制》。第一卷和第二卷(1995年),《雅典娜科学:雅典娜科技》,马萨诸塞州贝尔蒙特·Zbl 0904.90170号
[4] Bertsekas,D。;Tsitsiklis,J.,《神经动力学编程》(1996年),雅典娜科学出版社:马萨诸塞州贝尔蒙特市雅典娜科学出版社·Zbl 0924.68163号
[5] 查塔姆,C.H。;Herd,S.A。;布兰特,A.M。;Hazy,T.E。;A.三宅一生。;O'Reilly,R.,《从执行网络到执行控制:背部任务的计算模型》,《认知神经科学杂志》,23,11,3598-3619(2011)
[6] 大研,P。;Abbott,L.F.,理论神经科学。第10卷(2001),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥·Zbl 1051.92010年
[7] 大研,P。;Watkins,C.,Q-learning,机器学习,8,3,279-292(1992)·Zbl 0773.68062号
[8] Estanjini,R.M。;李凯。;Paschalidis,I.C.,《仓库管理应用的最小二乘时差actor-critic算法》,海军研究后勤(NRL),59,3-4,197-211(2012),URLhttp://dx.doi.org/101002/nav.21481 ·兹比尔1407.90334
[9] Gers,F.A。;施密德胡伯,J。;Cummins,F.,《学会遗忘:使用LSTM进行连续预测》,神经计算,12,10,2451-2471(2000)
[10] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社,网址http://www.deeplearningbook.org ·Zbl 1373.68009号
[11] 格雷夫斯,A。;Schmidhuber,J.,《使用双向LSTM和其他神经网络架构的框架音素分类》,《神经网络》,第18、5、602-610页(2005年)
[12] 格隆曼,I。;Busoniu,L。;Lopes,G.A。;Babuska,R.,《行为关键强化学习调查:标准和自然政策梯度》,IEEE系统、人和控制论汇刊,C部分(应用和评论),42,6,1291-1307(2012)
[13] Hasselmo,M.E.,《目标导向行为的前额叶皮层机制模型》,《认知神经科学杂志》,17,7,1115-1129(2005)
[14] 哈塞尔莫,M.E。;Eichenbaum,H.,情景依赖检索的海马机制,神经网络,18,9,1172-1190(2005)·Zbl 1085.92005年
[15] 哈塞尔莫,M.E。;Stern,C.E.,规则学习任务中行为表现的网络模型,《皇家学会哲学学报B:生物科学》,373,第20170275页,(2018)
[16] Hausknecht,M.和Stone,P.(2015)。参数化动作空间中的深度强化学习。arXiv预打印arXiv:1511.04143;Hausknecht,M.和Stone,P.(2015)。参数化动作空间中的深度强化学习。arXiv预打印arXiv:1511.04143
[17] 霍克雷特,S。;Schmidhuber,J.,《长短期记忆,神经计算》,第9、8、1735-1780页(1997年)
[18] Katz,Y。;Kath,W.L。;北卡罗来纳州斯普鲁斯顿。;Hasselmo,M.E.,海马神经元放电网络模型中位置和时间上下文的重合检测,《公共科学图书馆·计算生物学》,3,12,e234(2007)
[19] Kingma,D.和Ba,J.(2014)。亚当:一种随机优化方法。arXiv预打印arXiv:1412.6980;Kingma,D.和Ba,J.(2014)。亚当:一种随机优化方法。arXiv预打印arXiv:1412.6980
[20] Koene,R.A。;Hasselmo,M.E.,《在执行目标导向决策过程中前额叶皮层神经元活动的一个综合和核心模型》,《大脑皮层》,15,12,1964-1981(2005)
[21] Konda,V.R。;Tsitsiklis,J.N.,《论行动者-批评家算法》,SIAM控制与优化期刊,42,4,1143-1166(2003)·Zbl 1049.93095号
[22] Kriete,T。;诺埃尔,哥伦比亚特区。;科恩,J.D。;O'Reilly,R.C.,《前额叶皮层和基底神经节的间接和象徵性加工》,《美国国家科学院院刊》,110,41,16390-16395(2013)
[23] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436-444(2015)
[24] 莱文,S。;芬恩,C。;Darrell,T。;Abbeel,P.,《深度视觉运动政策的端到端培训》,《机器学习研究杂志》,17,1,1334-1373(2016)·Zbl 1360.68687号
[25] 刘,H。;Wu,Y。;Sun,F.,主动对象识别的极端信赖域策略优化,IEEE神经网络和学习系统汇刊,29,6,2253-2258(2018)
[26] Miller,E.K。;Cohen,J.D.,《前额叶皮层功能的综合理论》,《神经科学年度评论》,24,1,167-202(2001)
[27] Mnih,V.、Badia,A.P.、Mirza,M.、Graves,A.和Lillicrap,T.P.等人(2016年)。深度强化学习的异步方法。arXiv 48,1-28.网址http://arxiv.org/abs/1602.01783; Mnih,V.、Badia,A.P.、Mirza,M.、Graves,A.和Lillicrap,T.P.等人(2016年)。深度强化学习的异步方法。arXiv 48,1-28.URLhttp://arxiv.org/abs/1602.01783
[28] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,A.A。;Veness,J。;Bellemare,M.G.,通过深度强化学习进行人类水平控制,自然,518,7540,529-533(2015),网址http://dx.doi.org/101038/nature14236
[29] Nair,V.和Hinton,G.E.(2010年)。整流线性单元改善了受限的玻尔兹曼机器。第27届机器学习国际会议(ICML-10)会议记录; Nair,V.和Hinton,G.E.(2010年)。整流线性单元改善了受限的玻尔兹曼机器。第27届机器学习国际会议(ICML-10)会议记录
[30] R.C.奥莱利。;Frank,M.J.,《让工作记忆发挥作用:前额叶皮层和基底神经节学习的计算模型》,《神经计算》,第18、2、283-328页(2006年)·1090.92008赞比亚比索
[31] R.C.奥莱利。;M.J.弗兰克。;Hazy,T.E。;Watz,B.,PVLV:基本值和学习值巴甫洛夫学习算法,行为神经科学,121,1,31(2007)
[32] 佩内西,P。;Paschalidis,I.C.,分布式actor-critic算法及其在移动传感器网络协调问题中的应用,IEEE自动控制汇刊,55,2492-497(2010)·Zbl 1368.90026号
[33] 彼得斯,J。;Schaal,S.,利用政策梯度强化运动技能学习,神经网络,21,4,682-697(2008)
[34] Poirazi,P。;Brannon,T。;Mel,B.W.,模型CA1锥体细胞阈下突触总和的算法,神经元,37,6,977-987(2003)
[35] 劳迪斯,F。;Zilli,E.A。;Hasselmo,M.E.,深度信念网络学习上下文相关行为,《公共科学图书馆·综合》,第9期,第3期(2014年)
[36] Rumelhart,D.E。;辛顿,G.E。;Williams,R.J.,《通过反向传播错误学习表示法》,《自然》,3236088533-536(1986),URLhttp://dx.doi.org/101038/323533a0 ·Zbl 1369.68284号
[37] Rumelhart,医学博士。;麦克莱兰。J.L.,并行分布式处理(1986),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥
[38] Schulman,J.、Levine,S.、Abbeel,P.、Jordan,M.和Moritz,P.(2015)。信托区域政策优化。机器学习国际会议; Schulman,J.、Levine,S.、Abbeel,P.、Jordan,M.和Moritz,P.(2015)。信托区域政策优化。机器学习国际会议
[39] 萨顿,R。;Barto,A.,《强化学习》(1998年),麻省理工学院出版社:马萨诸塞州剑桥
[40] Tesauro,G.,TD-Gammon,一个自学的双陆棋程序,实现了大师级的游戏,《神经计算》,6,2,215-219(1994)
[41] Tsitsiklis,J.N.,异步随机逼近和\(q\)-学习,机器学习,16185-202(1994)·Zbl 0820.68105号
[42] 齐齐克利斯,J.N。;Van Roy,B.,《用函数逼近分析时间差分学习》,IEEE自动控制学报,42,5,674-690(1997)·Zbl 0914.93075号
[43] Wallis,J.D。;安德森,K.C。;Miller,E.K.,《前额叶皮层的单个神经元编码抽象规则》,《自然》,4116840953-956(2001)
[44] Wang,J。;丁,X。;拉希贾尼安,M。;帕斯卡利迪斯。;Belta,C.A.,《使用actor-critic方法的时序逻辑运动控制》,《国际机器人研究杂志》,34,10,1329-1344(2015)
[45] Wang,J。;Paschalidis,I.C.,《具有二阶actor和critic的actor-critic算法》,《IEEE自动控制汇刊》,62,6,2689-2703(2017)·Zbl 1369.90192号
[46] Wang,J。;Paschalidis,I.C.,《具有二阶actor和critic的actor-critic算法》,《IEEE自动控制汇刊》,62,6,2689-2703(2017)·Zbl 1369.90192号
[47] 沃特金斯,C.J。;Dayan,P.,Q学习,机器学习,8,3-4,279-292(1992)·Zbl 0773.68062号
[48] 瓦特,M。;斯普林伯格,J。;Boedecker,J。;Riedmiller,M.,《嵌入控制:从原始图像进行控制的局部线性潜在动力学模型》,(Cortes,C.;Lawrence,N.D.;Lee,D.D.;Sugiyama,M.;Garnett,R.,《神经信息处理系统的进展》,第28卷(2015),Curran Associates,Inc.),2746-2754
[49] Xu,K.,Ba,J.、Kiros,R.、Cho,K.、Courville,A.和Salakhutdinov,R.等人(2015)。展示、出席和讲述:用视觉注意力生成神经图像字幕。arXiv预印arXiv:1502.03044;Xu,K.,Ba,J.、Kiros,R.、Cho,K.、Courville,A.和Salakhutdinov,R.等人(2015)。展示、出席和讲述:用视觉注意力生成神经图像字幕。arXiv预打印arXiv:1502.03044
[50] Xu,X。;左,L。;Huang,Z.,《函数逼近强化学习算法:最新进展和应用》,《信息科学》,261,1-31(2014)·Zbl 1328.68176号
[51] 齐利,E.A。;Hasselmo,M.E.,《关于交互记忆系统可能战略使用的马尔可夫决策过程结构分析》,计算神经科学前沿,2,6(2008)
[52] Zilli,E.A。;Hasselmo,M.E.,《马尔可夫决策过程结构对工作记忆和情节记忆可能的战略使用的影响》,《公共科学图书馆·综合》,第3期,第7期,第2756页(2008年)
[53] Zilli,E.A。;Hasselmo,M.E.,《工作记忆和情节记忆在行为任务中的作用建模》,《海马》,第18、2、193-209页(2008年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。