文件Zbl 1178.68457-zbMATH Open

actor-critic学习代理的尖峰神经网络模型。（英语） Zbl 1178.68457号

神经计算。 21，第2期，301-339（2009）.

总结：由于与环境的相互作用，适应行为以获得最大回报的能力对任何高等生物的生存都至关重要。在强化学习的框架中，时间差分学习算法为这种目标导向的适应提供了一种有效的策略，但尚不清楚这些算法在多大程度上与神经计算兼容。在本文中，我们提出了一个尖峰神经网络模型，该模型通过将局部可塑性规则与全局奖励信号相结合来实现actor-critic时间差分学习。该网络能够以稀疏的回报解决非平凡的网格世界任务。我们推导了可塑性参数和突触权重到标准算法公式中相应变量的定量映射，并证明了该网络以与其离散时间对应项相似的速度学习，并获得相同的平衡性能。

引用于6文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

强化学习、时差学习算法

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	DOI:10.1017/CBO9780511623257·Zbl 0709.92001 ·doi:10.1017/CBO9780511623257
[2]	DOI:10.1016/S0896-6273（02）01129-7·doi:10.1016/S0896-6273（02）01129-7
[3]	内政部：10.1038/nn1817·文件编号：10.1038/nn1817
[4]	DOI:10.1162/neco.2007.19.8.2245·Zbl 1129.92001号 ·doi:10.1162/neco.2007.19.8.2245
[5]	Barto A.G.，基底神经节信息处理模型，第215页–（1995）
[6]	内政部：10.1109/TSMC.1983.6313077·doi:10.1109/TSMC.1983.6313077
[7]	Bertsekas D.P.，神经动力学编程（1996）·Zbl 0924.68163号
[8]	Bi G.-q.，《神经科学杂志》。第18页，10464页–（1998年）
[9]	数字对象标识码：10.1073/pnas.86.20.8113·doi:10.1073/pnas.86.20.8113
[10]	内政部：10.1126/science.272.5264.998·doi:10.1126/science.272.5264.998
[11]	Dayan P.，机器学习8 pp 341–（1992）
[12]	Dayan P.，机器学习14 pp 295–（1994）
[13]	DOI:10.1016/S0959-4388（00）00153-7·doi:10.1016/S0959-4388（00）00153-7
[14]	内政部：10.1162/089976600300015961·doi:10.11162/089977600300015961
[15]	DOI:10.1016/S0893-6080（02）00044-8·Zbl 02022227号 ·doi:10.1016/S0893-6080（02）00044-8
[16]	内政部：10.1152/jn.00364.2007·doi:10.1152/jn.00364.2007年
[17]	内政部：10.1038/41267·数字对象标识代码：10.1038/41267
[18]	内政部：10.1162/neco.2007.19.6.1468·Zbl 1115.68473号 ·doi:10.1162/neco.2007.19.6.1468
[19]	DOI:10.1002/（SICI）1098-1063（2000）10:1<1:：AID-HIPO1>3.0.CO；2-1·doi:10.1002/（SICI）1098-1063（2000）10:1<1:：AID-HIPO1>3.0.CO；2-1
[20]	内政部：10.1038/416433a·doi:10.1038/416433a
[21]	内政部：10.1017/S0952523898156158·doi:10.1017/S0952523898156158
[22]	Georgopoulos A.，J.神经科学。11（2）第1527页–（1982）
[23]	DOI:10.4249/胆汁媒介.1430·doi:10.4249/学术期刊.1430
[24]	内政部：10.1162/neco.2006.18.12651·兹比尔1102.92004 ·doi:10.1162/neco.2006.18.11.2651
[25]	DOI:10.1023/B:JCNS.0000037682.18051.5f·doi:10.1023/B:JCNS.0000037682.18051.5f
[26]	Houk J.C.，基底神经节如何生成和使用预测强化的神经信号的模型（1995年）
[27]	DOI:10.1093/cercor/bhl152·doi:10.1093/cercor/bhl152
[28]	内政部：10.1016/S0893-6080（02）00047-3·Zbl 02022230号 ·doi:10.1016/S0893-6080（02）00047-3
[29]	内政部：10.1073/pnas.061369698·doi:10.1073/pnas.061369698
[30]	Klopf，A.（1986年）。单神经元功能的驱动增强模型。J.Denker（Ed.），《计算神经网络：AIP会议记录》（第151卷，第265-270页），纽约：美国物理研究所。
[31]	Klopf A.，《心理生物学》，第16页，第85页–（1988年）
[32]	内政部：10.1137/S0363012901385691·Zbl 1049.93095号 ·doi:10.1137/S0363012901385691
[33]	内政部：10.1063/1.36225·doi:10.1063/1.36225
[34]	内政部：10.1097/00001756-199010000-00008·doi:10.1097/00001756-199010000-00008
[35]	DOI:10.1103/PhysRevLett.87.248101·doi:10.1103/PhysRevLett.87.248101
[36]	内政部：10.1007/s00422-002-0354-x·Zbl 1105.92321号 ·doi:10.1007/s00422-002-0354-x
[37]	内政部：10.1038/nn0107-15·文件编号：10.1038/nn0107-15
[38]	内政部：10.1126/science.275.5297.213·doi:10.1126/science.275.5297.213
[39]	内政部：10.1038/377725a0·数字对象标识代码：10.1038/377725a0
[40]	Montague P.R.，《神经科学杂志》。第16（5）页，1936–（1996）
[41]	DOI:10.1016/S0921-8890（01）00113-0·Zbl 1014.68179号 ·doi:10.1016/S0921-8890（01）00113-0
[42]	内政部：10.1038/nn1743·doi:10.1038/nn1743
[43]	DOI:10.1007/s00422-008-0233-1·Zbl 1145.92306号 ·doi:10.1007/s00422-008-0233-1
[44]	内政部：10.1162/neco.2007.19.11.2958·Zbl 1129.92024号 ·doi:10.1162/neco.2007.19.11.2958
[45]	Munos R.，《机器学习研究杂志》，第7页，771页–（2006年）
[46]	内政部：10.1177/10597123020101001·doi:10.1177/10597123020101001
[47]	DOI:10.1016/S0896-6273（03）00169-7·doi:10.1016/S0896-6273（03）00169-7
[48]	内政部：10.1126/science.1094285·doi:10.1126/science.1094285
[49]	DOI:10.1038/nature05051·doi:10.1038/nature05051
[50]	DOI:10.1523/JNEUROSCI.1425-06.2006·doi:10.1523/JNEUROSCI.1425-06.2006
[51]	内政部：10.1007/978-3-540-73007-1_58·文件编号：10.1007/978-3-540-73007-1_58
[52]	内政部：10.1162/08997660360581921·Zbl 1022.68111号 ·doi:10.1162/08997660360581921
[53]	内政部：10.1162/neco.2007.19.10.2694·Zbl 1129.92026号 ·doi:10.1162/neco.2007.19.10.2694
[54]	Potjans W.，《神经论坛》8（1）（2007年）
[55]	Potjans W.，第37届SFN会议记录（2007年）
[56]	内政部：10.1162/089976601750541787·兹比尔0982.92006 ·doi:10.1162/089976601750541787
[57]	DOI:10.1016/S0893-6080（02）00045-X·Zbl 02022228号 ·doi:10.1016/S0893-6080（02）00045-X
[58]	DOI:10.1023/A:1008910918445·Zbl 0955.92009号 ·doi:10.1023/A:1008910918445
[59]	DOI:10.1016/S0896-6273（02）00967-4·doi:10.1016/S0896-6273（02）00967-4
[60]	内政部：10.1126/science.275.5306.1593·数字对象标识代码：10.1126/science.275.5306.1593
[61]	DOI:10.1126/科学.8290963·doi:10.1126/science.8290963
[62]	DOI:10.1016/S0896-6273（03）00761-X·doi:10.1016/S0896-6273（03）00761-X
[63]	DOI:10.1038/nature02581·doi:10.1038/nature02581
[64]	DOI:10.1016/S0306-4522（98）00697-6·doi:10.1016/S0306-4522（98）00697-6
[65]	内政部：10.1162/089976601300014376·Zbl 1003.92010年 ·doi:10.1162/089976601300014376
[66]	Sutton R.，《机器学习》，第3页，第9页–（1988年）
[67]	Sutton R.S.，《强化学习：导论》（1998年）
[68]	陶海泽，《神经科学杂志》。20（9）第3233页–（2000）
[69]	内政部：10.1162/neco.1996.2.215·doi:10.1162/neco.1996.2.215
[70]	DOI:10.1016/S0896-6273（03）00848-1·doi:10.1016/S0896-6273（03）00848-1
[71]	内政部：10.1016/j.tins.2010年10月10日·doi:10.1016/j.tins.2004.10.010
[72]	Williams R.，《机器学习》，第8页，第229页–（1992年）
[73]	DOI:10.1016/S0019-9958（77）90354-0·Zbl 0373.93025号 ·doi:10.1016/S0019-9958（77）90354-0
[74]	内政部：10.1162/0899766053011555·Zbl 02215706号 ·doi:10.1162/0899766053011555
[75]	内政部：10.1103/PhysRevE.69.041909·doi:10.1103/PhysRevE.69.041909
[76]	内政部：10.1038/25665·doi:10.1038/25665

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

actor-critic学习代理的尖峰神经网络模型。（英语） Zbl 1178.68457号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

actor-critic学习代理的尖峰神经网络模型。 （英语） Zbl 1178.68457号

MSC公司：

关键词：

参考文献：

actor-critic学习代理的尖峰神经网络模型。（英语） Zbl 1178.68457号