Reward-Modulated Hebbian Learning of Decision Making

Pfeiffer, Michael; Nessler, Bernhard; Douglas, Rodney J.; Maass, Wolfgang

doi:10.1162/neco.2010.03-09-980

文章导航

2010年6月1日

薪酬模块化Hebbian决策学习

特别收藏： CogNet公司

迈克尔·菲弗,

迈克尔·菲弗

奥地利格拉茨工业大学理论计算机科学研究所A-8010pfeiffer@igi.tugraz.at

搜索此作者的其他作品：

本网站

谷歌学者

伯恩哈德·奈斯勒,

伯恩哈德·奈斯勒

奥地利格拉茨工业大学理论计算机科学研究所A-8010nessler@igi.tugraz.at

搜索此作者的其他作品：

本网站

谷歌学者

罗德尼·J·道格拉斯,

罗德尼·J·道格拉斯

瑞士苏黎世大学和苏黎世理工大学神经信息研究所，CH-8057苏黎世邮箱：rjd@ini.phys.ethz.ch

搜索此作者的其他作品：

本网站

谷歌学者

沃尔夫冈·马斯

奥地利格拉茨工业大学理论计算机科学研究所A-8010maass@igi.tugraz.at

搜索此作者的其他作品：

本网站

谷歌学者

作者和文章信息

迈克尔·菲弗

奥地利格拉茨工业大学理论计算机科学研究所A-8010pfeiffer@igi.tugraz.at

伯恩哈德·奈斯勒

奥地利格拉茨工业大学理论计算机科学研究所A-8010nessler@igi.tugraz.at

罗德尼·J·道格拉斯

瑞士苏黎世大学和苏黎世理工大学神经信息研究所，CH-8057苏黎世邮箱：rjd@ini.phys.ethz.ch

沃尔夫冈·马斯

奥地利格拉茨工业大学理论计算机科学研究所A-8010maass@igi.tugraz.at

收到： 2009年3月11日

认可的： 2009年9月10日

在线ISSN:1530-888X

打印ISSN:0899-7667

2010

神经计算(2010) 22 (6): 1399–1444.

https://doi.org/10.1162/neco.201.03-09-980

摘要

我们介绍了一个决策框架，在这个框架中，决策学习被简化为最简单、生物学上最合理的形式：线性神经元上的希伯来学习。我们将贝叶斯-赫布学习规则设定为强化学习，在强化学习中，某些决策会得到奖励，并证明当突触前和突触后神经元处于活动状态时，每个突触权重平均会以指数速度收敛到获得奖励的对数。在我们的简单体系结构中，通过winner-take-all操作从候选操作集中选择特定操作。分配给这个动作的全局奖励会调节每个突触的更新。除了这个全局奖赏信号外，我们的奖赏调制贝叶斯Hebb规则是一个纯粹的Hebb更新，它只依赖于突触前和突触后神经元的协同激活，而不是像感知器学习规则或Rescorla-Wagner规则那样，依赖于突触前对突触后神经的所有输入的加权和。这种简单的行为选择学习方法要求将有关感官输入的信息以适当的预处理形式呈现给贝叶斯决策阶段，这是由检测输入特征之间显著依赖性的其他自适应过程（作用于较大的时间尺度）产生的。因此，我们提出的决策快速学习框架还提供了关于神经节点和皮层区域计算目标的有趣新假设，这些皮层区域为最终决策阶段提供输入。

2010

您当前无权访问此内容。

还没有帐户？注册

您无法登录。请检查您的电子邮件地址/用户名和密码，然后重试。

薪酬模块化Hebbian决策学习

摘要

电子邮件警报

引用人

的产品麻省理工学院出版社

麻省理工学院直接出版社

问询处

麻省理工学院出版社

联系我们

薪酬模块化Hebbian决策学习

摘要

登录

客户帐户

通过您的机构登录

电子邮件警报

引用人

相关文章

相关书籍章节

的产品麻省理工学院出版社

麻省理工学院直接出版社

问询处

麻省理工学院出版社

联系我们

此功能仅对订阅服务器可用