我们介绍了一个决策框架,在这个框架中,决策学习被简化为最简单、生物学上最合理的形式:线性神经元上的希伯来学习。我们将贝叶斯-赫布学习规则设定为强化学习,在强化学习中,某些决策会得到奖励,并证明当突触前和突触后神经元处于活动状态时,每个突触权重平均会以指数速度收敛到获得奖励的对数。在我们的简单体系结构中,通过winner-take-all操作从候选操作集中选择特定操作。分配给这个动作的全局奖励会调节每个突触的更新。除了这个全局奖赏信号外,我们的奖赏调制贝叶斯Hebb规则是一个纯粹的Hebb更新,它只依赖于突触前和突触后神经元的协同激活,而不是像感知器学习规则或Rescorla-Wagner规则那样,依赖于突触前对突触后神经的所有输入的加权和。这种简单的行为选择学习方法要求将有关感官输入的信息以适当的预处理形式呈现给贝叶斯决策阶段,这是由检测输入特征之间显著依赖性的其他自适应过程(作用于较大的时间尺度)产生的。因此,我们提出的决策快速学习框架还提供了关于神经节点和皮层区域计算目标的有趣新假设,这些皮层区域为最终决策阶段提供输入。

您当前无权访问此内容。