钢筋

REINFORCEjs是一个强化学习库,它实现了几种常见的RL算法,所有这些都是通过web演示实现的。具体而言,该库目前包括:动态规划方法;(表格)时间差分学习(SARSA/Q-Learning);基于神经网络函数逼近的Q-学习的深度Q-学习;用于处理连续动作空间的随机/确定性策略梯度和演员批评架构。(非常阿尔法,可能是马车,或者至少是挑剔和不一致)

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换