动态编程 方法 (表格) 时间差异学习 (SARSA/Q-Learning) 深度Q-Learning 用于神经网络函数逼近的Q学习 随机/确定性政策梯度 以及用于处理连续动作空间的演员-评论家架构。 ( 非常阿尔法,可能是bug,或者至少是挑剔和不一致 )
左后。 DPAgent(DPAgent) 具有环境动力学的有限状态/作用空间 左后。 TD代理 对于有限状态/作用空间 左后。 DQNA代理 用于连续状态功能,但用于离散动作
//创建环境对象
无功功率,无功功率 环境价值 = { } ;
环境价值 . 获取状态数 = 功能 ( ) { 返回 8 ; }
环境价值 . 获取最大操作数 = 功能 ( ) { 返回 4 ; }
//创建DQN代理
无功功率,无功功率 规格 = { 阿尔法 : 0.01 } //查看DQN页面上的完整选项
代理人 = 新的 RL公司 . DQNA代理 ( 环境价值 , 规格 ) ;
设置间隔 ( 功能 ( ) { //启动学习循环
无功功率,无功功率 行动 = 代理人 . 行为 ( 秒 ) ; //s是长度为8的数组
//... 在环境中执行行动并获得奖励
代理人 . 学习 ( 奖励 ) ; //代理改进了其Q、策略、模型等。奖励是浮动
} , 0 ) ;