RLlib:工业级强化学习
目录
RLlib:工业级强化学习 #

60秒内RLlib #
从 射线.rllib.algorithms.ppo 进口 PPOConfig(PPO配置)
配置 = ( # 1. 配置算法,
PPOConfig(PPO配置) ()
. 环境 ( “出租车-v3” )
. 卷展栏 ( 数量rollout_workers = 2 )
. 框架 ( “火炬” )
. 训练 ( 模型 = { “fcnet_hiddens” 以下为: [ 64 , 64 ]})
. 评价 ( 评估num_workers = 1 )
)
阿尔戈 = 配置 . 建造 () # 2. 构建算法,
对于 _ 在里面 范围 ( 5 ):
打印 ( 阿尔戈 . 火车 ()) # 3. 训练它,
阿尔戈 . 评价 () # 4. 并进行评估。