Advantage Actor Critic(A2C),同步确定性版本 A3C飞机 近距离策略优化 PPO公司 基于Kronecker因子逼近的深度强化学习可扩展信任域方法 确认 生成性对抗性模仿学习 印度天然气公司
@杂项{pytorchrl, author={科斯特里科夫,伊利亚}, title={PyTorch强化学习算法的实现}, 年份={2018年}, publisher={GitHub}, 日志={GitHub存储库}, howpublished={\url{ https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail }}, }
支持(和测试)的环境(通过 OpenAI健身房 )
Atari学习环境 MuJoCo公司 PyBullet符号 (包括Racecar、Minitaur和Kuka) DeepMind控制套件 (通过 dm_控制2健身房 )
# PyTorch公司 康达安装pytorch火炬-c soumith # 其他要求 pip安装-r要求.txt # 健身房Atari 康达安装-康达锻造体育馆-阿塔里
改进此README文件。 重新排列图像。 提高KFAC的绩效,更多信息请参见KFAC.py 运行所有游戏和算法的评估
python main.py--环境名称 " PongNoFrameskip-v4 "
python main.py--环境名称 " PongNoFrameskip-v4 " --algo ppo--use-gae--lr 2.5e-4--clip-param 0.1--value-loss-coef 0.5--num-process 8--num-steps 128--num-mini-bactch 4--log-interval 1--use-linar-lr-decay--entropy-coef 0.01
python main.py--环境名称 " PongNoFrameskip-v4 " --algo acktr--进程数32--步骤数20
python main.py--环境名称 " 收割机-v2 " --num-env-steps 1000000
python main.py--环境名称 " 收割机-v2 " --algo ppo--use-gae--log-interval 1--num-steps 2048--num-process 1--lr 3e-4--entropy-coef 0--value-loss-coef 0.5--ppo-epoch 10--num-mini-batch 32--gamma 0.99--gae-lambda 0.95--num-env-steps 1000000--use-linar lr-decay--use-proper-time-limits
python enjoy.py--加载目录trained_models/a2c--env-name " PongNoFrameskip-v4 "
python enjoy.py--加载目录trained_models/ppo--env-name " 收割机-v2 "