×

优雅RL

swMATH ID: 41245
软件作者: 刘晓阳、李泽初、杨卓然、郑家豪、王兆然、安瓦尔·瓦利德、郭健、迈克尔·乔丹
描述: ElegantRL-Podracer:用于云计算深层强化学习的可扩展和弹性库。深度强化学习(DRL)彻底改变了游戏和机器人控制等应用中的学习和驱动。数据收集的成本,即从代理-环境交互生成转换,仍然是复杂现实问题中更广泛采用DRL的主要挑战。遵循云模式在GPU云平台上训练DRL代理是一个很有前途的解决方案。在本文中,我们提出了一个可扩展的弹性库ElegantRL-podracer,用于云主动深度强化学习,它有效地支持数百万个GPU内核在多个级别上进行大规模并行训练。在高层,ElegantRL-podracer采用基于比赛的集成方案,在数百甚至数千个GPU上协调训练过程,安排排行榜和数百个吊舱的训练池之间的交互。在底层,每个pod通过在单个GPU中充分利用近7000个GPU CUDA内核来并行模拟代理与环境的交互。我们的ElegantRL-podracer库遵循容器化、微服务和MLOps的开发原则,具有高可扩展性、灵活性和可访问性。使用NVIDIA DGX SuperPOD云,我们对移动和股票交易中的各种任务进行了广泛的实验,结果表明ElegantRL-podracer的性能大大优于RLlib。GitHub上提供了我们的代码。
主页: https://arxiv.org/abs/2112.05923
源代码:  https://github.com/AI4Finance-Foundation/ElegantRL
依赖项: 蟒蛇
相关软件: Isaac健身房;张力板;PyTorch公司;稳定基线;清洁RL;RLzoo公司;RLlib(RL库);蘑菇RL;补药;rlpyt公司;PyTorchRL公司;链条RL;皮子弹;MuJoCo公司;OpenAI健身房;蟒蛇;skrl公司
引用于: 0个文档