地平线

地平线:Facebook的开源应用强化学习平台。在这篇文章中,我们介绍了Facebook的开源应用强化学习(RL)平台Horizon。Horizon是一个端到端的平台,旨在解决工业应用的RL问题,其中数据集很大(数百万到数十亿个观测值),反馈回路慢(与模拟器相比),实验必须小心进行,因为它们不在模拟器中运行。与其他经常为快速原型和实验而设计的RL平台不同,Horizon是以生产用例作为首要考虑的。该平台包含训练流行的deep-RL算法的工作流,包括数据预处理、特征转换、分布式训练、反事实策略评估、优化服务和基于模型的数据理解工具。我们还展示和描述了一些真实的例子,在这些例子中,使用Horizon培训的强化学习模型的表现明显优于Facebook的监督学习系统。