地平线 swMATH ID: 31157 软件作者: Jason Gauci、Edoardo Conti、Yitao Liang、Kittipt Virochsiri、Yuchen He、Zachary Kaden、Vivek Narayanan、Xiaohui Ye、Zhengxing Chen、Scott Fujimoto 描述: 地平线:脸书的开源应用强化学习平台。在本文中,我们介绍了Facebook的开源应用强化学习(RL)平台Horizon。Horizon是一个端到端平台,旨在解决数据集较大(数百万到数十亿次观测)、反馈回路较慢(与模拟器相比)、实验不能在模拟器中运行的行业应用RL问题。与其他RL平台不同,Horizon通常是为快速原型设计和实验而设计的,它的设计将生产用例作为首要考虑因素。该平台包含用于训练流行的深层RL算法的工作流,包括数据预处理、特征转换、分布式训练、反事实策略评估、优化服务和基于模型的数据理解工具。我们还展示并描述了使用Horizon训练的强化学习模型显著优于Facebook的监督学习系统的真实示例。 主页: https://arxiv.org/abs/1811.00260 源代码: https://github.com/facebookresearch/ReAgent 相关软件: RLlib(RL库);多巴胺;OpenAI健身房;张力;PyTorch公司;TensorFlow公司;车库;皮子弹;催化剂。RL公司;RLgraph(RL图形);github;普纳戈奇;模仿;SLM实验室;TF-试剂;WaveRL公司;d3rlpy公司;稳定基线3;奥图纳;稳定基线 引用于: 2文件 全部的 前5名9位作者引用 1 Craig Boutiler公司 1 加布里埃尔·杜拉克·阿诺德 1 斯文·戈瓦尔 1 托德·海丝特 1 尼尔·莱文 1 李杰瑞 1 丹尼尔·曼科维茨。 1 Cosmin Paduraru 1 保罗·维亚皮亚尼 2篇连载文章中引用 1 人工智能 1 机器学习 在2个字段中引用 2 计算机科学(68-XX) 1 博弈论、经济学、金融和其他社会和行为科学(91-XX) 按年份列出的引文