RLPy: A Value-Function-Based Reinforcement Learning Framework for Education and Research

Alborz Geramifard; Christoph Dann; Robert H. Klein; William Dabney; Jonathan P. How

RLPy是一个面向对象的强化学习软件包，侧重于使用线性函数近似和离散动作的基于值函数的方法。该框架是为教育和研究目的而设计的。它为学习代理提供了一个丰富的细粒度、易于交换的组件库（例如，价值函数的策略或表示），促进了强化学习中最近增加的专业化。RLPy是用Python编写的，允许快速原型制作，但通过其对优化数值库和并行化的内置支持，也适用于大规模实验。代码分析、域可视化和数据分析集成在一个自包含的包中，该包在Modified BSD License下提供，网址为github.com/rlpy/rlpy所有这些属性都允许用户轻松比较各种强化学习算法。

RLPy：一个基于价值-功能的教育和研究强化学习框架

摘要