人民

PEORL:整合符号规划与层级强化学习,以进行稳健决策。强化学习和符号规划都被用来构建智能自治体。强化学习依赖于从与现实世界的互动中学习,而这通常需要大量的经验。符号规划依赖于手工编制的符号知识,对于领域的不确定性和变化,这些知识可能并不可靠。本文提出了一个统一的框架{em-PEORL},它将符号规划与层次强化学习(HRL)相结合,以处理动态环境中的不确定性决策问题。符号计划用于指导agent的任务执行和学习,并将学习到的经验反馈到符号知识中,以改进规划。这种方法可以在复杂的域中快速地进行策略搜索和健壮的符号规划。该框架在HRL的基准域上进行了测试。

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换