计算机科学>机器学习
职务: 基于可达性分析的分层强化学习目标空间提取
摘要: 开放式学习极大地受益于目标表示的符号方法的使用,因为它们提供了构建知识的方法,以实现高效和可转移的学习。 然而,现有的基于符号推理的分层强化学习(HRL)方法往往受到限制,因为它们需要手动表示目标。 自主发现象征性目标表示的挑战在于,它必须保存关键信息,例如环境动力学。 在这项工作中,我们通过一种紧急表示提出了一种用于子目标发现的发展机制,该表示抽象(即,将在任务中具有类似角色的环境状态集分组)。 我们创建了一个HRL算法,该算法会随着策略逐渐学习该表示,并在导航任务中对其进行评估,以表明所学习的表示是可解释的,从而提高数据效率。