计算机科学>人工智能
标题: 基于像素的深度分层规划
摘要: 智能代理需要选择长的动作序列来解决复杂的任务。 虽然人类很容易将任务分解为子目标,并通过数百万条肌肉命令实现,但当前的人工智能仅限于具有数百个决策范围的任务,尽管计算预算很大。 分层强化学习的研究旨在克服这一局限性,但已经证明具有挑战性,目前的方法依赖于手动指定的目标空间或子任务,并且不存在通用的解决方案。 我们介绍了Director,这是一种实用的方法,通过在学习世界模型的潜在空间内进行规划,直接从像素学习层次行为。 高级策略通过选择潜在目标来最大化任务和探索奖励,而低级策略则学习实现目标。 尽管在潜在空间中操作,但决策是可以解释的,因为世界模型可以将目标解码为图像以进行可视化。 导演在奖励较少的任务上表现优于探索方法,包括从以自我为中心的摄像机和本体感受器中使用四足机器人进行3D迷宫穿越,而无需访问先前工作中使用的全局位置或自上而下的视图。导演还学习了各种环境中的成功行为, 包括视觉控制、Atari游戏和DMLab级别。