石田舒文

CALVIN-一种可以学习规划和导航未知环境的神经网络

石田淑

摘要:CALVIN是一种神经网络,可以在新的3D环境中进行规划、探索和导航。它通过专家演示学习解决迷宫等任务。我们的工作基于价值迭代网络(VIN)[1],这是一种动态构建计划的递归卷积神经网络。虽然VIN在完全已知的环境中工作良好,但CALVIN甚至可以在未知的环境中工作,在未知的环境中,代理必须探索环境才能找到目标。

[纸类·项目页面·代码]

问题

我们要解决的问题是演示中的视觉导航。给定RGB-D图像的固定数量的专家轨迹和所采取的行动,机器人代理必须学会如何导航。虽然使用自上而下的地图来定义障碍和目标很容易进行规划,但如果代理必须从RGB-D图像中了解障碍和目标的性质,则更具挑战性。

代理将一系列图像和动作视为专家演示
代理将一系列图像和动作视为专家演示

导航的另一个重要方面是探索。我们的代理开始时对新环境一无所知,因此它必须在导航时构建环境地图,并学习探索最可能通向目标的区域。

代理人学会预测最能解释专家演示的奖励
代理学会预测最能解释专家演示的奖励。高值为亮(黄色),低值为暗,专家的轨迹为虚线,代理的轨迹为实线。

为了使代理能够在未经培训的环境中导航,它必须学习一些适用于所有环境的通用知识。特别是,我们将重点学习一个共享的转换模型和奖励模型,该模型可以最好地解释专家演示,然后可以应用于新的设置。

代理学习可在所有环境中重用的运动动力学
代理学习可在所有环境中重用的运动动力学。每个面板显示了在8个主要方向中的每个方向进行移动操作时,在代理周围的本地邻居着陆的概率;静止状态对应于面板中心的单一高概率(亮度值)。
石田淑2022年6月2日