CALVIN-一种可以学习规划和导航未知环境的神经网络

石田淑

摘要:CALVIN是一种神经网络,可以在新的3D环境中进行规划、探索和导航。它只通过专家演示学习解决迷宫等任务。我们的工作基于价值迭代网络(VIN)[1],这是一种动态构建计划的递归卷积神经网络。虽然VIN在完全已知的环境中工作良好,但CALVIN甚至可以在未知环境中工作,在这种环境中,代理必须探索环境才能找到目标。

[纸类·项目页面·代码]

问题

我们要解决的问题是演示中的视觉导航。给定RGB-D图像的固定数量的专家轨迹和所采取的操作,机器人代理必须学会如何导航。虽然使用自上而下的地图来定义障碍和目标很容易进行规划,但如果代理必须从RGB-D图像中了解障碍和目标的性质,则更具挑战性。

代理将一系列图像和动作视为专家演示
代理将一系列图像和动作视为专家演示

导航的另一个重要方面是探索。我们的代理开始时对新环境一无所知,因此它必须在导航时构建环境地图,并学习探索最可能通向目标的区域。

代理人学会预测最能解释专家演示的奖励
代理学会预测最能解释专家演示的奖励。高值为亮(黄色),低值为暗,专家的轨迹为虚线,代理的轨迹为实线。

为了使代理能够在未经培训的环境中导航,它必须学习一些适用于所有环境的通用知识。特别是,我们专注于学习一个共享的过渡模型和奖励模型,它可以最好地解释专家演示,然后可以应用于新的设置。

代理学习可在所有环境中重用的运动动力学
代理学习可在所有环境中重用的运动动力学。每个面板显示了在8个主要方向中的每个方向进行移动操作时,在代理周围的本地邻居着陆的概率;静止状态对应于面板中心的单一高概率(亮度值)。

型号概述

我们的模型由两部分组成:一个是学习的映射组件,我们称之为Lattice PointNet,它将过去的观测结果聚合成嵌入的地面投影图;另一个是CALVIN,它是一个可微分规划器,它为值迭代建模。与强化学习中更常见的方法不同,在强化学习中,代理通过使用莱迪思PointNet学习的适当空间表示并使用CALVIN作为规划网络,看到图像并尝试反应性地预测最佳动作,我们的代理能够以一种具有空间意义的方式探索和导航过去的观测结果。

模型体系结构概述
模型体系结构概述

CALVIN是价值迭代网络(简称VIN)的改进版本,它使用递归卷积作为空间任务的价值迭代形式。它学习一个奖励图和一个卷积核,该卷积核应用于值迭代更新方程,生成一个Q值图,这是对代理可以获得的未来奖励的估计。一旦计算出价值图,代理人就可以采取产生最高价值的行动,以最大化其机会。

虽然VIN是一个简单的体系结构,但它有几个缺点,最明显的是它没有严格地学习实践中的值迭代。为了说明这一点,让我们考虑下图所示的迷宫。我们预计,根据目标细胞的路径长度,细胞将具有更高的值,并且所有无效细胞(例如迷宫壁)都应具有非阳性值,因为不应鼓励代理访问它们。事实上,我们的模型CALVIN学习生成一个与理论解几乎相同的值图(如右图所示)。另一方面,VIN生成的值图是无法解释的,不能正确表示有关障碍细胞的信息。我们发现不匹配是因为VIN没有受到足够的约束来惩罚障碍,因此做出了次优决策,例如反复探索死胡同。

VIN和CALVIN生成的价值图的比较。VIN生成无法解释的易碎值映射。
VIN和CALVIN生成的价值图的比较。VIN生成无法解释的易碎值映射。

另一方面,CALVIN明确地学习有效和无效的转换。它将转换模型分解为共享代理运动模型和动作可用性模型。CALVIN使用操作可用性模型惩罚无效操作,并防止值从无法访问的状态传播。除了对可用动作的这些约束之外,我们还改进了训练损失,以便模型可以跨整个轨迹利用训练信号,而不仅仅是当前状态。

CALVIN模型图
CALVIN模型图

实验

我们在三个领域进行了实验,特别是探索新的未知环境:网格迷宫环境,迷你世界[2] 、和主动视觉数据集[3] 。CALVIN实现了更强大的导航,即使在未知环境中,也能显示VIN所缺少的探索行为。

在我们的网格迷宫设置中,代理只能在本地查看迷宫。代理可以选择向前移动、向左、向右旋转或完成触发。我们可以看到,代理预测了代理尚未探索的位置的较高值,并且当代理看到目标位置时,会获得较高的回报。

接下来,我们在一个名为MiniWorld的3D迷宫环境中进行了一个类似的实验,但这次使用的是来自代理的RGB-D图像序列,而不是自上而下的视图。当代理进行导航时,它使用莱迪思PointNet构建嵌入映射,然后将其输入CALVIN。在这里,代理也学会了为墙指定较低的值,为未勘探的位置指定较高的值。我们可以观察到,该代理在遇到死区时设法回溯,并重新规划到其他未探索的细胞。当代理看到目标时,它会向目标附近的细胞分配高奖励。

最后,我们使用主动视觉数据集测试了代理,该数据集是机器人平台获得的真实世界图像的集合,我们可以从中创建轨迹。对于这项任务,我们使用了预先训练好的ResNet嵌入,并将其输入到Lattice PointNet中。特工接受了导航到房间里一个汽水瓶的训练。

结论

与其他差异化规划师相比,CALVIN能够更稳健地探索和导航未知环境。VIN的这种改进来自于明确的动作可用性建模,用于惩罚无效动作,以及使用轨迹重加权的改进训练损失。我们还引入了一个Lattice PointNet主干网,该主干网以空间一致的方式有效地融合了过去的观测结果。

有关详细信息,请查看我们的论文和我们的开源代码。我们将在CVPR 2022上展示,如果您有兴趣,请访问我们的海报会议!

工具书类

[1] Tamar等人,“价值迭代网络”,NeurIPS 2016。

[2] M.Chevalier Boisvert先生,https://github.com/maximecb/gym-miniworld网站, 2018.

[3] Ammirato等人,“积极愿景开发和基准测试的数据集”,ICRA 2017。

石田淑2022年6月2日

来自VGG博客的更多信息