计算机科学>计算机视觉与模式识别
标题: 使用Visual Foundation模型和离线RL实现具体的视觉跟踪
摘要: 具体的视觉跟踪是使用代理的自我中心视觉在动态3D环境中跟踪目标对象。 这对于具体代理来说是一项至关重要且具有挑战性的技能。 然而,现有方法存在训练效率低和泛化能力差的问题。 在本文中,我们提出了一种新的框架,该框架将视觉基础模型(VFM)和离线强化学习(离线RL)相结合,以实现具体的视觉跟踪。 我们使用预先培训的VFM, 例如``跟踪任何内容 ”,以提取带有文本提示的语义分段掩码。然后,我们使用离线RL训练一个递归策略网络,例如保守Q-Learning,以从收集的演示中学习,而无需在线代理-环境交互。为了进一步提高策略网络的健壮性和通用性,我们还引入了一个掩码重定目标 ting机制和多级数据收集策略。 通过这种方式,我们可以在一个小时内在消费者级GPU(例如Nvidia RTX 3090)上训练一个健壮的跟踪器。 这种效率对于基于RL的视觉跟踪方法来说是前所未有的。 我们在一些具有挑战性的环境中评估我们的跟踪器,例如分心和遮挡。 结果表明,在样本效率、对干扰因素的鲁棒性以及对未知场景和目标的泛化方面,我们的代理优于最新的方法。 我们还演示了所学跟踪器从虚拟世界到真实世界场景的可转移性。