Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL

Zhong, Fangwei; Wu, Kui; Ci, Hai; Wang, Churan; Chen, Hao

计算机科学>计算机视觉与模式识别

arXiv公司：2404.09857（cs）

【提交日期：2024年4月15日】

标题：使用Visual Foundation模型和离线RL实现具体的视觉跟踪

作者：钟方伟,吴奎,海慈,王楚然,郝晨

查看PDF HTML（实验性）

摘要：具体的视觉跟踪是使用代理的自我中心视觉在动态3D环境中跟踪目标对象。这对于具体代理来说是一项至关重要且具有挑战性的技能。然而，现有方法存在训练效率低和泛化能力差的问题。在本文中，我们提出了一种新的框架，该框架将视觉基础模型（VFM）和离线强化学习（离线RL）相结合，以实现具体的视觉跟踪。我们使用预先培训的VFM，例如``跟踪任何内容”，以提取带有文本提示的语义分段掩码。然后，我们使用离线RL训练一个递归策略网络，例如保守Q-Learning，以从收集的演示中学习，而无需在线代理-环境交互。为了进一步提高策略网络的健壮性和通用性，我们还引入了一个掩码重定目标ting机制和多级数据收集策略。通过这种方式，我们可以在一个小时内在消费者级GPU（例如Nvidia RTX 3090）上训练一个健壮的跟踪器。这种效率对于基于RL的视觉跟踪方法来说是前所未有的。我们在一些具有挑战性的环境中评估我们的跟踪器，例如分心和遮挡。结果表明，在样本效率、对干扰因素的鲁棒性以及对未知场景和目标的泛化方面，我们的代理优于最新的方法。我们还演示了所学跟踪器从虚拟世界到真实世界场景的可转移性。

学科：	计算机视觉和模式识别（cs.CV）; 人工智能；机器人（cs.RO）
引用为：	arXiv公司：2404.09857[cs.CV]
	（或 arXiv公司：2404.09857v1[cs.CV]对于此版本）
	https://doi.org/10.44850/arXiv.2404.09857

提交历史记录

发件人：Fangwei Zhong[查看电子邮件]
[第1版]2024年4月15日星期一15:12:53 UTC（3931 KB）

计算机科学>计算机视觉与模式识别

标题：使用Visual Foundation模型和离线RL实现具体的视觉跟踪

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉与模式识别

标题：使用Visual Foundation模型和离线RL实现具体的视觉跟踪

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目