计算机科学>计算机视觉和模式识别
标题: 视频中的无监督开放视觉对象定位
摘要: 在本文中,我们展示了视频表征学习和预训练视觉语言模型的最新进展,这使得自监督视频对象定位有了实质性的改进。 我们提出了一种方法,首先通过时隙注意方法定位视频中的对象,然后将文本分配给获得的时隙。 后者是通过一种无监督的方式从预处理的CLIP模型中读取本地化语义信息来实现的。 除了CLIP中包含的隐式注释外,最终的视频对象定位是完全无监督的,这是第一种在常规视频基准测试中产生良好结果的无监督方法。