Unsupervised Open-Vocabulary Object Localization in Videos

Fan, Ke; Bai, Zechen; Xiao, Tianjun; Zietlow, Dominik; Horn, Max; Zhao, Zixu; Simon-Gabriel, Carl-Johann; Shou, Mike Zheng; Locatello, Francesco; Schiele, Bernt; Brox, Thomas; Zhang, Zheng; Fu, Yanwei; He, Tong

计算机科学>计算机视觉和模式识别

arXiv:2309.09858（cs）

【于2023年9月18日提交】

标题：视频中的无监督开放视觉对象定位

作者：柯凡,白泽臣,肖天军,多米尼克·齐特洛,最大喇叭,赵子旭,卡尔·约翰·西蒙·加布里埃尔,迈克·郑寿,弗朗西斯科·罗泰洛,伯恩特·席勒,托马斯·布罗克斯,张征,傅燕伟（Yanwei Fu）,同和

查看PDF

摘要：在本文中，我们展示了视频表征学习和预训练视觉语言模型的最新进展，这使得自监督视频对象定位有了实质性的改进。我们提出了一种方法，首先通过时隙注意方法定位视频中的对象，然后将文本分配给获得的时隙。后者是通过一种无监督的方式从预处理的CLIP模型中读取本地化语义信息来实现的。除了CLIP中包含的隐式注释外，最终的视频对象定位是完全无监督的，这是第一种在常规视频基准测试中产生良好结果的无监督方法。

评论：	ICCV 2023接受
学科：	计算机视觉和模式识别（cs.CV）
引用为：	arXiv:2309.09858[cs.CV]
	（或 arXiv公司：2309.09858v1[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2309.09858

提交历史记录

发件人：柯凡[查看电子邮件]
[第1版]2023年9月18日星期一15:20:13 UTC（12048 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

完。个人简历

<上一版本 | 下一个>

新的 | 最近的 |2023-09

更改为浏览方式：

反恐精英

参考文献和引文

导出BibTeX引文

计算机科学>计算机视觉和模式识别

标题：视频中的无监督开放视觉对象定位

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：视频中的无监督开放视觉对象定位

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目