Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding

Xiong, Yuanhao; Zhao, Long; Gong, Boqing; Yang, Ming-Hsuan; Schroff, Florian; Liu, Ting; Hsieh, Cho-Jui; Yuan, Liangzhe

计算机科学>计算机视觉和模式识别

arXiv公司：2303.16341（cs）

【于2023年3月28日提交(第1版)，最新修订日期：2024年3月8日（此版本，v2）]

标题：基于时间分组和空间接地的结构化视频语言建模

作者：熊元浩,龙照,博清宫,杨明慧,弗洛里安·施罗夫,刘婷（Ting Liu）,谢秋菊,梁哲源

查看PDF HTML（实验性）

摘要：现有的视频语言预训练方法主要侧重于通过全局对比学习实现视频片段和字幕之间的实例级对齐，而忽略了视频和文本中丰富的细粒度局部信息，这对于需要时间定位和语义推理的下游任务非常重要。一个强大的模型有望能够捕捉区域-对象的对应关系，并识别视频剪辑中的场景变化，分别反映空间和时间粒度。为了加强模型对这些细粒度细节的理解，我们通过利用这两种模式的内在结构，提出了一个简单而有效的视频语言建模框架s-ViLM。它包括两种新颖的设计，即片间空间接地和片内时间分组，以同时促进学习区域-对象对齐和时间感知特征。综合评估表明，S-ViLM在学习更具表现力的表示方面优于现有方法。具体来说，S-ViLM在四个代表性下游任务上大大超过了最先进的方法，包括文本视频检索、视频问答、视频动作识别和时间动作定位。

学科：	计算机视觉与模式识别（cs.CV）
引用为：	arXiv公司：2303.16341[cs.CV]
	（或 arXiv:2303.16341v2[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2303.16341

提交历史记录

发件人：熊元浩[查看电子邮件]
[第1版]2023年3月28日星期二22:45:07 UTC（8036 KB）
[版本2]2024年3月8日星期五22:06:52 UTC（14297 KB）

计算机科学>计算机视觉和模式识别

标题：基于时间分组和空间接地的结构化视频语言建模

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：基于时间分组和空间接地的结构化视频语言建模

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目