计算机科学>计算机视觉和模式识别
标题: 基于时间分组和空间接地的结构化视频语言建模
摘要: 现有的视频语言预训练方法主要侧重于通过全局对比学习实现视频片段和字幕之间的实例级对齐,而忽略了视频和文本中丰富的细粒度局部信息,这对于需要时间定位和语义推理的下游任务非常重要。 一个强大的模型有望能够捕捉区域-对象的对应关系,并识别视频剪辑中的场景变化,分别反映空间和时间粒度。 为了加强模型对这些细粒度细节的理解,我们通过利用这两种模式的内在结构,提出了一个简单而有效的视频语言建模框架s-ViLM。 它包括两种新颖的设计,即片间空间接地和片内时间分组,以同时促进学习区域-对象对齐和时间感知特征。 综合评估表明,S-ViLM在学习更具表现力的表示方面优于现有方法。 具体来说,S-ViLM在四个代表性下游任务上大大超过了最先进的方法,包括文本视频检索、视频问答、视频动作识别和时间动作定位。