计算机科学>计算机视觉和模式识别
标题: VideoGLUE:基础模型评估的视频一般理解
摘要: 我们使用一个精心设计的实验协议来评估现有基础模型的视频理解能力,该实验协议包括三个标志性任务(动作识别、时间定位和时空定位)、八个社区接受的数据集以及四种裁剪基础模型(FM)的适配方法 用于下游任务。 此外,我们提出了一个标量视频GLUE评分(VGS)来衡量FM在适应一般视频理解任务时的效能和效率。 我们的主要发现如下。 首先,任务特定模型显著优于本研究中研究的六种FM,与FM在自然语言和图像理解方面取得的成就形成鲜明对比。 第二,预训练数据中包含视频模态的视频主动FM在对运动丰富的视频进行分类、及时定位动作以及理解多个动作的视频方面通常优于图像主动FM。 第三,在对下游任务进行轻度调整(例如冻结FM主干)的情况下,视频主动FM可以在视频任务上表现良好,而图像主动FM则在完全端到端微调中获胜。 前两个观察结果揭示了对以视频为中心的FM进行研究的必要性和巨大机会,最后一个证实了任务和适应方法在评估FM时都很重要。 我们的代码发布于: 此https URL .