VideoGLUE: Video General Understanding Evaluation of Foundation Models

Yuan, Liangzhe; Gundavarapu, Nitesh Bharadwaj; Zhao, Long; Zhou, Hao; Cui, Yin; Jiang, Lu; Yang, Xuan; Jia, Menglin; Weyand, Tobias; Friedman, Luke; Sirotenko, Mikhail; Wang, Huisheng; Schroff, Florian; Adam, Hartwig; Yang, Ming-Hsuan; Liu, Ting; Gong, Boqing

计算机科学>计算机视觉和模式识别

arXiv:2307.03166（cs）

【于2023年7月6日提交(第1版)，上次修订日期：2023年12月1日（本版本，v2）]

标题：VideoGLUE：基础模型评估的视频一般理解

作者：梁哲源,Nitesh Bharadwaj Gundavarapu公司,龙照,郝周,尹翠（音）,吕江,宣扬,贾梦林,托比亚斯·韦恩德,卢克·弗里德曼,米哈伊尔·西罗滕科,王惠生,弗洛里安·施罗夫,哈特维格·亚当,杨明慧,刘婷（Ting Liu）,龚伯清

查看PDF

摘要：我们使用一个精心设计的实验协议来评估现有基础模型的视频理解能力，该实验协议包括三个标志性任务（动作识别、时间定位和时空定位）、八个社区接受的数据集以及四种裁剪基础模型（FM）的适配方法用于下游任务。此外，我们提出了一个标量视频GLUE评分（VGS）来衡量FM在适应一般视频理解任务时的效能和效率。我们的主要发现如下。首先，任务特定模型显著优于本研究中研究的六种FM，与FM在自然语言和图像理解方面取得的成就形成鲜明对比。第二，预训练数据中包含视频模态的视频主动FM在对运动丰富的视频进行分类、及时定位动作以及理解多个动作的视频方面通常优于图像主动FM。第三，在对下游任务进行轻度调整（例如冻结FM主干）的情况下，视频主动FM可以在视频任务上表现良好，而图像主动FM则在完全端到端微调中获胜。前两个观察结果揭示了对以视频为中心的FM进行研究的必要性和巨大机会，最后一个证实了任务和适应方法在评估FM时都很重要。我们的代码发布于：此https URL.

评论：	修复了一些拼写错误，并包括项目开源页面：此https URL
学科：	计算机视觉与模式识别（cs.CV）
引用为：	arXiv:2307.03166[cs.CV]
	（或 arXiv：2307.03166v2[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2307.03166

提交历史记录

发件人：袁良哲[查看电子邮件]
[第1版]2023年7月6日星期四17:47:52 UTC（799 KB）
[版本2]2023年12月1日星期五19:42:57 UTC（4794 KB）

计算机科学>计算机视觉和模式识别

标题：VideoGLUE：基础模型评估的视频一般理解

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：VideoGLUE：基础模型评估的视频一般理解

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目