ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models

Madasu, Avinash; Lal, Vasudev

计算机科学>计算机视觉和模式识别

arXiv:2306.16533（cs）

【于2023年6月28日提交(第1版)，上次修订日期：2024年4月17日（本版本，v2）]

职务：ICSVR：研究视频检索模型中的成分和句法理解

作者：阿维纳什·马达苏,瓦苏德夫·拉尔

查看PDF HTML（实验性）

摘要：视频检索（VR）涉及从给定文本标题或副视频的视频数据库中检索地面实况视频。组合性的两个重要组成部分：对象和属性以及动作使用正确的语法连接起来，以形成正确的文本查询。这些组件（对象和属性、动作和语法）在帮助区分视频和检索正确的地面实况视频方面发挥着重要作用。然而，还不清楚这些组件对视频检索性能的影响是什么。因此，我们在MSRVTT、MSVD和DIDEMO等标准基准上对视频检索模型的组成和句法理解进行了系统研究。本研究对两类视频检索模型进行了研究：（i）在视频文本对上进行预训练，并在下游视频检索数据集上进行微调的视频检索模型（例如，“冻结时间”、“紫罗兰”、“MCQ”等）（ii）适用预训练的图像文本表示，如用于视频检索的CLIP（例如，CLIP4Clip、XCLIP、CLIP2Video等）。我们的实验表明，与对象和属性相比，动作和语法在视频理解中的作用较小。此外，与视频文本数据上的预训练模型相比，使用预训练图像文本表示（CLIP）的视频检索模型具有更好的语法和组成理解。该代码可在此https URL

学科：	计算机视觉和模式识别（cs.CV）; 人工智能；计算与语言（cs.CL）
引用为：	arXiv:2306.16533[cs.CV]
	（或 arXiv：2306.16533v2[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2306.16533

提交历史记录

发件人：Avinash Madasu[查看电子邮件]
[第1版]2023年6月28日星期三20:06:36 UTC（110 KB）
[版本2]2024年4月17日星期三11:38:12 UTC（115 KB）

计算机科学>计算机视觉和模式识别

职务：ICSVR：研究视频检索模型中的成分和句法理解

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

职务：ICSVR：研究视频检索模型中的成分和句法理解

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目