计算机科学>计算机视觉和模式识别
职务: ICSVR:研究视频检索模型中的成分和句法理解
摘要: 视频检索(VR)涉及从给定文本标题或副视频的视频数据库中检索地面实况视频。 组合性的两个重要组成部分:对象和属性以及动作使用正确的语法连接起来,以形成正确的文本查询。 这些组件(对象和属性、动作和语法)在帮助区分视频和检索正确的地面实况视频方面发挥着重要作用。 然而,还不清楚这些组件对视频检索性能的影响是什么。 因此,我们在MSRVTT、MSVD和DIDEMO等标准基准上对视频检索模型的组成和句法理解进行了系统研究。 本研究对两类视频检索模型进行了研究:(i)在视频文本对上进行预训练,并在下游视频检索数据集上进行微调的视频检索模型(例如,“冻结时间”、“紫罗兰”、“MCQ”等)(ii)适用预训练的图像文本表示,如用于视频检索的CLIP(例如,CLIP4Clip、XCLIP、CLIP2Video等)。 我们的实验表明,与对象和属性相比,动作和语法在视频理解中的作用较小。 此外,与视频文本数据上的预训练模型相比,使用预训练图像文本表示(CLIP)的视频检索模型具有更好的语法和组成理解。 该代码可在 此https URL