雅各布·乔克*1,Jaesung Huh公司*2,伊万格洛斯·哈萨克斯,安德鲁·齐瑟曼2迪玛·达门1

1布里斯托尔大学计算机科学系,2牛津大学,VGG,布拉格捷克技术大学

*表示贡献相等

概述

摘要

不同的动作在长视频中产生丰富的视听信号。最近的作品表明,音频和视频的两种形式表现出不同的事件时间范围和不同的标签。我们通过显式建模音频和视频事件的时间范围来解决长视频中两种模式之间的相互作用。我们提出了时间间隔机器(TIM),其中特定于模型的时间间隔构成对接收长视频输入的变压器编码器的查询。编码器然后关注指定的间隔以及两种模式中的周围环境,以便识别正在进行的动作。

我们在三个长视听视频数据集上测试TIM:EPIC-KITCHENS、Perception test和AVE,报告最新技术(SOTA)以供识别。在EPIC-KITCHENS上,我们击败了以前使用LLM的SOTA,并显著提高了2.9%的前1动作识别准确率。此外,我们还表明,TIM可以适应动作检测,使用密集的多尺度区间查询,在大多数指标上都优于EPIC-KITCHENS-100上的SOTA,并且在感知测试中表现出很强的性能。我们的消融显示了整合这两种模式并模拟其时间间隔在实现这一性能方面的关键作用。代码和型号位于:https://github.com/JacobChalk/TIM.

视频

下载

Biptex公司

@会议记录{Chalk2024TIM,作者={Chalk,Jacob and Huh,Jaesung and Kazakos,Evangelos and Zisserman,Andrew and Damen,Dima},标题={{TIM}:{A}{T} 国际货币基金组织 {一} 间歇 {M} 机器{A} 音频输出-{五} 视觉的 {A} 动作 {R} 承认},booktitle={IEEE/CVF计算机视觉和模式识别(CVPR)会议记录},月={6月},年份={2024}}

致谢

这项工作使用公共数据集。它得到了EPSRC博士培训项目、EPSRC UMPIRE EP/T004991/1和EPSRC项目资助VisualAI EP/T028572/1的支持;以及使用EPSRC资助的二级贷款JADE-II。