视觉几何组-牛津大学

TIM：一种用于视听动作识别的时间间隔机器

J.白垩,J.嗯,E.哈萨克人，A.齐瑟曼，D.达门

2024年IEEE计算机视觉和模式识别会议

下载出版物：

不同的动作在长视频中产生丰富的视听信号。最近的作品表明，音频和视频的两种形式表现出不同的事件时间范围和不同的标签。我们通过显式建模音频和视频事件的时间范围来解决长视频中两种模式之间的相互作用。我们提出了时间间隔机（TIM），其中特定于模态的时间间隔作为对摄取长视频输入的变换器编码器的查询。编码器然后关注指定的间隔以及两种模式中的周围环境，以便识别正在进行的动作。我们在三个长视听视频数据集上测试TIM：EPIC-KITCHENS、Perception test和AVE，报告最新技术（SOTA）以供识别。在EPIC-KITCHENS上，我们击败了以前使用LLM的SOTA，并显著提高了2.9%的前1动作识别准确率。此外，我们还表明，TIM可以适应动作检测，使用密集的多尺度区间查询，在大多数指标上都优于EPIC-KITCHENS-100上的SOTA，并且在感知测试中表现出很强的性能。我们的消融显示了整合这两种模式并模拟其时间间隔在实现这一性能方面的关键作用。代码和型号位于：此url

链接：

BibTeX参考：

@会议记录{Chalk24a，author=“Jacob Chalk、Jaesung Huh、Evangelos Kazakos、Andrew Zisserman和Dima Damen”，title=“TIM:用于视听动作识别的时间间隔机器”，booktitle=“IEEE计算机视觉和模式识别会议”，年=“2024”，}

数据库中的其他出版物：

»雅各布·乔克
»Jaesung Huh
»Evangelos Kazakos公司
»安德鲁·齐瑟曼
»迪马·达门

出版物

TIM：一种用于视听动作识别的时间间隔机器

链接：

代码

项目页面

arXiv公司

BibTeX参考：

数据库中的其他出版物：