本材料旨在确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



TIM:一种用于视听动作识别的时间间隔机器

J.白垩,J.嗯,E.哈萨克人,A.齐瑟曼,D.达门
2024年IEEE计算机视觉和模式识别会议
下载出版物:粉笔24a.pdf[8.5Mo] 
不同的动作在长视频中产生丰富的视听信号。最近的作品表明,音频和视频的两种形式表现出不同的事件时间范围和不同的标签。我们通过显式建模音频和视频事件的时间范围来解决长视频中两种模式之间的相互作用。我们提出了时间间隔机(TIM),其中特定于模态的时间间隔作为对摄取长视频输入的变换器编码器的查询。编码器然后关注指定的间隔以及两种模式中的周围环境,以便识别正在进行的动作。我们在三个长视听视频数据集上测试TIM:EPIC-KITCHENS、Perception test和AVE,报告最新技术(SOTA)以供识别。在EPIC-KITCHENS上,我们击败了以前使用LLM的SOTA,并显著提高了2.9%的前1动作识别准确率。此外,我们还表明,TIM可以适应动作检测,使用密集的多尺度区间查询,在大多数指标上都优于EPIC-KITCHENS-100上的SOTA,并且在感知测试中表现出很强的性能。我们的消融显示了整合这两种模式并模拟其时间间隔在实现这一性能方面的关键作用。代码和型号位于:此url

链接:


BibTeX参考:

@会议记录{Chalk24a,author=“Jacob Chalk、Jaesung Huh、Evangelos Kazakos、Andrew Zisserman和Dima Damen”,title=“TIM:用于视听动作识别的时间间隔机器”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}

数据库中的其他出版物: