伊万格洛斯·哈萨克斯1,Jaesung啊2,阿尔沙·纳格拉尼†2,安德鲁·齐瑟曼2迪玛·达门1

1布里斯托尔大学计算机科学系,2牛津大学,VGG

概述

摘要

在以自我为中心的视频中,动作会很快连续发生。我们利用动作的时间上下文,提出一种学习关注周围动作的方法,以提高识别性能。为了合并时间上下文,我们提出了一个基于变换器的多模态模型,该模型将视频和音频作为输入模式,并使用显式语言模型提供动作序列上下文来增强预测。我们在EPIC-KITCHENS和EGTEA数据集上测试了我们的方法,这些数据集报告了最先进的性能。我们的消融展示了利用时间背景以及结合音频输入模式和语言模型重新搜索预测的优势。

视频

下载

Biptex公司

@进行中{哈萨克斯坦2021MTCN,author={Kazakos、Evangelos和Huh、Jaesung和Nagrani、Arsha和Zisserman、Andrew和Damen、Dima},booktitle={英国机器视觉会议(BMVC)},title={借助我的时间语境:多式自我中心主义行动识别},年份={2021}}

致谢

这项工作使用了公共数据集,并得到了EPSRC博士培训计划、EPSRC UMPIRE(EP/T004991/1)和EPSRC计划资助VisualAI(EP/T028572/1)的支持。Jaesung Huh由全球韩国奖学金资助。

现在在谷歌研究