2024年IEEE计算机视觉和模式识别会议
@会议记录{Chalk24a,author=“Jacob Chalk、Jaesung Huh、Evangelos Kazakos、Andrew Zisserman和Dima Damen”,title=“TIM:用于视听动作识别的时间间隔机器”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
不同的动作在长视频中产生丰富的视听信号。最近的作品表明,音频和视频的两种形式表现出不同的事件时间范围和不同的标签。我们通过显式建模音频和视频事件的时间范围来解决长视频中两种模式之间的相互作用。我们提出了时间间隔机器(TIM),其中特定于模型的时间间隔构成对接收长视频输入的变压器编码器的查询。编码器然后关注指定的间隔以及两种模式中的周围环境,以便识别正在进行的动作。我们在三个长视听视频数据集上测试TIM:EPIC-KITCHENS、Perception test和AVE,报告最新技术(SOTA)以供识别。在EPIC-KITCHENS上,我们击败了以前使用LLM的SOTA,并显著提高了2.9%的前1动作识别准确率。此外,我们还表明,TIM可以适用于动作检测,使用密集的多尺度区间查询,在大多数指标上优于EPIC-KITCHENS-100上的SOTA,并在感知测试中表现出强大的性能。我们的消融显示了整合这两种模式并模拟其时间间隔在实现这一性能方面的关键作用。代码和型号位于:此url
2023年声学、语音和信号处理国际会议
@诉讼中{Huh23,author=“Jaesung Huh、Jacob Chalk、Evangelos Kazakos、Dima Damen和Andrew Zisserman”,title=“史诗般的声音:听起来像动作的大规模数据集”,booktitle=“声学、语音和信号处理国际会议”,年=“2023”,}
我们引入了Epic-Sounds,这是一个大规模的音频注释数据集,用于捕获Epic-KITCHENS-100中以自我为中心的视频音频流中的时间范围和类标签。我们提出了一个注释管道,注释器在其中临时标记可区分的音频段,并描述可能导致此声音的操作。通过将自由形式的描述分组到类中,我们识别出纯粹可以从音频中区分的动作。对于涉及物体碰撞的动作,我们收集这些物体材料的人工注释(例如,放置在木制表面上的玻璃物体),我们通过视觉标签进行验证,消除模糊性。总的来说,Epic Sounds包括分布在44个类别中的78.4k个分类的听觉事件和动作片段,以及39.2k个非分类片段,总计117.6k个片段,跨越100小时的音频,捕捉家庭厨房中的各种声音动作。我们在我们的数据集上训练和评估了两种最先进的音频识别模型,强调了音频标签的重要性以及当前模型在识别声音动作方面的局限性。
2021年英国机器视觉会议
@会议记录{哈萨克斯坦21,author=“Evangelos Kazakos、Jaesung Huh、Arsha Nagrani、Andrew Zisserman和Dima Damen”,title=“在我的时间背景的帮助下:多模态自我中心行动识别”,booktitle=“英国机器视觉会议”,年=“2021”,}
在以自我为中心的视频中,动作会很快连续发生。我们利用动作的时间上下文,提出一种学习关注周围动作的方法,以提高识别性能。为了合并时间上下文,我们提出了一个基于变换器的多模态模型,该模型将视频和音频作为输入模式,并使用显式语言模型提供动作序列上下文来增强预测。我们在EPIC-KITCHENS和EGTEA数据集上测试了我们的方法,这些数据集报告了最先进的性能。我们的消融展示了利用时间上下文以及结合音频输入模态和语言模型来重新存储的优势预言。
哈萨克斯坦东部,A.纳格拉尼,A.齐瑟曼,D.达门杰出论文奖
2021年声学、语音和信号处理国际会议
@诉讼程序{Kazakos21a,author=“Evangelos Kazakos和Arsha Nagrani以及Andrew Zisserman和Dima Damen”,title=“{用于音频识别的慢速听觉流}”,booktitle=“声学、语音和信号处理国际会议”,年=“2021”,}
我们提出了一种用于音频识别的两流卷积网络,该网络对时频谱图输入进行操作。在视觉识别方面取得了类似的成功之后,我们学习了具有可分离卷积和多级横向连接的慢-快听觉流。慢速路径具有较高的信道容量,而快速路径以精细的时间分辨率运行。我们在两个不同的数据集(VGG-Sound和EPIC-KITCHENS-100)上展示了我们的双流提案的重要性,并在这两个数据集上取得了最先进的成果。
2019年IEEE国际计算机视觉会议
@诉讼中{哈萨克斯坦19,author=“Evangelos Kazakos和Arsha Nagrani以及Andrew Zisserman和Dima Damen”,title=“EPIC融合:自我中心行动识别的视听时间绑定”,booktitle=“IEEE计算机视觉国际会议”,year=“2019”,}
我们专注于以自我为中心的动作识别的多模态融合,并提出了一种新的多模态时间绑定架构,即在一定时间偏移范围内的模态组合。我们使用三种模式(RGB、Flow和Audio)训练体系结构,并将它们与中级融合以及融合表示的稀疏时间采样相结合。与之前的工作相比,模态在时间聚集之前进行融合,随着时间的推移共享模态和融合权重。我们提出的架构是端到端训练的,优于单个模式和延迟融合模式。我们证明了音频在以自我为中心的视觉中的重要性,在每个类的基础上,用于识别动作以及交互对象。我们的方法在使用公共排行榜的所有指标上,在最大的以自我为中心的数据集EPIC-Chetchens的可见和不可见测试集上都取得了最先进的结果。