2024年欧洲计算机视觉会议
@在诉讼中{Bhalgat24,author=“Yash Bhalgat and Iro Laina and Joao ~ F.Henriques and Andrea Vedaldi and Andrew Zisserman”,title=“{N2F2}:嵌套神经特征场的分层场景理解”,booktitle=“欧洲计算机视觉会议”,年=“2024”,}
在计算机视觉中,在多个抽象层次上理解复杂场景仍然是一项艰巨的挑战。为了解决这个问题,我们引入了Nested Neural Feature Fields(N2F2),这是一种新的方法,它使用分层监督来学习单个特征字段,其中同一高维特征中的不同维度以不同的粒度编码场景属性。我们的方法允许灵活定义层次结构,根据物理维度或语义或两者进行定制,从而实现对场景的全面而细致的理解。我们利用2D类认知分割模型在图像空间中以任意比例提供语义上有意义的像素分组,并查询CLIP视觉编码器以获得这些分段的语言对齐嵌入。然后,我们提出的分层监督方法指定特征字段的不同嵌套维度,以使用不同物理尺度的延迟体积渲染提取CLIP嵌入,从而创建一种从粗到细的表示。大量实验表明,在诸如开放词汇表三维分割和定位等任务中,我们的方法优于最新的特征场提取方法,证明了学习到的嵌套特征场的有效性。
2024年IEEE计算机视觉和模式识别会议
@会议记录{Chalk24a,author=“Jacob Chalk、Jaesung Huh、Evangelos Kazakos、Andrew Zisserman和Dima Damen”,title=“TIM:用于视听动作识别的时间间隔机器”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
不同的动作在长视频中产生丰富的视听信号。最近的作品表明,音频和视频的两种形式表现出不同的事件时间范围和不同的标签。我们通过显式建模音频和视频事件的时间范围来解决长视频中两种模式之间的相互作用。我们提出了时间间隔机器(TIM),其中特定于模型的时间间隔构成对接收长视频输入的变压器编码器的查询。编码器然后关注指定的间隔以及两种模式中的周围环境,以便识别正在进行的动作。我们在三个长视听视频数据集上测试TIM:EPIC-KITCHENS、Perception test和AVE,报告最新技术(SOTA)以供识别。在EPIC-KITCHENS上,我们击败了以前使用LLM的SOTA,并显著提高了2.9%的前1动作识别准确率。此外,我们还表明,TIM可以适应动作检测,使用密集的多尺度区间查询,在大多数指标上都优于EPIC-KITCHENS-100上的SOTA,并且在感知测试中表现出很强的性能。我们的消融显示了整合这两种模式并模拟其时间间隔在实现这一性能方面的关键作用。代码和型号:此url
2024年IEEE计算机视觉和模式识别会议
@会议记录{哈密尔顿24,author=“马克·汉密尔顿(Mark Hamilton)、安德鲁·齐瑟曼(Andrew Zisserman)、约翰·赫尔希(John R.Hershey)和威廉·弗里曼(William T.Freeman)”,title=“将“唧唧声”从“聊天”中分离出来:声音和语言的自我监督视觉基础”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
我们介绍了DenseAV,这是一种新型的双编码器接地架构,它只通过观看视频学习高分辨率、语义上有意义和视听对齐的功能。我们表明,DenseAV可以发现单词的“含义”和声音的“位置”,而无需明确的本地化监管。此外,它会自动发现并区分这两种类型的协会,而无需进行歧视性监督。我们表明,我们的高质量定位能力源自一种新的多头部特征聚合算子,该算子直接比较稠密图像和音频表示,以进行对比学习。相比之下,许多其他学习“全局”音频和视频表示的系统并没有显示高质量的单词和声音本地化。最后,我们贡献了两个新的数据集,通过语音和声音提示的语义分割来改进AV表示的评估。在这些和其他数据集上,我们显示DenseAV在语音和声音提示的语义分割方面显著优于现有技术。DenseAV在使用不到一半的参数进行跨模式检索方面优于当前最先进的ImageBind。
2024年IEEE计算机视觉和模式识别会议
@诉讼中{Han24,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“{AutoAD III}:前传--回到像素”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
为电影生成音频描述(AD)是一项具有挑战性的任务,需要细粒度的视觉理解以及对角色及其名称的认识。目前,由于缺乏合适的训练数据,用于生成AD的可视化语言模型受到了限制,并且由于使用了非AD领域专用的性能度量,这些模型的评估也受到了阻碍。在本文中,我们做出了三点贡献:(i) 我们提出了两种使用对齐的视频数据构建AD数据集的方法,并使用这些方法构建训练和评估数据集。这些数据集将公开发布;(ii)我们开发了一种基于Q-form的架构,该架构使用冻结的预处理视觉编码器和大型语言模型,接收原始视频并生成AD;以及(iii)我们提供了新的评估指标,以对与人的绩效匹配良好的AD质量进行基准测试。总之,我们提高了AD生成的技术水平。
IEEE/ACM音频、语音和语言处理汇刊,第32卷,第3850-38662024页
@第{Huh24条,author=“Jaesung Huh、Joon Son Chung、Arsha Nagrani、Andrew Brown、Jee-weon Jung、Daniel Garcia-Romero和Andrew Zisserman”,title=“VoxCele演讲者识别挑战:回顾”,journal=“IEEE/ACM音频、语音和语言处理事务”,volume=“32”,pages=“3850--3866”,年=“2024”,publisher=“IEEE”,keywords=“说话人识别,说话人日记”,doi=“10.1109/TASLP.2024.344456”,}
VoxCeleb扬声器识别挑战(VoxSRC)是一系列挑战和研讨会,从2019年至2023年每年举办一次。这些挑战主要评估了不同环境下的说话人识别和日记任务,包括:封闭和开放训练数据;以及领域适应的监督、自我监督和半监督培训。这些挑战还为每项任务和设置提供了公开的培训和评估数据集,每年都会发布新的测试集。在本文中,我们回顾了这些挑战,包括:他们探索了什么;挑战参与者开发的方法及其演变过程;以及说话人验证和日记化领域的当前状态。我们在一个通用的评估数据集上绘制了挑战的五个阶段的绩效进展图,并详细分析了每年的特别关注如何影响参与者的绩效。本文的目标读者既有希望了解说话人识别和日记领域概况的研究人员,也有希望从VoxSRC挑战的成功经验中受益并避免错误的挑战组织者。最后,我们讨论了该领域当前的优势和面临的挑战。项目页面:此url
2024年声学、语音和信号处理国际会议
@诉讼中{Iashin24a,author=“弗拉基米尔·拉欣(Vladimir Iashin)、谢伟迪(Weidi Xie)、埃萨·拉图(Esa Rahtu)和安德鲁·齐瑟曼(Andrew Zisserman)”,title=“Synchformer:稀疏线索的高效同步”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,组织=“IEEE”,}
我们的目标是视听同步,重点放在“现场”视频上,例如YouTube上的视频,其中同步提示可以稀疏的我们的贡献包括一种新颖的视听同步模型,以及通过多模态分段级对比预训练将特征提取与同步建模解耦的训练。这种方法在两方面都达到了最先进的性能稠密的和稀疏的设置。我们还将同步模型训练扩展到了AudioSet上,这是一个百万级的“世界范围内”数据集,研究了可解释性的证据归因技术,并探索了同步模型的一种新功能:视听同步。
2024年声学、语音和信号处理国际会议
@诉讼中{Korbar24,author=“Bruno Korbar和Jaesung Huh以及Andrew Zisserman”,title=“看、听和识别:角色软件视听字幕”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
本文的目标是自动生成角色软件字幕。给定一段视频和最少的元数据,我们提出了一种视听方法,该方法可以生成对话的完整文本,并带有精确的语音时间戳和识别的说话角色。其关键思想是首先使用视听线索为每个字符选择一组高精度的音频样本,然后使用这些样本根据说话人身份对所有语音片段进行分类。值得注意的是,该方法不需要人脸检测或跟踪。我们对包括《宋飞正传》、《弗雷泽》和《Scrubs》在内的多种电视情景喜剧进行了评估。我们设想该系统可用于自动生成字幕,以提高现代流媒体服务上大量视频的可访问性。
B.科尔巴,Y.Xian,A.托尼奥尼,A.齐瑟曼,F.汤巴里
2024年欧洲计算机视觉会议
@诉讼中{Korbar24a,author=“Bruno Korbar和Yongqin Xian以及Alessio Tonioni和Andrew Zisserman以及Federico Tombari”,title=“用于长格式视频理解的文本条件重采样器”,booktitle=“欧洲计算机视觉会议”,年=“2024”,}
本文提出了一种文本条件视频重采样(TCR)模块,该模块使用预先训练和冻结的视觉编码器和大型语言模型(LLM)来处理任务的长视频序列。TCR根据给定的文本条件定位视频中的相关视觉特征,并将其提供给LLM以生成文本响应。由于其轻量级设计和交叉注意力的使用,TCR可以在不优化实现的情况下,以普通注意力一次处理100多帧。我们做出了以下贡献:(i)我们设计了一种基于转换器的采样架构,可以处理以任务为条件的长视频,以及一种训练方法,使其能够桥接预先训练的视觉和语言模型;(ii)我们确定可以从较长视频感知中受益的任务;以及(iii)我们实证验证了其在各种评估任务中的有效性,包括NextQA、EgoSchema和EGO4D-LTA挑战。
2024年声学、语音和信号处理国际会议
@诉讼中{Oncescu24,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)和若奥·F·亨利克斯(Joao~F.Henriques)、安德鲁·齐瑟曼(Andrew Zisserman)、塞缪尔·阿尔巴尼(Samuel Albanie)和A.索菲亚·科普克(A,title=“声音方法:使用大型语言模型生成音频描述,用于以自我为中心的文本音频检索”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表不同的数据“视图”,将视觉描述视为音频描述远不是最佳的。即使有音频类标签,它们通常也不是很详细,因此不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型(LLM)生成以音频为中心的描述的方法。在这项工作中,我们考虑了以自我为中心的视频设置,并基于EpicMIR和EgoMCQ任务以及EpicSounds数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述性描述的方法具有明显更高的零快照性能。此外,我们还表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地使用LLM改进EpicSounds上的检索。最后,我们确认LLM可用于确定识别与声音相关的动作的难度。
2024年国际演讲
@会议记录{Prajwal24,author=“K R Prajwal and Triantafyllos Afouras and Andrew Zisserman”,title=“语音识别模型是强大的唇读器”,booktitle=“INTERSPEECH”,年=“2024”,keywords=“唇读,asr”,}
在这项工作中,我们展示了一个大型的预训练ASR模型可以用于进行唇读。我们的方法使像Whisper这样的ASR模型能够解释视频中的嘴唇运动并输出文本转录。我们通过学习从唇音序列到语音序列的跨模态映射来实现这一点,从而允许预训练的ASR模型直接执行唇读。通过预处理、冻结的ASR模型,通过反向传播文本标签上的交叉熵损失,可以简单地学习映射。与以前的唇读方法相比,在LRS3基准的低数据状态下,我们获得了5.7 WER的令人印象深刻的增益。最后,我们证明了同样的策略可以扩展到其他视觉语音任务,例如识别无声视频中的口语。