2024年IEEE计算机视觉和模式识别会议
@会议记录{Chalk24a,author=“Jacob Chalk、Jaesung Huh、Evangelos Kazakos、Andrew Zisserman和Dima Damen”,title=“TIM:用于视听动作识别的时间间隔机器”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
不同的动作在长视频中产生丰富的视听信号。最近的作品表明,音频和视频的两种形式表现出不同的事件时间范围和不同的标签。我们通过显式建模音频和视频事件的时间范围来解决长视频中两种模式之间的相互作用。我们提出了时间间隔机器(TIM),其中特定于模型的时间间隔构成对接收长视频输入的变压器编码器的查询。然后,编码器关注指定的间隔,以及两种模式中的周围上下文,以便识别正在进行的动作。我们在三个长的视听视频数据集上测试了TIM:EPIC-KITCHENS、Perception test和AVE,报告了最先进的识别技术(SOTA)。在EPIC-KITCHENS上,我们击败了以前使用LLM的SOTA,并显著提高了2.9%的前1动作识别准确率。此外,我们还表明,TIM可以适应动作检测,使用密集的多尺度区间查询,在大多数指标上都优于EPIC-KITCHENS-100上的SOTA,并且在感知测试中表现出很强的性能。我们的消融显示了整合这两种模式并模拟其时间间隔在实现这一性能方面的关键作用。代码和型号位于:此url
2024年IEEE计算机视觉和模式识别会议
@诉讼中{Han24,author=“Tengda Han和Max Bain以及Arsha Nagrani和G{”u}l Varol和Weidi Xie以及Andrew Zisserman“,title=“{AutoAD III}:前传--回到像素”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
为电影生成音频描述(AD)是一项具有挑战性的任务,需要细粒度的视觉理解以及对角色及其名称的认识。目前,由于缺乏合适的训练数据,用于生成AD的可视化语言模型受到了限制,并且由于使用了非AD领域专用的性能度量,这些模型的评估也受到了阻碍。在本文中,我们做出了三点贡献:(i) 我们提出了两种使用对齐视频数据构建AD数据集的方法,并使用这些方法构建训练和评估数据集。这些数据集将公开发布;(ii)我们开发了一种基于Q-form的架构,该架构使用冻结的预处理视觉编码器和大型语言模型,接收原始视频并生成AD;以及(iii)我们提供了新的评估指标,以对与人的绩效匹配良好的AD质量进行基准测试。总之,我们改进了AD生成的最新技术。
2024年声学、语音和信号处理国际会议
@诉讼程序{Iashin24a,author=“Vladimir Iashin和Weidi Xie以及Esa Rahtu和Andrew Zisserman”,title=“Synchformer:从稀疏提示进行高效同步”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,组织=“IEEE”,}
我们的目标是视听同步,重点放在“现场”视频上,例如YouTube上的视频,其中同步提示可以稀疏的我们的贡献包括一种新颖的视听同步模型,以及通过多模态分段级对比预训练将特征提取与同步建模解耦的训练。这种方法在两方面都达到了最先进的性能稠密的和稀疏的设置。我们还将同步模型训练扩展到了AudioSet上,这是一个百万级的“世界范围内”数据集,研究了可解释性的证据归因技术,并探索了同步模型的一种新功能:视听同步。
2024年声学、语音和信号处理国际会议
@诉讼中{Korbar24,author=“Bruno Korbar和Jaesung Huh以及Andrew Zisserman”,title=“看、听和识别:角色软件视听字幕”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
本文的目标是自动生成角色软件字幕。给定一段视频和最少的元数据,我们提出了一种视听方法,该方法可以生成对话的完整文本,并带有精确的语音时间戳和识别的说话角色。其关键思想是首先使用视听线索为每个字符选择一组高精度的音频样本,然后使用这些样本根据说话人身份对所有语音片段进行分类。值得注意的是,该方法不需要人脸检测或跟踪。我们对包括《宋飞正传》、《弗雷泽》和《Scrubs》在内的多种电视情景喜剧进行了评估。我们设想该系统可用于自动生成字幕,以提高现代流媒体服务上大量视频的可访问性。
2024年声学、语音和信号处理国际会议
@诉讼中{Oncescu24,author=“Andreea Maria Oncescu和Joao ~ F.Henriques和Andrew Zisserman以及Samuel Albanie和A.Sophia Koepke”,title=“声音方法:使用大型语言模型为以自我为中心的文本音频检索生成音频描述”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表不同的数据“视图”,将视觉描述视为音频描述远不是最佳的。即使有音频类标签,它们通常也不是很详细,因此不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型(LLM)生成以音频为中心的描述的方法。在这项工作中,我们考虑了以自我为中心的视频设置,并基于EpicMIR和EgoMCQ任务以及EpicSounds数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述性描述的方法具有明显更高的零快照性能。此外,我们还表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地使用LLM改进EpicSounds上的检索。最后,我们确认LLM可用于确定识别与声音相关的动作的难度。
2024年声学、语音和信号处理国际会议
@诉讼中{Rahimi24,author=“Akam Rahimi和Triantafyllos Afouras以及Andrew Zisserman”,title=“VoiceVector:用于说话人分离的多模注册向量”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
我们提出了一种基于变压器的体系结构,用于将目标扬声器与多个其他扬声器和环境噪声进行语音分离。我们通过使用两个独立的神经网络来实现这一点:(A)一个注册网络,设计用于制作特定于说话人的嵌入,利用音频和视频模式的各种组合;和(B)分离网络,接受噪声信号和注册向量作为输入,输出目标扬声器的干净信号。创新之处在于:(i)入学率可以由以下数据生成:仅音频、视听数据(使用嘴唇运动)或仅视觉数据(使用无声视频中的嘴唇运动);以及(ii)将分离条件设置为多个正负注册向量的灵活性。我们与以前的方法进行了比较,获得了优异的性能。
2024年IEEE计算机视觉和模式识别会议
@诉讼中{Sachdeva24,author=“拉加夫·萨奇德娃和安德鲁·齐瑟曼”,title=“漫画告密者:自动生成漫画脚本”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
在过去的几十年里,日本漫画,通常被称为漫画,已经超越了文化和语言的界限,成为真正的世界轰动。然而,漫画内在对视觉线索和插图的依赖性使得有视觉障碍的人很难理解漫画。在这项工作中,我们寻求解决这一实质性障碍,目的是确保漫画能够得到每个人的欣赏和积极参与。具体来说,我们解决了日记化的问题,即以全自动的方式生成谁说了什么以及何时说的转录。为此,我们做出了以下贡献:(1)我们提出了一个统一的模型Magi,它能够(a)检测面板、文本框和字符框,(b)根据身份对字符进行聚类(不知道先验聚类的数量),以及(c)将对话与说话人关联起来;(2) 我们提出了一种新的方法,能够按照阅读顺序对检测到的文本框进行排序,并生成对话记录;(3) 我们使用公开的[英语]漫画页面为该任务的评估基准添加注释。
2024年IEEE计算机视觉和模式识别会议
@会议记录{Zhan2024,author=“关其战、郑传霞、谢伟迪和安德鲁·齐瑟曼”,title=“Amodal地面真相和野外完成”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
本文研究非对称图像分割:预测包括可见和不可见(遮挡)部分的整个对象分割掩模。在以往的工作中,真实图像上的非对称分割背景真实性通常是通过人工注释来预测的,因此具有主观性。相比之下,我们使用3D数据建立一个自动管道,以确定真实图像中部分遮挡对象的真实地面真相。该管道用于构建一个由各种对象类别和标签组成的非对称完井评估基准MP3D-amodal。为了更好地处理野外的非对称完成任务,我们探索了两种架构变体:一个两阶段模型,首先推断封堵器,然后是非对称掩模完成;以及一个单阶段模型,该模型利用稳定扩散的表示能力跨多个类别进行非对称分割。我们的方法在覆盖多种对象的Amodal分割数据集(包括COCOA和我们的新MP3D-Amode数据集)上实现了最新的性能,没有什么特别之处。数据集、模型和代码位于https://www.robots.ox.ac.uk/~vgg/research/amodal/。
2023年英国机器视觉会议
@诉讼程序{AminiNaieni23,author=“Niki Amini Naieni和Kiana Amini Naieni以及Tengda Han和Andrew Zisserman”,title=“Open-world文本特定对象计数”,booktitle=“英国机器视觉会议”,年=“2023”,organization=“英国机器视觉协会”,address=“英国达勒姆DH1 3LE南路达勒姆大学计算机科学系”,doi=“10.48550/2306.01851”,}
我们的目标是在图像中计算开放世界对象,其中目标对象类由文本描述指定。为此,我们提出了CounTX,这是一个类识别的单级模型,在预训练的联合文本图像表示之上使用了一个变压器-解码器计数头。CounTX能够计算仅给定目标对象类的图像和文本描述的任何类的实例数,并且可以进行端到端的训练。除此模型外,我们还做出了以下贡献:(i)我们将CounTX的性能与之前在开放世界对象计数方面的工作进行了比较,并表明我们的方法在使用文本指定任务的方法的FSC-147基准的所有度量方面都超过了最新技术;(ii)我们提出并发布了FSC-147-D,这是FSC-147的增强版,具有文本描述,因此可以使用比简单类名更详细的语言来描述对象类。
2023年国际演讲
@诉讼中{Bain23,author=“Max Bain和Jaesung Huh以及Tengda Han和Andrew Zisserman”,title=“WhisperX:长格式音频的时间准确语音转录”,booktitle=“INTERSPEECH”,年=“2023”,}
大规模、弱监督的语音识别模型,如Whisper,在跨领域和跨语言的语音识别方面取得了令人印象深刻的结果。然而,他们预测的与每个话语相对应的时间戳很容易不准确,而且单词级的时间戳也不可用——即时可用。此外,由于其顺序性,它们通过缓冲转录应用于长音频时禁止批量推理。为了克服这些挑战,我们提出了WhisperX,这是一种时间准确的语音识别系统,它利用语音活动检测和强制音素对齐来获得单词级时间戳。在这样做的过程中,我们展示了长形式转录和分词基准测试的最先进性能。此外,我们还表明,使用我们提出的VAD剪切与合并策略对音频进行预分割可以提高转录质量,并通过批处理推理实现12倍的转录加速。