2024年IEEE计算机视觉和模式识别会议
@会议记录{Chalk24a,author=“Jacob Chalk、Jaesung Huh、Evangelos Kazakos、Andrew Zisserman和Dima Damen”,title=“TIM:用于视听动作识别的时间间隔机器”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
不同的动作在长视频中产生丰富的视听信号。最近的作品表明,音频和视频的两种形式表现出不同的事件时间范围和不同的标签。我们通过显式建模音频和视频事件的时间范围来解决长视频中两种模式之间的相互作用。我们提出了时间间隔机器(TIM),其中特定于模型的时间间隔构成对接收长视频输入的变压器编码器的查询。编码器然后关注指定的间隔以及两种模式中的周围环境,以便识别正在进行的动作。我们在三个长视听视频数据集上测试TIM:EPIC-KITCHENS、Perception test和AVE,报告最新技术(SOTA)以供识别。在EPIC-KITCHENS上,我们击败了以前使用LLM的SOTA,并显著提高了2.9%的前1动作识别准确率。此外,我们还表明,TIM可以适应动作检测,使用密集的多尺度区间查询,在大多数指标上都优于EPIC-KITCHENS-100上的SOTA,并且在感知测试中表现出很强的性能。我们的消融显示了整合这两种模式并模拟其时间间隔在实现这一性能方面的关键作用。代码和型号位于:此url
IEEE/ACM音频、语音和语言处理汇刊,第32卷,第3850-38662024页
@第{Huh24条,author=“Jaesung Huh、Joon Son Chung、Arsha Nagrani、Andrew Brown、Jee-weon Jung、Daniel Garcia-Romero和Andrew Zisserman”,title=“VoxCele演讲者识别挑战:回顾”,journal=“IEEE/ACM音频、语音和语言处理事务”,volume=“32”,pages=“3850--3866”,年份=“2024”,publisher=“IEEE”,keywords=“说话人识别,说话人日记”,doi=“10.1109/TASLP.2024.344456”,}
VoxCeleb扬声器识别挑战(VoxSRC)是一系列挑战和研讨会,从2019年至2023年每年举办一次。这些挑战主要评估了不同环境下的说话人识别和日记任务,包括:封闭和开放训练数据;以及领域适应的监督、自我监督和半监督培训。这些挑战还为每项任务和设置提供了公开的培训和评估数据集,每年都会发布新的测试集。在本文中,我们回顾了这些挑战,包括:他们探索了什么;挑战参与者开发的方法及其演变过程;以及说话人验证和日记化领域的当前状态。我们在一个通用的评估数据集上绘制了挑战的五个阶段的绩效进展图,并详细分析了每年的特别关注如何影响参与者的绩效。本文的目标读者既有希望了解说话人识别和日记领域概况的研究人员,也有希望从VoxSRC挑战的成功经验中受益并避免错误的挑战组织者。最后,我们讨论了该领域当前的优势和面临的挑战。项目页面:此url
2024年声学、语音和信号处理国际会议
@诉讼中{Korbar24,author=“Bruno Korbar和Jaesung Huh以及Andrew Zisserman”,title=“看、听和识别:角色软件视听字幕”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
本文的目标是自动生成角色软件字幕。给定一段视频和最少的元数据,我们提出了一种视听方法,该方法可以生成对话的完整文本,并带有精确的语音时间戳和识别的说话角色。其关键思想是首先使用视听线索为每个字符选择一组高精度的音频样本,然后使用这些样本根据说话人身份对所有语音片段进行分类。值得注意的是,该方法不需要人脸检测或跟踪。我们对包括《宋飞正传》、《弗雷泽》和《Scrubs》在内的多种电视情景喜剧进行了评估。我们设想该系统可用于自动生成字幕,以提高现代流媒体服务上大量视频的可访问性。
2023年国际演讲
@在诉讼中{Bain23,author=“Max Bain和Jaesung Huh、Tengda Han和Andrew Zisserman”,title=“WhisperX:长格式音频的时间准确语音转录”,booktitle=“INTERSPEECH”,年=“2023”,}
大规模、弱监督的语音识别模型,如Whisper,在跨领域和跨语言的语音识别方面取得了令人印象深刻的结果。然而,他们预测的与每个话语相对应的时间戳很容易不准确,而且单词级的时间戳也不可用——即时可用。此外,由于其顺序性,它们通过缓冲转录应用于长音频时禁止批量推理。为了克服这些挑战,我们提出了WhisperX,这是一种时间准确的语音识别系统,它利用语音活动检测和强制音素对齐来获得单词级时间戳。在这样做的过程中,我们展示了长形式转录和分词基准测试的最先进性能。此外,我们还表明,使用我们提出的VAD剪切与合并策略对音频进行预分割可以提高转录质量,并通过批处理推理实现12倍的转录加速。
2023年声学、语音和信号处理国际会议
@诉讼中{Huh23,author=“Jaesung Huh、Jacob Chalk、Evangelos Kazakos、Dima Damen和Andrew Zisserman”,title=“史诗般的声音:声音动作的大规模数据集”,booktitle=“声学、语音和信号处理国际会议”,年=“2023”,}
我们引入了Epic-Sounds,这是一个大规模的音频注释数据集,用于捕获Epic-KITCHENS-100中以自我为中心的视频音频流中的时间范围和类标签。我们提出了一个注释管道,注释器在其中临时标记可区分的音频段,并描述可能导致此声音的操作。通过将自由形式的描述分组到类中,我们识别出纯粹可以从音频中区分的动作。对于涉及物体碰撞的动作,我们收集这些物体材料的人工注释(例如,放置在木制表面上的玻璃物体),我们通过视觉标签进行验证,消除模糊性。总的来说,《史诗之声》包括分布在44个类别中的78.4k个音频事件和动作分类片段,以及39.2k个非分类片段,总计117.6k个片段,跨越100小时的音频,捕捉了家庭厨房中发出的各种声音。我们在我们的数据集上训练和评估了两种最先进的音频识别模型,强调了音频标签的重要性以及当前模型在识别声音动作方面的局限性。
2021年声学、语音和信号处理国际会议
@诉讼中{Brown21b,author=“安德鲁·布朗、杰桑·胡、阿尔沙·纳格拉尼、琼森·钟和安德鲁·齐瑟曼”,title=“扮演角色:电影中的演讲者验证”,booktitle=“声学、语音和信号处理国际会议”,年=“2021”,}
这项工作的目的是调查流行的说话人识别模型在电影中的语音片段上的性能,在这些片段中,演员经常故意伪装自己的声音来扮演角色。我们做出了以下三个贡献:(i)我们收集了一个新颖的、具有挑战性的说话人识别数据集,称为VoxMovies,其中包含近4000个电影剪辑中856个身份的语音。VoxMovies包含不同情绪、口音和背景噪音的话语,因此与当前说话人识别数据集(如VoxCeleb)中的访谈式、情绪平静的话语构成了完全不同的领域;(ii)我们提供了许多领域适应评估集,并在这些评估对上对最先进的说话人识别模型的性能进行了基准测试。我们证明,在这个新数据上,说话人验证和识别性能都急剧下降,这表明跨域传输模型面临挑战;最后(iii)我们表明,简单的领域适应范式可以提高性能,但仍有很大的改进空间。
2021年英国机器视觉会议
@会议记录{哈萨克斯坦21,author=“Evangelos Kazakos、Jaesung Huh、Arsha Nagrani、Andrew Zisserman和Dima Damen”,title=“在我的时间背景的帮助下:多模态自我中心行动识别”,booktitle=“英国机器视觉会议”,年=“2021”,}
在以自我为中心的视频中,动作会很快连续发生。我们利用动作的时间上下文,提出一种学习关注周围动作的方法,以提高识别性能。为了合并时间上下文,我们提出了一个基于变换器的多模态模型,该模型将视频和音频作为输入模式,并使用显式语言模型提供动作序列上下文来增强预测。我们在EPIC-KITCHENS和EGTEA数据集上测试了我们的方法,这些数据集报告了最先进的性能。我们的消融展示了利用时间上下文以及结合音频输入模式和语言模型来重新搜索的优势预言。
INTERSPEECH,2020年
@诉讼中{Chung20,author=“Joon Son Chung、Jaesung Huh、Arsha Nagrani、Triantafyllos Afouras和Andrew Zisserman”,title=“发现对话:演讲者在野外日记”,booktitle=“INTERSPEECH”,年=“2020”,}
本文的目的是对“野外”收集的视频进行演讲者日记。我们做出了三个关键贡献。首先,我们提出了一种针对YouTube视频的自动视听日记方法。我们的方法包括使用视听方法的主动说话人检测和使用自编扬声器模型的说话人验证。其次,我们将我们的方法集成到一个半自动的数据集创建管道中,这大大减少了用日记标签注释视频所需的小时数。最后,我们使用该管道创建了一个名为VoxConverse的大型日记数据集,该数据集是从“野外”视频中收集的,我们将向研究社区公开发布。我们的数据集由重叠的语音、庞大而多样的说话人群和具有挑战性的背景条件组成。