出版物
如果您使用数据集,请引用以下内容。
2021年国际声学、语音和信号处理会议
@诉讼中{Brown20b,title={扮演角色:在电影中验证演讲者},作者={Andrew Brown和Jaesung Huh和Arsha Nagrani和Joon Son Chung和Andrew Zisserman},年份={2020年},booktitle={声学、语音和信号处理国际会议(ICASSP),2021}}
这项工作的目的是调查流行的说话人识别模型在电影中的语音片段上的性能,在这些片段中,演员经常故意伪装自己的声音来扮演角色。我们做出了以下三个贡献:(i)我们收集了一个新颖的、具有挑战性的说话人识别数据集,称为VoxMovies,其中包含近4000个电影剪辑中856个身份的语音。VoxMovies包含不同情绪、口音和背景噪音的话语,因此与当前说话人识别数据集(如VoxCeleb)中的访谈式、情绪平静的话语构成了完全不同的领域;(ii)我们提供了许多领域适应评估集,并在这些评估对上对最先进的说话人识别模型的性能进行了基准测试。我们证明,在这一新数据上,说话人验证和识别性能都急剧下降,这表明在跨领域传输模型方面存在挑战;最后(iii)我们表明,简单的领域适应范式可以提高性能,但仍有很大的改进空间。
2019年计算机科学与语言
@第{Nagrani19条,author=“Arsha Nagrani和Joon~宋忠、谢伟迪和安德鲁·齐瑟曼”,title=“Voxceleb:野外大型扬声器验证”,journal=“计算机科学与语言”,year=“2019”,publisher=“爱思唯尔”,}
这项工作的目的是在噪声和无约束条件下进行说话人识别。我们做出了两项关键贡献。首先,我们介绍了一个使用全自动管道从开源媒体收集的非常大规模的视听数据集。大多数现有的说话人识别数据集包含在相当有限的条件下获得的样本,通常需要手动注释,因此大小有限。我们提出了一种基于计算机视觉技术的管道,用于从开源媒体创建数据集。我们的渠道包括从YouTube获取视频;使用两流同步卷积神经网络(CNN)进行主动说话人验证,并使用基于CNN的面部识别来确认说话人的身份。我们使用此管道管理VoxCeleb,其中包含来自6000多名演讲者的一百多万条真实世界话语。这比任何公开的说话人识别数据集都大几倍。其次,我们开发并比较了不同的CNN架构,以及各种聚合方法和训练损失函数,这些方法可以在各种条件下有效地从语音中识别身份。根据我们的数据集训练的模型的性能大大超过了以前的工作。
2020年亚洲计算机视觉大会。
@诉讼中{Bain20,author=“Max Bain和Arsha Nagrani以及Andrew Brown和Andrew Zisserman”,title=“压缩电影:基于故事的检索和上下文嵌入”,booktitle=“亚洲计算机视觉会议”,年=“2020”,}
我们在这项工作中的目标是长期了解电影的叙事结构。我们不考虑整部电影,而是建议从电影的“关键场景”中学习,对整个故事情节进行浓缩。为此,我们做出了以下三个贡献:(i)我们创建了压缩电影数据集(CMD),它由来自3K多部电影的关键场景组成:每个关键场景都伴随着场景的高级语义描述、角色脸轨和电影的元数据。该数据集是可伸缩的,可以从YouTube自动获取,任何人都可以免费下载和使用。它在电影数量上也比现有的电影数据集大一个数量级;(ii)我们为我们的数据集上的文本到视频检索提供了一个深度网络基线,将字符、语音和视觉线索组合到单个视频嵌入中;最后(iii)我们演示了从其他视频剪辑中添加上下文如何提高检索性能。
*同等贡献