音频波形
Vox电影
一个新的、具有挑战性的说话人识别领域和数据集

数据集示例

以下是VoxMovies中三种身份的示例语句,以及VoxCeleb中相同身份的对比语句。
VoxMovies中的话语在每个身份的情绪、口音和背景噪音方面都有很大的差异。这与VoxCeleb冷静的访谈式言论形成了对比。





  
    



  
    



  
    

关于

VoxMovies是一个音频数据集,包含来自不同情感、口音和背景噪音电影的声音。

为了提高说话人识别系统在这个全新领域的性能,VoxMovies包含了许多领域自适应评估集。

856

扬声器

VoxMovies包含VoxCeleb1和VoxCelet2(说话人识别训练数据集)中说话人的语音,允许调查同一身份中的域更改。




1452年

影视

VoxMovies来源于浓缩电影数据集。这些电影涵盖了许多不同的类型,如喜剧、动作片、浪漫片和恐怖片。




8,905

言语

VoxMovies由音频剪辑组成。平均而言,每个身份都有2.7部不同电影的话语。因此,在每个身份内以及身份之间都可以看到情绪和背景噪音的变化。





性别

VoxMovies中的电影类型




性别

言语长度




下载并编码

数据集由训练和测试分区组成,以及几个领域自适应评估集。对于更多详细信息,请查看这个纸张.评估代码可以是建立在这里.

此网站暂时无法提供音频文件。

许可证

VoxMovies数据集可以下载用于商业/研究目的Creative Commons Attribution 4.0国际许可。版权归视频的原始所有者所有。可以找到许可证的完整版本在这里。

注意:我们注意到,VoxMovies数据集中的身份分布可能无法代表全球人口。在培训或部署根据此数据进行培训或评估的模型时,请注意意外的社会、性别、种族和其他偏见。

如果您对数据集有任何疑问,请联系以下作者。

出版物

如果您使用数据集,请引用以下内容。

2021年国际声学、语音和信号处理会议


2019年计算机科学与语言


2020年亚洲计算机视觉大会。



*同等贡献

鸣谢

这项工作得到了EPSRC计划拨款的支持参见bibyte EP/M013774/1:大数据时代的可视化搜索。